ReLoad (Repository for Linked Open Archival Data) è un progetto realizzato dall’Archivio Centrale dello Stato, dall’Istituto per i Beni culturali dell’Emilia Romagna e da Regesta.exe con l’obiettivo di sperimentare le metodologie del semantic web e le tecnologie standard per i linked open data (LOD) per favorire la condivisione di informazioni archivistiche provenienti da una molteplicità di fonti.
ReLoad si propone come punto di raccolta e accesso a risorse archivistiche distribuite, pubblicate in formato LOD. L’approccio adottato mira alla condivisione delle descrizioni archivistiche di dettaglio e programmaticamente non considera in questa fase la possibilità di creare un “portale” di accesso a risorse archivistiche.
L’obiettivo del progetto è di verificare le possibilità di creare una “rete di dati archivistici collegati”, di approfondire le potenzialità derivanti dalla combinazione e dall’integrazione di diverse collezioni di dati, sfruttando le potenzialità di link a risorse comuni per creare modalità di accesso condivise (per luoghi, enti e persone, tematismi, ecc.).
Il programma di lavoro
L’attività preliminare per la realizzazione del progetto è stata la definizione di una ontologia per la descrizione archivistica (OAD) espressa in linguaggio OWL (Ontology Web Language) con l’obiettivo di definire classi e proprietà per una esposizione nel Web of Data delle risorse archivistiche.
La definizione dell’ontologia OAD ha richiesto un’analisi preliminare dei dati e dei metadati tipicamente presenti in uno strumento di descrizione archivistica, per comprendere quali oggetti trattare come “risorse” (le “classi” dell’ontologia) cui assegnare degli URI (Uniform Resource Identifier) e quali invece considerare come “proprietà” di una determinata risorsa.
I meccanismi formali forniti dallo standard RDF e da OWL hanno consentito di ricondurre gli elementi informativi delle descrizioni archivistiche espresse in OAD ad una ontologia “esterna” di concetti archivistici rappresentativi della tradizione descrittiva internazionale e basati sullo standard ISAD (G), di cui è stata approntata un’apposita ontologia in formato SKOS proposta ed utilizzata come modello concettuale di riferimento.
Per ampliare il dominio di conoscenza delle risorse archivistiche oggetto della sperimentazione, sono stati analizzati diversi titolari utilizzati per la classificazione della documentazione descritta negli inventari: il titolario della Direzione Generale dell’Agricoltura, il titolario in uso dal 1960 presso la Provincia di Piacenza, il titolario Astengo del 1897 utilizzato per la classificazione del carteggio amministrativo dei Comuni e alcune varianti di quest’ultimo. I titolari sono stati rappresentati in formato SKOS (Simple Knowledge Organization System), un’ontologia specifica per la descrizione di thesauri, vocabolari controllati e indici, e sono stati utilizzati per estrarre automaticamente dagli strumenti di ricerca una serie di concetti chiave che consentissero di evidenziare tematismi comuni alle risorse archivistiche.
Come principio di base della sperimentazione per la definizione del data model RDF dell’ontologia OAD sono stati seguite le seguenti best practices dei LOD: i metadati descrittivi più comuni sono stati duplicati utilizzando altre proprietà RDF di vocabolari noti come Dublin Core, SKOS e FOAF per favorire la naturale interoperabilità con risorse afferenti allo stesso dominio o di domini esterni. Infine per agevolare il collegamento con risorse esterne implementando il Linking Open Data cloud diagram con dati archivistici, sono stati inseriti i puntamenti esterni ad altri dataset internazionali (GeoNames, DBPedia, VIAF…) utilizzando la proprietà owl:sameAs, preposta dallo standard OWL a indicare che due risorse si riferiscono alla medesima entità.
La sperimentazione: produzione dei dati e popolamento del triplestore
Per creare i LOD sono stati creati dei fogli di stile – uno per ciascuno degli strumenti di ricerca oggetto della sperimentazione – che applicati ai file EAD di partenza hanno prodotto dei files RDF per le UOD (unit of description) conformi all’ontologia OAD per la descrizione archivistica.
I file XSLT in particolare, a partire dai files EAD, producono anche altri file RDF: un file RDF per i luoghi presenti in ciascun inventario, un file RDF per le persone e uno per gli enti.
A causa dell’assenza degli indici dei luoghi, degli enti e delle persone, per la maggior parte degli inventari trattati le parole chiave sono state estratte mediante procedure automatiche miranti ad estrarre significative porzioni di testo all’interno delle componenti informative (es: titolo, descrizione, nota archivistica) di ciascuna unità di descrizione archivistica.
In particolare, per far emergere i toponimi dagli inventari, questi ultimi sono stati processati con un foglio di trasformazione che cercava nel titolo e nella descrizione delle varie componenti della descrizione archivistica i singoli toponimi, sulla base di una lista completa di tutti i toponimi italiani. I file di partenza non sono stati modificati ma l’indicazione relativa agli oad:place è stata riportata nei files RDF risultato della trasformazione. Tale meccanismo di markup automatico si può considerare replicabile per qualunque inventario si dovesse decidere in futuro di trattare.
Per quanto concerne invece gli enti e le persone le procedure sperimentate in ReLoad si sono basate su meccanismi studiati ad hoc e basati sul case study: è stato creato un elenco degli enti a partire da alcune voci del titolario della Direzione Generale dell’Agricoltura (es: 15.5 Comizi agrari; 16.9 Osservatori bacologici; 17.1 Scuole superiori di agricoltura…). Tali enti hanno alimentato un file RDF di foaf:Organization relativo all’inventario della DGA. Tramite un annotatore semantico (Stanbol) si è cercato di fare emergere le medesime voci di indice sugli altri inventari, ed è stato creato per ciascun inventario IBC un file RDF di foaf:Organization che includeva anche gli enti marcati all’interno del tag EAD qualora presenti. Per le persone si è utilizzato un indice dei nomi accluso alla pubblicazione a stampa “Inventario della Direzione Generale dell’Agricoltura. 1860-1914″ a cura di Nella Eramo e sulla base di tali indicazioni, sono stati creati dei files RDF di foaf:Person con le medesime procedure suesposte.
Inoltre, a partire dai record d’autorità – presenti al momento solo per gli inventari di IBC – sono stati creati dei file RDF conformi all’ontologia EAC-CPF.
Infine tramite il framework Silk sono state fatte emergere le identità tra le entità foaf:Person e foaf:Organization di ReLoad e le medesime entità descritte in altri dataset standard disponibili anch’essi in formato LOD (VIAF o DBPedia).
RISORSE |
RDF |
SPARQL |
URI |
Linked Data Principles |
Linked Data cloud |