Metodologie

ReLoad nasce con l’obiettivo di sperimentare le tecnologie semantiche sul patrimonio archivistico avvalendosi degli standard definiti dal W3C e da altri strumenti (tutti open source) per il mash-up, l’allineamento e il riconoscimento automatico delle entità. In particolare, fino ad ora sono state utilizzate le seguenti metodologie:

RDF (Resource Description Framework)

RDF è un linguaggio che consente di descrivere informazione strutturata. Esso si basa su delle asserzioni (statement) basate sulla tripla soggetto-predicato-oggetto. Il predicato è la proprietà del soggetto il cui valore è dichiarato nell’oggetto. Le triple relative a varie risorse possono essere messe in combinazione tra loro (il soggetto di una tripla può allo stesso tempo costituire l’oggetto di un’altra tripla) in modo da ottenere un grafo RDF.

OWL (Ontology Web Language)

OWL viene usato essenzialmente per costruire ontologie; un’ontologia è la formalizzazione di un determinato dominio di conoscenza.
Nel caso dei Linked Data, OWL è usato per fornire vocabolari controllati che verranno utilizzati per pubblicare dati.

XSLT

Tutti gli strumenti di ricerca oggetto della sperimentazione sono in formato XML, validi a fronte dello schema EAD2002. Per convertire gli inventari XML in RDF è stato realizzato un mapping sulla base del quale sono stati costruiti diversi fogli di trasformazione XSLT in grado di generare in modo automatico i file RDF.

Triplestore e endpoint SPARQL

Un triplestore è un database per conservare e gestire le triple RDF. Una volta caricate nel triplestore, le risorse RDF sono interrogabili attraverso un endpoint secondo il linguaggio standard SPARQL

Tecnologie

SILK

E’ uno strumento che consente di scoprire relazioni tra dati provenienti da domini diversi. Uno dei principi più importanti dei Linked Data riguarda il collegamento con altri dati già esposti nel web of data; SILK, attraverso una semplice interfaccia, genera dei file di allineamento tra dataset diversi popolando la proprietà owl:sameAs.

STANBOL

E’ uno ambiente costituito da diverse componenti in grado di assegnare una valenza semantica a porzioni di testo sulla base di vocabolari, thesauri o indici predefiniti.

LODLIVE

E’ un browser RDF che restituisce il grafo della conoscenza a partire da una determinata risorsa ed è un grado di mostrare nel grafo i dati collegati provenienti da diversi domini.