Help:Sui dati

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Help:About data and the translation is 98% complete.

Wikidata è una base di conoscenza libera che può essere letta e modificata sia da persone che da macchine. È solo uno dei tanti progetti wiki ospitati e mantenuti dalla Wikimedia Foundation, un'organizzazione non-profit per il contenuto libero probabilmente meglio conosciuta grazie a Wikipedia. Ciascuno dei progetti della Wikimedia Foundation si concentra su determinati aspetti (Wikipedia sui contenuti enciclopedici, Wikimedia Commons sulle immagini e altri file multimediali, Wikizionario sulle informazioni lessicali delle parole come definizioni e sinonimi, etc.). Wikidata si concentra sui dati strutturati.

Questa pagina vuole offrire una panoramica sui dati strutturati. Chi ha già familiarità con i dati strutturati, ma vorrebbe saperne di più riguardo al loro uso specifico su Wikidata, su come vi si possa accedere o su come si possano inserire dati dal proprio progetto, può saltare tranquillamente alla sezione su come collegare i dati.

Comprendere Wikidata

Sono definiti dati strutturati un insieme di dati organizzati e memorizzati in modo definito, allo scopo di codificarne il significato e preservarne le relazioni fra singoli dati all'interno di un set di dati.

Ma cosa sono i dati? E perché dovresti interessarti dei dati strutturati in particolare?

Definizione di dato

Big data, dati sperimentali, dati aperti, metadati: potresti aver già incontrato alcuni o tutti questi termini.

Ognuno di essi ha un significato leggermente diverso, ma si basano tutti su un'interpretazione comune del concetto di dati e sul loro potenziale per descrivere e migliorare la nostra comprensione del mondo che ci circonda.

Come concetto astratto, i dati possono essere considerati un precursore dell'informazione, il che significa che l'informazione può essere dedotta o derivata dai dati.

Questo perché, in parole povere, i dati sono semplicemente un insieme di valori riferiti a cose. Questi valori possono essere numerici (o quantitativi), come una misura o una grandezza. Essi possono anche essere qualitativi, come una descrizione o un confronto. Ad esempio, si può dire che "8.848 m" è un valore di un dato riguardante l'altezza del monte Everest e che "rosso" è un valore di un dato riguardante il colore di un'automobile.

Come già detto, informazione e dati non sono la stessa cosa, ma la prima è piuttosto il prodotto della collezione e dell'analisi dei secondi. Per esempio, "8.848" (dato) è un numero di per sé insignificante anche se sappiamo che è l'altezza di una montagna; possiamo dire che "Il Monte Everest è la più alta montagna del mondo con i suoi 8.848 m" (informazione) solamente se conosciamo le normali misure di altezza e l'altezza delle altre montagne. Diventa molto più facile fare questo tipo di deduzioni, ottenere nuove conoscenze, fare approfondimenti e dimostrare fatti quando i dati sono strutturati. Torneremo più tardi su questo concetto.

Dove sono i dati?

I dati sono intorno a noi. Ci sono molte fonti di dati: finanziari, biologici, sociali, etc. Anche questa pagina contiene dati! Possiede, per esempio, un certo numero di parole, le date della sua creazione e dell'ultima modifica effettuata, un titolo ed un argomento, il numero di volte in cui è stata visitata e le lingue in cui è disponibile.

Tuttavia, mentre ogni cosa è potenzialmente una fonte di dati, se i dati non sono registrati e organizzati è come non esistessero affatto. Senza una struttura di base, i dati risultano senza significato e non forniscono informazioni utili.

Per organizzati, intendiamo categorizzati in una struttura uniforme e non ambigua. I dati organizzati e categorizzati sono quelli a cui ci riferiamo quando parliamo di dati strutturati.

Wikidata fornisce un metodo di input basato su formulari per aggiungere dati agli elementi.

Dov'è la struttura?

Nel web, regna la struttura. Molti siti internet sono stati creati usando HTML, un linguaggio di markup che fornisce l'intelaiatura di base, o la struttura, di una pagina web

I linguaggi di markup vengono anche usati per etichettare e descrivere i contenuti della pagina, cosicché i motori di ricerca, i bot e le applicazioni come i feed RSS possano facilmente processarli e "comprenderli". Per esempio, il tag <title> indica alla macchina qual è il nome di un sito web.

Anziché appoggiarsi alla struttura e agli elementi comuni di una pagina web, tutte le informazioni immagazzinate in Wikipedia e negli altri progetti Wikimedia fanno affidamento su Wikidata. Quest'ultimo è basato sul software Mediawiki, come molti altri wiki, ed è ampliato da Wikibase, il software che ne permette il funzionamento e che è progettato per gestire grandi quantità di dati strutturati. La struttura non viene direttamente aggiunta al contenuto di Wikipedia o ad altre pagine dei siti Wikimedia (come tabelle o elenchi), né è richiesta conoscenza alcuna dei linguaggi di markup, degli schemi di dati, della notazione a oggetti o di altre speciali sintassi da parte degli utenti di Wikidata; invece, i dati vengono aggiunti e modificati su Wikidata tramite formulari facili da compilare.

Tutti i dati memorizzati su Wikidata possono essere usati per generare qualsiasi tipo di elenco, tabella o altra pagina strutturata (che rimarranno automatizzati ed aggiornati) in qualunque sito di Wikimedia o altrove.

Tabella 1
Dati sulle montagne
Monte Proprietà Valore
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Strutturare i dati

Come esempio dell'importanza di una struttura, diamo un'occhiata alla Tabella 1. In questa tabella sono presenti i dati delle quattro montagne più alte del mondo. Se vogliamo conoscere un particolare tipo d'informazione, come l'altezza della seconda montagna più alta del mondo, dovremmo essere in grado di guardare i dati forniti e trovare il valore corretto. Tuttavia, solo tre delle quattro montagne hanno i loro dati categorizzati con il valore altezza e solo due fra questi tre hanno un valore espresso in metri. Mentre noi sappiamo che altezza e hauteur (altezza in francese) hanno lo stesso significato, e che metri e piedi servono entrambi per misurare l'altezza, una macchina (come un bot o un programma informatico) può non saperlo.

Sarebbe molto più facile, sia per gli umani che per le macchine, processare l'informazione e rispondere alla domanda originale sulla seconda montagna più alta quando tutti i dati sono registrati in maniera simile, anche se le modalità di presentazione differiscono l'una dall'altra.

Modellare i dati

Le collezioni di dati strutturati, come Wikidata, sono organizzati secondo un modello dei dati. I modelli dei dati sono processabili automaticamente, possono cioè essere compresi da un computer. Anche se i computer sono potenti, spesso non sono intelligenti quanto noi quando si tratta di fare semplici ragionamenti. Per esempio, nel caso precedente, una macchina non sarebbe in grado di sapere che altezza e hauteur sono la stessa cosa a meno che non le venga esplicitamente detto ciò.

Tabella 2
Dati sulle montagne
Monte Proprietà Valore
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia

I modelli dei dati variano a seconda delle analisi richieste, dello scopo e del quadro concettuale del set di dati, dei requisiti tecnici di un sistema. Tuttavia, tutti i modelli dei dati normalmente specificano quali tipi di dati possono essere supportati da un sistema e quali relazioni tra i valori possono essere comprese e rappresentate. Per esempio, un modello dei dati può specificare che altezza e hauteur siano mappati insieme in modo tale che entrambi i termini rappresentino lo stesso concetto, o che la misura in piedi sia automaticamente convertita in metri. Il modello dei dati di Wikidata influenza il modo in cui i dati possono essere modificati e aggiunti al sistema dall'utente. È anche un'opera in fase di continua evoluzione, con nuovi tipi di dati possono che essere aggiunti al modello nel corso del tempo.

Fondamentalmente, il modello dei dati traduce i modelli tipici della lingua naturale in qualcosa che può essere processato da una macchina. Per esempio, in italiano potremmo dire:

"Il Monte Everest è la montagna più alta del mondo"

Questo è anche il formato semplice e non strutturato del contenuto attualmente presente su Wikipedia e su tutti gli altri siti Wikimedia.

Su Wikidata, questo sarebbe rappresentato da una dichiarazione, che consiste di una coppia valore-proprietà riguardo a un elemento, in questo caso la Terra:

Earth (Q2) (elemento)highest point (P610) (proprietà)Mount Everest (Q513) (valore)

Inoltre, Wikidata conterrà una dichiarazione riguardo all'elemento monte Everest (indicandolo come una montagna):

Mount Everest (Q513) (oggetto)instance of (P31) (proprietà)mountain (Q8502) (valore)

Siccome altri elementi possono essere usati come valori per le dichiarazioni e tutti gli elementi posseggono una loro pagina unica su Wikidata, tutti gli elementi nel sistema possono essere collegati tra loro attraverso una serie di dichiarazioni. Dal momento che Wikidata usa un formato leggibile meccanicamente, questi collegamenti tra dati consentono che nuove relazioni e connessioni vengano individuate e processate dalle macchine. Per esempio, nella Tabella 2 vediamo nuovi dati sulle nostre montagne, questa volta riguardo la loro localizzazione per continente, ma nessuna informazione sulla loro altezza. Assumendo che questi dati sui continenti siano stati collegati a quelli riguardo l'altezza delle montagne, potremmo sentirci più sicuri nel fare previsioni o nel trarre conclusioni circa le montagne in esame. Ad esempio, saremmo in grado di affermare che l'Asia è il luogo in cui si trovano le montagne più alte del mondo.

Collegare i dati

Oltre a essere una collezione di dati strutturati, Wikidata supporta anche i dati collegati. Con dati collegati ci si riferisce alla pratica di pubblicare dati strutturati in modo che essi possano essere collegati tra loro.

Per quanto riguarda Wikidata, ciò significa che i dati inseriti dai contributori volontari possono essere collegati anche ad altri set di dati, basi di dati e fonti di dati da tutto il web e da diverse iniziative esterne alla famiglia di Wikimedia. Per esempio, Wikidata attualmente consente collegamenti con i set di dati e le basi di dati più disparate, come Google Books, Canmore (una delle basi di dati dell'Historic Environment Scotland), la Biblioteca Apostolica Vaticana, OmegaWiki, e MusicBrainz.

esempio di una semplice dichiarazione formata da una coppia proprietà-valore
esempio di una dichiarazione più complicata formata da una coppia proprietà-valore, da qualificatori e da una fonte

Seguendo i principi e le pratiche dei dati collegati, Wikidata è compatibile e può essere usata anche da altri progetti.

Principi sui dati collegati

Wikidata usa identificatori univoci, o Uniform Resource Identifiers (URI), per tutti i suoi elementi secondo gli standard per i dati collegati.

Anche se Wikidata usa un modello dei dati unico, il suo contenuto può essere esportato in RDF, un formato largamente usato che è lo standard per i dati collegati. Nella terminologia di Wikidata, una dichiarazione è composta da un elemento e da una coppia proprietà-valore. Per coloro che hanno familiarità con i concetti relativi ai dati collegati, un elemento può essere visto come il soggetto di una terna; la proprietà rappresenta il predicato della terna; e il valore esprime l'oggetto della terna.

Tuttavia, le dichiarazioni di Wikidata possono anche contenere componenti ulteriori rispetto alla terna soggetto-predicato-oggetto, come le fonti e i qualificatori (per ulteriori informazioni, vedi Help:Statements). Ciò rende complicata una rappresentazione completa dei contenuti di Wikidata usando il linguaggio RDF. Maggiori informazioni su questa sfida si possono trovare nel documento "Introducing Wikidata to the Linked Data Web".

Contribuire ai dati

Se hai dei set di dati con cui vuoi dare il tuo contributo a Wikidata, per favore consulta Wikidata:Data donation.

Accedere ai dati

I dati presenti su Wikidata vengono pubblicati con licenza Creative Commons Public Domain Dedication 1.0, che ne permette un riutilizzo libero. Puoi copiare, modificare, distribuire e usare i dati, anche a scopi commerciali, senza chiedere alcun permesso.

See Data access for details about the different ways to programmatically access Wikidata's data.

Vedi anche

Per pagine correlate, si veda:

Per ulteriori informazioni e linee guida, si veda:

  • Project chat, per discutere qualsiasi aspetto di Wikidata
  • Wikidata:Glossary, glossario dei termini usati in questa e in altre pagine di aiuto
  • Help:FAQ, domande che sono poste frequentemente alla community di Wikidata
  • Help:Contents, il portale di aiuto con tutta la documentazione disponibile per Wikidata