Help:Over gegevens

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Help:About data and the translation is 100% complete.

Wikidata is een vrije kennisbank die te lezen en te bewerken is door mensen en machines. Het is slechts een van de vele wikigebaseerde projecten die worden gehost en beheerd door de Wikimedia Foundation, een non-profitorganisatie op het gebied van vrije inhoud die waarschijnlijk het best bekend is door Wikipedia. Ieder project van de Wikimedia Foundation heeft een eigen focus. Wikipedia is bijvoorbeeld voor encyclopedische inhoud, Wikimedia Commons richt zich op afbeeldingen en andere mediabestanden en Wiktionary biedt lexicale informatie over woorden zoals definities en synoniemen. Wikidata richt zich op gestructureerde gegevens.

Deze pagina is bedoeld als overzicht van gestructureerde gegevens. Als u daar al bekend mee bent, maar meer wilt leren over het specifieke gebruik in Wikidata, hoe u de gegevens van Wikidata kunt raadplegen, or hoe u kunt bijdragen aan de gegevens van uw eigen project in Wikidata, ga dan snel naar de paragraaf over gegevens koppelen.

Wikidata begrijpen

Gestructureerde gegevens refereren aan gegevens die op een gedefinieerde wijze georganiseerd en opgeslagen zijn, vaak met de bedoeling om betekenis te coderen en de relatie tussen de verschillende gegevenspunten in een gegevensset te behouden.

Maar wat zijn gegevens eigenlijk? En waarom moet u zich in het bijzonder druk maken over gestructureerde gegevens?

Gegevens definiëren

Big data, experimentele data, open data, metadata - waarschijnlijk heeft u sommige of zelfs al deze termen al eerder gehoord.

Elke term betekent net iets anders, maar ze zijn allemaal gebaseerd op een gemeenschappelijk begrip van gegevens en het potentieel ervan om ons begrip van de wereld om ons heen te beschrijven en te verbeteren.

Als abstract begrip kunnen gegevens worden opgevat als een voorloper van informatie, wat betekent dat informatie kan worden afgeleid of ontleed uit gegevens.

Dit is omdat de gegevens, wanneer ze tot de essentie worden teruggebracht, eenvoudigweg een reeks waarden over dingen zijn. Deze waarden kunnen numeriek of kwantitatief zijn, zoals een meting of een hoeveelheid. Ze kunnen ook kwalitatief zijn, zoals een beschrijving of een vergelijking. We kunnen bijvoorbeeld zeggen dat "8.848 m (29.029 ft)" een datawaarde is over de hoogte van de Mount Everest en dat "rood" een datawaarde is over de kleur van een auto.

Zoals eerder vermeld, is informatie niet hetzelfde als gegevens, maar is het in plaats daarvan een product van het verzamelen en analyseren van gegevens. Bijvoorbeeld, 8.848 (gegevens) is een enigszins betekenisloos getal op zichzelf, zelfs als we weten dat het de hoogte van een berg is; we kunnen alleen zeggen dat Mount Everest de hoogste berg ter wereld is met 8.848 m (informatie) als we ons bewust zijn van standaardmetingen van hoogte en als we eenmaal de hoogte van andere bergen kennen. Het wordt een stuk gemakkelijker om dergelijke gevolgtrekkingen te maken, nieuwe inzichten en kennis te verkrijgen en feiten vast te stellen wanneer gegevens zijn gestructureerd, we zullen later op dit idee terugkomen.

Waar zijn de gegevens?

Data is overal om ons heen. Er zijn veel soorten gegevensbronnen, waaronder financiële, biologische en sociale gegevens. Zelfs deze pagina heeft gegevens! Het heeft bijvoorbeeld een totaal aantal woorden, datums waarop het is gemaakt en voor het laatst is herzien, een onderwerp, een aantal paginaweergaven en talen waarin de inhoud beschikbaar is.

Hoewel alles potentieel een bron van gegevens is, kunnen gegevens die niet zijn vastgelegd en georganiseerd net zo goed helemaal niet bestaan. Zonder een onderliggende structuur lijken gegevens betekenisloos en leveren ze geen bruikbare informatie op.

Met georganiseerd bedoelen we gecategoriseerd op een standaard en eenduidige manier. De georganiseerde en gecategoriseerde gegevens is waar we naar verwijzen als we het gestructureerde gegevens noemen.

Wikidata biedt op formulieren gebaseerde invoer voor het toevoegen van gegevens aan items

Waar is de structuur?

Op het web heerst structuur. De meeste websites worden gemaakt met behulp van HTML, een opmaaktaal die de basissteigers of structuur van een webpagina biedt.

Opmaaktalen worden ook gebruikt voor het taggen en beschrijven van pagina-inhoud, zodat zoekmachines, bots en applicaties zoals RSS-feeds deze gemakkelijk kunnen verwerken en "begrijpen". Tags met $tag titel vertellen machines bijvoorbeeld wat de naam van een website is.

In plaats van de structuur en gemeenschappelijke elementen van een webpagina te ondersteunen, biedt Wikidata structuur voor alle informatie die is opgeslagen in Wikipedia en op de andere Wikimedia-projecten. Wikidata is gebaseerd op de Mediawiki-software zoals elk ander Wikimedia-project, uitgebreid met Wikibase, de software die Wikidata aandrijft en is ontworpen om grote hoeveelheden gestructureerde gegevens te beheren. Structuur wordt niet rechtstreeks toegevoegd aan de inhoud van Wikipedia of andere Wikimedia-sitepagina's, zoals in tabellen of lijsten, noch is enige kennis van opmaaktalen, gegevensschema's, objectnotatie of andere speciale syntaxis vereist door Wikidata-gebruikers; in plaats daarvan worden gegevens toegevoegd aan en bewerkt in Wikidata via gebruiksvriendelijke invoerformulieren.

Alle gegevens die op Wikidata zijn opgeslagen, kunnen worden gebruikt om allerlei geautomatiseerde en up-to-date lijsten of tabellen of andere gestructureerde pagina's op een Wikimedia-site of elders te genereren.

Tabel 1
Gegevens voor bergen
Berg Eigenschap Waarde
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Gegevens structureren

Voor een voorbeeld over het belang van structuur, laten we eens kijken naar tabel 1. In deze tabel kunnen we gegevens zien voor de vier hoogste bergen op aarde. Als we een bepaald stuk informatie willen weten, zoals de hoogte van de op een na hoogste berg ter wereld, moeten we in staat zijn om naar de verstrekte gegevens te kijken en de juiste waarde te achterhalen. Slechts drie van de vier bergen hebben hun gegevens echter gecategoriseerd als een hoogtewaarde, en slechts twee van die drie bergen hebben waarden in meters. Hoewel we weten dat hoogte en hauteur (Frans voor hoogte) als gelijk aan elkaar kunnen worden begrepen, en hoe meters kunnen worden omgezet in voeten of omgekeerd, kan een machine, zoals een bot of een computerprogramma, dat misschien niet.

Het zou veel gemakkelijker zijn voor zowel mensen als machines om de informatie te verwerken en de oorspronkelijke vraag over de op een na hoogste berg te beantwoorden wanneer alle onderliggende gegevens op dezelfde manier worden vastgelegd, zelfs als de presentatie verschilt.

Gegevens modelleren

Verzamelingen van gestructureerde gegevens, zoals Wikidata, zijn georganiseerd volgens een datamodel. Datamodellen zijn machineleesbaar, wat betekent dat ze door een computer kunnen worden begrepen. Hoewel computers krachtig zijn, zijn ze vaak niet zo slim als wij als het gaat om eenvoudig redeneren. In het bovenstaande voorbeeld zou een machine bijvoorbeeld niet kunnen weten dat hoogte en hauteur hetzelfde zijn, tenzij ze expliciet werden verteld dat dit op de een of andere manier het geval was.

Tabel 2
Gegevens voor bergen
Berg Eigenschap Waarde
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia

Datamodellen variëren op basis van de analysebehoeften, de reikwijdte en het conceptuele kader van de dataset en de technische vereisten van een systeem. Alle gegevensmodellen specificeren echter meestal welk soort gegevens door een systeem kunnen worden ondersteund en welke relaties tussen waarden kunnen worden begrepen en weergegeven. Een datamodel zou bijvoorbeeld kunnen specificeren dat hoogte en hauteur aan elkaar worden toegewezen, zodat beide termen één concept vertegenwoordigen, of dat metingen in voeten automatisch worden omgezet in meters. Het Wikidata-gegevensmodel geeft vorm aan de manier waarop gegevens door gebruikers kunnen worden bewerkt en aan het systeem kunnen worden toegevoegd. Het is ook een werk in uitvoering, waarbij in de loop van de tijd nieuwe gegevenstypen aan het model worden toegevoegd.

Het datamodel vertaalt in wezen ook menselijke natuurlijke taalpatronen in iets dat door machines kan worden verwerkt. In het Engels kunnen we bijvoorbeeld zeggen:

"Mount Everest is de hoogste berg ter wereld"

Dit is ook het ruwe, ongestructureerde formaat van de inhoud die momenteel op Wikipedia en alle andere Wikimedia-sites staat.

Op Wikidata zou dit worden weergegeven door een verklaring, dat bestaat uit een eigenschap-waardepaar over een item, in dit geval Aarde:

Earth (Q2) (item)highest point (P610) (property)Mount Everest (Q513) (value)

Bovendien zou Wikidata ook een verklaring bevatten over het item voor de Mount Everest (wat aangeeft dat het een berg is):

Mount Everest (Q513) (item)instance of (P31) (property)mountain (Q8502) (value)

Merk op dat omdat andere items kunnen worden gebruikt als de waarden voor instructies, en alle items hun eigen unieke pagina op Wikidata hebben, dit betekent dat alle items in het systeem aan elkaar kunnen worden gekoppeld door middel van een reeks verklaringen. Omdat Wikidata een machineleesbaar formaat gebruikt, maakt deze onderlinge koppeling van gegevens het mogelijk om nieuwe relaties en verbindingen te ontdekken en te verwerken door machines. In tabel 2 zien we bijvoorbeeld nieuwe gegevens voor onze bergen, dit keer over hun geografische ligging per continent, maar niets over hun hoogten. Ervan uitgaande dat deze continentgegevens gekoppeld waren aan de berghoogtegegevens, zouden we meer vertrouwen hebben in het doen van voorspellingen of het trekken van bepaalde conclusies, zoals zeggen dat Azië de thuisbasis is van 's werelds hoogste bergen.

Gegevens koppelen

Naast een verzameling gestructureerde data ondersteunt Wikidata ook gelinkte gegevens. Gelinkte gegevens verwijst naar de praktijk van het publiceren van gestructureerde gegevens, zodat deze met elkaar kunnen worden verbonden.

Voor Wikidata betekent dit dat door vrijwilligers bijgedragen gegevens ook kunnen worden gekoppeld aan andere datasets, databases en gegevensbronnen van over het hele web en van diverse initiatieven buiten de Wikimedia-familie. Wikidata staat bijvoorbeeld interlinking toe met datasets en databases zo divers als Google Books, Canmore (een van de databases van Historic Environment Scotland), de Vaticaanse Bibliotheek, OmegaWiki en MusicBrainz.

voorbeeld van een eenvoudige verklaring die bestaat uit één eigenschap-waardepaar
voorbeeld van een meer gecompliceerde verklaring bestaande uit één eigenschap-waardepaar, kwalificaties en een verwijzing

Door het volgen van gelinkte gegevens en praktijken, is Wikidata ook in staat om andere projecten te ondersteunen en te gebruiken.

Principes voor gekoppelde gegevens

Wikidata gebruikt unieke identifiers, of uniform resource identifiers (URI's), voor al zijn items volgens standaarden voor gelinkte gegevens.

Alhoewel Wikidatum een unieke datummodel benut, kan de inhoud in RDF geëxporteerd worden, wat een standaardformaat is wat algemeen voor geschakelde datum gebruikt wordt. In Wikidatum-termen, is een stelling samengesteld uit een item en een eigenschap-waardepaar. Voor diegene wat met geschakelde dataconcepten vertrouwd is, een item kan gezien worden dan het onderwerp-gedeelte van een triplet; de eigenschap vertegenwoordigen een triplets predicaat; en een waarde wordt gebruiken om de object van een triplet uit te drukken.

Wikidata verklaringen kunnen echter ook elementen bevatten die verder gaan dan het subject-predicaat-object, zoals verwijzingen en qualifiers. (Meer informatie) Dit maakt het ingewikkeld om de inhoud van Wikidata volledig weer te geven in de taal van RDF - meer informatie over deze uitdagingen is te vinden in het document "Introducing Wikidata to the Linked Data Web".

Gegevens bijdragen

Als u datasets heeft die u wilt bijdragen aan Wikidata, zie dan Wikidata:Data donation.

Gegevens raadplegen

De gegevens in Wikidata worden gepubliceerd onder de Creative Commons Public Domain Dedication 1.0, waardoor het gratis hergebruik van de gegevens mogelijk is. U kunt de gegevens kopiëren, wijzigen, verspreiden en uitvoeren, zelfs voor commerciële doeleinden, allemaal zonder toestemming te vragen.

Zie Gegevenstoegang voor details over de verschillende manieren om programmatisch toegang te krijgen tot de gegevens van Wikidata.

Zie ook

Voor gerelateerde pagina's, zie:

Voor meer informatie en hulp, zie:

  • Project chat, voor discussie over alles op Wikidata
  • Wikidata:Glossary, over termen die gebruikt worden op deze en andere hulppagina's
  • Help:FAQ, veelgestelde vragen die gevraagd en beantwoord werden door de Wikidata-gemeenschap
  • Help:Contents, het hulpportaal biedt alle documentatie die beschikbaar is over Wikidata