Help:Omtrent data

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Help:About data and the translation is 73% complete.
Outdated translations are marked like this.

Wikidata is die vrye kennisbasis wat gelees en geredigeer kan word deur mense sowel as masjiene. Dit is net een van baie wiki-gebaseerde projekte wat gehuisves en onderhou word deur die Wikimedia-stigting, 'n vrye-inhoud, nie-winsgewende organisasie wat miskien die beste bekend is vir Wikipedia. Elkeen van die Wikimedia-stigting se projekte het sy eie fokus — byvoorbeeld Wikipedia vir ensiklopediese inhoud, Wikimedia Commons vir digitale beelde en ander medialêers, en Wiktionary wat leksikale inligting verskaf oor woorde, soos byvoorbeeld definisies en sinonieme. Die fokus van Wikidata is "gestruktureerde data".

Hierdie bladsy poog om 'n oorsig van gestruktureerde data te verskaf. As jy reeds vertroud is met gestruktureerde data, maar meer wil leer omtrent die spesifieke gebruik daarvan op Wikidata, toegang tot data op Wikidata wil verkry, of wil weet hoe om jou eie projek se data op wikidata te plaas, kyk dan na die afdeling omtrent data-skakels.

Verstaan Wikidata

Gestruktureerde data verwys na data wat georganiseer is op 'n georganiseerde wyse, dikwels met die bedoeling om betekenis te enkodeer en die verwantskappe te hou tussen verskillende datapunte in 'n datastel.

Maar wat is data in elk geval? En hoekom behoort jy in besonder oor gestruktureerde data besorgd te wees?

Definiering van data

Grootdata, eksperimentele data, oopdata en metadata is terme wat jy miskien al voorheen teëgekom het.

Elke term verskil effens van die ander, maar almal berus op 'n gemeenskaplike begrip van data en die potensiaal wat dit inhou vir beskrywing en verbetering van ons begrip van die wêreld om ons.

As 'n abstrakte konsep, kan data gesien word as 'n voorloper tot inligting, in die opsig dat inligting uit data afgelei of ontleen kan word.

Dit is omdat data in sy basiese essensie bloot 'n stel "waardes" omtrent "dinge" is. Hierdie waardes kan numeries of kwantitatief wees soos 'n meting of 'n bedrag. Dit kan ook kwalitatief wees, soos 'n beskrywing of 'n vergelyking. Byvoorbeeld kan ons sê dat "8,848 m (29,029 vt)" 'n datasoort omtrent die hoogte van Sagarmathaberg is, en dat "rooi" 'n datawaarde is van die kleur van 'n kar.

Soos reeds genoem, is inligting nie dieselde as data nie, maar is in stede die produk van die insameling en ontleding van data. Byvoorbeeld is 8,848 (data) opsigself 'n effe betekenislose getal, selfs as ons weet dat dit die hoogte van 'n berg is; ons kan slegs sê: Sagarmatha is die hoogste berg in die wêreld met 'n hoogte van 8,848 m (inligting) as ons bewus is van standaardmetings van hoogtes en wanneer ons die hoogtes van ander berge ken. Dit word baie makliker om sulke afleidings te maak, nuwe insigte en kennis te bekom, en feite vas te stel wanneer data gestruktureerd is — ons sal uitwei op hierdie idee.

Waar is data?

Data is oral om ons. Daar bestaan baie soorte databronne insluitend finansiële, biologiese en sosiale data. Selfs hierdie bladsy het data! Byvoorbeeld het dit 'n somtotaal van woorde, 'n datum waarop dit opgestel en laaste hersien is, 'n tema en onderwerp, 'n getal bladbesigtigings, en tale waarin die inhoud beskikbaar is.

Terwyl enigiets potensieel 'n bron van data is, kan data wat nie ingesamel en georganiseer is nie, nietemin en netsowel nie bestaan nie. Sonder 'n onderliggende struktuur, maak data nie sin uit nie, en kan dit nie sinvolle inligting verskaf nie.

Met georganiseer bedoel ons gekategoriseer volgens 'n standaard en in 'n ondubbelsinnige wyse. Die georganiseerde en gekategoriseerde data is waarna ons verwys met "gestruktureerde data".

Wikidata verskaf vorm-gebaseerde invoer vir die insleutel van data vir items

Wat is struktuur?

Op die web is struktuur kardinaal. Meeste webblaaie word met HTML geskep, 'n opmaaktaal wat die basiese steierwerk, of struktuur, vir 'n webblad skep.

Opmaaktale word ook gebruik vir etiketering en beskrywings van bladinhoud, sodat soekenjins, botte en toepassings soos RSS-voere dit maklik kan prosesseer en "verstaan". Byvoorbeeld sal 'n $-etiket-titel vir 'n masjien vertel wat die webblad se naam is.

Eerder as om die struktuur en algemene elemente van 'n webblad te ondersteun, verskaf Wikidata die struktuur vir alle kennis wat op Wikipedia en ander Wikimedia-projekte gestoor word. Dit doen dit met behulp van 'n $mw-wikibasis, die sagtewate waarmee Wikidata bedryf word. Struktuur word nie direk by die inhoud van Wikipedia- of ander Wikimedia-blaaie gevoeg nie, nòg vereis dit enige kennis van opmaaktale, dataskemas, objeknotasie, of ander spesiale sintaks van Wikidatagebruikers; in stede word data bygevoeg en geredigeer deur gebruikervriendelike invoervorms.

All data stored on Wikidata can be used to generate all kinds of automated and up to date lists or tables or other structured pages in any Wikimedia site or elsewhere.

Tabel 1
Data vir berge
Berg Eienskap Waarde
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Strukturering van data

Laat ons na Tabel 1 kyk as 'n voorbeeld van die belang van struktuur. In hierdie tabel sien ons data vir die vier hoogste berge. As ons 'n spesifieke stuk inligting wou bekom, soos die hoogte van die tweedehoogste berg in die wêreld, moet ons in staat wees om na die beskikbare inligting te kyk, om die korrekte waarde te kan aflees. Daarenteen is hoogtewaardes van slegs drie van ons berge gekategoriseer as 'n hoogtewaarde, en by slegs twee van die drie is die hoogtewaarde in meter uitgedruk. Terwyl ons sal weet dat hoogte en elevasie as ekwivalente beskou kan word, en dat meter en voet albei as eenhede van hoogte kan dien, sal 'n masjien soos 'n bot of 'n program-toepassing dit nie kan doen nie.

Dit word baie makliker vir mense asook masjiene om inligting te prosesseer en die oorspronklike vraag omtrent die hoogte van die tweede hoogste berg te beantwoord, wanneer alle data op 'n soortgelyke wyse aangebied word.

Modellering van data

Versamelings van gestruktureerde data, soos Wikidata, is georganiseer volgens 'n "datamodel". Datamodelle is masjienleesbaar, wat beteken dat 'n rekenaar dit kan verstaan. Alhoewel rekenaars kragtig is, het hulle nie dieselde onderskeidingsvermoë as 'n mens nie. In die geval hierbo, sal 'n rekenaar byvoorbeeld nie verstaan dat hoogte en elevasie dieselde is nie, tensy hulle uitdruklik geprogrammeer word om te verstaan dat dit die geval is.

Tabel 2
Data vir Berge
Berg Eienskap Waarde
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia

Datamodelle varieer na gelang van die analis se behoeftes, oogmerk, die konseptuele raamwerk van die datastel en die tegniese behoeftes van 'n stelsel. Nietemin sal alle datamodelle tipies spesifiseer watse soort data deur 'n stelsel onderhou kan word, en watse relasies tussen waardes verstaan en uitgedruk kan word. 'n Datamodel sal byvoorbeeld spesifiseer dat "hoogte" en "elevasie" op mekaar afgestem word, sodat albei terme een konsep verteenwoordig, of dat afmetings in voet outomaties na meter omgeskakel word. Die Wikidata-datamodel fatsoeneer die wyse waarop data bygedra of geredigeer word deur gebruikers. Dit is ook 'n onafgehandelde werk, met nuwe datatipes wat mettertyd by die model gevoeg word.

Die datamodel vertaal effektief ook menslike natuurlike taal na iets wat deur masjiene geprosesseer kan word. Byvoorbeeld sal ons in Afrikaans sê: "Sagarmatha is die hoogste berg in die wêreld". Dit is ook die rou ongestruktureerde formaat van inhoud wat tans op Wikipedia en alle ander Wikimedia-werwe bestaan.

Op Wikidata sal dit voorgestel word deur 'n stelling, wat bestaan uit 'n eienskap-waardepaar vir 'n item, in hierdie geval die Aarde: Earth (Q2) (item)highest point (P610) (eienskap)Mount Everest (Q513) (waarde)

Bykomend sal Wikidata 'n stelling bevat omtrent die item vir Sagarmatha-berg, wat sal aandui dat dit 'n berg is: :Mount Everest (Q513) (item)instance of (P31) (eienskap)mountain (Q8502) (waarde)

Let daarop dat omdat ander items gebruik kan word as die waardes vir stellings, en alle items oor hulle eie unieke bladsy beskik op Wikidata, dit impliseer dat dat alle items in die stelsel aaneengeskakel kan word deur 'n reeks stellings. Omdat Wikidata 'n masjien-leesbare formaat gebruik, hierdie aaneenskakeling van data rekenaars toelaat om nuwe verwantskappe en konneksies te ontdek en prosesseer. In Tabel 2 sien ons byvoorbeeld nuwe data vir ons berge, hierdie keer omtrent hulle geografiese ligging volgens kontinent, maar niks omtrent hulle hoogtes nie. Sou hierdie kontinent-data "geskakel" wees aan die berghoogte-data, sou ons sekerder wees wanneer ons sekere voorspellings of afleidings daaruit maak, soos om te sê dat Asië die tuiste van die wêreld se hoogste berge is.

Skakeling van data

Behalwe dat dit 'n versameling van gestruktureerde data is, ondersteun Wikidata ook "geskakelde data". Geskakelde data verwys na die gebruik om gestruktureerde data te publiseer op 'n wyse waar dit aaneengeskakel kan word.

Vir Wikidata beteken dit dat data wat deur vrywilligers gelewer word ook geskakel kan word met ander datastelle, databasisse en databronne van regoor die web en van diverse inisiatiewe buite die Wikimedia-familie. Byvoorbeeld fasiliteer Wikidata tans aaneenskakeling met datastelle en databasisse so divers as Google Books, Canmore (een van die Britse Koninklike Kommissie vir die Antieke en Historiese Monumente van Skotland databasisse), die Vatikaan-biblioteek, OmegaWiki, Freebase, and MusicBrainz.

Voorbeeld van 'n eenvoudige stelling van een eienskap-waardepaar
Voorbeeld van 'n meer gekompliseerde stelling bestaande uit een eienskap-waardepaar, kwalifiseerders en 'n verwysing

Deur geskakelde data-beginsels en -praktyke te volg, kan Wikidata ook ondersteuning bied vir, en aangewend word deur, ander projekte.

Beginsels van geskakelde data

Wikidata gebruik unieke identifiseerders, of uniforme hulpbron identifiseerders (URIs), vir al sy items soos per geskakelde data standaarde.

Alhoewel Wikidata 'n unieke datamodel benut, kan die inhoud in RDF geeksporteer word, wat naamlik 'n standaard-formaat is wat algemeen vir geskakelde data gebruik word. In Wikidata-terme, is 'n stelling saamgestel uit 'n item en 'n eienskap-waardepaar. Vir diegene wat met geskakelde datakonsepte vertroud is, 'n item kan gesien word as die onderwerp-gedeelte van 'n triplet; die eienskap verteenwoordig 'n triplet se predikaat; en 'n waarde word gebruik om die objek van 'n triplet uit te druk.

Wikidata-stellings kan egter ook elemente bevat benewens die onderwerp-predikaat-voorwerp, soos verwysings en kwalifiseerders (vir meer inligting, kyk Hulp:Stellings). Dit maak dit ingewikkeld om Wikidata se inhoud volkome weer te gee deur middel van die RDF-taal — meer inligting omtrent hierdie uitdagings kan gevind word in die dokument Inleiding vir Wikidata in die Geskakelde Dataweb.

Bydra van data

Indien jy oor datastelle beskik wat jy tot Wikidata wil bydra, voeg dan asseblief jou projek by die lys: Wikidata:Data_bydraers.

Dataverkryging

Die data in Wikidata word onder die Kreatiewe Commons Publieke Domein Mandaat 1.0 gepubliseer, wat die vrye hergebruik van die data toelaat. Jy kan kopieer, modifieer, versprei en die data opvoer, selfs vir kommersiële doeleindes, sonder om enige toestemming te verkry.

See Data access for details about the different ways to programmatically access Wikidata's data.

Kyk ook

Vir verwante bladsye, kyk:

Vir bykomende inligting en leiding, kyk:

  • Project chat, for discussing all and any aspects of Wikidata
  • Wikidata:Glossary, the glossary of terms used in this and other Help pages
  • Help:FAQ, frequently asked questions asked and answered by the Wikidata community
  • Help:Contents, the Help portal featuring all the documentation available for Wikidata