Hilfe: Über Daten

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Help:About data and the translation is 100% complete.

Wikidata ist eine freie Wissensdatenbank, die von Menschen und Maschinen gelesen und bearbeitet werden kann. Es handelt sich dabei nur um eines von vielen Projekten auf der Basis eines Wikis, die von der Wikimedia Foundation betrieben und verwaltet werden. Jedes der Projekte der Wikimedia Foundation hat einen eigenen Schwerpunkt. Wikipedia zum Beispiel ist für enzyklopädischen Inhalt, Wikimedia Commons unterstützt Bilder und andere Mediendateien und Wiktionary bietet lexikalische Information über Wörter wie Begriffsdefinitionen und Synonyme. Der Schwerpunkt von Wikidata sind strukturierte Daten.

Diese Seite ist als Überblick über strukturierte Daten konzipiert. Falls du die Eigenheiten von strukturierten Daten bereits kennst, aber mehr über ihren speziellen Gebrauch auf Wikidata wissen willst, wie auf Daten zugegriffen wird oder wie Daten aus einem eigenen Projekt eingebunden werden können, gehe direkt zum Abschnitt über die Verlinkung von Daten.

Wikidata verstehen

Strukturierte Daten sind Daten, die in einer bestimmten Weise angeordnet und gespeichert sind, häufig mit der Absicht, die Bedeutung festzulegen und die Beziehung zwischen verschiedenen Punkten in der Datenstruktur innerhalb eines Datensatzes zu bewahren.

Was sind nun Daten allgemein? Warum sollte man strukturierte Daten anders behandeln?

Definition von Daten

Datenmenge, experimentelle Daten, offene Daten, Metadaten etc. sind häufig benutzte Begriffe.

Jeder Begriff bedeutet etwas anderes, aber alle beruhen auf einem allgemeinen Verständnis von Daten und deren Potential für die Beschreibung und zum Verständnis der Welt um uns herum.

Als abstraktes Konzept können Daten als Vorläufer von Information gelten, denn aus Daten können Informationen gewonnen oder abgeleitet werden.

Dies ist möglich, denn im Kern ihres Wesens sind Daten nur eine Anzahl von "Werten" über irgendwelche "Dinge". Diese Werte können numerisch oder quantitativ sein wie ein Maß oder eine Menge. Sie können auch qualitativ sein wie eine Beschreibung oder ein Vergleich. Beispielsweise ist "8.848 m" ein Datenwert über die Höhe des Mount Everest und "rot" ist ein Wert über die Farbe eines Autos.

Informationen sind nicht das gleiche wie Daten, sondern sie sind ein Ergebnis der Sammlung und Auswertung von Daten. 8.848 (Wert) ist erst einmal bedeutungslos, selbst wenn wir wissen, dass es die Höhe eines Berges ist. Wir können nur dann sagen, dass "Mount Everest der höchste Berg der Welt mit 8.848 Metern ist" (eine Information), wenn wir Standardmessmethoden haben und die Höhe anderer Berge kennen. Es wird bedeutend einfacher, solche Ableitungen zu machen, neue Erkenntnisse und Wissen zu gewinnen und neue Fakten festzusetzen, wenn Daten strukturiert sind. Wir kommen hierauf noch zurück.

Wo sind die Daten?

Daten sind überall um uns herum. Es gibt viele Arten von Datenquellen einschließlich finanzieller, biologischer und sozialer Daten. Auch diese Seite hat Daten! Z. B. enthält sie eine bestimmte Anzahl an Wörtern, ein Datum, wann sie erstellt wurde und wann sie das letzte Mal verändert wurde, ein Thema und einen Titel, die Gesamtzahl der Seitenabrufe und Sprachen, in denen ihr Inhalt verfügbar ist.

Obwohl alles eine mögliche Quelle von Daten sein kann, sind Daten, die nicht aufgezeichnet und organisiert sind, gleichbedeutend mit nicht existenten Daten. Ohne zugrunde liegende Struktur sind Daten nichtssagend und können keine nützlichen Informationen liefern.

Mit organisiert meinen wir eine Klassifizierung nach einem standardisierten und eindeutigen Verfahren. Organisierte und kategorisierte Daten sind das, was wir strukturierte Daten nennen.

Wikidata verwendet eine formularbasierte Eingabe, um Daten den Datenobjekten hinzuzufügen.

Wo befindet sich die Struktur?

Im Internet sind Strukturen fundamental. Die meisten Webseiten werden mit HTML erstellt, einer Auszeichnungssprache, die das Grundgerüst oder die Struktur einer Webseite erzeugt.

Auszeichnungssprachen werden auch verwendet, um den Seiteninhalt zu kennzeichnen und zu beschreiben, sodass Suchmaschinen, Bots und Anwendungen wie RSS sie einfach erkennen, verarbeiten und verstehen können. Z. B. sagen <title>-Hinweise einer Maschine, wie der Name einer Webseite lautet.

Anstelle der Struktur und der üblichen Elemente einer Webseite stellt Wikidata eine Struktur bereit für alle Informationen, die in Wikipedia und den anderen Wikimediaprojekten enthalten sind. Wikidata basiert auf der Mediawiki-Software, wie jedes andere Wikimediaprojekt, erweitert durch die Software Wikibase, der Software, die Wikidata ermöglicht und die dazu entwickelt wurde, um große Mengen strukturierter Daten aufzunehmen. Die Struktur wird nicht direkt zum Inhalt der Wikipedia hinzugefügt oder einer anderen Wikimediaseite, wie in Tabellen oder Listen, noch benötigt der Benutzer Kenntnisse in Auszeichnungssprachen, Datenmodellen, Objektbeschreibungen oder spezielle Syntaxkenntnisse. Stattdessen werden die Daten durch benutzerfreundliche Eingabeformulare Wikidata hinzugefügt und weiter bearbeitet.

Alle Daten, die auf Wikidata gespeichert sind, können für alle denkbaren und aktuellen Listen oder Tabellen oder in anderer strukturierter Form genutzt werden in jedem Wikimediaprojekt oder anderswo.

Tabelle 1
Daten für Berge
Berg Eigenschaft Wert
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Daten strukturieren

Als Beispiel für die Wichtigkeit von Strukturen können wir in Tabelle 1 sehen: In dieser Tabelle sehen wir die vier höchsten Berge der Erde. Wenn wir eine spezielle Information wissen wollten, z. B. die Höhe des zweithöchsten Berges der Welt, sollten wir das an den dargestellten Daten erkennen können und den richtigen Wert herausfinden können. Jedoch haben nur drei der vier Einträge ihre Daten als Höhenwert angegeben und nur zwei dieser drei Berge haben Werte in Metern. Während wir wissen können, dass Höhe und tallness (Englisch für Größe) gleichwertig sind und wie man Meter in Fuß und umgekehrt konvertiert, ist eine Maschine wie ein Bot oder ein Computerprogramm dazu vielleicht zu dumm.

Es wäre sowohl für Menschen als auch Maschinen viel einfacher, die Daten zu verarbeiten und die ursprüngliche Frage nach dem zweithöchsten Berg zu beantworten, wenn alle Daten in gleicher Weise gespeichert werden, selbst wenn die Darstellung unterschiedlich ist.

Datenmodelle

Sammlungen strukturierter Daten wie Wikidata sind nach einem Datenmodell organisiert. Datenmodelle sind maschinenlesbar, was bedeutet, dass sie von einem Computer verstanden werden können. Während Computer schnell sind, sind sie häufig nicht so schlau wie wir, wenn es um einfache Überlegungen geht. Im obigen Beispiel wäre eine Maschine nicht in der Lage zu wissen, dass Höhe und Größe (tallness) das Gleiche sind, es sei denn, irgendjemand hätte der Maschine dies irgendwie beigebracht.

Tabelle 2
Daten für Berge
Berg Eigenschaft Wert
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia

Die Datenmodelle unterscheiden sich je nach den Analysebedürfnissen, der Sichtweise und dem konzeptionellen Rahmen des Datensatzes und den technischen Anforderungen eines Systems. Alle Datenmodelle legen üblicherweise fest, welche Art von Daten von einem System bearbeitet werden können und welche Beziehungen zwischen den Werten verstanden und dargestellt werden können. Ein Datenmodell kann festlegen, dass Höhe und Größe das gleiche Prinzip darstellen oder dass Maße in Fuß automatisch in Meter umgerechnet werden sollen. Das Wikidata-Datenmodell ist so gestaltet, dass Daten durch Benutzer zum System hinzugefügt und bearbeitet werden können. Es sind außerdem neue Datentypen in Arbeit, die das Modell mit der Zeit erweitern.

Das Datenmodell übersetzt im Wesentlichen menschliche natürliche Sprachmuster in etwas, das durch Maschinen verarbeitet werden kann. Auf Deutsch sagen wir vielleicht: "Der Mount Everest ist der höchste Berg der Welt" Diese Form ist auch das rohe und unstrukturierte Format von Inhalten auf Wikipedia und allen anderen Wikimediaprojekten.

Auf Wikidata würde dieses dargestellt durch eine Aussage, die aus einem Paar aus Eigenschaft und Wert über ein Objekt besteht; in diesem Fall die Erde:

Earth (Q2) (Objekt)highest point (P610) (Eigenschaft)Mount Everest (Q513) (Wert)

Zusätzlich hätte Wikidata auch eine Aussage über das Objekt für Mount Everest, das anzeigt, dass es sich um einen Berg handelt:

Mount Everest (Q513) (Objekt)instance of (P31) (Eigenschaft)mountain (Q8502) (Wert)

Beachte, dass andere Objekte als Werte für Aussagen genutzt werden können und dass alle Objekte eine eigene Seite haben, sodass die Objekte miteinander durch eine Serie von Aussagen verknüpft werden können. Weil Wikidata ein maschinenlesbares Format benutzt, erlaubt diese Verknüpfung von Daten neue Beziehungen und ermöglicht es, neue Verbindungen zu erkennen und von Maschinen zu verarbeiten. In Tabelle 2 sehen wir neue Daten für unsere Berge, diesesmal über ihre geographische Lage nach Kontinent, aber nichts über ihre Höhen. Gehen wir nun davon aus, dass diese Informationen über Kontinente mit der Höhe der Berge verknüpft ist, könnten wir mit mehr Gewissheit eine Vorhersage machen oder bestimmte Schlüsse ziehen wie beispielsweise, dass Asien die höchsten Berge der Welt beheimatet.

Daten verlinken

Abgesehen von der Sammlung strukturierter Daten unterstützt Wikidata ebenso verlinkte Daten. Verlinkte Daten nehmen Bezug auf die Praxis der Veröffentlichung von strukturierten Daten, damit sie verlinkt werden können.

Für Wikidata bedeutet dies, dass Datenbeiträge von Benutzern mit anderen Datensätzen, Datenbanken und Datenquellen aus dem Internet und von verschiedenen Initiativen außerhalb der Wikimediafamilie verlinkt werden können. Beispielsweise erlaubt Wikidata Verlinkung mit unterschiedlichen Datensätzen und Datenbanken wie Google Books, Canmore (eine Datenbank der Royal Commission on the Ancient and Historical Monuments of Scotland), die Vatikanische Apostolische Bibliothek, OmegaWiki und MusicBrainz.

Beispiel einer einfachen Aussage, bestehend aus einem Paar von Eigenschaft und Wert.
Beispiel für eine kompliziertere Aussage mit einem Paar aus Wert und Eigenschaft, Qualifikatoren und einer Quelle

Gemäß den folgenden Datenprinzipien und Gepflogenheiten kann Wikidata auch andere Projekte unterstützen oder benutzen.

Prinzipien für verlinkte Daten

Wikidata arbeitet mit eindeutigen Identifikatoren oder uniform resource identifiers (URIs) für alle Objekte gemäß den Prinzipien für verlinkte Daten.

Obwohl Wikidata ein eigenes Datenmodell verwendet, können Inhalte in RDF, ein weit verbreitetes Standardformat für verlinkte Daten, exportiert werden. In Wikidata-"Sprache" besteht eine Aussage aus einem Paar von Eigenschaft und Wert. Ein Objekt kann als "Subjekt" einer Dreiergruppe betrachtet werden; die Eigenschaft repräsentiert das "Prädikat" und der Wert repäsentiert das "Objekt".

Wikidata-Aussagen können aber auch Elemente außerhalb der Subjekt-Prädikat-Objekt-Struktur enthalten, wie beispielsweise Quellen und Qualifikatoren. Mehr dazu unter Help:Statements. Dieser Umstand macht es kompliziert, den kompletten Inhalt von Wikidata in der Sprache von RDF auszugeben. Mehr Informationen über diese Herausforderung finden sich im Dokument Introducing Wikidata to the Linked Data Web.

Daten beitragen

Wenn du Datensätze oder Datenbanken hast, die zu Wikidata beitragen könnten, dann lies bitte Wikidata:Data donation.

Auf Daten zugreifen

Die Daten auf Wikidata werden unter der Creative Commons Public Domain Dedication 1.0 veröffentlicht, was das Recht zur freien Weiternutzung einschließt. Alle Daten können kopiert, verändert, weiterverteilt und dargestellt werden, auch für kommerzielle Zwecke, ohne vorher eine Zustimmung einholen zu müssen.

Siehe Data access zu Details der verschiedenen Wege, auf Wikidatas Daten programmgesteuert zuzugreifen.

Siehe auch

Für weitere Hilfeseiten siehe:

Für weitere Informationen und Anleitung siehe:

  • Project chat: Die Diskussion aller Themen auf Wikidata (Englisch und sprachübergreifend) und Wikidata:Forum für die Diskussion auf Deutsch.
  • Wikidata:Glossary: Das Glossar der Begriffe auf Wikidata
  • Help:FAQ: Häufig gestellte Fragen (faq) und die Antworten der Wikidatagemeinschaft
  • Help:Contents: Das Hilfeportal für den Zugriff auf alle Dokumentationen für Wikidata