Wikidata:Werkzeuge/OpenRefine/Bearbeiten/Schema-Ausrichtung

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Tools/OpenRefine/Editing/Schema alignment and the translation is 100% complete.
Beispiel eines einfachen Schemas.

In OpenRefine ist ein Schema eine Vorlage für Wikidata-Bearbeitungen, die auf jede Zeile angewendet wird. Diese Seite beschreibt, wie jeder Teil dieser Vorlage funktioniert und wie sie aus dem Inhalt von Tabellenzeilen Bearbeitungen generiert. Dies soll ein Referenzhandbuch sein: siehe die Bearbeitungsanleitung, wenn du einfach anfangen möchtest.

Objekte

Ein Objekt in einem Schema steht für eine Reihe von Änderungen an einem bestimmten Wikidata-Datenobjekt, die durch eine Tabellenzeile generiert werden. Dieses Objekt kann Änderungen der Ausdrücke (Bezeichnungen, Beschreibungen oder Aliasse) oder der Aussagen beinhalten.

Es ist möglich, mit jeder Zeile der Tabelle unterschiedliche Datenobjekte zu bearbeiten: Füge einfach mehrere Objekte in dein Schema ein. Jedes Objekt hat ein Subjekt, das entweder manuell eingegeben werden kann (wenn das Datenobjekt, das geändert werden soll, in allen Zeilen gleich ist) oder es kann eine abgeglichene Spalte in dieses Feld eingegeben werden. In diesem Fall hängen die Bearbeitungen vom Abgleichs-Status jeder Zelle ab:

  • Wenn die Zelle zu einem Datenobjekt passt, wird das Datenobjekt bearbeitet;
  • Wenn die Zelle zu einem neuen Datenobjekt passt, wird dafür ein neues Datenobjekt erstellt. Siehe Neue Objekte für weitere Details dazu, wie dies funktioniert;
  • Wenn es für die Zelle Kandidaten zum Abgleichen gibt, jedoch keines davon passt, wird die Bearbeitung übersprungen (selbst wenn es nur einen Kandidaten mit hoher Übereinstimmung gibt);
  • Wenn die Zelle nicht abgeglichen oder leer ist, wird die Bearbeitung übersprungen.

Mache dir keine Sorgen über die Sortierung der Objekte im Schema oder die Reihenfolge der Zeilen, da OpenRefine die Bearbeitungen umsortiert, um das Hochladen zu optimieren. Wenn dein Projekt in mehreren Zeilen Bearbeitungen für das gleiche Datenobjekt macht, werden diese Bearbeitungen zusammengefasst und in einer Bearbeitung ausgeführt. Siehe dazu Hochladen deiner Änderungen.

Begriffe

Begriffe sind sprachspezifische Zeichenketten, die du oben auf jedem Wikidata-Datenobjekt findest: Bezeichnungen, Beschreibungen und Aliasse. OpenRefine lässt dich diese Begriffe über das Wikidata-Schema bearbeiten.

Sprachen

Jeder Begriff gehört zu einer bestimmten Sprache. Wikidata unterstützt hunderte Sprachen, denen Sprachcodes zugewiesen sind. Für jede Bezeichnung, die du zu einem Datenobjekt hinzufügen möchtest, musst du die Sprache des Begriffes angeben. Es gibt zwei Fälle:

  • Entweder ist die Sprache in deinem ganzen Datensatz gleich: Du weißt, dass alle Begriffe in einer Spalte in der gleichen Sprache gesprochen werden. In diesem Fall kannst du den Namen der Sprache angeben und sie aus den Vorschlägen auswählen. Dadurch wird der entsprechende Sprachcode für die Eingabe verwendet.
  • Oder die Sprache variiert innerhalb deines Datensatzes. In diesem Fall musst du in einer Spalte den Wikimedia-Sprachcode für die jeweilige Sprache des Begriffes, den du hinzufügen möchtest, angeben. Ziehe diese Spalte einfach in das Sprachfeld. Wenn es in dieser Spalte ungültige Sprachcodes gibt, werden die entsprechenden Datenobjekte ignoriert. OpenRefine wird automatisch missbilligte Sprachcodes in die bevorzugten Werte umwandeln.

Bezeichnungen

Da Wikidata-Datenobjekte nur eine Bezeichnung pro Sprache haben können, musst du dich entscheiden, ob entweder die existierende Bezeichnung überschrieben werden soll (Standardverhalten vor 3.2) oder die Bezeichnung nur eingesetzt werden soll, wenn es in der Sprache noch keine Bezeichnung gibt (Standardverhalten seit 3.2). Wenn der Inhalt der Zelle für die Bezeichnung leer ist, wird nichts verändert (sodass es nicht möglich ist, Bezeichnungen zu entfernen).

Beschreibungen

Beschreibungen funktionieren wie Bezeichnungen: Es gibt höchstens eine je Sprache und OpenRefine kann existierende Beschreibungen überschreiben oder unverändert lassen. Es ist auch nicht möglich, vorhandene Beschreibungen zu entfernen.

Aliasse

Aliasse werden zu den bereits existierenden Aliassen in der entsprechenden Sprache hinzugefügt. Wenn ein Alias in einer Sprache hinzugefügt werden soll, die noch keine Bezeichnung hat, wird das Alias automatisch zur Bezeichnung in dieser Sprache. Es ist nicht möglich, Aliasse zu entfernen oder existierende Aliasse zu überschreiben.

Aussagen

Du kannst zu dem Schema Aussagen hinzufügen: Dies generiert für die entsprechenden Datenobjekte neue Aussagen. Diese Aussagen werden mit den bereits vorhandenen Aussagen der jeweiligen Wikidata-Datenobjekte zusammengeführt, wobei der Zusammenführungsprozess vom Hochlade-Medium abhängt. Es ist vorgesehen, in Zukunft eine größere Kontrolle über die Zusammenführungsstrategie zu ermöglichen.

Hauptwerte

Aussagen können Hauptwerte oder "kein Wert" oder "unbekannter Wert" als Werte haben. Aussagen mit "kein Wert" oder "unbekannter Wert" können durch die speziellen Schlüsselwörter #NOVALUE# und #SOMEVALUE# eingesetzt werden, die anstelle des Werts (entweder direkt im Schema oder über eine Spalte) genutzt werden. Dies wird ab OpenRefine 3.7 unterstützt.

Der Hauptwert einer Aussage ist ein Datenwert, dessen Typ von der für die Aussage genutzten Eigenschaft abhängt. Wenn der Hauptwert nicht ermittelt werden kann (beispielsweise da die entsprechende Zelle leer ist), wird die ganze Aussage übersprungen.

Siehe den Abschnitt Daten-Werte für weitere Details dazu, wie man die Typen der Daten-Werte spezifiziert und wann sie übersprungen werden.

Qualifikatoren

Für jede Aussage könne Qualifikatoren angegeben werden. Wenn ihre Werte übersprungen werden, wird nur der Qualifikator weggelassen: Der Rest der Aussage wird trotzdem hinzugefügt.

Fundstellen

Fundstellen können (und sollten) für jede Aussage angegeben werden. Wenn innerhalb der Fundstelle Werte übersprungen werden, wird der entsprechende Teil der Fundstelle weggelassen, die Fundstelle wird jedoch trotzdem hinzugefügt (es sei denn, die Fundstelle wäre leer).

Ränge

Alle Aussagen erhalten den Rang Normal. Es ist derzeit nicht möglich, einen anderen Rang anzugeben.

Daten-Werte

Daten-Werte sind die Daten, die du als Ziel einer Aussage (oder eines Qualifikators oder als Teil einer Fundstelle) finden kannst. Jede Eigenschaft gibt einen bestimmten Typ eines Daten-Wertes vor. In jedem Fall nutzt OpenRefine einen bestimmten Prozess, um Zelleninhalte in Daten-Werte des passenden Typs umzuwandeln.

Datenobjekte

Datenobjekte werden genau so ausgewertet wie die Subjekte der Objekte in dem Schema. Sie können mit den automatischen Vorschlägen direkt eingegeben werden oder eine mit Wikidata abgeglichene Spalte kann genutzt werden. Siehe den ersten Abschnitt zu Objekten dazu, wie diese ausgewertet werden .

Zeichenketten und externe Identifikatoren

Reine Zeichenketten und externe Identifikatoren können direkt als Konstanten eingegeben werden (wenn sie sich über die Zeilen hinweg nicht ändern) oder es kann eine Spalte dafür genutzt werden. Wenn eine abgeglichene Spalte für eine Zeichenkette genutzt wird, wird der Wert der Zelle genutzt, nicht der Name des abgeglichenen Datenobjektes (der von OpenRefine angezeigt wird). Werte werden übersprungen, wenn die Zeile leer oder der Wert null ist.

Monolinguale Texte

Monolinguale Texte bestehen aus zwei Teilen:

  • der Sprache: siehe Sprachen für ihre Struktur;

Ein monolingualer Text wird übersprungen, wenn einer seiner Teile übersprungen wird (also wenn entweder die Sprache oder der Text ungültig sind).

Datum

Datumsangaben werden aus Zelleninhalten analysiert (oder aus einer im Schema angegebenen Konstante) und die Genauigkeit des Datums hängt von dem Format ab. Hier sind die gültigen Formate:

  • YYYYM, wie 2001M (Genauigkeit Jahrtausend)
  • YYYYC, wie 1901C (Genauigkeit Jahrhundert)
  • YYYYD, wie 1981D (Genauigkeit Jahrzehnt)
  • YYYY, wie 1984 (Genauigkeit Jahr)
  • YYYY-MM, wie 2019-03 (Genauigkeit Monat)
  • YYYY-MM-DD, wie 1897-08-14 (Genauigkeit Tag)

Alle Werte die zu keinem dieser Formate passen, werden ignoriert. Alle Datumsangaben werden in UTC, gregorianischer Kalender angezeigt.

In OpenRefine 3.3 wurden die folgenden neuen Formate eingeführt:

  • TODAY gibt das heutige Datum mit der Genauigkeit Tag aus. Dies wird bei Durchführung der Bearbeitungen ermittelt (oder bei dem Export nach QuickStatements);

In OpenRefine 3.5 wurde das folgende neue Format eingeführt:

  • -234 steht für das Jahr 234 v. Chr.

Mengen

Mengen bestehen aus zwei Teilen: dem Betrag und der Einheit.

  • Der Betrag ist verpflichtend und muss als Zeichenkette angegeben werden, wie 18,229.1020. Die angezeigte Präzision wird berücksichtigt (die gleiche Anzahl nachfolgender Nullen wird in Wikidata angezeigt). Standardmäßig werden keine obere und untere Grenze gesetzt. Um diese zu definieren, muss eine technische Anmerkung wie 3.45E+3 genutzt werden, die als 3,450±5 interpretiert wird. Wie üblich kann der Betrag als Konstante oder als variable Spalte angegeben werden. In letzterem Fall müssen die Werte in der Spalte Zeichenketten sein.
  • Die Einheit ist optional. Sie ist ein Datenobjekt und kann somit entweder aus den automatischen Vorschlägen ausgewählt werden oder aus einer abgeglichenen Spalte entnommen werden. Dabei ist es wichtig, zu beachten, dass bei Nutzung einer abgeglichenen Spalte alle nicht abgeglichenen Zellen den gesamten Mengen-Wert ungültig machen. Eine Vorlage für einen Mengen-Wert muss deshalb entweder immer ohne Einheit oder immer mit Einheit angelegt werden.

Geokoordinaten

Geografische Koordinaten sind bestimmte Zeichenketten mit den folgenden Formaten, bei denen alle Bestandteile Punkte und Zahlen sind, die Gradangaben darstellen:

  • Breitengrad,Längengrad für eine Standardgenauigkeit von zehn Mikrograd (zum Beispiel kann 49.265278,4.028611 genutzt werden, um die Position von Reims (Q41876) anzugeben).
  • Breitengrad,Längengrad,Genauigkeit für die Angabe mit einer bestimmten Genauigkeit (zum Beispiel kann 49.265278,4.028611,0.1 genutzt werden, um die Position von Reims (Q41876) mit einem Zehntelgrad Genauigkeit anzugeben).

Alle Geokoordinaten befinden sich auf der Earth (Q2).

Wenn deine Koordinaten ein anderes Format wie 49° 15′ 55″ N, 4° 1′ 43″ E haben, musst du sie zunächst in das Dezimalformat konvertieren.

Medien auf Commons

Medien auf Wikimedia Commons werden wie Zeichenketten behandelt, deren Werte exakt mit Dateinamen auf Commons übereinstimmen müssen. Diese Werte werden während der Schema-Auswertung nicht überprüft: Wenn sie falsch sind, wird das Hochladen der Bearbeitungen fehlschlagen.

Tabellendaten und Geoshapes müssen mit dem Namensraum-Präfix Data: angegeben werden. Dies wird durch den Platzhalter in dem Feld angegeben, das bei der Konstruktion des Schemas erscheint.

Eigenschaften

Eigenschaften sind immer Konstanten: Es gibt derzeit keine Möglichkeit, eine Spalte gegen Eigenschaften abzugleichen. Sie müssen aus den automatischen Vorschlägen ausgewählt werden.

Andere Datentypen

URLs, mathematische Ausdrücke und andere Text-Datentypen werden unterstützt und als Zeichenketten behandelt. Zum Zeitpunkt der Erstellung dieser Seite wurden alle von Wikidata unterstützten Datentypen auch von OpenRefine unterstützt.

Stand Mai 2024 ist es nicht möglich, Seitenlinks hinzuzufügen, zu ändern oder zu löschen.[1]

Einzelnachweise

  1. Problem "Adding also sitelinks to Wikidata while reconciling" auf Github.