Wikidata:Werkzeuge/OpenRefine/Bearbeiten/Anleitungen/Abgleichen mit Drittanbietern

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Tools/OpenRefine/Editing/Tutorials/Third-party reconciliation and the translation is 100% complete.

Manchmal ist die Quelle, aus der du Daten importieren möchtest, riesig. Beispielsweise können Datenquellen wie Unternehmensregister wesentlich mehr Einträge haben, als Wikidata auf dem entsprechenden Gebiet je haben wird. In diesem Fall ist der übliche Arbeitsablauf des Ladens der Datenbank in OpenRefine und des Abgleichens mit Wikidata völlig unpraktisch - die Datenbanken sind zu groß, das Abgleichen wird ewig dauern und es werden nur sehr wenige gute Treffer auftauchen (da die überwältigende Mehrheit der Einträge der Datenfundstelle in Wikidata nicht existiert und auch nicht existieren sollte).

Diese Anleitung erklärt, wie das Problem umgangen werden kann: wir werden stattdessen vorhandene Wikidata-Datenobjekte mit einer SPARQL-Abfrage ermitteln, die das entsprechende Gebiet als Ziel hat und diese Datenobjekte gegen unsere Datenquelle abgleichen. Unser Ziel wird es sein, Normdaten wie VIAF ID (P214) und GND ID (P227) zu Datenobjekten über Personen hinzuzufügen. We werden den LOBID-Abgleichsservice nutzen, der uns die Einträge gegen die Integrated Authority File (Q36578) (GND) abgleichen lässt.

Ziel-Datenobjekte mit einer SPARQL-Abfrage ermitteln

Sagen wir, wir sind daran interessiert, die Verknüpfung deutscher Forscher zu verbessern. Wir können eine Liste deutscher Forscher mit fehlender GND ID (P227) wie folgt erhalten:

SELECT ?item ?itemLabel WHERE {
  ?item wdt:P31 wd:Q5;
        wdt:P106 wd:Q1650915;
        wdt:P27 wd:Q183.
  FILTER NOT EXISTS { ?item wdt:P227 ?gnd }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],de". }
} LIMIT 100
Try it!

Natürlich ist diese Abfrage (und ihre Grenze) willkürlich - wir könnten genau so gut nach brasilianischen Organisationen oder lettischen Orten suchen. Das Ziel ist einfach, die Domäne auf Datenobjekte einzugrenzen, die wahrscheinlich einen Eintrag in der Zieldatenbank besitzen.

Abgleich mit GND

Importiere die Ergebnisse dieser Abfrage nach OpenRefine. Die erste Spalte enthält QIDs, die direkt mit Wikidata abgeglichen werden können (AbgleichenAbgleich starten und wähle den Wikidata-Service). Wir werden auch die zweite Spalte abgleichen, diese jedoch gegen die GND selbst. Um dies zu tun, klicke auf AbgleichenAbgleich starten und Standard-Service hinzufügen. Nutze die Adresse des GND-Abgleichsservices von LOBID: https://lobid.org/gnd/reconcile

Bildschirmfoto des Dialogs zum Hinzufügen eines neuen Abgleichsservices

Wie für Wikidata kannst du den Abgleich auf bestimmte Typen begrenzen und sie mit Eigenschaften verfeinern (siehe die Dokumentation des Services für weitere Details). Du kannst dann Datenobjekte gegen die GND abgleichen:

Bildschirmfoto des Abgleichsprozesses mit LOBID

Abrufen der Identifikatoren

Wenn du die Datenobjekte abgeglichen hast, kannst du die GND-ID erhalten, indem du eine Spalte mit dem Ausdruck cell.recon.match.id hinzufügst und du kannst den Namen der Fundstelle in der GND mit cell.recon.match.name erhalten. Du kannst diese Information (und viel mehr) durch Nutzung des Befehls Spalten von abgeglichenen Werten hinzufügen erhalten:

Bildschirmfoto des Dialogs zum Übernehmen der Daten aus der GND

Hinzufügen der IDs zu Wikidata

Wir können dann ein Schema erstellen, um die Identifikatoren zu Wikidata hinzuzufügen. Du kannst auch den Namen der Fundstelle in der GND als Alias zu den Datenobjekten hinzufügen:

Beispielschema für das Hinzufügen der IDs

Dies ergibt die folgenden möglichen Bearbeitungen:

Vorschau der Bearbeitungen

Diese Bearbeitungen können dann nach Wikidata hochgeladen werden.

Andere abgleichbare Datenquellen

Verschiedene andere Datenquellen können über Abgleichsservices abgefragt werden. Hier sind ein paar davon:

Du kannst weitere Abgleichsservices auf der Abgleichs-Testseite finden.

Es ist möglich, deine eigne Abgleichsschnittstelle für andere Datenbanken zu erstellen, beispielsweise über Reconcile-csv, Conciliator oder indem du selbst die Reconciliation Service API implementierst.