Wikidata:Werkzeuge/OpenRefine/Bearbeiten/Anleitungen/Abgleichen mit Drittanbietern
Manchmal ist die Quelle, aus der du Daten importieren möchtest, riesig. Beispielsweise können Datenquellen wie Unternehmensregister wesentlich mehr Einträge haben, als Wikidata auf dem entsprechenden Gebiet je haben wird. In diesem Fall ist der übliche Arbeitsablauf des Ladens der Datenbank in OpenRefine und des Abgleichens mit Wikidata völlig unpraktisch - die Datenbanken sind zu groß, das Abgleichen wird ewig dauern und es werden nur sehr wenige gute Treffer auftauchen (da die überwältigende Mehrheit der Einträge der Datenfundstelle in Wikidata nicht existiert und auch nicht existieren sollte).
Diese Anleitung erklärt, wie das Problem umgangen werden kann: wir werden stattdessen vorhandene Wikidata-Datenobjekte mit einer SPARQL-Abfrage ermitteln, die das entsprechende Gebiet als Ziel hat und diese Datenobjekte gegen unsere Datenquelle abgleichen. Unser Ziel wird es sein, Normdaten wie VIAF ID (P214) und GND ID (P227) zu Datenobjekten über Personen hinzuzufügen. We werden den LOBID-Abgleichsservice nutzen, der uns die Einträge gegen die Integrated Authority File (Q36578) (GND) abgleichen lässt.
Ziel-Datenobjekte mit einer SPARQL-Abfrage ermitteln
Sagen wir, wir sind daran interessiert, die Verknüpfung deutscher Forscher zu verbessern. Wir können eine Liste deutscher Forscher mit fehlender GND ID (P227) wie folgt erhalten:
SELECT ?item ?itemLabel WHERE {
?item wdt:P31 wd:Q5;
wdt:P106 wd:Q1650915;
wdt:P27 wd:Q183.
FILTER NOT EXISTS { ?item wdt:P227 ?gnd }
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],de". }
} LIMIT 100
Natürlich ist diese Abfrage (und ihre Grenze) willkürlich - wir könnten genau so gut nach brasilianischen Organisationen oder lettischen Orten suchen. Das Ziel ist einfach, die Domäne auf Datenobjekte einzugrenzen, die wahrscheinlich einen Eintrag in der Zieldatenbank besitzen.
Abgleich mit GND
Importiere die Ergebnisse dieser Abfrage nach OpenRefine. Die erste Spalte enthält QIDs, die direkt mit Wikidata abgeglichen werden können (Abgleichen → Abgleich starten und wähle den Wikidata-Service). Wir werden auch die zweite Spalte abgleichen, diese jedoch gegen die GND selbst. Um dies zu tun, klicke auf Abgleichen → Abgleich starten und Standard-Service hinzufügen. Nutze die Adresse des GND-Abgleichsservices von LOBID: https://lobid.org/gnd/reconcile
Wie für Wikidata kannst du den Abgleich auf bestimmte Typen begrenzen und sie mit Eigenschaften verfeinern (siehe die Dokumentation des Services für weitere Details). Du kannst dann Datenobjekte gegen die GND abgleichen:
Abrufen der Identifikatoren
Wenn du die Datenobjekte abgeglichen hast, kannst du die GND-ID erhalten, indem du eine Spalte mit dem Ausdruck cell.recon.match.id
hinzufügst und du kannst den Namen der Fundstelle in der GND mit cell.recon.match.name
erhalten. Du kannst diese Information (und viel mehr) durch Nutzung des Befehls Spalten von abgeglichenen Werten hinzufügen erhalten:
Hinzufügen der IDs zu Wikidata
Wir können dann ein Schema erstellen, um die Identifikatoren zu Wikidata hinzuzufügen. Du kannst auch den Namen der Fundstelle in der GND als Alias zu den Datenobjekten hinzufügen:
Dies ergibt die folgenden möglichen Bearbeitungen:
Diese Bearbeitungen können dann nach Wikidata hochgeladen werden.
Andere abgleichbare Datenquellen
Verschiedene andere Datenquellen können über Abgleichsservices abgefragt werden. Hier sind ein paar davon:
- Virtual International Authority File (Q54919):
http://refine.codefork.com/reconcile/viaf
(Dokumentation, ziehe bei aufwändigen Nutzungen in Erwägung, die Schnittstelle lokal auszuführen)
Du kannst weitere Abgleichsservices auf der Abgleichs-Testseite finden.
Es ist möglich, deine eigne Abgleichsschnittstelle für andere Datenbanken zu erstellen, beispielsweise über Reconcile-csv, Conciliator oder indem du selbst die Reconciliation Service API implementierst.