Wikidata:Recoin/de

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Recoin and the translation is 98% complete.
Outdated translations are marked like this.

logo

Recoin ("Relative Completeness Indicator") ist ein Skript, das Wikidata-Objektseiten um Informationen zur relativen Vollständigkeit der Informationen ergänzt. Die relative Vollständigkeit bezieht sich auf den Umfang an Informationen, die sich in einem Datenobjekt befinden, verglichen mit anderen, ähnlichen Datenobjekten.

Recoin fügt Status-Indikatoren (oben rechts) und zwei ausklappbare Listen wichtiger fehlender Eigenschaften und IDs (Mitte) zu Wikidata hinzu. Hier für Abbey Road, für das die Daten sehr detailliert sind.

Der Indikator fasst den Umfang an Informationen in einem farbigen Balken zusammen, indem 5 mögliche farbcodierte Vollständigkeitsstufen von sehr detaillierte Informationen bis sehr grundlegende Informationen angezeigt werden.

Recoin soll sowohl Autoren dabei helfen, festzustellen, worauf sie ihre Aufmerksamkeit richten sollten, als auch Datennutzer auf den Informationsgehalt eines bestimmten Artikels hinweisen.

Max-Planck-Institut für Informatik: Detaillierte Informationen
Arno Kompatscher: Basisinformationen


Motivation

Recoin soll sowohl den Autoren als auch den Datennutzern von Wikidata helfen.

Für Nutzer (Konsumenten) bietet es eine einfache Zusammenfassung des Vollständigkeitsgrads der Informationen in Wikidata, die ihnen dabei helfen können, zu entscheiden, ob sie für die benötigten Informationen auf Wikidata vertrauen können oder nicht. Dies ist sinnvoll, da das reine Vertrauen auf die Länge eines Artikels nicht immer eine gute Idee ist, da beispielsweise der Schachspieler Jeff Sarwer (Q3494327) aufgrund vieler Aussagen zu seiner Elo-Zahl einen langen Artikel hat, jedoch bis vor kurzem sehr grundlegende Informationen wie die Staatsangehörigkeit oder der Nachname gefehlt haben.

Für Autoren bietet es entsprechend Informationen darüber, Informationen welcher Personen vollständiger als die anderer Personen sind, wodurch sie ihre Aufmerksamkeit auf unvollständigere Personen richten können. Für einzelne Personen ermöglicht es, die wichtigsten fehlenden Eigenschaften zu sehen, auf deren Vervollständigung sich die Autoren konzentrieren können oder, sofern für diese Eigenschaften keine Werte vorhanden sind, diese mit mit kein Wert zu kennzeichnen.

Was es zeigt

Recoin kann zwei Arten von Informationen zu Wikidata-Seiten hinzufügen:

  • Einen 5-stufigen Status-Indikator, der von sehr detailliert bis sehr grundlegend reicht und den Umfang an Informationen zusammenfasst, verglichen mit anderen, ähnlichen Objekten;
  • Zwei ausklappbare Listen der wichtigsten fehlenden Eigenschaften und externer IDs werden oben auf Objektseiten hinzugefügt.

Wie es funktioniert

Architektur

Architektur von Recoin mit Stand Dezember 2017

Die in der Abbildung rechts dargestellte Architektur zeigt die Javaskript-Module recoin-core.js und recoin-explanations.js, die Abfragen an getmissingattributes.php auf dem [:wikitech:Portal:Toolforge Toolforge-Server] senden. Dieses PHP-Skript wiederum führt die Berechnung durch, indem es Abfragen stellt, zunächst an den Wikidata-SPARQL-Endpunkt, um Berufe für die Objekte zu erhalten und dann an Datenbanken auf ToolsDB, um die Attributhäufigkeit für die (zuvor berechneten) Berufe (Menschen) oder Klassen (alles außer Menschen) abzurufen. Die Ergebnisse (Vollständigkeit und fehlende Eigenschaften) werden als JSON-Serialisierung zurückgegeben und von den Javaskript-Modulen genutzt, um die Seite zu rendern.

Berechnung

Das Skript führt Berechnungen für alle in der Tabelle wikidatawiki_p.wbs_propertypairs enthaltenen Klassen durch.[1] Darüber hinaus gibt es basierend auf den 1000 häufigsten Berufen von Menschen genauere Ergebnisse, indem die Berufe wie Klassen behandelt werden.

Bestimmung fehlender Eigenschaften und IDs

Zunächst beschreiben wir den Fall eines Objektes, das zu einer einzigen Klasse / einem einzigen Beruf gehört und diskutieren Mitgliedschaften in mehreren Klassen später unten.

Wenn ein Objekt zu einer bestimmten Klasse gehört, berechnen wir die Eigenschaften, die am häufigsten in diesen Klassen verwendet werden und überprüfen, wie viele davon bei diesem Objekt fehlen. Die Top 10 fehlenden Eigenschaften werden durch das Hauptskript angezeigt (ein zweites Skript zeigt auch externe IDs). Für in wikidatawiki_p.wbs_propertypairs enthaltene Klassen nutzen wir alle dort verfügbaren Eigenschaften. Für Berufe von Menschen nutzen wir die häufigsten 100 Eigenschaften je Beruf.

Zum Beispiel fehlen bei Jimmy Wales (Q181) unter anderem die Eigenschaften languages spoken, written or signed (P1412), member of political party (P102) und position held (P39), die von 13,435%, 9,347% und 8,376% der Personen des gleichen Berufs angegeben sind.

Berechnung der Status-Indikatoren

Um die relative Vollständigkeit auf der fünfstufigen Skala zu bestimmen, berechnen wir die durchschnittliche Häufigkeit der Top 5 fehlenden Eigenschaften (wenn es weniger als 5 fehlende Eigenschaften gibt, nehmen wir als ihre Häufigkeit null an). Die Stufen setzen wir dann wie folgt:

  • Level 5 (höchste Vollständigkeit) 0%-5% durchschnittliche Häufigkeit der Top 5 fehlenden Eigenschaften
  • Level 4 (hohe Vollständigkeit) 5%-10% durchschnittliche Häufigkeit der Top 5 fehlenden Eigenschaften
  • Level 3 (mittlere Vollständigkeit) 10%-25% durchschnittliche Häufigkeit der Top 5 fehlenden Eigenschaften
  • Level 2 (geringe Vollständigkeit) 25%-50% durchschnittliche Häufigkeit der Top 5 fehlenden Eigenschaften
  • Level 1 (geringste Vollständigkeit) 50%+ durchschnittliche Häufigkeit der Top 5 fehlenden Eigenschaften

Beispielsweise fehlen bei Arno Kompatscher (Q15074414)

  • P39 (öffentliches Amt oder Stellung) - 54,33%
  • P1412 (gesprochene oder publizierte Sprachen) - 49,93%
  • P102 (Parteizugehörigkeit) - 46,62%
  • P1559 (Name in Muttersprache) - 31,14%
  • P937 (Wirkungsort) - 30,67%

Somit beträgt die durchschnittliche Häufigkeit der Top 5 fehlenden Eigenschaften 42,53% und der Vollständigkeitsgrad liegt bei 2 (gering).

Behandlung von Mitgliedschaften in mehreren Klassen

Für Objekte, die zu mehreren Klassen gehören (siehe z.B. Dresden (Q1731)) oder Personen mit mehreren Berufen (z.B. Arno Kompatscher (Q15074414)), führt Recoin die Berechnung basierend auf der Gewichtung der Häufigkeit jeder Klasse / jedes Berufes durch.

Zum Beispiel ist Arno Kompatscher (Q15074414) sowohl Politiker als auch Jurist. Auf Wikidata gibt es 297.370 Politiker und 12.635 Juristen. Wenn 40% der Politiker die Eigenschaft position held (P39) besitzen, bei den Juristen jedoch nur 20%, wird schließlich die berechnete Häufigkeit mit dem Durchschnittswert von 39% gewichtet.[2]

Sonderfälle

  • Für Menschen werden die Eigenschaften place of death (P20) und date of death (P570) herausgefiltert, da sie häufig, aber bei lebenden Menschen nicht erwünscht sind;
  • In dem Fall, dass ein Objekt nur zu einer Klasse gehört, die keine Daten in wikidatawiki_p.wbs_propertypairs hat, wird nichts angezeigt;
  • In dem Fall, dass ein Objekt zu mehreren Klassen oder Berufen gehört, von denen eine keine Daten hat, wird als Häufigkeit für die Eigenschaften in dieser Klasse null angenommen
  • Bei Eigenschaften mit einer Häufigkeit unter 0,01% in einer Klasse wird als Häufigkeit null angenommen
  • Bei Objekten mit einem Beruf, der nicht zu den 1000 häufigsten gehört, werden fehlende Eigenschaften basierend auf Menschen allgemein berechnet

Mehrsprachigkeit

Standardmäßig zeigt Recoin die Bezeichnungen der Eigenschaften in der in den Benutzereinstellungen festgelegten Sprache an oder, wo keine Bezeichnung verfügbar ist, in Englisch. Gleiches gilt für die Zeichenketten des Werkzeugs (Zusammenfassung oben auf der Seite, altLabels des Status-Indikators). Übersetzungen können hier hinzugefügt werden.

Installation

Haupt-Werkzeug

Recoin kann unter Special:Preferences im Abschnitt "Helferlein/Wikidata" aktiviert werden.

Spezielle Version: Nur IDs

Eine spezielle Version, die nur ID-Eigenschaften zeigt, kann aktiviert werden, indem die folgende Zeile zu Special:MyPage/common.js hinzugefügt wird:

 importScript('User:Vvekbv/recoin_id.js');

Wenn du eine globale Common-Datei betreibst, nutze den folgenden Code in m:Special:MyPage/global.js:

 mw.loader.load('//www.wikidata.org/w/index.php?title=User:Vvekbv/recoin_id.js&action=raw&ctype=text/javascript');

APIs

Zugriff je Objekt

Auf Recoin kann auch zugegriffen werden über eine API, die verfügbar ist auf

 https://tools.wmflabs.org/recoin/getmissingattributes.php?lang=en&subject=Q15074414&n=10

und

 https://tools.wmflabs.org/recoin/getmissingattributes_id.php?lang=en&subject=Q15074414&n=10

(ersetze die gewünschte Q-Nummer des Objektes, die Sprache (Standardsprache ist Englisch) und n erforderliche Eigenschaften (Standard ist 10)).

Zugriff je Klasse

Um eine Liste der häufigsten Eigenschaften für eine bestimmte Klasse zu erhalten, kann die folgende API genutzt werden

 https://tools.wmflabs.org/recoin/getbyclassid.php?subject=Q185351&n=200

(ersetze die gewünschte Q-Nummer der Klasse, "n" ist die Anzahl der ausgegebenen Ergebnisse (Standard ist 200))

Daten-Dumps

Ein Dump der Eigenschaften-Häufigkeiten für Klassen und Berufe vom 22. August 2019 ist hier verfügbar.

Neben der API oben ist es möglich, aktuelle Daten zu Eigenschaften-Häufigkeiten für Klassen über Abfragen zu erhalten (Beispiel: häufigste Eigenschaften für Filme: Abfrage).

Weitere Informationen

Kontakt:

  • Vevake Balaraman - vevake.balaraman@gmail.com
  • Simon Razniewski - srazniew@mpi-inf.mpg.de
  • Werner Nutt - nutt@inf.unibz.it

Literatur:

  • Wissenschaftliches Papier "Recoin: Relative Completeness in Wikidata" von Vevake Balaraman, Simon Razniewski, Werner Nutt, Wiki Workshop auf The Web Conference 2018 (Link)
  • Diskussion auf der WikidataCon 2017 "How to know what Wikidata knows"
  • Wissenschaftliches Papier "Assessing the Completeness of Entities in Knowledge Bases" von Albin Ahmeti, Simon Razniewski, Axel Polleres, ESWC P&D 2017 (Link)

Verwandte Projekte:

  • Qualitätsbewertung von Wikipedia-Artikeln mit ORES
  • Wikidata-Eigenschaftsvorschläge, ein Werkzeug, das aggregierte Verbindungsregeln für das Vorschlagen von Eigenschaften zum Hinzufügen nutzt
  • COOL-WD, ein Werkzeug, das es erlaubt, direkt in Wikidata Aussagen zur Vollständigkeit einzelner Eigenschaften zu treffen.

Anerkennung: Diese Arbeit wird teilweise unterstützt vom Projekt TaDaQua, finanziert von der Freien Universität Bozen.

  1. Stand 15. November 2017: 42078; query
  2. Dies ist nicht der genaueste Weg, da sowohl Politiker als auch Juristen so die doppelte Gewichtung im Vergleich zu anderen Objekten haben können, eine Vorabberechnung aller Kombinationen von Berufen/Klassen ist jedoch weder sofort noch vorab möglich und diese Gewichtung stellt eine brauchbare Annäherung dar.