Wikidata:Tools/Author Disambiguator/nl

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Tools/Author Disambiguator and the translation is 100% complete.

Author Disambiguator is een hulpmiddel voor het bewerken van de auteurs van werken die zijn opgenomen in Wikidata. Het hulpmiddel is ontwikkeld als onderdeel van het m:WikiCite initiatief, en wordt gedeeltelijk gecoördineerd met het project Scholia dat visuele representaties geeft van de wetenschappelijke literatuur op basis van wat er in Wikidata te vinden is. Vanaf oktober 2020 toonden de statistieken van Scholia aan dat Wikidata gegevens bevatte voor meer dan 36 miljoen wetenschappelijke artikelen, waarvoor auteurs in 133 miljoen gevallen werden weergegeven als eenvoudige strings (de eigenschap author name string (P2093)) en ongeveer 19 miljoen keer als links naar auteursitems (de eigenschap author (P50)). Auteursrelaties maken een veel rijkere analyse en tracering mogelijk van relaties tussen onderzoekers en hun werken, instellingen, enz. Het doel van dit hulpmiddel is om te helpen bij het zo efficiënt en gemakkelijk mogelijk omzetten van die strings in links naar auteursitems.

Hoofdfuncties

Zoek en groepeer werken met (bijna) een bepaalde naamreeks

Auteur disambiguator Auteursnaam invoerformulier

Het belangrijkste veld in het formulier voor de invoer van de auteurnaam is de auteursnaam - dit is de naam die wordt gebruikt om werken met deze naamstring te vinden en potentiële auteur-item in Wikidata die gebruikt kan worden om die strings te vervangen. De naam moet worden ingeschreven in natuurlijke volgorde (Voornaam (en) Familienaam (en) voor westerse auteurs bijvoorbeeld). U kunt ook gewoon de naam precies van de stringwaarde in een voorbeeldwerk snijden en plakken. Achter de schermen wordt de naam in componenten (gedeeld door ruimtes of strepen) geanalyseerd die worden gebruikt om andere potentiële vormen van de naam te genereren die mogelijk in werken zijn gebruikt. Met name de verschillende geselecteerde opties bepalen specifiek hoe de naam wordt gebruikt voor het zoeken:

  • Fuzzy match: dit is de meest agressieve vorm van geautomatiseerde naamverwerking, waarbij u voornamen en en middennamen als initialen, grote letters versie van de namen, "Last F" formaat, enz. Zoekt. In de meeste gevallen, behalve bij zeer veel voorkomende familienamen, is dit waarschijnlijk de meest nuttige optie als u probeert de grootste mogelijk selectie werken te vinden die overeenkomen. (Let op dat dit alleen overeenkomt met de auteursnaamstring die alleen al onduidelijk is; bijvoorbeeld, als u "Jim Smith" zoekt, krijgt u resultaten voor "J Smith" en "Smith J", maar niet voor "Jimmy Smith".)
  • Wikibase zoeken: standaard gebruikt de service alleen exacte tekenreeksovereenkomsten met de gegenereerde variaties op de naam. Met deze optie wordt de zoekopdracht ook uitgebreid om effectief gebruik te maken van het Wikidata-zoekvak voor de naam (in het bijzonder worden alle accenten en naamvalvariaties genegeerd). De zoekterm wordt behandeld zoals geciteerd, dus "James Baker" komt overeen met "Peter James Baker" en "James Baker-Jarvis", maar niet met "James F. Baker" of "James Kenneth Baker".
Voorbeeld van het vak "Specificeer naamtekenreeks" met variaties op de aangegeven naam.
  • Geef de naamtekenreeksen aan: check dit en druk direct op de knop "Zoek naar auteur", en er verschijnt een tekstvak met de mogelijke naamvarianten, wat iets lijkt op het voorbeeld aan de rechterkant. Bij verstek wordt in dit vak de automatisch gegenereerde naamvarianten weergegeven van de geleverde naam - u kunt in dit geval merken dat er versies met en zonder accenten en met initialen voor middelnamen of helemaal geen middelnamen zijn, evenals de volledige geleverde titel. In het tekstvak kunt u dan namen van de lijst verwijderen of varianten toevoegen die niet automatisch zijn gegenereerd. Voer één waarde per rij in. Deze maken dan de naamtekenreeksen die worden gebruikt voor het zoeken naar werken en auteursartikelen nauwkeuriger te specificeren. In het hier gegeven voorbeeld bevatten de auto-genereerde namen zelfs niet de gemeenschappelijke variatie "J. Benlloch", dus het toevoegen van die variatie was nuttig.
  • Extra SPARQL-filters: dit is vooral handig als u veel te veel overeenkomende werken ziet (meer dan de limiet van 500 bijvoorbeeld!) of als u de werken waarop u matcht op een andere manier wilt filteren. De filters worden toegepast op de bijbehorende werken, zodat elke eigenschap van een werk kan worden gebruikt. De voorbeeldsuggestie gebruikt main subject (P921), maar u kunt ook geïnteresseerd zijn in het filteren op author name string (P2093) (een naamreeks van een co-auteur), author (P50) (een bepaalde geïdentificeerde co-auteur), published in (P1433), enz.
  • Potentiële auteurs ook filteren?: dit past het SPARQL-filter toe op alle werken waarvoor de persoon een author (P50) is, zodat alleen auteurs met overeenkomende werken worden vermeld.

Bij het zoeken naar auteursitems wordt ook gekeken naar de waarde object named as (P1932) die vaak wordt gebruikt als kwalificatie voor author (P50)-instructies, evenals de labels en aliassen op de auteursitems zelf. Als u verrast bent door een auteursitem dat in de resulterende lijst wordt weergegeven, kan dit zijn vanwege een onverwachte (of foutieve) alias of object named as (P1932)-waarde ergens.

Zodra er werken zijn gevonden die overeenkomen met het zoeken op auteurnaam, wordt een clusteringalgoritme gebruikt om ze in groepen te weergeven. De groeperingen zijn gebaseerd op verschillende criteria, waaronder de namen of identificaties van mede-auteurs, de onderwerpen op de lijst of het tijdschrift van publicatie. Een alternatief algoritme dat strikt gebaseerd is op het naamtekenreeksformaat van de gegeven auteur en de voorafgaande (indien van toepassing) en volgende (indien daarvan) auteursnamen of naamtekenreeks is ook beschikbaar via een link aan de bovenkant van de groepen. De groepen zijn ongeveer op maat, met de grotere groepen eerst, en binnen de groepen worden de werken op (afnemende) publicatiedatum, indien van toepassing, op orde gesteld. Werken zonder publicatiedatum die in Wikidata zijn gevonden, worden aan het einde van elke groep vermeld. Alle werken die niet met een ander kunnen worden geclusterd, worden in een groep geplaatst genaamd "Div" aan de onderkant, die anderszins op een vergelijkbare manier wordt geordend. De clustering is bedoeld om werken van verschillende auteurs in verschillende groepen te groeperen, dus het moet meestal redelijk zijn om alle werken in een bepaalde groep (behalve de "Div"-groep) te selecteren die overeenkomen met het bijbehorende auteuronderdeel.

Begin van de lijst met "Potentiële publicaties" met de eerste groepering werken.

Voor elk werk wordt de titel weergegeven, gekoppeld aan de werkpagina in het hulpmiddel. Vervolgens de auteurslijst, met al overeenkomstige auteurs-items in groen (verweven naar hun auteurspagina binnen het hulpmiddel) en ongeëvenaarde auteurs in blauw (met link naar de bijbehorende naamzoekpagina). De auteursnaam die overeenkomt met de zoekcriteria wordt in zwart weergegeven met een selectievak om te selecteren of we die auteursnaamtekenreeks willen vervangen door het geselecteerde auteursitem. Andere links in de tabel gaan naar het bijbehorende Wikidata-item of naar de externe website (voor DOI of andere identificaties). Publicaties en onderwerpen (en voor auteursartikelen, instellingen) hebben ook een link naar de aan hen geassocieerde Scholia "missing" pagina, die een lijst bevat met geassocieerd maar nog steeds ongeëvenaard auteursnaamtekenreeksen.

Indien de clusteringcriteria (co-auteurs, publicaties, onderwerpen) overeenkomen met een van de gevonden auteuritems, wordt in de rechtste kolom van de tabel de overeenkomende auteur (of auteurs indien er meer dan één overeenkomt) weergegeven, die ook is gekoppeld aan de auteurspagina binnen dit hulpmiddel.

Een overeenkomstige werk voor een auteur, met de naam van de auteur in de lijst, verwacht overeenkomstige naam aan de rechterzijde.

Merk op dat als er een groot aantal auteurs van een werk zijn, de auteurslijst wordt afgekort om alleen de eerste tien te tonen, en dan tot vijf rond de overeenkomstige auteursnaamtekenreeks. Als meer dan één auteur overeenkomt, worden alle overeenkomende auteurs met hun bijbehorende checkboxen getoond, zodat de juiste kan worden geselecteerd.

Hieronder vindt u een lijst van potentieel overeenkomende auteurs. Maar één mag worden geselecteerd, of de optie "Ander Q-nummer voor deze auteur" wanneer een niet in de lijst opgenomen auteur kan worden gebruikt. Er is ook een formulier voor het maken van een nieuw auteur-item binnen Wikidata indien nodig.

Potentiële auteurs worden vermeld, met een knop om het koppelingsproces te starten

Als u op "Geselecteerde werken koppelen aan auteur" klikt, wordt een batchproces gestart dat, voor elk vermeld werk, de geselecteerde auteursnaamtekenreeks vervangt door een auteursitem met dezelfde kwalificaties en verwijzingen, en een extra object named as (P1932)-kwalificatie door de oorspronkelijke naamtekenreekswaarde.

Werken met een bepaalde auteur zoeken

Formulier voor invoer auteur Wikidata Qid

Deze pagina (te vinden via de link "Auteurs" in de navigatiebalk rechtsboven, of via links naar auteursitems op andere pagina's in het hulpmiddel) toont alle werken met een bepaalde author (P50)-waarde. Net als bij de naamzoekpagina, kan een extra SPARQL-filter worden gebruikt om de resulterende lijst met werken te beperken op basis van onderwerp, publicatielocatie, coauteurs, enz. De resulterende lijst van werken is opnieuw chronologisch omgekeerd geordend op publicatiedatum, met dezelfde links als de werken die op de naamzoekpagina worden vermeld. Als sommige werken aan het verkeerde auteursitem zijn toegewezen, kunnen ze naar het juiste worden verplaatst via het formulier onderaan de lijst met werken, waar het Wikidata-ID van het juiste auteursitem kan worden ingevoerd.

Het selectievak "Duplicaten zoeken om samen te voegen" zoekt naar werken die aan deze auteur zijn gekoppeld en die meer dan één auteursnaam of auteursnaamreeks hebben die is gekoppeld aan dezelfde series ordinal (P1545)-waarde - vaak is dit te wijten aan duplicatie of het niet verwijderen van de author name string (P2093)-waarde wanneer een author (P50) is toegevoegd. Als de namen overeenkomen (op basis van criteria voor het verwerken van namen die vergelijkbaar zijn met die van de hoofdauteur), dan wordt er een selectievak naast het werk getoond, zodat die waarden kunnen worden samengevoegd (d.w.z. author name string (P2093) en dubbele author (P50)'s verwijderd, kwalificaties en referenties samengevoegd, enz.) Gevallen waarin de namen niet overeenkomen, vertonen een "mismatch"-indicator, die waarschijnlijk op individuele basis moet worden onderzocht om het probleem aan te pakken.

Auteurs van een bepaald werk bekijken en bewerken

Formulier om het Wikidata Qid van een werk item in te voeren

Deze pagina is te bereiken via de link Werken in de navigatiebalk rechtsboven, of via een link op een van de andere pagina's. Afhankelijk van de geselecteerde selectievakken heeft de pagina verschillende modi voor het weergeven of bewerken van de auteurslijst voor een werk. In alle modi toont de hoofdtabel de auteurs, achtereenvolgens gerangschikt op basis van hun series ordinal (P1545)-waarde. Auteurs zonder series ordinal (P1545) staan onderaan. Wat betreft de naamzoekpagina, auteursvermeldingen die alleen tekenreeksen zijn (author name string (P2093)) worden in blauw weergegeven, gekoppeld aan de bijbehorende naamzoekpagina, en auteursitems (author (P50)) worden in groen weergegeven, gekoppeld aan de bijbehorende auteurspagina in dit hulpmiddel.

In standaardmodus (geen in de bovenste vorm geselecteerde selectievakken) kan de werkpagina niet-genummerde auteurs verwijderen of meerdere waardepunten van een rij met dezelfde nummer samenvoegen. Als geen van deze wijzigingen mogelijk is, wordt aan de onderkant van de pagina geen actieknop weergegeven.

In de modus "hernummeren" (vink "Auteurs hernummeren?" aan) kunnen de rangtelwoordwaarden van de reeksen voor elk van de auteursnamen of items worden gewijzigd. Dit werkt slechts tot een maximum van 5000 auteurs op een bepaald werk. Merk op dat in deze en in andere modi voor een werkitem, wanneer de bewerking wordt gemaakt, dit wordt gedaan in een enkele bewerking van het Wikidata-item - dit vermindert de belasting van bijbehorende updates op de queryservice. Auteurs zonder wijziging in de rangtelwoordwaarde van de reeks worden niet beïnvloed door een dergelijke bewerking.

In de "match"-modus (vink "Overeenkomsten voorstellen?" aan) wordt een lijst met mogelijk overeenkomende auteursitems gebruikt om te proberen items te vinden om zoveel mogelijk van de resterende auteursnaamreekswaarden te vervangen. Standaard is deze lijst afkomstig van alle items die coauteurs zijn (op andere werken) van auteursitems die al op dit werk zijn geïdentificeerd. Andere lijsten met auteurs kunnen echter worden gebruikt voor matching door een andere keuze te selecteren in de vervolgkeuzelijst "Auteurslijst" - zie de sectie "Lijsten met auteursitems beheren" hieronder. Als u het selectievak 'Gebruik namen gebruiken als' selecteert, wordt het volledige matching-algoritme gebruikt met object named as (P1932)-waarden van andere werken van die auteur, waardoor de kans groter wordt dat een auteursitem overeenkomt met een van de auteursnaamreeksen op het werk; Voor auteurs met veel werken zal deze query echter extra tijd in beslag nemen, dus kan worden vermeden als het niet nodig is.

Lijsten met auteursitems beheren voor gebruik bij matching

Deze functie is nog in ontwikkeling. De pagina wordt bereikt via de link "Listen" in de bovenste rechter navigatiebalk. Het maakt het mogelijk om lijsten te maken en te beheren van Wikidata-auteur-item - een grote samenwerking, andere co-auteurs of gewoon een beperkte selectielijst op onderwerp. De lijsten kunnen worden geselecteerd op de werk-itempagina om de auteurs te koppelen.

Het is nu niet belangrijk om in deze auteurslijsten te ordenen; auteurs worden weergegeven in de volgorde waarin ze zijn toegevoegd. Auteurs kunnen individueel of als alle geïdentificeerde auteurs van een bepaald werk of werken worden toegevoegd. De auteurslijsten kunnen met elkaar worden vergeleken en ook met de auteurs van een bepaald werkstuk om gemeenschappelijke en verschillende elementen te identificeren.

Controleren, stoppen of herstarten van batches bewerkingen

Bewerkingen van werk-items die met Author Disambiguator worden gemaakt, worden allemaal gedaan in een achtergrondbatch-modus. Elke batch bestaat uit één of meer bewerkingen die verband houden met uw activiteiten op een bepaald auteur of werk-item. Alle batches zijn te vinden via de link "Batches" in de menubalk. Ze worden in omgekeerde chronologische volgorde vermeld (op basis van de laatste gewijzigde datum, niet de datum van aanleg). Elke batch is ook geassocieerd met een "bewerkingsgroep", die kan worden beoordeeld met het Bewerkingsgroepen hulpmiddel.

Voor elke gebruiker (geïdentificeerd via OAuth) mag slechts één batch tegelijk worden uitgevoerd, en binnen die batch kan slechts één bewerking tegelijk worden uitgevoerd - die bewerking wordt weergegeven als in de status "Actief". Andere bewerkingen die wachten, worden weergegeven als "Gereed". Een succesvol voltooide bewerking wordt weergegeven als "Gereed". Als er een probleem is opgetreden bij het voltooien van een bewerking, wordt de status "Fout" aangegeven, met een bijbehorend bericht dat zichtbaar is op de pagina voor die specifieke batch. Dit zou een nuttig bericht moeten zijn dat aangeeft wat het probleem was, bijvoorbeeld "duplicaat ordinaal '129'" geeft aan dat twee of meer verschillende auteursitems zijn gematcht met de auteursnaam bij reeks ordinaal 129. Als de foutmelding een tijdelijk probleem aangeeft (bijvoorbeeld een "kan niet worden opgeslagen" bericht van de Wikidata API), dan kan de link "Fouten resetten" worden gebruikt op de pagina met de individuele batch of de batchlijst, en de batch kan dan opnieuw worden gestart om die specifieke bewerking opnieuw te proberen. Batches kunnen ook worden gestopt en opnieuw worden gestart vanaf de pagina met de lijst.

Merk op dat er soms tijden zijn wanneer de Wikidata-servers druk zijn en een bepaalde bewerking lang (een uur of langer) in "Running" staat lijkt te zijn. Controleer de verzendvertragings-/maxlagstatistieken op grafana om te controleren of dit het geval is. Als dat niet het probleem lijkt, probeer dan te stoppen en de batch opnieuw te starten.

Het is aan te bevelen voltooide (of foute) batches te verwijderen; dit heeft geen effect op de functionaliteit "Groepen bewerken" of op een van de voltooide bewerkingen en houdt de database een beetje schoner.

Broncode, wijzigingsverzoeken, enz.

Het hulpmiddel Author Disambiguator wordt uitgevoerd op ToolForge, met de code die wordt beheerd in een GitHub-repository. Gebruik de pagina GitHub-problemen om wijzigingen aan te bevelen of andere verzoeken te doen.