Wikidata:WikiProject Biodiversity/Agassiz urchin fossil cast collection import/nl
Instituut: Natural history museum of Neuchâtel (Q3330885)
In opdracht van: Wikimedia CH (Q15279140) (Contactpersoon: Flor WMCH)
Uitvoerenden: Luca Martinelli (User:Morpiz) en Léa Lacroix (User:Auregann)
Tijdpad: juli-december 2023
Projectsamenvatting
Het Natuurhistorisch Museum in Neuchâtel wilde een reeks foto's importeren met betrekking tot 664 afgietsels van egelfossielen en de bijbehorende metadata op de Wikimedia-projecten. In het kader van dit project hebben we de foto's geïmporteerd op Wikimedia Commons, samen met de bijbehorende metadata, opgeslagen in een gekoppeld dataformaat en op de juiste manier verbonden met nieuw aangemaakte Wikidata-items. Naast het importeren van bestanden op Commons, vereiste dit project het analyseren, opschonen en afstemmen van de gegevens met bestaande gegevens op Wikidata, met de input van het museum, het creëren van ontbrekende items op Wikidata (specifieke items voor de fossielen, items over de soort, bibliografische referenties) en het zo nodig verbeteren van het bestaande datamodel van paleontologie op Wikidata.
Het project is uitgevoerd in opdracht van Wikimedia CH en vond plaats in juli-december 2023.
- Importeren van gegevens en bestanden, OpenRefine: Luca Martinelli (User:Morpiz)
- Coördinatie, contact met het museum, documentatie: Léa Lacroix (user:Auregann)
- Contactpersoon bij Wikimedia Zwitserlandː Flor Méchain (User:Flor WMCH)
Het project vond plaats in verschillende fasen:
- Analyseren, opschonen en verfijnen van de gegevens om ze klaar te maken om te importeren op Wikidata en Wikimedia Commons (gestructureerde gegevens). Done
- Analyseren en verbeteren van de bestaande inhoud op Wikidata. Creëren van nieuwe gegevens (fossiele, soorten, bibliografische referenties) om de gegevens te verrijken. Het gegevensmodel van paleontologie indien nodig verbeteren. Done
- Contact met het museum om vragen te stellen, problemen met de gegevens te bespreken en verzoeken om verduidelijking te geven. Done
- Een proefmonster maken voor de validatie door het museum: cast item en bestand op Commons met gestructureerde gegevens. Done
- Maak een sjabloon op Commons die gegevens uit Wikidata haalt en weergeeft, volgens de eisen van het Museum. Done
- Importeer de eerder verfijnde inhoud: bestanden op Wikimedia Commons en de bijbehorende gestructureerde metadata op Wikimedia Commons. Done
- Voorbereiden van visualisaties om een overzicht te geven van de ingevoerde inhoud en het mogelijk maken om te monitoren en te onderhouden. Done
- De documentatie van het proces maken met een beschrijving van de verschillende stappen. Done
Bestanden op Commons
Een deel van het project vond plaats op Wikimedia Commons, met het importeren van bestanden en metadata, en het maken van een Wikidata-aangedreven sjabloon voor fossielen.
- Commons categorie met alle foto's: Verzameling van fossiele afgietsels van zee-egels gemaakt door Louis Agassiz
- Wikidata sjabloon: Neuchâtel fossil cast (Jarekt bedankt voor het helpen met het sjabloon, klasseǃ)
Queries en visualisatie
- Fossiele afgietsels en hun verwante exemplaren van Collection of sea urchin fossils casts created by Louis Agassiz (Q121092336): https://w.wiki/89Tj
- Fossiele afgietsels en hun relatieve afbeeldingen: https://w.wiki/8Sid
- Lijst van afgietsels zonder afbeelding: https://w.wiki/8V7u
- Kaart van de vindplaatsen van het specimen: https://w.wiki/8V8H
- Aantal exemplaren per vindplaats: https://w.wiki/8V8P
- Aantal exemplaren per land: https://w.wiki/8V8a
- Aantal exemplaren per periode: https://w.wiki/8V8m
- Aantal exemplaren per geologische periode: https://w.wiki/8V8v
- Kaart van de vindplaatsen, gecodeerd in kleur volgens geologische periode: https://w.wiki/8V9D
- Bellendiagram van specimen op volgorde: https://w.wiki/8V9Y
Documentatie
In deze sectie gaan we dieper in op hoe we de inhoud hebben geanalyseerd, verfijnd en geïmporteerd, in een poging tips en advies te geven aan mensen die in de toekomst aan een soortgelijk importproject zullen werken. Vereisten: We gebruikten meestal OpenRefine om de gegevens en bestanden op te schonen, te verfijnen en te importeren. Deze sectie bevat niet de basisprincipes voor het gebruik van OpenRefine, maar u kunt een korte presentatie van het hulpmiddel als video bekijken, evenals een gedetailleerde tutorial. We vinden deze presentatie gericht op het importeren van bestanden op Commons rechtstreeks uit OpenRefine ook erg nuttig.
Analyseren, opschonen en verfijnen van de gegevens
Het opschonen en afstemmen van data was het grootste deel van het project. Er zijn een aantal aandachtspunten in dit deel:
- Controleer de gegevens voor volledigheid
- Plaatsen waar de fossielen zijn gevonden en de leeftijd waarop ze zijn gedateerd, waren niet altijd opgenomen in de eerste batchgegevens, dus we vroegen om een integratie. Hierdoor konden we alle tijdgegevens en bijna alle vindlocaties herstellen.
- Alleen als er absoluut geen manier is om deze gegevens te traceren, mag hier de waarde voor onbekend worden gebruikt.
- Doe een extra controle van de gegevens die u aan het samenstellen bent.
- Vooral de vindplaatsen waren moeilijk te bepalen omdat de namen in het Frans waren en/of kleine fouten bevatten.
- Een oplossing is om gegevens rechtstreeks in de taal te combineren waarin ze zijn (voeg gewoon de duidelijke link toe aan de juiste taal), maar een tweede ronde van controle met externe bronnen heeft altijd de voorkeur met plaatsen en namen in het bijzonder.
- Vraag het na bij de oorspronkelijke aanbieder van gegevens als er een aantal onduidelijkheden zijn: zij (zullen) hun gegevens beter kennen dan wie dan ook.
- Houd altijd rekening met deze criteria over relevantie bij het samenstellen van de gegevens
- Sommige van de plaatsen van ontdekking waren gewoon niet relevant genoeg om een item aan te maken, dus escaleerden we naar het onmiddellijk hogere niveau van beschikbare onderverdeling (bijvoorbeeld, "craie de Morée" (Morea Krijt) werd gekoppeld met Morée (Q389621))
- Vraag bij het betrokken project en/of andere gebruikers om hulp
- Als u moeite hebt met het bepalen hoe u bepaalde aspecten van uw werk moet modelleren, vraag dan hulp van andere gebruikers. Dit bespaart u kostbare tijd.
- Er zijn ook Telegram-kanalen voor Wikidata en OpenRefine voor het geval u hulp nodig heeft.
- Als de gegevens in verschillende kolommen zijn verdeeld, probeer ze in één te condenseren voordat het samenstellen.
- Met andere woorden, maak een nieuwe kolom in OpenRefine en vul deze met de gegevens van de andere kolommen. Dit kan worden gedaan via “Edit column” → “Join columns”, door alle toepasselijke kolommen te selecteren en een nieuwe kolom voor het resultaat in te stellen.
- Deze stap bespaart u tijd bij het combineren van gegevens, omdat u gewoon één kolom in plaats van meerdere moet opschonen en combineren.
- Dit bespaart u ook tijd wanneer uw de gegevens gaat uploaden: met slechts één combinatie van kolommen om door te gaan, in plaats van zes of zeven combinaties.
- Verwijder de oorspronkelijke kolommen niet. Zij kunnen altijd nuttig zijn voor het terugkijken bij problemen en om gegevens dubbel te controleren.
- Dit werkt ook andersom: als u gegevens moet splitsen, kunt u dit op een soortgelijk manier na het instellen van het karakter(s) dat als scheiding dient, en het instellen de namen van de nieuwe kolommen.
Verbeteren van de bestaande inhoud op Wikidata
Er zijn 263 nieuwe items over ontbrekende soorten op Wikidata gemaakt. Dit was natuurlijk een noodzakelijke stap om te nemen bij het vergelijken van de gegevens over de soorten van de fossielen. Hetzelfde geldt voor de bibliografische referenties die later in de uploaden werden opgenomen als bronnen van de verklaringen.
De meeste van de punten uit het vorige deel zijn hier van toepassing, maar er zijn nog een paar die voor ons interessant waren:
- Als de gegevens waarmee u werkt complex zijn, verdeel het werk in verschillende fasen.
- Voor dit importeren zijn we bijvoorbeeld begonnen met het maken van de ontbrekende items over soorten, referenties, soorten fossielen en alle andere benodigde items om het samenvoegingsproces af te ronden, vervolgens gingen we door met een tweede fase met betrekking tot exemplaren en vervolgens een derde fase met betrekking naar de werkelijke fossielen. Pas nadat alle gegevens geüpload waren, gingen we de foto's uploaden.
- Volg de richtlijnen voor het maken van nieuwe items
- Als u bijvoorbeeld een item over een bibliografische referentie wilt maken, volg dan de richtlijnen in WikiProject Boeken
- Als u twijfelt, vraag de gemeenschap dan hoe u moet handelen.
Importeer de inhoud op Wikimedia Commons en Wikidata
Het importeren van gegevens gebeurde in verschillende stappen, afhankelijk van het soort gegevens dat moest worden geüpload. De meeste punten uit de vorige secties zijn hier van toepassing, maar er zijn er nog een paar die voor ons interessant waren:
- Vergeet niet om een lokale kopie van het gegevensmodel op OpenRefine te bewaren
- U kunt dit doen door te klikken op "Save new" aan het einde van de regel die zegt "Start from an existing schema:".
- Dit is vooral handig wanneer u van Wikibase-instantie waar u mee werkt (dat wil zeggen van Wikidata naar Wikimedia Commons) overstapt, omdat het overstappen uw model zal wissen.
- Gebruik direct uploaden via OpenRefine in plaats van te exporteren naar QuickStatements
- Direct uploaden is voordelig als de gebruiker geen beheerder is van Wikidata en/of Wikimedia Commons, om twee belangrijke redenen:
- De gecreëerde items worden automatisch in overeenstemming gebracht met de waarde in de tabel;
- Het ondersteunt het maken van verklaringen met meer dan één bron.
- Direct uploaden is voordelig als de gebruiker geen beheerder is van Wikidata en/of Wikimedia Commons, om twee belangrijke redenen:
- Houd rekening met mogelijke limieten die door het project worden opgelegd bij het uploaden
- Als u de door het systeem opgelegde bewerkingslimiet bereikt, onderbreek dan niet de upload, want het zal de items die het creëert niet automatisch samenvoegen, en u zult dat dan met de hand moeten doen.
- De limiet voor het uploaden van bestanden op Wikimedia Commons via OpenRefine is ~370 bestanden per 72 minuten. Als u van plan bent meer dan die hoeveelheid te uploaden, verdeel de upload in verschillende batches van ~ 100/150 bestanden elk en doe 30 minuten pauze na elke 2-3 uploads.
Discussies
Vragen, suggesties, problemen? Gebruik de overlegpagina!