Wikidata:Wiktionary/Development/Proposals/2015-05

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Lexicographical data/Development/Proposals/2015-05 and the translation is 95% complete.
Outdated translations are marked like this.

Voorgaande plannen

Begindatum Voornaamste auteur(s)
2013-02 JAn Dudík
This, that and the other
Darkdadaah
2013-06 Denny
(Denny Vrandečić (WMDE))
2013-07 Micru
Francis Tyers
2013-08 Denny
2013-09 Ivadon
2013-10 Bigbossfarin
2014-10 GPHemsley
2015-05 Denny

Gegevensmodel

Terminologie

De terminologie rond woordenboeken en lexicografie vormt helaas gemakkelijk een bron van verwarring. Daarom komen we met een terminologie die in dit hele voorstel strikt en consequent moet worden toegepast. Om dat goed zichtbaar te maken maken we deze vaktermen overal cursief, zoals dit.

  • Een lexeme (lexeem), ook wel 'woord' of 'woordenboekitem' is wat in het woordenboekdeel van Wikidata op één pagina komt te staan. Een lexeme bestaat uit een lemma, een woordsoort lexical category, een taal language, een aantal woordvormen forms, een aantal betekenissen senses en een aantal beweringen statements.
    • Het lemma is de standaard- of woordenboekvorm van het lexeem lexeme, bijvoorbeeld de onbepaalde wijs voor een werkwoord of het enkelvoud zonder verbuiging voor een zelfstandige naamwoord.
    • The lexical category (woordsoort), ook wel 'woordklasse' of 'part of speech' definieert het lexeem lexeme als een zelfstandig naamwoord, of een werkwoord, of een bijvoeglijke naamwoord enzovoort. De mogelijke woordsoorten zijn Wikidata items en vormen dus een verzameling die kan worden uitgebreid.
    • Een woordvorm form is een bepaalde verbogen of vervoegde vorm van het lexeem lexeme. Een woordvorm form bestaat uit een weergave representation, een aantal grammaticale kenmerken lexical properties en een aantal beweringen statements. Een woordvorm form hoort altijd bij precies één lexeem lexeme.
      • Een representation (weergave) is de tekenreeks string value waarmee een bepaalde woordvorm form in een gewone tekst wordt weergegeven, bijvoorbeeld de tekenreeks string value "schreef" voor de onvoltooid verleden tijd van het lexeem lexeme dat "schrijven" heet. Op alle weergaven representations kan dankzij een index snel worden gezocht.
      • Een lexical property (grammaticaal kenmerk) beschrijft de woordvorm form, bijvoorbeeld tijd of persoonsvorm bij werkwoorden, geslacht of naamval bij zelfstandige naamwoorden. Ook dit zijn Wikidata items en zij vormen dus een verzameling die kan worden uitgebreid.
    • Een sense (betekenis) wordt beschreven door een gloss (omschrijving) en met een aantal beweringen statements. Een betekenis sense hoort altijd bij precies één lexeem lexeme (en lexemen lexemes horen maar bij één taal language tegelijk). Betekenissen senses bestaan niet los van lexemen lexemes.
      • A gloss (omschrijving) is een korte beschrijving (vertaalbaar naar alle talen waarin Wikidata gebruikt wordt) van één betekenis sense van het betreffende lexeem lexeme.

De termen Wikidata item, property, string value, qualifier, statement en claim komen uit de Wikidata Woordenlijst en hebben de betekenis die daar is aangegeven.

Opmerkingen

  • Transliteraties in een ander schrift kunnen ofwel worden behandeld als twee afzonderlijke lexemen lexemes of als één enkel lexeem lexeme met een bewering statement bij elke woordvorm form waarvan de eigenschap property 'transliteratie' naar een tekenreeks stringvalue verwijst met een specificatie qualifier die het gebruikte schrift aanduidt. In het laatste geval kan ook op transliteraties dankzij een index snel worden gezocht.
  • Spellingvarianten kunnen ofwel vorm krijgen als twee afzonderlijke lexemen lexemes of als één enkel lexeem lexeme met beweringen statements op het toepasselijke niveau en specificaties qualifiers die uitleggen om welke spelling het gaat. In het laatste geval kan ook op spellingvarianten dankzij een index snel worden gezocht.
  • Vertalingen kunnen vorm krijgen ofwel van een betekenis sense naar een andere betekenis sense of van een betekenis sense verwijzend referencing naar een Wikidata item dat ze gemeenschappelijk hebben. In het laatste geval zullen vertalingen automatisch worden getoond en bijgehouden. Dit kan alleen maar wanneer de vertaling symmetrisch en transitief is; vaak is dat niet zo, maar toch vaak genoeg om er een specifieke ondersteuning voor te maken.

Voorbeeld

  • (lexeem lexeme) L123 (niet zichtbaar op scherm)
  • (lemma) apple
  • (taal language) English (is: Q1860)
  • (woordsoort lexical category) noun (is: Q1084)
  • (bewering statement) pronunciation → IPA /ˈæpl̩/
  • (bewering statement) syllable → "ap-ple"
  • (woordvorm form) F272 (niet zichtbaar op scherm)
    • (representation) apples
    • (lexical property) plural (is: Q146786)
    • (bewering statement) rhymes with → grapples (F404)
  • (betekenis sense/meaning) S2011 (niet zichtbaar op scherm)
    • (omschrijving gloss) (en) tree of the genus Malus
    • (omschrijving gloss) (de) Baum der Gattung Malus
  • (betekenis sense) S1989 (niet zichtbaar op scherm)
    • (omschrijving gloss) (en) fruit of the apple tree
    • (omschrijving gloss) (de) Frucht des Apfelbaumes
    • (bewering statement) translation → Apfel (is: S9000, dat weer is gekoppeld aan W234, met als lemma 'Apfel' en als taal language 'German' is: Q188)
    • (bewering statement) hypernym → fruit (is: S239)
  • (taalkundig verwante woorden)

enzovoort.

Let op: dit alles vormt één geheel: woordvormen forms en betekenissen senses hebben geen eigen pagina's pages maar zijn onderdeel van het lexeem lexeme waar ze bij horen.

Taken

Taak 1: Interwikilinks voor Wiktionary's

Wikidata moet de interwikilinks tussen Wiktionary's anders aanpakken dan de interwikilinks tussen Wikipedia's. In plaats van die aanpak is er een nieuw centraal onderdeel nodig dat de pagina's in de hoofdnaamruimte van alle Wiktionary's registreert en decentraal een client op iedere Wiktionary die bij het centrale register automatisch de gegevens ophaalt om op de pagina's van die Wiktionary interwikilinks te laten zien. Het komt er op neer dat deze extensie pagina's met dezelfde naam op verschillende Wiktionary's met elkaar verbindt. Dit vereist een andere oplossing voor de links dan bij de Wikipedia's: het voorgestelde lexeem lexeme heeft een andere opbouw en inhoud dan een Wiktionarypagina die niet handig is om interwikilinks tussen die pagina's te maken. Het specifieke karakter van interwikilinks tussen Wiktionary's - zoals gezegd: links tussen pagina's met dezelfde naam - maakt een maatwerkoplossing vrij simpel: een extensie die de interwikilinks voor pagina's in de ingestelde naamruimtes (op een Wiktionary doorgaans de hoofdnaamruimte) maakt door pagina's met dezelfde naam te vinden op andere Wiktionary's (of meer in het algemeen: op andere projecten in een ingestelde naamruimte). Daarna aanvullen met of vervangen door links die in de wikitext worden aangegeven.

Dit zou dankzij het voltooide SUL (met één gebruikersnaam overal inloggen) ook kunnen worden gebruikt voor de Gebruikersnaamruimte op andere Wikimediaprojecten.

Dit nieuwe onderdeel leidt niet tot nieuwe items of entities in Wikidata. Het merendeel van de interwikilinks tussen Wiktionary's zou buiten Wikidata om worden afgehandeld.

Deze taak kan, anders dan de meeste andere taken, vermoedelijk ook door vrijwilligers of buiten het hoofdontwikkelteam worden opgepakt. Zij kan ook worden uitgevoerd lang voordat met de andere wordt begonnen.

==> This task is now achieved, using Extension:Cognate!

Taak 2: Fase 1 voor Wiktionary in werking stellen

Als het nieuwe centrale onderdeel uit Taak 1 eenmaal functioneert kan de gebruikelijke Fase 1 van Wikidata in werking treden voor Wiktionary. Het is dan mogelijk interwikilinks te maken voor de pagina's die niet automatisch door dit centrale onderdeel zullen worden verbonden, bijvoorbeeld de koppeling tussen de Beer parlour op de engelstalige Wiktionary en de Kroeg op Wikiwoordenboek.

De centrale component uit Taak 1 moet dus aanvullende functionaliteit van Wikidata aanbieden waarmee je ook pagina's buiten de hoofdnaamruimte met elkaar kunt verbinden. Het in werking zetten van Fase 1 voor Wiktionary (dat wil zeggen: dat soort links met Wikidata verzorgen) moet echt pas gebeuren nadat de extensie die voor interwikilinks op pagina's in de hoofdnaamruimte zorgt al functioneert (anders gaan mensen voor die simpele linkjes honderduizenden Wikidata items aanmaken).

==> This task is documented on Wikidata:Wiktionary/Sitelinks

Taak 3: Lexeem lexeme als entiteitstype

Dit heeft precies één label (dus niet zoals een item dat er eentje per taal heeft), taal language, woordsoort word type en beweringen statements, maar geen beschrijving description of links naar wiki's sitelinks.

Let op: twee woorden die precies hetzelfde geschreven worden, maar bij verschillende talen talen horen (bijvoorbeeld "arm" in het Engels en "arm" in het Nederlands) zijn twee verschillende lexemen lexemes en ook twee identiek geschreven woorden uit dezelfde taal die verschillende grammaticale eigenschappen hebben worden in twee verschillende lexemen lexemes beschreven: "arm" als zelfstandig naamwoord en "arm" als bijvoeglijk naamwoord.

Het entiteitstype lexeem lexeme krijgt geen identificatienummer met Q- (die zijn alleen voor Wikidata items), maar een identificatienummer met L-.

Taak 4: Ingevoegde entiteitstypen

Woordvorm form en betekenis sense zijn conceptueel entiteiten entities, maar ze krijgen geen eigen pagina op Wikidata, ze worden ingevoegd in de pagina van het lexeme lexeme waar ze toe behoren. Dit kan de nodige aanpassingen is de bestaande programmatuur met zich meebrengen.

Taak 5: Woordvorm form als entiteitstype

Heeft één label (in één taal, dus ook weer niet eentje per taal), grammaticale kenmerken Grammatical markers en beweringen statements, maar geen beschrijving description of links naar wiki's sitelinks

Taak 6: Betekenis sense als entiteitstype

Heeft een omschrijving gloss (in meerdere talen, net als label of beschrijving bij Wikidata items) en beweringen statements, maar geen label of links naar wiki's sitelinks

Taak 7: Uitbreiden zoekfunctie

Zoeken op lexemen lexemes met behulp van taal language en woordsoort word type als beschrijving van het gezochte, zo nodig nog gevolgd door een nadere onderscheiding (bij "koper" krijg je dan koper//Nederlands zelfstandig naamwoord (1) en koper//Nederlands zelfstandig naamwoord (2)). Anders kan de eerste beschrijving description van de betekenis sense worden gebruikt om het onderscheid aan te geven. Zoeken werkt ook met de woordvormen forms (net zoals het nu werkt met de aliassen aliasses van Wikidata items, dus als je op "bent" zoekt, krijg je "zijn//Nederlands werkwoord//2e persoon onvoltooid tegenwoordige tijd//bent").

Taak 8: Toegang naar wens

Geef Wiktionary's via hun decentrale clients toegang tot gegevens naar keuze op Wikidata, zodat ze daarmee kunnen doen wat ze willen (bijvoorbeeld inhoud voor Wiktionarypagina's maken als tabellen met verbuigingen of zelfs grotere delen van de beschrijving van woorden in een taal die anders op die Wiktionary zou ontbreken).

Taak 9: Link Wiktionary vanuit Wikidata

Toon geschikte links naar Wikidata op basis van de centrale lijst van artikelen op Wikidata. Geschikte aangrijpingspunten zijn waarschijnlijk lexemen lexemes en woordvormen forms. Let wel, deze links zijn niet opgeslagen in Wikidata, maar worden telkens opgezocht en getoond.

Task 10: Kijken wat na invoering van de extensie voor interwikilinks verder nodig is

Ga na welke interwikilinks in Wiktionary zijn blijven bestaan en bepaal of er nog meer moet gebeuren. Vermoedelijk zal de gebruikersgemeenschap ons tegen deze tijd hebben laten weten wat er verder nodig is, maar als dat nog niet gebeurd is, vraag er naar en luister. Kan tot nieuwe taken leiden. Deze discussies over aanvullende behoeften horen na het uitvoeren van Taak 1, 7 en 8 plaats te vinden, anders gaat het teveel over de lopende zaken in plaats van over de vernieuwde situatie.

Taak 11: Compacte weergave van woordvormen forms

Het stuk met de woordvormen forms wordt in de standaardweergave veel te groot. In plaats daarvan moet er voor woordvormen forms een compacte standaardvorm komen die je desgewenst kan uitklappen. Zie de voorbeelden onderaan.

Taak 12: Compacte weergave van betekenissen senses

Het stuk met betekenissen senses wordt nogal groot in de standaardweergave. Maak in plaats daarvan een meer compacte standaardweergave voor betekenissen senses die je desgewenst kan uitklappen. Zie de voorbeelden onderaan.

Taak 13: Zeer compacte weergave van woordvormen forms

De compacte weergave voor woordvormen forms kan nog steeds vrij groot uitvallen (speciaal voor Finse werkwoorden en vergelijkbare lexemen lexemes). Maak een zeer compacte standaardweergave voor woordvormen forms die je kan uitklappen tot de compacte standaardweergave. Zie de voorbeelden onderaan.

Taak 14: Omgaan met meervoudige weergaven representations

De nieuwe structuur is niet ideaal voor talen die meer dan één schrift gebruiken, zoals Servisch, Oezbeeks, Kazachs en Chinees, maar wat voor dit beperkte aantal talen ideaal is, zou weer nadelig zijn voor andere talen. Als we eenmaal zover zijn (zeg, na het uitvoeren van Taak 7), moeten we de kwestie van de meervoudige weergaven representations oplossen. Mogelijkheden zijn het toevoegen van speciale faciliteiten aan woordvormen forms of het toepassen van automatische transliteratie. De uiteindelijke oplossingen moeten tegen die tijd worden besproken en beoordeeld door de bredere gebruikersgemeenschap (maar niet veel eerder, zodat een zinnige discussie over hun inpassing in het totale plaatje mogelijk is).

Voorbeelden hoe het eruit gaat zien

Uitgebreide weergave

Compacte weergave

Zeer compacte weergave

Colofon

Dit document is bediscussieerd en uitgebreid in gesprekken met Lydia Pintscher en Daniel Kinzler. Meer dankbetuigingen staan in het voorstel van 2013-08.