Wikidata:Données lexicographiques/Développement/Proposition/2015-05

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Lexicographical data/Development/Proposals/2015-05 and the translation is 100% complete.

Plans précédents

Date de début Auteur(s) principal(aux)
février 2013 JAn Dudík
This, that and the other
Darkdadaah
juin 2013 Denny
(Denny Vrandečić (WMDE))
juillet 2013 Micru
Francis Tyers
aout 2013 Denny
2013-09 Ivadon
2013-10 Bigbossfarin
octobre 2014 GPHemsley
mai 2015 Denny

Modèle de données

Terminologie

Malheureusement, la terminologie autour des dictionnaires et des ressources lexicales est souvent confuse. Nous fournissons donc une terminologie qui devrait être utilisée de manière stricte et consistante dans cette proposition. Afin de la rendre évidente, nous utiliserons les termes en italique, comme ceci.

  • Un lexème, aussi comme mot ou entrée lexicale, est ce qui est décrit sur une page dans la partie lexicale de Wikidata. Un lexème est constitué d'un lemme, une catégorie lexicale, une langue, un ensemble de formes, un ensemble de sens, et un ensemble de déclarations.
    • Le lemme est la forme canonique ou la forme de dictionnaire du lexème, par exemple pour les verbes il s'agit habituellement de la forme à l'infinitif, pour un nom du nominatif singulier, etc.
    • La catégorie lexicale, aussi connue comme la grammaire ou la classe d'un mot, définit le lexème soit commeun nom, ou un verbe, ou un adjectif, etc. L'ensemble des possibilités est ouvert et pris depuis des éléments Wikidata.
    • La langue d'un lexème est prise depuis les éléments Wikidata, et est ainsi un ensemble ouvert.
    • Une forme est une forme spécifique, conjuguées ou fléchies des lexèmes. Une forme est constituée d'une représentation, un ensemble de propriétés lexicales, et un ensemble de déclarations. Une forme appartient toujours à un (et uniquement un) lexème.
      • Une représentation est la chaîne actuelle réalisant une forme donnée, par exemple la chaîne « wrote » pour le prétérit du lexème pour « write ». Toutes les représentations sont indexées pour la recherche.
      • Une propriété lexicale décrit la forme, par exemple le temps ou le nombre pour les verbes, le cas pour les noms, etc. Il s'agit d'un ensemble ouvert et qui pointe vers des éléments Wikidata.
    • Un sens est décrit par un glose et a un ensemble de déclarations. Un sens appartient toujours à un (et uniquement un) lexème (et les lexèmes appartiennent à une langue uniquement). Les sens ne sont pas indépendants des lexèmes.
      • Un glose est une courte description (traduisible dans toutes les langues de l'interface de Wikidata) d'un sens pour un lexème donné.

Les termes éléments Wikidata, propriété, chaîne, qualificateur et affirmation proviennent du glossaire Wikidata et ont la même signification ici que là-bas.

Notes

  • Les translittérations dans d'autres alphabets peuvent être gérées soit par deux lexèmes séparés, soit par un unique lexème avec une déclaration sur chaque forme avec la propriété translittération pointant vers une chaîne, avec un qualificateur décrivant l’alphabet. Dans ce dernier cas, les translittérations seront également indexées pour la recherche.
  • Les variantes orthographiques peuvent soit être traitées comme deux lexèmes séparés ou par un unique lexème avec des déclarations sur le niveau approprié et des qualificateurs expliquant la variante. Dans ce dernier cas, les variantes seront également indexées pour la recherche.
  • Translations can be either done from sense to sense, or by a sense referencing a common Wikidata item. If the latter is done, the translations will be automatically displayed and kept up to date. This is only possible when the translation is symmetric and transitive, which is often not the case — but frequently enough to merit a specific implementation.

Exemple d'entrée

  • (lexème) L123 (ne sera pas affiché)
  • (lemme) apple
  • (langue) anglais (i.e. Q1860)
  • (catégorie lexicale) substantif (c'est-à-dire Q1084)
  • (déclaration) prononciation → API /ˈæpl̩/
  • (déclaration) syllabe → "ap-ple"
  • (forme) F272 (ne sera pas affiché)
    • (représentation) apples
    • (propriété lexicale) pluriel (c'est-à-dire Q146786)
    • (déclaration) rime avec → grapples (F404)
  • (sens/signification) S2011 (ne sera pas affiché)
    • (glose) (en) tree of the genus Malus
    • (glose) (de) Baum der Gattung Malus
  • (sens) S1989 (ne sera pas affiché)
    • (glose) (en) fruit of the apple tree
    • (glose) (de) Frucht des Apfelbaumes
    • (déclaration) traduction → Apfel (c'est-à-dire S9000, qui est connecté à W234, qui a le lemme 'Apfel' et la langue 'allemand')
    • (déclaration) hyperonyme → fruit (c'est-à-dire S239)
  • (mots apparentés linguistiquement)

etc.

À noter qu'il s'agit d'une entrée seulement, c'est-à-dire que les formes et les sens n'ont pas leur propre page mais font partie du lexème dont ils dépendent.

Tâches

Tâche 1 : les liens interwikis

Les liens interwikis des entrées des Wiktionnaires ne seront pas gérés de la même façon que ceux de Wikipédia. Nous nécessitons un nouveau composant central qui conservera la trace de toutes les pages liées dans Wikidata et un client sur chaque Wiktionnaire qui interrogera la liste centrale des interwikis pour l'afficher localement. Cette extension connecte simplement entre elles des pages qui ont le même nom. Comme la granularité des pages des Wiktionnaires est différente de la granularité envisagée pour les Lexèmes dans Wikidata, une solution spécifique pour les connexions est requise, différente de celle de Wikipédia. Les spécificités des liens interwikis dans le Wiktionnaire - comme dis, ce sont principalement des pages qui ont le même nom d'un projet à l'autre - font qu'il est plutôt facile de créer un outil pour ce cas spécifique : une extension qui crée un ensemble de liens interwikis pour une page donnée dans un espace de nommage configuré (habituellement l'espace principal dans les Wiktionnaires) en recherchant des pages disposant du même nom dans les autre Wiktionnaires (ou plus généralement, dans les autres projets qui ont le même espace de nommage). Ensuite, ajouter et compléter avec des liens mentionnés dans le wikitexte.

Notons que cela pourrait également être utilisé pour l'espace de nommage utilisateur sur les autres projets Wikimédia, grâce à l'identifiant unique SUL.

Ce nouveau composant ne créera pas de nouveaux Éléments ou autres Entités dans Wikidata. La majorité des liens interwikis du Wiktionnaire pourraient être gérés à l'extérieur de Wikidata.

Cette tache, contrairement aux autres taches, pourrait probablement être gérée par des bénévoles ou des personnes extérieures à l'équipe principale de développement. Elle peut également se faire avant que le reste ne débute.

==> Cette tâche est maintenant terminée, à l'aide de Extension:Cognate !

Tâche 2 : activer la phase 1 pour le Wiktionnaire

Une fois que le nouveau composant de la phase 1 est activé, la phase 1 habituelle de Wikidata peut être activée pour le Wiktionnaire. Cela permettra de créer des liens interwikis pour les pages qui ne seraient pas connectées au nouveau composant, par exemple connecter la tea room avec les questions sur les mots, etc.

Le composant de la tâche 1 doit être cumulative avec la fonctionnalité de Wikidata (appelé phase 1), qui peut ensuite être utilisé pour connecter les pages non présentes dans l'espace de nommage principal. Activer la phase 1 pour les Wiktionnaires (c'est-à-dire fournir ces liens via Wikidata) doit avoir lieu après que l'extension est activée (ou que d'autres personnes créent des centaines de milliers d'éléments sur Wikidata en vue de fournir ces liens triviaux).

==> Cette tâche est documentée sur Wikidata:Wiktionary/Sitelinks

Tâche 3 : une entité de type Lexème

Un seul Libellé (et non pas un par langue contrairement aux Éléments), Langue, Type de mot et Déclarations mais pas de Description ni de Liens vers des sites.

Notons que deux mots qui ont la même forme écrites dans deux langues différentes (par exemple arm @en et arm @de) sont deux lexèmes différents. On décrira également comme deux Lexèmes deux mots différents de par leurs propriétés grammaticales mais identique d'apparence au sein d'une langue (par exemple walk @en comme un nom ou comme un verbe).

Le type d'élément Lexème n'aura pas une id débutant par Q (elles sont réservées pour les Éléments) mais débutant par L.

Tâche 4 : une entité de type Incorporé

Les Forme et Sens sont conceptuellement des Entités mais ne disposent pas de leur propre page wiki, ils sont incorporés dans leur page Lexème hôte. Cela pourrait nécessiter un peu de refactorisation du code existant.

Tâche 5 : une entité de type Forme

A un Label (unique, pas un par langue) de type texte monolingue, marqueurs grammaticaux et déclarations, mais pas description ou de liens vers des sites.

Tâche 6 : une entité de type Sens

A un Glosse (texte multilingue, comme un Label ou une Description pour les Éléments) et des Déclarations, mais pas de Label ou de liens vers des sites.

Tâche 7 : recherche étendue

Une recherche sur les Lexèmes utilise une Langue et un Type de mot pour l'auto-description, suivi d'un terme pour lever une ambiguïté si nécessaire (par exemple See@de serait « See // nom allemand (1) » et « See // nom allemand (2) »). Autrement, on pourrait également utiliser le premier sens pour désambiguïser. Une recherche prend également en compte les Formes (de la même manière qu'elle prend en compte les Alias pour les Éléments, par exemple, tapez « went » pour trouver « go // verb anglais // prétérit : went »).

Tâche 8 : accès arbitraire

Permettre à tous les client du Wiktionnaire (par exemple les projets de Wiktionnaire actuels) d'accéder aux données arbitraires de Wikidata, de sorte que les clients puissent faire ce qu'ils veulent avez elles. (par exemple créer du contenu pour le Wiktionnaire comme des tables de déclinaisons, etc, ou même un grand nombre d'entrées pour les langues qui autrement ne sont pas bien prises en charge dans un projet donné, etc.).

Tâche 9 : lier le Wiktionnaire à Wikidata

Afficher les liens appropriés sur Wikidata, fondé sur une liste d'article Wikidata centrale. L'endroit approprié est vraisemblablement Lexèmes et Formes. À noter que ces liens ne sont pas enregistrés dans Wikidata, mais générés et affichés.

Tâche 10 : évaluer des besoins supplémentaires après le déploiement de l'extension de liens interwiki

Vérifier quels liens interwikis restent dans le Wiktionnaire et déterminer si d'autres besoins émergent. Il est probable que la communauté nous aura déjà demandé davantage de besoins, mais si ce n'est pas le cas, demandez et écoutez. Peut-être créer d'autres tâches. Cette discussion au sujet de besoins additionnels ne devrait avoir lieu qu'après que les tâches 1, 7 et 8 aient été effectuées, ou sinon la situation actuelle sera discutée à la place de celle nouvellement créée.

Tâche 11 : vue compacte pour les Formes

Les sections Formes sont beaucoup trop grandes dans la vue par défaut. À la place, introduire une vue par défaut plus compacte pour les Formes, qui peut être développée en ligne. Voir les maquettes ci-dessous.

Tâche 12 : vue compacte pour les Sens

La section Sens est relativement grosse dans la vue par défaut. À la place, introduire une vue par défaut plus compacte pour les Sens, qui peut être développée en ligne. Voir les maquettes ci-dessous.

Tâche 13 : vue super-compacte pour les Formes

La vue compacte pour les Formes peut encore être trop grosse (en particulier pour les verbes en finnois et les Lexèmes similaires). Introduire une vue par défaut super-compacte pour les Formes, qui peut être développée en ligne en vue compacte. Voir les maquettes ci-dessous.

Tâche 14 : gérer de multiples représentations

Pour des langues tels que le serbe, l'ouzbek, le kazakh, le chinois, etc, qui utilisent plusieurs alphabets, la nouvelle structure n'est pas idéale (mais des optimisations pour ces quelques langues se feraient au détriment des autres langues). Une fois que nous serons là (disons une fois que la tâche 7 sera effectuée), nous aurons besoin de résoudre le problème des multiples Représentations, possiblement en ajoutant quelques gestions spéciales des Formes ou via des mécanismes de translittérations automatiques. Les solutions actuelles nécessiteront d'être évaluées et discutées avec la communauté plus large à ce niveau (mais pas beaucoup plus tôt, de sorte que leur ajustement dans l'architecture générale peut être sérieusement discutée).

Maquette

Vue large

Vue compacte

Vue très compacte

Remerciements

Ce document a été discuté et développé au cours de discussions avec Lydia Pintscher et Daniel Kinzler. D'autres remerciements s'adressent à la proposition 2013-08.