Topic on Wikidata:Bistro/Archives des discussions structurées

Jump to navigation Jump to search

Les données lexicographiques sont disponibles !

11
Tubezlob (talkcontribs)

Juste un petit message pour ceux qui n'auraient pas suivi l'actualité de ce projet : les données lexicographiques sont accessibles sur Wikidata depuis aujourd'hui (voir l'annonce en anglais).

On peut dès à présent créer des lexèmes et les lier entre eux grâce aux propriétés qui ont déjà été créées. Cependant on ne peut pas encore rechercher les lexèmes comme des éléments normaux, il faut aller sur un lexème et chercher dans les propositions d'une propriété comme synonym (P5190).

@VIGNERON a lancé le sujet de savoir où on allait discuter d'une langue en particulier. J'ai proposé de créer une sous-page du projet pour chaque langue, ce qui voudrait dire qu'il y aurait une page Wikidata talk:Lexicographical data/French. Mais ce n'est qu'une proposition de ma part, on pourrait aussi simplement faire les discussions ici.

VIGNERON (talkcontribs)

Pour le moment, on e est au tout début, je suggère donc au gens de juste faire des tests (soit en création, soit sur le Lexeme bac à sable Lexeme:L123) et d'utiliser les espaces de discussions existants. Mais à terme quand il y aura des millions de lexèmes, oui, un projet par langue (ou par famille de langues ?) me semble une bonne idée.

Tubezlob (talkcontribs)
Ayack (talkcontribs)

Suis-je le seul à ne rien comprendre au modèle de données ? Existe-t-il quelque part un "mapping" entre ce modèle de données et une page "lambda" du Wiktionnaire ? Je pense que ça aiderait tout le monde à s'y retrouver.

VIGNERON (talkcontribs)

Oui, le modèle est un peu complexe (mais je pense que c'est surtout dû à sa nouveauté, je trouve qu'avec la pratique cela vient assez naturellement).

Un mapping serait aussi comliqué et difficile à comprendre car le wiktionnaire et les lexèmes ont deux approches différentes. Le wiktionnaire se base sur un lemme par entrée (une graphie) là où les lexèmes se basent (comme le nom l'indique) sur le lexème (l'unité lexicale, ce que l'on appelle grossièrement un mot). Par exemple : wikt:fr:ti contient une trentaine de lexèmes (qui auront chacun leur identifiant sur Wikidata). Inversement, un lexème est un ensemble de lemmes, donc Wikidata a une seule page Lexeme:L16 là où le Wiktionnaire a plusieurs pages (build, built et builds, pour un exemple simple, le verbe "aller" est un seul lexème pour Wikidata là où le Wiktionnaire a une cinquantaine de pages pour chaque forme conjuguée, "vais, vas, va, allons, allez, vont" pour ne prendre que le présent de l'indicatif). Et surtout, le Wiktionnaire et Wikidata se concentre sur des aspects différents de la lexicographie (Wikidata ne stockant que des données là où le Wiktionnaire mets en forme et en texte).

En plus, un mapping encouragerait l'import alors que le Wiktionnaire prétend avoir des droits d'auteur sur les mots ce qui interdit l'import.

Dans tout les cas, il ne faut pas hésiter à poser des questions (toutes n'auront pas une réponse définitive ceci dit, la modélisation est toujours en cours). J'espère avoir déjà un peu éclairci la question ;)

Ayack (talkcontribs)

Merci pour ta réponse détaillée. C'est déjà un peu plus clair pour moi. Si j'ai bien compris, pour chaque lexème correspondant à un verbe français, on aura près d'une centaine de formes liées à sa conjugaison ? Ça va vite devenir ingérable non ?

VIGNERON (talkcontribs)

Oui, les lexèmes sur les verbes français auront en gros une centaine de forme. De nombreux autres lexèmes auront un grand nombre de formes (je pense par exemple aux déclinaisons, il y a souvent 6 cas, au singulier et au pluriel et en deux ou trois genres, ça fait déjà 24 à 36 formes).

Je ne pense pas que ce soit vraiment ingérable (après tout, on a des éléments Q avec plus de 5000 valeurs en déclaration) mais clairement, il y aura des systèmes et outils pour faciliter la gestion ;)

El Caro (talkcontribs)

Bonjour,

Si j'ai bien compris, Lexeme:L66 devrait être fusionné dans un lexème "who" dont il est une forme ?

VIGNERON (talkcontribs)

Très bonne question mais difficile réponse. Peut-être, peut-être pas.

Là tu touches à un point pas clair (les formes peuvent/doivent elles avoir un lexème en propre, a priori non mais il faudrait que la communauté s'empare plus à la question pour définir les limites des lexème pour des cas particuliers) et à un point assez particulier (et les anglais disent que la langue française est bizarre :D).

Notif @Jura1:

Zebulon84 (talkcontribs)
VIGNERON (talkcontribs)

Ce n'est plus tout à fait en bêta (on est plus sur le site de test externe) mais oui cela buggue encore un peu (d'ailleurs, il faut ne pas hésiter à signaler les bugs qui n'aurait pas encore été repérés).

Pour le bug, "Échec à la sérialisation des données" cela me semble plus un problème de l'infobox qui n'était pas prête à recevoir des lexèmes (prévue uniquement pour des items). Mais là encore oui, il vaut mieux s'abstenir d'utiliser les lexèmes dans des items. De toute façon, il n'y a pas encore de propriétés correspondants pour faire ce genre de lien, P5188 est une propriété bac à sable. Et surtout il y a déjà fort à faire sur les lexèmes eux-mêmes ;)

Reply to "Les données lexicographiques sont disponibles !"