Wikidata:Recoin/es

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Recoin and the translation is 98% complete.
Outdated translations are marked like this.

logo

Recoin ("Indicador de completitud relativa") es un script que amplía las páginas de entidades de Wikidata con información sobre la "completitud relativa" de la información. La completitud relativa se refiere al alcance de la información que se encuentra en un elemento en comparación con otros elementos similares.

Recoin agrega un indicador de estado (arriba a la derecha) y dos listas expandibles de identificaciones y propiedades ausentes importantes a Wikidata (centro). Aquí se muestra por Abbey Road, cuyos datos son muy detallados.

El indicador agrega el alcance de la información en una barra de progreso de color, que muestra 5 posibles niveles de completitud codificados por colores que van desde "información muy detallada" a "información muy básica".

Recoin tiene como objetivo ayudar a los autores a saber dónde centrar potencialmente su atención y hacer que los consumidores de datos sean conscientes del grado de información que se encuentra en un artículo específico.

Instituto Max Planck de Informática: información detallada
Arno Kompatscher: información básica


Motivación

Recoin está destinado a ayudar tanto a los autores como a los consumidores de Wikidata.

Para los "usuarios" (consumidores), proporciona un resumen útil del grado de integridad de la información en Wikidata, que puede ayudarlos a decidir si confiar o no en Wikidata para satisfacer su necesidad de información. Esto se debe a que juzgar únicamente por la longitud del artículo puede no ser siempre una buena idea, ya que, por ejemplo, el jugador de ajedrez Jeff Sarwer (Q3494327) tiene un artículo extenso debido a muchas declaraciones sobre su calificación Elo, pero hasta hace poco faltaba incluso información muy básica como ciudadanía o apellido.

Para los "autores", de manera similar, proporciona información sobre qué personas "la información es más completa que la de otras", lo que les permite centrar la atención en personas más incompletas. Para una persona individual, le permite ver las propiedades más importantes que faltan, en qué autores podrían centrarse en completar o, si no existen valores para estas propiedades, puede marcar esto con una afirmación "sin valor".

Lo que muestra

Recoin puede agregar dos tipos de información a las páginas de Wikidata:

  • Un icono indicador de estado de 5 niveles, que va desde "muy detallado" a "muy básico", que resume el alcance de la información en comparación con otras entidades similares;
  • Se agregan dos listas expandibles de las propiedades ausentes e identificadores externos más relevantes en la parte superior de las páginas de la entidad.

¿Cómo funciona?

Arquitectura

Arquitectura de Recoin a diciembre de 2017

La arquitectura representada en la figura de la derecha muestra tanto los módulos javascript recoin-core.js como recoin-explicaciones.js que envían solicitudes al getmissingattributes.php ubicado en el [servidor Toolforge de :wikitech:Portal:Toolforge]. A su vez, este script php realiza el cálculo haciendo solicitudes, primero al punto final Wikidata SPARQL para obtener ocupaciones para la entidad dada, y luego mediante consultas a bases de datos en ToolsDB, para recuperar las frecuencias de atributos para las ocupaciones (previamente calculadas) (humanos) o clase (todos los no humanos). Los resultados (integridad y las propiedades que faltan) se devuelven en la serialización JSON y los módulos de javascript los utilizan para representar la página.

Computación

Hasta ahora, el script realiza cálculos para todas las clases contenidas en la tabla wikidatawiki_p.wbs_propertypairs [1]. Además, da resultados más refinados basados en las 1000 profesiones más frecuentes de humanos, al tratar las profesiones como clases.

Determinación de propiedades e identificaciones ausentes

Primero describimos el caso de una entidad que pertenece a una sola clase/profesión, y discutimos la pertenencia a múltiples clases más adelante.

Dada una entidad que pertenece a una determinada clase, calculamos las propiedades que ocurren con más frecuencia en esa clase y verificamos cuántas de ellas están ausentes para la entidad. La secuencia de comandos principal muestra las 10 propiedades que faltan principales (una segunda secuencia de comandos también muestra los ID externos). Para las clases contenidas en wikidatawiki_p.wbs_propertypairs, usamos todas las propiedades disponibles allí. Para las profesiones de humanos, utilizamos las 100 propiedades más frecuentes por profesión.

Por ejemplo, Jimmy Wales (Q181) pierde, entre otras cosas, las propiedades languages spoken, written or signed (P1412), member of political party (P102) y position held (P39), que se especifican para 13.435%, 9.347 % y 8,376% de personas de la misma ocupación.

Cálculo del indicador de estado

Para determinar la completitud relativa en la escala de 5 niveles, calculamos la frecuencia promedio de las 5 propiedades faltantes principales (si hay menos de 5 propiedades faltantes, asumimos que su frecuencia es cero). Luego configuramos el nivel de la siguiente manera:

  • Nivel 5 (más completo) 0% -5% de frecuencia promedio de 5 propiedades faltantes principales
  • Nivel 4 (bastante completo) 5% -10% de frecuencia promedio de 5 propiedades faltantes principales
  • Nivel 3 (medio completo) 10% -25% de frecuencia promedio de 5 propiedades faltantes principales
  • Nivel 2 (nivel bajo de completitud) 25% -50% de frecuencia promedio de 5 propiedades faltantes principales
  • Nivel 1 (menos completo) 50% + frecuencia promedio de 5 propiedades faltantes principales

Por ejemplo, falta Arno Kompatscher (Q15074414)

  • P39 (cargo ocupado) - 54,33%
  • P1412 (idiomas hablados, escritos o de señas) - 49,93%
  • P102 (miembro del partido político) - 46,62%
  • P1559 (nombre en idioma nativo) - 31,14%
  • P937 (lugar de trabajo) - 30,67%

Por lo tanto, la frecuencia promedio de las 5 propiedades faltantes principales es 42,53% y, por lo tanto, su nivel de integridad es 2 (bajo).

Tratamiento de la membresía de clases múltiples

Para las entidades que pertenecen a varias clases (ver, por ejemplo, Dresden (Q1731)) o personas con múltiples ocupaciones (por ejemplo, Arno Kompatscher (Q15074414)), Recoin realiza el cálculo en función de la frecuencia ponderada de cada clase / profesión.

Por ejemplo, Arno Kompatscher (Q15074414) es tanto político como jurista. Hay 297,370 políticos y 12,635 juristas en Wikidata. Si entre los políticos, el 40% tiene la propiedad position held (P39) establecida, mientras que entre los juristas el 20% sí la tiene, la frecuencia final calculada es el promedio ponderado del 39%.[2]

Casos especiales

  • Para los humanos, las propiedades place of death (P20) y date of death (P570) están estrictamente filtradas, ya que son frecuentes pero frecuentemente no deseadas para los humanos vivos;
  • En el caso de una entidad perteneciente a una sola clase que no tiene datos en wikidatawiki_p.wbs_propertypairs, no se muestra nada;
  • En el caso de una entidad que pertenezca a múltiples clases o profesiones, y una que no tenga datos, se supone que la frecuencia de las propiedades en esa clase es cero.
  • Se supone que las propiedades que tienen una frecuencia inferior al 0,01% en una clase tienen una frecuencia cero
  • Para las entidades que tienen una profesión que no se encuentra entre las 1000 más frecuentes, las propiedades faltantes se calculan con base en humanos en general.

Multilingüismo

De forma predeterminada, Recoin muestra las etiquetas de propiedad en el idioma definido en la configuración del usuario, o donde no hay ninguna etiqueta disponible, en inglés. Lo mismo se aplica a las cadenas de la herramienta (título en la parte superior de la página, altLabels del icono indicador de estado). Se pueden agregar traducciones aquí.

Instalación

Accesorio

Recoin se puede habilitar a Special:Preferences en la sección "Gadgets/Wikidata-centric".

Versión especial: solo ID

Se puede habilitar una versión especial que solo muestra las propiedades de ID agregando la siguiente línea a Special:MyPage/common.js:

 importScript('User:Vvekbv/recoin_id.js');

Donde mantiene un archivo común global, el código para usar en m:Special:MyPage/global.js:

 mw.loader.load('//www.wikidata.org/w/index.php?title=User:Vvekbv/recoin_id.js&action=raw&ctype=text/javascript');

APIs

Acceso por entidad

También se puede acceder a Recoin a través de una API disponible en

 https://tools.wmflabs.org/recoin/getmissingattributes.php?lang=en&subject=Q15074414&n=10

y

 https://tools.wmflabs.org/recoin/getmissingattributes_id.php?lang=en&subject=Q15074414&n=10

(sustituyendo el código Q de la entidad deseada, el idioma (el idioma predeterminado es inglés) y n propiedades requeridas (el valor predeterminado es 10)).

Acceso por clase

Para obtener una lista de las propiedades más frecuentes para una clase específica, se puede utilizar la siguiente API

 https://tools.wmflabs.org/recoin/getbyclassid.php?subject=Q185351&n=200

(sustituyendo el código Q de la clase deseada, "n" es el número de resultados devueltos (el valor predeterminado es 200))

Data Dumps

Se encuentra disponible un volcado de frecuencias de propiedad para clases y ocupaciones el 22 de agosto de 2019 aquí.

Además de la API anterior, una forma de obtener datos actualizados sobre las frecuencias de las propiedades para las clases es [cantera de https://quarry.wmflabs.org/] (ejemplo: propiedades más frecuentes para películas: [consulta de https://quarry.wmflabs.org/query/22638]).

Más información

Contacto:

  • Vevake Balaraman - vevake.balaraman@gmail.com
  • Simon Razniewski - srazniew@mpi-inf.mpg.de
  • Werner Nutt - nutt@inf.unibz.it

Otras lecturas:

Proyectos relacionados:

'Agradecimiento' : Este trabajo es parcialmente apoyado por el proyecto TaDaQua, financiado por la Universidad Libre de Bozen-Bolzano.

  1. 42078 al 15 de noviembre de 2017; query
  2. Esta no es la forma más precisa, como entidades que son tanto políticos como juristas de esta manera tienen el doble de peso que otras entidades, pero un cálculo previo de todas las combinaciones de profesiones / clases es inviable tanto sobre la marcha como a priori, y esta ponderación es una aproximación razonable.