User:Simon Villeneuve/OpenRefine

From Wikidata
Jump to navigation Jump to search

Guide de nettoyage de données[edit]

  1. Vérifier les lignes et colonnes entièrement vides
    1. Lignes : Dans la colonne "toutes", choisir Facette -> facette par valeur vide -> supprimer les lignes entièrement vides
    2. Colonnes : Dans la colonne "toutes", choisir Facette -> valeurs vides par colonne -> supprimer les colonnes qui ont un nombre de valeurs vides égal au nombre de lignes du projet
  2. Séparer les cellules multi-évaluées
    1. Éditer les cellules -> Diviser les cellules multiévaluées
    2. types de séparateurs : , / -
  3. Repérer les doublons
    1. Voir en: lignes
    2. dans la colonne ciblée -> facette -> facettes personnalisées -> facette par valeur vide (retirer les valeurs vides entre les valeurs)
    3. facettes -> facettes personnalisées -> facette doublons
    4. trier -> options par défaut
    5. éditer les cellules -> vider les valeurs répétées dans des cellules consécutives
  4. Réconciliation
    1. D'abord réconcilier les colonnes les plus évidentes. Elles pourront être utilisées par la suite pour faciliter la réconciliation des colonnes moins évidentes.
    2. Passer une première fois, puis sélectionner les (none) et passer une autre fois avec un critère ou catalogue différent.
    3. facette -> facette textuelle, puis sélectionner "compte" pour ordre décroissant d'occurence
    4. lier ou non au meilleur choix à la fin
  5. Remplir les vides
    1. colonne principale : Éditer les cellules -> Recopier les valeurs dans les cellules vides consécutives
  6. Créer de nouveaux éléments
    1. mode ligne : Éditer les cellules -> vider les valeurs répétées dans des cellules consécutives
    2. Réconcilier -> Action -> Créer un nouvel élément pour les cellules similaires

Pièges[edit]

  • Construction d'une URL -> attention aux lettres accentuées

Outils[edit]

OpenRefine
  • https://wikidata.reconci.link/ , https://github.com/OpenRefine/OpenRefine/wiki/General-Refine-Expression-Language et https://docs.openrefine.org/manual/grelfunctions
  • value.split('/')[-1]
  • rechercher-remplacer : value.replace("VALEURCHERCHÉE","VALEURREMPLACÉE").replace(ibid)...
    • encadrer avec barre oblique / pour REGEX avec guillemets droits pour remplacer, avec \ comme d'hab (exemple : value.replace(/\+1\-(...)(...)(....)/,"+1-$1-$2-$3"))
  • OpenRefine ne semble pas aimer l'opérateur ?
  • précision sur l'année pour une date : P577@year dans la colonne "Comme propriété" de la réconciliation
  • copier une valeur lorsqu'une ligne multiévaluée est divisée : sélectionner Toutes -> Transformer et écrire row.record.cells[columnName].value[0] en désélectionnant la colonne multiévaluée
  • diviser multi-évaluée avec retour-chariot : remplacer "/n" par ","
Tableur
  • Dans une équation, une référence absolue se crée lorsque l'on utilise le symbole $. Ainsi, par exemple, si on étend la formule suivante à une colonne entière : , la plage B2:B700 sera fixe, alors que la place C2 s'incrémentera pour chaque cellule.