User:Simon Villeneuve/OpenRefine
Jump to navigation
Jump to search
Guide de nettoyage de données[edit]
- Vérifier les lignes et colonnes entièrement vides
- Lignes : Dans la colonne "toutes", choisir Facette -> facette par valeur vide -> supprimer les lignes entièrement vides
- Colonnes : Dans la colonne "toutes", choisir Facette -> valeurs vides par colonne -> supprimer les colonnes qui ont un nombre de valeurs vides égal au nombre de lignes du projet
- Séparer les cellules multi-évaluées
- Éditer les cellules -> Diviser les cellules multiévaluées
- types de séparateurs : , / -
- Repérer les doublons
- Voir en: lignes
- dans la colonne ciblée -> facette -> facettes personnalisées -> facette par valeur vide (retirer les valeurs vides entre les valeurs)
- facettes -> facettes personnalisées -> facette doublons
- trier -> options par défaut
- éditer les cellules -> vider les valeurs répétées dans des cellules consécutives
- Réconciliation
- D'abord réconcilier les colonnes les plus évidentes. Elles pourront être utilisées par la suite pour faciliter la réconciliation des colonnes moins évidentes.
- Passer une première fois, puis sélectionner les (none) et passer une autre fois avec un critère ou catalogue différent.
- facette -> facette textuelle, puis sélectionner "compte" pour ordre décroissant d'occurence
- lier ou non au meilleur choix à la fin
- Remplir les vides
- colonne principale : Éditer les cellules -> Recopier les valeurs dans les cellules vides consécutives
- Créer de nouveaux éléments
- mode ligne : Éditer les cellules -> vider les valeurs répétées dans des cellules consécutives
- Réconcilier -> Action -> Créer un nouvel élément pour les cellules similaires
Pièges[edit]
- Construction d'une URL -> attention aux lettres accentuées
Outils[edit]
- OpenRefine
- https://wikidata.reconci.link/ , https://github.com/OpenRefine/OpenRefine/wiki/General-Refine-Expression-Language et https://docs.openrefine.org/manual/grelfunctions
value.split('/')[-1]
- rechercher-remplacer :
value.replace("VALEURCHERCHÉE","VALEURREMPLACÉE").replace(ibid)...
- encadrer avec barre oblique / pour REGEX avec guillemets droits pour remplacer, avec \ comme d'hab (exemple :
value.replace(/\+1\-(...)(...)(....)/,"+1-$1-$2-$3")
)
- encadrer avec barre oblique / pour REGEX avec guillemets droits pour remplacer, avec \ comme d'hab (exemple :
- OpenRefine ne semble pas aimer l'opérateur
?
- précision sur l'année pour une date :
P577@year
dans la colonne "Comme propriété" de la réconciliation - copier une valeur lorsqu'une ligne multiévaluée est divisée : sélectionner
Toutes -> Transformer
et écrirerow.record.cells[columnName].value[0]
en désélectionnant la colonne multiévaluée - diviser multi-évaluée avec retour-chariot : remplacer "/n" par ","
- Tableur
- Dans une équation, une référence absolue se crée lorsque l'on utilise le symbole $. Ainsi, par exemple, si on étend la formule suivante à une colonne entière : , la plage B2:B700 sera fixe, alors que la place C2 s'incrémentera pour chaque cellule.