Wikidata:Dataset Imports/Sistema Cultura

From Wikidata
Jump to navigation Jump to search

Part of Wikidata:Sistema Cultura

Lavoro preliminare[edit]

#defaultView:Graph
SELECT ?i ?iLabel ?ii ?iiLabel ?c ?cLabel
WHERE {
  BIND(wd:Q80682683 AS ?c).
  ?c wdt:P527 ?i . 
  OPTIONAL { ?i wdt:P527 ?ii . }
  #BIND(IF(BOUND(?i),"i",IF(BOUND(?ii),"ii","c")) AS ?layer)
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],it,en". }
}
Try it!


  • verificata la proprietà member of (P463), si può usare anche per le organizzazioni.

( forma giuridica = classificazione EUROSTAT ?)

  • Definizione di ente o soggetto capofila
  • FGMICRO/FGMACRO
  • presenza di toilette? scritto P919 ma è sbagliato

Inserimento dei metadati[edit]

Si precede dal più generale al più specifico

Fonte dell'affermazione[edit]

I dati provengono da:

Come codificare?

Susanna ha creato Sistema Cultura (Q80199870)

Per le date, attenzione alla conversione fra americana e europea (verificate a mano)

Coordinate[edit]

  • Google maps ha un massimo di 6 cifre dopo la virgola, anche alcune entries si fermano a quella cifra.
  • A parte le prime importate, sono state quindi limate a mano con attenzione all'arrotondamento alla sesta cifra (c'è una funzione apposita in excell).

Telefono[edit]

  • ignorata la colonna TELEFONO 2
  • i numeri di cellulari come contatti meglio non inserirli, i pochi che hanno risposto (campione delle biblioteche) hanno confermato che sono privati.
  • usare \d{NUMERO} come espressione regolare per la suddivisione delle colonne (da cui la separazione fre prefissi a 3 e 4 cifre) ma potrebbe non essere necessario

Reti documentarie[edit]

  • primo lavoro di test con OpenRefine con modifiche manuali vista l'esiguità del campione
  • non è riportato un oggetto strutturato come link a questa pagina
  • retrieved (P813) export del file 2019-11-10
  • parte di /consiste di si usa per le reti documentarie che sono incluse negli elementi globali Q80682683 e gli elementi generali reti documentarie toscane (Q79260759) e Q80680199
  • inserimento url manuale perché di numero ridotto

Archivi[edit]

  • retrieved (P813) export del file 2020-01-10
  • il primo rigo, un archivio di Firenzuola senza denominazione, non è stato importato. Dalla regione: per quanto riguarda l'archivio di Firenzuola ci deve essere stato un problema nella lettura del file: te lo riallego e come puoi vedere il codice A-2047 corrisponde proprio al primo record in cui la denominazione è alimentata 'Archivio comunale di Firenzuola' e è una struttura chiusa definitivamente nel 2019. Decidete voi se importarlo o meno
  • rimuovere CODICEARCHIVIOCENTRALE ma verificare a mano relazione di inclusione
  • inserimento url ma va verificato perché sono tanti e spesso non funzionano
  • si toglie PROVINCIA in quanto ridondante con il comune
  • LINKINVENTARIO sono pochi, pieni di link generici, alcuni errati, va verificato a mano
  • CATEGORIAACCESSO sono pochi, a volte con strane situazione (es: "tutti" per "accesso riservato"), se inseriti va fatto in revisione manuale.
  • MODALITA ACCESSO è incodificabile, troppo specifiche e spesso non standardizzate anche se indicano lo stesso concetto. Siccome sono poche vanno verificate a mano e eventualmente lasciato qualche informazione nella descrizione se si vuole
  • Alcuni aspetti di ACCESSIBILITA (es:bagno) sono ambigui, riguardano l'edificio in cui l'archivio è situato. maglio non codificarli. Inoltre sono variabili, meglio sia possibile per il personale aggiornarli direttamente
  • NUMEROCOMPLESSOARCHIVISTICI è un numebro difficile da concettualizzare, vediamoli a mano dopo riunione
  • "INFOSTATO" è "Archiviato" solo se l'archivio è chiuso definitivamente. Informazione ridondante con altra colonna, si può togliere.
  • SPAZIO BIBLIOTECA pari a 1 è uno è associato a un codice biblioteca eccetto che per archivio storico san Casciano in Val di Pesa. Perché non si chiama "COLLOCATOBIBLIOTECA"
  • codice iniziale A sta per archivio e il numero non ha alcun colegamento con la biblioteca a cui è collegato. P.e. il codice di archivio comunale Castell'Azzara è A-1244, ma 1244 nell'ID biblio di altro file è di una biblioteca di Pescia.
  • Ordinato per ID codice, la "anagrafe Archivi" ha un elemento in meno di "Descrizion archivi" con salto alla riga 313, il A-2091
  • verificare con assessorato A-2045 usato sia per Pienza che Rapolano Terme
  • "archivio Marini" sembra simile a "Archivio Fondazione Marini - Oltre il secolo breve" poco prima della fina, forse doppione? Sta solo nella descrizione archivi, forse rimuovendo riga si fa prima. sono marini diversi, Marino Marini esiste solo biblioteca.
  • la last update (P5017) DATAFINE la inserisco a mano quindi la tolgo dal file di riepilogo
  • L'anno di chiusura (Aulla e Torrita di Siena) si inserisce a mano
  • verificare Q81171887 di viareggio se è duplicato (indirizzo diverso)
  • verificare a mano instance ofcon archivio specifico: es. municipal archive Q604177 / historical archive Q3621673
  • inserire date of official closure (P3999) per ANNOCHIUSURADEFINITIVA, è riportato solo su Archivio comunale di Torrita di Siena e Archivio storico e archivio notarile del Comune di Aulla (rimossa colonna da file finale di import)
  • A2047 corrisponde a archivio di Firenzuola senza denominazione, non sarà importato a meno che non mi dai una denominazione
  • sbavatura nel file originale, l'archivio del comune di San Giovanni d'Asso (codice A-2021) è codifica nella colonna del comune come "Montalcino (fino al 2016)". In realtà dal 2016 il comune è confluito in quello di Montalcino e in altri casi il campo include il vecchio comune, dovrebbe essere "San Giovanni d'Asso (fino al 2016)".
  • Nel caso dell'archivio Zorzi Giustiniani cercare il numero fisso su SBN, nel caso dell'archivio Fondazione Marini Oltre il Secolo Breve usare 0573 766349. Quello dell'Associazione "Il Cortile" è sicuramente non aggiornato.
  • Verificare Q81166726, probabilmente vanno separati archivio e museo
  • Gli archivi sono anche archivi storici? Alcuni sono allo stesso indirizzo ma sono separati come concetto, Q81166726.
  • Altri sono mischiati con le biblioteche Q81175765, hanno fatto un import raffazzonato mentre gli archivi della regione sono assai più strutturati nelle differenze di inclusione
  • Susanna suggerisce di accorpare negli elementi "archivi" (elementi svedesi) e "archivi storici" per i comuni. Lo standard dopo una legge regionale (Legge Regionale 10 luglio 1999, n. 35 Titolo I Articolo 02 comma 3, che subentra alla legge regionale n. 33/1976) è che gli archivi storici siano conservati nelle biblioteche comunali, questo spiega perché alcuni elementi svedesi mischiano biblioteche e archivi. Non capita comunque per comuni con archivi più strutturati (solitamente di dimensioni medio-grandi) che esistevano già in precedenza. Non necessariamente però hanno sede nello stesso edificio della biblioteca, possono essere sotto la biblitoeca ma avere ancora sede al comune.--Alexmar983 (talk) 19:27, 19 February 2020 (UTC)[reply]
  • come collegare Q65517782?

Biblioteche[edit]

  • data di chiusura per bibblioteca (?) verificare
  • Il codice ICCU è in realtà codice ISIL, ISIL (P791)
  • verifiche qui
  • Nel file sulle biblioteche compaiono sotto la colonna ICCU codici come IT-FI-005 o IT-AR-1514. Sono anomali e corrispondono quasi sempre a biblioteca di scuole e conventi che non compaiono cercando sull'anagrafe ICCU sotto la voce del comune. P.e. il codice IT-AR-1514 è associato a una biblioteca di Montevarchi e qui non compare. Questi codici pseudo-ICCU che presentano un trattino fra la sigla provincia e il numero sono stati indicati dalla Regione per le biblioteche che hanno chiesto l'inserimento in banca dati ma che non sono nell'anagrafe ICCU (e conseguentemente non hanno il loro codice). Il coidice fittizio è necessario perchè il campo nel sistema è obbligatorio.
  • c'è un baco in uno dei fogli, i numeri ID BIBLIO 382 (Children's Lending Library) e 580 non si allineano a modo nel file delle descrizioni, almeno non su tutti i computer.
  • corretto codice IT-F0904 in IT-FI0904
  • totale: biblioteche con ICCU-ISIL sensato: 912 (505 numero telefono 4 cifre, 372 numero telefono a 3 cifre, 35 no telefono/cellulare), con ICCU-ISIL inventato: 204 (154 numero telefono a 4 cifre, 33 numero di telefono a 3 cifre, 17 no telelfono o cellulare)
  • Dalla regione: per quanto riguarda l'idBiblio 2085 questo in tutti e quattro i fogli corrisponde a Biblioteca del Centro studi e documentazione Assi Giglio Rosso di Firenze (con iccu IT-FI0349) mentre l'id 859 è sempre corrispondente alla Biblioteca del Convento dell'Ospizio di Pistoia (con iccu IT-PT0054)
  • Dalla regione:esiste una duplicazione di codice iccu ed è relativo alla struttura IT-FI0045, perchè la biblioteca è stata rinominata e trasferita e nel sistema informativo, dato che era stato creato un doppione (pensando che fossero due biblioteche diverse) durante i controlli prima di esportare i dati, è stata chiusa la scheda con la denominazione non più esitente ma senza pensare a togliere il codice ICCU ora attribuito alla nuova denominazione. Ecco il caso:
  • 2417 42279 IT-FI0045 048017XX115 Firenze Firenze Biblioteca dell'Istituto agronomico per l'oltremare 30/12/19 09.52 30/12/19 09.52 Archiviato chiusa definitivamente
  • 2416 42278 IT-FI0045 048017XX2130 Firenze Firenze Biblioteca dell'Agenzia Italiana per la Cooperazione allo Sviluppo 30/12/19 09.51 Pubblicato aperta con orario prestabilito
  • Se decidete di importare anche la prima vi chiedo di togliere il codice ICCU. (rimosso codice ICCU errato)
  • Correzione per fini statistici: IT-FI-024 e IT-FI-020 (museo della colelgiata a Empoli e Fondazione Arrigoni degli Oddi) erano finiti per errore nel file con ICCU (no numero telefono) e chiaramente anche la Biblioteca dell'Istituto agronomico per l'oltremare è finita in file con codice ICCU (telefono a tre cifre)
  • Le coordinate (43.8441988790542000 10.5015514337779000) sono del Municipio di Manciano, non vanno attribuite alle sezione distaccate.
  • verificare Talk:Q81170188
  • IT-FI0617 (unioncamere) compare con due pratiche diverse
  • biblioteca dell'archivio storico=archivio storico
  • IT-PO0065 compare due volte: Biblioteca della Camera di Commercio, I.A.A. di Prato e Centro Documentazione La Nara. Questo in realtà è IT-PT0069.

Fondi[edit]

  • Alcuni codici ICCU dei fondi hanno una formattazione erratta, verificare
  • Da importare DOPO i musei sono la cosa più specifica, creare xls a parte e non foglio di biblioteche.

Reti e sistemi museali[edit]

  • verificare ID 121 e 123, sembrano tutte e due sistema di ateneo a Pisa. Unificate.
  • verificare ID 11 e 242, Sistema Museale del Chianti (e Valdarno) fiorentino. Probabilmente è un'espansione.
  • verificare ID 3 e ID 38, entrambe Museimpresa – Associazione Italiana (Archivi e) Musei d’Impresa : Avendo sede nazionale a Milano i dati degli indirizzi di Pontedera e Firenze sono sballati, io eviterei di importarla
  • verificare ID 1 AIGBA - Associazione Internazionale Giardini Botanici Alpini, perché l'indirizzo di Abbadia San Salvatore non è nemmeno di una sede locale qui non compare.
  • il Sistema Museale Amiata Grossetana ha un errore di numero telefono, ho messo 0564969602 invece di 0654969602
  • verificare Q81166726 se la dizione al sistema museale nell'archivio suggerisce un'unione.
  • sistemi museali e reti museali unificate da LR 21/2010
  • probabilmente va bene se a "Altre forme di organizzazione" si scrivo come istanza "associazione".
  • Rimane il punto sugli ecomusei riportati nel file dei sistemi museali. Che istanza è opportuna in questo caso? ve bene quella di ecomuseo (che intendiamo in senso largo includere sia musei che magari aggregati di piccolo ecomusei) o meglio direttamente quella di sistema museale? I cas sono tre: Casentino (ID 5), alabastro (ID 6) e Montagna Pistoiese (ID 7). Non vorrei che il numero basso fosse indice di un'interpretazione originale poi superata negli anni successivi.
Martinelli ha chiarito che gli eco museo non sono sistemi.Susanna Giaccai (talk) 16:07, 27 March 2020 (UTC), non sono importati.[reply]

Musei[edit]

  • Sono assai pù frammentati e vanni ricomposti con cura
  • in alcuni casi la colonna NOME non sembra coincidere ma è questione di uno spazio finale
  • in alcuni casi la colonna DATAINIZIO non sembra coincidere ma è questione di un minuto di differenza (ai fini dell'import conta solo la data)
  • File xls delle "CATEGORIE" ha linee duplicate, la categoria non è un campo multiplo. Sono duplicate ID 7033, 7278... sono stati riallineati a mano.
  • IDTIPOMUSEO sembra inutile, l'ho rimosso.
  • RICONOSCIUTO 0/1: museo riconosciuto di rilevanza regionale in base alla legge 21/2010 Q94701729, inserire come istanza aggiuntiva Tuscan museum of regional importance (Q94701721)
  • EDUMUSEI: Se è uguale a 1 il museo aderisce al circuito Edumusei per la proposta di attività educative alle scuole (elemento generico didactic museum (Q94701740))
  • CODICEISTAT, ci sono dei tipi con il codice della provincia e a volte una lettera N in terzultima posizione e a 4 cifre tipo "40420" (es: museo di Camrignano). Si tratta di codice assegnato da Istat nelle sue indagini. Forse utile se in futuro dovessero caricare i contenuti di Istat e fosse necessario un collegamento: a noi servirebbe se effettuiamo in futuro uno scarico da wikidata ed è necessario collegarlo con i dati Istat.
Se è NO significa che l'istituto non è stato intervistato da Istat perchè non corrispondente alla definizione dell'indagine; se è un numero senza caratteri è un museo afferente al MiBACT: se invece è una stringa in cui è presente anche la sigla della provincia sono gli istituti non afferenti al MiBACT; se è vuoti significa che l'istituto non è stato oggetto di indagine per ora (non rispondente o nuovo istituto) ed Istat non ha ancora associato il suo codice.
  • La colonne sul numero di sale, gli oggetti esposti e in catalogo e la superficie non sono integrabili ma possono essere spostate accanto alle descrizioni nel foglio xls completo per una futura scrittura di voci.
  • Per i musei in edifici sottoposti a vincolosi deve usare heritage designation (P1435) (stato patrimoniale) ma serve elemento per descrivere questo vincolo paesaggistico. Quale è a livello legislativo?
  • SITOWEB e PAGINAWEB sono abbastanza strani come distinzione, li lascio per il corso se qualcuno vuole verificare a mano ma meglio avere un po' di contestualizzazione
  • main subject (P921) possiamo usare per indicare i "main topic", DISCIPLINE e CATEGORIE
  • Sulle fonti degli statements, nel caso delle biblioteche abbiamo dato per scontato che siccome molte schede erano modificate, la data di modifica fosse abbastanza chiara e che il database fosse corretto nell'update. lasciando quindi l'update manuale di date diverse. In questo caso poiché le uniche schede con una data son quelle di istituzioni chiuse, non possiamo stimare se sono aggiornate ma probabilmente no, quindi non copiamo la data di update come quarto campo.
  • aperto/chiuso per .... potrebbe andare ma vanno calibrati con cura, però li lascio per OpenRefine
  • Alcune coordinate sono fuori di qualche decina o centinaio di metri, non le importo: tumulo etrusco di Montefortini, basilica di San Piero a Grado, Forte di Belvedere. Spesso indicano la via ma non il luogo esatto.
  • Per l'anno di chiusura abbiamo due proprietà dissolved, abolished or demolished date (P576) è riferito a organizzazioni, mentre date of official closure (P3999) alle facilities. In senso largo, questi ne database sono luoghi fisici dove "si entra con biglietto", non c'è nessuna organizzazione specifica di una mostra di ceramiche o visita delle mura urbane... possono anche essere organizzazioni ma il significato primario è quello di P3999, usiamo quella.

Cosa non sarà mai inserito[edit]

Alcuni aspetti comuni a più import che andranno ignorati

  • le ore associate alle date
  • ID PRATICA in quanto informazione interna dell'archivio che sarà dismesso.
  • CODICECHIAVE serve per sincronizzare alcune informazioni, ma non sarà mai inserito.
  • alcuni codici ICCU "fittizi"

Passaggi import[edit]

  • 2019-12-XX: importati tutti gli elementi delle reti documentarie (più passaggi)


  • 2020-01-28 : importati i dati principali degli archivi con anno di fondazione.
  • 2020-02-13: inseriti i dati sul numero di telefono degli archivi con anno di fondazione.
  • 2020-02-13: inserito codice postale agli elementi degli archivi con anno di fondazione.
  • 2020-02-13: importati i dati principali degli archivi senza anno di fondazione e senza contatto di telefono.
  • 2020-02-13: importato i dati sull'appartenenza alla rete bibliotecaria degli archivi senza anno di fondazione e senza contatto di telefono
  • 2020-02-15: importati i dati principali degli archivi senza anno di fondazione e con contatto di telefono cellulare e prefissi 050 e 055 (nota: i numeri con cellulare in realtà sono privati, quindi d'ora in avanti si associeranno al file senza contatti di telefono)
  • 2020-02-20: importati i dati sul numero di telefono degli archivi senza anno di formazione e con prefissi 050 e 055.
  • 2020-02-20: importati i dati degli archivi senza anno di fondazione e con prefissi a quattro cifre (incluso il numero di telefono)
  • 2020-02-20: importate i dati sulle coordinate degli archivi con anno (quelli che le avevano)
  • 2020-02-20: importati i dati sulle reti e le coordinate degli archivi senza anno di fondazione e con prefisso a 4 cifre


  • 2020-02-21: importati i dati principali delle biblioteche senza codice ICCU e numero di telefono
  • 2020-02-21: importati i dati sulle coordinate (e la descrizione semplice in francese) delle biblioteche senza codice ICCU e numero di telefono
  • 2020-02-21: importati i dati sulle coordinate (e la descrizione semplice in francese) degli archivi senza anno di formazione e con prefissi 050 e 055 o con contatto cellulare.
  • 2020-02-21: importati i dati principali (escluso il numero di telefono) delle biblioteche senza codice ICCU e numero di telefono con prefissi 050 e 055
  • 2020-02-21: importati i dati sul numero di telefono (e la descrizione semplice in francese) delle biblioteche senza codice ICCU e con prefissi 050 e 055.
  • 2020-02-23: importati i dati principali (e la descrizione semplice in francese e inglese) delle biblioteche con codice ICCU e senza numero telefono. (*) incluse due biblioteche senza ICCU finite per errore nel file.
  • 2020-02-23: importati i dati principali (e la descrizona semplice in francese, tedesco e inglese) delle biblioteche senza codice ICCU e con prefissi a 4 cifre. (*) incluse due elementi di archivi che ora hanno doppia istanza
  • 2020-02-27: importati i dati principali (e descrizione semplice in francese e inglese) delle biblioteche con codice ICCU e con prefisso 050 e 055
  • 2020-02-27: importati i dati principali (e descrizione semplice in francese e inglese ma non il comune) delle biblioteche con codice ICCU e con prefisso a 4 cifre (*) eccetto una parte per un baco di riconciliazione, dovuto a titoli simili che anche se più volte riconciliati come nuovi elementi il tool continua a ssociare a altri
  • 2020-02-28: importati i dati del comune (e descrizione semplice in tedesco) delle biblioteche con codice ICCU e con prefisso a 4 cifre (*) e quelli non riconciliati che mancavano, nella loro interezza. I dati di Q81166682 sono stati inseriti a mano perché l'elemento risultava unreconcilied (di tutti i bachi è il più misterioso ma soprassediamo). Otto elementi circa sono stati individuati come mal riconciliati anche se è stato espressamente salvato di crearli come muovi elementi, c'è qualche baco.[1]
  • 2020-03- :importati sistemi museali (eccetto ecomusei, che hanno uno status ambiguo e sono stati inseriti fra i primi, prima che l'archivio avesse delle direttive più definite)
  • 2020-05-03: importati musei con CODICEISTAT NO (37 righe)
  • 2020-05-03: importati musei con CODICEISTAT a 5 cifre (54 righe, due sono state escluse)
  • 2020-05-05: importati musei senza CODICEISTAT (168 righe) (eccetto 5 casi da sgarbugliare meglio), ma senza la parte sul "main topic"
  • 2020-05-07: importati musei con CODICEISTAT 10 cifre e con DISCIPLINE (eccetto 5 casi da sgarbugliare meglio), ma senza la parte sul "main topic"
  • 2020-05-08: importati musei con CODICEISTAT NO (37 righe), descrizione in spagnolo e anno di chiusura/apertura
  • 2020-05-10: importati musei con CODICEISTAT 10 cifre e senza DISCIPLINE (eccetto un caso di duplicato relativo alla Cattedrale di Lucca), manca da rifinire la definizione in francese e gli argomenti. In parte la data di inizio è saltata in alcuni riferimenti.
  • 2020-05-11: importati musei con CODICEISTAT 10 cifre e senza DISCIPLINE, raffinamenti. Importati parzialmente a mano i due elementi mancanti del file dei musei con CODISTAT 5 cifre. Importati metdati topic dei musei senza CODICEISTAT (166 righe, 2 a parte)
  • 2020-05-14: importati 5 musei mancanti con CODICEISTAT 10 cifre e con DISCIPLINE (inclusi main topic)
  • 2020-05-15: importati i main topic dei 158 musei (non i 5 casi particolari) con CODICEISTAT 10 cifre e con DISCIPLINE
  • 2020-05-18: importati a mano due elementi mancanti senza CODICEISTAT

Controllo qualità[edit]

Il controllo qualità è svolto in tre assi di lavoro:

  • verifica incrociata con i file sorgenti originari subito e prima e subito dopo l'iter da parte di almeno due operatori distinti
  • Query di controllo
  • Lavoro di raffinamento manuale

Note[edit]

  1. Assolutamente da evitare import superiori a 200-250 item coinvolti o non è possibile individuare questi casi a modo e eliminarli temporaneamente (al secondo import il baco scompare), ne ho pescati almeno 20 riguardandoli a uno a uno e isolandoli dal primo import. Ci son voluti due passaggi ulteriori ma tutti gli elementi mancanti sono stati inseriti.