Modulo Ib

Corso “Gestione e qualità dei dati ai fini del monitoraggio e della valutazione della ricerca” organizzato da Cineca –
Soluzioni per la Ricerca Istituzionale - tenuto il 20-11 novembre 2014 presso la sede Cineca di Roma
QUALITA’ DEI DATI :
MODULO IB
Paola Galimberti
[email protected]
Docente
Un sistema complesso
•
L’avvio di una anagrafe della ricerca (o catalogo prodotti) rende necessario
prevedere una serie di competenze e di responsabilità che probabilmente fino ad
ora non erano state pensate
•
Un repository istituzionale è un sistema estremamente complesso, che accoglie e
fornisce dati da e verso fonti interne ed esterne. Va dunque progettato con
estrema cura.
•
La prima azione da farsi da parte della Amministrazione di un ateneo è quella di
prendersi la responsabilità della qualità dei dati inseriti e poi esposti
•
Questo passo fondamentale richiede una riorganizzazione dei flussi di lavoro
I dati sono la base
•
Da cui partire:
•
Per fare analisi affidabili sulla ricerca svolta in una istituzione
•
Per poter giustificare di fronte ai taxpayers gli investimenti fatti
•
Per poter prendere decisioni informate
•
Quanto più le decisioni da prendere sono importanti, tanto più è necessario che i
dati forniti e le loro aggregazioni siano affidabili, ma soprattutto che ne sia data
anche una interpretazione corretta
Caratteristiche dei dati
•
Affidabilità
•
Robustezza
•
Completezza
•
Esaustività
•
Unicità
•
Certificazione
Cosa significa certificare i dati sulla ricerca
•
Ogni ufficio competente nell’ateneo deve fare la sua parte nella validazione e
certificazione dei dati utilizzati per il monitoraggio e la valutazione
•
Ufficio personale per le anagrafiche
•
Ufficio ricerca per i progetti
•
Ufficio dottorati per le pratiche relative alla consegna e al deposito della tesi
•
Ufficio che si occupa del catalogo della ricerca per le pubblicazioni
•
L’ufficio qualità dei dati si occupa di coordinare e verificare i dati e la loro coerenza
Catalogo della ricerca – Non ci sono più
scuse
•
L’enorme cambiamento per gli atenei Ugov è rappresentato dal fatto che
l’anagrafe è pubblica
•
Chiunque può vedere i dati inseriti dai ricercatori afferenti all’ateneo
•
Chiunque può vedere i dati validati dall’Ateneo, a cui l’Ateneo ha apposto il
proprio sigillo di qualità
•
Ovviamente l’Ateneo può decidere di non rendere visibili i dati di una anagrafe che
per sua natura è aperta, ma ciò desterebbe qualche sospetto
Modifiche nel workflow
•
La pubblicità dei dati relativi alle pubblicazioni scientifiche rende necessaria la
modifica delle pratiche abituali
•
La responsabilità dei dati inseriti nell’archivio (la loro veridicità) resta in capo
all’autore (nessuno meglio dell’autore può sapere cosa ha fatto, dove, con chi)
•
La responsabilità del controllo sulla correttezza anche formale dei dati (ad
esempio i dati sulla rivista o sul volume, la correttezza dell’ISBN e del DOI,
l’indicazione di tutti gli autori interni e la loro elencazione formale, la presenza del
numero delle pagine, il collegamento con eventuali progetti internazionali, i
controlli sul full-text eventualmente associato) è invece in capo a personale che
come minimo deve avere una formazione specifica
Necessario prevedere l’intervento e la
formazione di nuove figure
•
Il personale di biblioteca, opportunamente formato rispetto ai processi che
ruotano intorno alla valutazione della ricerca, ha le competenze necessarie per
poter contribuire alla certificazione della qualità dei metadati bibliografici, e per
essere di supporto a docenti e ricercatori in fase di inserimento dei dati
•
Anche per il personale di biblioteca si tratta però di cambiare le logiche: è
necessario pensare in chiave di valutazione e descrizione della ricerca, e non più in
chiave di descrizione dell’oggetto libro o articolo. Deve essere dunque predisposta
una formazione ad hoc, segnalando anche i punti sensibili per la valutazione e
rendendo partecipi tutti i vari attori dell’’importanza dei dati per le pratiche di
valutazione
La licenza
•
Per quanto riguarda la assunzione di responsabilità rispetto ai dati inseriti, Dspace
prevede la sottoscrizione di una licenza.
•
La licenza si trova, nella versione standard, alla fine del processo di inserimento
•
La licenza garantisce all’ateneo che i dati inseriti sono veri (vale a dire che l’autore
è veramente autore della pubblicazione inserita), che la pubblicazione è stata
pubblicata su quella rivista con quei coautori.
•
Garantisce anche una licenza non esclusiva per la messa a disposizione di terzi dei
dati e dell’eventuale fulltext allegato in accordo con le politiche editoriali (ed
eventualmente degli enti di finanziamento della ricerca. Riservando all’università il
diritto di rimuovere metadati e fulltext in caso di plagio, retraction ecc.
•
La licenza va sottoscritta necessariamente. La non sottoscrizione impedisce il
completamento dell’inserimento. Per questo unimi l’ha posta all’inizio del WF
I FLUSSI DEI DATI
Dati in entrata e in uscita
Il repository istituzionale accoglie dati da
banche dati interne ed esterne
Anagrafica
Database
progetti
Segreterie
dottorati
Repository istituzionale
Database
bibliografici
(Wos, Scopus,
Crossref,
Pubmed)
Il repository istituzionale fornisce dati a
banche dati interne ed esterne
Modulo statistiche e
valutazione
Business
intelligence
Repository istituzionale
Loginmiur e
Altri database
ministeriali
Motori di ricerca
(Google, Google
Scholar ecc.)
Dati
bibliometrici
Supporto alle
decisioni e alla
governance
Dart Europe
BNCF
TEL
Open AIRE
Azioni da fare prima di avviare l’IR(1)
•
Definizione della policy dell’archivio
Chi è autorizzato a depositare (personale docente, altri??)
Gestione delle autorizzazioni (chi inserisce per conto di altri, tecnici che
inseriscono per proprio conto perché collaborano col personale docente)
Cosa è possibile depositare (solo lavori di ricerca o anche didattica? Solo
pubblicato o anche pre-print? In corso di pubblicazione? Ahead of print?)
Conseguenze determinate dalle scelte sui contenuti
Quando si deve depositare (entro un certo periodo dalla pubblicazione)
Si dovrebbe rendere chiaro che i dati vengono continuamente utilizzati per analisi
e monitoraggio, quindi devono essere costantemente aggiornati (importanza
della tempestività dell’aggiornamento)
Azioni da fare prima di avviare l’IR(2)
•
Definizione delle tipologie di lavori accolti nell’IR e dei metadati descrittivi fondamentali
•
Esempi possono essere documento di Bologna o di Torino (tendenzialmente la definizione
delle tipologie è compito dell’osservatorio della ricerca)
•
Il documento di partenza deve essere però l’indagine fatta dal CUN sul carattere di
scientificità delle pubblicazioni
•
Si devono tenere presenti le tipologie di pubblicazioni e metadati previsti dal sito docente
considerando che determinate tipologie più raffinate possono essere mappate
•
Il sistema di metadati (e di tipologie) che si costruisce deve essere facilmente modificabile,
ogni qualvolta sia necessario un adeguamento.
•
I metadati devono essere più ricchi possibile, per evitare di dover rilavorare più volte sulle
stesse registrazioni
L’importanza degli identificativi
•
Sono importanti quelli per le pubblicazioni (che servono in realtà anche per
l’import)
•
Ma sono importanti anche quelli per le persone. In particolare ORCID
•
www.orcid.org
Azioni da fare prima di avviare l’IR(3)
•
Deve essere definito anche uno standard per il servizio di validazione:
Tempi di validazione previsti
Dati sui cui viene fatto un controllo
Possibilità di modificare i dati formali introdotti dall’autore (cambio tipologia
o sottotipologia)
Obbligo di validazione di qualsiasi modifica venga introdotta in una
registrazione
Possibilità di integrare i dati
Input forms
•
E’ lo strumento attraverso il quale vengono gestite le modifiche nel set di tipologie
e nelle descrizioni
•
E’ opportuno che l’input forms sia progettato e concordato fra chi deve utilizzare i
dati per la valutazione e per il monitoraggio e chi invece ha conoscenza dei
metadati descrittivi (informatico o bibliotecario)
•
Attraverso l’input forms definiamo i campi obbligatori e quelli opzionali, la loro
ripetibilità, la presenza di selezioni alternative ecc.
Consapevolezza
•
Si dovrà rendere chiaro a chi inserisce che la completezza dei dati è fondamentale.
•
I dati non obbligatori non sono inutili, quindi se disponibili è meglio inserirli.
•
Se l’autore non inserisce dati che sono però utili per le analisi dell’ateneo sarà il
validatore a completare il dato (ad esempio il DOI per poter poi estrarre le citazioni
da Scopus o altre informazioni via API, l’ISBN, l’abstract, il numero di pagine ecc.)
Flessibilità
•
Gli oggetti descritti in un repository (le pubblicazioni) cambiano velocemente. La
vera sfida consiste nel riuscire a tener dietro ai cambiamenti che avvengono nelle
modalità di produzione e disseminazione della scienza e a quelli che avvengono
nei sistemi di valutazione
Definizione di una policy per l’archiviazione
dei full-text
•
Quale versione archiviare, condizioni per l’archiviazione,
•
Obbligatorietà dell’archiviazione del PDF? Può essere utile per campagne di
valutazione che coinvolgono gli atenei in prima persona.
•
L’ateneo dovrà anche decidere se supportare i ricercatori con un gruppo di lavoro
ad hoc per l’analisi delle clausole degli editori
Definizione dei flussi in entrata e in uscita
•
Import da banche dati
A seconda degli accordi con gli editori potrà essere possibile importare via API:
I dati bibliografici
I dati sulle affiliation dei coautori
I dati bibliometrici
Gli identificativi di alcune basi di dati (ad es. pubmed e Scopus o wos)
L’import dalle banche dati
•
Facilita l’inserimento nell’IR di dati corretti sia dal punto di vista della forma che
della sostanza.
•
Abbassa la possibilità di introdurre errori
•
Fra gli sviluppi futuri potrebbe esserci l’utilizzo di ORCID
•
Se adottato da tutto l’ateneo il flusso potrebbe invertirsi per cui l’autore potrebbe
essere avvisato dal sistema ogni volta che una nuova registrazione entra in Scopus
o in WOS (collegamento con WOS, Scopus o con Orcid stesso)
Il monitoraggio dei dati(1)
•
L’IR deve essere costantemente monitorato.
•
Problema delle registrazioni duplicate
•
Problema degli ahead of prints (o dei preprints tipo arxiv o repec) per cui una registrazione
non deve essere duplicata una volta che appaiono i dati del fascicolo, ma corretta
(problema del conteggio di questi item se a cavallo di anni diversi)
•
Problema della corretta attribuzione di un lavoro a tutti gli autori interni (in parte superato
dalle richieste di riconoscimento – ridondanza…)
•
Problema della verifica del passaggio dei dati al sito docente
•
Problema del collegamento (se l’ir lo prevede) con il progetto (per l’invio ad es. ad
openaire. La comunicazione deve avvenire a cura del docente, ma spesso ciò non viene
fatto)
Il monitoraggio dei dati (2)
•
Problema del grado di proprietà rispetto ad un articolo (si pensi alle grandi
collaborazioni tipo Atlas, o ad esempio la Normale e THE)
•
http://rankingwatch.blogspot.it/2014/10/how-to-win-citations-and-rise-in.html
•
Problema del ruolo di un autore all’interno della collaborazione
•
Necessità, per i settori in cui la posizione di un autore è significativa, l’indicazione
delle posizioni (primo secondo ultimo penultimo)
Passaggio dati a loginmiur
•
Una serie di tipologie di lavori non trovano la loro collocazione (non perché non
sono pubblicazioni scientifiche)
•
Ad es. pubblicazioni digitali che non sono sovrapponibili alle tipologie cartacee (ad
esempio voci di enciclopedia sul dizionario biografico degli italiani online)
•
Rigidità di loginmiur che non è pronto per accogliere pubblicazioni che vengono
fatte su portali o contenitori di contributi scientifici peer reviewed che non
rientrano nelle tipologie ancora legate al mondo analogico, ma anche rigidità dei
criteri fissati per alcune tipologie (ad esempio il contributo in volume deve essere
pubblicato in volume con ISBN. La logica del «contenitore» si sta sgretolando ed è
quindi necessario pensare ad altri elementi per la validazione dei «pezzi» di
ricerca)
Pubblicità dei dati
•
Un bel passaggio per gli atenei Ugov.
•
I docenti italiani hanno un sito docente che è privato e una anagrafe locale che è
chiusa.
•
Il nuovo strumento che gli atenei adotteranno prevede in effetti che i dati siano
pubblici.
•
L’esposizione della propria attività scientifica a qualsiasi utente è dunque totale
•
Accanto ai dati bibliografici gli utenti esterni (e l’autore) possono vedere anche
una serie di dati statistici rispetto alla diffusione o popolarità di un lavoro
•
Questo può essere di stimolo sia alla apertura che alla accuratezza
nell’inserimento dei dati
Effetto imitativo
Quando mi rendo conto che il mio collega che ha inserito tutte le sue pubblicazioni
(il cui numero per altro risulta evidente nell’archivio) ha molte visite e citazioni nei
social network, lo stimolo ad inserire le mie pubblicazioni sarà maggiore, e sarò
dunque incentivato ad inserire tutti i miei lavori nell’archivio in modo da poter poi
verificare il ritorno in termini di immagine
L’utilizzo dei dati
E’ importante definire un arco temporale a partire da quando i dati devono essere completi. Su
quell’arco ci si deve concentrare per fare in modo che si raggiunga l’esaustività (in alcuni casi ciò è
stato fatto chiudendo l’inserimento diretto nel sito docente
Quando si è certi che tutti i dati sono stati inseriti, che i dati sono corretti e unici (non doppi) è
possibile procedere con analisi sulla produzione scientifica
Per tipo di pubblicazione
Per area
Per SSD
Per fascia di docenza
Per IF della rivista
Per posizione dell’autore
Per grado di proprietà
Monitoraggio
•
Ad esempio è possibile individuare i docenti che non hanno pubblicazioni su un
arco temporale definito
•
Definizione di soglie di produttività ritagliate sulle diverse aree
•
Analisi delle sedi di pubblicazioni preferite dai ricercatori
•
E’ possibile verificare il grado di collaborazione all’interno del dipartimento o con
l’ateneo, con l’Italia o con altre istituzioni estere
La valutazione: una pratica i cui effetti sul
sistema devono poter essere previsti
•
Sono validi tutti i caveat espressi nel modulo Ia.
•
Quando si fissano delle misure target, il rischio che più che un mezzo diventino IL fine è molto alto, così
come quello che si inneschino comportamenti adattivi o opportunistici che nulla hanno a che fare con la
qualità della ricerca.
Se ad esempio considero validi per il mio esercizio solo le pubblicazioni con IF, costringerò i miei ricercatori a
rivolgersi a riviste mainstream, trascurando magari altre riviste che pubblicano lavori di nicchia e che non
arrivano a raccogliere un numero di citazioni sufficiente per poter avere il bollino di TR
Se ad esempio nell’area di storia ritengo validi solo gli articoli, magati su riviste straniere, i ricercatori
cominceranno a disertare le sedi di pubblicazione nazionale per rivolgersi a linee di ricerca meno locali (e
forse anche meno interessanti)
•
I più grandi studiosi ed esperti di bibliometria e scientometria mettono in guardia dall’uso di indicatori
quantitativi, soprattutto se applicati a dimensioni piccole
•
In occasione della VQR ci sono stati atenei che hanno interrotto il flusso di dati dal catalogo interno a
loginmiur per permettere ai singoli di modificare le proprie registrazioni. Ciò ha creato un danno enorme a
livello di sistema, portando confusione in un database che era già problematico di suo