Il punto di vista di Anirban: comprendere gli indici di citazione
di Anirban DasGupta
(IMS Bulletin, vol. 42(2), pag. 10)
Qualcuno li ama e qualcun altro li odia. Ma gli indici di citazione sono allegramente
digeriti dagli amministratori quando prendono decisioni sulle promozioni o sulle
assunzioni a tempo indeterminato.
Qualcuno dice anche che i finanziamenti per la ricerca dovrebbero essere legati alla
storia delle citazioni.
Oggi abbiamo a disposizione un certo numero di indici di citazione. I più di moda
sono l’h-index di Hirsch, il g-index di Egghe e, piuttosto recentemente, Google ha
introdotto l’i-index.
Vediamo come funzionano.
Il mio h-index vale k se k dei miei lavori maggiormente citati sono stati citati almeno
k volte, ma il mio successivo lavoro maggiormente citato non raggiunge k+1
citazioni. Tanto per fare un esempio, se Mr Smith ha un numero di citazioni pari a
2000, 200, 100, 30, 20, 20, 7, 7, 2, 0 allora il suo h-index è 7.
Il mio g-index vale k se k dei miei lavori maggiormente citati sono stati citati almeno
k volte in media. Per Mr. Smith il g-index è 10 (in realtà la definizione non dice molto
sul metodo di calcolo, ma consultando Wikipedia, ad esempio, si comprende da
dove salta fuori quel numero 10).
L’i-index è 10, se ci sono 10 articoli con 10 o più citazioni. In sostanza un indice pari a
10, significa che l’articolo merita di essere guardato.
I pro e i contro gli indici sono stati ampiamenti discussi. Ad esempio non si possono
confrontare gli indici di citazione tra settori diversi. Per essere nell’1% dei fisici
maggiormente citati, bisogna avere 2073 citazioni, mentre nelle scienze questo
valore scende a 147.
Non voglio sprecare lo spazio a mia disposizione scrivendo su questi aspetti, arcinoti.
E’ mia intenzione capire rigorosamente le scale di questi indici, in modo da decidere
in autonomia se il numero che sto leggendo è alto, basso o nella media. E’ possibile
formulare questo giudizio ad un livello più elevato di quello banalmente empirico?
Forse sì. E per questo prenderò in considerazione un lavoro del 2012 di Pratelli et al.
I limiti di spazio imposti per questo articolo mi impongono di scegliere un solo
indice. Pertanto farò riferimento al solo indice h. Più formalmente, se una persona
ha n pubblicazioni e le statistiche ordinate relative al numero di citazioni (con F la
relativa CDF e f la associata pdf) di queste n pubblicazioni sono () , () , … , ()
allora l’h-index è pari al più grande k tale che (
) ≥ . E’ utile scrivere questa
disuguaglianza in termini di funzione quantile dei dati:
ℎ = 0 < < 1: (1 − ) − ≥ 0
dove è la funzione di ripartizione empirica del numero di citazioni di un lavoro con
funzione densità f. Centriamo e normalizziamo per costruire il processo quantile:
() = √!( ())" () − ()#
e quindi
ℎ = $0 < < 1: (1 − )
%
≥ !& (1 − )' − √!& (1 − )' (1 − )(
Con alcune ipotesi imposte su f il processo quantile può essere approssimato da un
ponte browniano su "0,1#. Poiché per un ponte browniano la procedura di
inversione temporale è ben posta, si ottiene che h ha la medesima distribuzione di
(1 − ))l dove τ è il tempo di primo passaggio del ponte browniano rispetto a una
barriera a(t). Questa variabile aleatoria è un po’ difficile da caratterizzare dal punto
di vista analitico. Tuttavia a questo problema ci hanno lavorato alcune delle migliori
menti del settore, quali Borovkov, Daniels e Durbin. Oggi i lavori di Durbin del 1985 e
1992 ritornano molto utili, in quanto forniscono una successione di approssimazioni
alla densità di h. L’approssimazione del primo ordine è l’unica che sia possibile
scrivere su di un foglio, ma già fornisce utili indicazioni su h. Se guardo ai ricercatori
di tutte le età, allora è molto difficile ritenere tutte le citazioni i.i.d. con una sola F
soggiacente. Si può supporre che a livello di assistente, F sia qualcosa tipo una legge
uniforme su [0,m] con m piuttosto piccolo. Se a livello di professore associato
potrebbe essere una legge asimmetrica, tipo una esponenziale, a livello di
professore ordinario ci si aspetta una legge fortemente asimmetrica. Per 10 di noi
professori ordinari, che lavorano in un settore teorico, il numero massimo di
citazioni è 528, 207, 643, 750, 708, 498, 601, 69, 38, 31: viene in mente una
convoluzione di Cauchy. Nel caso di legge uniforme, seguendo i risultati di Durbin, si
arriva ad una bella risposta: l’approssimazione del primo ordine di Durbin alla
densità di )/(1 − )) è la Gaussiana inversa (la cui popolarità è strettamente legata
alla teoria delle passeggiate aleatorie, si vedano i libri di Feller) di parametri
μ = /, e ʎ = % /, pertanto la media di )/(1 − )) risulta essere n/m e la
varianza 1/m. Si noti che la varianza è piccola. Questo ci dice che l’h-index vale circa
1/ . + 1 in media. Stiamo cominciando a vedere un punto di riferimento teorico,
/
e non solo empirico. Per la promozione ad associato, potremmo chiedere che ci
siano almeno 12 pubblicazioni e che qualcuna abbia almeno 15 citazioni, sicché il
rendimento medio richiederebbe un h di
2
2
.23241
= 7 per ricercatori teorici. In
generale, la densità di τ potrebbe essere bimodale: questo si ottiene facendo un po’
di conti a partire dalla formula di Durbin. La bimodalità può tornare utile: se si
supera la moda più elevata, allora sicuramente si merita una promozione.
Anche io ho fatto un po’ di simulazioni. I calcoli sulla gaussiana inversa dicono che
con una distribuzione uniforme di citazioni tra 0 e 30 e 35 pubblicazioni, h dovrebbe
variare tra 11 e 16. Ho fatto varie simulazioni (ben 6 volte) e l’h-index è risultato
variare tra 9 e 14. Con questo risultato posso dormire bene. Il g-index
coinvolgerebbe un integrale a cascata del moto browniano, che a sua volta può
essere maneggiato, e che l’i-index richiederebbe solo il calcolo di un primo passaggio
del moto browniano, che è un fatto classico. Il caso di barriera non lineare
richiederebbe altro spazio, se avessimo ancora voglia di discuterne. Mi chiedo se
anziché lavorare con un solo numero, si possa lavorare con altri cinque numeri, ad
esempio () , (), il numero mediano di citazioni per articolo, le percentuali di
lavori con meno di 5 citazioni oppure n. Cosa cambierebbe?
L’h-index di certo cambia al trascorrere del tempo, nel senso che, se costruito in
maniera rigorosa, funziona come un processo di Poisson non-omogeneo. Qui non
abbiamo spazio per entrare nei dettagli. Dunque, se qualcuno potesse confermare
che il mio h-index è maggiore di 7, penso che potrei chiedere la tenure.