Il punto di vista di Anirban: comprendere gli indici di citazione di Anirban DasGupta (IMS Bulletin, vol. 42(2), pag. 10) Qualcuno li ama e qualcun altro li odia. Ma gli indici di citazione sono allegramente digeriti dagli amministratori quando prendono decisioni sulle promozioni o sulle assunzioni a tempo indeterminato. Qualcuno dice anche che i finanziamenti per la ricerca dovrebbero essere legati alla storia delle citazioni. Oggi abbiamo a disposizione un certo numero di indici di citazione. I più di moda sono l’h-index di Hirsch, il g-index di Egghe e, piuttosto recentemente, Google ha introdotto l’i-index. Vediamo come funzionano. Il mio h-index vale k se k dei miei lavori maggiormente citati sono stati citati almeno k volte, ma il mio successivo lavoro maggiormente citato non raggiunge k+1 citazioni. Tanto per fare un esempio, se Mr Smith ha un numero di citazioni pari a 2000, 200, 100, 30, 20, 20, 7, 7, 2, 0 allora il suo h-index è 7. Il mio g-index vale k se k dei miei lavori maggiormente citati sono stati citati almeno k volte in media. Per Mr. Smith il g-index è 10 (in realtà la definizione non dice molto sul metodo di calcolo, ma consultando Wikipedia, ad esempio, si comprende da dove salta fuori quel numero 10). L’i-index è 10, se ci sono 10 articoli con 10 o più citazioni. In sostanza un indice pari a 10, significa che l’articolo merita di essere guardato. I pro e i contro gli indici sono stati ampiamenti discussi. Ad esempio non si possono confrontare gli indici di citazione tra settori diversi. Per essere nell’1% dei fisici maggiormente citati, bisogna avere 2073 citazioni, mentre nelle scienze questo valore scende a 147. Non voglio sprecare lo spazio a mia disposizione scrivendo su questi aspetti, arcinoti. E’ mia intenzione capire rigorosamente le scale di questi indici, in modo da decidere in autonomia se il numero che sto leggendo è alto, basso o nella media. E’ possibile formulare questo giudizio ad un livello più elevato di quello banalmente empirico? Forse sì. E per questo prenderò in considerazione un lavoro del 2012 di Pratelli et al. I limiti di spazio imposti per questo articolo mi impongono di scegliere un solo indice. Pertanto farò riferimento al solo indice h. Più formalmente, se una persona ha n pubblicazioni e le statistiche ordinate relative al numero di citazioni (con F la relativa CDF e f la associata pdf) di queste n pubblicazioni sono () , () , … , () allora l’h-index è pari al più grande k tale che ( ) ≥ . E’ utile scrivere questa disuguaglianza in termini di funzione quantile dei dati: ℎ = 0 < < 1: (1 − ) − ≥ 0 dove è la funzione di ripartizione empirica del numero di citazioni di un lavoro con funzione densità f. Centriamo e normalizziamo per costruire il processo quantile: () = √!( ())" () − ()# e quindi ℎ = $0 < < 1: (1 − ) % ≥ !& (1 − )' − √!& (1 − )' (1 − )( Con alcune ipotesi imposte su f il processo quantile può essere approssimato da un ponte browniano su "0,1#. Poiché per un ponte browniano la procedura di inversione temporale è ben posta, si ottiene che h ha la medesima distribuzione di (1 − ))l dove τ è il tempo di primo passaggio del ponte browniano rispetto a una barriera a(t). Questa variabile aleatoria è un po’ difficile da caratterizzare dal punto di vista analitico. Tuttavia a questo problema ci hanno lavorato alcune delle migliori menti del settore, quali Borovkov, Daniels e Durbin. Oggi i lavori di Durbin del 1985 e 1992 ritornano molto utili, in quanto forniscono una successione di approssimazioni alla densità di h. L’approssimazione del primo ordine è l’unica che sia possibile scrivere su di un foglio, ma già fornisce utili indicazioni su h. Se guardo ai ricercatori di tutte le età, allora è molto difficile ritenere tutte le citazioni i.i.d. con una sola F soggiacente. Si può supporre che a livello di assistente, F sia qualcosa tipo una legge uniforme su [0,m] con m piuttosto piccolo. Se a livello di professore associato potrebbe essere una legge asimmetrica, tipo una esponenziale, a livello di professore ordinario ci si aspetta una legge fortemente asimmetrica. Per 10 di noi professori ordinari, che lavorano in un settore teorico, il numero massimo di citazioni è 528, 207, 643, 750, 708, 498, 601, 69, 38, 31: viene in mente una convoluzione di Cauchy. Nel caso di legge uniforme, seguendo i risultati di Durbin, si arriva ad una bella risposta: l’approssimazione del primo ordine di Durbin alla densità di )/(1 − )) è la Gaussiana inversa (la cui popolarità è strettamente legata alla teoria delle passeggiate aleatorie, si vedano i libri di Feller) di parametri μ = /, e ʎ = % /, pertanto la media di )/(1 − )) risulta essere n/m e la varianza 1/m. Si noti che la varianza è piccola. Questo ci dice che l’h-index vale circa 1/ . + 1 in media. Stiamo cominciando a vedere un punto di riferimento teorico, / e non solo empirico. Per la promozione ad associato, potremmo chiedere che ci siano almeno 12 pubblicazioni e che qualcuna abbia almeno 15 citazioni, sicché il rendimento medio richiederebbe un h di 2 2 .23241 = 7 per ricercatori teorici. In generale, la densità di τ potrebbe essere bimodale: questo si ottiene facendo un po’ di conti a partire dalla formula di Durbin. La bimodalità può tornare utile: se si supera la moda più elevata, allora sicuramente si merita una promozione. Anche io ho fatto un po’ di simulazioni. I calcoli sulla gaussiana inversa dicono che con una distribuzione uniforme di citazioni tra 0 e 30 e 35 pubblicazioni, h dovrebbe variare tra 11 e 16. Ho fatto varie simulazioni (ben 6 volte) e l’h-index è risultato variare tra 9 e 14. Con questo risultato posso dormire bene. Il g-index coinvolgerebbe un integrale a cascata del moto browniano, che a sua volta può essere maneggiato, e che l’i-index richiederebbe solo il calcolo di un primo passaggio del moto browniano, che è un fatto classico. Il caso di barriera non lineare richiederebbe altro spazio, se avessimo ancora voglia di discuterne. Mi chiedo se anziché lavorare con un solo numero, si possa lavorare con altri cinque numeri, ad esempio () , (), il numero mediano di citazioni per articolo, le percentuali di lavori con meno di 5 citazioni oppure n. Cosa cambierebbe? L’h-index di certo cambia al trascorrere del tempo, nel senso che, se costruito in maniera rigorosa, funziona come un processo di Poisson non-omogeneo. Qui non abbiamo spazio per entrare nei dettagli. Dunque, se qualcuno potesse confermare che il mio h-index è maggiore di 7, penso che potrei chiedere la tenure.