Dove il p-value fallisce
Se dovessi essere qualcosa, mi piacerebbe essere un bayesiano, ma preferisco non essere
nulla.
Non mi è mai piaciuta l’idea di dover agire in modo predittibile, consistentemente con la
filosofia di qualcun altro. Molti anni fa mi divertivo a sfidare i miei studenti con i
“contro-esempi” alla idea diffusa di Neyman-Pearson-Wald sugli intervalli di confidenza
e sui test di ipotesi, aventi tutti un sapore Bayesiano, ovviamente. Ma mi sono sempre
rifiutato di trovare distribuzioni “a priori” per ogni cosa facessi e non sono mai sceso a
patti con le distribuzioni “a priori” oggettive. Inoltre, ho visto il fallimento del tentativo
di Fisher di mettere assieme una filosofia inferenziale omnicomprensiva usando i pvalues, probabilità fiduciarie, condizionamenti su opportune ancillari e così via. Bayes:
troppo preciso per essere usato. Fisher: troppo frammentato. NPW: risposte corrette a
domande sbagliate.
Meglio non essere in debito con alcuna filosofia, mi sono detto, fai solo ciò che ti sembra
ragionevole ad ogni istante prefissato. Naturalmente, questo mi espone al ridicolo
secondo le osservazioni scritte da Keynes “Gli uomini pratici che credono di essere
abbastanza esenti da qualsiasi influenza intellettuale, sono spesso schiavi di qualche
economista defunto.” Tutti questi pensieri mi sono venuti in mente recentemente,
quando sono stato coinvolto in una consulenza alquanto delicata.
Un gruppo di ricerca stava effettuando l’analisi di diverse centinaia di geni in un
modello organismo C-elegans (un verme) per individuare quei geni la cui funzione era
determinante per una risposta neuronale. Lungo un periodo di circa due anni, hanno
cresciuto lotti di vermi settimanalmente, testando 5 geni in ogni lotto. Il test consisteva
nell’eliminare l’espressione di un gene in 10-15 vermi di un lotto per poi confrontare le
loro misure neuronali con quelle di 15-30 vermi scelti dallo stesso lotto, o da un altro
trattato all’incirca allo stesso modo di quello precedente. Il confronto è stato fatto con un
t-test per due campioni. La difficoltà è sopraggiunta allorquando i ricercatori hanno fatto
qualcosa di assolutamente ragionevole dal punto di vista di uno scienzato: si raccolgono
un maggior numero di dati su un sottoinsieme selezionato di gene, allo scopo di
rafforzare le conclusione per quei geni. Essi ripetevano il test con vermi di nuovi lotti se
il p-value era piccolo ma non troppo (ossia compreso tra 0.01 e 0.05) oppure se il gene era
di un qualche interesse e il valore del p-value era compreso tra 0.05 e 0.1. Se per qualche
motivo, non ritenevano ragionevoli i risultati provenienti dal gruppo di controllo in un
giorno particolare, ossia i valori erano troppo alti o troppo bassi o tutti gli esperimenti
avevano dato risultati o troppo alti o troppo bassi, allora erano maggiormente indotti a
ripetere l’esperimento. Un maggior numero di test è stato condotto su circa 100 geni, per
la maggior parte di questi il test è stato ripetuto solo una volta, ma per altri anche più di
una volta, per qualcuno anche fino a 10 volte.
Però non ritengo necessario riportare qui i dettagli precisi.
Ci terrei a sottolineare l'aspetto soggettivo delle decisioni prese dai ricercatori, nel senso
che la decisione di collezionare un maggior numero di dati su un certo gene dipendeva
dai dati acquisiti. Inoltre è impossibile simulare il processo assumendo un qualche
modello statistico, nullo o altro, per i dati. Il mio libro favorito di statistica dice: niente
modello, niente inferenza. La mia parafrasi è: niente simulazione, nessun p–value. Tutto
qui? Allora con questi dati non possiamo concludere nulla? Non voglio spiegare qui ciò
che eventualmente raccomando, ma questo esperimento mi riporta indietro a un piccolo
libro “The foundation of statistical inference”, che non ho più sfogliato da circa 40 anni,
memoria di un seminario di Savage sulla probabilità soggettiva e la statistica pratica.
Svoltosi a Londra alla fine di luglio del 1959, ad una platea selezionata di non–credenti,
con uno o due studenti credenti, il libro contiene la prima (e forse l’ultima) discussione
ad ampio raggio ed amichevole dei pro e contro nell’essere nella pratica un Bayesiano
soggettivo. Perché è rilevante qui? Perché la dipendenza delle analisi dei dati dal criterio
di arresto appare un paio di volte, e in quel contesto Savage fa una deliziosa confessione
pubblica che tutti coloro che hanno a che fare con l’inferenza statistica dovrebbero
leggere. A quel tempo si riteneva che un bayesiono avrebbero potuto ignorare i criteri di
arresto, come a dire la differenza tra una binomiale positiva e negativa, e analizzare i
dati disponibili alla fine. Solo più tardi si comprese che qualcuno dei criteri di stop
poteva essere informativo, cioè poteva aggiungere qualcosa circa il valore dei parametri
non noti. Credo che oggigiorno il consiglio recepito sia che i Bayesiani possono ignorare i
criteri di arresto non informativi, laddove io non tenterò di definire questo termine.
L’importanza di ciò in relazione al mio problema di consulenza dovrebbe essere chiaro,
ma allora mi chiedo i criteri di arresto degli scienziati sono non-informativi? Se è così,
allora noi possiamo (e dovremmo, se siamo bayesiani) solo collezionare i dati su un dato
gene, ignorare la natura di fine e di inizio dei dati collezionati e fare l’equivalente
Bayesiano di un t-test o di uno z-test.
Una cosa è chiara nella mia mente: non ci sono p-values per tutti questi dati.
(traduzione a cura di E. Di Nardo)