IL CONCETTO STATISTICO DI “EVIDENZA” (1) LUDOVICO PICCINATO Dipartimento di Statistica, Probabilità e Statistiche Applicate Università “La Sapienza” di Roma SOMMARIO: 0. Introduzione e riassunto - 1. Un semplice esempio - 2. Il modello statistico - 3. Estensioni - 4. Evidenza, inferenze, decisioni - 5. L’esempio dei test diagnostici - 6. Analisi dell’evidenza mediante la funzione di verosimiglianza - 7. Il fattore di Bayes - 8. Il valore-p - 9. Approfondimento su alcuni aspetti logici - 10. Il dibattito soggettivo/oggettivo - 11. Nota bibliografica. 0. Introduzione e riassunto In prima approssimazione si può pensare che un’analisi statistica di risultati sperimentali od osservazionali (per esempio di una prova clinica, o di uno studio epidemiologico, ecc.), assuma come data una evidenza statistica e la elabori seguendo opportuni schemi teorici. Questioni di natura teorica interverrebbero quindi solo in relazione ai criteri adottati per le elaborazioni. E’ invece opportuno sottolineare come lo stesso concetto di “evidenza statistica” sia inevitabilmente intriso di teoria. In generale, infatti, i “dati” statistici vengono letti nel quadro di un “modello” e già questo costituisce un serio filtro teorico per la lettura della realtà. Il riferimento implicito o esplicito ai modelli costituisce certamente un grande contributo della statistica alla metodologia della ricerca, ma non è la questione che vogliamo qui approfondire; al contrario, daremo per accettato un modello statistico adeguato a rappresentare la struttura del fenomeno osservato. Uno degli obiettivi dell’analisi dei dati, anche se non necessariamente un obiettivo finale, è di misurare l’evidenza sperimentale a favore di determinate ipotesi sul fenomeno in esame. Per questo aspetto va ricordato che sono diverse le misure di evidenza proposte dalla letteratura statistica e che la stessa tecnica per valutarle è necessariamente riferita ad una “filosofia” dell’inferenza statistica. Esamineremo nel seguito principalmente due tipi di misure: quella basata sui rapporti delle verosimiglianze, incluse le estensioni di carattere bayesiano, e i cosiddetti Testo riveduto del seminario svolto nell’ambito del corso Medicina basata sulle prove di efficacia, Fondazione ISI, Villa Gualino, Torino novembre 2000. 1 1 valori-p, tipici della impostazione frequentista. Malgrado condividano entrambe un’origine fisheriana, sicuramente le misure del tipo valore-p, anche perché consolidate dagli sviluppi della scuola di Neyman e Pearson, hanno riscosso un maggiore successo pratico. Nella presente nota vogliamo suggerire la validità, naturalezza e semplicità delle misure di tipo rapporto delle verosimiglianze e dimostrare nello stesso tempo (riprendendo anche critiche ben note in letteratura) la sostanziale inadeguatezza dei valori-p agli scopi per cui vengono solitamente utilizzati. Quantunque i metodi basati sulla funzione di verosimiglianza siano perfettamente coerenti con l’impostazione bayesiana, e quindi diano luogo a metodi di valutazione particolarmente naturali nell’ambito di tale impostazione, le argomentazioni su cui ci baseremo saranno indipendenti dall’uso di probabilità a priori sulle ipotesi (con l’eccezione del caso delle ipotesi composte) ma faranno riferimento a situazioni elementari in cui il carattere logico o illogico di determinate procedure appare del tutto intuitivo. 1. Un semplice esempio Consideriamo il seguente esempio (tratto da Colton, Statistica in Medicina, ed. Piccin, Padova 1979, pag.154). Due analgesici (denotati con A e B) vengono confrontati in una sperimentazione clinica somministrandoli entrambi, in tempi diversi, a n = 10 pazienti, avendo cura che in 5 pazienti sia somministrato prima A e poi B e che negli altri 5 pazienti si segua l’ordine inverso. Ogni paziente deve dichiarare se ha trovato preferibile A oppure B (non è consentita una risposta di parità). Si sono ottenute x = 8 preferenze per A e, ovviamente, n-x = 2 preferenze per B. L’obiettivo dell’esperimento è di acquisire informazioni sulla validità delle seguenti alternative: (a) è preferibile A; (b) è preferibile B; (c) A e B sono equivalenti. Le situazioni sopra indicate con (a), (b) e (c) sono chiamate, nel gergo statistico, ipotesi, perché specificano (almeno parzialmente), i possibili modi di realizzarsi del fenomeno. Se per esempio vale l’ipotesi di equivalenza, dobbiamo aspettarci che il 2 succedersi di risposte A o B nelle prove sia del tutto casuale, come una successione di Teste e Croci nei successivi lanci di una moneta ben bilanciata. Il risultato osservato (8 successi su 10 prove) fornisce intuitivamente una evidenza a favore dell’ipotesi (a). Non sembra però di poter escludere definitivamente, sulla base dello stesso risultato, la validità delle ipotesi alternative (b) e (c). Per fare passi avanti concreti occorre definire delle misure di evidenza a favore di specifiche ipotesi. Prendiamo ora in esame un secondo aspetto, che riguarda la forza dell’evidenza disponibile, a prescindere da quale sia l’ipotesi favorita. Se invece di 8 successi su 10 ne avessimo ottenuti 80 su 100, il risultato sarebbe stato per certi aspetti simile ma in realtà più convincente. La “forza” dell’evidenza è legata essenzialmente alla quantità della informazione acquisita; nei casi più semplici, quindi, al numero delle prove eseguite. La questione potrà essere un po’ approfondita, anche sul piano formale, tra breve quando avremo introdotto opportuni strumenti di analisi. 2. Il modello statistico Le elaborazioni statistiche che si effettuano normalmente sui risultati di un esperimento, e perfino le poche considerazioni intuitive sopra abbozzate, presuppongono la validità di un sistema complesso e articolato di assunzioni, il cui scopo è di collegare la realtà descritta nell’esempio con uno schema matematico che servirà di base per tutte le analisi. Esaminiamo le assunzioni essenziali nell’esempio degli analgesici. A) (somiglianza delle prove). Le 10 prove si debbono intendere come perfette repliche di una stessa prova elementare, esattamente come fossero 10 estrazioni da un’urna con palline bianche e nere in proporzione incognita. Rimettendo dopo ogni estrazione la pallina nell’urna, è come se l’estrazione venisse effettuata sempre con la stessa urna. Nel caso dei pazienti ciò vuol dire che si esclude a priori che questi siano classificabili in categorie per le quali le alternative (a), (b) e (c) della sezione precedente abbiano un “peso” prevedibilmente diverso. Se per esempio è pensabile che il farmaco A sia tendenzialmente più preferito dagli uomini, e il farmaco B dalle donne, la progettazione dell’esperimento sarebbe sbagliata: occorrerebbe effettuare prove distinte per uomini e donne ed eventualmente solo a posteriori, in caso di evidente concordanza, fondere i risultati. Se, pur essendo il sesso un fattore rilevante, non se ne tenesse conto, la 3 percentuale di successi verrebbe influenzata non solo dalle preferenze dei pazienti, come si vuole, ma anche dalla composizione per sesso dei diversi campioni e questo “confonderebbe” l’analisi. Si noti che una certa disomogeneità è inevitabilmente introdotta dalla procedura sperimentale, che richiede di somministrare prima A e poi B oppure prima B e poi A. Il metodo usato introduce un correttivo nel senso che “bilancia” gli eventuali disturbi. Una perfetta omogeneità dei pazienti (età, sesso, patrimonio genetico, abitudini alimentari, ecc.) è ovviamente inattingibile (saranno sempre persone diverse!); ma l’elaborazione dovrà sempre presupporre una somiglianza nel senso indicato e potrebbe riuscire fuorviante qualora l’assunzione fosse radicalmente falsa. B) (condizione di indipendenza). La risposta di un paziente non deve influenzare la risposta degli altri pazienti (operativamente, si tratta tra l’altro di raccogliere le rispettive risposte prima di eventuali contatti tra i pazienti stessi). Ogni paziente aggiunge quindi una stessa quantità di informazione sul fenomeno, esattamente come accade nelle estrazioni di palline da un’urna, purché via via rimesse nell’urna stessa. C) (significato del parametro incognito). Nell’esempio si può considerare come parametro incognito, da stimare per rispondere al problema posto, la probabilità che il sonnifero A sia preferito al sonnifero B. Formalmente, è quindi un numero compreso fra 0 e 1. L’interpretazione concreta è che, nella popolazione considerata, una frazione pari al 100 % preferirebbe A a B, qualora ne fosse richiesta. Si può notare che ora si sta usando un concetto di “probabilità oggettiva”, cioè una probabilità che descrive, almeno parzialmente, il comportamento di un sistema fisico (qui le preferenze esprimibili da un insieme di persone). Una probabilità oggettiva, tipicamente, non è nota ma viene stimata empiricamente. Sul ruolo delle diverse accezioni di “probabilità” si tornerà successivamente. Ciò che è essenziale qui è la considerazione che rappresenta un aspetto concreto della realtà, non noto con esattezza ma stimabile per mezzo di opportuni esperimenti. Assumendo come valide le predette condizioni, in corrispondenza di qualsiasi valore si può calcolare la probabilità P(x,10) di ottenere un qualsiasi risultato x (x=0,1,...,10, dove x è il numero di successi) su 10 prove. Una semplice applicazione di calcolo combinatorio mostra che 4 x 10 x P ( x,10) 10 x (1 ) (2.1) dove 10 x denota il classico coefficiente binomiale, facilmente calcolabile. La tabella 2.1 presenta le probabilità (2.1) in corrispondenza di tutti i valori x possibili e di alcuni tra i possibili valori (che sono in teoria infiniti). x=0 x=1 x=2 x=3 x=4 x=5 x=6 x=7 x=8 x=9 x= 10 =0.1 =0.2 =0.3 =0.4 =0.5 =0.6 =0.7 =0.8 =0.9 .345 .387 .194 .057 .011 .002 .000 .000 .000 .000 .000 .107 .268 .302 .201 .088 .026 .006 .001 .000 .000 .000 .028 .121 .234 .267 .200 .103 .037 .009 .001 .000 .000 .006 .040 .121 .215 .251 .201 .112 .043 .011 .002 .000 .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001 .000 .002 .011 .009 .037 .103 .200 .267 .234 .121 .028 .000 .000 .001 .009 .037 .103 .200 .267 .234 .121 .028 .000 .000 .000 .001 .006 .026 .088 .201 .302 .268 .107 .000 .000 .000 .000 .000 .002 .011 .057 .194 .387 .349 TABELLA 2.1 - Probabilità di x successi in 10 prove ripetute per un evento di probabilità Se il numero di pazienti esaminato (cioè di repliche dell’esperimento) fosse un qualsiasi numero n, la formula precedente verrebbe generalizzata in (2.2) P ( x, n) nx x (1 ) n x ( x 0,1,..., n) . 3. Estensioni Volendo organizzare in uno schema generale il concetto di modello statistico, nei suoi aspetti formali e quindi slegati da specifiche applicazioni, dobbiamo dire che le componenti essenziali di un modello statistico sono: I) Le possibili ipotesi esplicative del fenomeno osservato, rappresentate dal valore di uno o più parametri; l’ipotesi generica viene denotata con e appartiene ad un insieme predefinito di valori possibili. II) Un insieme di risultati dell’esperimento a priori considerati come possibili; il generico risultato sarà indicato con x. Si intende che ogni x può essere in realtà un vettore numerico, oppure una funzione, ecc. 5 III) Un insieme ={P, } di leggi di probabilità su , una per ciascun ; si intende che, se la vera spiegazione del fenomeno è *, i risultati si realizzano in accordo con la legge di probabilità specificata da *. Qui emerge il carattere statistico (in contrapposizione a deterministico) dell’esperimento: se si ripetono le prove i risultati mostrano una certa variabilità, che viene detta accidentale in quanto non attribuibile alla diversità delle leggi coinvolte (cioè dei parametri). Nelle sezioni precedenti abbiamo introdotto lo schema binomiale. Il Lettore ha certamente incontrato, e incontrerà, molti altri casi specifici. Il più noto (come si rileva dallo stesso nome) è il modello normale, o di Gauss, che si applica quando i risultati di un esperimento sono interpretati come valori “veri” alterati da un errore accidentale, a sua volta concepito, sostanzialmente, come somma di infiniti errori elementari. In molti casi il parametro incognito è multidimensionale; già con il modello normale spesso sono incogniti sia la media () che la deviazione standard (), sicché il parametro complessivo è il vettore bidimensionale . Le considerazioni che portano alla costruzione dei modelli sono diverse da caso a caso, e di solito confortate anche da conferme sperimentali. Per esempio per modelli relativi alla durata di vita si può specificare (a meno del valore di uno o più parametri) l’andamento del tasso di mortalità in funzione del tempo di vita, e da questo si ricavano leggi probabilistiche di sopravvivenza. Per molte variabili di interesse clinico (ad esempio relative alla composizione del sangue) si osserva che sono “normali” (qui nel senso di “non patologiche”) anche valori molto superiori al valore più probabile, ma non valori molto inferiori. Ne possono venire distribuzioni di probabilità del tipo lognormale, che si caratterizzano dal punto di vista matematico per il fatto che i disturbi, ancora gaussiani, sono moltiplicativi anziché additivi. Per ovvi motivi di brevità non discuteremo gli innumerevoli casi particolari della struttura formale sopra descritta. 4. Evidenza, inferenze, decisioni Sia dato un modello statistico, cioè il modello matematico di un esperimento. Eseguito l’esperimento stesso, si sia osservato il particolare risultato x. Il modo di elaborare il risultato x dipende ovviamente dagli scopi fondamentali dello studio. Sotto questo profilo è opportuno distinguere i seguenti potenziali obiettivi: 6 a) valutazione dell’evidenza sperimentale a favore di determinate ipotesi; b) formulazione di inferenze relative a determinate ipotesi (inferenze strutturali) o a risultati futuri (inferenze predittive); c) scelta di una decisione entro un insieme predefinito, sapendo che l’effetto corrispondente dipende dalla validità o meno di determinate ipotesi. Non tutte le impostazioni logiche della teoria statistica sono abbastanza ampie ed elastiche da consentire queste distinzioni, che appaiono invece del tutto opportune se si guarda ai problemi da un punto di vista applicativo. In particolare questa differenziazione di obiettivi è del tutto naturale in un quadro “bayesiano” mentre risulta spesso problematica in un quadro “frequentista”, che vincola molto di più il modo di organizzare concettualmente i problemi. Procederemo comunque sulla base di esempi, riservando qualche considerazione di natura più teorica alle sezioni finali. 5. L’esempio dei test diagnostici In questa sezione riprenderemo, con pochi adattamenti, una illuminante esemplificazione introdotta da Royall (1997). Il signor Rossi si sottopone ad un test diagnostico per una determinata malattia M. Il test ha le caratteristiche illustrate nella Tabella 5.1; con una terminologia standard si dice che il test ha sensibilità 0.95 (= probabilità di T+ per i malati) e specificità 0.98 (= probabilità di T- per i sani). Malattia presente (M) Malattia assente (NM) Test positivo (T+) 0.95 0.02 Test negativo (T-) 0.05 0.98 Totale 1.00 1.00 TABELLA 5.1 - Probabilità di risultati positivi o negativi al test, per individui malati e non Supponiamo che il test, applicato al signor Rossi, sia risultato positivo. Prendiamo in esame 3 delle possibili conclusioni che se ne possono trarre, per valutarne validità assoluta e compatibilità relativa: 7 A) c’è una evidenza sperimentale a favore del fatto che il signor Rossi sia affetto dalla malattia M; B) il signor Rossi probabilmente non è affetto dalla malattia M; C) il signor Rossi dovrebbe essere curato per la malattia M. Malgrado ad una prima impressione queste conclusioni appaiano in contrasto tra loro, verificheremo facilmente che sono invece compatibili; il punto importante è che si collegano ad aspetti diversi della situazione e quindi “risolvono” problemi distinti. Il commento (A) rappresenta semplicemente e direttamente il risultato dell’esperimento: avendo ottenuto il risultato T+, le cosiddette verosimiglianze (5.1) (M) = prob(T+|M) = 0.95, (NM) = prob(T+|NM) = 0.02 favoriscono largamente l’ipotesi che il signor Rossi sia malato. L’evidenza relativa (di M rispetto a NM) è misurata dal rapporto delle verosimiglianze (o fattore di Bayes) B( M , NM ) (5.2) (M ) 47.5 . ( NM ) Questa è un’importante misura della evidenza dell’ipotesi M rispetto all’ipotesi NM. Il valore B(M, NM)=1 corrisponde al caso di eguale evidenza per le 2 ipotesi a confronto. Si noti che nessuna valutazione o informazione estranea all’esperimento viene coinvolta, a parte naturalmente l’implicita assunzione che il modello statistico presentato nella tabella 5.1 sia corretto, e applicabile al signor Rossi. Il commento (B) richiede invece una informazione che l’esperimento eseguito (il test) per definizione) non fornisce: la probabilità “a priori” (che chiameremo e che è basata su tutte le informazioni disponibili, escluso il risultato sperimentale) che il signor Rossi abbia la malattia M. Infatti, denotando con ' la probabilità che il signor Rossi abbia la malattia, tenendo conto sia delle informazioni pre-sperimentali (incorporate in ), sia delle informazioni sperimentali (incorporate nei due valori della formula 5.1) risulta, per il celebre teorema di Bayes (5.3) (M ) 0.95 . ( M ) (1 ) ( NM ) 0.02 0.93 Se M è una malattia poco comune, per esempio se =0.001, si ottiene ' = 0.045. Pertanto, anche se il risultato del test ha fatto molto crescere la probabilità di M (da 0.001 a 0.045), resta ancora complessivamente improbabile, pur tenendo conto della positività del test, che il signor Rossi sia affetto da M. Naturalmente la conclusione 8 cambia se non è così piccolo; se si ha = 0.10, si ottiene ' = 0.84 e quindi una situazione che rende falsa la conclusione (B). In sintesi: la conclusione (A) è sicuramente valida, e la conclusione (B) lo può essere, a seconda del valore di . Una formulazione alternativa ma equivalente del teorema di Bayes è: (5.4) B( M , NM ) 1 1 che si esprime dicendo che le odds finali si ottengono moltiplicando le odds iniziali per il fattore di Bayes. Questa formula è importante perché mette in luce il ruolo della misura di evidenza introdotta con la formula (5.2) nel calcolo della probabilità dell’ipotesi in esame, e quindi nel processo di inferenza. La specificazione della probabilità (più o meno approssimata) è dunque importante; se del signor Rossi non si sa nulla, una scelta di buon senso è di considerare la generica prevalenza della malattia; in tal caso la formula (5.3) viene a coincidere con la classica formula del cosiddetto valore predittivo del test. Se invece del signor Rossi sono note caratteristiche correlate con l’avere o meno la malattia (per es. sesso, età, altri sintomi,…) la prevalenza dovrà essere corretta e adattata al caso individuale in questione. C’è quindi da attendersi una rilevante presenza di valutazioni individuali, cioè riferite allo specifico soggetto, come condizione necessaria per poter effettuare una completa inferenza probabilistica come quella implicita nella conclusione (B). E’ spesso utile considerare che, in pratica, può essere sufficiente anche una specificazione di non molto precisa. Se ci accontentiamo di sapere se per il signor Rossi è più probabile avere la malattia o non averla, basta prendere in esame la condizione '>0.5 ed osservare che, sviluppando la formula (5.3), la condizione stessa corrisponde a >0.02. Evidentemente è molto più semplice valutare l’adeguatezza della assunzione >0.02 che non specificare esattamente . La conclusione (C) presuppone ulteriori considerazioni. Non solo quale sia il valore di ' (e quindi, inizialmente, di ), ma anche quali siano le conseguenze del non seguire la terapia adeguata alla malattia M avendo o non avendo la malattia stessa, ed anche (per confronto) le conseguenze del seguire la terapia, sempre distinguendo tra le situazioni M e NM. Quindi anche la conclusione (C), come la conclusione (B), può risultare valida o non valida a seconda di come siano precisati, anche numericamente (ed eventualmente in modo approssimato) tali ulteriori elementi. 9 Riepilogando, i tre obiettivi: (a) valutare l’evidenza sperimentale; (b) effettuare una inferenza probabilistica; (c) decidere un comportamento sono distinti ma tra loro collegati, in quanto (b) tiene conto di (a) più altri elementi, e (c) tiene conto di (b) più altri elementi. Mentre nella classica impostazione frequentista (scuola di Neyman e Pearson) questi obiettivi, in particolare (a) e (b), sono tra loro fusi, e per di più trattati nell’ottica di un problema di tipo (c), nella impostazione bayesiana (non solo nella impostazione bayesiana, in verità, ma anche nelle impostazioni cosiddette neo-fisheriane) si tratta di obiettivi distintamente formalizzabili. Il metodo bayesiano presuppone che vi sia sempre la possibilità di assegnare una probabilità ad eventi incerti, qualunque sia la natura dell’evento e della incertezza. E’ per questo che si può affrontare l’obiettivo (b) nel modo detto, cioè avendo come riferimento principale la formula 5.3. Ciò è sicuramente possibile qualora si adotti per la probabilità una concezione soggettivista, mentre è possibile solo in casi particolari se si adotta una concezione frequentista della probabilità. In base a quest’ultima, infatti, sono probabilizzabili solo eventi per i quali abbia senso pensare ad una frequenza di accadimenti in una ipotetica ed infinita sequenza di prove ripetute, ed anche in tal caso non è garantito che si disponga di informazioni “oggettive” sufficientemente ampie da poter effettuare tali valutazioni. Nell’esempio, è molto difficile che la specificazione della probabilità a priori possa essere ricondotta ad un calcolo, sia pure ipotetico, di frequenze. Nella impostazione bayesiana, pertanto, tutti i 3 problemi (a), (b) e (c) sono formulabili e risolubili; questo si “paga”, però, con la richiesta di un input informativo più ricco e dipendente dal contesto. La valutazione della evidenza sperimentale effettuata tramite i valori delle verosimiglianze non necessita invece, normalmente, di probabilità assegnate in modo soggettivo (a parte quelle che figurano nel modello matematico dell’esperimento, che però sono un costituente di tutte le impostazioni della inferenza probabilistica). Qualunque impostazione che non ammetta l’uso di probabilità soggettive è costretta, salvo casi particolari, a trovare formulazioni diverse per i problemi (b) e (c). 10 6. Analisi dell’evidenza mediante la funzione di verosimiglianza L’esempio del test diagnostico è un caso di modello statistico particolarmente semplice. Sia lo spazio delle ipotesi che lo spazio dei risultati contengono 2 soli punti, in quanto è ={M, NM}, ={T+, T-} e le probabilità coinvolte sono tutte e sole quelle che compaiono nella tabella 5.1. Si è osservato che, ottenuto il risultato T+, l’evidenza a favore delle ipotesi va misurata tramite i valori (M) e (NM), chiamati verosimiglianze. Quindi possiamo chiamare (), interpretata come una funzione definita su , funzione di verosimiglianza. Nel caso in questione il rapporto B(M,NM)=(M)/(NM) rappresenta perfettamente l’intera funzione di verosimiglianza, essendo soltanto 2 le ipotesi confrontabili. In molti altri casi è costituito da infiniti elementi ed un solo rapporto non basta a rappresentare la funzione stessa. Torniamo all’esempio della sezione 1. Ivi il parametro incognito può assumere tutti i valori tra 0 e 1, mentre i risultati possibili sono tutti gli interi tra 0 e 10. Quindi possiamo scrivere: = [0, 1], = {0,1,2,3,4,5,6,7,8,9,10} . Le probabilità sono espresse poi, come visto, dalla formula (2.1). Poiché il risultato osservato è x=8, la funzione di verosimiglianza corrispondente risulta (6.1) 8 2 8 2 ( ) 10 8 (1 ) 45 (1 ) . FIGURA 6.1 - Funzione di verosimiglianza binomiale per il caso di 8 successi su 10 prove 11 Il corrispondente grafico compare nella figura 6.1. I valori numerici di corrispondenti ai prescelti valori di figurano nella Tabella 2.1 come riga individuata da x = 8. La costante moltiplicativa 45 è in realtà inutile e spesso viene omessa; sono infatti importanti i rapporti e non i valori assoluti delle verosimiglianze. Il più semplice metodo di standardizzazione richiede di determinare il punto di massima verosimiglianza (qui ˆ =0.8) e di calcolare la funzione di verosimiglianza relativa, cioè: ( ) 1 ( ) . (ˆ) 0.8 0.2 8 (6.2) 2 Il grafico corrispondente compare nella figura 6.2 come curva continua. FIGURA 6.2 - Verosimiglianze binomiali relative per i casi di 8 successi su 10 prove (linea continua) e di 16 successi su 20 prove (linea a tratti) L’interpretazione logica della verosimiglianza relativa è chiara: se per un certo il valore () è piccolo, cioè è molto meno verosimile di ˆ , vuol dire che i risultati effettivamente ottenuti si osservano molto più facilmente quando è vero ˆ rispetto a quando è vero . Otteniamo in questo modo sia un ordinamento in termini di evidenza (1 precede 2 se (1 ) ( 2 ) ), sia, per ogni , una misura numerica di evidenza ( ( ) ) direttamente interpretabile come un rapporto di verosimiglianza. Tale misura ha 1 come valore massimo. Supponiamo di avere ottenuto, invece di 8 successi su 10 prove, 16 successi su 20 prove. Si noti che il risultato è in un certo senso simile, ma ottenuto su più prove. La nuova funzione di verosimiglianza relativa si trova dalla formula (2.2) ponendo n=20, x=16 e dividendo per la verosimiglianza massima (0.8). Otteniamo la funzione: 12 1 ( ) . 0.8 0.2 16 (6.3) 4 La funzione (6.3) compare nella figura 6.2 come linea a tratti, per essere confrontata con la funzione (6.2); si osservi che senza standardizzazione il confronto fra le due funzioni sarebbe stato molto difficile da interpretare. Come si vede le due funzioni hanno lo stesso punto di massimo ma quella che corrisponde all’esperimento più numeroso è più concentrata; intuitivamente questo significa che per molti più valori si può dire che l’evidenza è molto bassa. In definitiva la concentrazione della funzione di verosimiglianza è la rappresentazione geometrica della forza dell’evidenza. Ad esempio è chiaro e ragionevole che in entrambi i casi il valore =0.8 abbia verosimiglianza massima (e quindi la verosimiglianza relativa vale 1), ma il valore =0.5 ha verosimiglianza relativa 0.15 nel caso di 10 prove e soltanto 0.02 nel caso di 20 prove. In pratica l’ipotesi =0.5 riceve un certo “supporto sperimentale” nel primo caso mentre esce drasticamente indebolita dall’esperimento più ampio. Una semplice osservazione sulla figura 6.2 è che, pur partendo da un modello binomiale, l’andamento della funzione di verosimiglianza è simile a quello di una curva normale, soprattutto intorno al valore ˆ e se si tratta di un esperimento con molte repliche. Questo fatto è sostanzialmente generale e potrebbe essere dimostrato matematicamente; se ne ricava la possibilità di ricorrere a semplici metodi approssimati. 7. Il fattore di Bayes La funzione di verosimiglianza fornisce misure di evidenza di tipo relativo, cioè di una qualunque ipotesi 1 rispetto ad una qualunque altra ipotesi 2, per esempio l’ipotesi che ha verosimiglianza massima. La formula B(1 , 2 ) (7.1) (1 ) (1 ) ( 2 ) ( 2 ) è del tutto analoga, logicamente, alla formula (5.2) e rappresenta il fattore di Bayes per 1 rispetto a 2. Si presenta più complesso il caso in cui le ipotesi non siano semplici (e quindi corrispondenti ad un solo valore del parametro incognito) ma composte (cioè corrispon- 13 denti a insiemi di valori del parametro incognito). Vogliamo cioè affrontare il problema di definire una quantità B(1,2), dove 1 e 2 sono insiemi di valori parametrici, in modo tale da avere una estensione coerente della precedente formula (7.1). Consideriamo per esempio, con riferimento alla prova del sonnifero, le due ipotesi H0: 0.5 e H1: 0.5. Il loro significato concreto è evidente: H0 significa che il sonnifero A è tendenzialmente preferibile a B e, viceversa, H1 significa che il sonnifero B è tendenzialmente preferibile ad A (abbiamo incluso l’eguaglianza nel primo caso solo per non lasciare lacune, ma è un particolare poco rilevante in pratica; le due ipotesi non specificano la misura precisa della preferenza per A). L’uso della sola funzione di verosimiglianza non consente di arrivare a ragionevoli misure di evidenza per ipotesi composte. Spesso si utilizzano quelle rappresentate dal rapporto dei valori massimi della funzione di verosimiglianza nei due insiemi considerati; è tuttavia intuitivo che in questo modo, riducendo ogni ipotesi composta alla ipotesi semplice più verosimile, si perde molta informazione. Una soluzione operativa per vari aspetti preferibile è invece acquisibile se si fa ricorso alla impostazione bayesiana. Osserviamo che la formula (7.1) può scriversi come (7.2) B(1 , 2 ) prob(dati | 1 ) , prob(dati | 2 ) dove si intende che nel caso continuo si useranno le densità di probabilità al posto delle probabilità. E’ quindi naturale considerare una estensione del tipo (7.3) B(1 , 2 ) prob(dati | 1 ) . prob(dati | 2 ) Nella formula (7.3) si richiede quindi di utilizzare la legge di probabilità dei dati condizionata a 1 e 2, cioè a insiemi di valori del parametro e non a valori singoli. Va qui ricordato che nella impostazione bayesiana il parametro è trattato come aleatorio e con una propria legge di probabilità; per questo verrà indicato con la lettera maiuscola . In queste condizioni sia =i che i (i=1,2) sono “eventi” di cui si può calcolare la probabilità, e la formula (7.3) diventa a sua volta facilmente calcolabile, esattamente come la formula (7.2) (che non richiede invece l’introduzione di probabilità iniziali). Va avvertito che le considerazioni che seguono (fino alla fine della sezione 7) sono un po’ più impegnative del resto; in prima lettura ci si può fermare qui, ricordando 14 solo che la impostazione bayesiana fornisce un modo naturale per valutare l’evidenza relativa anche di ipotesi composte, ma che la sua applicazione non è di solito banale. Nella procedura sopra delineata la utilizzazione della legge “iniziale” per il parametro aleatorio è solo parziale. Infatti, invece di fissare una legge complessiva si può (ed è equivalente) procedere come segue: (a) fissare le probabilità 1 e 2 di 1 e 2; (b) fissare le densità g() e h() di condizionate a 1 e a 2. E’ possibile dimostrare (e naturalmente non è questo il luogo) che la formula (7.3) può allora essere scritta come (7.4) B(1 , 2 ) g ( ) ( )d . h( ) ( )d 1 2 Si noti che, in questo modo, il fattore di Bayes risulta essere indipendente dalle probabilità iniziali delle ipotesi (composte) messe a confronto, cioè da 1 e 2, anche se dipende da come la probabilità iniziale è ripartita all’interno delle ipotesi stesse. Si può anche dimostrare che vale una formula analoga alla (5.4), che spiega come anche in questo caso più generale il fattore di Bayes sia il coefficiente che si deve moltiplicare per il rapporto delle probabilità iniziali per ottenere il corrispondente rapporto delle probabilità finali. Si ha cioè: (7.5) 1 B(1 , 2 ) 1 1 1 1 1 FIGURA 7.1 - Densità del parametro condizionate alle ipotesi dove 1 è la probabilità finale di 1. 15 Nell’esempio dei sonniferi (8 successi di A su 10 prove) possiamo confrontare le già citate ipotesi 0.5 e 0.5. Utilizziamo la formula (7.4) assumendo che le densità g() e h() siano costanti negli insiemi considerati (quindi di valore 2 sui rispettivi insiemi di definizione). Con un semplice calcolo numerico (serve però un computer, o tavole specializzate) si ottiene B=0.03. Questa conclusione privilegia molto l’ipotesi 0.5, come del resto è chiaro dal risultato sperimentale. E’ possibile che una ripartizione uniforme sulle ipotesi composte a confronto dia troppo peso ai valori estremi di (vicini a 0 o a 1). Possiamo ripetere il calcolo con densità lineari (rispettivamente crescente e decrescente); si deve porre allora g() = 8 e h() = 8(1-) (vedi figura 7.1, dove g() è rappresentata dalla linea continua e h() dalla linea a tratti). Ne viene B=0.06, che è un valore diverso dal precedente ma ancora piuttosto piccolo. Un caso particolare interessante si ha quando si confronta un’ipotesi semplice =0 con l’ipotesi composta complementare, cioè 0. Allora la legge di probabilità iniziale va scomposta in una massa di probabilità assegnata al singolo punto 0 (diciamo 0) e in una densità g() su tutti gli altri punti, che corrisponde alla legge del parametro aleatorio condizionata a 0. La formula (7.4) diventa (7.6) B( 0 , 0 ) ( 0 ) g ( ) ( )d (è inutile escludere 0 dal campo di integrazione perché un singolo punto non contribuisce all’integrale). Se, nell’esempio dei sonniferi, si prende g()=1 per 01 (cioè costante su , escludendo a rigore il valore =0.5) si trova B(0.5,-0.5) = 0.48. La scelta di g(), naturalmente, influenza il valore del fattore di Bayes. Riflettendo sulla formula (7.6) si può vedere che il valore minimo di B coincide con la verosimiglianza relativa di 0, cioè con ( 0 ) . In altri termini ( 0 ) è il più piccolo valore del fattore di Bayes B( 0 , 0 ) ottenibile con tutte le possibili scelte della densità g(). Questa considerazione mette in luce un interessante ulteriore legame tra le misure di evidenza basate esclusivamente sulla funzione di verosimiglianza e quelle ottenute elaborando in un quadro bayesiano la stessa funzione di verosimiglianza. 16 8. Il valore-p Il cosiddetto valore-p (o livello di significatività osservato), che indicheremo nel seguito con Poss, è tra le più note misure di evidenza riferite ad una ipotesi semplice, che scriveremo al solito come H0: 0 (dove naturalmente 0 è uno specifico valore del parametro incognito). Una volta ottenuto il risultato sperimentale xoss, il valore-p, per definizione, è la probabilità (calcolata condizionatamente all’ipotesi H0) di osservare un risultato che sia altrettanto o più estremo di xoss. Qui con “estremo” si intende “lontano da quanto ci si aspetta in base ad H0”. In pratica, sulla base di xoss, si deve individuare l’insieme oss dei risultati da considerare almeno lontani da H0 quanto xoss. Di solito è disponibile una statistica t tale che il suo maggior valore definisce la maggiore lontananza da H0 di un risultato campionario. Nell’esempio della sezione 1 si è ottenuto il risultato x=8. Se l’ipotesi nulla è =0.5, essendosi effettuate n=10 prove, il risultato più “vicino” a H0 è x=5, mentre i valori “lontani” sono quelli prossimi a 0 oppure a 10. Se come statistica di riferimento prendiamo t=|f-0.5|, dove f è la frequenza relativa osservata (qui 0.8), si ha t=0.3 per cui l’insieme oss risulta {0,1,2,8,9,10}. E’ facile verificare che si ha in questo caso Poss = prob( oss|H0) = 0.11. L’uso pratico dei valori-p è ben noto: se Poss è piccolo si ha un indizio contro la validità di Ho; se infatti H0 è vera ci si debbono aspettare risultati vicini a x=5, e a questi corrisponde appunto un valore-p elevato. E’ importante sottolineare che Poss non è la probabilità di H0, ma la probabilità (sotto la condizione H0) che si realizzi un certo risultato, collegato ma non coincidente con quello effettivamente osservato. In generale si può comunque interpretare Poss, che è una statistica in quanto funzione del risultato osservato, come una misura diretta della evidenza a favore di H0. Convenzionalmente, Poss = 0.11 è un valore troppo alto per costituire un serio elemento contro H0 e il giudizio sulla validità o meno di tale ipotesi resta sospeso1. Da un punto di vista qualitativo, la conclusione cui siamo giunti non è troppo diversa da Nella variante della scuola “americana” di Neyman e Pearson il giudizio non è mai sospeso, ma si accetta H0 o l’ipotesi complementare, secondo una procedura caratterizzata dai cosiddetti errori di I e II specie (rifiutare un’ipotesi quando è falsa e accettarla quando è vera). Questa impostazione evita la problematica della misura della evidenza, cui sostituisce un atteggiamento di tipo decisionale. In pratica, però, la regola di decisione si impernia sempre sul valore P oss. 1 17 quella ottenuta elaborando la funzione di verosimiglianza. In quel caso si era ottenuto (0.5) 0.15 , un valore perfino numericamente simile. Tuttavia valori-p e verosimiglianze sono misure concettualmente molto diverse dell’evidenza, sia (almeno qualche volta) dal punto di vista numerico, sia (sempre) dal punto di vista logico (ma su questo ultimo aspetto si tornerà nella sezione successiva). In particolare, situazioni che presentano valori-p molto simili possono presentare valori molto diversi delle verosimiglianze. Consideriamo un semplice esempio. In uno schema binomiale, come quello dei sonniferi, si siano effettuate 1000 prove ottenendo 526 successi; con qualche calcolo si vede che si ha ancora Poss=0.11, ma che la verosimiglianza relativa di H0 è diventata 0.26. Usando la verosimiglianza relativa, dunque, l’ipotesi =0.5 riceve molto più supporto sperimentale nel caso di 526 successi su 1000 prove che in quello di 8 successi su 10 prove. Non è evidente, dall’esempio, quale dei criteri sia eventualmente fuorviante, ma è chiaro che si tratta di criteri anche operativamente diversi. Freeman (nel numero speciale di Statistics in Medicine citato nella nota bibliografica), sviluppando un esempio di questo tipo, sostiene esplicitamente la palese inadeguatezza del valore-p. FIGURA 8.1 - Distribuzioni di probabilità per le medie campionarie, nelle due ipotesi, per il caso n=5 L’esempio che segue è però più chiarificatore. Per comodità di calcolo e di rappresentazione grafica faremo ora riferimento ad un modello normale. Assumiamo quindi di avere n misurazioni ottenute o secondo una legge normale di media 0 e varianza 1 (ipotesi H0) o secondo una legge normale di media 1 e varianza 1 (ipotesi H1). Il parametro incognito è quindi la media della legge normale considerata, e ={0,1}. 18 Questo schema è sicuramente troppo semplice per gran parte delle situazioni pratiche, ma è sufficiente a mettere bene in luce aspetti che l’esempio precedente lascia solo intravvedere. Come è noto ed intuitivo, in queste condizioni possiamo ragionare direttamente sulla statistica “media campionaria”; in quanto variabile aleatoria useremo il simbolo X . Assumiamo poi che il valore effettivamente osservato sia X 0.5 . Le figure 8.1 e 8.2 rappresentano la situazione, con riferimento ai due casi n=5 e n=20. FIGURA 8.2 - Distribuzioni di probabilità per la media campionaria, nelle due ipotesi nel caso n=20 Come è chiaro dalle figure, le densità di X secondo le ipotesi H0 e H1 nel punto 0.5 sono eguali, per cui il rapporto delle verosimiglianze, (0) / (1) , o se si preferisce il fattore di Bayes B(0,1), vale esattamente 1. Questo significa che, nell’ottica della funzione di verosimiglianza, qualunque sia n, il risultato X 0.5 assicura una piena parità di supporto alle due ipotesi concorrenti H0 e H1. Tale conclusione appare in pieno accordo con l’intuizione. Ciò non accade, invece, con il valore-p. Se indichiamo con (x) la funzione di ripartizione della legge normale standardizzata, è facile vedere che per la situazione considerata si ha Poss = 1 n / 2 . La figura 8.3 dà un’idea della relazione esistente tra n e Poss (ovviamente nel caso di una media campionaria pari a 0.5). Nei casi sopra considerati si ottiene Poss=0.13 se n=5 e Poss=0.01 se n=20. Rispetto al convenzionale 19 livello di confronto del 5%, per n=5 si ha una deviazione “non significativa” da Ho, mentre per n=20 la deviazione risulta invece significativa. Va naturalmente osservato che di per sé, il valore-p non è una misura progettata per confrontare ipotesi diverse, ma per valutare in assoluto l’evidenza sperimentale a favore di una determinata ipotesi. Ma a parte le obiezioni che si potrebbero portare a questa interpretazione in un certo senso più limitata del valore-p, sicuramente il suo impiego corrente è proprio quello di misura di evidenza dell’ipotesi nulla e resta quindi la conclusione paradossale di valutazioni tanto contrastanti in una situazione che è in realtà di perfetta simmetria fra le due ipotesi possibili, alla luce del risultato. FIGURA 8.3 - Valore-p in funzione della numerosità n del campione quando le ipotesi distributive sono N(0,1) e N(1,1) e la media campionaria è 0.5 Apparentemente, il metodo del valore-p sembra non accorgersi di tale simmetria; ma questa stessa simmetria viene recuperata, un po’ tortuosamente, se si ripete l’analisi invertendo il ruolo delle ipotesi, cioè calcolando il valore-p con riferimento ad H1 invece che ad H0. Le conclusioni (“rifiuto” di H se n=20 e “non rifiuto” se n=5) valgono infatti considerando come ipotesi nulla, indifferentemente, Ho oppure H1. 9. Approfondimento su alcuni aspetti logici La questione centrale per il confronto fra valori-p e tutti i metodi derivanti da elaborazioni sulle funzioni di verosimiglianza è che i valori-p sono ottenuti tramite operazioni (somme e integrali) sullo spazio dei risultati (lo spazio ) , mentre i metodi basati sulla funzione di verosimiglianza operano sullo spazio dei valori dei parametri (lo spazio ). Nel primo caso si ragiona cioè sempre sui risultati a priori possibili, condizionatamente alle ipotesi, mentre nel secondo caso si ragiona sulle ipotesi condizionatamente al 20 risultato effettivamente osservato. Questo aspetto mette in luce il fatto che il valore-p viola il cosiddetto “Principio della verosimiglianza”. Senza voler andare a fondo in una questione piuttosto complessa, osserviamo che, a priori, sono incogniti sia la vera ipotesi che il risultato sperimentale x. Effettuato l’esperimento, il risultato diventa noto (diciamo xoss), mentre il parametro resta incognito. Il principio logico della verosimiglianza (formalmente introdotto nel 1962 da A. Birnbaum ma in qualche modo già rintracciabile in molte argomentazioni di R. A. Fisher) asserisce che l’evidenza prodotta dalla realizzazione dell’esperimento dipende esclusivamente dalla funzione di verosimiglianza che, con una certa approssimazione nella notazione, possiamo scrivere () = prob(xoss|). Di conseguenza la probabilità di verificarsi dei risultati che non si sono verificati non dovrebbe avere alcun peso. E’ chiaro invece che quando si somma (o integra) sullo spazio vengono coinvolti anche i valori xxoss, e cioè si contravviene al citato principio. Per esempio, se guardiamo la Tabella 2.1 che è collegata all’esempio dei sonniferi, rispettare il Principio della verosimiglianza significa che l’osservazione del risultato x = 8, implica che la riga corrispondente è l’unica parte della tabella a dover essere presa in considerazione. Quando invece si calcola un valore-p, con riferimento ad una determinata ipotesi , si ragiona solo sulla corrispondente colonna. Si osservi infatti che nel calcolo di Poss si sono sommate le probabilità su tutto l’insieme oss= {0,1,2,8,9,10}, mentre di questi punti solo x=8 è il risultato effettivo, e tutti gli altri valori non sono stati osservati. Paradossalmente, il valore-p si modifica anche se si scambiano tra loro le probabilità di due valori non osservati. Molti Autori, condividendo il principio della verosimiglianza, trovano assurdo che l’evidenza a favore di una determinata ipotesi sia valutata diversamente a seconda di come si ripartisca la probabilità (assumendo vera quell’ipotesi) sull’insieme dei valori non osservati. Va osservato qui che, almeno nella concezione di R. A. Fisher, i valori-p vanno utilizzati quando è definita una ipotesi nulla ma non le alternative, o almeno non in modo preciso. Infatti, se si riflette sulla procedura, il valore-p associato all’ipotesi H0: 0 richiede solo l’uso della legge di probabilità P 0 (simbologia della sezione 3), non le leggi P con 0. Pertanto il metodo del valore-p è applicabile anche quando il modello matematico dell’esperimento non è completamente formulato. Lo stesso Fisher 21 (vedi in particolare Fisher 1973) fu ben chiaro nel raccomandare l’uso della funzione di verosimiglianza nei casi in cui è esplicitato l’intero sistema delle alternative. La sostituzione di valori “come e più estremi” rispetto a quelli effettivamente osservati comporta di per sé la tendenza a fornire valori numerici di evidenza più bassi del dovuto. Infatti “osservare xoss” è qualcosa che non sfavorisce l’ipotesi nulla tanto quanto “osservare un risultato o come o più estremo di xoss”. Un esempio classico è il seguente. Facciamo riferimento a campioni casuali nel quadro del modello normale con media incognita e varianza nota 2; in queste condizioni, se l’ipotesi nulla è H0: 0, e l’alternativa è generale (), si calcola usualmente la statistica z | x 0 | / n dove x è la media aritmetica del campione. Calcoliamo ora, in corrispondenza dei tradizionali valori critici di z, anche ( 0 ) (che coincide con il minimo fattore di Bayes B(0,1) al variare della densità g() nella classe di tutte le funzioni di densità) e BN, che è il minimo fattore di Bayes al variare della medesima densità nella classe di tutte le densità normali con media 0. I risultati compaiono nella tabella 9.1 ( 0 ) z valore-p BN 1.645 0.100 0.258 0.701 1.960 0.050 0.147 0.473 2.576 0.010 0.036 0.152 3.291 0.001 0.004 0.024 TABELLA 9.1 - Valori-p, verosimiglianze relative e fattori di Bayes minimi in corrispondenza ad alcuni risultati possibili Si noterà che i valori-p sono molto più piccoli delle altre misure di evidenza. L’interpretazione non è semplice, perché la scala di riferimento implicita non è la stessa. Ma il risultato z = 1.96, che è un valore tradizionale per “respingere” l’ipotesi H0: =0 al livello 5%, corrisponde ad una verosimiglianza relativa non piccola (0.147) e ad un 22 fattore di Bayes minimo addirittura grande (0.473). Va anche considerato che il calcolo del minimo fattore di Bayes riduce di molto l’arbitrarietà nella scelta della densità g( ) (vedi sezione 7). Se d’altra parte i valori-p fossero semplicemente più grandi per un fattore costante basterebbe modificare i valori di riferimento (ad esempio: respingere l’ipotesi nulla solo al livello 1% o a livelli più severi) e l’adozione del metodo non presenterebbe problemi. In realtà i legami tra le diverse misure sono complessi e - se si considerano ragionevoli e naturali le misure basate sulla funzione di verosimiglianza - la considerazione dei valori-p può essere in vario modo fuorviante. Un’altra prospettiva per esaminare la stessa situazione consiste nel prendere in considerazione un particolare risultato campionario (fissando quindi i valori di x , n, ) e confrontare i valori di ( ) (verosimiglianza relativa di ), Poss() (valore-p corri- spondente al caso in cui è il valore indicato dall’ipotesi nulla) e BN() (minimo fattore di Bayes come nella Tabella 9.1, si intende ai fini del confronto di con l’insieme delle altre ipotesi possibili). Il confronto relativo al caso x 0, n 10, 1 compare nella Figura 9.11 FIGURA 9.1 - Funzioni ( ) (linea continua), Poss() (linea a tratti brevi) e BN() (linea a tratti lunghi) nel caso di un campione di 10 elementi e con media 0 da una distribuzione normale con varianza unitaria. 1 Le formule sono altrimenti. exp(z 2 / 2), Poss ( ) 2(1 ( z)), 23 BN ( ) z e exp( z 2 / 2) se z>1 e 1 Un ulteriore ed importante elemento “oggettivo” di contrasto tra le misure di evidenza di tipo frequentista e quelle di tipo condizionato è dato dal diverso ruolo da esse assegnato al disegno dell’esperimento. Un esempio di grande rilievo nella medicina clinica è quello basato sulle prove sequenziali. Consideriamo una sequenza di n=5 prove ripetute che abbia dato, uno dopo l’altro, s=4 successi e 1 insuccesso. Se consideriamo il valore n come prefissato, siamo nel classico schema binomiale. Facendo riferimento all’ipotesi nulla H0 che la probabilità di successo sia =0.5, nell’ambito di uno spazio dei parametri : 0.51, i risultati egualmente o più sfavorevoli all’ipotesi nulla sono soltanto 2: quelli con s=4 e con s=5, cioè quelli con un numero di successi eguale o superiore. Pertanto il corrispondente valore-p è B Poss 54 4 (1 ) 5 0.187 Se invece assumiamo che lo stesso risultato (4 successi e 1 insuccesso) sia stato ottenuto nell’ambito di una prova sequenziale caratterizzata dalla regola “ci si ferma dopo il primo insuccesso”, i risultati a priori possibili (scrivendo l’intera sequenza dei risultati elementari, 1 per successo e 0 per insuccesso) sono: (0), (1,0), (1,1,0),....(1,1,...,1,0),... e quelli egualmente o più sfavorevoli di quello osservato, che è (1,1,1,1,0), sempre con riferimento all’ipotesi nulla e allo stesso spazio dei parametri, sono: (1,1,1,1,0), (1,1,1,1,1,0), ...,(1,1,...,1,0),.... in quanto il numero dei successi è superiore o eguale a quello osservato. E’ facile S 0.062. calcolare la corrispondente probabilità1 Poss I due valori-p calcolati secondo lo schema binomiale e secondo lo schema sequenziale, sono tra loro molto diversi. Ciò dipende dal fatto che le probabilità calcolate si riferiscono anche ad osservazioni potenziali ma non reali. Il fatto che il 1Per evitare una somma infinita, basta osservare che i risultati più favorevoli sono (0), (1,0), (1,1,0), 15 (1,1,1,0) e che loro probabilità complessiva, sotto H 0, è Q= 12 12 13 14 16 . Il complemento a 1 è il 2 valore di 0.062 indicato nel testo. 24 2 2 risultato osservato sia lo stesso, e che sia stato ottenuto con le stesse operazioni fisiche, non garantisce quindi affatto, nei due schemi, che anche il valore-p sia lo stesso. La verosimiglianza relativa di è in entrambi i casi ( ) 0.8 0.2 4 ed in particolare è (0.5) 0.381. Dunque, usando come misura di evidenza la verosimiglianza qui non importa quale sia il disegno dell’esperimento (tra i due considerati); usando i valori-p si ha invece una sostanziale diversità di conclusioni. Vi sono scuole di pensiero che considerano legittima tale influenza del disegno, ed altre che la considerano illegittima in quanto con quel risultato - i due disegni hanno prodotto la stessa funzione di verosimiglianza. Senza pretendere di voler dire l’ultima parola su una questione così controversa, ci limitiamo a sottolineare che in questa differenziazione (a nostro avviso la più importante nell’ambito della teoria statistica) non hanno alcun ruolo le probabilità a priori, e le discussioni circa la loro ammissibilità nella elaborazione scientifica. 10. Il dibattito soggettivo/oggettivo Il dibattito soggettivo/oggettivo investe molti aspetti della teoria dell’inferenza statistica e quindi, inevitabilmente, anche della tematica della evidenza. Un punto fondamentale, a monte della questione e forse largamente noto, si connette alla concezione di “probabilità”. Sia pure con diverse varianti, le impostazioni principali sono due: quella oggettivista e quella soggettivista. La prima (oggettivista) vede la probabilità come un aspetto “fisico” di un sistema reale. L’aleatorietà sarebbe quindi un aspetto intrinseco dei fenomeni. Ad esempio la probabilità di Testa nel lancio di una moneta è una conseguenza, non perfettamente nota, di aspetti concreti (tecnica di lancio, simmetria e bilanciamento della moneta, turbolenza dell’aria,...). Una stima si può avere se effettuiamo diversi lanci, e la stima stessa sarebbe sicuramente perfetta solo se potessimo eseguire infinite prove. La probabilità viene infatti qui definita come “limite” delle frequenze osservabili (tendendo all’infinito il numero delle prove), ed ha un ruolo del tutto simile a quello del valore incognito (per esempio una lunghezza) che vogliamo misurare in presenza di errori accidentali. La sensibilità = prob(T+| M) nell’esempio del test diagnostico 25 (sezione 5) rappresenta una applicazione dello stesso concetto. Resta sottointeso che a quella sensibilità si può assegnare il valore 0.95 proprio in quanto sono stati sottoposti a prova numerosissimi (anche se non infiniti) individui omogenei colpiti dalla malattia in questione; di fatto, nel quadro di questa impostazione, 0.95 è solo una stima della probabilità vera. Il legame tra frequenza e probabilità, caratteristico di questa logica argomentativa, spiega l’aggettivo “frequentista” che viene spesso usato in alternativa (ma non in contrapposizione) a “oggettivista”. Le frequenze sarebbero in definitiva l’aspetto oggettivo ed osservabile della probabilità. La seconda concezione (soggettivista) guarda invece alla probabilità come alla rappresentazione della informazione disponibile, per un determinato soggetto, con riferimento ad un determinato evento. Anche se la formalizzazione matematica è fondamentalmente la stessa della impostazione oggettivista, l’interpretazione è diversissima: la probabilità diventa uno strumento per comunicare informazioni; non ha senso parlare di “probabilità vere” o di “stima della probabilità”. Inoltre non ha alcuna importanza che l’evento in questione sia ripetibile, e che quindi si possano calcolare frequenze di occorrenza in una serie di prove ripetute nelle stesse condizioni. Alla base della probabilità c’è l’incertezza, non la variabilità intrinseca; ad esempio possiamo esplicitare la nostra probabilità soggettiva che la terza cifra decimale di (qui il rapporto circonferenza-diametro) sia 3, ma certo non si può pensare ad una successione di prove in cui tale cifra qualche volta è 3 e qualche altra volta un altro numero. I due concetti sono così diversi che, ad avviso di scrive (ma la questione è comunque controversa), possono tranquillamente coesistere, sia pure al prezzo di qualche superficiale contraddizione: per esempio la necessità di trattare probabilità (soggettive) che le probabilità (oggettive) soddisfino determinate condizioni. Non appare conveniente rinunciare alle probabilità oggettive come descrizione strutturale di fenomeni per loro natura ripetibili. Lo stesso Bruno de Finetti (1906-1985), alla cui opera è in maniera preponderante dovuta la diffusione nella letteratura e nella pratica statistica delle probabilità soggettive, ha messo in luce, in fondamentali ricerche negli anni ’30, la connessione fra i due concetti. Senza addentrarci in aspetti tecnici non elementari, possiamo allora sintetizzare quei risultati affermando che vi sono semplici e ragionevoli proprietà delle nostre valutazioni soggettive che giustificano operativamente 26 l’adozione di modelli descritti in termini frequentisti, senza alcuna necessità di ricorrere all’ assunzione, di sapore metafisico, della intrinseca aleatorietà della realtà. Riepilogando, le probabilità soggettive servono semplicemente a precisare in termini concreti le nostre aspettative: assegneremo per esempio probabilità ½ all’uscita di Testa nel lancio di una moneta se pensiamo che ci sia una perfetta simmetria tra i due esiti possibili; se abbiamo informazioni diverse, eventualmente acquisendole mediante prove empiriche, aggiorneremo le nostre valutazioni. Le probabilità P che compaiono nei modelli statistici (sezione 2) hanno tipicamente una interpretazione in termini di probabilità oggettiva. L’esperimento, infatti, è sempre in linea di principio ripetibile e quindi l’elaborazione dei dati nel quadro di un modello sperimentale, senza l’aggiunta di elementi esterni, è compatibile con tutte le principali concezioni della probabilità; il modo di ragionare più comune, peraltro, sempre se il riferimento è alle probabilità P, è quello in termini oggettivisti. Nella impostazione bayesiana, però, compaiono le probabilità iniziali (generalmente degli stessi parametri) che sono elementi esterni al modello e di solito non interpretabili in termini di frequenze limite. Nella formula 5.3, per esempio, è la probabilità iniziale che il signor Rossi abbia la malattia, senza considerare l’informazione sperimentale prodotta dal test. Intervengono in questa valutazione tutte le informazioni di cui si dispone, sia specifiche del contesto (diffusione della malattia, rischi ambientali, ecc.) sia, se le conosciamo, specifiche del signor Rossi (stato di salute generale, comportamenti rilevanti, ecc.). La probabilità soggettiva, dunque, non può essere ricavata per deduzione dal modello dell’esperimento, ma può essere esplicitata solo con riferimento al fatto concreto cui si riferisce. Usando l’impostazione bayesiana, gli stessi valori osservati, a parità di modello, non portano necessariamente alle stesse conclusioni inferenziali: dipende dai fatti a cui ci si riferisce. Questo per certi aspetti complica il lavoro (che non è più solo matematico) ma dall’altra parte pare difficile negare che si guadagna in realismo. Prendendo molto sul serio la distinzione secondo cui le probabilità del modello sono oggettive e quelle iniziali sono soggettive, sembra di poter dire che le misure “oggettive” di evidenza sono soltanto i valori-p e quelle basate sulla sola funzione di verosimiglianza. I fattori di Bayes per ipotesi composte, e quindi non riconducibili a semplici rapporti di verosimiglianze (ma a rapporti di verosimiglianze integrate) dipen- 27 dono, sia pure parzialmente, dalle probabilità iniziali e l’“evidenza” che pure essi misurano appare in un certo senso inquinata da elementi estranei al dato sperimentale. Così come le probabilità finali, tali fattori di Bayes dovrebbero essere visti come misure ibride, che mescolano evidenza e assunzioni a priori. A nostro avviso la classificazione dei metodi e degli strumenti in oggettivi e soggettivi è un po’ artificiosa e, se si approfondisce l’analisi, in definitiva poco sostenibile. Ci sono sicuramente, nelle varie procedure, aspetti più o meno opinabili, ma la differenza è di tipo, appunto, quantitativo e non qualitativo. Il carattere veramente oggettivo delle probabilità del modello è piuttosto una convenzione che una realtà. La sensibilità pari al 95% (v. l’esempio della sezione 5) nasce da molte prove su individui “omogenei”: è difficile sostenere che tale omogeneità sia veramente oggettiva. Quella omogeneità è stata stabilita sicuramente sulla base di conoscenze incomplete del fenomeno; ad esempio non si può escludere che il test riceva risposte potenzialmente diverse in relazione a caratteristiche dei pazienti non considerate per la verifica di omogeneità. Nessun modello, si può dire, è perfettamente sicuro; l’analisi statistica viene fatta nel quadro di un modello quando questo viene ritenuto attendibile (non dimenticando che si tratta di modelli elastici, che non pretendono la stessa risposta ad ogni trattamento), ma è opportuno mantenere il sospetto di una sua inadeguatezza. Un altro importante aspetto critico, che colpisce tipicamente i valori-p, è il ruolo essenziale che viene dato al disegno dell’esperimento, al punto che questo conta, ed eventualmente conta molto, perfino a parità di risultati. Si pensi alle differenti valutazioni nel caso già citato delle prove sequenziali: nel calcolo del valore-p sono importanti addirittura le intenzioni dello sperimentatore, cioè cosa avrebbe fatto se i risultati fossero stati diversi da quelli che si sono effettivamente realizzati. Se un’analisi oggettiva deve basarsi rigorosamente solo sui fatti, l’inquadramento in un modello statistico è già una forzatura e le tecniche inferenziali che sono influenzate dal comportamento potenziale nel caso di risultati diversi appare come una contraddizione grossolana. In realtà (a nostro avviso) il carattere scientifico delle procedure di analisi statistica sta nella possibilità di esplicitare in modo completo le assunzioni, esponendole quindi a controlli critici e ad eventuali modifiche, e non nella impossibile assenza di valutazioni soggettive. L’approfondimento qui sviluppato sulla tematica soggettivo/oggettivo, con il riconoscimento di un ruolo non evitabile della soggettività (controllabile solo mediante 28 l’adozione di elaborazioni trasparenti), è interno alla problematica specifica della inferenza statistica, ed interpretazioni troppo estensive sarebbero pericolose e fuorvianti. Da un punto di vista più globale la statistica medica ha avuto storicamente ed ha tuttora un ruolo fondamentale per una medicina “scientifica”; la rivendicazione di una “oggettività” rispetto ad una “soggettività”, intesa qualche volta come arbitrio personale non sottoposto a controllo, è naturale e doverosa. In questo quadro il riconoscimento che di regola un qualunque valore sperimentale va considerato affetto da una variabilità accidentale, e che l’analisi statistica ha proprio lo scopo di “controllare” il conseguente disturbo, resta un’acquisizione fondamentale e meritoria della cultura scientifica moderna. Questo è, in definitiva, il senso dello schema di “modello statistico” diffuso in letteratura, con diversi raffinamenti, almeno a partire dagli anni ’30, ma sulla base di concetti già avanzati, non sistematicamente, in precedenza. La riflessione sempre attuale sulla metodologia dell’inferenza, ed in particolare su cosa costituisca evidenza statistica, è però indispensabile per una più piena consapevolezza del valore e dei limiti di tutte le procedure di analisi statistica. 11. Nota bibliografica La tematica della evidenza in statistica (e in statistica medica in particolare) è un argomento specificamente privilegiato dagli studiosi che sostengono la necessità, nell’analisi dei risultati di un esperimento statistico, di rifarsi prioritariamente alla funzione di verosimiglianza. Una importante e chiara trattazione moderna è: - ROYALL, R. Statistical Evidence. A Likelihood Paradigm, Chapman and Hall, London 1997. Ci sono però importanti antecedenti storici che hanno sottolineato il ruolo essenziale della funzione di verosimiglianza per rappresentare l’informazione prodotta da un esperimento; citiamo il classico (non sempre di facile lettura) - FISHER, R.A.: Statistical Methods and Scientific Inference, Hafner, New York 1973 e (ma questa volta la trattazione, di orientamento bayesiano, è ancora attuale): - EDWARDS,W., LINDMAN,H. e SAVAGE,L.J.: Bayesian statistical inference for psychological research, Psychological Review, vol.70 (1962), pp. 193-242 (anche in The Writings of L.J.Savage - A Memorial Selection, American Statistical Association and The Institute of Mathematical Statistics, Washington 1981). La tematica in esame è tra le più controverse nell’ambito della teoria della inferenza statistica; alcuni lavori interessanti in proposito, prevalentemente orientati alle ricerche mediche, sono: - BERGER J.O. e BERRY D.A: Statistical Analysis and the Illusion of Objectivity, American Scientist 1988, pp. 159-165. - GOODMAN, S.N.: Towards Evidence-Based Medical Statistics. 1: The P-Value Fallacy, Annals of Internal Medicine vol.130 (1999) pp.995-1004. 29 - GOODMAN, S.N.: Towards Evidence-Based Medical Statistics. 2: The Bayes Factor, Annals of Internal Medicine vol.130 (1999) pp.1005-1013. - KADANE, J.B.: Prime Time for Bayes, Controlled Clinical Trials vol.16 (1995) pp.313-18. I lavori di Goodman sono reperibili anche sulla Rete all’indirizzo: http://www. acponline. org; è inoltre interessante un numero speciale della rivista - Statistics in Medicine, vol. 12 (1993) n.15-16. Molte delle posizioni citate si ispirano alla impostazione bayesiana; per questa una ottima introduzione elementare è: - BERRY, D.A.: Statistics. A Bayesian Perspective, Duxbury Press, Belmont (Ca) 1996. In particolare sul fattore di Bayes (anche per indicazioni bibliografiche più complete) si può vedere come esposizione elementare: - PICCINATO, L.: Il fattore di Bayes come strumento pratico di statistica applicata, Dipartimento di Statistica Probabilità e Statistiche Applicate dell’Università “La Sapienza” di Roma, serie seminari, 1997, n.1. Più in generale sulle controversie relative alle logiche inferenziali il Lettore non principiante può vedere la parte seconda di - PICCINATO, L.: Metodi per le decisioni statistiche, Springer-Verlag Italia, Milano 1996. 30