evidenza - Virgilio

IL CONCETTO STATISTICO DI “EVIDENZA” (1)
LUDOVICO PICCINATO
Dipartimento di Statistica, Probabilità e Statistiche Applicate
Università “La Sapienza” di Roma
SOMMARIO: 0. Introduzione e riassunto - 1. Un semplice esempio - 2. Il modello statistico - 3.
Estensioni - 4. Evidenza, inferenze, decisioni - 5. L’esempio dei test diagnostici - 6. Analisi dell’evidenza mediante la funzione di verosimiglianza - 7. Il fattore di Bayes - 8. Il valore-p - 9. Approfondimento su alcuni aspetti logici - 10. Il dibattito soggettivo/oggettivo - 11. Nota bibliografica.
0. Introduzione e riassunto
In prima approssimazione si può pensare che un’analisi statistica di risultati sperimentali od osservazionali (per esempio di una prova clinica, o di uno studio epidemiologico,
ecc.), assuma come data una evidenza statistica e la elabori seguendo opportuni schemi
teorici. Questioni di natura teorica interverrebbero quindi solo in relazione ai criteri
adottati per le elaborazioni. E’ invece opportuno sottolineare come lo stesso concetto di
“evidenza statistica” sia inevitabilmente intriso di teoria. In generale, infatti, i “dati”
statistici vengono letti nel quadro di un “modello” e già questo costituisce un serio filtro
teorico per la lettura della realtà. Il riferimento implicito o esplicito ai modelli costituisce certamente un grande contributo della statistica alla metodologia della ricerca, ma
non è la questione che vogliamo qui approfondire; al contrario, daremo per accettato un
modello statistico adeguato a rappresentare la struttura del fenomeno osservato.
Uno degli obiettivi dell’analisi dei dati, anche se non necessariamente un
obiettivo finale, è di misurare l’evidenza sperimentale a favore di determinate ipotesi sul
fenomeno in esame. Per questo aspetto va ricordato che sono diverse le misure di
evidenza proposte dalla letteratura statistica e che la stessa tecnica per valutarle è
necessariamente riferita ad una “filosofia” dell’inferenza statistica.
Esamineremo nel seguito principalmente due tipi di misure: quella basata sui
rapporti delle verosimiglianze, incluse le estensioni di carattere bayesiano, e i cosiddetti
Testo riveduto del seminario svolto nell’ambito del corso Medicina basata sulle prove di efficacia,
Fondazione ISI, Villa Gualino, Torino novembre 2000.
1
1
valori-p, tipici della impostazione frequentista. Malgrado condividano entrambe un’origine fisheriana, sicuramente le misure del tipo valore-p, anche perché consolidate dagli
sviluppi della scuola di Neyman e Pearson, hanno riscosso un maggiore successo
pratico. Nella presente nota vogliamo suggerire la validità, naturalezza e semplicità
delle misure di tipo rapporto delle verosimiglianze e dimostrare nello stesso tempo
(riprendendo anche critiche ben note in letteratura) la sostanziale inadeguatezza dei
valori-p agli scopi per cui vengono solitamente utilizzati. Quantunque i metodi basati
sulla funzione di verosimiglianza siano perfettamente coerenti con l’impostazione
bayesiana, e quindi diano luogo a metodi di valutazione particolarmente naturali nell’ambito di tale impostazione, le argomentazioni su cui ci baseremo saranno indipendenti dall’uso di probabilità a priori sulle ipotesi (con l’eccezione del caso delle
ipotesi composte) ma faranno riferimento a situazioni elementari in cui il carattere
logico o illogico di determinate procedure appare del tutto intuitivo.
1. Un semplice esempio
Consideriamo il seguente esempio (tratto da Colton, Statistica in Medicina, ed. Piccin,
Padova 1979, pag.154). Due analgesici (denotati con A e B) vengono confrontati in una
sperimentazione clinica somministrandoli entrambi, in tempi diversi, a n = 10 pazienti,
avendo cura che in 5 pazienti sia somministrato prima A e poi B e che negli altri 5
pazienti si segua l’ordine inverso. Ogni paziente deve dichiarare se ha trovato preferibile A oppure B (non è consentita una risposta di parità). Si sono ottenute x = 8 preferenze per A e, ovviamente, n-x = 2 preferenze per B. L’obiettivo dell’esperimento è di
acquisire informazioni sulla validità delle seguenti alternative:
(a) è preferibile A;
(b) è preferibile B;
(c) A e B sono equivalenti.
Le situazioni sopra indicate con (a), (b) e (c) sono chiamate, nel gergo statistico,
ipotesi, perché specificano (almeno parzialmente), i possibili modi di realizzarsi del
fenomeno. Se per esempio vale l’ipotesi di equivalenza, dobbiamo aspettarci che il
2
succedersi di risposte A o B nelle prove sia del tutto casuale, come una successione di
Teste e Croci nei successivi lanci di una moneta ben bilanciata.
Il risultato osservato (8 successi su 10 prove) fornisce intuitivamente una evidenza a favore dell’ipotesi (a). Non sembra però di poter escludere definitivamente, sulla
base dello stesso risultato, la validità delle ipotesi alternative (b) e (c). Per fare passi
avanti concreti occorre definire delle misure di evidenza a favore di specifiche ipotesi.
Prendiamo ora in esame un secondo aspetto, che riguarda la forza dell’evidenza
disponibile, a prescindere da quale sia l’ipotesi favorita. Se invece di 8 successi su 10 ne
avessimo ottenuti 80 su 100, il risultato sarebbe stato per certi aspetti simile ma in realtà
più convincente. La “forza” dell’evidenza è legata essenzialmente alla quantità della
informazione acquisita; nei casi più semplici, quindi, al numero delle prove eseguite. La
questione potrà essere un po’ approfondita, anche sul piano formale, tra breve quando
avremo introdotto opportuni strumenti di analisi.
2. Il modello statistico
Le elaborazioni statistiche che si effettuano normalmente sui risultati di un esperimento,
e perfino le poche considerazioni intuitive sopra abbozzate, presuppongono la validità di
un sistema complesso e articolato di assunzioni, il cui scopo è di collegare la realtà
descritta nell’esempio con uno schema matematico che servirà di base per tutte le
analisi.
Esaminiamo le assunzioni essenziali nell’esempio degli analgesici.
A) (somiglianza delle prove). Le 10 prove si debbono intendere come perfette repliche
di una stessa prova elementare, esattamente come fossero 10 estrazioni da un’urna con
palline bianche e nere in proporzione incognita. Rimettendo dopo ogni estrazione la
pallina nell’urna, è come se l’estrazione venisse effettuata sempre con la stessa urna.
Nel caso dei pazienti ciò vuol dire che si esclude a priori che questi siano classificabili
in categorie per le quali le alternative (a), (b) e (c) della sezione precedente abbiano un
“peso” prevedibilmente diverso. Se per esempio è pensabile che il farmaco A sia tendenzialmente più preferito dagli uomini, e il farmaco B dalle donne, la progettazione
dell’esperimento sarebbe sbagliata: occorrerebbe effettuare prove distinte per uomini e
donne ed eventualmente solo a posteriori, in caso di evidente concordanza, fondere i
risultati. Se, pur essendo il sesso un fattore rilevante, non se ne tenesse conto, la
3
percentuale di successi verrebbe influenzata non solo dalle preferenze dei pazienti,
come si vuole, ma anche dalla composizione per sesso dei diversi campioni e questo
“confonderebbe” l’analisi.
Si noti che una certa disomogeneità è inevitabilmente introdotta dalla procedura
sperimentale, che richiede di somministrare prima A e poi B oppure prima B e poi A. Il
metodo usato introduce un correttivo nel senso che “bilancia” gli eventuali disturbi.
Una perfetta omogeneità dei pazienti (età, sesso, patrimonio genetico, abitudini
alimentari, ecc.) è ovviamente inattingibile (saranno sempre persone diverse!); ma
l’elaborazione dovrà sempre presupporre una somiglianza nel senso indicato e potrebbe
riuscire fuorviante qualora l’assunzione fosse radicalmente falsa.
B) (condizione di indipendenza). La risposta di un paziente non deve influenzare
la risposta degli altri pazienti (operativamente, si tratta tra l’altro di raccogliere le rispettive risposte prima di eventuali contatti tra i pazienti stessi). Ogni paziente aggiunge
quindi una stessa quantità di informazione sul fenomeno, esattamente come accade nelle
estrazioni di palline da un’urna, purché via via rimesse nell’urna stessa.
C) (significato del parametro incognito). Nell’esempio si può considerare come
parametro incognito, da stimare per rispondere al problema posto, la probabilità  che il
sonnifero A sia preferito al sonnifero B. Formalmente,  è quindi un numero compreso
fra 0 e 1. L’interpretazione concreta è che, nella popolazione considerata, una frazione
pari al 100 % preferirebbe A a B, qualora ne fosse richiesta. Si può notare che ora si
sta usando un concetto di “probabilità oggettiva”, cioè una probabilità che descrive,
almeno parzialmente, il comportamento di un sistema fisico (qui le preferenze
esprimibili da un insieme di persone). Una probabilità oggettiva, tipicamente, non è nota
ma viene stimata empiricamente. Sul ruolo delle diverse accezioni di “probabilità” si
tornerà successivamente. Ciò che è essenziale qui è la considerazione che  rappresenta
un aspetto concreto della realtà, non noto con esattezza ma stimabile per mezzo di
opportuni esperimenti.
Assumendo come valide le predette condizioni, in corrispondenza di qualsiasi
valore  si può calcolare la probabilità P(x,10) di ottenere un qualsiasi risultato x
(x=0,1,...,10, dove x è il numero di successi) su 10 prove. Una semplice applicazione di
calcolo combinatorio mostra che
4
 
x
10  x
P ( x,10)  10
x  (1   )
(2.1)
dove
 
10
x
denota il classico coefficiente binomiale, facilmente calcolabile. La tabella
2.1 presenta le probabilità (2.1) in corrispondenza di tutti i valori x possibili e di alcuni
tra i possibili valori  (che sono in teoria infiniti).
x=0
x=1
x=2
x=3
x=4
x=5
x=6
x=7
x=8
x=9
x= 10
 =0.1
 =0.2
 =0.3
 =0.4
 =0.5
 =0.6
 =0.7
 =0.8
 =0.9
.345
.387
.194
.057
.011
.002
.000
.000
.000
.000
.000
.107
.268
.302
.201
.088
.026
.006
.001
.000
.000
.000
.028
.121
.234
.267
.200
.103
.037
.009
.001
.000
.000
.006
.040
.121
.215
.251
.201
.112
.043
.011
.002
.000
.001
.010
.044
.117
.205
.246
.205
.117
.044
.010
.001
.000
.002
.011
.009
.037
.103
.200
.267
.234
.121
.028
.000
.000
.001
.009
.037
.103
.200
.267
.234
.121
.028
.000
.000
.000
.001
.006
.026
.088
.201
.302
.268
.107
.000
.000
.000
.000
.000
.002
.011
.057
.194
.387
.349
TABELLA 2.1 - Probabilità di x successi in 10 prove ripetute per un evento di
probabilità 
Se il numero di pazienti esaminato (cioè di repliche dell’esperimento) fosse un
qualsiasi numero n, la formula precedente verrebbe generalizzata in
(2.2)
 
P ( x, n)  nx  x (1   ) n  x
( x  0,1,..., n) .
3. Estensioni
Volendo organizzare in uno schema generale il concetto di modello statistico, nei suoi
aspetti formali e quindi slegati da specifiche applicazioni, dobbiamo dire che le
componenti essenziali di un modello statistico sono:
I) Le possibili ipotesi esplicative del fenomeno osservato, rappresentate dal valore di uno o più parametri; l’ipotesi generica viene denotata con  e appartiene ad un
insieme predefinito  di valori possibili.
II) Un insieme  di risultati dell’esperimento a priori considerati come possibili;
il generico risultato sarà indicato con x. Si intende che ogni x può essere in realtà un
vettore numerico, oppure una funzione, ecc.
5
III) Un insieme  ={P, } di leggi di probabilità su , una per ciascun ;
si intende che, se la vera spiegazione del fenomeno è *, i risultati si realizzano in
accordo con la legge di probabilità specificata da *. Qui emerge il carattere statistico
(in contrapposizione a deterministico) dell’esperimento: se si ripetono le prove i risultati
mostrano una certa variabilità, che viene detta accidentale in quanto non attribuibile alla
diversità delle leggi coinvolte (cioè dei parametri).
Nelle sezioni precedenti abbiamo introdotto lo schema binomiale. Il Lettore ha
certamente incontrato, e incontrerà, molti altri casi specifici. Il più noto (come si rileva
dallo stesso nome) è il modello normale, o di Gauss, che si applica quando i risultati di
un esperimento sono interpretati come valori “veri” alterati da un errore accidentale, a
sua volta concepito, sostanzialmente, come somma di infiniti errori elementari.
In molti casi il parametro incognito  è multidimensionale; già con il modello
normale spesso sono incogniti sia la media () che la deviazione standard (), sicché il
parametro complessivo è il vettore bidimensionale .
Le considerazioni che portano alla costruzione dei modelli sono diverse da caso
a caso, e di solito confortate anche da conferme sperimentali. Per esempio per modelli
relativi alla durata di vita si può specificare (a meno del valore di uno o più parametri)
l’andamento del tasso di mortalità in funzione del tempo di vita, e da questo si ricavano
leggi probabilistiche di sopravvivenza. Per molte variabili di interesse clinico (ad
esempio relative alla composizione del sangue) si osserva che sono “normali” (qui nel
senso di “non patologiche”) anche valori molto superiori al valore più probabile, ma
non valori molto inferiori. Ne possono venire distribuzioni di probabilità del tipo lognormale, che si caratterizzano dal punto di vista matematico per il fatto che i disturbi,
ancora gaussiani, sono moltiplicativi anziché additivi. Per ovvi motivi di brevità non
discuteremo gli innumerevoli casi particolari della struttura formale sopra descritta.
4. Evidenza, inferenze, decisioni
Sia dato un modello statistico, cioè il modello matematico di un esperimento. Eseguito
l’esperimento stesso, si sia osservato il particolare risultato x. Il modo di elaborare il
risultato x dipende ovviamente dagli scopi fondamentali dello studio. Sotto questo
profilo è opportuno distinguere i seguenti potenziali obiettivi:
6
a) valutazione dell’evidenza sperimentale a favore di determinate ipotesi;
b) formulazione di inferenze relative a determinate ipotesi (inferenze strutturali) o a
risultati futuri (inferenze predittive);
c) scelta di una decisione entro un insieme predefinito, sapendo che l’effetto corrispondente dipende dalla validità o meno di determinate ipotesi.
Non tutte le impostazioni logiche della teoria statistica sono abbastanza ampie ed
elastiche da consentire queste distinzioni, che appaiono invece del tutto opportune se si
guarda ai problemi da un punto di vista applicativo. In particolare questa differenziazione di obiettivi è del tutto naturale in un quadro “bayesiano” mentre risulta spesso
problematica in un quadro “frequentista”, che vincola molto di più il modo di organizzare concettualmente i problemi. Procederemo comunque sulla base di esempi, riservando qualche considerazione di natura più teorica alle sezioni finali.
5. L’esempio dei test diagnostici
In questa sezione riprenderemo, con pochi adattamenti, una illuminante esemplificazione introdotta da Royall (1997).
Il signor Rossi si sottopone ad un test diagnostico per una determinata malattia
M. Il test ha le caratteristiche illustrate nella Tabella 5.1; con una terminologia standard
si dice che il test ha sensibilità 0.95 (= probabilità di T+ per i malati) e specificità 0.98
(= probabilità di T- per i sani).
Malattia presente (M)
Malattia assente (NM)
Test positivo (T+)
0.95
0.02
Test negativo (T-)
0.05
0.98
Totale
1.00
1.00
TABELLA 5.1 - Probabilità di risultati positivi o negativi al test, per individui
malati e non
Supponiamo che il test, applicato al signor Rossi, sia risultato positivo. Prendiamo in
esame 3 delle possibili conclusioni che se ne possono trarre, per valutarne validità assoluta e compatibilità relativa:
7
A) c’è una evidenza sperimentale a favore del fatto che il signor Rossi sia affetto
dalla malattia M;
B) il signor Rossi probabilmente non è affetto dalla malattia M;
C) il signor Rossi dovrebbe essere curato per la malattia M.
Malgrado ad una prima impressione queste conclusioni appaiano in contrasto tra loro,
verificheremo facilmente che sono invece compatibili; il punto importante è che si
collegano ad aspetti diversi della situazione e quindi “risolvono” problemi distinti.
Il commento (A) rappresenta semplicemente e direttamente il risultato dell’esperimento: avendo ottenuto il risultato T+, le cosiddette verosimiglianze
(5.1)
(M) = prob(T+|M) = 0.95,
(NM) = prob(T+|NM) = 0.02
favoriscono largamente l’ipotesi che il signor Rossi sia malato. L’evidenza relativa (di
M rispetto a NM) è misurata dal rapporto delle verosimiglianze (o fattore di Bayes)
B( M , NM ) 
(5.2)
(M )
 47.5 .
( NM )
Questa è un’importante misura della evidenza dell’ipotesi M rispetto all’ipotesi NM. Il
valore B(M, NM)=1 corrisponde al caso di eguale evidenza per le 2 ipotesi a confronto.
Si noti che nessuna valutazione o informazione estranea all’esperimento viene coinvolta, a parte naturalmente l’implicita assunzione che il modello statistico presentato nella
tabella 5.1 sia corretto, e applicabile al signor Rossi.
Il commento (B) richiede invece una informazione che l’esperimento eseguito (il
test) per definizione) non fornisce: la probabilità “a priori” (che chiameremo  e che è
basata su tutte le informazioni disponibili, escluso il risultato sperimentale) che il signor
Rossi abbia la malattia M. Infatti, denotando con ' la probabilità che il signor Rossi
abbia la malattia, tenendo conto sia delle informazioni pre-sperimentali (incorporate in
), sia delle informazioni sperimentali (incorporate nei due valori della formula 5.1)
risulta, per il celebre teorema di Bayes
(5.3)
 
  (M )
0.95
.

  ( M )  (1   )  ( NM ) 0.02  0.93
Se M è una malattia poco comune, per esempio se =0.001, si ottiene ' = 0.045.
Pertanto, anche se il risultato del test ha fatto molto crescere la probabilità di M (da
0.001 a 0.045), resta ancora complessivamente improbabile, pur tenendo conto della
positività del test, che il signor Rossi sia affetto da M. Naturalmente la conclusione
8
cambia se  non è così piccolo; se si ha  = 0.10, si ottiene ' = 0.84 e quindi una situazione che rende falsa la conclusione (B). In sintesi: la conclusione (A) è sicuramente
valida, e la conclusione (B) lo può essere, a seconda del valore di .
Una formulazione alternativa ma equivalente del teorema di Bayes è:
(5.4)


 B( M , NM ) 
1 
1
che si esprime dicendo che le odds finali si ottengono moltiplicando le odds iniziali per
il fattore di Bayes. Questa formula è importante perché mette in luce il ruolo della
misura di evidenza introdotta con la formula (5.2) nel calcolo della probabilità dell’ipotesi in esame, e quindi nel processo di inferenza.
La specificazione della probabilità  (più o meno approssimata) è dunque importante; se del signor Rossi non si sa nulla, una scelta di buon senso è di considerare la
generica prevalenza della malattia; in tal caso la formula (5.3) viene a coincidere con la
classica formula del cosiddetto valore predittivo del test. Se invece del signor Rossi
sono note caratteristiche correlate con l’avere o meno la malattia (per es. sesso, età, altri
sintomi,…) la prevalenza dovrà essere corretta e adattata al caso individuale in
questione. C’è quindi da attendersi una rilevante presenza di valutazioni individuali,
cioè riferite allo specifico soggetto, come condizione necessaria per poter effettuare una
completa inferenza probabilistica come quella implicita nella conclusione (B).
E’ spesso utile considerare che, in pratica, può essere sufficiente anche una
specificazione di  non molto precisa. Se ci accontentiamo di sapere se per il signor
Rossi è più probabile avere la malattia o non averla, basta prendere in esame la
condizione '>0.5 ed osservare che, sviluppando la formula (5.3), la condizione stessa
corrisponde a >0.02. Evidentemente è molto più semplice valutare l’adeguatezza della
assunzione >0.02 che non specificare esattamente .
La conclusione (C) presuppone ulteriori considerazioni. Non solo quale sia il
valore di ' (e quindi, inizialmente, di ), ma anche quali siano le conseguenze del non
seguire la terapia adeguata alla malattia M avendo o non avendo la malattia stessa, ed
anche (per confronto) le conseguenze del seguire la terapia, sempre distinguendo tra le
situazioni M e NM. Quindi anche la conclusione (C), come la conclusione (B), può
risultare valida o non valida a seconda di come siano precisati, anche numericamente
(ed eventualmente in modo approssimato) tali ulteriori elementi.
9
Riepilogando, i tre obiettivi:
(a) valutare l’evidenza sperimentale;
(b) effettuare una inferenza probabilistica;
(c) decidere un comportamento
sono distinti ma tra loro collegati, in quanto (b) tiene conto di (a) più altri elementi, e (c)
tiene conto di (b) più altri elementi.
Mentre nella classica impostazione frequentista (scuola di Neyman e Pearson)
questi obiettivi, in particolare (a) e (b), sono tra loro fusi, e per di più trattati nell’ottica
di un problema di tipo (c), nella impostazione bayesiana (non solo nella impostazione
bayesiana, in verità, ma anche nelle impostazioni cosiddette neo-fisheriane) si tratta di
obiettivi distintamente formalizzabili.
Il metodo bayesiano presuppone che vi sia sempre la possibilità di assegnare
una probabilità ad eventi incerti, qualunque sia la natura dell’evento e della incertezza.
E’ per questo che si può affrontare l’obiettivo (b) nel modo detto, cioè avendo come
riferimento principale la formula 5.3. Ciò è sicuramente possibile qualora si adotti per la
probabilità una concezione soggettivista, mentre è possibile solo in casi particolari se si
adotta una concezione frequentista della probabilità. In base a quest’ultima, infatti, sono
probabilizzabili solo eventi per i quali abbia senso pensare ad una frequenza di accadimenti in una ipotetica ed infinita sequenza di prove ripetute, ed anche in tal caso non è
garantito che si disponga di informazioni “oggettive” sufficientemente ampie da poter
effettuare tali valutazioni. Nell’esempio, è molto difficile che la specificazione della
probabilità a priori  possa essere ricondotta ad un calcolo, sia pure ipotetico, di frequenze. Nella impostazione bayesiana, pertanto, tutti i 3 problemi (a), (b) e (c) sono
formulabili e risolubili; questo si “paga”, però, con la richiesta di un input informativo
più ricco e dipendente dal contesto.
La valutazione della evidenza sperimentale effettuata tramite i valori delle
verosimiglianze non necessita invece, normalmente, di probabilità assegnate in modo
soggettivo (a parte quelle che figurano nel modello matematico dell’esperimento, che
però sono un costituente di tutte le impostazioni della inferenza probabilistica).
Qualunque impostazione che non ammetta l’uso di probabilità soggettive è costretta,
salvo casi particolari, a trovare formulazioni diverse per i problemi (b) e (c).
10
6. Analisi dell’evidenza mediante la funzione di verosimiglianza
L’esempio del test diagnostico è un caso di modello statistico particolarmente semplice.
Sia lo spazio delle ipotesi che lo spazio dei risultati contengono 2 soli punti, in quanto è
={M, NM}, ={T+, T-} e le probabilità coinvolte sono tutte e sole quelle che compaiono nella tabella 5.1. Si è osservato che, ottenuto il risultato T+, l’evidenza a favore
delle ipotesi va misurata tramite i valori (M) e (NM), chiamati verosimiglianze.
Quindi possiamo chiamare (), interpretata come una funzione definita su , funzione
di verosimiglianza.
Nel caso in questione il rapporto B(M,NM)=(M)/(NM) rappresenta perfettamente l’intera funzione di verosimiglianza, essendo soltanto 2 le ipotesi confrontabili.
In molti altri casi  è costituito da infiniti elementi ed un solo rapporto non basta a
rappresentare la funzione stessa.
Torniamo all’esempio della sezione 1. Ivi il parametro incognito  può assumere
tutti i valori tra 0 e 1, mentre i risultati possibili sono tutti gli interi tra 0 e 10. Quindi
possiamo scrivere:
 = [0, 1],  = {0,1,2,3,4,5,6,7,8,9,10} .
Le probabilità sono espresse poi, come visto, dalla formula (2.1). Poiché il risultato
osservato è x=8, la funzione di verosimiglianza corrispondente risulta
(6.1)
 
8
2
8
2
( )  10
8  (1   )  45 (1   ) .
FIGURA 6.1 - Funzione di verosimiglianza binomiale per il caso di
8 successi su 10 prove
11
Il corrispondente grafico compare nella figura 6.1. I valori numerici di  corrispondenti ai prescelti valori di  figurano nella Tabella 2.1 come riga individuata da x = 8.
La costante moltiplicativa 45 è in realtà inutile e spesso viene omessa; sono infatti
importanti i rapporti e non i valori assoluti delle verosimiglianze. Il più semplice
metodo di standardizzazione richiede di determinare il punto di massima verosimiglianza (qui ˆ =0.8) e di calcolare la funzione di verosimiglianza relativa, cioè:
( )     1   
( ) 

 
 .
(ˆ)  0.8   0.2 
8
(6.2)
2
Il grafico corrispondente compare nella figura 6.2 come curva continua.
FIGURA 6.2 - Verosimiglianze binomiali relative per i casi di 8 successi su 10
prove (linea continua) e di 16 successi su 20 prove (linea a tratti)
L’interpretazione logica della verosimiglianza relativa è chiara: se per un certo 
il valore
() è piccolo, cioè è molto meno verosimile di ˆ , vuol dire che i risultati
effettivamente ottenuti si osservano molto più facilmente quando è vero ˆ rispetto a
quando è vero  . Otteniamo in questo modo sia un ordinamento in termini di evidenza
(1 precede 2 se
(1 )  ( 2 ) ), sia, per ogni , una misura numerica di evidenza
( ( ) ) direttamente interpretabile come un rapporto di verosimiglianza. Tale misura ha
1 come valore massimo.
Supponiamo di avere ottenuto, invece di 8 successi su 10 prove, 16 successi su
20 prove. Si noti che il risultato è in un certo senso simile, ma ottenuto su più prove. La
nuova funzione di verosimiglianza relativa si trova dalla formula (2.2) ponendo n=20,
x=16 e dividendo per la verosimiglianza massima (0.8). Otteniamo la funzione:
12
    1 
( )  
 
 .
 0.8   0.2 
16
(6.3)
4
La funzione (6.3) compare nella figura 6.2 come linea a tratti, per essere confrontata con
la funzione (6.2); si osservi che senza standardizzazione il confronto fra le due funzioni
sarebbe stato molto difficile da interpretare. Come si vede le due funzioni hanno lo
stesso punto di massimo ma quella che corrisponde all’esperimento più numeroso è più
concentrata; intuitivamente questo significa che per molti più valori  si può dire che
l’evidenza è molto bassa.
In definitiva la concentrazione della funzione di verosimiglianza è la rappresentazione geometrica della forza dell’evidenza. Ad esempio è chiaro e ragionevole che
in entrambi i casi il valore =0.8 abbia verosimiglianza massima (e quindi la verosimiglianza relativa vale 1), ma il valore =0.5 ha verosimiglianza relativa 0.15 nel caso
di 10 prove e soltanto 0.02 nel caso di 20 prove. In pratica l’ipotesi =0.5 riceve un
certo “supporto sperimentale” nel primo caso mentre esce drasticamente indebolita
dall’esperimento più ampio.
Una semplice osservazione sulla figura 6.2 è che, pur partendo da un modello
binomiale, l’andamento della funzione di verosimiglianza è simile a quello di una curva
normale, soprattutto intorno al valore ˆ e se si tratta di un esperimento con molte repliche. Questo fatto è sostanzialmente generale e potrebbe essere dimostrato matematicamente; se ne ricava la possibilità di ricorrere a semplici metodi approssimati.
7. Il fattore di Bayes
La funzione di verosimiglianza fornisce misure di evidenza di tipo relativo, cioè di una
qualunque ipotesi 1 rispetto ad una qualunque altra ipotesi 2, per esempio l’ipotesi che
ha verosimiglianza massima. La formula
B(1 , 2 ) 
(7.1)
(1 )
(1 )

( 2 )
( 2 )
è del tutto analoga, logicamente, alla formula (5.2) e rappresenta il fattore di Bayes per
1 rispetto a 2.
Si presenta più complesso il caso in cui le ipotesi non siano semplici (e quindi
corrispondenti ad un solo valore del parametro incognito) ma composte (cioè corrispon-
13
denti a insiemi di valori del parametro incognito). Vogliamo cioè affrontare il problema
di definire una quantità B(1,2), dove 1 e 2 sono insiemi di valori parametrici, in
modo tale da avere una estensione coerente della precedente formula (7.1).
Consideriamo per esempio, con riferimento alla prova del sonnifero, le due
ipotesi H0: 0.5 e H1: 0.5. Il loro significato concreto è evidente: H0 significa che il
sonnifero A è tendenzialmente preferibile a B e, viceversa, H1 significa che il sonnifero
B è tendenzialmente preferibile ad A (abbiamo incluso l’eguaglianza nel primo caso
solo per non lasciare lacune, ma è un particolare poco rilevante in pratica; le due ipotesi
non specificano la misura precisa della preferenza per A). L’uso della sola funzione di
verosimiglianza non consente di arrivare a ragionevoli misure di evidenza per ipotesi
composte. Spesso si utilizzano quelle rappresentate dal rapporto dei valori massimi
della funzione di verosimiglianza nei due insiemi considerati; è tuttavia intuitivo che in
questo modo, riducendo ogni ipotesi composta alla ipotesi semplice più verosimile, si
perde molta informazione.
Una soluzione operativa per vari aspetti preferibile è invece acquisibile se si fa
ricorso alla impostazione bayesiana. Osserviamo che la formula (7.1) può scriversi
come
(7.2)
B(1 , 2 ) 
prob(dati | 1 )
,
prob(dati |  2 )
dove si intende che nel caso continuo si useranno le densità di probabilità al posto delle
probabilità. E’ quindi naturale considerare una estensione del tipo
(7.3)
B(1 ,  2 ) 
prob(dati | 1 )
.
prob(dati |  2 )
Nella formula (7.3) si richiede quindi di utilizzare la legge di probabilità dei dati
condizionata a 1 e 2, cioè a insiemi di valori del parametro e non a valori singoli. Va
qui ricordato che nella impostazione bayesiana il parametro è trattato come aleatorio e
con una propria legge di probabilità; per questo verrà indicato con la lettera maiuscola
. In queste condizioni sia =i che i (i=1,2) sono “eventi” di cui si può calcolare
la probabilità, e la formula (7.3) diventa a sua volta facilmente calcolabile, esattamente
come la formula (7.2) (che non richiede invece l’introduzione di probabilità iniziali).
Va avvertito che le considerazioni che seguono (fino alla fine della sezione 7)
sono un po’ più impegnative del resto; in prima lettura ci si può fermare qui, ricordando
14
solo che la impostazione bayesiana fornisce un modo naturale per valutare l’evidenza
relativa anche di ipotesi composte, ma che la sua applicazione non è di solito banale.
Nella procedura sopra delineata la utilizzazione della legge “iniziale” per il
parametro aleatorio  è solo parziale. Infatti, invece di fissare una legge complessiva
 si può (ed è equivalente) procedere come segue:
(a) fissare le probabilità 1 e 2 di 1 e 2;
(b) fissare le densità g() e h() di  condizionate a 1 e a 2.
E’ possibile dimostrare (e naturalmente non è questo il luogo) che la formula (7.3) può
allora essere scritta come
(7.4)
B(1 , 2 ) 
 g ( ) ( )d .
 h( ) ( )d
1
2
Si noti che, in questo modo, il fattore di Bayes risulta essere indipendente dalle probabilità iniziali delle ipotesi (composte) messe a confronto, cioè da 1 e 2, anche se
dipende da come la probabilità iniziale è ripartita all’interno delle ipotesi stesse.
Si può anche dimostrare che vale una formula analoga alla (5.4), che spiega
come anche in questo caso più generale il fattore di Bayes sia il coefficiente che si deve
moltiplicare per il rapporto delle probabilità iniziali per ottenere il corrispondente
rapporto delle probabilità finali. Si ha cioè:
(7.5)
 1

 B(1 ,  2 ) 1
1   1
1  1
FIGURA 7.1 - Densità del parametro condizionate alle ipotesi
dove  1 è la probabilità finale di 1.
15
Nell’esempio dei sonniferi (8 successi di A su 10 prove) possiamo confrontare le
già citate ipotesi 0.5 e 0.5. Utilizziamo la formula (7.4) assumendo che le densità
g() e h() siano costanti negli insiemi considerati (quindi di valore 2 sui rispettivi
insiemi di definizione). Con un semplice calcolo numerico (serve però un computer, o
tavole specializzate) si ottiene B=0.03. Questa conclusione privilegia molto l’ipotesi
0.5, come del resto è chiaro dal risultato sperimentale.
E’ possibile che una ripartizione uniforme sulle ipotesi composte a confronto dia
troppo peso ai valori estremi di  (vicini a 0 o a 1). Possiamo ripetere il calcolo con
densità lineari (rispettivamente crescente e decrescente); si deve porre allora g() = 8 e
h() = 8(1-) (vedi figura 7.1, dove g() è rappresentata dalla linea continua e h() dalla
linea a tratti). Ne viene B=0.06, che è un valore diverso dal precedente ma ancora piuttosto piccolo.
Un caso particolare interessante si ha quando si confronta un’ipotesi semplice
=0 con l’ipotesi composta complementare, cioè 0. Allora la legge di probabilità
iniziale va scomposta in una massa di probabilità assegnata al singolo punto 0 (diciamo
0) e in una densità g() su tutti gli altri punti, che corrisponde alla legge del parametro
aleatorio  condizionata a 0. La formula (7.4) diventa
(7.6)
B( 0 ,    0 ) 
( 0 )
 g ( )
( )d
(è inutile escludere 0 dal campo di integrazione perché un singolo punto non contribuisce all’integrale).
Se, nell’esempio dei sonniferi, si prende g()=1 per 01 (cioè costante su ,
escludendo a rigore il valore =0.5) si trova B(0.5,-0.5) = 0.48.
La scelta di g(), naturalmente, influenza il valore del fattore di Bayes.
Riflettendo sulla formula (7.6) si può vedere che il valore minimo di B coincide con la
verosimiglianza relativa di 0, cioè con
( 0 ) . In altri termini
( 0 ) è il più piccolo
valore del fattore di Bayes B( 0 ,    0 ) ottenibile con tutte le possibili scelte della
densità g(). Questa considerazione mette in luce un interessante ulteriore legame tra le
misure di evidenza basate esclusivamente sulla funzione di verosimiglianza e quelle
ottenute elaborando in un quadro bayesiano la stessa funzione di verosimiglianza.
16
8. Il valore-p
Il cosiddetto valore-p (o livello di significatività osservato), che indicheremo nel seguito
con Poss, è tra le più note misure di evidenza riferite ad una ipotesi semplice, che
scriveremo al solito come H0: 0 (dove naturalmente 0 è uno specifico valore del
parametro incognito). Una volta ottenuto il risultato sperimentale xoss, il valore-p, per
definizione, è la probabilità (calcolata condizionatamente all’ipotesi H0) di osservare un
risultato che sia altrettanto o più estremo di xoss. Qui con “estremo” si intende “lontano
da quanto ci si aspetta in base ad H0”. In pratica, sulla base di xoss, si deve individuare
l’insieme oss dei risultati da considerare almeno lontani da H0 quanto xoss. Di solito è
disponibile una statistica t tale che il suo maggior valore definisce la maggiore lontananza da H0 di un risultato campionario.
Nell’esempio della sezione 1 si è ottenuto il risultato x=8. Se l’ipotesi nulla è
=0.5, essendosi effettuate n=10 prove, il risultato più “vicino” a H0 è x=5, mentre i
valori “lontani” sono quelli prossimi a 0 oppure a 10. Se come statistica di riferimento
prendiamo t=|f-0.5|, dove f è la frequenza relativa osservata (qui 0.8), si ha t=0.3 per cui
l’insieme oss risulta {0,1,2,8,9,10}. E’ facile verificare che si ha in questo caso
Poss = prob( oss|H0) = 0.11.
L’uso pratico dei valori-p è ben noto: se Poss è piccolo si ha un indizio contro la
validità di Ho; se infatti H0 è vera ci si debbono aspettare risultati vicini a x=5, e a questi
corrisponde appunto un valore-p elevato. E’ importante sottolineare che Poss non è la
probabilità di H0, ma la probabilità (sotto la condizione H0) che si realizzi un certo
risultato, collegato ma non coincidente con quello effettivamente osservato. In generale
si può comunque interpretare Poss, che è una statistica in quanto funzione del risultato
osservato, come una misura diretta della evidenza a favore di H0.
Convenzionalmente, Poss = 0.11 è un valore troppo alto per costituire un serio
elemento contro H0 e il giudizio sulla validità o meno di tale ipotesi resta sospeso1. Da
un punto di vista qualitativo, la conclusione cui siamo giunti non è troppo diversa da
Nella variante della scuola “americana” di Neyman e Pearson il giudizio non è mai sospeso, ma si
accetta H0 o l’ipotesi complementare, secondo una procedura caratterizzata dai cosiddetti errori di I e II
specie (rifiutare un’ipotesi quando è falsa e accettarla quando è vera). Questa impostazione evita la
problematica della misura della evidenza, cui sostituisce un atteggiamento di tipo decisionale. In pratica,
però, la regola di decisione si impernia sempre sul valore P oss.
1
17
quella ottenuta elaborando la funzione di verosimiglianza. In quel caso si era ottenuto
(0.5)  0.15 , un valore perfino numericamente simile.
Tuttavia valori-p e verosimiglianze sono misure concettualmente molto diverse
dell’evidenza, sia (almeno qualche volta) dal punto di vista numerico, sia (sempre) dal
punto di vista logico (ma su questo ultimo aspetto si tornerà nella sezione successiva).
In particolare, situazioni che presentano valori-p molto simili possono presentare
valori molto diversi delle verosimiglianze. Consideriamo un semplice esempio. In uno
schema binomiale, come quello dei sonniferi, si siano effettuate 1000 prove ottenendo
526 successi; con qualche calcolo si vede che si ha ancora Poss=0.11, ma che la
verosimiglianza relativa di H0 è diventata 0.26. Usando la verosimiglianza relativa,
dunque, l’ipotesi =0.5 riceve molto più supporto sperimentale nel caso di 526 successi
su 1000 prove che in quello di 8 successi su 10 prove. Non è evidente, dall’esempio,
quale dei criteri sia eventualmente fuorviante, ma è chiaro che si tratta di criteri anche
operativamente diversi. Freeman (nel numero speciale di Statistics in Medicine citato
nella nota bibliografica), sviluppando un esempio di questo tipo, sostiene esplicitamente
la palese inadeguatezza del valore-p.
FIGURA 8.1 - Distribuzioni di probabilità per le medie campionarie,
nelle due ipotesi, per il caso n=5
L’esempio che segue è però più chiarificatore. Per comodità di calcolo e di
rappresentazione grafica faremo ora riferimento ad un modello normale. Assumiamo
quindi di avere n misurazioni ottenute o secondo una legge normale di media 0 e varianza 1 (ipotesi H0) o secondo una legge normale di media 1 e varianza 1 (ipotesi H1). Il
parametro incognito è quindi la media della legge normale considerata, e ={0,1}.
18
Questo schema è sicuramente troppo semplice per gran parte delle situazioni pratiche,
ma è sufficiente a mettere bene in luce aspetti che l’esempio precedente lascia solo
intravvedere.
Come è noto ed intuitivo, in queste condizioni possiamo ragionare direttamente
sulla statistica “media campionaria”; in quanto variabile aleatoria useremo il simbolo X . Assumiamo poi che il valore effettivamente osservato sia X  0.5 . Le figure 8.1
e 8.2 rappresentano la situazione, con riferimento ai due casi n=5 e n=20.
FIGURA 8.2 - Distribuzioni di probabilità per la media campionaria,
nelle due ipotesi nel caso n=20
Come è chiaro dalle figure, le densità di X secondo le ipotesi H0 e H1 nel punto
0.5 sono eguali, per cui il rapporto delle verosimiglianze, (0) / (1) , o se si preferisce il
fattore di Bayes B(0,1), vale esattamente 1. Questo significa che, nell’ottica della funzione di verosimiglianza, qualunque sia n, il risultato X  0.5 assicura una piena parità
di supporto alle due ipotesi concorrenti H0 e H1. Tale conclusione appare in pieno
accordo con l’intuizione.
Ciò non accade, invece, con il valore-p. Se indichiamo con (x) la funzione di
ripartizione della legge normale standardizzata, è facile vedere che per la situazione
considerata si ha Poss = 1  


n / 2 . La figura 8.3 dà un’idea della relazione esistente
tra n e Poss (ovviamente nel caso di una media campionaria pari a 0.5). Nei casi sopra
considerati si ottiene Poss=0.13 se n=5 e Poss=0.01 se n=20. Rispetto al convenzionale
19
livello di confronto del 5%, per n=5 si ha una deviazione “non significativa” da Ho,
mentre per n=20 la deviazione risulta invece significativa.
Va naturalmente osservato che di per sé, il valore-p non è una misura progettata
per confrontare ipotesi diverse, ma per valutare in assoluto l’evidenza sperimentale a
favore di una determinata ipotesi. Ma a parte le obiezioni che si potrebbero portare a
questa interpretazione in un certo senso più limitata del valore-p, sicuramente il suo
impiego corrente è proprio quello di misura di evidenza dell’ipotesi nulla e resta quindi
la conclusione paradossale di valutazioni tanto contrastanti in una situazione che è in
realtà di perfetta simmetria fra le due ipotesi possibili, alla luce del risultato.
FIGURA 8.3 - Valore-p in funzione della numerosità n del campione quando le
ipotesi distributive sono N(0,1) e N(1,1) e la media campionaria è 0.5
Apparentemente, il metodo del valore-p sembra non accorgersi di tale simmetria;
ma questa stessa simmetria viene recuperata, un po’ tortuosamente, se si ripete l’analisi
invertendo il ruolo delle ipotesi, cioè calcolando il valore-p con riferimento ad H1
invece che ad H0. Le conclusioni (“rifiuto” di H se n=20 e “non rifiuto” se n=5) valgono
infatti considerando come ipotesi nulla, indifferentemente, Ho oppure H1.
9. Approfondimento su alcuni aspetti logici
La questione centrale per il confronto fra valori-p e tutti i metodi derivanti da elaborazioni sulle funzioni di verosimiglianza è che i valori-p sono ottenuti tramite operazioni
(somme e integrali) sullo spazio dei risultati (lo spazio ) , mentre i metodi basati sulla
funzione di verosimiglianza operano sullo spazio dei valori dei parametri (lo spazio ).
Nel primo caso si ragiona cioè sempre sui risultati a priori possibili, condizionatamente
alle ipotesi, mentre nel secondo caso si ragiona sulle ipotesi condizionatamente al
20
risultato effettivamente osservato. Questo aspetto mette in luce il fatto che il valore-p
viola il cosiddetto “Principio della verosimiglianza”. Senza voler andare a fondo in una
questione piuttosto complessa, osserviamo che, a priori, sono incogniti sia la vera
ipotesi  che il risultato sperimentale x. Effettuato l’esperimento, il risultato diventa
noto (diciamo xoss), mentre il parametro resta incognito. Il principio logico della verosimiglianza (formalmente introdotto nel 1962 da A. Birnbaum ma in qualche modo già
rintracciabile in molte argomentazioni di R. A. Fisher) asserisce che l’evidenza prodotta
dalla realizzazione dell’esperimento dipende esclusivamente dalla funzione di verosimiglianza che, con una certa approssimazione nella notazione, possiamo scrivere () =
prob(xoss|). Di conseguenza la probabilità di verificarsi dei risultati che non si sono
verificati non dovrebbe avere alcun peso. E’ chiaro invece che quando si somma (o
integra) sullo spazio  vengono coinvolti anche i valori xxoss, e cioè si contravviene al
citato principio.
Per esempio, se guardiamo la Tabella 2.1 che è collegata all’esempio dei
sonniferi, rispettare il Principio della verosimiglianza significa che l’osservazione del
risultato x = 8, implica che la riga corrispondente è l’unica parte della tabella a dover
essere presa in considerazione. Quando invece si calcola un valore-p, con riferimento ad
una determinata ipotesi , si ragiona solo sulla corrispondente colonna. Si osservi infatti
che nel calcolo di Poss si sono sommate le probabilità su tutto l’insieme oss=
{0,1,2,8,9,10}, mentre di questi punti solo x=8 è il risultato effettivo, e tutti gli altri
valori non sono stati osservati. Paradossalmente, il valore-p si modifica anche se si
scambiano tra loro le probabilità di due valori non osservati. Molti Autori, condividendo
il principio della verosimiglianza, trovano assurdo che l’evidenza a favore di una
determinata ipotesi sia valutata diversamente a seconda di come si ripartisca la
probabilità (assumendo vera quell’ipotesi) sull’insieme dei valori non osservati.
Va osservato qui che, almeno nella concezione di R. A. Fisher, i valori-p vanno
utilizzati quando è definita una ipotesi nulla ma non le alternative, o almeno non in
modo preciso. Infatti, se si riflette sulla procedura, il valore-p associato all’ipotesi H0:
0 richiede solo l’uso della legge di probabilità P 0 (simbologia della sezione 3), non
le leggi P con 0. Pertanto il metodo del valore-p è applicabile anche quando il
modello matematico dell’esperimento non è completamente formulato. Lo stesso Fisher
21
(vedi in particolare Fisher 1973) fu ben chiaro nel raccomandare l’uso della funzione di
verosimiglianza nei casi in cui è esplicitato l’intero sistema delle alternative.
La sostituzione di valori “come e più estremi” rispetto a quelli effettivamente
osservati comporta di per sé la tendenza a fornire valori numerici di evidenza più bassi
del dovuto. Infatti “osservare xoss” è qualcosa che non sfavorisce l’ipotesi nulla tanto
quanto “osservare un risultato o come o più estremo di xoss”.
Un esempio classico è il seguente. Facciamo riferimento a campioni casuali nel
quadro del modello normale con media incognita  e varianza nota 2; in queste
condizioni, se l’ipotesi nulla è H0: 0, e l’alternativa è generale (), si calcola
usualmente la statistica
z
| x 0 |
/ n
dove x è la media aritmetica del campione. Calcoliamo ora, in corrispondenza dei
tradizionali valori critici di z, anche ( 0 ) (che coincide con il minimo fattore di Bayes
B(0,1) al variare della densità g() nella classe di tutte le funzioni di densità) e BN,
che è il minimo fattore di Bayes al variare della medesima densità nella classe di tutte le
densità normali con media 0. I risultati compaiono nella tabella 9.1
( 0 )
z
valore-p
BN
1.645
0.100
0.258
0.701
1.960
0.050
0.147
0.473
2.576
0.010
0.036
0.152
3.291
0.001
0.004
0.024
TABELLA 9.1 - Valori-p, verosimiglianze relative e fattori di
Bayes minimi in corrispondenza ad alcuni risultati possibili
Si noterà che i valori-p sono molto più piccoli delle altre misure di evidenza.
L’interpretazione non è semplice, perché la scala di riferimento implicita non è la stessa.
Ma il risultato z = 1.96, che è un valore tradizionale per “respingere” l’ipotesi H0: =0
al livello 5%, corrisponde ad una verosimiglianza relativa non piccola (0.147) e ad un
22
fattore di Bayes minimo addirittura grande (0.473). Va anche considerato che il calcolo
del minimo fattore di Bayes riduce di molto l’arbitrarietà nella scelta della densità g( )
(vedi sezione 7).
Se d’altra parte i valori-p fossero semplicemente più grandi per un fattore
costante basterebbe modificare i valori di riferimento (ad esempio: respingere l’ipotesi
nulla solo al livello 1% o a livelli più severi) e l’adozione del metodo non presenterebbe
problemi. In realtà i legami tra le diverse misure sono complessi e - se si considerano
ragionevoli e naturali le misure basate sulla funzione di verosimiglianza - la
considerazione dei valori-p può essere in vario modo fuorviante.
Un’altra prospettiva per esaminare la stessa situazione consiste nel prendere in
considerazione un particolare risultato campionario (fissando quindi i valori di x , n,  )
e confrontare i valori di
( ) (verosimiglianza relativa di ), Poss() (valore-p corri-
spondente al caso in cui  è il valore indicato dall’ipotesi nulla) e BN() (minimo fattore
di Bayes come nella Tabella 9.1, si intende ai fini del confronto di  con l’insieme delle
altre ipotesi possibili). Il confronto relativo al caso x  0, n  10,   1 compare nella
Figura 9.11
FIGURA 9.1 - Funzioni ( ) (linea continua), Poss() (linea a tratti brevi) e BN() (linea
a tratti lunghi) nel caso di un campione di 10 elementi e con media 0 da una
distribuzione normale con varianza unitaria.
1
Le formule sono
altrimenti.
   exp(z 2 / 2), Poss ( )  2(1  ( z)),
23
BN ( )  z e exp( z 2 / 2) se z>1 e 1
Un ulteriore ed importante elemento “oggettivo” di contrasto tra le misure di
evidenza di tipo frequentista e quelle di tipo condizionato è dato dal diverso ruolo da
esse assegnato al disegno dell’esperimento. Un esempio di grande rilievo nella medicina
clinica è quello basato sulle prove sequenziali.
Consideriamo una sequenza di n=5 prove ripetute che abbia dato, uno dopo
l’altro, s=4 successi e 1 insuccesso. Se consideriamo il valore n come prefissato, siamo
nel classico schema binomiale. Facendo riferimento all’ipotesi nulla H0 che la probabilità di successo sia =0.5, nell’ambito di uno spazio dei parametri : 0.51, i
risultati egualmente o più sfavorevoli all’ipotesi nulla sono soltanto 2: quelli con s=4 e
con s=5, cioè quelli con un numero di successi eguale o superiore. Pertanto il corrispondente valore-p è
B
Poss
  54  4 (1   )   5  0.187
Se invece assumiamo che lo stesso risultato (4 successi e 1 insuccesso) sia stato ottenuto
nell’ambito di una prova sequenziale caratterizzata dalla regola “ci si ferma dopo il
primo insuccesso”, i risultati a priori possibili (scrivendo l’intera sequenza dei risultati
elementari, 1 per successo e 0 per insuccesso) sono:
(0), (1,0), (1,1,0),....(1,1,...,1,0),...
e quelli egualmente o più sfavorevoli di quello osservato, che è (1,1,1,1,0), sempre con
riferimento all’ipotesi nulla e allo stesso spazio dei parametri, sono:
(1,1,1,1,0), (1,1,1,1,1,0), ...,(1,1,...,1,0),....
in quanto il numero dei successi è superiore o eguale a quello osservato. E’ facile
S
 0.062.
calcolare la corrispondente probabilità1 Poss
I due valori-p calcolati secondo lo schema binomiale e secondo lo schema
sequenziale, sono tra loro molto diversi. Ciò dipende dal fatto che le probabilità
calcolate si riferiscono anche ad osservazioni potenziali ma non reali. Il fatto che il
1Per
evitare una somma infinita, basta osservare che i risultati più favorevoli sono (0), (1,0), (1,1,0),
15
(1,1,1,0) e che loro probabilità complessiva, sotto H 0, è Q= 12  12  13  14  16
. Il complemento a 1 è il
2
valore di 0.062 indicato nel testo.
24
2
2
risultato osservato sia lo stesso, e che sia stato ottenuto con le stesse operazioni fisiche,
non garantisce quindi affatto, nei due schemi, che anche il valore-p sia lo stesso.
La verosimiglianza relativa di  è in entrambi i casi
     
( )  
 

 0.8   0.2 
4
ed in particolare è (0.5)  0.381.
Dunque, usando come misura di evidenza la verosimiglianza qui non importa
quale sia il disegno dell’esperimento (tra i due considerati); usando i valori-p si ha invece una sostanziale diversità di conclusioni. Vi sono scuole di pensiero che considerano
legittima tale influenza del disegno, ed altre che la considerano illegittima in quanto con quel risultato - i due disegni hanno prodotto la stessa funzione di verosimiglianza.
Senza pretendere di voler dire l’ultima parola su una questione così controversa,
ci limitiamo a sottolineare che in questa differenziazione (a nostro avviso la più importante nell’ambito della teoria statistica) non hanno alcun ruolo le probabilità a priori, e
le discussioni circa la loro ammissibilità nella elaborazione scientifica.
10. Il dibattito soggettivo/oggettivo
Il dibattito soggettivo/oggettivo investe molti aspetti della teoria dell’inferenza statistica
e quindi, inevitabilmente, anche della tematica della evidenza.
Un punto fondamentale, a monte della questione e forse largamente noto, si
connette alla concezione di “probabilità”. Sia pure con diverse varianti, le impostazioni
principali sono due: quella oggettivista e quella soggettivista.
La prima (oggettivista) vede la probabilità come un aspetto “fisico” di un
sistema reale. L’aleatorietà sarebbe quindi un aspetto intrinseco dei fenomeni. Ad
esempio la probabilità di Testa nel lancio di una moneta è una conseguenza, non
perfettamente nota, di aspetti concreti (tecnica di lancio, simmetria e bilanciamento
della moneta, turbolenza dell’aria,...). Una stima si può avere se effettuiamo diversi
lanci, e la stima stessa sarebbe sicuramente perfetta solo se potessimo eseguire infinite
prove. La probabilità viene infatti qui definita come “limite” delle frequenze osservabili
(tendendo all’infinito il numero delle prove), ed ha un ruolo del tutto simile a quello del
valore incognito (per esempio una lunghezza) che vogliamo misurare in presenza di
errori accidentali. La sensibilità  = prob(T+| M) nell’esempio del test diagnostico
25
(sezione 5) rappresenta una applicazione dello stesso concetto. Resta sottointeso che a
quella sensibilità si può assegnare il valore 0.95 proprio in quanto sono stati sottoposti
a prova numerosissimi (anche se non infiniti) individui omogenei colpiti dalla malattia
in questione; di fatto, nel quadro di questa impostazione, 0.95 è solo una stima della
probabilità vera. Il legame tra frequenza e probabilità, caratteristico di questa logica
argomentativa, spiega l’aggettivo “frequentista” che viene spesso usato in alternativa
(ma non in contrapposizione) a “oggettivista”. Le frequenze sarebbero in definitiva
l’aspetto oggettivo ed osservabile della probabilità.
La seconda concezione (soggettivista) guarda invece alla probabilità come alla
rappresentazione della informazione disponibile, per un determinato soggetto, con
riferimento ad un determinato evento. Anche se la formalizzazione matematica è fondamentalmente la stessa della impostazione oggettivista, l’interpretazione è diversissima:
la probabilità diventa uno strumento per comunicare informazioni; non ha senso parlare
di “probabilità vere” o di “stima della probabilità”. Inoltre non ha alcuna importanza che
l’evento in questione sia ripetibile, e che quindi si possano calcolare frequenze di
occorrenza in una serie di prove ripetute nelle stesse condizioni. Alla base della
probabilità c’è l’incertezza, non la variabilità intrinseca; ad esempio possiamo esplicitare la nostra probabilità soggettiva che la terza cifra decimale di  (qui il rapporto
circonferenza-diametro) sia 3, ma certo non si può pensare ad una successione di prove
in cui tale cifra qualche volta è 3 e qualche altra volta un altro numero.
I due concetti sono così diversi che, ad avviso di scrive (ma la questione è
comunque controversa), possono tranquillamente coesistere, sia pure al prezzo di
qualche superficiale contraddizione: per esempio la necessità di trattare probabilità
(soggettive) che le probabilità (oggettive) soddisfino determinate condizioni. Non
appare conveniente rinunciare alle probabilità oggettive come descrizione strutturale di
fenomeni per loro natura ripetibili. Lo stesso Bruno de Finetti (1906-1985), alla cui
opera è in maniera preponderante dovuta la diffusione nella letteratura e nella pratica
statistica delle probabilità soggettive, ha messo in luce, in fondamentali ricerche negli
anni ’30, la connessione fra i due concetti. Senza addentrarci in aspetti tecnici non
elementari, possiamo allora sintetizzare quei risultati affermando che vi sono semplici e
ragionevoli proprietà delle nostre valutazioni soggettive che giustificano operativamente
26
l’adozione di modelli descritti in termini frequentisti, senza alcuna necessità di ricorrere
all’ assunzione, di sapore metafisico, della intrinseca aleatorietà della realtà.
Riepilogando, le probabilità soggettive servono semplicemente a precisare in
termini concreti le nostre aspettative: assegneremo per esempio probabilità ½ all’uscita
di Testa nel lancio di una moneta se pensiamo che ci sia una perfetta simmetria tra i due
esiti possibili; se abbiamo informazioni diverse, eventualmente acquisendole mediante
prove empiriche, aggiorneremo le nostre valutazioni.
Le probabilità P che compaiono nei modelli statistici (sezione 2) hanno
tipicamente una interpretazione in termini di probabilità oggettiva. L’esperimento,
infatti, è sempre in linea di principio ripetibile e quindi l’elaborazione dei dati nel
quadro di un modello sperimentale, senza l’aggiunta di elementi esterni, è compatibile
con tutte le principali concezioni della probabilità; il modo di ragionare più comune,
peraltro, sempre se il riferimento è alle probabilità P, è quello in termini oggettivisti.
Nella impostazione bayesiana, però, compaiono le probabilità iniziali (generalmente
degli stessi parametri) che sono elementi esterni al modello e di solito non interpretabili
in termini di frequenze limite. Nella formula 5.3, per esempio,  è la probabilità iniziale
che il signor Rossi abbia la malattia, senza considerare l’informazione sperimentale
prodotta dal test. Intervengono in questa valutazione tutte le informazioni di cui si
dispone, sia specifiche del contesto (diffusione della malattia, rischi ambientali, ecc.)
sia, se le conosciamo, specifiche del signor Rossi (stato di salute generale, comportamenti rilevanti, ecc.). La probabilità soggettiva, dunque, non può essere ricavata per
deduzione dal modello dell’esperimento, ma può essere esplicitata solo con riferimento
al fatto concreto cui si riferisce. Usando l’impostazione bayesiana, gli stessi valori
osservati, a parità di modello, non portano necessariamente alle stesse conclusioni
inferenziali: dipende dai fatti a cui ci si riferisce. Questo per certi aspetti complica il
lavoro (che non è più solo matematico) ma dall’altra parte pare difficile negare che si
guadagna in realismo.
Prendendo molto sul serio la distinzione secondo cui le probabilità del modello
sono oggettive e quelle iniziali sono soggettive, sembra di poter dire che le misure
“oggettive” di evidenza sono soltanto i valori-p e quelle basate sulla sola funzione di
verosimiglianza. I fattori di Bayes per ipotesi composte, e quindi non riconducibili a
semplici rapporti di verosimiglianze (ma a rapporti di verosimiglianze integrate) dipen-
27
dono, sia pure parzialmente, dalle probabilità iniziali e l’“evidenza” che pure essi
misurano appare in un certo senso inquinata da elementi estranei al dato sperimentale.
Così come le probabilità finali, tali fattori di Bayes dovrebbero essere visti come misure
ibride, che mescolano evidenza e assunzioni a priori.
A nostro avviso la classificazione dei metodi e degli strumenti in oggettivi e
soggettivi è un po’ artificiosa e, se si approfondisce l’analisi, in definitiva poco
sostenibile. Ci sono sicuramente, nelle varie procedure, aspetti più o meno opinabili,
ma la differenza è di tipo, appunto, quantitativo e non qualitativo. Il carattere veramente
oggettivo delle probabilità del modello è piuttosto una convenzione che una realtà. La
sensibilità pari al 95% (v. l’esempio della sezione 5) nasce da molte prove su individui
“omogenei”: è difficile sostenere che tale omogeneità sia veramente oggettiva. Quella
omogeneità è stata stabilita sicuramente sulla base di conoscenze incomplete del
fenomeno; ad esempio non si può escludere che il test riceva risposte potenzialmente
diverse in relazione a caratteristiche dei pazienti non considerate per la verifica di
omogeneità. Nessun modello, si può dire, è perfettamente sicuro; l’analisi statistica
viene fatta nel quadro di un modello quando questo viene ritenuto attendibile (non
dimenticando che si tratta di modelli elastici, che non pretendono la stessa risposta ad
ogni trattamento), ma è opportuno mantenere il sospetto di una sua inadeguatezza. Un
altro importante aspetto critico, che colpisce tipicamente i valori-p, è il ruolo essenziale
che viene dato al disegno dell’esperimento, al punto che questo conta, ed eventualmente
conta molto, perfino a parità di risultati. Si pensi alle differenti valutazioni nel caso già
citato delle prove sequenziali: nel calcolo del valore-p sono importanti addirittura le
intenzioni dello sperimentatore, cioè cosa avrebbe fatto se i risultati fossero stati diversi
da quelli che si sono effettivamente realizzati. Se un’analisi oggettiva deve basarsi
rigorosamente solo sui fatti, l’inquadramento in un modello statistico è già una forzatura
e le tecniche inferenziali che sono influenzate dal comportamento potenziale nel caso di
risultati diversi appare come una contraddizione grossolana. In realtà (a nostro avviso) il
carattere scientifico delle procedure di analisi statistica sta nella possibilità di esplicitare
in modo completo le assunzioni, esponendole quindi a controlli critici e ad eventuali
modifiche, e non nella impossibile assenza di valutazioni soggettive.
L’approfondimento qui sviluppato sulla tematica soggettivo/oggettivo, con il
riconoscimento di un ruolo non evitabile della soggettività (controllabile solo mediante
28
l’adozione di elaborazioni trasparenti), è interno alla problematica specifica della
inferenza statistica, ed interpretazioni troppo estensive sarebbero pericolose e fuorvianti.
Da un punto di vista più globale la statistica medica ha avuto storicamente ed ha
tuttora un ruolo fondamentale per una medicina “scientifica”; la rivendicazione di una
“oggettività” rispetto ad una “soggettività”, intesa qualche volta come arbitrio personale
non sottoposto a controllo, è naturale e doverosa. In questo quadro il riconoscimento
che di regola un qualunque valore sperimentale va considerato affetto da una variabilità
accidentale, e che l’analisi statistica ha proprio lo scopo di “controllare” il conseguente
disturbo, resta un’acquisizione fondamentale e meritoria della cultura scientifica moderna. Questo è, in definitiva, il senso dello schema di “modello statistico” diffuso in
letteratura, con diversi raffinamenti, almeno a partire dagli anni ’30, ma sulla base di
concetti già avanzati, non sistematicamente, in precedenza. La riflessione sempre attuale
sulla metodologia dell’inferenza, ed in particolare su cosa costituisca evidenza statistica,
è però indispensabile per una più piena consapevolezza del valore e dei limiti di tutte le
procedure di analisi statistica.
11. Nota bibliografica
La tematica della evidenza in statistica (e in statistica medica in particolare) è un
argomento specificamente privilegiato dagli studiosi che sostengono la necessità,
nell’analisi dei risultati di un esperimento statistico, di rifarsi prioritariamente alla
funzione di verosimiglianza. Una importante e chiara trattazione moderna è:
- ROYALL, R. Statistical Evidence. A Likelihood Paradigm, Chapman and Hall,
London 1997.
Ci sono però importanti antecedenti storici che hanno sottolineato il ruolo
essenziale della funzione di verosimiglianza per rappresentare l’informazione prodotta
da un esperimento; citiamo il classico (non sempre di facile lettura)
- FISHER, R.A.: Statistical Methods and Scientific Inference, Hafner, New York 1973
e (ma questa volta la trattazione, di orientamento bayesiano, è ancora attuale):
- EDWARDS,W., LINDMAN,H. e SAVAGE,L.J.: Bayesian statistical inference for
psychological research, Psychological Review, vol.70 (1962), pp. 193-242 (anche in The
Writings of L.J.Savage - A Memorial Selection, American Statistical Association and
The Institute of Mathematical Statistics, Washington 1981).
La tematica in esame è tra le più controverse nell’ambito della teoria della
inferenza statistica; alcuni lavori interessanti in proposito, prevalentemente orientati alle
ricerche mediche, sono:
- BERGER J.O. e BERRY D.A: Statistical Analysis and the Illusion of Objectivity,
American Scientist 1988, pp. 159-165.
- GOODMAN, S.N.: Towards Evidence-Based Medical Statistics. 1: The P-Value
Fallacy, Annals of Internal Medicine vol.130 (1999) pp.995-1004.
29
- GOODMAN, S.N.: Towards Evidence-Based Medical Statistics. 2: The Bayes Factor,
Annals of Internal Medicine vol.130 (1999) pp.1005-1013.
- KADANE, J.B.: Prime Time for Bayes, Controlled Clinical Trials vol.16 (1995)
pp.313-18.
I lavori di Goodman sono reperibili anche sulla Rete all’indirizzo: http://www.
acponline. org; è inoltre interessante un numero speciale della rivista
- Statistics in Medicine, vol. 12 (1993) n.15-16.
Molte delle posizioni citate si ispirano alla impostazione bayesiana; per questa
una ottima introduzione elementare è:
- BERRY, D.A.: Statistics. A Bayesian Perspective, Duxbury Press, Belmont (Ca) 1996.
In particolare sul fattore di Bayes (anche per indicazioni bibliografiche più
complete) si può vedere come esposizione elementare:
- PICCINATO, L.: Il fattore di Bayes come strumento pratico di statistica applicata,
Dipartimento di Statistica Probabilità e Statistiche Applicate dell’Università “La Sapienza” di Roma, serie seminari, 1997, n.1.
Più in generale sulle controversie relative alle logiche inferenziali il Lettore non
principiante può vedere la parte seconda di
- PICCINATO, L.: Metodi per le decisioni statistiche, Springer-Verlag Italia, Milano
1996.
30