UNIVERSITA’ DEGLI
STUDI DI PERUGIA
STATISTICA MEDICA
Prof.ssa Donatella Siepi
[email protected]
tel: 075 5853525
02 dicembre 2014
9° LEZIONE
Statistica inferenziale
Probabilità
Campione
Popolazione
Statistica inferenziale
Basi dei test statistici
LA VERIFICA DI
IPOTESI: TEST BASATI
SU UN CAMPIONE
La verifica di ipotesi
Verifica di ipotesi: metodologia per fare inferenza sui parametri della
popolazione alla luce dell’analisi delle differenze tra i risultati
osservati (statistica campionaria) e quelli che ci aspetteremmo se una
qualche ipotesi sulla popolazione fosse vera.
La verifica di ipotesi ha inizio con la formulazione del sistema di
ipotesi sottoposto a verifica.
Il sistema di ipotesi fa sempre riferimento a qualche parametro della
popolazione. Consiste sempre in due ipotesi contrapposte.
Test Z per la media (s noto)
Per verificare l’ipotesi che la media della popolazione sia uguale ad
un certo valore m, contro l’ipotesi alternativa che la media differisca da
tale valore, conoscendo s, si ricorre alla statistica Z:
X è distribuita come una normale => sotto H0
Z è distribuita come una normale standardizzata
Se Z assume valori vicini allo zero siamo portati ad accettare H0,
altrimenti si propende per rifiutare H0 (test a due code).
L’approccio del p-value
Negli ultimi anni, anche grazie all’ampia diffusione di pacchetti
statistici e fogli elettronici, si è affermato un altro approccio alla
verifica di ipotesi: l’approccio del p-value.
Il p-value è anche chiamato livello di significatività osservato.
Regola decisionale:
• se il p-value è maggiore o uguale ad a, l’ipotesi nulla viene accettata
• se il p-value è minore di a, l’ipotesi nulla è rifiutata
ANALIZZARE le FREQUENZE
Test Chi-quadrato
Confronto tra proporzioni
• I TESTS del CHI-QUADRATO sono
utilizzati per valutare l’omogeneità, la
casualità, l’associazione,
l’indipendenza e la bontà di
adattamento
TABELLE di CONTINGENZA
Frequenze di dati nominali raggruppati in
categorie sono spesso organizzate in
forma di tabella di contingenza. Il caso
più semplice implica due variabili casuali
dicotomiche;
le righe della tabella
rappresentano i risultati di una variabile e
le colonne i risultati dell'altra, i numeri
all'interno della tabella sono le frequenze
di una particolare combinazione di
categorie.
Test Chi-quadrato per la differenza tra
due proporzioni
Il problema della verifica di ipotesi sulla
differenza tra due proporzioni può essere
affrontato anche con una procedura basata su
una statistica test la cui distribuzione tende ad
approssimarsi con una distribuzione chiquadrato (χ2).
Se siamo interessati a confrontare le
proporzioni di casi che presentano una certa
caratteristica in due gruppi indipendenti
possiamo costruire una tabella a doppia
entrata (o di contingenza) di dimensioni 2×2
nella quale sono riportati il numero (o le
percentuali) di successi e insuccessi nei due
gruppi
• I risultati ottenuti nei campioni non sempre concordano
esattamente con i risultati teorici attesi secondo le regole
di probabilità, anzi, è ben raro che questo si verifichi.
• considerazioni teoriche ci portino ad attenderci 50 teste
e 50 croci da 100 lanci di una moneta, è raro che questi
risultati siano ottenuti esattamente, ma nonostante
questo non si deve per forza dedurre che la moneta sia
truccata.
• Supponiamo che in un particolare campione si sia
osservato che un insieme di possibili eventi E1, E2, …, Ek
si presenta con frequenze o1, o2, …, ok dette frequenze
osservate, e che, secondo le regole della probabilità, ci
si attenda che si presenti con frequenze e1, e2, …, ek
dette frequenze teoriche o attese:
Lo scopo del test χ² è quello di conoscere se le
frequenze osservate differiscono significativamente
dalle frequenze teoriche.
χ² = (O-E)2
E
χ² = (O-E)2
E
Test Chi-quadrato per Tabelle 2x2
Si consideri la tabella, che illustra
i risultati di uno studio di validità
del test da sforzo positivo (ST-2)
nel predire eventi cardiovascolari
CV nei 5 anni seguenti in soggetti
non sintomatici(1).
Esito
Eventi CV
Nessuno
Totale
I dati si riferiscono ad un
campione casuale di 514
soggetti sani arruolati in
uno studio eseguito nel
CPA di Milano.
SFORZO
Negativo
ST-2
13
21
366
114
379
135
Totale
34
480
514
CV: (morte improvvisa,infarto mortale, infarto semplice, angina)
ST-2:Presenza di anomalie nel tratto ST dell’ECG eseguito sotto
sforzo
514 soggetti sono stati arruolati nello studio
135 soggetti hanno avuto esito positivo;
379 soggetti hanno avuto esito negativo;
 Dei 379 con esito negativo, 13 svilupparono eventi CV e 366 no;
 Dei 135 con esito positivo, 21 svilupparono eventi CV e 114 no.
SFORZO
Esito
Negativo
ST-2
Totale
Eventi CV
13
21
34
Nessuno
366
114
480
Totale
379
135
514
I numeri all'interno della tabella 13 21 366 e 114 sono le frequenze osservate
IL TEST D'IPOTESI: Scopo: valutare capacità predittiva
della risposta ST-2 al test da sforzo
H0:
la frazione di soggetti ST-2
all’ECG da sforzo che
sviluppano eventi CV
è uguale
alla frazione di soggetti che
sviluppano eventi CV essendo
NEGATIVI all’ECG da sforzo
H1:
la frazione di soggetti ST-2
all’ECG da sforzo che
sviluppano eventi CV
è diversa
dalla frazione di soggetti che
sviluppano eventi CV essendo
NEGATIVI all’ECG da sforzo
Il livello di significatività è posto α=0,05
Si calcolano le frequenze attese sotto l’ipotesi nulla H0: La
proporzione di soggetti con eventi CV = 34/514 = 6.61%
Tra i 135 esiti positivi, ci
aspettiamo che gli eventi CV
• Presenza di eventi CV nel
6.61% dei casi
135 (0.0661) = 8.93
• Assenza di eventi CV nel
93.39% dei casi
135 (0.9339)= 126.07
Tra i 379 esiti negativi, ci
aspettia-mo
• Presenza di eventi CV nel
6.61% dei casi
379 (0.0661) = 25.05
• Assenza di eventi CV
nel93.39%
379 (0.9339) = 353.95
LE FREQUENZE ATTESE
La frequenza attesa per una della tabella è calcolata dal prodotto dei
totali di riga e di colonna diviso dal totale di tabella.
SFORZO
Esito
Eventi CV
379 ( 34/514)= 25.07
Nessuno
379 (480/514)= 353.93 135 (480/514) = 126.07
Totale
Negativo
13
ST-2
135 ( 34/514) =
8.93
21
366
114
379
135
I conteggi osservati erano 13 21 366 e 114
Totale
34
480
514
IL TEST CHI-QUADRATO
Il test chi-quadrato confronta le frequenze osservate in ciascuna
categoria, rappresentate da O, con le frequenze attese sotto l'ipotesi
nulla, indicate con E.
Il test saggia se le differenze (O-E) tra frequenze osservate e attese
siano troppo grandi perché siano attribuite al caso. Il test controlla le
differenze in tutte le celle.
Per eseguire il test per una tabella di
contingenza con (r) righe e (c) colonne, si
calcola la somma:
2
(O
-E
)
i
i
2
χ =
Ei
i=1
r×c
dove rc è il numero di celle nella tabella. La distribuzione di probabilità di
questa somma è approssimata una distribuzione chi-quadrato con gradi
di libertà (gdl)= (r-1)(c-1).
Importante calcolare i gradi di
libertà
test chi quadrato
Si intende uno dei test di verifica d'ipotesi
usati in statistica che utilizzano la variabile
casuale Chi Quadrato per verificare se
l'ipotesi nulla è probabilisticamente
compatibile con i dati.
A seconda delle ipotesi di partenza usate
per costruire il test, tali test vengono
considerati a volte parametrici e altre volte
non parametrici
Affinché si possa utilizzare il chi quadro e'
indispensabile:
a) che i dati siano indipendenti, cioe' nessun soggetto puo'
apparire in piu' di una cella della tabella;
b) che non piu' del 20 % delle frequenze attese nella
tabella puo' essere < 5 (altrimenti si deve usare il test
esatto di Fisher);
c) nessuna cella deve avere una frequenza attesa < 1
(altrimenti si deve usare il test esatto di Fisher).
d) Non c’è alcuna ipotesi di normalità sulla distribuzione
della popolazione di provenienza del campione. Per
questo fa parte della famiglia dei test non parametrici