Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
TRACCIA DI STUDIO
Verifica di ipotesi
Test di confronto per misure qualitative
Nelle analisi statistiche di dati sperimentali riguardanti
più gruppi di studio (talvolta più variabili) si pone
come ipotesi da verificare la cosiddetta ipotesi zero:
quanto riscontrato sperimentalmente quale probabilità ha di verificarsi casualmente, cioè con campioni
provenienti da una stessa popolazione? Se la probabilità di un risultato giustificato dalla casualità è
modesta, viene rifiutata l’ipotesi zero e si pone l’ipotesi alternativa: i gruppi non sono omogenei, esistono giustificazioni per una differenza non casuale
(i diversi trattamenti sperimentali o la provenienza da
popolazioni diverse).
La probabilità tollerabile di errore nel rifiutare
l’ipotesi zero viene detta livello di significatività α e
convenzionalmente i livelli di uso comune sono il 5%
e l’1%. Rifiutare erroneamente l’ipotesi zero comporta
un errore di Tipo I; per contro, non rifiutarla quando è falsa porta a commettere un errore di Tipo II
con probabilità β.
Queste analisi inferenziali si basano sui parametri di distribuzioni teoriche di misure quantitative; in
altre situazioni, sono previste tecniche non parametriche.
Test del chi quadrato per campioni indipendenti
Quando si vuole stabilire se due percentuali differiscono oltre la variabilità legata al caso, il test di riferimento per campioni indipendenti è il chi quadrato, basato sulle frequenze assolute del riscontro
sperimentale e le frequenze teoriche attese nell’ipotesi di una loro distribuzione casuale.
Test di confronto per misure quantitative
Differenza tra medie di campioni indipendenti
Per il confronto tra due medie, si utilizza il test parametrico denominato t di Student, basato sulle stime campionarie delle medie e delle loro deviazioni
standard.
Differenza tra medie di campioni dipendenti
Quando ogni osservazione di un campione è accoppiata con una sola osservazione di un altro campione (appaiamento dei dati), il test che si utilizza
è il t di Student per dati appaiati. La situazione più
frequente riguarda misurazioni effettuate sugli stessi soggetti prima e dopo un trattamento. Il test è organizzato in modo da eliminare la variabilità individuale.
Analisi della dipendenza
La relazione fra due variabili in un campione può essere analizzata con due tecniche di significato diverso, ma complementari: la correlazione e la regressione.
Correlazione lineare
La correlazione lineare stabilisce il tipo e il grado di associazione tra due variabili. È negativa se all’aumentare di una l’altra diminuisce, positiva se si muovono
congiuntamente. Il grado di associazione è espresso
dal coefficiente di correlazione r, il cui valore è compreso, in termini assoluti, tra zero (nessuna correlazione) e uno (perfetta correlazione). Il coefficiente di
determinazione (r 2) fornisce l’indicazione della percentuale di variabilità di una variabile spiegata dall’altra, cioè la forza associativa tra le due. Il riscontro di
una associazione statistica non deve però essere identificato come un rapporto di causa ed effetto.
Regressione lineare
Nel caso di associazione statistica tra due variabili, la
regressione lineare ha un significato predittivo in quanto stima i valori di una di esse (definita dipendente) in
funzione dell’altra (indipendente o predittiva).
La retta di regressione rappresenta la migliore stima in base alla relazione tra due variabili, ma possiamo calcolare due rette di regressione a seconda
della variabile considerata indipendente. Queste due
rette tendono a coincidere quanto più elevato è il
grado di associazione tra le variabili, fino a identificarsi quando la correlazione è perfetta.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
ESERCIZI
1. Nella procedura di verifica di un’ipotesi statistica viene assunta come vera l’ipotesi zero o ipotesi nulla
H0. Vero o falso?
2. Da che cosa dipende il numero dei gradi di libertà nel contesto del test t di Student?
3. Che tipo di errore si commette se non si rifiuta l’ipotesi zero, quando è falsa?
4. Il rapporto relativo alla sperimentazione di un nuovo farmaco evidenzia un’efficacia superiore rispetto
a quella di un farmaco tradizionale e termina definendo il risultato significativo con p < 0.05. Il valore
0.05 a che cosa si riferisce?
5. Che cosa identifica la potenza di un test statistico?
6. In uno studio sul tempo di svuotamento gastrico condotto su due campioni di pazienti, uno di controllo
e l’altro costituito da soggetti edentuli, si sono rilevati i seguenti tempi (in minuti):
Controllo
97
87
95
89
96
92
99
92
95
89
87
89
Edentuli
102
85
93
91
99
101
90
96
98
89
97
100
92
94
Verificare, con opportuno procedimento statistico, se i soggetti edentuli presentano un rallentato svuotamento gastrico rispetto ai controlli.
7. Per verificare l’efficacia di un nuovo metodo di apprendimento, 15 pazienti con disturbi neurologici e
tic in età evolutiva vengono sottoposti a un test valutativo, i cui punteggi si possono considerare quantitativi e seguono una distribuzione normale, prima e dopo un mese di applicazione del nuovo metodo. Il quadro dei punteggi di ciascuno è riportato nella seguente tabella:
Prima
25
22
20
23
24
26
21
23
27
24
25
22
24
23
21
Dopo
26
24
25
22
25
25
26
24
27
25
24
23
24
22
23
Possiamo affermare che il nuovo metodo favorisce l’apprendimento dei pazienti?
8. Stabilire se si possano considerare diversi i risultati ottenuti nel reparto (A) rispetto a quelli del reparto (B):
Reparto (A)
Reparto (B)
Guariti
Migliorati
Stabili
Peggiorati
Totale
20
32
14
13
7
8
9
12
50
65
9. Per verificare la preferenza nell’uso di prodotti analgesici di largo consumo, si intervistano 120 pazienti chiedendo loro quale sia stato l’ultimo prodotto acquistato: 12 rispondono il farmaco A, 30 il B, 18 il
C, 8 il D, 48 l’E, 4 l’F. Verificare se la scelta rientra nella casualità.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
10. Date le seguenti misure:
Codice
paziente
Colesterolo
(mg/dl)
Acido urico
(mg/dl)
1
2
3
4
5
6
7
8
9
10
195
195
200
175
275
190
260
195
170
230
7.5
7.8
7.9
7.0
9.4
7.5
9.0
7.7
6.9
8.5
a)
b)
c)
d)
Disegnare un grafico a punti del colesterolo in funzione dell’acido urico.
Che cosa suggerisce il grafico?
Esiste una correlazione statistica tra le due variabili?
Utilizzando il colesterolo come variabile dipendente, calcolare l’equazione della retta di regressione
e interpretarne i parametri.
e) Calcolare e commentare il coefficiente di determinazione.
11. Su un campione di 10 feti con differenti età gestazionali sono state valutate ecograficamente le misure
della circonferenza cranica:
Caso
Età gestazionale
(settimane)
Circonferenza
cranica (cm)
A
B
C
D
E
F
G
H
I
L
25.0
26.0
27.0
30.0
31.0
26.0
29.0
24.0
22.0
24.0
22.0
23.0
24.0
26.0
27.0
24.0
26.0
21.0
20.0
22.0
a) A quale età gestazionale si prevede il raggiungimento di una circonferenza cranica di 25 cm ?
b) A quale età gestazionale possiamo ragionevolmente prevedere che la circonferenza cranica sia di 35 cm?
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
RISPOSTE
1. È corretto. In statistica viene valutata la probabilità che il risultato osservato (per esempio, la differenza tra le medie di due gruppi) si verifichi solo in virtù del caso (tenendo conto delle variabilità riscontrate), partendo dal presupposto che i gruppi di confronto provengano da una stessa popolazione. Se
la probabilità è superiore al livello di significatività prescelto, il risultato si considera compatibile con la
casualità della scelta campionaria; se è invece è inferiore, si rifiuta l’ipotesi nulla e si pone l’ipotesi alternativa che i campioni provengano da popolazioni diverse (per esempio, che le differenze riscontrate siano giustificate da situazioni o trattamenti diversi).
2. Bisogna considerare se il confronto è tra misure ripetute (dipendenti) oppure se i campioni sono indipendenti. Nel primo caso, i gradi di libertà sono dati dal numero di soggetti meno uno; per il secondo
caso, avremo il numero totale di soggetti meno due, cioè n 1 per ciascun gruppo.
3. La conclusione falsa negativa è legata all’incapacità di un test statistico di rilevare una differenza reale.
Viene definita come errore di Tipo II, al quale è associata la probabilità β.
4. Segnala che la valutazione statistica dei risultati sperimentali ha permesso di rifiutare l’ipotesi nulla al livello di significatività α 0.05, vale a dire che la probabilità di commettere un errore di Tipo I nell’affermare che il farmaco nuovo è più efficace di quello tradizionale è inferiore al 5%.
5. La potenza di un test statistico è la capacità di rifiutare correttamente l’ipotesi nulla, quando esiste una
reale differenza tra i valori campionari. In genere, dipende dalla numerosità campionaria ed è complementare all’errore di Tipo II, per cui corrisponde a una probabilità 1 β.
6. Dobbiamo effettuare un confronto tra i valori di una variabile quantitativa rilevata su due campioni indipendenti (le misure effettuate su di un campione non sono influenzate dall’altro). Nell’ipotesi che le
distribuzioni siano di tipo normale con varianze omoscedastiche (non significativamente diverse), il test di riferimento è il t di Student per dati indipendenti. Occorre calcolare, per ciascun gruppo, media e
devianza e poi applicare la formula per calcolo della statistica t.
Controllo
(14)
x2
Edentuli
(12)
x2
97
9409
87
95
7569 9025
89
7921
96
92
99
92
95
89
87
89
9216 8464 9801 8464 9025 7921 7569 7921
102
85
93
10 404 7225 8649
91
8281
99
101
90
96
98
89
97
100
9801 10 201 8100 9216 9604 7921 9409 10 000
Devianza Edentuli x2
92
8464
media
94
1293 92.36
8836 119 605
1141 95.08
108 811
(x)2
11412
108 811 320.9
N
12
12932
Devianza Controlli 119 605 187.2
14
xEd xC
t ––––––––––––––––––––––– ·
DevianzaEd DevianzaC
nEd nC 2
95.08 92.36
·
n
n ––––––––––––--––––
12
14 1.503.
nEd · nC
Ed
C
12 · 14
320.9 187.2
12 14 2
Con questo risultato, inferiore al livello critico t 2.064 (per 24 gradi di libertà e al livello di significatività α 0.05), non è possibile respingere l’ipotesi zero che i due campioni provengano da una stessa popolazione, pertanto la differenza riscontrata tra le velocità di svuotamento gastrico dei due campioni
è giustificata dalla casualità del campionamento.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
7. Dobbiamo utilizzare la statistica t di Student per dati dipendenti. Si devono preventivamente calcolare le
differenze riscontrate in ciascun paziente, la media delle differenze e la deviazione standard della media.
Prima
Dopo
25
26
22
24
20
25
23
22
24
25
26
25
21
26
23
24
27
27
24
25
25
24
22
23
24
24
23
22
21
23
Differenza d 1
Differenza d 2 1
2
4
5
25
1
1
1
1
1
1
5
25
1
1
0
0
1
1
1
1
1
1
0
0
1
1
2
4
d 15
d 2 67
15
1
d
15
(d0)00
d 2 000
n
2
sd n 1
225
67 00
0
15
3.7
1
4
1.93
15 1
d
1
· 1
5
2.00.
t · n
sd
1.93
Il valore critico del t di Student al livello α 0.05 con 15 1 14 gradi di libertà è 2.145. Il nostro valore è inferiore, anche se di poco. Non possiamo respingere l’ipotesi zero: affermare che il nuovo metodo aumenta la capacità di apprendimento comporta una probabilità di errore di Tipo I superiore al 5%.
Rimane tuttavia il dubbio che, a causa della numerosità modesta del campione, la potenza del test non
fosse adeguata a evidenziare una differenza. Prima di abbandonare il nuovo metodo, potrebbe essere
ripetuta l’esperienza con un campione più numeroso.
8. La variabile in esame è qualitativa, o meglio semiquantitativa, con quattro modalità, per cui non è proponibile un confronto con il test t di Student. Occorre verificare l’ipotesi zero di nessuna differenza tra
i reparti impiegando il test del chi quadrato. Dopo aver completato la tabella con i totali generali, si calcolano le frequenze attese considerando che, nel caso dell’ipotesi nulla, dovremmo riscontrare nei due
reparti le stesse proporzioni di casi del risultato complessivo. Con la formula che utilizza i totali marginali, le frequenze attese risultano:
52 · 50
21 · 65
guariti del reparto A: FA 22.61, …, peggiorati del reparto B: FA 11.87.
115
115
La tabella sottostante mostra il quadro generale (in corsivo le frequenze attese):
Reparto (A)
Reparto (B)
Totale
Guariti
Migliorati
Stabili
Peggiorati
20
14
7
9
22.61
11.74
6.52
9.13
32
13
8
12
29.39
15.26
8.48
11.87
52
27
15
21
Totale
50
65
115
(20 22.61)2
(14 11.74)2
(7 6.52)2
(9 9.13)2
χ2 22.61
6.52
9.13
11.74
(13 15.26)2
(32 29.39)2
(8 8.48)2
(12 11.87)2
1.37.
8.48
29.39
15.26
11.87
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
Con (4 1) (2 1) 3 gradi di libertà il valore critico al 5% è χ2 7.81, superiore a quello ricavato. Non vi è motivo di rifiutare l’ipotesi nulla e i risultati dei due reparti si possono considerare corrispondenti. Sono presenti alcune caselle con frequenza bassa, ma tutte le frequenze attese sono superiori
a 5. L’uso del test è quindi ammesso.
9. Inseriamo in una tabella i dati osservati:
Farmaco
A
B
C
D
E
F
Totale
Preferenze
12
30
18
8
48
4
120
L’ipotesi nulla è che non vi sia stata una preferenza per un particolare prodotto. In questo caso, la probabilità
di scelta casuale risulta uguale per tutti i farmaci H0: P(A) P(B) P(C) P(D) P(E) P(F) 1/6 e
le frequenze attese per ciascun farmaco sono 1/6 · 120 20 confezioni. Questo è un caso particolare di
impiego del test del chi quadrato, riferito a un singolo campione con le frequenze attese calcolate in base a una distribuzione teorica di riferimento. Si può organizzare una tabella delle frequenze e procedere
al calcolo del chi quadrato:
Frequenze osservate
Frequenze attese
A
B
C
D
E
F
Totale
12
20
30
20
18
20
8
20
48
20
4
20
120
120
(12 20)2
(30 20)2
(18 20)2
(8 20)2
(48 20)2
(4 20)2
χ2 67.6.
20
20
20
20
20
20
Il valore ottenuto supera il valore critico anche all’1% (con 5 gradi di libertà χ2 15.086). È lecito respingere l’ipotesi che la scelta sia stata casuale: i pazienti hanno maturato diverse preferenze verso quei
farmaci.
10. a) Da come è posto il quesito, si comprende che deve essere considerata indipendente la variabile acido urico, da inserire quindi sull’asse delle ascisse.
280
260
Colesterolo (mg/dl)
Colesterolo = –128.060 + 42.495 * acido urico
240
220
200
180
160
6.5
7
7.5
8
8.5
Acido urico (mg/dl)
9
9.5
b) Il grafico evidenzia una relazione positiva tra le variabili (all’aumentare dell’acido urico cresce anche il colesterolo), con i dati che tendono a distribuirsi in maniera lineare. Il legame (correlazione) tra
le due variabili può essere studiato statisticamente per analizzarne il segno (che dovrà risultare positivo) e il grado.
c) Per stimare il coefficiente di correlazione, occorre calcolare, oltre alle abituali sommatorie delle variabili e dei loro quadrati, la sommatoria dei prodotti (xy 195 · 7.5 … 230 · 8.5 16 768).
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
Colesterolo y
(mg/dl)
Acido urico x
(mg/dl)
208.5
2085
445 825
7.92
79.2
633.3
Media
x o y
x 2 o y 2
xy
16 768
Sostituendo i dati nella formula
x · y
xy n
79.2 · 2085
16 768 10
r ––––––––––––––––––––––––––––––––– ––––––––––––––––––––––––––––––––––––––
0.988.
( x)2
(y)2
x 2 n · y2 n
79.22
20852
633.3 · 445825 10
10
Per verificare l’esistenza di una correlazione che vada oltre la casualità, ovvero rifiutare l’ipotesi zero, si
ricorre alla distribuzione del t di Student. Considerando che la distribuzione campionaria di r è legata a
quella del t con 2 gradi di libertà mediante la relazione:
tr·
(n 2)
0.988 ·
1 r2
10 2
18.09.
1 0.976
Il valore è superiore quello critico al livello α 0.01 con 10 2 8 gradi di libertà (t 3.355). La correlazione riscontrata è pertanto diversa da zero con una probabilità di errore p < 0.01. Stessa conclusione si sarebbe raggiunta consultando direttamente la tabella dei valori critici della distribuzione r, sempre con 8 g.l.
d) Tra le infinite rette che è possibile tracciare, la retta di regressione è quella che rende minimi gli scarti tra i valori predittivi calcolati con la retta e i valori osservati: è il metodo dei minimi quadrati. I parametri della retta sono:
x · y
xy n
79.2 · 2085
16 768 10
b ––––––––––––––– ––––––––––––––––––– 42.495
79.22
(x)2
633.3 x 2 n
10
a y bx 208.5 42.495 · 7.92 128.060
e l’equazione risulta:
y 128.060 42.495 x.
L’intercetta a 128.060 è il valore previsto della variabile dipendente, in questo frangente il colesterolo, corrispondente allo zero della variabile indipendente, l’acido urico. Si tratta di valori puramente matematici, che non hanno alcun senso in quanto al di fuori dell’intervallo di ogni logica fisiopatologica.
Il coefficiente b (pendenza della retta) indica che per ogni mg/dl di acido urico il colesterolo aumenta
in media di 42.495 mg/dl.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.
Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera
e) Il coefficiente di determinazione è il quadrato del coefficiente di correlazione: r 2 0.9882 0.976.
Poiché r può assumere qualsiasi valore nell’intervallo 1 e 1, r 2 deve essere ovviamente compreso tra
0 e 1. Il coefficiente di determinazione indica che il 97.6% della variazione tra i valori osservati del colesterolo è spiegato dalla sua relazione lineare con l’acido urico, mentre il restante 100 97.6% 2.4%
è imputabile a fattori non spiegabili con i dati osservati.
11. Come nell’esercizio precedente, si preparano le informazioni per stimare i parametri della retta di regressione:
Media
x o y
x 2 o y 2
xy
Età gestazionale y
(settimane)
Circonferenza cranica x
(cm)
26.4
264.0
7044.0
23.5
235.0
5571.0
235 · 264
6263 10
b –––––––––––––––– 1.216
2352
5571 10
6263
a 26.4 1.216 · 23.5 2.188
L’equazione della retta è:
y 2.188 1.216 x.
a) Inseriamo il valore di 25 cm come variabile indipendente e otteniamo il numero di settimane necessarie:
y 2.188 1.216 · 25 28.2 settimane.
b) Per 35 cm saranno necessarie:
y 2.188 1.216 · 35 40.4 settimane.
Bisogna però considerare che la retta di regressione è stata calcolata su dati in cui la circonferenza varia tra 20 e 27 settimane, per cui rimane il dubbio sulla relazione al di fuori di questo intervallo: potrebbe
non esserci associazione o non essere lineare, oppure non essere adatta la precedente retta di regressione.
Copyright © 2007 - The McGraw-Hill Companies s.r.l.