Esercizi risolti di statistica inferenziale e studio delle associazioni

ESERCIZI DI INFERENZA STATISTICA E STUDIO DELLE ASSOCIAZIONI
Il livello di difficoltà degli esercizi è piuttosto omogeneo. Nei primi 10 forniamo spiegazioni
dettagliate, nei successivi solo i passaggi principali. Dall’esercizio 11 in poi non seguiamo l’ordine di
presentazione degli argomenti nel corso, in maniera da abituarci a riconoscere il problema (il tipo di
esercizio).
ES 1
3
In un collettivo di 40 pazienti osservati, la media dei globuli bianchi era pari a 2.9 (×1000/ml ) e la varianza
era pari a 0.336. Fornire una stima puntuale e una stima intervallare mediante Intervallo di Confidenza al
90% del valore medio atteso dei globuli bianchi nella popolazione dei pazienti affetti dalla malattia.
La stima puntuale della media della popolazione è semplicemente la media aritmetica del campione, qui 2.9;
infatti, la media aritmetica campionaria ne è uno stimatore non distorto e con altre proprietà (efficienza,
consistenza e altre).
La stima intervallare con IC90% si ottiene applicando la formula fornita – infatti, il campione è grande (n=40),
2
quindi possiamo utilizzare la formula, stimando la varianza della popolazione dal campione, qui s =0.336 (e
quindi s=0.579655≈0.58).

σ
σ  
0.58
0.58 
 x − zα ⋅
,
x
+
z
⋅
=  2.9 − 1.64 ⋅
,2.9 + 1.64 ⋅
α
 = (2.75,3.05)


n
n
40
40




2
2
(notare che utilizziamo il quantile 1.64, che lascia nella coda esterna una probabilità pari a 5%, e quindi nel
complesso delle 2 code il 10%; solitamente si costruiscono IC al livello 5%, e quindi si utilizza il quantile
1.96, che lascia appunto nella coda esterna un’area pari a 2.5%, e nella somma delle due code una
probabilità del 5%)
Quindi per un paziente di questo tipo ci aspettiamo in media un valore dei WBC compreso fra 2.75 e 3.05
(interpretazione clinica). Attenzione: questo non è il range dei valori dei WBC che ci possiamo attendere per
qualsiasi soggetto! Si veda l’esercizio 3 – e si riproduca per esso il ragionamento per questo esercizio.
ES 2
Un gruppo di 60 soggetti viene esaminato per la presenza una certa anomalia genetica, ed essa viene
individuata in 14 persone. Qual è la stima della prevalenza di questa anomalia genetica? (Fornire un
intervallo di stima al livello di confidenza del 95%)
La stima puntuale della prevalenza nella popolazione non è altro che la proporzione, o percentuale,
osservata nel campione, che è 14/60=23%. Siccome il campione è grande, per l’inferenza possiamo
assimilare il comportamento della proporzione a quello della media aritmetica per un campione di
osservazioni di un carattere quantitativo continuo. Quindi:
)
)
)
)
)
π
(1 − π ) )
π
(1 − π )  
0.23 ⋅ 0.77
0.23 ⋅ 0.77 
π − zα ⋅
 =  0.23 − 1.96
 = (0.13,0.34 )
,π + zα ⋅
,0.23 + 1.96




n
n
60
60
2
2

 

Dunque la prevalenza dell’anomalia nella popolazione è compresa fra il 13% e il 34%.
ES 3
La distribuzione del Body Mass Index (BMI = peso (kg) / [altezza (m)]^2) in una certa popolazione è
approssimativamente Normale, con deviazione standard pari a 2.2. In un gruppo di 26 individui estratti a
caso da quella popolazione, la media del BMI è risultata pari a 24.2. Calcolare un stima puntuale e
intervallare (IC95%) della media del BMI nella popolazione, e fornire la sua interpretazione.
Poi, assumendo che la media nella popolazione sia proprio uguale a quella stimata (stima puntuale), fornire
un range di valori del BMI tale che il 95% della popolazione sia compreso in quel range.
Il testo dell’esercizio ci permette di assumere la Normalità e la conoscenza della varianza (ci dà la
deviazione standard, che ne è la radice quadrata). Quindi sebbene il campione sia piccolo, possiamo usare
la nostra formula dell’IC - la stima puntuale di µ è semplicemente 24.2.
1

σ
σ  
2 .2
2 .2 
 x − zα ⋅
,
x
+
z
⋅
=  24.2 − 1.96 ⋅
,24.2 − 1.96 ⋅
α
 = (23.35,24.05)


n
n
26
26



2
2

Dunque per un soggetto estratto a caso dalla stessa popolazione da cui proviene il campione, ci aspettiamo
in media un BMI pari a 24.2, ovvero compreso fra 23.35 e 24.05.
Diciamo che questa è la previsione per l’individuo “medio”, ma poi sappiamo che attorno all’individuo medio
ve ne sono altri diversi, poichè il carattere (BMI) presenta una certa variabilità – espressa dalla deviazione
standard della popolazione, 2.2. Per avere dei range di valori possibili per il BMI, facciamo quindi riferimento
alle proprietà della Normale, di cui ora assumiamo di conoscere anche la media (avendola stimata nel
campione).
Essendo la distribuzione del BMI Normale di media (stimata) =24.2 e di deviazione standard =2.2, per le
proprietà della Normale sappiamo che il 95% dei valori del BMI sono compresi fra µ − 1.96 ⋅ σ e
µ + 1.96 ⋅ σ , ossia fra 19.89 e 28.51. Quest’ultimo è il range che ci aspettiamo per il 95% dei soggetti
provenienti da quella popolazione.
(Un range ancora più ampio, di raggio 3σ attorno alla media, fornisce la quasi totalità – 99.7% - dei valori
che possiamo attenderci: (17.6,30.8))
ES 4
Fra gli 80 pazienti trattati con un nuovo farmaco per una certa malattia, si osserva un valore medio dei
3
globuli rossi piuttosto basso (pari a 3.4×10 /ml), inferiore al valore medio di riferimento che per questo tipo di
3
3
soggetti è pari a 5×10 /ml. Sapendo che la deviazione standard del campione era pari a 4.5×10 /ml, si vuole
verificare se è corretto desumere che il trattamento può indurre un abbassamento dei globuli rossi.
Impostare quindi il test di ipotesi e svolgerlo sia col metodo del p-value, sia col metodo delle regioni di rifiuto.
Il test per rispondere a questo quesito va impostato in questo modo: l’ipotesi di base è la condizione ‘neutra’,
di riferimento, e quindi che il valore µ della media dei globuli rossi della popolazione è 5 (tralasciamo l’unità
di misura); l’ipotesi alternativa è che µ sia inferiore a 5.
Nota: il quesito focalizza sull’inferiorità, e quindi suggerisce di fare un test a una coda; tuttavia, non è
opportuno fare test a una coda con l’usuale livello di significatività 5%: è preferibile fare il test a due code al
livello 5%, ovvero, equivalentemente, fare il test a una coda con il livello alfa dimezzato al 2.5%: entrambe gli
approcci portano a prendere come limite della regione di rifiuto per la statistica test (la media del campione
standardizzata) il valore 1.96.
H0: µ=5 vs
H1: µ<5
Si osservi che nella formulazione delle ipotesi non si utilizzano i valori calcolati nel campione!!
Il test sulla media è il t-test, possiamo usare la nostra formula che vale in casi limitati, poiché abbiamo un
campione molto grande (n=80); la statistica tes è:
t=
X − µ0
3.4 − 5
=
= −3.18
σ n 4.5 80
(esso è il valore della media del campione standardizzato sotto l’ipotesi nulla, cioè prendendo come media
della Normale il valore µ0; al denominatore abbiamo lo standard error)
Osserviamo che il valore della statistica test è molto lontano dal valore che ci attenderemmo nel caso valga
l’ipotesi nulla, che è zero (assenza di differenza fra la media della nostra popolazione e il valore di
riferimento 5). Esso è al di sotto della soglia -1.96, quindi il test rifiuta l’ipotesi nulla al livello del 2.5% (test
unilaterale; ovvero al livello del 5% per il test bilaterale).
Per il calcolo del p-value, impostando il test come unilaterale, dobbiamo calcolare il valore nella coda
inferiore al di sotto di -3.18. Siccome la tavola non ci permette di leggere le aree per i valori negativi,
calcoliamo l’area che ci interessa come:
p = 1-Φ(3.18) = 1-0.999 = 0.001
(Se avessimo impostato il test a due code, questo valore andrebbe moltiplicato per 2: p=0.002)
2
ES 5
Fra gli stessi 80 pazienti dell’esercizio 4, si osserva anche l’insorgere di dermatite in 25 di essi. La dermatite
è in effetti un disturbo collaterale che si presenta nel 10% dei soggetti affetti dalla malattia. Si deve
desumere che il trattamento modifica l’incidenza della dermatite? Effettuare un test di significatività a due
code sia col metodo del p-value, sia col metodo delle regioni di rifiuto, al livello del 5%.
Con questo esercizio ripetiamo praticamente il precedente, infatti con questo grande campione l’inferenza
sulla percentuale π di casi che soffrono di dermatite (carattere dicotomico) è svolta con gli stessi metodi
usati per una media di un carattere continuo.
H0: π =0.10
vs
H1: π ≠0.10
(Rimarchiamo che nel formulare le ipotesi non utilizziamo i valori osservati sui campioni; qui il test ha una
ipotesi alternativa bilaterale perché così ci prescrive l’esercizio; i test dovrebbero comunque sempre essere
bilaterali, o, se proprio si può escludere a priori che una differenza possa andare in uno dei due sensi,
comunque la significatività deve essere valutata con riferimento a valori alfa più piccoli (dimezzati) rispetto al
test a due code – come è stato fatto nell’ES 4)
Dal campione si ottiene la stima puntuale πˆ = 0.31 , il cui errore standard è
)
)
π (1 − π )
n
= 0.052 ; la
statistica test è pari a 4.10. Questo valore è ancora più lontano dal valore 0 atteso sotto H0 di quanto non
fosse nell’esercizio precedente. Il test rigetta l’ipotesi nulla al livello di confidenza del 5%, e comunque i dati
mostrano una differenza fortemente significativa tra il valore osservato nel campione è quello di riferimento
(p<0.0001 – è una notazione adatta per quando i calcoli – che comunque sono arrotondati – danno p=0).
Secondo questo studio, il trattamento aumenta l’incidenza della dermatite.
Vediamo in aggiunta un ulteriore metodo per effettuare il test al livello del 5%: calcoliamo l’IC al livello 95%:
esso è pari a (0.21,0.41). Siccome il valore π =0.10 dell’ipotesi nulla non è compreso nell’intervallo, l’ipotesi
nulla è rigettata al livello 5%. Ovviamente questo metodo è comodo quando già si dispone dell’IC calcolato
(avendo cura di controllare la coerenza fra il livello di confidenza 1-α e il livello di significatività α del test a
due code).
ES 6
Un medico dietologo “inventa” un nuovo tipo di dieta (A) per facilitare la riduzione di peso. Decide di
confrontarne l’efficacia rispetto al tipo di dieta che prescriveva precedentemente (B). Dispone dei risultati di
due gruppi di pazienti, 39 trattati con la vecchia dieta B, che hanno perso in media 2.9 kg (std=1.2kg), e 34
trattati con la nuova dieta A, che hanno avuto una riduzione di peso media di 3.5 kg (std=1.1kg). Ipotizzando
la Normalità della perdita di peso e l’uguaglianza delle varianze, effettuare un test di ipotesi al livello del 5%
bilaterale. E’ corretto affermare che la dieta A è migliore della dieta B? quali valutazioni sui due campioni
bisognerebbe fare per essere maggiormente sicuri della conclusione?
Impostiamo il test fissando anzitutto le ipotesi di base e alternativa:
H0: δ = µA- µB = 0
H1: δ = µA- µB ≠ 0
vs
Questi due gruppi sono indipendenti in quanto i soggetti del gruppo A non sono gli stessi del gruppo B, e non
condividono con essi fattori comuni (come potrebbe accadere se si trattasse di gruppi familiari, ad esempio
di fratelli – che pur non vivendo insieme condividerebbero fattori genetici e fattori ambientali dell’infanzia – o
coniugi – che condividerebbero fattori ambientali, abitudini etc)
Il confronto fra questi due gruppi che hanno numerosità ampie e provengono da distribuzioni con la stessa
varianza (come afferma il testo dell’esercizio) può essere fatto applicando le formule del t-test:
s=
(n1 − 1)s12 + (n2 − 1)s2 2
n1 + n2 − 2
=
(34 − 1)1.12 + (39 − 1)1.2 2
34 + 39 − 2
= 1.156
(La quantità s2 è una stima della comune varianza delle due popolazioni (notiamo che è una specie di media
ponderata delle due varianze campionarie; al denominatore si divide per n1+n2-2 per ottenere uno stimatore
corretto)
t=
y1 − y2
3 .5 − 2 .9
=
= 2.22
1 1
1
1
s
+
1.156
+
n1 n2
34 39
3
Applicando il metodo della regione rifiuto, possiamo rigettare l’ipotesi di base di assenza di differenza fra la
media di A e la media di B al livello di significatività del 5% (il valore soglia per il test bilaterale è 1.96).
Volendo valutare la significatività statistica calcolando il p-value, andiamo sulle tavole e in corrispondenza di
2.22 leggiamo 0.987; dunque l’area in una delle due code esterne è 1-0.987=0.013, e la probabilità
complessiva di andare in una delle due code esterne (il p-value del test bilaterale) è 0.026.
Dunque la differenza osservata fra le due medie risulta abbastanza significativa, i dati supportano l’ipotesi
che la dieta A sia più efficace in termini di riduzione di peso. Questa associazione “statistica” può indicare un
nesso di causalità SE i due gruppi sono simili per composizione – rispetto a tutte le caratteristiche
potenzialmente influenti sulla riduzione del peso, sesso, età, attività fisica etc – ovvero in assenza di fattori di
confondimento, e se anche le metodiche della misurazione sono le stesse nel gruppo A e nel gruppo B
(assenza di bias da osservazione o altra forma di distorsione).
ES 7
Un gruppo di 7 soggetti viene sottoposto a un trattamento per l’ipertensione. Si misura la pressione
diastolica (minima) prima e dopo un certo numero di giorni di trattamento: i risultati sono in tabella. Si vuole
valutare se il trattamento ha effetto: possiamo impostare un test fra quelli che conosciamo?
Soggetto
1
2
3
4
5
6
7
prima
118
100
108
97
120
102
104
dopo
100
105
89
78
96
97
88
Il (primo) problema di questo esercizio di confronto fra due gruppi è che essi (“prima” e “dopo”) sono
appaiati, ovvero non si tratta di campioni indipendenti: pertanto non si può procedere come nell’ES 6.
Potremmo lavorare sulle differenze Dopo-Prima, e quindi su un campione di 7 osservazioni di questo nuovo
carattere, che chiameremo Riduzione, e andare a testare le ipotesi:
H0: δ = 0
vs
H1: δ≠ 0
con il t-test per campioni singoli (come nell’ES 4). L’ulteriore problema è che il campione è molto piccolo e
non conosciamo nemmeno la sua varianza, quindi non possiamo usare il t-test nella sua forma più semplice.
Nel seguito quindi svolgiamo l’esercizio utilizzando le tavole della distribuzione T di Student (nota: questo
test ovvero tutti i metodi che utilizzano la T di Student potrebbero non essere parte del programma d’esame;
il concetto “campioni dipendenti” è stato comunque presentato, e lo svolgimento del test può essere
guardato anche se non in programma!)
I dati sono:
Soggetto
1
2
3
4
5
6
riduzione
18
-5
19
19
24
5
quindi la media osservata è 13.71, la deviazione standard osservata è 10.095, e la statistica test è:
t=
7
16
X − µ0
13.71 − 0
=
= 3.59
σ n 10.095 7
La regione di rifiuto per un test di livello alfa pari a 5% (bilaterale) è costituita dalle due code esterne dei
valori minori e maggiori di ± il valore soglia che troviamo sulla tavola della distribuzione T con 6 gradi di
libertà, che vale 2.447. La nostra statistica test cade nella regione di rifiuto, quindi H0 è rigettata al livello del
5%: i dati supportano l’ipotesi che il trattamento induca una riduzione della pressione.
ES 8
186 pazienti hanno fatto una terapia per una certa malattia; 122 hanno seguito la terapia A, gli altri 64 hanno
seguito la terapia B. Nel gruppo A, hanno risposto 37 soggetti. Nel gruppo B, hanno risposto 32 soggetti.
Calcolare le percentuali di risposta e il Risk Ratio assumendo come gruppo di confronto (baseline) il
trattamento A. Per valutare la significatività della differenza nelle percentuali di risposta utilizzare un test ChiQuadrato.
Riportiamo i dati in una tabella, completandola.
4
Trattamento
A
B
tot
Risposta
no
si
85 37
32 32
117 69
Tot
122
64
186
Le percentuali di risposta si calcolano guardando ai profili-riga, ovvero alle distribuzioni della Risposta
condizionate ai due diversi livelli del carattere Trattamento: pA = 37/122 =0.3 , pB= 32/64=0.5. Il Risk Ratio è
0.5/0.3=1.65: la probabilità di risposta con B aumenta del 65% rispetto ad A.
Sappiamo che esistono dei test appositi per l’ipotesi che il risk ratio sia =1 nella popolazione, ovvero che non
vi sia differenza nelle percentuali di risposta coi due trattamenti; tutavia per grandi campioni si può applicare
anche il test del Chi-Quadrato che conosciamo.
L’ipotesi di base H0 è che non vi è associazione fra Trattamento e Risposta, l’ipotesi alternativa è che vi sia
associazione, ossia in questo caso che vi sia una differenza fra le percentuali di risposta dei due gruppi A e
B nella popolazione da cui essi provengono.
Il Chi-Quadrato si basa su una misura di distanza fra le frequenze che abbiamo osservato e quelle che
osserveremmo se i due campioni si comportassero come secondo l’ipotesi nulla:
freq. attese:
Trattamento
A
B
Risposta
no
si
76.74 45.26
40.26 23.74
differenze (addendi della statistica test):
Risposta
Trattamento no
si
A
0.889 1.507
B
1.694 2.872
Chi-quadrato=6.962, superiore al valore soglia che per un test al livello del 5% avendo 1 grado di libertà
(tabella 2x2) è 3.841. Quindi il test rigetta l’ipotesi nulla di assenza di differenza al livello di significatività del
5%. Osserviamo che anche scegliendo un livello di significatività più basso pari a 0.01 – e quindi un test più
prudente, che richiede maggiore “forza” dell’evidenza contraria ad H0 per poterla rigettare – abbiamo
comunque il rifiuto di H0 (il valore soglia è 6.635).
ES 9
Data la seguente serie di dati su Peso e Altezza di 8 pazienti, calcolare una misura dell’associazione, poi ,
individuare la retta che descrive la dipendenza del Peso dall’Altezza, e dire che Peso è predetto dal modello
per un soggetto alto 165 cm. Osservando che il soggetto id=1 ha altezza 165 cm e peso osservato 55.2,
commentare la congruenza fra modello e dati.
id Altezza, cm Peso, kg
1 165
55.2
2 157
48.1
3 168
65.6
4 178
72.0
5 171
73.5
6 182
77.9
7 182
80.3
8 153
49.4
La misura di associazione che possiamo calcolare è il coefficiente di correlazione lineare: (usiamo le ‘formule
rapide’ della covarianza e delle deviazioni standard)
Altezza, X Peso, Y
165
55.2
X*Y
X^2
Y^2
9108
27225
3047.04
5
somma
somma/n
157
48.1
7551.7
24649
2313.61
168
65.6
11020.8
28224
4303.36
178
72
12816
31684
5184
171
73.5
12568.5
29241
5402.25
182
77.9
14177.8
33124
6068.41
182
80.3
14614.6
33124
6448.09
153
1356
169.5
49.4
7558.2
23409 2440.36
522
89415.6
230680 35207.12
65.25 11,176.95
28,835 4,400.89
- media^2
104.75 143.3275
* n/(n-1)
119.7143 163.8029
sqrt
10.9414 12.79855
Covarianza = 11,176.95 – 169.5 · 65.25 = 117.065
Coeff. di Correlazione r = 117.065 / (10.94 · 12.80) = 0.836
Il valore di r indica una forte associazione positiva fra i due caratteri.
Calcoliamo ora la pendenza e l’intercetta della retta di regressione:
b = 11176.95 / 119.7143 = 0.978
a = 65.25-0.978·169.5= -100.513
Il valore di peso predetto dal modello di regressione così stimato per un soggetto di altezza 165 è quindi:
y*= -100.513+0.978·165=60.84
Il modello ha sovrastimato il peso del soggetto id=1 (ma l’ordine di grandezza è abbastanza coerente; se
fosse venuto molto diverso, avremmo doverosamente ricontrollato i calcoli ...)
ES 10
Uno studio clinico riguarda l’efficacia di un antibiotico sperimentale B comparato all’antibiotico standard A,
misurata in termini di riduzione della probabilità di Resistenza (un trattamento è tanto più efficace quanto più
riduce la probabilità di resistenza). La seguente tabella riporta i risultati di un modello di regressione logistica
dove si considera il fattore principale (Trattamento) e tre possibili fattori di confondimento.
Ricordiamo che la regressione logistica è un tipo di modello lineare, valido per misurare l’effetto di una serie
di variabili su una variabile risposta dicotomica, in questo caso Resistenza=Y/N. I risultati sono forniti in
termini di Odds Ratio, con stima puntuale, intervallo di confidenza al livello 95%, e il p-value per la
significatività dell’effetto.
Nota: l’Odds Ratio potrebbe non essere nel programma d’esame. Tuttavia, sapendo che l’OR è una misura
simile al Risk Ratio (con OR=1in caso di uguaglianza delle probabilità confrontate, OR>1 se il fattore
aumenta la probabilità, etc) si può seguire l’esercizio, che riguarda concetti generali.
Fattore
Trattamento B vs. A
Precedente Infezione
Microglobuline Beta2 alte
Anomalia DEL13
OR
95% CI
p-value
0.47
1.44
2.36
0.31
0.88
1.35
0.72
2.36
4.12
0.000428
0.142867
0.002690
2.03
1.29
3.17
0.000518
Rispondiamo alle seguenti domande:
a) Il trattamento sperimentale è superiore al trattamento standard?
b) Aver avuto una Precedente Infezione è un fattore di rischio?
c) Qual è il fattore di rischio più importante?
d) Qual è l’effetto delle microglobuline Beta2 alte?
(a) L’antibiotico sperimentale è più efficace dell’antibiotico standard in quanto riduce (OR<1)
significativamente (p<0.001) la probabilità di resistenza rispetto all’antibiotico standard A. Questo
risultato sembra valido poiché abbiamo controllato per tre possibili confondenti
6
(b) Abbiamo un p-value al di sopra della soglia “canonica” di significatività (5%) e comunque vediamo
che l’intervallo di confidenza contiene sia valori <1 (Precedente Infezione fattore protettivo) che
valori >1 (fattore di rischio). Vuol dire che non abbiamo evidenza ne’ in un senso ne’0 nell’altro,
quindi accettiamo l’ipotesi nulla che è che non vi è associazione fra Precedente Infezione e
Resistenza. In breve: No, non è un fattore di rischio.
(c) L’importanza del fattore di rischio non va valutata guardando alla significatività, come purtroppo
spesso viene fatto. Guardando agli OR, potremmo rispondere che il fattore di rischio più importante
è l’innalzamento delle microglobuline beta2, seguito dall’anomalia DEL13.
(d) L’odds di resistenza con microglobuline “alte” aumenta circa del 136% rispetto al caso di
microglobuline “basse”. (L’effetto è molto significativo; quanto sia clinicamente rilevante è però
difficile da dire visto che l’OR non è una misura di confronto facilmente interpretabile. Dato che l’OR
approssima il RR se l’evento in questione è raro, nel caso in cui sapessimo che la Resistenza è un
evento con probabilità molto piccola, potremmo probabilmente dire che l’effetto delle microglobuline
alte, quantificato come RR≈2.4, è “importante”).
ES 11
In un reparto chirurgico si utilizzano due tipi di anestesia, col primo (A) la degenza dura in media 2.3 giorni,
con deviazione standard 0.83 (campione di 37 soggetti); col secondo tipo B, la degenza ha media e
deviazione standard rispettivamente pari a 2.8 e 0.79 (campione di 42 soggetti). La differenza è
statisticamente significativa al livello dell’1%? Rispondere utilizzando sia il metodo del p-value che le zone di
accettazione e rifiuto.
H0: le medie della degenza sono uguali; H1: sono diverse
Occorre assumere che i due gruppi provengano da distribuzioni con la stessa varianza. La stima della
2
comune varianza è s =0.6543. La statistica test è 2.7427. Quindi Ho è rigettata al livello di significatività
dell’1% (valori soglia: ± 2.58). Calcoliamo comunque il p-value: Φ(2.74)=0.997, p=2x(1-0.997)=0.006
ES 12
Solitamente una patotologia neurologica degenerativa compare attorno all’età di 78 anni, con distribuzione
Normale e deviazione standard pari a 5.3 anni. Fra persone che hanno fatto in passato uso di un certo
farmaco, si sono registrati n=10 casi di quella patologia neurologica tutti prima dei 75 anni, con una età
media pari a 73.8. Questi dati indicano che l’insorgenza della patologia neurologica è anticipata in questi
soggetti?
Impostiamo il test a due code con livello di significatività 5%.
H0: la media µ dell’età all’insorgenza è pari a 78; H1: µ≠78
La statistica test è il valore della media del campione, 73.8, standardizzato sotto l’ipotesi nulla: (73.878)/(5.3x√10)=2.506. Quindi Ho è rigettata al livello di significatività del 5% (valori soglia: ± 1.96). Calcoliamo
comunque il p-value: Φ(2.51)=0.994, p=2x(1-0.994)=0.012
ES 13
Riprendiamo il caso del reparto chirurgico che utilizza due tipi di anestesia. Fra i casi operati con anestesia
A, 12 hanno avuto un problema connesso all’anestesia. Fra i casi operati con B, ci sono stati altri 12 pazienti
con quel problema. Possiamo dire che esiste una relazione fra tipo di anestesia e insorgenza del problema?
Dobbiamo mettere i dati in una tabella doppia e calcolare il Chi-Quadrato, poi confrontarlo con la soglia per il
livello di significatività scelto.
group
X=0
X=1
tot
A
25
12
37
B
30
12
42
tot
55
24
79
Freq. attese:
25.76
29.24
11.24
12.76
Chi2=0.139
Questo valore è molto vicino a 0, ed è inferiore persino alla soglia di significatività per alpha=10% (2.706).
Dunque accettiamo l’ipotesi nulla che non vi sia relazione fra tipo di anestesia e insorgenza del problema.
7
ES 14
Per 6 pazienti sono noti i valori dell’emoglobina registrati prima e dopo una chemioterapia: si può concludere
che la chemioterapia riduce l’emoglobina?
prima dopo
13.0
9.4
12.8 11.5
11.0 11.5
13.2 13.1
12.5 10.2
11.9 12.0
Questo è un caso di campioni dipendenti: i dati sono “appaiati”, essendo ciascuna misurazione riferita llo
stesso paziente. Non si tratta quindi di un confront fra medie come nell’esercizio 11.
La risoluzione è tramite un T-test per dati appaiati, come nell’esercizio 7.
ES 15
In un campione di 60 persone che si sono rivolte a un servizio di consulenza psicologica, 17 avevano preso
psicofarmaci senza prescrizione. Fornire una stima puntuale e intervallare (al livello 95%) della percentuale
di soggetti che fanno ricorso a psicofarmaci senza prescrizione. Nel sottogruppo osservato, la percentuale è
inferiore al valore stimato nell’intera popolazione, pari a 30%?
Stima puntuale: p=17/60=28%
Stima intervallare: la varianza stimata è p(1-p)/n =0.0034; quindi il raggio dell’intervallo è 0.114
IC95%=(0.169,0.397)
Siccome il valore 0.3 è incluso nell’intervallo, non abbiamo evidenza per rigettare l’ipotesi nulla che π=30%.
Ossia, No, non possiamo concludere che in questo sottogruppo la percentuale è inferiore al valore che si ha
nell’intera popolazione.
ES 16
Al primo test di Statistica dell’anno accademico passano 42 studenti, e la media dei voti è 27.1. Secondo i
dati raccolti negli anni accademici precedenti, la media è 26.5 con deviazione standard 3.7. Abbiamo
evidenza per concludere che gli studenti dell’a.a. corrente sono più bravi degli anni precedenti?
Facciamo un T-test per la media µ dei voti nella coorte dell’a.a. corrente. H0: µ=26.5, H1: µ≠26.5. Lo
facciamo a 2 code con alpha=5%. La popolazione potrebbe non essere Normale, ma il campione è grande
(n=42) quindi possiamo procedere, utilizzando come deviazione standard il valore noto 3.7.
Statistica test = (27.1-26.5)/(3.7·√42) = 1.051
Questo valore non è sufficientemente lontano da 0 per poter concludere che gli studenti siano più bravi,
ossia provengano da una popolazione con media µ superiore a 26.5. Per poter trarre quella conclusione,
avremmo voluto un valore della statistica test superiore a 1.96. Il p-value è pari a 0.293.
Quindi concludiamo accettando l’ipotesi nulla. Questo vol dire che lo scostamento della media osservata
27.1 dal valore di riferimento 26.5 è attribuibile al caso (questo è il significato del termine “non significativo”).
ES 17
In un campione di 164 volontari è stato somministrato un test psicologico per valutare il livello di stress
(0=lieve o assente, 1=moderato, 2=alto. I volontari erano stati divisi in due gruppi, ogni giorno il primo gruppo
(n=82) aveva fatto una passeggiata nei boschi, il secondo gruppo (n=82) aveva passeggiato in città. La
distribuzione dello Stress era risultata:
Bosco
Città
Stress=0 Stress =1 Stress =2
46%
39%
15%
28%
45%
27%
I ricercatori vorrebbero dimostrare che passeggiare nei boschi è associato a un minor livello di stress rispetto
al passeggiare in città: fare un opportuno test di significatività al livello del 5%.
Il primo passo è disporre i dati in una tabella: infatti, i due caratteri solo qualitativi, e fra gli strumenti che
conosciamo possiamo utilizzare il Chi-Quadrato, il quale necessita delle frequenze assolute.
Ad esempio, la frequenza della cella Bosco/Stress=0 è pari a 0.46·82=38.
8
Stress=0
Stress =1
Bosco
38
Città
23
tot
61
Calcoliamo le freq attese:
30.50
34.50
30.50
34.50
17.00
17.00
Poi gli addendi del Chi-Quadrato:
1.844
0.181
1.844
0.181
1.471
1.471
Stress =2 tot
32
12
37
22
69
34
82
82
164
Chi-Quadrato=6.992. La soglia per 2 gradi di libertà (3-1)·(2-1) e alpha=5% è 5.991. quindi rigettiamo
l’ipotesi nulla e concludiamo che c’è una associazione statisticamente significativa fra luogo delle camminate
e stress.
E’ importante osservare che il Chi-quadrato valuta genericamente se c’è una differenza fra le freq osservate
e quelle attese sotto l’ipotesi nulla di indipendenza, ma non valuta specificatamente se camminare nei
boschi è associato coi valori di stress più bassi. Per questa valutazione esistoo test specifici (test del trend).
Qui ci limitiamo ad osservare che le distribuzioni condizionate (date dal testo dell’esercizio) sembrano
effettivamente indicare questo.
Un’altra osservazione importante è che – qui come in quasi tutti gli esercizi – stiamo assumendo che non ci
siano fattori di confondimento; sappiamo che questo tipo di valutazioni possono essere fatte in step
successivi delle analisi, ad esempio con modelli di regressione (come nell’ES 10).
ES 18
Ancora sui risultati del primo test di Statistica dell’anno accademico. Sono passati 42 studenti su 53
presentatisi, stimare con un intervallo la probabilità di passare. Dire poi se essa è significativamente
superiore a 70%.
p=42/53=0.79, con 95%CI=(0.68,0.90) (la deviazione standard è 0.0557). Il valore 0.7 è compreso, quindi
No, la probabilità di passare non è significativamente (al livello canonico 5%) diversa da 70%.
Tuttavia, osserviamo che 0.7 è molto vicino al limite inferiore dell’intervallo di confidenza: vuol dire che H0:
π=0.7 è accettata con un p-value non molto piccolo. Calcoliamolo.
La statistica test è 1.6596, p=0.096 =(1-0.952)x2
E’ probabile che prendendo un campione un po’ più numeroso si possa riuscire a rigettare l’ipotesi nulla,
dimostrando che la probabilità di passare l’esame è superiore a 70%.
ES 19
In uno studio sugli adolescenti sulla correlazione fra ore/giorno passate a giocare a videogiochi (X) e indice
di depressione (Y, con valori da 1 a 100, 100 indicante alto livello di depressione), i risultati sono:
coefficiente di correlazione=0.4, 95%CI= (0.23, 0.57)
Possiamo concludere che c’è un’associazione? Possiamo ridurre la depressione riducendo le ore ai
videogiochi?
La relazione fra Ore ai videogiochi X e l’indice di Depressione Y è statisticamente significativa al livello del
5%. Questo può essere dedotto osservando che l’intervallo di confidenza per il coefficiente di correlazione
non include il valore 0. La relazione è di tipo crescente, cioè all’aumentare delle Ore aumenta la
Depressione. Non è una relazione lineare forte – potrebbe avere una forma leggermente non lineare ad
esempio.
In merito alla seconda domanda, No, non abbiamo dati per affermare che vi sia una possibilità di incidere
sulla Depressione riducendo le ore ai videogiochi: potrebbe trattarsi di una relazione con nesso causale
inverso – cioè Gioco perché sono Depresso, non Sono Depresso perché Gioco; o comunque la relazione
potrebbe essere dovuta a qualche altro fattore che spieghi (incida su) sia la Depressione che le Ore ai
videgames (per esempio, conflitti familiari, essere vittima di bullismo, etc).
ES 20
In uno studio sui fattori correlati ai livelli di colesterolo (Y, variabile risposta) in soggetti in un protocollo di
trattamento, per la variabile esplicativa X=ore/giorno di attività fisica, il valore stimato del coefficiente di
regressione nel modello lineare è risultato b = -9.8, 95%CI = (-12.3,-7.3). Possiamo concludere che c’è
un’associazione fra X e Y? Supponendo di aver inserito nel modello tutti i fattori con effetti su Y, e la
9
relazione causale sia (ragionevolmente) tale che X incide su Y (e non viceversa), quanto dovremmo
aumentare l’attività fisica giornaliera per ridurre il livello di colesterolo di 20?
La relazione fra Ore di attività fisica X e il valore del colesterolo Y è statisticamente significativa al livello del
5%. Questo può essere dedotto osservando che l’intervallo di confidenza per il coefficiente di reressione non
include il valore 0. La relazione è di tipo decrescente, cioè all’aumentare delle Ore diminuisce il colesterolo.
Più specificatamente, per ogni ora aggiuntiva di attività fisica giornaliera il colesterolo si abbassa di un delta
pari a 9.8 (che potrebbe anche essere un valore da 7.3 a 12.3).
Per ottenere una diminuzione di delta=20, dovremmo aumentare l’attività fisica di 20/9.8 = 2.04 ore.
10