ANALISI DEI DATI EPIDEMIOLOGICI
Cenni di statistica
• Che cosa è la statistica
• Statistica descrittiva e statistica inferenziale
– Test statistici di ipotesi
– Intervalli di confidenza
• Analisi stratificata
TEST DI IPOTESI E P-VALUE
Statistica descrittiva ed inferenziale
Campione
Media, dev. standard, RR,
RD, …
Stat. descrittiva
Statistica descrittiva ed inferenziale
Popolazione
Campione
Media, dev. standard, RR,
RD, …
Stat. descrittiva
Stat. inferenziale
La statistica inferenziale
• I metodi della statistica inferenziale hanno
l’obiettivo di quantificare la probabilità che
una deduzione basata sui dati raccolti per un
campione e riferita alla popolazione sia vera
• Sono utilizzati:
– Test statistici d’ipotesi
– Intervalli di confidenza
Campione
Popolazione e campione
Popolazione
Campione
Campione
Popolazione e campione
• In realtà, abbiamo un solo campione a
Campione
disposizione
• Utilizzando i dati del campione, vogliamo dire
qualcosa sulla popolazione da cui il campione
proviene
Il test statistico di ipotesi
• Si comincia col formulare un’ipotesi
– È l’ipotesi nulla H0
• I dati osservati nel campione sono confrontati
con opportune distribuzioni di probabilità
• Dal confronto deriva il p-value
• Se p è piccolo, H0 è rifiutata
– Si accetta allora l’ipotesi alternativa HA
• Se p è grande, H0 non è rifiutata
Il p-value
• Il p-value esprime la probabilità di ottenere
valori come quelli osservati o ancora più
lontani dall’ipotesi nulla, assumendo che
l’ipotesi nulla sia vera
Risultati (1)
• The number reaching remission of illness was
significantly higher with St John’s wort than
with placebo (P=.02)
14/98 [14.3%] vs 5/102 [4.9%]
Il p-value
• Ipotesi nulla
– Nel nostro esempio, l’ipotesi nulla è che la remissione
dalla malattia avvenga con uguale frequenza nei due
gruppi di trattamento ovvero che la percentuale di
«guariti» sia la stessa
• I dati osservati
– Il campione in esame mostra una diversa percentuale
di pazienti con remissione (14.3% vs. 4.9%)
• È questa una differenza statisticamente
significativa?
I dati osservati
. tab remission group [freq=pop]
|
group
remission | Hypericum
Placebo |
Total
-----------+----------------------+---------yes |
14
5 |
19
no |
84
97 |
181
-----------+----------------------+---------Total |
98
102 |
200
I dati osservati (%)
. tab remission group [freq=pop], col
group
remission | Hypericum
Placebo |
Total
-----------+----------------------+---------yes |
14
5 |
19
|
14.29
4.90 |
9.50
-----------+----------------------+---------no |
84
97 |
181
|
85.71
95.10 |
90.50
-----------+----------------------+---------Total |
98
102 |
200
|
100.00
100.00 |
100.00
I dati osservati e quelli attesi
. tab remission group [freq=pop], exp chi2
|
group
remission | Hypericum
Placebo |
Total
-----------+----------------------+---------yes |
14
5 |
19
|
9.3
9.7 |
19.0
-----------+----------------------+---------no |
84
97 |
181
|
88.7
92.3 |
181.0
-----------+----------------------+---------Total |
98
102 |
200
|
98.0
102.0 |
200.0
Pearson chi2(1) =
5.1189
Pr = 0.024
Risultati (2)
• The random coefficient analyses for the HAMD showed significant effects for time but not
for treatment or time-by treatment
interaction (P<.001, P = .16, and P = .58,
respectively)
Risultati (2)
Tempo: p<0.001
Trattamento: p=0.16
Tempo*Trattamento:p<0.5
8
Esempio di Rischio Relativo
• 1 yr injury incidence rate was 53.9% for all
runners combined.
• •1 yr overall risk of injury for those wearing
traditional running shoes (55.4%) was greater
than for those running barefoot or wearing
minimalist running shoes (46.3%, relative risk
= 1.19, X²=6.39, 1df, p=.01)
Note per un corretto uso del p-value
(1)
• Il p-value deriva dal rapporto tra due grandezze:
– La differenza osservata tra i gruppi
– L’errore standard
• Un p piccolo può derivare
– Da una grande differenza tra i gruppi
– Da un piccolo errore standard (ad es. quando il
campione è molto grande)
– Da entrambi i fattori
Note per un corretto uso del p-value
(2)
• A volte si utilizza un valore soglia (0.05) al di
sotto del quale rifiutare l’ipotesi nulla
– Tale impiego del p-value è sconsigliabile
• Va riportato per intero il valore di p
– Tanto più il p-value è piccolo, tanto più forti sono
le prove contrarie all’ipotesi nulla
– Evitare l’uso di n.s. (non significativo)
Note per un corretto uso del p-value
(3)
• Per grandi campioni, tutte le differenze sono
statisticamente significative!
• Significatività statistica e significatività clinica
non sono la stessa cosa
• Più informativo del p-value è l’intervallo di
confidenza
INTERVALLI DI CONFIDENZA
L’intervallo di confidenza
• È un intervallo di valori entro i quali si ritiene
sia compreso il parametro in esame con un
certo grado di “confidenza”
– Ripetendo gli esperimenti, il 95% (o il 90%, o il
99%) degli intervalli così calcolati comprenderà
effettivamente il parametro in esame
L’intervallo di confidenza
• L’intervallo di confidenza esprime la precisione
della stima
– Tanto più piccolo è l’intervallo, tanto maggiore è la
precisione della stima
• È possibile calcolare un intervallo di
confidenza per ogni misura epidemiologica o
statistica
– Media, Proporzione, Tasso, Rischio relativo, Odds
ratio
Come si costruisce un intervallo di
confidenza usando la distribuzione Z
• Gli ingredienti necessari per calcolare un intervallo di
confidenza sono:
– La stima puntuale
– Un moltiplicatore (che deriva dalla distribuzione normale)
– L’errore standard
• L’intervallo di confidenza al 95% del Rischio Relativo si
calcola
•
•
1
1
1
1
𝐸𝑆 =
−
+ −
π‘Ž
π‘Ž+𝑏
𝑐
𝑐+𝑑
𝑒 π‘™π‘œπ‘”π‘…π‘…−1.96∗𝐸𝑆 , 𝑒 π‘™π‘œπ‘”π‘…π‘…+1.96∗𝐸𝑆
Esempio di Rischio Relativo
RR=R female/R male = 26.6%/22.8% = 1.1
31
Esempio di Rischio Relativo
32
Esempio di Rischio Relativo
33