ANALISI DEI DATI EPIDEMIOLOGICI Cenni di statistica • Che cosa è la statistica • Statistica descrittiva e statistica inferenziale – Test statistici di ipotesi – Intervalli di confidenza • Analisi stratificata TEST DI IPOTESI E P-VALUE Statistica descrittiva ed inferenziale Campione Media, dev. standard, RR, RD, … Stat. descrittiva Statistica descrittiva ed inferenziale Popolazione Campione Media, dev. standard, RR, RD, … Stat. descrittiva Stat. inferenziale La statistica inferenziale • I metodi della statistica inferenziale hanno l’obiettivo di quantificare la probabilità che una deduzione basata sui dati raccolti per un campione e riferita alla popolazione sia vera • Sono utilizzati: – Test statistici d’ipotesi – Intervalli di confidenza Campione Popolazione e campione Popolazione Campione Campione Popolazione e campione • In realtà, abbiamo un solo campione a Campione disposizione • Utilizzando i dati del campione, vogliamo dire qualcosa sulla popolazione da cui il campione proviene Il test statistico di ipotesi • Si comincia col formulare un’ipotesi – È l’ipotesi nulla H0 • I dati osservati nel campione sono confrontati con opportune distribuzioni di probabilità • Dal confronto deriva il p-value • Se p è piccolo, H0 è rifiutata – Si accetta allora l’ipotesi alternativa HA • Se p è grande, H0 non è rifiutata Il p-value • Il p-value esprime la probabilità di ottenere valori come quelli osservati o ancora più lontani dall’ipotesi nulla, assumendo che l’ipotesi nulla sia vera Risultati (1) • The number reaching remission of illness was significantly higher with St John’s wort than with placebo (P=.02) 14/98 [14.3%] vs 5/102 [4.9%] Il p-value • Ipotesi nulla – Nel nostro esempio, l’ipotesi nulla è che la remissione dalla malattia avvenga con uguale frequenza nei due gruppi di trattamento ovvero che la percentuale di «guariti» sia la stessa • I dati osservati – Il campione in esame mostra una diversa percentuale di pazienti con remissione (14.3% vs. 4.9%) • È questa una differenza statisticamente significativa? I dati osservati . tab remission group [freq=pop] | group remission | Hypericum Placebo | Total -----------+----------------------+---------yes | 14 5 | 19 no | 84 97 | 181 -----------+----------------------+---------Total | 98 102 | 200 I dati osservati (%) . tab remission group [freq=pop], col group remission | Hypericum Placebo | Total -----------+----------------------+---------yes | 14 5 | 19 | 14.29 4.90 | 9.50 -----------+----------------------+---------no | 84 97 | 181 | 85.71 95.10 | 90.50 -----------+----------------------+---------Total | 98 102 | 200 | 100.00 100.00 | 100.00 I dati osservati e quelli attesi . tab remission group [freq=pop], exp chi2 | group remission | Hypericum Placebo | Total -----------+----------------------+---------yes | 14 5 | 19 | 9.3 9.7 | 19.0 -----------+----------------------+---------no | 84 97 | 181 | 88.7 92.3 | 181.0 -----------+----------------------+---------Total | 98 102 | 200 | 98.0 102.0 | 200.0 Pearson chi2(1) = 5.1189 Pr = 0.024 Risultati (2) • The random coefficient analyses for the HAMD showed significant effects for time but not for treatment or time-by treatment interaction (P<.001, P = .16, and P = .58, respectively) Risultati (2) Tempo: p<0.001 Trattamento: p=0.16 Tempo*Trattamento:p<0.5 8 Esempio di Rischio Relativo • 1 yr injury incidence rate was 53.9% for all runners combined. • •1 yr overall risk of injury for those wearing traditional running shoes (55.4%) was greater than for those running barefoot or wearing minimalist running shoes (46.3%, relative risk = 1.19, X²=6.39, 1df, p=.01) Note per un corretto uso del p-value (1) • Il p-value deriva dal rapporto tra due grandezze: – La differenza osservata tra i gruppi – L’errore standard • Un p piccolo può derivare – Da una grande differenza tra i gruppi – Da un piccolo errore standard (ad es. quando il campione è molto grande) – Da entrambi i fattori Note per un corretto uso del p-value (2) • A volte si utilizza un valore soglia (0.05) al di sotto del quale rifiutare l’ipotesi nulla – Tale impiego del p-value è sconsigliabile • Va riportato per intero il valore di p – Tanto più il p-value è piccolo, tanto più forti sono le prove contrarie all’ipotesi nulla – Evitare l’uso di n.s. (non significativo) Note per un corretto uso del p-value (3) • Per grandi campioni, tutte le differenze sono statisticamente significative! • Significatività statistica e significatività clinica non sono la stessa cosa • Più informativo del p-value è l’intervallo di confidenza INTERVALLI DI CONFIDENZA L’intervallo di confidenza • È un intervallo di valori entro i quali si ritiene sia compreso il parametro in esame con un certo grado di “confidenza” – Ripetendo gli esperimenti, il 95% (o il 90%, o il 99%) degli intervalli così calcolati comprenderà effettivamente il parametro in esame L’intervallo di confidenza • L’intervallo di confidenza esprime la precisione della stima – Tanto più piccolo è l’intervallo, tanto maggiore è la precisione della stima • È possibile calcolare un intervallo di confidenza per ogni misura epidemiologica o statistica – Media, Proporzione, Tasso, Rischio relativo, Odds ratio Come si costruisce un intervallo di confidenza usando la distribuzione Z • Gli ingredienti necessari per calcolare un intervallo di confidenza sono: – La stima puntuale – Un moltiplicatore (che deriva dalla distribuzione normale) – L’errore standard • L’intervallo di confidenza al 95% del Rischio Relativo si calcola • • 1 1 1 1 πΈπ = − + − π π+π π π+π π ππππ π −1.96∗πΈπ , π ππππ π +1.96∗πΈπ Esempio di Rischio Relativo RR=R female/R male = 26.6%/22.8% = 1.1 31 Esempio di Rischio Relativo 32 Esempio di Rischio Relativo 33