Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾ Inferenza statistica: insieme di metodi che permette di generalizzare i risultati ottenuti dai dati raccolti in un campione (a certe condizioni!) CAMPIONE ¾ POPOLAZIONE Statistica bivariata: rilevazione e analisi congiunta di due variabili 1 Definizioni ¾ Test statistico: è un metodo che mi permette di verificare se la relazione tra due (o più) variabili è “VERA” o se è dovuta al caso. Definizioni ¾ Ipotesi nulla z z Ipotesi statistica che si vuole verificare Nei test è definita come uguaglianza di due quantità o come assenza di relazione (le medie di due gruppi sono uguali, la distribuzione di un carattere è lo stesso tra maschi e femmine) 2 Definizioni ¾ p-value: significatività statistica (“risultato” risultato” del test) z z z Misura il grado di “fiducia” nel risultato ottenuto Probabilità di errore nell’accettare come validi i risultati osservati Limiti inferiori accettabili:0.1, 0.05 o 0.01, pari a sicurezza al 90%, 95% o al 99% Definizioni ¾ Variabile dipendente: è la variabile di esito. Si modifica in funzione di un’altra variabile (detta variabile indipendente) Es: l’allattamento al seno dipende dall’aver ricevuto latte artificiale? VD: allattameno al seno ¾ VI: latte artificiale ¾ 3 Distribuzione normale (o gaussiana) ¾ ¾ ¾ È una distribuzione di frequenza È simmetrica attorno alla media Media = mediana = moda 5 4 0 5 4 3 ¾ Ha il tipico aspetto a campana 0 5 3 2 0 5 2 1 0 5 1 0 5 0 0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 0 Esempio di distribuzione “tendente alla normale”: soggetti cardiopatici per età 5.000 4.500 4.000 3.500 3.000 2.500 2.000 1.500 1.000 500 0 1 11 21 31 41 51 61 71 81 91 101 4 La scelta del metodo di analisi dipende dal tipo di variabili prese in considerazione: QUALITATIVE (nominali o ordinali) QUANTITATIVE • Distribuite normalmente • Altra distribuzione CASO 1 Entrambe le variabili sono QUALITATIVE (caso più semplice: entrambe binarie) 5 ESEMPIO: Rilevare in contemporanea le due variabili FUMO e SESSO. MASCHIO FEMMINA TOTALE Fumo SI 14 18 32 Fumo NO 16 66 82 TOTALE 30 84 114 Distribuzioni marginali: distribuzione del fumo (senza considerare il sesso) ¾ e del sesso (senza considerare il fumo) ¾ MASCHIO FEMMINA TOTALE Fumo SI 7 9 16 Fumo NO 8 33 41 TOTALE 15 42 114 6 Le distribuzioni interne alla tabella, sono dette “subordinate”. distribuzione del fumo all’interno 14 18 Fumo SI del sesso 66 16 Fumo NO maschile e del sesso femminile MASCHIO FEMMINA distribuzione dei sessi all’interno dei fumatori e dei non fumatori MASCHIO FEMMINA Fumo SI 14 18 Fumo NO 16 66 p ( Fumo SI | ♂ ) = 14/30 = 0,467 = p ( Fumo SI | ♀ ) = 18/84 = 0,214 7 Le due probabilità così differenti fanno supporre che fumo e sesso non siano indipendenti, cioè che vi sia una relazione tra la variabile SESSO e la variabile FUMO ¾ Variabile dipendente: fumo ¾ Variabile indipendente: sesso ¾ Ipotesi nulla: indipendenza delle due distribuzione 8 In caso di indipendenza tra le due variabili che frequenze dovrebbero esserci nella tabella? MASCHIO FEMMINA TOTALE SI xa xb 32 NO xc xd 82 30 84 114 TOTALE MASCHIO FEMMINA TOTALE SI Xa Xb 32 NO Xc Xd 82 TOTALE 30 84 114 xa : 30 = xb: 84 = 32 : 114 (condizione di indipendenza) xa = (30 x 32) / 114 = 8,4 (le altre frequenza per differenza) NB 1 solo grado di libertà (num gradi di libertà = (num righe - 1) x (num colonne – 1) 9 frequenze osservate MASCHIO FEMMINA TOTALE Fumo SI 14 18 32 Fumo NO 16 66 82 TOTALE 30 84 114 vs frequenze attese MASCHIO FEMMINA TOTALE Fumo SI 8,4 23,6 32 Fumo NO 21,6 60,4 82 TOTALE 30 84 114 ¾ NOTA: resta da stabilire se i risultati ottenuti possano essere considerati frutto del caso, oppure frutto di un VERO legame causale tra sesso e fumo Test statistico ¾ Serve a calcolare la probabilità che i risultati ottenuti possano essere considerati frutto del caso Vedi test chi quadrato 10 ¾ Differenza significativa: rifiuto l’ipotesi nulla di indipendenza ¾ Le due variabili sono in relazione una con l’altra ¾ Differenza non significativa: ? STATISTICA BIVARIATA Un’applicazione Il latte artificiale influenza l’allattamento al seno (esclusivo o predominante vs complementare o no as) (chi2) 11 Test di Fisher ¾ Il test delle probabilità esatte di Fisher si usa in alternativa al test del Chi2 se nella tabella ci sono frequenze nulle o se la frequenza attesa è inferiore a 5 in una delle quattro celle della tavola. ¾ Infatti, il Chi2, pur essendo un test non parametrico, è esatto solo asintoticamente. 12 MASCHIO FEMMINA TOTALE MASCHIO Fumo SI Xa Xb M0 Fumo SI Fumo NO Xc Xd M1 Fumo NO TOTALE N0 N1 N TOTALE 7 FEMMINA TOTALE 9 16 8 33 41 15 42 57 Fisher dimostrò che questa distribuzione di numeretti nella tabella ha una probabilità probabilità di uscire che segue la distribuzione ipergeometrica… ipergeometrica… tale probabilità probabilità è pari a: p = ( N0!N1!M0!M1!) / ( N!Xa N!Xa!!Xb! Xb!Xc! Xc!Xd!) Xd!) 13