Inferenza statistica
Marcella Montico e Lorenzo Monasta
Servizio di epidemiologia e biostatistica
¾
Inferenza statistica: insieme di metodi che
permette di generalizzare i risultati ottenuti dai
dati raccolti in un campione (a certe condizioni!)
CAMPIONE
¾
POPOLAZIONE
Statistica bivariata: rilevazione e analisi
congiunta di due variabili
1
Definizioni
¾ Test statistico: è un metodo che mi
permette di verificare se la relazione tra
due (o più) variabili è “VERA” o se è
dovuta al caso.
Definizioni
¾ Ipotesi nulla
z
z
Ipotesi statistica che si vuole verificare
Nei test è definita come uguaglianza di due
quantità o come assenza di relazione (le
medie di due gruppi sono uguali, la
distribuzione di un carattere è lo stesso tra
maschi e femmine)
2
Definizioni
¾ p-value: significatività statistica (“risultato”
risultato” del
test)
z
z
z
Misura il grado di “fiducia” nel risultato
ottenuto
Probabilità di errore nell’accettare come validi
i risultati osservati
Limiti inferiori accettabili:0.1, 0.05 o 0.01, pari
a sicurezza al 90%, 95% o al 99%
Definizioni
¾
Variabile dipendente: è la variabile di
esito. Si modifica in funzione di un’altra
variabile (detta variabile indipendente)
Es: l’allattamento al seno dipende dall’aver
ricevuto latte artificiale?
VD: allattameno al seno
¾ VI: latte artificiale
¾
3
Distribuzione normale
(o gaussiana)
¾
¾
¾
È una distribuzione di frequenza
È simmetrica attorno alla media
Media = mediana = moda
5
4
0
5
4
3
¾
Ha il tipico aspetto a
campana
0
5
3
2
0
5
2
1
0
5
1
0
5
0
0
2
4
6
8
1
0
1
2
1
4
1
6
1
8
2
0
Esempio di distribuzione
“tendente alla normale”: soggetti
cardiopatici per età
5.000
4.500
4.000
3.500
3.000
2.500
2.000
1.500
1.000
500
0
1
11
21
31
41
51
61
71
81
91
101
4
La scelta del metodo di analisi dipende dal
tipo di variabili prese in considerazione:
ƒ
ƒ
QUALITATIVE (nominali o ordinali)
QUANTITATIVE
• Distribuite normalmente
• Altra distribuzione
CASO 1
Entrambe le variabili sono
QUALITATIVE
(caso più semplice: entrambe binarie)
5
ESEMPIO:
Rilevare in contemporanea le
due variabili FUMO e SESSO.
MASCHIO FEMMINA
TOTALE
Fumo SI
14
18
32
Fumo NO
16
66
82
TOTALE
30
84
114
Distribuzioni marginali:
distribuzione del fumo (senza considerare il sesso)
¾ e del sesso (senza considerare il fumo)
¾
MASCHIO
FEMMINA
TOTALE
Fumo SI
7
9
16
Fumo NO
8
33
41
TOTALE
15
42
114
6
Le distribuzioni interne alla tabella, sono
dette “subordinate”.
distribuzione del
fumo all’interno
14
18
Fumo SI
del sesso
66
16
Fumo NO
maschile e del
sesso femminile
MASCHIO
FEMMINA
distribuzione dei
sessi all’interno
dei fumatori e dei
non fumatori
MASCHIO
FEMMINA
Fumo SI
14
18
Fumo NO
16
66
p ( Fumo SI | ♂ ) = 14/30 = 0,467
=
p ( Fumo SI | ♀ ) = 18/84 = 0,214
7
Le due probabilità così differenti
fanno supporre che fumo e
sesso non siano indipendenti,
cioè che vi sia una relazione tra
la
variabile SESSO e la
variabile FUMO
¾ Variabile dipendente: fumo
¾ Variabile indipendente: sesso
¾ Ipotesi nulla: indipendenza delle due
distribuzione
8
In caso di indipendenza tra le due
variabili che frequenze dovrebbero
esserci nella tabella?
MASCHIO
FEMMINA
TOTALE
SI
xa
xb
32
NO
xc
xd
82
30
84
114
TOTALE
MASCHIO
FEMMINA
TOTALE
SI
Xa
Xb
32
NO
Xc
Xd
82
TOTALE
30
84
114
xa : 30 = xb: 84 = 32 : 114
(condizione di indipendenza)
xa = (30 x 32) / 114 = 8,4
(le altre frequenza per differenza)
NB 1 solo grado di libertà
(num gradi di libertà =
(num righe - 1) x (num colonne – 1)
9
frequenze osservate
MASCHIO
FEMMINA
TOTALE
Fumo SI
14
18
32
Fumo NO
16
66
82
TOTALE
30
84
114
vs frequenze attese
MASCHIO
FEMMINA
TOTALE
Fumo SI
8,4
23,6
32
Fumo NO
21,6
60,4
82
TOTALE
30
84
114
¾ NOTA: resta da stabilire se i risultati
ottenuti possano essere considerati frutto
del caso, oppure frutto di un VERO
legame causale tra sesso e fumo
Test statistico
¾ Serve a calcolare la probabilità che i
risultati ottenuti possano essere
considerati frutto del caso
Vedi test chi quadrato
10
¾ Differenza significativa: rifiuto l’ipotesi nulla
di indipendenza
¾ Le due variabili sono in relazione una con
l’altra
¾ Differenza non significativa: ?
STATISTICA BIVARIATA
Un’applicazione
Il latte artificiale influenza
l’allattamento al seno
(esclusivo o predominante vs complementare o no as)
(chi2)
11
Test di Fisher
¾ Il test delle probabilità esatte di Fisher si
usa in alternativa al test del Chi2 se nella
tabella ci sono frequenze nulle o se la
frequenza attesa è inferiore a 5 in una delle
quattro celle della tavola.
¾ Infatti, il Chi2, pur essendo un test non
parametrico, è esatto solo asintoticamente.
12
MASCHIO
FEMMINA
TOTALE
MASCHIO
Fumo SI
Xa
Xb
M0
Fumo SI
Fumo NO
Xc
Xd
M1
Fumo NO
TOTALE
N0
N1
N
TOTALE
7
FEMMINA
TOTALE
9
16
8
33
41
15
42
57
Fisher dimostrò che questa distribuzione di numeretti nella tabella
ha una probabilità
probabilità di uscire che segue la distribuzione
ipergeometrica…
ipergeometrica… tale probabilità
probabilità è pari a:
p = ( N0!N1!M0!M1!) / ( N!Xa
N!Xa!!Xb!
Xb!Xc!
Xc!Xd!)
Xd!)
13