Inferenza statistica L`inferenza statistica è un insieme di metodi con

Inferenza statistica
L’inferenza statistica è un insieme di metodi con cui si cerca di
trarre una conclusione sulla popolazione sulla base di alcune
informazioni ricavate da un campione estratto da quella
popolazione.
Il percorso dell’inferenza statistica si svolge secondo le seguenti
fasi:
1. estrazione di un campione della popolazione
2.
calcolo
delle
statistiche
campionarie,
cioè
dei
valori
corrispondenti ai dati contenuti nel campione
3.
stima dei parametri nella popolazione in base ai risultati
forniti dal campione.
Statistica medica
1
Popolazione:
• insieme
che
raccoglie
tutte
le
osservazioni
possibili,
relativamente ad una data variabile o ad un dato fenomeno.
• può essere finita (comunque molto grande) o infinita
Statistica medica
2
Campione:
• raccolta finita di elementi estratti da una popolazione
• scopo dell’estrazione è quello di ottenere informazioni sulla
popolazione
• pertanto il campione deve essere rappresentativo della
popolazione da cui viene estratto (‘non viziato’)
• per corrispondere a queste esigenze il campione viene
individuato con un campionamento casuale.
Statistica medica
3
In un campionamento casuale semplice tutti gli individui nella
popolazione hanno uguale probabilità di essere inclusi nel
campione.
- individui nella popolazione = "unità di campionamento"
- popolazione oggetto dello studio = "popolazione bersaglio"
- popolazione effettivamente campionabile (al netto dell'effetto
di fattori di selezione) = "popolazione studio " o base di
campionamento
Statistica medica
4
Statistica medica
5
• Una stima puntuale è un procedimento attraverso il quale a
partire dalle informazioni tratte da un campione si ottiene
come risultato un singolo valore numerico usato come stima
del parametro dell’intera popolazione
Es: x = ( ∑ xi ) / n
• Una stima intervallare è un procedimento attraverso il
quale a partire dalle informazioni tratte da un campione si ha
come risultato un insieme di valori che con un certo grado di
fiducia conterrà il parametro da stimare
Statistica medica
6
Ø Campioni ripetuti dalla stessa popolazione forniscono
medie campionarie diverse
Ø
Ciascuna di queste medie campionarie costituisce una
stima non distorta del parametro (media della
popolazione) ma non può essere usata come stima del
parametro da sola, senza tenere conto dell’incertezza
causata dall’errore campionario.
Statistica medica
7
- La media delle medie campionarie corrisponde alla media
della popolazione (µ)
-
La variabilità della distribuzione delle medie campionarie è
inferiore alla variabilità nella popolazione. Campioni più grandi
daranno una distribuzione con variabilità inferiore.
-
La forma della distribuzione di frequenza delle medie
campionarie è gaussiana o normale
Statistica medica
8
La forma della distribuzione normale
È la distribuzione di probabilità che meglio rappresenta molte
variabili biologiche
Statistica medica
9
Esempio:
Quale sarà la probabilità di osservare un soggetto con una
statura inferiore a m 1,5928 data una popolazione con altezza
media 1,730 e deviazione standard 0,07 (distribuzione di
partenza assunta come normale)?
x − µ
z =
σ
z = (1,5928 - 1,730) / 0,07 = - 1,96
P(z<-1.96) = 0.025
Statistica medica
10
Es: stima intervallare della media campionaria x :
x + coefficiente di attendibilità x errore standard
z1- α/2 o t1- α/2
(σ
/
n ) o (s /
n)
Se poniamo come grado di fiducia (livello di confidenza) che
siamo disposti ad accettare 1- α = 0,95 allora l’interpretazione
dell’intervallo è la seguente:
Statistica medica
11
0,95
P=0,025
Statistica medica
| x | = 1,960
P=0,025
12
Interpretazione dell’intervallo di confidenza:
Estraendo tutti i possibili campioni da una popolazione distribuita
normalmente, il 95% degli intervalli conterrà la media della
popolazione ossia abbiamo un grado di fiducia del 95% che la
media della popolazione si trovi tra i due valori estremi
dell’intervallo.
Esempio:
Dati i valori (micromoli per minuto per grammo di tessuto)
dell’attività di un certo enzima misurato nel tessuto gastrico
normale di 35 pazienti con carcinoma gastrico:
Statistica medica
13
Numerical Summaries for X
Number 35
Min 0,262
Mean 0,717971
Q1 0,3955
St Dev 0,510623
Median 0,55
Coeff of
Var 0,711203
Skew 1,980941
Q3
0,7775
Max 2,464
Costruire un intervallo di confidenza al 95% per la media della
popolazione.
x + t1- α/2 x (s /
n):
(0,717971– 2,0 x 0,086311; 0,717971 + 2,0 x 0,086311) = (0,54; 0,89)
Con un grado di fiducia del 95%, la media della popolazione è
compresa tra 0,54 e 0,89.
Statistica medica
14
La verifica di ipotesi
• Le ipotesi di ricerca sono un insieme di congetture o di
supposizioni che possono essere il risultato di anni di
osservazione da parte del ricercatore e che motivano la
ricerca
• Le ipotesi statistiche sono ipotesi che possono essere
formulate in modo da poter essere valutate da adeguate
tecniche statistiche
Nella verifica di ipotesi si deve quindi formulare la cosiddetta
ipotesi nulla H0 che è l’ipotesi che deve essere saggiata.
Statistica medica
15
Ø Se l’ipotesi nulla non è rifiutata si può concludere che i dati
sui quali si effettua il test statistico non forniscono prove
sufficienti per rifiutarla.
Ø Se invece l’ipotesi nulla viene rifiutata allora i dati saranno
compatibili con l’ipotesi alternativa H1 (ipotesi di lavoro) che
riteniamo vera dato che il test ha portato al rifiuto dell’ipotesi
nulla.
N.B. Con la verifica di ipotesi non arriviamo ad una
dimostrazione di un’ipotesi, ma otteniamo un’indicazione del
fatto che l’ipotesi è supportata dai dati disponibili.
Statistica medica
16
La statistica test è una statistica che può essere calcolata a
partire dai dati del campione.
Formula generale della statistica test =
(statistica di interesse-parametro ipotizzato) / (errore
standard della statistica di interesse
Quindi: Data la distribuzione della statistica test, rifiuto l’ipotesi
nulla se il valore della statistica test cade nella regione di rifiuto,
mentre accetto l’ipotesi nulla se la statistica test cade nella
regione di accettazione dell’ipotesi nulla.
Statistica medica
17
Come posso definire la regione di accettazione e la regione di
rifiuto?
Fisso il livello di significatività α che è definito come la
probabilità di rifiutare l’ipotesi nulla quando è vera : errore di
prima specie.
Poiché rifiutare l’ipotesi nulla quando è vera rappresenta un
errore, dobbiamo quindi fissare un valore di a piccolo. Di solito a
viene posto uguale a 0.05.
Statistica medica
18
§ Nel test bidirezionale (test a due code) la regione di rifiuto è
divisa in due parti o due code della distribuzione della
statistica test.
§ Un test unidirezionale è un test in cui la regione di rifiuto si
trova in una o in un’altra coda della distribuzione.
Statistica medica
19
L’errore che si commette se accettiamo l’ipotesi nulla quando è
falsa si chiama errore di II specie : ß
Possibile
scelta
Non rifiutare H0
Rifiutare H0
Statistica medica
IPOTESI NULLA
VERA
FALSA
Scelta corretta
α
ß
Scelta corretta
20
Il Procedimento
Formulare Ho
Calcolare la statistica test sui dati
Calcolare la plausibilità di Ho visti i dati
Conclusione
Non rifiuto Ho
Rifiuto Ho
Statistica medica
21
Esempio:
I seguenti dati rappresentano le circonferenze (cm) della testa
alla nascita di 15 bambini:
33.38
34.34
33.46
32.15
33.95
34.13
33.99
33.85
34.45
34.10
34.23
34.19
33.97
32.73
34.05
Voglio saggiare l’ipotesi nulla:
H0 : µ = 34.5 contro
H1 : µ = 34.5
Statistica medica
22
Sample
Data
Sample Size 15
Mean 33,798
Standard
Deviation 0,630297
Assumiamo che la statistica test appropriata sia la statistica t.
Fissiamo α = 0,05
T = ( x – 34,5) / (s /
n ) = (33,798-34,5)/(0,63/3,87) = -4,31
La probabilità di osservare un valore di t < -4,31 è pari a
0,00036 e la probabilità di osservare un valore di t > 4,31 =
0,00036
Statistica medica
23
p-value = 0,00072
p < α quindi rifiuto l’ipotesi nulla µ = 34.5
Statistica medica
24
Il valore p è la probabilità di osservare sotto l’ipotesi nulla un
valore della statistica test maggiore o uguale (nel verso
appropriato) di quello realmente calcolato.
Se il valore di p è minore o uguale ad a allora rifiutiamo l’ipotesi
nulla; se invece il valore di p è maggiore di a non rifiutiamo
l’ipotesi nulla.
Statistica medica
25
Esercizio:
1.Ipotizzo in base a dati di laboratorio che il fumo di tabacco
aumenti i valori pressori nei forti fumatori (H1)
2. H0: 'i forti fumatori hanno la stessa pressione media della
popolazione'.
3. Fisso l'errore α al 5%; sono interessato ad eventuali
scostamenti in entrambe le direzioni (test di ipotesi bilaterale o 'a
2 code')
4. Programmo uno studio in cui viene misurata la pressione
arteriosa sistolica a 36 soggetti.
Statistica medica
26
5. La variabile 'pressione arteriosa' nella popolazione ha
distribuzione gaussiana. Il valore medio nella popolazione è 165.
Non conosco il
valore della deviazione standard nella
popolazione.
6.
Il test statistico è il test t di student.
7. Conduco lo studio ed ottengo i seguenti risultati.
Media = 172,8
Deviazione standard= 24,25
L’errore standard sarà quindi = 4,04
Statistica medica
27
8a Calcolo del test
t = (Media campione – media popolazione) / Errore standard =
(172,8 – 165) / 4,04 = 7,8 / 4,04 = 1,93
La probabilità che il campione sia stato estratto da una
popolazione con media pari a 165 mmHg è compresa tra 0,05 e
0,10.
Non escludo pertanto l’ipotesi nulla che il campione sia stato
estratto da una popolazione con tale media.
Statistica medica
28