L 7 Intervalli di confidenza

annuncio pubblicitario
Università del Piemonte Orientale
Corso di laurea in biotecnologia
Corso di Statistica Medica
Intervalli di confidenza
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
1
Con questa lezione si inizia l'argomento dell'inferenza statistica, cioè il percorso
che dai dati di un singolo campione stima il parametro nella popolazione.
inferenza
Campione
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
2
Si osserva facilmente che campioni ripetuti dalla stessa popolazione
forniscono medie campionarie diverse.
Ciascuna di queste medie campionarie costituisce una stima non
distorta del parametro (media della popolazione) ma non può essere
usata come stima del parametro da sola, senza tenere conto
dell’incertezza causata dall’errore campionario.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
3
Una statistica calcolata su un campione di soggetti (statistica
campionaria) costituisce una stima non distorta del parametro (la
statistica calcolata nella popolazione)
ma la statistica campionaria è affetta da una imprecisione, detta
‘errore campionario’, determinato dalla variabilità casuale del
campionamento.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
4
Possiamo trarre conclusioni sul valore del parametro nella popolazione a
partire dai dati campionari seguendo due percorsi:
1. La stima intervallare (Il calcolo dell'intervallo di confidenza)
2. Il test dell'ipotesi
La 'stima intervallare' o 'intervallo di confidenza' fornisce un range di possibili
valori entro i quali si ritiene sia compreso il parametro in esame.
Il range è stimato a partire dai risultati del campione (es. la media della
popolazione), con un certo grado di confidenza (fiducia? prudenza?).
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
5
Cosa significa esattamente l'intervallo di confidenza?
Il 95% dei campioni estratto da una popolazione con media µ avrà un "intervallo di
confidenza al 95%" della media campionaria che include µ.
E il restante 5% ?
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
6
Campionamento ripetuto. I tratti orizzontali sono gli intervalli di confidenza. Quelli
che non comprendono il valore medio della popolazione sono in rosso (4,3%).
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
7
In pratica abbiamo a disposizione un solo campione.
Come facciamo a sapere se il nostro campione è tra quelli del 95 o del 5%?
"We do not know whether our interval estimate includes the unknown population
mean. Being right most of the time is the best one can hope for -- there is always
the possibility of being misled by an unlucky sample." (anonimo)
Non possiamo dire con certezza se è uno dei 'fortunati 95%' il cui intervallo
comprende il valore 12 (il valore del parametro)
ma siamo fiduciosi al 95% ("abbiamo probabilità del 95%") che lo sia.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
8
Se vogliamo una maggiore confidenza possiamo ottenerla:
L’ampiezza dell’intervallo è proporzionale al grado di confidenza.
Se vogliamo che il grado di confidenza sia maggiore , anche l'intervallo dovrà
essere più ampio.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
9
Dagli stessi dati, con diversi gradi di confidenza
152
151
150
149
148
147
146
145
IC_99%
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
IC_95%
Intervalli di confidenza
IC_90%
10
Calcolo dell’intervallo di confidenza: il caso della media
Abbiamo visto che la media campionaria costituisce la stima migliore della media
della popolazione ma questo non significa che la media campionaria sia priva di
errore campionario: si osserva facilmente che campioni ripetuti danno medie
campionarie diverse.
L’intervallo di confidenza è un intervallo di valori intorno ad una media
campionaria;
Tale intervallo ha una probabilità definita di includere il parametro (cioè il valore
della statistica nella popolazione).
L’intervallo di confidenza viene solitamente riferito ad un test a 2 code.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
11
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
12
Se conosco σ (deviazione standard della popolazione), l’intervallo di confidenza è
definito in modo tale da soddisfare la seguente equazione (procedura analoga al
calcolo del test Z per la verifica dell’ipotesi):

σ
σ 
 = 1 − α = 1 − p( Z α )
p X − Z α ∗
≤ µ ≤ X + Zα ∗

n
n
2
2


Limite fiduciale superiore = X + Zα/2 *(σ/√n).
Limite fiduciale inferiore = X - Zα/2 *(σ/√n).
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
13
Dove:
X
media campionaria
µ: media della popolazione
(σ/√n): errore standard della media (calcolato da σ)
Zα/2= valore della deviata normale standardizzata corrispondente alla precisione
desiderata. Viene calcolata dalla distribuzione di probabilità Normale Standard,
per un test a 2 code. Ad es. per un intervallo di confidenza al 95% su due code
Zα/2= 1,96.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
14
Di solito l’intervallo di confidenza intorno alla media viene indicato come:
X ± Zα/2 *(σ/√n)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
15
Incertezza
Intervallo di confidenza = X ± Zα/2 *(σ/√n).
Statistica
campionaria
(es. media)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
16
Incertezza
Intervallo di confidenza = X ± Zα/2 *(σ/√n).
Statistica
campionaria
(es. media)
Variabilità del
campione (Errore
Standard)
Ampiezza
(‘sicurezza’)
dell’intervallo
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
17
Intervallo di confidenza = X ± Zα/2 *(σ/√n).
Statistica
campionaria
(es. media)
‘sicurezza’
della stima
(ampiezza
dell’intervallo)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Variabilità del
campione (Errore
Standard)
Intervalli di confidenza
18
Dati i 50 campioni dell’esempio seguente, osserviamo che in tre casi (6% dei
campioni) l’intervallo di confidenza al 95% non comprende la media.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
19
Estrazione di 50 campioni di numerosità 20 da distribuzione gaussiana con µ=0 e δ=1. Le
barre rappresentano l’intervallo di confidenza al 95% (test a 2 code).
1 .0
0 .5
0 .0
-0 .5
-1 .0
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
20
Esempio: calcolo dell’intervallo di confidenza nel caso di una media:
N
15
Media campionaria
149,133 mmHg (calcolo omesso)
σ=2,53 mmHg
Limite superiore dell’ Int. conf. 95%= 149,133 + 1,960 *(2,53/√15) = 150,41
Limite inferiore dell’ Int. conf. 95%= 149,133 – 1,960 *(2,53/√15) = 147,85
Intervallo di confidenza al 95%: 147,85 <= µ <=150,41
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
21
Limite superiore dell’ Int. conf. 90%= 149,133 + 1,645 *(2,53/√15) = yyyyy
Limite inferiore dell’ Int. conf. 90%= 149,133 – 1,645 *(2,53/√15) = yyyyy
Limite superiore dell’ Int. conf. 99%= 149,133 + xxxxx *(2,53/√15) = yyyyy
Limite inferiore dell’ Int. conf. 99%= 149,133 – xxxxx *(2,53/√15) = yyyyy
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
22
Il modo comunemente usato per indicare media campionaria ed intervallo di
confidenza è il seguente:
Media = 149,13 (IC 95%: 147,85 - 150,41)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
23
Il 90% dei campioni avrà un intervallo di confidenza al 90% della media che
include µ.
Limite superiore dell’ Int. conf. 90%=
149,133 + 1,645 *(2,53/√15) = 150,21
Limite inferiore dell’ Int. conf. 90%=
149,133 – 1,645 *(2,53/√15) =148,06
Intervallo di confidenza al 90%: 148,06 <= µ <=150,21
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
24
Il 99% dei campioni avrà un intervallo di confidenza al 99% della media che
include µ.
149,133+2,57*(2,53/√15)
149,133-2,57*(2,53/√15)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
25
152
151
150
149
148
147
146
145
IC_99%
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
IC_95%
Intervalli di confidenza
IC_90%
26
Se non conosciamo σ possiamo definire un intervallo di confidenza della media
campionaria basandoci sul test t e sulla distribuzione di probabilità t
L’intervallo di confidenza è definito in modo tale da soddisfare la seguente
equazione:
X −t
gl ,
α
2
∗
s
s
≤ µ ≤ X +t α ∗
gl ,
n
n
2
Dove:
tgl,α/2= valore della funzione t corrispondente all’errore di 1° tipo (gl: gradi di libertà,
in questo caso pari a n-1)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
27
Limite fiduciale superiore = X + tgl,α/2 *(s/√n).
Limite fiduciale inferiore = X - tgl,α/2 *(s/√n).
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
28
Intervallo di confidenza = X ± t(α/2,g.l.) * (s/√n).
Errore Standard
Media
campionaria
‘sicurezza’
dell’intervallo
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
29
Estrazione di 50 campioni di numerosità 20 da una distribuzione gaussiana con µ=0. σ è ignota, quindi l’errore
standard è stato calcolato dalla deviazione standard campionaria.
Le barre rappresentano l’intervallo di confidenza al 95%. Si noti che le barre sono di ampiezza diversa tra loro, a
causa della variabilità campionaria della deviazione standard .
1 .0
0 .5
0 .0
µ
-0 .5
-1 .0
-1 .5
I
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
30
Esempio: calcolo dell’intervallo di confidenza usando la distribuzione t
Risultati:
N
15
Media campionaria
149,1 mmHg (calcolo omesso)
s= 4,72 mmHg (calcolo omesso)
Il valore della statistica t (errore 1° tipo <= 0,05 e test a due code, 14 gl) = 2,145
Lim.superiore dell’ Int. conf. 95% = 149,1 + 2,145 *( 4,72/√15) = 151,75 mmHg
Lim.inferiore dell’ Int. conf. 95% = 149,1 – 2,145 *( 4,72/√15) = 146,52 mmHg
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
31
Come si calcola l’intervallo di confidenza relativo ad altre statistiche?
La procedura per il calcolo dell’intervallo di confidenza è una procedura generale
che si applica a tutte le statistiche.
La differenza tra le statistiche è soltanto nel calcolo dell’errore standard.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
32
Intervallo di confidenza = Statistica ± z(α/2) * (Errore standard).
Statistica
‘sicurezza’
dell’intervallo
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Variabilità del
campione
(Errore Standa
della statistica)
Intervalli di confidenza
33
Intervallo di confidenza delle proporzioni
Nota: i metodi descritti sono validi solo per campioni grandi
σ = √[π*(1-π)]
Nella popolazione: Deviazione standard di una proporzione:
Nel campione: Deviazione standard di una proporzione:
s = √[p*(1-p)]
Errore standard di una proporzione campionaria ( se σ nota):
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
ES = σ / √n
34
Se σ ignota:
Errore standard di una proporzione campionaria: ES = s / √n
Intervallo di confidenza = [p ± Zα/2 *(s/√n)]
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervallo di confidenza =
Proporzione
p
Intervalli di confidenza
± z(α/2 ) * (Errore standard di p)
‘sicurezza’
dell’intervallo
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
35
Intervalli di confidenza
Variabilità del
campione
(Errore Standard
della proporzione)
36
Per calcolare l’intervallo di confidenza nel caso dell’OR dobbiamo utilizzare la seguente
formula poiché la distribuzione di OR è asimmetrica (va da 0 a + ∞):
IC (log(OR)) = log(OR) ± Zα/2 * ES(log(OR))
log(OR) = logaritmo dell’ Odds Ratio
ES (log(OR)) =
1 1 1 1
+ + +
a b c d
Quindi:
log( OR ) ±
IC (OR ) = e
Ζα2 *ES (log(OR ))
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
37
Intervallo di confidenza = log(OR) ± z(α/2) * ES (log(OR)).
Statistica
‘sicurezza’
dell’intervallo
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
Variabilità del
campione
(Errore Standard
della statistica)
38
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
39
Vantaggi dell’intervallo di confidenza:
Il test dell’ipotesi porta ad una valutazione binaria (rifiuto / non rifiuto di H0).
L’intervallo di confidenza indica l’intervallo di valori del parametro (nella
popolazione) con cui il risultato campionario che abbiamo osservato è compatibile.
Esiste una corrispondenza tra ‘p’ ed ‘intervallo di confidenza’ calcolati rispetto allo
stesso errore di I tipo: l’intervallo di confidenza comprende tutti i valori che non
sarebbero stati rifiutati da un test dell’ipotesi.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
40
Esercizi dal testo
p 174 n 1
p 174 n 2
p 174 n 3
p 174 n 4
p 174 n 5
p 175 n 7
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Intervalli di confidenza
41
Scarica