Schema lezione 5
Intervalli di confidenza
Non centrerò
quella barca, ne
sono convinto al
95%
COMPRENDERE:
– Significato di intervallo di confidenza
– Uso degli stimatori come quantità di pivot per stime intervallari
IMPARARE:
– popolazioni normali: come determinare intervalli di confidenza
per media, varianza, differenza tra due medie
– campioni di taglia grande: come determinare intervalli di
confidenza per la media
– proporzioni e differenze tra proporzioni: come determinare
intervalli di confidenza
DISTINGUERE:
– precisione da affidabilità
ELABORARE:
– tramite esercizi di interesse applicativo
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
1
Probabilità di un intervallo/intervallo di confidenza 1
Livello di confidenza
Esempio :
Attenzione: qui si parla di
confidenza e non di probabilità! Il
vero valore di µ può o meno
essere compreso nell’intervallo
trovato, però se calcolassi tanti
intervalli di confidenza, nel 95%
di essi il vero valore di µ
cadrebbe all’interno dell’intervallo
Coefficiente di affidabilità
Con confidenza al 95% possiamo affermare:
Modello teorico: il vero valore di µ è compreso
nell’intervallo con probabilità 0.95
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
2
Probabilità di un intervallo/intervallo di confidenza 2
E’ un vero lavoro da
detective: raduniamo le
informazioni
disponibili per scoprire
la verità: il vero valore
di µ !
36
24
x1
x2
39
x3
20
x10
Un ricercatore vuole determinare il livello di un certo
enzima in una popolazione umana. Considera 10
individui e determina il livello dell’enzima per ciascuno
di essi, ottenendo una media campionaria uguale a 28.
Sappiamo che la variabile di interesse è N(µ,45).
Vogliamo stimare µ.
Soluzione:
Ogni intervallo può o
meno contenere il vero
valore di µ però per il
95% degli intervalli il
vero valore di µ è
compreso.
27
x15
Vera distribuzione;
µ=30, però
l’investigatore non
può saperlo.
3
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervalli di confidenza:precisione della stima
Per avere un intervallo di confidenza piccolo
(molto preciso) devo correre il rischio che il vero
valore non sia compreso in esso. E’ come centrare
un bersaglio in un tiro a segno. Se il bersaglio è
piccolo la probabilità di non centrarlo è alta.
Posso avere più intervalli
con
lo stesso livello di
confidenza: sceglierò
quello più preciso
L’unico modo per ottenere un’alta probabilità per
l’intervallo e un’alta precisione è di aumentare la taglia
del campione. Diversamente se aumenta la precisione
della stima diminuisce la confidenza dell’intervallo.
4
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervalli di confidenza: definizione
Definizione:
Intervallo di confidenza di livello 1-α per τ(θ)
5
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità di un intervallo
intervallo di confidenza
Tecnica per determinare un intervallo di confidenza:
1. Determiniamo una variabile aleatoria, tale che nella sua espressione sia
coinvolto il parametro da stimare ma di cui sia nota la distribuzione, che
non coinvolge il parametro da stimare
Esempio:
X±1.96 σ/Ïn
Devo scegliere queste variabili in un modo “furbo”: la
loro distribuzione non deve coinvolgere il parametro da
stimare!
2. Sostituisco alle variabili aleatorie il valore stimato.
Nota: nel momento in cui sostituisco la stima alle variabili aleatorie non
posso più parlare di probabilità. L’intervallo sarà verificato con una certa
CONFIDENZA.
6
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esempio
Perché l’intervallo al 99% è
più grande di quello al 95%?
E’ ragionevole o hai sbagliato
i calcoli?
7
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per la media
Popolazione normale o campione di taglia grande, σ nota
Variabile casuale da utilizzare:
Gli scienziati sono
sicuri al 99% che il
rientro nell’atmosfera
avverrà lì: è un’area
grande senza pericoli,
posso sentirmi
tranquillo
Intervallo di confidenza di livello 1-α:
L’intervallo ha lunghezza minima se è simmetrico
Popolazione normale σ sconosciuta
Variabile casuale da utilizzare:
Intervallo di confidenza di livello 1-α:
T di Student
con n-1 gradi di
libertà
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Se n è grande
la T di
Student tende
a una normale
e ricadiamo
nel caso
precedente
8
Intervallo di confidenza per la media
scelta della statistica corretta
La Popolazione è
NORMALE ?
sì
no
Il campione è
GRANDE ?
Il campione è
GRANDE ?
sì
no
sì
no
La varianza è
NOTA ?
La varianza è
NOTA ?
La varianza è
NOTA ?
La varianza è
NOTA ?
sì
no
sì
z
n < 30
z
sì
no
t
sì
z
no
t
sì
z
metodi
non parametrici
no
metodi
non parametrici
no
t
z
9
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Determinazione della taglia del campione
per ottenere intervalli con confidenza prefissata
Semiampiezza
dell’intervallo
Popolazione grande
Campionamento CON reinserimento
Popolazione piccola
Campionamento SENZA reinserimento
2
10
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per la varianza
Popolazioni normali
Variabile casuale da utilizzare:
Intervallo di confidenza di livello 1-α:
Segue la distribuzione del Chi
quadro con n-1 gradi di libertà
Probability Density Function
y=chi2(x;6)
0,175
0,131
0,087
Attenzione: il Chi quadro
è una variabile sempre positiva
0,044
0,000
0,00
6,25
12,50
18,75
25,00
11
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per differenze tra due medie
Popolazioni normali o campioni di taglia grande, σ1 e σ2 note
Variabile casuale da utilizzare:
Intervallo di confidenza di livello 1-α:
-
(1-α/2)
(1-α/2)
Popolazioni normali σ1 e σ2 sconosciute ma uguali
Variabile casuale da utilizzare:
Intervallo di confidenza di livello 1-α:
-t- (1-α/2)
+t (1-α/2)
Dove:
12
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per differenze tra due medie
Popolazioni normali σ1 e σ2 sconosciute e diverse
Variabile casuale da utilizzare:
Non segue più la distribuzione di Student con n1+n2-2
gradi di libertà
Intervallo di confidenza approssimato di livello 1-α:
Dove:
con:
13
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per proporzioni
Campioni di taglia grande
Variabile casuale da utilizzare:
Intervallo di confidenza di livello 1-α:
E’ vero, però possiamo
stimare la varianza tramite
Sn/n Ovviamente così
introduciamo una nuova
approssimazione ma è
trascurabile
Ho un problema:
la varianza
dipende
dal parametro da
stimare p
14
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per proporzioni
Se il campione è di taglia piccola
l’intervallo di confidenza non può
utilizzare l’approssimazione
normale. I calcoli vanno fatti
usando la binomiale: sono calcoli
difficili! Per fortuna esistono dei
grafici che possono venir utilizzati
in questi casi.
Taglia del campione per intervalli di
ampiezza prefissata
Popolazione infinita
con
reimbussolamento
Popolazione finita,
senza reimbussolamento
15
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per differenze tra
proporzioni con n1 e n2 GRANDI
2
Esempio: Dei ricercatori vogliono confrontare gli effetti di due diverse cure sul tempo di
ricovero di pazienti con una certa malattia. Si scelgono 200 pazienti a caso e si dividono in due
gruppi uguali. Nel primo gruppo i pazienti ricevono il trattamento standard e 78 vengono
dimessi entro 3 giorni. Degli altri 100, che hanno sperimentato il nuovo metodo, 90 sono
dimessi entro 3 giorni. I medici vogliono stimare la differenza tra le due proporzioni di malati
che vengono dimessi entro 3 giorni usando un livello opportuno (p.es. 95%).
Soluzione:
16
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per il rapporto tra le
varianze di due popolazioni normali
Popolazioni normali
Variabile casuale da utilizzare:
Segue la distribuzione di Fisher con
(n1-1, n2-1) gradi di libertà
Intervallo di confidenza di livello 1-α:
Distribuzione di Fisher
1.500
1.125
0.750
Attenzione: la variabile di
Fisher è sempre positiva
ed è tabulata
0.375
0.000
0
1
2
3
4
17
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
(5,5)
(10,5)
(10,50)
Come faccio a determinare F0.025 con n1 en2
gradi di libertà? Sulle tavole non c’è!
18
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esempio: Dei ricercatori selezionano un campione di 21 adulti apparentemente sani
(campione 1). Indipendentemente selezionano un campione di taglia 16 da una popolazione
di pazienti con il morbo di Parkison (campione 2). La variabile che li interessa è il tempo di
reazione a un certo stimolo. Le varianze campionarie risultano 1600, per il primo campione,
e 1225 per il secondo. Per confrontarle i ricercatori vogliono un intervallo di confidenza al
95% per il rapporto
Soluzione
Dati del problema
Dalle tavole della distribuzione di Fisher
con (20,15) gradi di libertà
19
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi
• Si sono effettuate 40 misure del tempo di caduta (in centesimi di secondo)
di un sasso da una certa altezza al suolo
63 58 74
78
70
74
75
82
68
69
76 62 72
88
65
81
79
77
66
76
86 72 79
77
60
70
65
69
73
77
72 79 65
66
70
74
84
76
80
69
a. Stimare la deviazione standard delle 40 misure
b. Calcolare la media delle 4 misure di ciascuna della colonne. Si può pensare a
questi dati come risultanti da 10 esperimenti, in ciascuno dei quali si è trovata la
media di 4 tempi. Dato il risultato della parte a., cosa vi aspettate per la
deviazione standard delle 10 medie?
c. Determinare un intervallo di confidenza al 99% per il tempo medio di caduta
del sasso.
20
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
• Cinque persone si sono fatte misurare la capacità respiratoria prima e
dopo un certo trattamento, dando luogo ai seguenti risultati:
Individuo
Prima (X)
Dopo (Y)
Variazione
A
2750
2850
+100
B
2360
2380
+20
C
2950
2800
-150
D
2830
2300
+30
E
2250
2300
+50
Si costruisca un intervallo di confidenza al 95% per µX - µΨ. Supponendo di aver
campionato da popolazioni normali caratterizzate dalla stessa varianza.
21
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
• Sedici stazioni meteorologiche, localizzate a caso in uno stato dal
clima uniforme, misurano la caduta di pioggia. Nel 1999 registrarono
una media di 10 pollici ed una deviazione standard di 1.5 pollici.
Costruite, per la caduta media di pioggia nello stato:
– un intervallo di confidenza al 95%
– un intervallo di confidenza al 99%
• Date le seguenti caratteristiche di due campioni casuali estratti da due
popolazioni
n1 =25
X1 =60.0
s1 =12
X2 =68.0
s2 =10
n2 =15
supponendo σ1= σ2 si determini un intervallo di confidenza al 95% per µ1- µ2
22
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
•
•
23
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino