pptx - imati cnr

Antonella Bodini
Istituto di Matematica Applicata e Tecnologie Informatiche
“E. Magenes” del CNR
Materiale ad uso dei ricercatori che hanno seguito il corso di
formazione interna in Statistica, edizione 2016.
STATISTICA
Inferenza
Il campione e le v.a.
Per fare inferenza su un certo valore di interesse di un’intera
popolazione (es., l’altezza o la credenza nell’aldilà) utilizzando un
campione è necessario fare delle ipotesi sui valori della
popolazione e sul rapporto tra la popolazione ed il campione.
Una ipotesi è che esista una distribuzione di probabilità di fondo
per i valori di interesse dell’intera popolazione
le variabili casuali che descrivono il valore di interesse dei vari
membri della popolazione sono v.a. indipendenti
“i.i.d”
con la stessa distribuzione
Ci stiamo mettendo prima della raccolta dei dati. Se ci interessa fare inferenza
sull’altezza di una popolazione, possiamo fare l’ipotesi che nella popolazione ci sia
gente un po’ più alta e un po’ più bassa, ma simmetricamente rispetto ad un valor
medio ( ← ipotesi): indicata con 𝑋 l’altezza di una persona qualunque nella
popolazione, stiamo dicendo (per ipotesi) che 𝑋~𝑁(𝜇, 𝜎 2 ). E poi diciamo che scegliamo
il nostro campione a caso nella popolazione (e non, tanto per dire, tra i giocatori di
basket!): prima di raccogliere i dati, il campione è un generico vettore (𝑋1 , 𝑋2 , … , 𝑋𝑛 ).
Inferenza
La distribuzione è qualunque!
non parametrica
(distribution free)
Parametrica: la distribuzione è Gaussiana, o Gamma, o
Weibull, o una qualunque distribuzione con forma funzionale
nota ma con parametri incogniti
Inferenza per la media e la
varianza della popolazione
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝐸 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑛𝐸 𝑋1
𝑉𝑎𝑟 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑛𝑉𝑎𝑟 𝑋1
𝐸 𝑋1 = 𝐸 𝑋2 = … = 𝐸 𝑋𝑛
𝑉𝑎𝑟 𝑋1 = 𝑉𝑎𝑟 𝑋2 = … = 𝑉𝑎𝑟 𝑋𝑛
𝜇 = 𝐸 𝑋1
𝐸 𝑋 =𝜇
𝜎2
𝑉𝑎𝑟 𝑋 =
𝑛
𝜎 2 = 𝑉𝑎𝑟 𝑋1
media nella popolazione
varianza nella pop.
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋=
𝑛
media
campionaria
Inferenza…
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝜇 = 𝐸 𝑋1
media nella popolazione
varianza nella
popolazione
media
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋=
campionaria
𝑛
𝐸 𝑋 =𝜇
𝜎 2 = 𝑉𝑎𝑟 𝑋1
stimatore: qualunque funzione
del campione 𝑇(𝑋1 , … , 𝑋𝑛 )
non distorto:
𝐸 𝑇 𝑋1 , … , 𝑋𝑛 =parametro di interesse
la media campionaria è uno
stimatore non distorto
della media nella popolazione
𝜎2
𝑉𝑎𝑟 𝑋 =
→ 0 con 𝑛 ↑
𝑛
𝑃 𝑋 ≤2 =?
Per rispondere serve
conoscere (i.e., ipotizzare) la
distribuzione campionaria
Ti piace vincere facile?
Mettiamoci in un mondo gaussiano!
𝑋𝑖 ~ 𝑁 𝜇, 𝜎 2
𝑆𝑛 ~ 𝑁
2
𝑃 𝑋≤2 =
𝑆𝑛 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑛𝜇, 𝑛𝜎 2
𝑋~ 𝑁
𝜎2
𝜇, 𝑛
2
𝑓𝜇,𝜎2 𝑥 𝑑𝑥 = "pnorm(2, 𝜇, 𝜎𝑛 )"
−∞
oppure in uno schema di prove ripetute di Bernoulli:
𝑋𝑖 ~ 𝐵𝑒𝑟𝑛 𝑝
𝑆𝑛 ~ B𝑖𝑛 𝑛, 𝑝
𝑃 𝑋 ≤ 0.2 = 𝑃 𝑆𝑛 ≤ 0.2𝑛 = "pbinom(≪ 0.2𝑛 ≫, 𝑛, 𝑝)"
𝑋 è stimatore
non distorto
della proporzione
di successi, 𝑝
Il Teorema centrale del limite
(o del limite centrale)
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione).
Se 𝜇 = 𝐸 𝑋1 e 𝜎 2 = 𝑉𝑎𝑟 𝑋1 esistono, finite, allora
𝑆𝑛 − 𝑛𝜇
𝑛𝜎 2
𝑋−𝜇
𝑆𝑛 − 𝐸(𝑆𝑛 )
𝑉𝑎𝑟(𝑆𝑛 )
𝐹𝑛 (𝑥)
𝜎2 𝑛
d
𝑍~𝑁(0,1)
𝑛 → +∞
𝑛 → +∞
Φ(𝑥)
per ogni 𝑥
𝑥
Φ 𝑥 =
𝑋−𝜇
𝑛
𝜎
𝑃 𝑎<
𝑆𝑛 − 𝐸(𝑆𝑛 )
𝑉𝑎𝑟(𝑆𝑛 )
=Φ 𝑏 −Φ 𝑎 ,
−∞
𝑢2
𝑒𝑥𝑝 −
𝑑𝑢
2
2𝜋
1
≤ 𝑏 = 𝐹𝑛 b − 𝐹𝑛 (a) ≈ 𝑃 𝑎 < 𝑍 ≤ 𝑏
non serve conoscere
la distribuzione della popolazione
per 𝑛 suff. grande
Il Teorema centale del limite
Pierre Simone, marchese di Laplace
(1749-1827)
Errori di misura: legge della frequenza
degli errori
Jules Henri Poincaré
(1854-1912)
Tutti ne sono convinti: gli
sperimentali credono che sia
un teorema matematico,
mentre i matematici credono
che sia un fatto empirico
Caso particolare
𝑋1 , … , 𝑋𝑛 campione casuale, 𝑋𝑖 ~ 𝐵𝑒𝑟𝑛(𝑝)
𝐸 𝑋1 = 𝑝,
𝑉𝑎𝑟 𝑋1 = 𝑝(1 − 𝑝)
𝑆𝑛 − 𝑛𝑝
𝑛𝑝(1 − 𝑝)
v.a. discrete
d
𝑍~𝑁(0,1)
𝑛 → +∞
v.a. continua
rule of thumb ∶ 𝑛𝑝 > 5 & 𝑛 1 − 𝑝 > 5
𝑆𝑛 ~ B𝑖𝑛 𝑛, 𝑝 …
Esempio
(Ross, es. 10 p. 295)
Una compagnia aerea osserva che il 6% dei passeggeri che prenotano un volo
non si presentano al check-in. Quante prenotazioni possono essere accettate
perchè con almeno il 95% di probabilità tutti coloro che si presentano al checkin per un volo da 250 posti siano ammessi?
𝑋𝑖 = 1 se si presenta al check − in
𝑋𝑖 = 0 altrimenti
𝑆𝑛 n. di persone che si presentano al checkin su 𝑛 prenotati. 𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛
𝑆𝑛 ~𝐵𝑖𝑛 𝑛, 𝑝 , 𝑝 = 1 − 0.06 = 0.94
tutti coloro che si presentano al check-in per un volo da 250 posti sono ammessi
se e solo se 𝑆𝑛 ≤ 250
0.95 ≤ 𝑃(𝑆𝑛 ≤ 250) = 𝑃
𝑛 incognito!
𝐵𝑖𝑛 𝑛, 𝑝
=𝑃
𝑆𝑛 − 𝑛𝑝
≤
250 − 𝑛𝑝
𝑛𝑝(1 − 𝑝)
𝑛𝑝(1 − 𝑝)
𝑆𝑛 − 𝑛 × 0.94
250 − 0.94𝑛
≤
𝑛 × 0.94 × 0.06
0.0564𝑛
Esempio, cont.
0.95 ≤ 𝑃(𝑆𝑛 ≤ 250) = 𝑃
𝑆𝑛 − 𝑛𝑝
𝑛𝑝(1 − 𝑝)
250 × 0.94 = 235
250 × 0.06 = 15
≤
250 − 𝑛𝑝
𝑛𝑝(1 − 𝑝)
pbinom(250,259,0.94)
pbinom(250,260,0.94)
pbinom(250,261,0.94)
=𝑃
(TCL*) ≈ 𝑃 𝑍 ≤
𝑆𝑛 − 𝑛 × 0.94
𝑛 × 0.94 × 0.06
250 − 0.94𝑛
0.0564𝑛
≤
=Φ
250 − 0.94𝑛
0.0564𝑛
250 − 0.94𝑛
0.0564𝑛
0.4
N(0,1)
0.2
0.3
𝑧: 𝑃 𝑍 ≤ 𝑧 = 0.95?
per qque 𝑧 > 𝑧: 𝑃 𝑍 ≤ 𝑧 ≥ 0.95
𝑧 = qnorm 0.95,0,1 = 1.644854
0.1
250 − 0.94𝑛
0.0564𝑛
≥ 1.644854
0.0
𝑛 ≤ 259(.266)
-4
-2
0
2
4
Sunto estremo
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝜇 = 𝐸 𝑋1
𝜎 2 = 𝑉𝑎𝑟 𝑋1
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑛
media campionaria
media nella pop.
𝑋=
varianza nella pop.
(inizio di) inferenza per la media di una popolazione
la media campionaria è uno
stimatore non distorto
della media nella popolazione
𝑋−𝜇
𝜎2 𝑛
d
𝑛 → +∞
𝑋 è stimatore
non distorto
della proporzione
di successi, 𝑝
𝑍~𝑁(0,1)
Verifica del TCL con R
Script5.R
Normal Q-Q Plot
4
Histogram of rnorm(1000, 0, 1)
-2
0
Sample Quantiles
0.2
0.1
0.0
Density
0.3
2
0.4
per 𝑛 suff. grande
𝑆𝑛 − 𝐸(𝑆𝑛 )
𝑃 𝑎<
≤𝑏 ≈Φ 𝑏 −Φ 𝑎 ,
𝑉𝑎𝑟(𝑆𝑛 )
-2
0
2
-4
4
0
Theoretical Quantiles
rnorm(1000, 0, 1)
5000 simulazioni di
-2
𝑆𝑛 − 𝐸(𝑆𝑛 )
𝑉𝑎𝑟(𝑆𝑛 )
=
𝑆𝑛 − 0.5
1 12𝑛
2
4
𝑁(0,1)
da una Unif(0,1)
(𝑆𝑛 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 , 𝑋𝑖 ~𝑈(0,1))
Inferenza
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝜇 = 𝐸 𝑋1
media nella pop.,
𝑋 stimatore non distorto
𝜎 2 = 𝑉𝑎𝑟 𝑋1 varianza nella pop.
varianza
campionaria
𝑆0 2
1
=
𝑛
𝑆2 =
stimatore non distorto:
𝑛
𝑋𝑖 − 𝜇
2
se
è nota
se
non è nota
𝑖=1
1
𝑛−1
𝑛
𝑋𝑖 − 𝑋
2
𝑖=1
la media 𝑥 e la varianza (non distorta) 𝑠 2 dei dati sono la realizzazione
campionaria di queste variabili aleatorie
incertezza associata al campione/alla stima.
Intervalli di confidenza
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝜇 = 𝐸 𝑋1
media nella pop.,
𝑋 stimatore non distorto
Un intervallo di confidenza per è, in breve, un intervallo aleatorio
che, con buona probabilità, contiene il “vero” (e sconosciuto) valore
di .
Se 𝑋 è un buon stimatore di è ragionevole supporre che la sua
distribuzione sia concentrata vicino al “vero valore di” .
𝑃 𝑋 − 𝑎 < 𝜇,
𝑋 + 𝑏 > 𝜇 = 0.95
𝑃 𝜇 − 𝑏 < 𝑋 < 𝜇 + 𝑎 = 0.95
𝑃
−𝑏
𝜎2 𝑛
<
𝑋−𝜇
𝜎2 𝑛
<
𝑎
𝜎2 𝑛
nota
𝑋1 ~𝑁 𝜇, 𝜎 2
o 𝑛 grande:
𝑋−𝜇
= 0.95
𝜎2
𝑛
~𝑁(0,1)
Intervalli di confidenza
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝜇 = 𝐸 𝑋1
media nella pop.,
𝑃
−𝑏
𝜎2
𝑛
<
𝑋 stimatore non distorto
𝑋−𝜇
𝜎2
𝑎
𝜎2
𝑛
= 0.95
-2
0
2
4
0.4
0.3
0.1
0.0
0.0
0.1
0.2
0.3
0.4
(−2.326248, 1.750686)
0.2
0.3
0.2
0.1
0.0
-4
𝑋1 ~𝑁 𝜇, 𝜎 2
o 𝑛 grande:
𝑋−𝜇
~𝑁(0,1)
2
𝜎 𝑛
(−1.644854, +∞)
0.4
(−∞, 1.644854)
𝑛
<
nota
-4
-2
0
2
4
-4
-2
0
2
4
Intervalli di confidenza
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝜇 = 𝐸 𝑋1
media nella pop.,
𝑃
(−1.959964,
−𝑏
𝜎2
𝑛
<
𝑋 stimatore non distorto
𝑋−𝜇
𝜎2
𝑛
𝑎
<
𝜎2
𝑛
nota
𝑋1 ~𝑁 𝜇, 𝜎 2
o 𝑛 grande:
𝑋−𝜇
~𝑁(0,1)
2
𝜎 𝑛
= 0.95
𝑎=𝑏
1.959964)
𝑎
𝜎2
𝑛
= 𝑧1−𝛼
2
1−𝛼
𝑃 𝑋 − 𝑎 < 𝜇,
qnorm 0.975,0,1
[ 0.95 ]
]
livello di
confidenza
𝑋+𝑎 >𝜇 = 1−𝛼
Intervalli di confidenza
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝜇 = 𝐸 𝑋1
media nella pop.,
𝑋
𝜎 2 = 𝑉𝑎𝑟 𝑋1 varianza nella pop.
𝑃 𝑋−
𝜎2
×𝑧1−𝛼 2
𝑛
<𝜇 < 𝑋+
stimatore non distorto
𝜎2
×𝑧1−𝛼 2
𝑛
=1−𝛼
nota
𝑋1 ~𝑁 𝜇, 𝜎 2
o 𝑛 grande:
𝑋−𝜇
~𝑁(0,1)
2
𝜎 𝑛
Un intervallo di confidenza per è, in breve, un intervallo aleatorio
che, con buona probabilità, contiene il “vero” (e sconosciuto) valore
di .
Se 𝑋 è un buon stimatore di è ragionevole supporre che la sua
distribuzione sia concentrata vicino a .
Si può agire su 𝑛 o su 𝛼
errore massimo
nella stima (∓)
Intervalli di confidenza
𝑃 𝑋−
𝜎2
𝑛 ×𝑧1−𝛼 2
<𝜇 < 𝑋+
𝜎2
𝑛 ×𝑧1−𝛼 2
=1−𝛼
𝑛 crescente ⟹ riduzione dell′ errore massimo accettabile
1 − 𝛼 crescente (α decrescente) ⟹ 𝐚𝐮𝐦𝐞𝐧𝐭𝐨 dell′ errore massimo accettabile
1 − 𝛼 = 0.95 ⇔ 𝛼 = 0.05 ⇒ 𝑧0.975 = 1.959964
1 − 𝛼 = 0.99 ⇔ 𝛼 = 0.01 ⇒ 𝑧0.995 = 2.575829
𝑧0.975 = 1.959964
Intervalli di confidenza
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝜇 = 𝐸 𝑋1
media nella pop., 𝑋
𝜎 2 = 𝑉𝑎𝑟 𝑋1 varianza nella pop., 𝑆 2
𝑃 𝑋−
𝜎2
𝑛 ×𝑧1−𝛼 2
<𝜇 < 𝑋+
𝜎2
𝑛 ×𝑧1−𝛼 2
nota
𝑋1 ~𝑁 𝜇, 𝜎 2
o 𝑛 grande:
𝑋−𝜇
~𝑁(0,1)
2
𝜎 𝑛
=1−𝛼
Per un campione gaussiano si ha che:
non nota
• 𝑋 𝑒 𝑆 2 𝑠𝑜𝑛𝑜 𝑣. 𝑎. 𝑖𝑛𝑑𝑖𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑖
•
•
(𝑛−1)𝑆 2
2
~𝜒
2
𝜎
𝑋−𝜇
𝑆2
𝑛
pivot
𝑋1 ~𝑁 𝜇, 𝜎 2
𝒐 𝒏 𝐠𝐫𝐚𝐧𝐝𝐞:
𝑛−1
~𝑡(𝑛 − 1)
𝑃 𝑋−
𝑆2
𝑛 ×𝑡(𝑛
− 1)1−𝛼
2
<𝜇
Intervalli di confidenza
𝑋1 , … , 𝑋𝑛 campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
𝜇 = 𝐸 𝑋1
media nella pop., 𝑋
𝜎 2 = 𝑉𝑎𝑟 𝑋1 varianza nella pop., 𝑆 2
Per un campione gaussiano si ha che:
• 𝑋 𝑒 𝑆 2 𝑠𝑜𝑛𝑜 𝑣. 𝑎. 𝑖𝑛𝑑𝑖𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑖
•
•
(𝑛−1)𝑆 2
2
~𝜒
2
𝜎
𝑋−𝜇
𝑆2
𝑛−1
(𝑛 − 1)𝑆 2 (𝑛 − 1)𝑆 2
,
𝜒 2 𝑛−1,𝛼/2 𝜒 2 𝑛−1,1−𝛼/2
~𝑡(𝑛 − 1)
𝑛
𝑖−1,…,𝑛(𝑋𝑖 −
𝜒 2 𝑛,𝛼/2
𝜇)2
,
𝑖−1,…,𝑛(𝑋𝑖 − 𝜇)
𝜒 2 𝑛,1−𝛼/2
2
Esempio
In prossimità del nuovo anno scolastico il preside di una scuola vuole stimare
il numero medio di giorni di assenza degli studenti nell’a.s. precedente. Per
questo estrae un campione casuale di 50 studenti dell’anno precedente,
ricavandone una media di 8.4 giorni con una deviazione standard di 5.1
giorni.
a) Indicare un IC(95%) del numero medio di giorni di assenza di uno
studente della scuola;
b) Con una confidenza del 95%, qual è il limite superiore del numero medio di
giorni di assenza?
𝑋1 , … , 𝑋50
c.c. da popolazione con media 𝜇 e deviazione standard 𝜎,
entrambe incognite. La distribuzione della pop. è discreta.
𝑥 = 8.4,
𝑠 = 5.1
a)
𝛼 = 0.05
𝑡(49)0.975 = 2.009575
𝑋−
𝑠2
×𝑡(𝑛
𝑛
− 1)1−𝛼
2
<𝜇 < 𝑋+
𝑠2
×𝑡(𝑛
𝑛
− 1)1−𝛼
2
(6.9506, 9.8494)
(Ross, n. 20 p. 339)
Esempio
In prossimità del nuovo anno scolastico il preside di una scuola vuole stimare
il numero medio di giorni di assenza degli studenti nell’a.s. precedente. Per
questo estrae un campione casuale di 50 studenti dell’anno precedente,
ricavandone una media di 8.4 giorni con una deviazione standard di 5.1
giorni.
a) Indicare un IC(95%) del numero medio di giorni di assenza di uno
studente della scuola;
b) Con una confidenza del 95%, qual è il limite superiore del numero medio di
giorni di assenza?
𝑋1 , … , 𝑋50
c.c. da popolazione con media 𝜇 e deviazione standard 𝜎,
entrambe incognite. La distribuzione della pop. è discreta.
𝑥 = 8.4,
𝑠 = 5.1
b)
𝛼 = 0.05
𝑡(49)𝟎.𝟗𝟓 = 1.676551
𝑋−
𝑠2
×𝑡
𝑛
𝑛−1
2 2
1−𝛼 2
𝑠
×𝑡(𝑛
< 𝜇 𝜇<<𝑋 𝑋++ 𝑠𝑛 ×𝑛𝑡(𝑛
−−1)1)
𝟏−𝜶
1−𝛼/2
9.60921
(Ross, n. 20 p. 339)
Una parentesi:Olbia 2013
117.6
Una parentesi: Olbia 2013
120.6)
Intervalli di confidenza: p
𝑋1 , … , 𝑋𝑛 campione casuale dalla distribuzione Bern(p).
𝑋 è stimatore non distorto di 𝑝
𝑉𝑎𝑟 𝑋 =
𝑝(1 − 𝑝)
𝑛
𝑋−𝑝
𝑝(1 − 𝑝)/𝑛
≈ 𝑁 0,1
𝑃 𝑋−
𝑋(1−𝑋)
𝑛
𝑛𝑝 > 5 & 𝑛 1 − 𝑝 > 5
× 𝑧1−𝛼
2
<𝑝 < 𝑋+
𝑋(1−𝑋)
𝑛
× 𝑧1−𝛼
2
=1−𝛼
Esempio
Pochi giorni prima delle elezioni un noto quotidiano commissiona un sondaggio
di opinione per prevedere quale fra le due coalizioni (CD, CS) vincerà le
elezioni. Il sondaggio, condotto su un campione di 1750 intervistati, assegna il
39% al CS ed il 42% al CD.
Calcolare IC(95%) per ciascuna coalizione e dedurne i reali vantaggi.
𝑥 𝐶𝐷 = 0.42 e 𝑥 𝐶𝑆 = 0.39
1 − 𝛼 = 0.95
𝑋−
𝑛𝑝 > 5 & 𝑛 1 − 𝑝 > 5 in entrambi i casi.
𝑋(1−𝑋)
𝑛
× 𝑧1−𝛼
2
<𝑝 < 𝑋+
𝑋(1−𝑋)
𝑛
× 𝑧1−𝛼
𝑝𝐶𝐷
CD: 0.397, 0.443
CS: 0.367, 0.413
𝑝𝐶𝑆
Quante persone andrebbero intervistate perchè l’errore massimo
accettabile nella stima sia 0.01? (err. max attuale  0.02)
2
Esempio
Pochi giorni prima delle elezioni un noto quotidiano commissiona un sondaggio
di opinione per prevedere quale fra le due coalizioni (CD, CS) vincerà le
elezioni. Il sondaggio, condotto su un campione di 1750 intervistati, assegna il
39% al CS ed il 42% al CD.
Calcolare IC(95%) per ciascuna coalizione e dedurne i reali vantaggi.
x 5.5
𝑥 𝐶𝐷 = 0.42 e 𝑥 𝐶𝑆 = 0.39
1 − 𝛼 = 0.95
𝑋−
𝑋(1−𝑋)
𝑛
× 𝑧1−𝛼
1
4𝑛
risultato
indipendente da 𝑥
2
<𝑝 < 𝑋+
× 𝑧1−𝛼 2 ≤ ε
𝑧1−𝛼 2 2
𝑛≥
4ε2
𝑋(1−
𝑋(1−𝑋)
𝑋)
× 𝑧1−𝛼 2
𝑛𝑛
𝑢(1 − 𝑢) ≤ 1/4
𝑛 ≥ 9603.65
Quante persone andrebbero intervistate perchè l’errore massimo
accettabile nella stima sia 0.01? (err. max attuale  0.02)
I principali IC …
𝑋𝑖 ~𝑁(𝜇, 𝜎 2 )
o 𝑛 grande (TCL)
Per 𝜇, con 𝜎 2 nota:
Per 𝜇, con 𝜎 2 non nota:
Per 𝜎 2 , con 𝜇 non nota:
𝑋𝑛 − 𝑧1−𝛼
2
𝜎2
, 𝑋𝑛
𝑛
𝑋𝑛 − 𝑡𝑛−1,1−𝛼
2
+ 𝑧1−𝛼
𝑠2
𝑛 , 𝑋𝑛
2
𝜎2
𝑛
+ 𝑡𝑛−1,1−𝛼
2
𝑠2
𝑛
(𝑛 − 1)𝑆 2 (𝑛 − 1)𝑆 2
,
𝜒 2 𝑛−1,1−𝛼 2 𝜒 2 𝑛−1,𝛼 2
𝑋𝑖 ~𝐵𝑒𝑟𝑛(𝑝)
asintotico:
𝑋𝑛 − 𝑧1−𝛼
2
𝑋𝑛 (1−𝑋𝑛 )
, 𝑋𝑛
𝑛
+ 𝑧1−𝛼
2
𝑋𝑛 (1−𝑋𝑛 )
𝑛
I principali IC … con R
Script6.R
0.50
IC(95)
0.45
IC(95%)
0.40
0.3671479
𝒙 = 𝟎. 𝟑𝟗
𝑛 = 1750
𝑥 = 0.39
0.30
0.35
0.4128521
𝑋𝑖 ~𝐵𝑒𝑟𝑛(𝑝)
asintotico:
0
50
𝑛 = 100𝑘
n=100k
𝑋𝑛 − 𝑧1−𝛼
2
100
𝑋𝑛 (1−𝑋𝑛 )
, 𝑋𝑛
𝑛
150
+ 𝑧1−𝛼
2
𝑋𝑛 (1−𝑋𝑛 )
𝑛
Intervalli di confidenza
0.40
0.45
0.50
0.55
0.60
Interpretazione frequentista: se potessi ripetere l’esperimento
tante volte, sempre nelle stesse condizioni, il (1-𝛼)% degli
intervalli campionari ottenuti contiene il «vero valore» del
IC(95)
parametro.
0.35
Script6.R
0
20
40
60
80
100
Legge (forte) dei grandi numeri
𝑋1 , … , 𝑋𝑛 , … successione di v.a. indipendenti, tutte con la stessa distribuzione che
abbia media 𝜇 finita.
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑛
𝑛→∞
𝜇
𝑞𝑢𝑎𝑠𝑖 𝑐𝑒𝑟𝑡𝑎𝑚𝑒𝑛𝑡𝑒
succ. numerica, una diversa per ogni esito 𝜔
𝑃
𝜔∶
𝑋1 (𝜔) + 𝑋2 (𝜔) + ⋯ + 𝑋𝑛 (𝜔)
𝜇
𝑛→∞
𝑛
variabili aleatorie:
quantità di interesse
legate all’esito
dell’esperimento
=1
𝑿
P
Legge (forte) dei grandi numeri
Bern(0.5)
Bern(0.5)
Bern(0.5)
0
200 400 600 800
quattro diversi
esiti 𝜔
0
200 400 600 800
0
200 400 600 800
0
200 400 600 800
0.6
0.20.0 0.40.2 0.60.4
0.60.4 0.80.6 1.00.8
Bern(0.5)
Bern(0.5)
0.0
1.0
Bern(0.5)
0.4
quattro diverse
successioni
numeriche
0.4
0.20.0 0.40.2
200 400 600 800
0.0
0
0.0
0.20.0 0.40.2 0.60.4
0.6
Bern(0.5)
Bern(0.5)
0
200 400 600 800
Legge (forte) dei grandi numeri
𝑋1 , … , 𝑋𝑛 , … successione di v.a. indipendenti, tutte con la stessa distribuzione che
abbia media 𝜇 finita.
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋𝑛 =
𝑛
𝑛→∞
𝑞𝑢𝑎𝑠𝑖 𝑐𝑒𝑟𝑡𝑎𝑚𝑒𝑛𝑡𝑒
𝜇
se 𝑉𝑎𝑟 𝑋1 = 𝜎 2 esiste finita, allora 𝑋1 2 ha media finita 𝜎 2 + 𝜇 e quindi
𝑋1 2 + 𝑋2 2 + ⋯ + 𝑋𝑛 2
(𝜎 2 +𝜇2 )
𝑛→∞
𝑛
pertanto
1
2
𝑆n =
𝑛−1
𝑛
𝑋𝑖 − 𝑋𝑛
𝑖=1
2
1
=
𝑛−1
𝑛
𝑋𝑖 2 − 𝑛𝑋𝑛
𝑖=1
2
𝑛→∞
(𝜎 2 +𝜇2 − 𝜇2 ) = 𝜎 2 𝑞. 𝑐.
La legge (forte) dei grandi numeri
1
𝜋
1
, −∞
Cauchy
𝑥 2 +1
< 𝑥 < +∞
0.25
0.30
𝑓 𝑥 = ×
0.00
0.05
0.10
0.15
0.20
densità
di
Cauchy
-10
-5
0
5
10
La legge (forte) dei grandi numeri