Antonella Bodini
Istituto di Matematica Applicata e Tecnologie Informatiche
“E. Magenes” del CNR
Materiale ad uso dei ricercatori che hanno seguito il corso di
formazione interna in Statistica, edizione 2016.
STATISTICA
Inferenza
Il campione e le v.a.
Per fare inferenza su un certo valore di interesse di un’intera
popolazione (es., l’altezza o la credenza nell’aldilà) utilizzando un
campione è necessario fare delle ipotesi sui valori della
popolazione e sul rapporto tra la popolazione ed il campione.
Una ipotesi è che esista una distribuzione di probabilità di fondo
per i valori di interesse dell’intera popolazione
le variabili casuali che descrivono il valore di interesse dei vari
membri della popolazione sono v.a. indipendenti
“i.i.d”
con la stessa distribuzione
Ci stiamo mettendo prima della raccolta dei dati. Se ci interessa fare inferenza
sull’altezza di una popolazione, possiamo fare l’ipotesi che nella popolazione ci sia
gente un po’ più alta e un po’ più bassa, ma simmetricamente rispetto ad un valor
medio ( ← ipotesi): indicata con ๐‘‹ l’altezza di una persona qualunque nella
popolazione, stiamo dicendo (per ipotesi) che ๐‘‹~๐‘(๐œ‡, ๐œŽ 2 ). E poi diciamo che scegliamo
il nostro campione a caso nella popolazione (e non, tanto per dire, tra i giocatori di
basket!): prima di raccogliere i dati, il campione è un generico vettore (๐‘‹1 , ๐‘‹2 , … , ๐‘‹๐‘› ).
Inferenza
La distribuzione è qualunque!
non parametrica
(distribution free)
Parametrica: la distribuzione è Gaussiana, o Gamma, o
Weibull, o una qualunque distribuzione con forma funzionale
nota ma con parametri incogniti
Inferenza per la media e la
varianza della popolazione
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐ธ ๐‘‹1 + ๐‘‹2 + โ‹ฏ + ๐‘‹๐‘› = ๐‘›๐ธ ๐‘‹1
๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1 + ๐‘‹2 + โ‹ฏ + ๐‘‹๐‘› = ๐‘›๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1
๐ธ ๐‘‹1 = ๐ธ ๐‘‹2 = … = ๐ธ ๐‘‹๐‘›
๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1 = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹2 = … = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹๐‘›
๐œ‡ = ๐ธ ๐‘‹1
๐ธ ๐‘‹ =๐œ‡
๐œŽ2
๐‘‰๐‘Ž๐‘Ÿ ๐‘‹ =
๐‘›
๐œŽ 2 = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1
media nella popolazione
varianza nella pop.
๐‘‹1 + ๐‘‹2 + โ‹ฏ + ๐‘‹๐‘›
๐‘‹=
๐‘›
media
campionaria
Inferenza…
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐œ‡ = ๐ธ ๐‘‹1
media nella popolazione
varianza nella
popolazione
media
๐‘‹1 + ๐‘‹2 + โ‹ฏ + ๐‘‹๐‘›
๐‘‹=
campionaria
๐‘›
๐ธ ๐‘‹ =๐œ‡
๐œŽ 2 = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1
stimatore: qualunque funzione
del campione ๐‘‡(๐‘‹1 , … , ๐‘‹๐‘› )
non distorto:
๐ธ ๐‘‡ ๐‘‹1 , … , ๐‘‹๐‘› =parametro di interesse
la media campionaria è uno
stimatore non distorto
della media nella popolazione
๐œŽ2
๐‘‰๐‘Ž๐‘Ÿ ๐‘‹ =
→ 0 con ๐‘› ↑
๐‘›
๐‘ƒ ๐‘‹ ≤2 =?
Per rispondere serve
conoscere (i.e., ipotizzare) la
distribuzione campionaria
Ti piace vincere facile?
Mettiamoci in un mondo gaussiano!
๐‘‹๐‘– ~ ๐‘ ๐œ‡, ๐œŽ 2
๐‘†๐‘› ~ ๐‘
2
๐‘ƒ ๐‘‹≤2 =
๐‘†๐‘› = ๐‘‹1 + ๐‘‹2 + โ‹ฏ + ๐‘‹๐‘›
๐‘›๐œ‡, ๐‘›๐œŽ 2
๐‘‹~ ๐‘
๐œŽ2
๐œ‡, ๐‘›
2
๐‘“๐œ‡,๐œŽ2 ๐‘ฅ ๐‘‘๐‘ฅ = "pnorm(2, ๐œ‡, ๐œŽ๐‘› )"
−∞
oppure in uno schema di prove ripetute di Bernoulli:
๐‘‹๐‘– ~ ๐ต๐‘’๐‘Ÿ๐‘› ๐‘
๐‘†๐‘› ~ B๐‘–๐‘› ๐‘›, ๐‘
๐‘ƒ ๐‘‹ ≤ 0.2 = ๐‘ƒ ๐‘†๐‘› ≤ 0.2๐‘› = "pbinom(โ‰ช 0.2๐‘› โ‰ซ, ๐‘›, ๐‘)"
๐‘‹ è stimatore
non distorto
della proporzione
di successi, ๐‘
Il Teorema centrale del limite
(o del limite centrale)
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione).
Se ๐œ‡ = ๐ธ ๐‘‹1 e ๐œŽ 2 = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1 esistono, finite, allora
๐‘†๐‘› − ๐‘›๐œ‡
๐‘›๐œŽ 2
๐‘‹−๐œ‡
๐‘†๐‘› − ๐ธ(๐‘†๐‘› )
๐‘‰๐‘Ž๐‘Ÿ(๐‘†๐‘› )
๐น๐‘› (๐‘ฅ)
๐œŽ2 ๐‘›
d
๐‘~๐‘(0,1)
๐‘› → +∞
๐‘› → +∞
Φ(๐‘ฅ)
per ogni ๐‘ฅ
๐‘ฅ
Φ ๐‘ฅ =
๐‘‹−๐œ‡
๐‘›
๐œŽ
๐‘ƒ ๐‘Ž<
๐‘†๐‘› − ๐ธ(๐‘†๐‘› )
๐‘‰๐‘Ž๐‘Ÿ(๐‘†๐‘› )
=Φ ๐‘ −Φ ๐‘Ž ,
−∞
๐‘ข2
๐‘’๐‘ฅ๐‘ −
๐‘‘๐‘ข
2
2๐œ‹
1
≤ ๐‘ = ๐น๐‘› b − ๐น๐‘› (a) ≈ ๐‘ƒ ๐‘Ž < ๐‘ ≤ ๐‘
non serve conoscere
la distribuzione della popolazione
per ๐‘› suff. grande
Il Teorema centale del limite
Pierre Simone, marchese di Laplace
(1749-1827)
Errori di misura: legge della frequenza
degli errori
Jules Henri Poincaré
(1854-1912)
Tutti ne sono convinti: gli
sperimentali credono che sia
un teorema matematico,
mentre i matematici credono
che sia un fatto empirico
Caso particolare
๐‘‹1 , … , ๐‘‹๐‘› campione casuale, ๐‘‹๐‘– ~ ๐ต๐‘’๐‘Ÿ๐‘›(๐‘)
๐ธ ๐‘‹1 = ๐‘,
๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1 = ๐‘(1 − ๐‘)
๐‘†๐‘› − ๐‘›๐‘
๐‘›๐‘(1 − ๐‘)
v.a. discrete
d
๐‘~๐‘(0,1)
๐‘› → +∞
v.a. continua
rule of thumb โˆถ ๐‘›๐‘ > 5 & ๐‘› 1 − ๐‘ > 5
๐‘†๐‘› ~ B๐‘–๐‘› ๐‘›, ๐‘ …
Esempio
(Ross, es. 10 p. 295)
Una compagnia aerea osserva che il 6% dei passeggeri che prenotano un volo
non si presentano al check-in. Quante prenotazioni possono essere accettate
perchè con almeno il 95% di probabilità tutti coloro che si presentano al checkin per un volo da 250 posti siano ammessi?
๐‘‹๐‘– = 1 se si presenta al check − in
๐‘‹๐‘– = 0 altrimenti
๐‘†๐‘› n. di persone che si presentano al checkin su ๐‘› prenotati. ๐‘†๐‘› = ๐‘‹1 + โ‹ฏ + ๐‘‹๐‘›
๐‘†๐‘› ~๐ต๐‘–๐‘› ๐‘›, ๐‘ , ๐‘ = 1 − 0.06 = 0.94
tutti coloro che si presentano al check-in per un volo da 250 posti sono ammessi
se e solo se ๐‘†๐‘› ≤ 250
0.95 ≤ ๐‘ƒ(๐‘†๐‘› ≤ 250) = ๐‘ƒ
๐‘› incognito!
๐ต๐‘–๐‘› ๐‘›, ๐‘
=๐‘ƒ
๐‘†๐‘› − ๐‘›๐‘
≤
250 − ๐‘›๐‘
๐‘›๐‘(1 − ๐‘)
๐‘›๐‘(1 − ๐‘)
๐‘†๐‘› − ๐‘› × 0.94
250 − 0.94๐‘›
≤
๐‘› × 0.94 × 0.06
0.0564๐‘›
Esempio, cont.
0.95 ≤ ๐‘ƒ(๐‘†๐‘› ≤ 250) = ๐‘ƒ
๐‘†๐‘› − ๐‘›๐‘
๐‘›๐‘(1 − ๐‘)
250 × 0.94 = 235
250 × 0.06 = 15
≤
250 − ๐‘›๐‘
๐‘›๐‘(1 − ๐‘)
pbinom(250,259,0.94)
pbinom(250,260,0.94)
pbinom(250,261,0.94)
=๐‘ƒ
(TCL*) ≈ ๐‘ƒ ๐‘ ≤
๐‘†๐‘› − ๐‘› × 0.94
๐‘› × 0.94 × 0.06
250 − 0.94๐‘›
0.0564๐‘›
≤
=Φ
250 − 0.94๐‘›
0.0564๐‘›
250 − 0.94๐‘›
0.0564๐‘›
0.4
N(0,1)
0.2
0.3
๐‘ง: ๐‘ƒ ๐‘ ≤ ๐‘ง = 0.95?
per qque ๐‘ง > ๐‘ง: ๐‘ƒ ๐‘ ≤ ๐‘ง ≥ 0.95
๐‘ง = qnorm 0.95,0,1 = 1.644854
0.1
250 − 0.94๐‘›
0.0564๐‘›
≥ 1.644854
0.0
๐‘› ≤ 259(.266)
-4
-2
0
2
4
Sunto estremo
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐œ‡ = ๐ธ ๐‘‹1
๐œŽ 2 = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1
๐‘‹1 + ๐‘‹2 + โ‹ฏ + ๐‘‹๐‘›
๐‘›
media campionaria
media nella pop.
๐‘‹=
varianza nella pop.
(inizio di) inferenza per la media di una popolazione
la media campionaria è uno
stimatore non distorto
della media nella popolazione
๐‘‹−๐œ‡
๐œŽ2 ๐‘›
d
๐‘› → +∞
๐‘‹ è stimatore
non distorto
della proporzione
di successi, ๐‘
๐‘~๐‘(0,1)
Verifica del TCL con R
Script5.R
Normal Q-Q Plot
4
Histogram of rnorm(1000, 0, 1)
-2
0
Sample Quantiles
0.2
0.1
0.0
Density
0.3
2
0.4
per ๐‘› suff. grande
๐‘†๐‘› − ๐ธ(๐‘†๐‘› )
๐‘ƒ ๐‘Ž<
≤๐‘ ≈Φ ๐‘ −Φ ๐‘Ž ,
๐‘‰๐‘Ž๐‘Ÿ(๐‘†๐‘› )
-2
0
2
-4
4
0
Theoretical Quantiles
rnorm(1000, 0, 1)
5000 simulazioni di
-2
๐‘†๐‘› − ๐ธ(๐‘†๐‘› )
๐‘‰๐‘Ž๐‘Ÿ(๐‘†๐‘› )
=
๐‘†๐‘› − 0.5
1 12๐‘›
2
4
๐‘(0,1)
da una Unif(0,1)
(๐‘†๐‘› = ๐‘‹1 + ๐‘‹2 + โ‹ฏ + ๐‘‹๐‘› , ๐‘‹๐‘– ~๐‘ˆ(0,1))
Inferenza
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐œ‡ = ๐ธ ๐‘‹1
media nella pop.,
๐‘‹ stimatore non distorto
๐œŽ 2 = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1 varianza nella pop.
varianza
campionaria
๐‘†0 2
1
=
๐‘›
๐‘†2 =
stimatore non distorto:
๐‘›
๐‘‹๐‘– − ๐œ‡
2
se
è nota
se
non è nota
๐‘–=1
1
๐‘›−1
๐‘›
๐‘‹๐‘– − ๐‘‹
2
๐‘–=1
la media ๐‘ฅ e la varianza (non distorta) ๐‘  2 dei dati sono la realizzazione
campionaria di queste variabili aleatorie
incertezza associata al campione/alla stima.
Intervalli di confidenza
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐œ‡ = ๐ธ ๐‘‹1
media nella pop.,
๐‘‹ stimatore non distorto
Un intervallo di confidenza per è, in breve, un intervallo aleatorio
che, con buona probabilità, contiene il “vero” (e sconosciuto) valore
di .
Se ๐‘‹ è un buon stimatore di è ragionevole supporre che la sua
distribuzione sia concentrata vicino al “vero valore di” .
๐‘ƒ ๐‘‹ − ๐‘Ž < ๐œ‡,
๐‘‹ + ๐‘ > ๐œ‡ = 0.95
๐‘ƒ ๐œ‡ − ๐‘ < ๐‘‹ < ๐œ‡ + ๐‘Ž = 0.95
๐‘ƒ
−๐‘
๐œŽ2 ๐‘›
<
๐‘‹−๐œ‡
๐œŽ2 ๐‘›
<
๐‘Ž
๐œŽ2 ๐‘›
nota
๐‘‹1 ~๐‘ ๐œ‡, ๐œŽ 2
o ๐‘› grande:
๐‘‹−๐œ‡
= 0.95
๐œŽ2
๐‘›
~๐‘(0,1)
Intervalli di confidenza
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐œ‡ = ๐ธ ๐‘‹1
media nella pop.,
๐‘ƒ
−๐‘
๐œŽ2
๐‘›
<
๐‘‹ stimatore non distorto
๐‘‹−๐œ‡
๐œŽ2
๐‘Ž
๐œŽ2
๐‘›
= 0.95
-2
0
2
4
0.4
0.3
0.1
0.0
0.0
0.1
0.2
0.3
0.4
(−2.326248, 1.750686)
0.2
0.3
0.2
0.1
0.0
-4
๐‘‹1 ~๐‘ ๐œ‡, ๐œŽ 2
o ๐‘› grande:
๐‘‹−๐œ‡
~๐‘(0,1)
2
๐œŽ ๐‘›
(−1.644854, +∞)
0.4
(−∞, 1.644854)
๐‘›
<
nota
-4
-2
0
2
4
-4
-2
0
2
4
Intervalli di confidenza
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐œ‡ = ๐ธ ๐‘‹1
media nella pop.,
๐‘ƒ
(−1.959964,
−๐‘
๐œŽ2
๐‘›
<
๐‘‹ stimatore non distorto
๐‘‹−๐œ‡
๐œŽ2
๐‘›
๐‘Ž
<
๐œŽ2
๐‘›
nota
๐‘‹1 ~๐‘ ๐œ‡, ๐œŽ 2
o ๐‘› grande:
๐‘‹−๐œ‡
~๐‘(0,1)
2
๐œŽ ๐‘›
= 0.95
๐‘Ž=๐‘
1.959964)
๐‘Ž
๐œŽ2
๐‘›
= ๐‘ง1−๐›ผ
2
1−๐›ผ
๐‘ƒ ๐‘‹ − ๐‘Ž < ๐œ‡,
qnorm 0.975,0,1
[ 0.95 ]
]
livello di
confidenza
๐‘‹+๐‘Ž >๐œ‡ = 1−๐›ผ
Intervalli di confidenza
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐œ‡ = ๐ธ ๐‘‹1
media nella pop.,
๐‘‹
๐œŽ 2 = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1 varianza nella pop.
๐‘ƒ ๐‘‹−
๐œŽ2
×๐‘ง1−๐›ผ 2
๐‘›
<๐œ‡ < ๐‘‹+
stimatore non distorto
๐œŽ2
×๐‘ง1−๐›ผ 2
๐‘›
=1−๐›ผ
nota
๐‘‹1 ~๐‘ ๐œ‡, ๐œŽ 2
o ๐‘› grande:
๐‘‹−๐œ‡
~๐‘(0,1)
2
๐œŽ ๐‘›
Un intervallo di confidenza per è, in breve, un intervallo aleatorio
che, con buona probabilità, contiene il “vero” (e sconosciuto) valore
di .
Se ๐‘‹ è un buon stimatore di è ragionevole supporre che la sua
distribuzione sia concentrata vicino a .
Si può agire su ๐‘› o su ๐›ผ
errore massimo
nella stima (โˆ“)
Intervalli di confidenza
๐‘ƒ ๐‘‹−
๐œŽ2
๐‘› ×๐‘ง1−๐›ผ 2
<๐œ‡ < ๐‘‹+
๐œŽ2
๐‘› ×๐‘ง1−๐›ผ 2
=1−๐›ผ
๐‘› crescente โŸน riduzione dell′ errore massimo accettabile
1 − ๐›ผ crescente (α decrescente) โŸน ๐š๐ฎ๐ฆ๐ž๐ง๐ญ๐จ dell′ errore massimo accettabile
1 − ๐›ผ = 0.95 ⇔ ๐›ผ = 0.05 ⇒ ๐‘ง0.975 = 1.959964
1 − ๐›ผ = 0.99 ⇔ ๐›ผ = 0.01 ⇒ ๐‘ง0.995 = 2.575829
๐‘ง0.975 = 1.959964
Intervalli di confidenza
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐œ‡ = ๐ธ ๐‘‹1
media nella pop., ๐‘‹
๐œŽ 2 = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1 varianza nella pop., ๐‘† 2
๐‘ƒ ๐‘‹−
๐œŽ2
๐‘› ×๐‘ง1−๐›ผ 2
<๐œ‡ < ๐‘‹+
๐œŽ2
๐‘› ×๐‘ง1−๐›ผ 2
nota
๐‘‹1 ~๐‘ ๐œ‡, ๐œŽ 2
o ๐‘› grande:
๐‘‹−๐œ‡
~๐‘(0,1)
2
๐œŽ ๐‘›
=1−๐›ผ
Per un campione gaussiano si ha che:
non nota
• ๐‘‹ ๐‘’ ๐‘† 2 ๐‘ ๐‘œ๐‘›๐‘œ ๐‘ฃ. ๐‘Ž. ๐‘–๐‘›๐‘‘๐‘–๐‘๐‘’๐‘›๐‘‘๐‘’๐‘›๐‘ก๐‘–
•
•
(๐‘›−1)๐‘† 2
2
~๐œ’
2
๐œŽ
๐‘‹−๐œ‡
๐‘†2
๐‘›
pivot
๐‘‹1 ~๐‘ ๐œ‡, ๐œŽ 2
๐’ ๐’ ๐ ๐ซ๐š๐ง๐๐ž:
๐‘›−1
~๐‘ก(๐‘› − 1)
๐‘ƒ ๐‘‹−
๐‘†2
๐‘› ×๐‘ก(๐‘›
− 1)1−๐›ผ
2
<๐œ‡
Intervalli di confidenza
๐‘‹1 , … , ๐‘‹๐‘› campione casuale (v.a. indipendenti, tutte con la stessa distribuzione)
๐œ‡ = ๐ธ ๐‘‹1
media nella pop., ๐‘‹
๐œŽ 2 = ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1 varianza nella pop., ๐‘† 2
Per un campione gaussiano si ha che:
• ๐‘‹ ๐‘’ ๐‘† 2 ๐‘ ๐‘œ๐‘›๐‘œ ๐‘ฃ. ๐‘Ž. ๐‘–๐‘›๐‘‘๐‘–๐‘๐‘’๐‘›๐‘‘๐‘’๐‘›๐‘ก๐‘–
•
•
(๐‘›−1)๐‘† 2
2
~๐œ’
2
๐œŽ
๐‘‹−๐œ‡
๐‘†2
๐‘›−1
(๐‘› − 1)๐‘† 2 (๐‘› − 1)๐‘† 2
,
๐œ’ 2 ๐‘›−1,๐›ผ/2 ๐œ’ 2 ๐‘›−1,1−๐›ผ/2
~๐‘ก(๐‘› − 1)
๐‘›
๐‘–−1,…,๐‘›(๐‘‹๐‘– −
๐œ’ 2 ๐‘›,๐›ผ/2
๐œ‡)2
,
๐‘–−1,…,๐‘›(๐‘‹๐‘– − ๐œ‡)
๐œ’ 2 ๐‘›,1−๐›ผ/2
2
Esempio
In prossimità del nuovo anno scolastico il preside di una scuola vuole stimare
il numero medio di giorni di assenza degli studenti nell’a.s. precedente. Per
questo estrae un campione casuale di 50 studenti dell’anno precedente,
ricavandone una media di 8.4 giorni con una deviazione standard di 5.1
giorni.
a) Indicare un IC(95%) del numero medio di giorni di assenza di uno
studente della scuola;
b) Con una confidenza del 95%, qual è il limite superiore del numero medio di
giorni di assenza?
๐‘‹1 , … , ๐‘‹50
c.c. da popolazione con media ๐œ‡ e deviazione standard ๐œŽ,
entrambe incognite. La distribuzione della pop. è discreta.
๐‘ฅ = 8.4,
๐‘  = 5.1
a)
๐›ผ = 0.05
๐‘ก(49)0.975 = 2.009575
๐‘‹−
๐‘ 2
×๐‘ก(๐‘›
๐‘›
− 1)1−๐›ผ
2
<๐œ‡ < ๐‘‹+
๐‘ 2
×๐‘ก(๐‘›
๐‘›
− 1)1−๐›ผ
2
(6.9506, 9.8494)
(Ross, n. 20 p. 339)
Esempio
In prossimità del nuovo anno scolastico il preside di una scuola vuole stimare
il numero medio di giorni di assenza degli studenti nell’a.s. precedente. Per
questo estrae un campione casuale di 50 studenti dell’anno precedente,
ricavandone una media di 8.4 giorni con una deviazione standard di 5.1
giorni.
a) Indicare un IC(95%) del numero medio di giorni di assenza di uno
studente della scuola;
b) Con una confidenza del 95%, qual è il limite superiore del numero medio di
giorni di assenza?
๐‘‹1 , … , ๐‘‹50
c.c. da popolazione con media ๐œ‡ e deviazione standard ๐œŽ,
entrambe incognite. La distribuzione della pop. è discreta.
๐‘ฅ = 8.4,
๐‘  = 5.1
b)
๐›ผ = 0.05
๐‘ก(49)๐ŸŽ.๐Ÿ—๐Ÿ“ = 1.676551
๐‘‹−
๐‘ 2
×๐‘ก
๐‘›
๐‘›−1
2 2
1−๐›ผ 2
๐‘ 
×๐‘ก(๐‘›
< ๐œ‡ ๐œ‡<<๐‘‹ ๐‘‹++ ๐‘ ๐‘› ×๐‘›๐‘ก(๐‘›
−−1)1)
๐Ÿ−๐œถ
1−๐›ผ/2
9.60921
(Ross, n. 20 p. 339)
Una parentesi:Olbia 2013
117.6
Una parentesi: Olbia 2013
120.6)
Intervalli di confidenza: p
๐‘‹1 , … , ๐‘‹๐‘› campione casuale dalla distribuzione Bern(p).
๐‘‹ è stimatore non distorto di ๐‘
๐‘‰๐‘Ž๐‘Ÿ ๐‘‹ =
๐‘(1 − ๐‘)
๐‘›
๐‘‹−๐‘
๐‘(1 − ๐‘)/๐‘›
≈ ๐‘ 0,1
๐‘ƒ ๐‘‹−
๐‘‹(1−๐‘‹)
๐‘›
๐‘›๐‘ > 5 & ๐‘› 1 − ๐‘ > 5
× ๐‘ง1−๐›ผ
2
<๐‘ < ๐‘‹+
๐‘‹(1−๐‘‹)
๐‘›
× ๐‘ง1−๐›ผ
2
=1−๐›ผ
Esempio
Pochi giorni prima delle elezioni un noto quotidiano commissiona un sondaggio
di opinione per prevedere quale fra le due coalizioni (CD, CS) vincerà le
elezioni. Il sondaggio, condotto su un campione di 1750 intervistati, assegna il
39% al CS ed il 42% al CD.
Calcolare IC(95%) per ciascuna coalizione e dedurne i reali vantaggi.
๐‘ฅ ๐ถ๐ท = 0.42 e ๐‘ฅ ๐ถ๐‘† = 0.39
1 − ๐›ผ = 0.95
๐‘‹−
๐‘›๐‘ > 5 & ๐‘› 1 − ๐‘ > 5 in entrambi i casi.
๐‘‹(1−๐‘‹)
๐‘›
× ๐‘ง1−๐›ผ
2
<๐‘ < ๐‘‹+
๐‘‹(1−๐‘‹)
๐‘›
× ๐‘ง1−๐›ผ
๐‘๐ถ๐ท
CD: 0.397, 0.443
CS: 0.367, 0.413
๐‘๐ถ๐‘†
Quante persone andrebbero intervistate perchè l’errore massimo
accettabile nella stima sia 0.01? (err. max attuale ๏‚ป 0.02)
2
Esempio
Pochi giorni prima delle elezioni un noto quotidiano commissiona un sondaggio
di opinione per prevedere quale fra le due coalizioni (CD, CS) vincerà le
elezioni. Il sondaggio, condotto su un campione di 1750 intervistati, assegna il
39% al CS ed il 42% al CD.
Calcolare IC(95%) per ciascuna coalizione e dedurne i reali vantaggi.
x 5.5
๐‘ฅ ๐ถ๐ท = 0.42 e ๐‘ฅ ๐ถ๐‘† = 0.39
1 − ๐›ผ = 0.95
๐‘‹−
๐‘‹(1−๐‘‹)
๐‘›
× ๐‘ง1−๐›ผ
1
4๐‘›
risultato
indipendente da ๐‘ฅ
2
<๐‘ < ๐‘‹+
× ๐‘ง1−๐›ผ 2 ≤ ε
๐‘ง1−๐›ผ 2 2
๐‘›≥
4ε2
๐‘‹(1−
๐‘‹(1−๐‘‹)
๐‘‹)
× ๐‘ง1−๐›ผ 2
๐‘›๐‘›
๐‘ข(1 − ๐‘ข) ≤ 1/4
๐‘› ≥ 9603.65
Quante persone andrebbero intervistate perchè l’errore massimo
accettabile nella stima sia 0.01? (err. max attuale ๏‚ป 0.02)
I principali IC …
๐‘‹๐‘– ~๐‘(๐œ‡, ๐œŽ 2 )
o ๐‘› grande (TCL)
Per ๐œ‡, con ๐œŽ 2 nota:
Per ๐œ‡, con ๐œŽ 2 non nota:
Per ๐œŽ 2 , con ๐œ‡ non nota:
๐‘‹๐‘› − ๐‘ง1−๐›ผ
2
๐œŽ2
, ๐‘‹๐‘›
๐‘›
๐‘‹๐‘› − ๐‘ก๐‘›−1,1−๐›ผ
2
+ ๐‘ง1−๐›ผ
๐‘ 2
๐‘› , ๐‘‹๐‘›
2
๐œŽ2
๐‘›
+ ๐‘ก๐‘›−1,1−๐›ผ
2
๐‘ 2
๐‘›
(๐‘› − 1)๐‘† 2 (๐‘› − 1)๐‘† 2
,
๐œ’ 2 ๐‘›−1,1−๐›ผ 2 ๐œ’ 2 ๐‘›−1,๐›ผ 2
๐‘‹๐‘– ~๐ต๐‘’๐‘Ÿ๐‘›(๐‘)
asintotico:
๐‘‹๐‘› − ๐‘ง1−๐›ผ
2
๐‘‹๐‘› (1−๐‘‹๐‘› )
, ๐‘‹๐‘›
๐‘›
+ ๐‘ง1−๐›ผ
2
๐‘‹๐‘› (1−๐‘‹๐‘› )
๐‘›
I principali IC … con R
Script6.R
0.50
IC(95)
0.45
IC(95%)
0.40
0.3671479
๐’™ = ๐ŸŽ. ๐Ÿ‘๐Ÿ—
๐‘› = 1750
๐‘ฅ = 0.39
0.30
0.35
0.4128521
๐‘‹๐‘– ~๐ต๐‘’๐‘Ÿ๐‘›(๐‘)
asintotico:
0
50
๐‘› = 100๐‘˜
n=100k
๐‘‹๐‘› − ๐‘ง1−๐›ผ
2
100
๐‘‹๐‘› (1−๐‘‹๐‘› )
, ๐‘‹๐‘›
๐‘›
150
+ ๐‘ง1−๐›ผ
2
๐‘‹๐‘› (1−๐‘‹๐‘› )
๐‘›
Intervalli di confidenza
0.40
0.45
0.50
0.55
0.60
Interpretazione frequentista: se potessi ripetere l’esperimento
tante volte, sempre nelle stesse condizioni, il (1-๐›ผ)% degli
intervalli campionari ottenuti contiene il «vero valore» del
IC(95)
parametro.
0.35
Script6.R
0
20
40
60
80
100
Legge (forte) dei grandi numeri
๐‘‹1 , … , ๐‘‹๐‘› , … successione di v.a. indipendenti, tutte con la stessa distribuzione che
abbia media ๐œ‡ finita.
๐‘‹1 + ๐‘‹2 + โ‹ฏ + ๐‘‹๐‘›
๐‘›
๐‘›→∞
๐œ‡
๐‘ž๐‘ข๐‘Ž๐‘ ๐‘– ๐‘๐‘’๐‘Ÿ๐‘ก๐‘Ž๐‘š๐‘’๐‘›๐‘ก๐‘’
succ. numerica, una diversa per ogni esito ๐œ”
๐‘ƒ
๐œ”โˆถ
๐‘‹1 (๐œ”) + ๐‘‹2 (๐œ”) + โ‹ฏ + ๐‘‹๐‘› (๐œ”)
๐œ‡
๐‘›→∞
๐‘›
variabili aleatorie:
quantità di interesse
legate all’esito
dell’esperimento
=1
๐‘ฟ
P
Legge (forte) dei grandi numeri
Bern(0.5)
Bern(0.5)
Bern(0.5)
0
200 400 600 800
quattro diversi
esiti ๐œ”
0
200 400 600 800
0
200 400 600 800
0
200 400 600 800
0.6
0.20.0 0.40.2 0.60.4
0.60.4 0.80.6 1.00.8
Bern(0.5)
Bern(0.5)
0.0
1.0
Bern(0.5)
0.4
quattro diverse
successioni
numeriche
0.4
0.20.0 0.40.2
200 400 600 800
0.0
0
0.0
0.20.0 0.40.2 0.60.4
0.6
Bern(0.5)
Bern(0.5)
0
200 400 600 800
Legge (forte) dei grandi numeri
๐‘‹1 , … , ๐‘‹๐‘› , … successione di v.a. indipendenti, tutte con la stessa distribuzione che
abbia media ๐œ‡ finita.
๐‘‹1 + ๐‘‹2 + โ‹ฏ + ๐‘‹๐‘›
๐‘‹๐‘› =
๐‘›
๐‘›→∞
๐‘ž๐‘ข๐‘Ž๐‘ ๐‘– ๐‘๐‘’๐‘Ÿ๐‘ก๐‘Ž๐‘š๐‘’๐‘›๐‘ก๐‘’
๐œ‡
se ๐‘‰๐‘Ž๐‘Ÿ ๐‘‹1 = ๐œŽ 2 esiste finita, allora ๐‘‹1 2 ha media finita ๐œŽ 2 + ๐œ‡ e quindi
๐‘‹1 2 + ๐‘‹2 2 + โ‹ฏ + ๐‘‹๐‘› 2
(๐œŽ 2 +๐œ‡2 )
๐‘›→∞
๐‘›
pertanto
1
2
๐‘†n =
๐‘›−1
๐‘›
๐‘‹๐‘– − ๐‘‹๐‘›
๐‘–=1
2
1
=
๐‘›−1
๐‘›
๐‘‹๐‘– 2 − ๐‘›๐‘‹๐‘›
๐‘–=1
2
๐‘›→∞
(๐œŽ 2 +๐œ‡2 − ๐œ‡2 ) = ๐œŽ 2 ๐‘ž. ๐‘.
La legge (forte) dei grandi numeri
1
๐œ‹
1
, −∞
Cauchy
๐‘ฅ 2 +1
< ๐‘ฅ < +∞
0.25
0.30
๐‘“ ๐‘ฅ = ×
0.00
0.05
0.10
0.15
0.20
densità
di
Cauchy
-10
-5
0
5
10
La legge (forte) dei grandi numeri