STATISTICA A – K
(60 ore)
Marco Riani
[email protected]
http://www.riani.it
Esercizio: si consideri una generica
popolazione X con media µ e varianza σ2
• Siano T1=(X1+X2+X3+X4)/4 e
T2=(3X1+4X2+X3+2X4)/10 due stimatori di
µ per campioni di ampiezza n=4
• Si effettuino le seguenti operazioni:
– Si verifichi che lo stimatore T2 è non distorto
– Si determini la varianza dei due stimatori e si
stabilisca quale dei due stimatori è più
efficiente
Hint: X1 X2 X3 X4 are random variables IID
(independent and identically distributed) with the
same distribution of X
Marco Riani, Univ. di Parma - Statistica AK
1
Soluzione
• Verifica che T2 è non distorto
• E(T2)=(1/10)E(3X1+4X2+X3+2X4)
=(1/10) [3 E(X1)+4E(X2)+E(X3)+2E(X4)]=
= (1/10) [ 3µ +4µ + µ + 2µ]=µ
• Calcolo della varianza dei due stimatori
• VAR(T1)=σ2/4=0,25σ2
• VAR(T2)= (1/100) [ 9σ2 +16σ2 + σ2+4σ2]
=(30/100) σ2=0,3σ2
• Dato che VAR(T1)<VAR(T2)
T1 è più efficiente e quindi preferibile
Esercizio
• Il tempo impiegato da un meccanico in un
negozio di biciclette per assemblare un
certo tipo di bicicletta può essere
considerato una v.c. normale con media
32 minuti e deviazione standard 3,5
minuti. Si calcoli la probabilità che il tempo
medio per assemblare 10 biciclette
– Non superi 33 minuti
– Sia compreso tra 28,5 e 31,5 minuti
Marco Riani, Univ. di Parma - Statistica AK
2
Soluzione
• X=v.c. tempo impiegato
• X~N(32, 3,52)
n=10
Il valore 0.8169 è stato ottenuto dalla funzione di
Excel =DISTRIB.NORM.ST(0,9035). Utilizzando
le tavole F(0,90)=0,81594
• Calcolo di
I valori 0,32572 e 0,00078 sono stati ottenuti con
le funzioni di Excel =DISTRIB.NORM.ST(-0,45175) e
=DISTRIB.NORM.ST(-3,16228).
Utilizzando le tavole si ottiene F(-0,45)-F(-3,16)=
0.32636- 0.00079=0.32557
Marco Riani, Univ. di Parma - Statistica AK
3
Esercizio
• Sia X1 X2 …, X80 un campione casuale
proveniente da una popolazione distribuita
secondo il modello f(x)=3x2 (0<x<1). Si
determini la probabilità che la media
campionaria sia minore di 0,8.
Esercizio
• Sia X1 X2 …, X80 un campione casuale
proveniente da una popolazione distribuita
secondo il modello f(x)=3x2 (0<x<1). Si
determini la probabilità che la media
campionaria sia minore di 0,8.
Marco Riani, Univ. di Parma - Statistica AK
4
Distribuzione del fenomeno
nell’universo
Rappresentazione grafica di f(x)=3x2
(0<x<1)
Soluzione
• Dato che
• Per calcolare la probabilità che la media
campionaria sia minore di 0,8 è
necessario trovare la media (µ) e la
varianza (σ2) dell’universo
Marco Riani, Univ. di Parma - Statistica AK
5
Soluzione
• Passo 1. Calcolare la media e la varianza
dell’universo X che presenta densità
f(x)=3x2 (0<x<1)
• X presenta distribuzione (non normale)
con E(X)=µ=3/4 e VAR(X)=σ2=3/80
• X presenta distribuzione non normale con
E(X)=µ=3/4 e VAR(X)=σ2=3/80
• La media campionaria di un campione di
80 osservazioni estratte da X presenta la
seguente distribuzione approssimata (per
il teorema centrale del limite)
Marco Riani, Univ. di Parma - Statistica AK
6
Esercizio
• Si definisce errore quadratico medio
(MSE=mean square error) di uno
stimatore T di un parametro θ la quantità
• E(T- θ)2.
– Dimostrare che se lo stimatore T è corretto il
suo MSE coincide con la sua varianza
– Dimostrare che se lo stimatore T è distorto il
suo MSE può essere scritto come:
MSE(T)=VAR(T) + Bias2
Soluzione: dimostrare che se lo stimatore T è
corretto il suo MSE coincide con la sua
varianza
• Se T è uno stimatore non distorto di θ
allora E(T)= θ quindi
• MSE=E(T- θ)2.
• MSE=E(T- θ)2= E(T- E(T))2=VAR(T)
Marco Riani, Univ. di Parma - Statistica AK
7
Soluzione: Dimostrare che se lo stimatore T è
distorto il suo MSE può essere scritto come:
MSE(T)=VAR(T) + Bias2
• MSE(T)=E(T - θ)2= E(T- E(T) +E(T) - θ)2
• Svolgendo il quadrato si ottiene:
• MSE(T)=E(T – E(T))2 + (E(T) - θ)2
2*(E(T) - θ)*E(T – E(T))
• Il doppio prodotto è zero quindi
MSE(T)= E(T – E(T))2 + (E(T) - θ)2=VAR(T)+Bias2
STIMA PER
INTERVALLO
Marco Riani, Univ. di Parma - Statistica AK
8
Stima per intervallo
• Intervallo di confidenza di livello 1- α
=intervallo che contiene il vero (ma ignoto)
valore del parametro dell’universo con
probabilità 1-α
• 1-α= livello di confidenza
Stima della media dell’universo
(grandi campioni n>100)
• Teorema centrale del limite
Marco Riani, Univ. di Parma - Statistica AK
9
Costruzione dell’ int. di confidenza
per la media campionaria al 95%
0,025
0,025
0,95
-1,96
1,96
Costruzione dell’ int. di confidenza
per la media campionaria al 99%
0,005
0,005
0,99
-2,58
Marco Riani, Univ. di Parma - Statistica AK
2,58
10
Costruzione dell’ int. di confidenza
per la media campionaria
Costruzione dell’ int. di confidenza
per la media campionaria al 95%
Interpretazione: intervallo (simmetrico rispetto a X
medio) entro il quale è compresa, con probabilità 0,95,
la media d’un campione estratto a caso da un universo
di cui si conoscono la media μ e la varianza σ2.
Marco Riani, Univ. di Parma - Statistica AK
11
Esempio
• Un’azienda ha 25000 dipendenti; la
retribuzione media di tutti i dipendenti è
µ=1800 Euro con σ=700
• Calcolare l’intervallo in cui è compresa con
prob. 0,95 la media di un campione di 200
dipendenti
• 1-α=0,95 Î z(α)=1,96
• µ=1800
• 1-α=0,95 Î z(α)=1,96
• µ=1800
• Intervallo in cui è compresa con prob. 0,95
la media delle retribuzioni di un campione
di 200 dipendenti
Marco Riani, Univ. di Parma - Statistica AK
12
Costruzione dell’ int. di confidenza
per µ (p. 64)
Intervallo di confidenza di µ
• Intervallo entro cui è compresa con prob.
1-α l’ignota media dell’universo µ
• Osservazione: la varianza dell’universo è
solitamente ignota Î stimata con scor
• Errore standard
Marco Riani, Univ. di Parma - Statistica AK
13
Intervallo di confidenza di µ ad
uso operativo (p. 65)
• Ipotesi: n>=100
• Esempio: stima della durata media del
funzionamento delle pile d’un certo tipo
• n=160
=248 ore; s=26 ore
• Livello di confidenza =0,99
Marco Riani, Univ. di Parma - Statistica AK
14
Osservazione
• Nell’esempio precedente avevamo potuto
applicare il teorema centrale del limite
poiché n era elevato (n>30)
• Cosa faccio quando n è piccolo?
Ip. Il fenomeno presenta
distribuzione normale nell’universo
X~N(µ, σ2)
• Se σ2 è noto
• per qualunque n (anche n=1)
• Se σ2 ignota e viene stimato con scor allora
Distribuzione “t di
Student” con n-1
gradi di libertà
Marco Riani, Univ. di Parma - Statistica AK
15
Confronto tra una v.a. t di Student con
g gradi di libertà ed una v.a. N(0,1)
t(α) valori critici (“percentili”)
nella v.a. t con g gradi di libertà
• F[-t(α)]= α/2
F[t(α)]= 1-α/2
• Tavola in appendice: non riporta F(t) ma i
“percentili” t(α) per α e g prefissati
Marco Riani, Univ. di Parma - Statistica AK
16
VALORI CRITICI t(α) DELLA VARIABILE ALEATORIA T DI STUDENT PER g
GRADI DI LIBERTA’ ED AL LIVELLO DI SIGNIFICATIVITA’ α
α
0,1
0,05
0,02
0,01
0,001
1
6,314
12,706
31,821
63,656
636,578
2
2,920
4,303
6,965
9,925
31,600
3
2,353
3,182
4,541
5,841
12,924
4
2,132
2,776
3,747
4,604
8,610
5
2,015
2,571
3,365
4,032
6,869
6
1,943
2,447
3,143
3,707
5,959
7
1,895
2,365
2,998
α/2 3,499
5,408
8
1,860
2,306
2,896
3,355
5,041
g
9
1,833
2,262
2,821
3,250
4,781
10
1,812
2,228
2,764
3,169
-t(α)
4,587
11
1,796
2,201
2,718
3,106
4,437
12
1,782
2,179
2,681
3,055
4,318
13
1,771
2,160
2,650
3,012
4,221
14
1,761
2,145
2,624
2,977
…..
…..
……
…..
………..
1−α
α/2
+t(α)
4,140
………
40
1,684
2,021
2,423
2,704
3,551
60
1,671
2,000
2,390
2,660
3,460
∞
1,645
1,960
2,326
2,587
3,291
Dato che
• F[-t(α)]= α/2
Marco Riani, Univ. di Parma - Statistica AK
F[t(α)]= 1-α/2
17
Intervallo di confidenza di livello 1 – α per la
media dell’universo μ, nel caso di piccoli
campioni e nell’ipotesi che X~N(μ, σ2) con σ
ignoto:
• Esempio: stima della durata media del
funzionamento delle pile d’un certo tipo
• n=10
=248 ore; s=26 ore
• Livello di confidenza =0,99
Marco Riani, Univ. di Parma - Statistica AK
18
• Esempio: stima della durata media del
funzionamento delle pile d’un certo tipo
• n=10
=248 ore; s=26 ore
• Livello di confidenza =0,99
• L’ipotesi X~N(µ, σ2) è ragionevole
• g=9 Î t(0,01)=3,250
Confronto tra i due intervalli di
confidenza
• n elevato (v.a. normale standardizzata)
• n piccolo (v.a. T di Student)
Marco Riani, Univ. di Parma - Statistica AK
19
Elementi che fanno variare l’ampiezza
dell’intervallo di confidenza (p. 70)
• s.q.m. dell’universo σ
• Più σ è elevato, maggiore è la variabilità
della v.a. media campionaria Î stima
meno precisa
• Livello di confidenza 1-α
• Aumentando 1- α, si riduce αÎ si
incrementa z(α), t(α) (l’intervallo aumenta)
Elementi che fanno variare l’ampiezza
dell’intervallo di confidenza
• Numerosità del campione n
• Per dimezzare l’ampiezza occorre
quadruplicare n
• Se n è “piccolo” non vale più il teorema
centrale del limite Î t(α) sostituisce z(α)
• σ ignoto Î fattore correttivo (n/(n-1))0,5
Marco Riani, Univ. di Parma - Statistica AK
20
Significato della probabilità associata
all’intervallo di confidenza
• Formulazione deduttiva
• Principio del campionamento ripetuto
⇒ distribuzione campionaria di
• Formulazione induttiva
™μ è una costante (non una v.a.) ⇒ come si
può attribuire una probabilità ad
un’affermazione che riguarda μ?
™Principio del campionamento ripetuto ⇒
gli estremi dell’intervallo sono v.a. (v.
esempio pp. 64-66)
Marco Riani, Univ. di Parma - Statistica AK
21
Stima della frequenza relativa
(grandi campioni)
• V.a. Frequenza relativa campionaria, P:
E(P) = π
• Teorema centrale del limite
Intervallo di conf. della
frequenza relativa
• Intervallo di confidenza di livello 1 – α
per la frequenza relativa dell’universo
π, nel caso di grandi campioni:
Marco Riani, Univ. di Parma - Statistica AK
22
Esempio: stima della quota di mercato
• n = 400 consumatori; 82 acquirenti
• p = 82/400 = 0,205 ⇒ 20,5% (stima
campionaria di π)
• Calcolare l’intervallo di confidenza di π
al livello di confidenza di 0,95
Esempio: stima della quota di mercato
• n = 400 consumatori; 82 acquirenti
• p = 82/400 = 0,205 ⇒ 20,5% (stima
campionaria di π
• errore standard della v.a. P:
s(p) =
= 0,020
• Teorema centrale del limite
1−α=0,95 ⇒ z(0,05) = 1,96
0,205±1,96⋅0,020
Marco Riani, Univ. di Parma - Statistica AK
23
Esempio: stima della quota di mercato
• n = 400 consumatori; 82 acquirenti
• p = 82/400 = 0,205 ⇒ 20,5% (stima
campionaria di π)
• Calcolare l’intervallo di confidenza di π
al livello di confidenza di 0,99
• 1 − α = 0,99 ⇒
z(0,01) = 2,58
0,205 ± 2,58⋅0,020
• Intervalli ampi (stima poco precisa)
aumentare n
⇒
Cosa succede se n è piccolo?
Marco Riani, Univ. di Parma - Statistica AK
24
Esercizio
Il direttore di un centro commerciale vuole
modificare l’orario di apertura del centro. In
un campione casuale di 300 clienti, 246 si
sono dichiarati favorevoli al nuovo orario
proposto.
• Si determini l’intervallo di confidenza della
frequenza relativa dell’universo
•
con probabilità 0,95
•
con probabilità 0,995
e si commentino in termini comparati i
suddetti intervalli
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
25
Esercizio: stima della percorrenza media
delle vetture diesel di un certo modello al
primo guasto
• n=400
=34.000 Km; scor=9000 Km
• Calcolare l’intervallo di confidenza di µ al
95% e al 99%
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
26
Esercizio
• La deviazione standard della statura degli
studenti iscritti ad una università è 5,8 cm.
Quanti studenti si devono estrarre a sorte
dalla popolazione se si vuole con
probabilità del 90% che l’errore di stima
della media non superi i 2 cm.
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
27
Esercizio
• I dati che seguono si riferiscono alla
durata (in migliaia di Km) di una cinghia da
automobile in un campione di 15
osservazioni
• 115,4 85,2 89,1 118,3 88,4 109,3 104,3
69,3 105,5 106,8 103,1 101,6 102,9 89,6
109,3
• Facendo le opportune ipotesi, si costruisca
un intervallo di confidenza per la media al
99%
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
28
Esercizio
• Di seguito sono riportati i Km percorsi in un
giorno da un campione di taxi operante in
una grande città
• 173 195 115 122 154 149 120 148 152 68
132 91 120 148 103 101
• Sulla base di questo campione assumendo
che la popolazione generatrice sia normale
è stato determinato il seguente intervallo di
confidenza (116,55 144,7). Si calcoli il livello
di confidenza su cui è stato calcolato
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
29
Variante al precedente esercizio
• Se i dati di base fossero stati i seguenti:
• 172 195 115 122 154 149 120 148 152 68
132 91 120 148 103 101
• Quale sarebbe stato il livello di confidenza
dell’intervallo (116,55 144,7)?
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
30
Esercizio
Nella seguente distribuzione di frequenze è
riportato il numero di dipendenti di 50 aziende
tessili operanti in una determinata provincia.
Numero di dipendenti
Frequenze assolute
5
8
12
14
15
545
12
11
11
8
7
1
Si calcoli l'intervallo di confidenza al 99% della media
dell'universo del numero di dipendenti commentando i
risultati ottenuti (con o senza il valore anomalo)
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
31
Esercizio
Un’azienda produce rotoli di stoffa della
lunghezza di 70m. Tali rotoli possono
presentare difetti di diversa natura. L’azienda
è interessata a stimare il numero medio di
difetti presenti nei rotoli prodotti. In un
campione casuale di 85 rotoli si è trovata la
seguente distribuzione
n. difetti
0
1
2
3
4
5
6
Frequenza
16
26
22
13
5
2
1
Si determini l’intervallo di confidenza al 99% per
la media dei difetti presenti nei rotoli di stoffa
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
32
Esercizio
• Con riferimento all’esercizio precedente, si
consideri che un rotolo risulta vendibile se
presenta un massimo di 3 difetti. Sulla
base dello stesso campione di cui
all’esercizio precedente, si costruisca un
intervallo di confidenza al 95% per la
proporzione di rotoli considerati vendibili
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
33
Esercizio
• Nel processo di controllo del peso delle confezioni di
un determinato prodotto l’azienda esamina un
campione di 800 confezioni e trova che 15 di esse
hanno un peso fuori norma.
• Si determini l’intervallo di confidenza al 97% della
proporzione di pezzi fuori norma.
• Se la proporzione di pezzi fuori norma nell'universo
fosse uguale a 1,5%, effettuando cinque estrazioni
– si calcoli la probabilità di trovare esattamente due pezzi
fuori norma;
– si scriva e si calcoli l'espressione che consente di calcolare
la probabilità di ottenere un numero di pezzi fuori norma
compreso tra due e quattro (estremi compresi).
– rappresentare graficamente la densità
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
34
Esercizio
• Data una scheda telefonica da 5 euro di
cui non si sa se sia mai stata usata e nel
caso sia stata usata non si conosce
l’ammontare ancora disponibile, è
ragionevole ipotizzare per tale ammontare
X la seguente funzione di densità f(x)=1/5
per [0 ≤x≤5]
• Verificare che f(x)=1/5 per [0 ≤x≤5] sia
una densità e rappresentarla graficamente
• Calcolare il credito residuo atteso (E(X))
• Calcolare la varianza del credito residuo
(VAR(X))
• Devo fare una telefonata da 2 € calcolare
la prob che la scheda sia sufficiente per
fare la telefonata
• Ho 60 schede tutte con un ammontare che
si distribuisce come descritto sopra. Qual
è la prob che l’ammontare complessivo sia
superiore a 180 €
Marco Riani, Univ. di Parma - Statistica AK
35
Soluzione
Esercizio
• La durata di un macchinario si distribuisce secondo
una distribuzione normale di media 2 anni e scarto
quadratico medio 0,5 anni. Si determini:
1. prob che il macchinario duri più di 28 mesi.
2. l’intervallo di ampiezza 2 anni al quale corrisponde la
massima prob di contenere la durata effettiva del
macchinario. Calcolare tale probabilità.
3. Se il costo di acquisto del macchinario è di 1000
euro e il costo del suo funzionamento è stimato in
150 euro all’anno, si calcolino la media e la varianza
del costo complessivo del macchinario.
Marco Riani, Univ. di Parma - Statistica AK
36
Soluzione
Marco Riani, Univ. di Parma - Statistica AK
37