Lucidi 11

Curtosi
ipernormale
Normale
iponormale
indice di curtosi di Pearson
 X - E (X )
γ = E

(
)
SD
X


4
Se la distrib. è Normale γ =3; se è ipernormale γ >3; se è
iponormale γ <3
indice di curtosi di Fisher = γ - 3
Distribuzione Chi-quadrato
La v.c. Chi-quadrato è una distribuzione
asimmetrica, continua e definita per valori reali non
negativi. La funzione di densità dipende da un unico
parametro, chiamato gradi di libertà, che è un intero
positivo che possiamo indicare con il simbolo g.
f (x ) =
E (X ) = g
g
x
−1 −
x2 e 2
1
g
22
g
Γ 
2
V ( X ) = 2g
per x ≥ 0
Distribuzione Chi-quadrato
χ 2 (4 )
0,15
χ 2 (8)
χ 2 (12)
0,10
χ 2 (20 )
0,05
0,00
0,0
7,5
15,0
22,5
30,0
All’aumentare di g la distribuzione tende ad una Normale.
Si può ottenere come somma di g v.c. Normali
Standardizzate al quadrato
ALTRE DISTRIBUZIONI
•t di Student :
T ≈ Student ( g ) (o v.c. t )
“somiglia alla normale standardizzata”; è continua e definita
su tutto l’asse reale; dipende da un solo parametro g, che è
un intero positivo; all’aumentare di questo tende alla N(0,1)
(approssimazione buona già per g>30)
Da ricordare:
Sia
Z ≈ N (0,1) e sia χ ≈ χ ( g ) allora la v.c.
2
X=
Z
χ
2
g
2
≈ t di Student con g g.d.l.
•F di Fisher:
F ≈ Fisher (ν 1 ,ν 2 )
Può assumere valori su tutto l’asse reale e dipende da
due parametri interi positivi
Da ricordare
Sia :
χ ≈ χ (g1) e sia χ ≈ χ (g2 ) allora la v.c.
2
1
2
2
2
χ
2
1
X=
χ
2
2
g1
g2
≈ F(g1, g2 )
2
Teorema del limite centrale
Motiva ulteriormente il ruolo della Normale in statistica: molti fenomeni infatti
possono essere interpretati come la media o la somma di un elevato n° di v.c.
indipendenti.
Attraverso tale teorema si dimostra che la distribuzione della media o della somma
di n v.c. indipendenti tende alla distribuzione di una v.c. normale quando n diventa
infinitamente grande.
Teorema del limite centrale
Sia X1, X2, X3,… una successione di variabili casuali indipendenti e identicamente
distribuite (iid), con media μ e varianza σ2 finite, posto
1
Xn =
n
n
∑X
i
i =1
si ha che la v.c.
Zn =
( X n − µ)
n
σ
converge in distribuzione, per n → ∞, alla v.c. Normale standardizzata
esempio
esempio
Il risultato è rilevante :
a) Non si assume alcuna ipotesi sulla distribuzione delle v.c. di
partenza, le quali possono essere sia discrete che continue ed
avere una distribuzione molto diversa da quella normale.
b) Ogni volta che una v.c. può essere espressa come media di
v.c. indipendenti con stesso v. atteso e stessa varianza per n
sufficientemente grande è possibile approssimare la
probabilità che essa assume valori in un dato intervallo (a,b)
utilizzando la f.d.r. di una normale standardizzata; infatti:


X
−
µ
a
−
µ
b
−
µ

P ( a ≤ X n ≤ b ) = P 
≤ n
≤

σ
σ
σ

n
n
n 



a
−
b
−
µ
µ

= P 
≤ Zn ≤

σ
σ

n
n 

dove Z n è una Z ≈ N (0,1)
c) Il teorema del limite centrale può anche
essere applicato alla somma di v.c.
indipendenti; se indichiamo con:
n
Yn = ∑ X i allora E (Yn ) = nµ ; Var(Yn ) = nσ 2
i =1
e poichè Yn = nX n si avrà:
Yn − E (Yn )
Var (Yn )
=
nX n − n µ
nσ
2
=
Xn − µ
σ /n
2
= Z n = Z ≈ N (0,1)
Applicazioni del teorema
La v.c. Binomiale può essere vista come la somma di n prove Bernoulliane
indipendenti (cioè n v. casuali iid): dato un n sufficientemente grande la sua
distribuzione è molto simile ad una variabile casuale Normale con v. atteso
nπ e varianza nπ(1 – π)
Consideriamo una successione di Poisson del tipo X1 ∼ P(λ1), X2 ∼ P(λ1 + λ2),
X3 ∼ P(λ1 + λ2 + λ3), ... con λi > 0: se λ1 = λ2 = λ3 = … si ha che la distribuzione
Xn può essere approssimata, per n grande, da una v. casuale Normale con
valore atteso nλ e varianza nλ
X ∼ N (nπ, nπ(1 – π))
X ∼ N (nλ, nλ)
0,40
Poisson(1)
0,35
0,30
0,25
0,20
Poisson(7)
0,15
0,10
0,05
0,00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Alcuni accorgimenti per l’approssimazione
In alcuni casi, nonostante l’apparente contraddizione, è possibile approssimare
le distribuzioni di probabilità discrete alla distribuzione normale: occorre però
tenere conto che i valori possibili delle discrete sono assimilabili ad un insieme
di numeri interi naturali (0, ..., n, ...) mentre per la Gaussiana si ha che x∈
∈R
Per superare tali problemi si usa un fattore di correzione della continuità
pari a 0,5 : se X è una v. discreta ed è approssimata con una v. continua Y
P(a < X < b) = P(a + 0,5 ≤ Y ≤ b - 0,5)
a
b
P(a ≤ X ≤ b) = P(a - 0,5 ≤ Y ≤ b + 0,5)
a
b
Se gli estremi sono esclusi si
restringe l’intervallo ]a;b[
Se gli estremi sono inclusi si
allarga l’intervallo [a;b]
Approssimazione della Binomiale
La Normale è una buona approssimazione della Binomiale se:
n, il numero delle prove, è molto grande
π, la probabilità di successo, è molto vicino a 0.5
π
π
π
π
π
π
π
π
Come si vede, all'aumentare di n la distribuzione assume una forma sempre
più campanulare giustificando l'uso di una distribuzione normale
Per calcolare la probabilità che la X assuma valori in un certo intervallo, una
volta calcolati il valore atteso e la varianza, si utilizzano le tavole della v. cas.
Normale
Esempio
Le nuove imprese hanno il 50% di probabilità di fallire
nel loro primo anno di attività. Qual è la probabilità che
in un campione di 100 imprese commerciali 40 siano
ancora in attività dopo il primo esercizio?
 100 
100!
40
60
40
60
P(X=40) = 
0,5
0,5
=
⋅
0,5
0,5
= 0,0108

40!60!
 40 
Proviamo a calcolare la probabilità utilizzando l’approssimazione alla normale
μ = nπ = 100⋅0,5 = 50
σ2 = nπ(1 – π) = 25
PERCHE’??
P(X = 40) ≅ P(39,5 ≤ Y ≤ 40,5) =
= P(-2,1 ≤ Z ≤ -1,9) → P(1,9 ≤ Z ≤ 2,1) = φ(2,1) - φ(1,9) =
= 0,9821 - 0,9713 = 0,0108
Esercizio (1)
Il 20% degli individui è convinto di sopravvivere ad un
incidente aereo. Si indichi con Y il n° di tali persone in
un campione di ampiezza n=25. Qual è la probabilità
che il numero di individui convinti di sopravvivere sia
compreso tra 6 e 9?
μ = nπ = 25⋅0,2 = 5
σ2 = nπ(1 – π) = 4
6
 25 
 25 
i
25-i
P(6 ≤ X ≤ 9) = ∑   0,2 0,8 - ∑   0,2 i 0,8 25-i =0,3659
i=0  i 
i=0  i 
9
Per approssimazione
 5,5 - 5 Y - 5 9,5 - 5 
P(6 ≤ X ≤ 9) = P(5,5 ≤ Y ≤ 9,5) =P 
≤
≤
 =
 2
2
2 
= P(0,25 ≤ Z ≤ 2,25) = φ(2,25) - φ(0,25) = 0,3891
Perché???
Esercizio (2)
L'asimmetria della binomiale (dovuta a π lontano da 0,5) ha comportato una
notevole differenza nell'approssimazione della probabilità
Approssimazione della Poisson
La distribuzione Poissoniana è approssimabile alla distribuzione normale con
μ = λ e σ2 = λ, sotto la condizione che il valore medio sia almeno pari a 10
Esempio
Il n° di vendite settimanali di un certo prodotto segue la legge Poissoniana con
una media di 2 vendite al giorno. Qual è la probabilità che in una settimana si
vendano al più 23 prodotti?
Se consideriamo una media di 2 vendite al giorno avremo 14 prodotti in una
settimana, per cui
P ( X ≤ 23 ) =
23
∑
k=0
14 k e -14
= 0,9907
k!
Approssimando la distribuzione alla Normale otteniamo
 0 - 0,5 - 14

23
+
0,5
-14
P(0 ≤ X ≤ 23) = P 
≤Z≤
=


 3,7417
3,7417 
= P(-3,88 ≤ Z ≤ 2,54) = φ(2,54) - [1- φ(3,88)] = 0,9944
Variabile aleatoria proporzione
In molti problemi applicativi occorre calcolare probabilità
associate a frequenze relative e a percentuali. A tal fine si utilizza
una estensione diretta della approssimazione normale alla
distribuzione binomiale. La v.c. proporzione P può essere
ottenuta dividendo il n° di successi X per la dimensione del
campione n :
X
P=
n
Ed usando la trasformazione lineare di v.c., si avrà
µ=p
p(1− p)
2
σ =
n
Esempio: proiezioni elettorali
Consideriamo un campione relativamente piccolo per fare
previsioni elettorali.
Un incaricato di una società demoscopica ha usato un campione
casuale di 900 elettori dei quali 500 dichiarano che voteranno
per il candidato Tizio. Tizio dovrà diffondere in anticipo la
notizia?
SOLUZIONE
In questo problema si ipotizza che vi sono solo due candidati e
quindi se più del 50% della Popolazione lo voterà, Tizio avrà vinto
le elezioni. Calcoliamo la probabilità che almeno 500 elettori del
campione votino Tizio, nell’ipotesi che esattamente il 50% della
popolazione voti a suo favore (p=0.50).
Sarà:
P( X ≥ 500/n = 900, p = 0.50) P( X ≥ 500/µ = 450,σ 2 = 225)
500 − 450
= P(Z ≥
) = P(Z ≥ 3.33) = 0.00
225
La probabilità di 500 successi su 900 prove, quando p=0.50 è
molto piccola e perciò p deve essere maggiore di 0.50 e quindi
Tizio vincerà le elezioni.
Possiamo anche calcolare la probabilità che più del 55.6%
(500/900) del campione indichi la preferenza per Tizio nel caso in
cui la proporzione nella popolazione sia p=0.50. Usando media e
varianza della proporzione
Sarà:
µ
σ
σ
=
= 0 .5 0
0 . 5 0 (1 − 0 . 5 0 )
2
=
9 0 0
= 0 .0 1 6 7
p
E:
P(P ≥ 0.556/n = 900, p = 0.50) P(P ≥ 0.556/µ = 0.50,σ = 0.0167)
0.556 − 0.50
= P(Z ≥
) = P(Z ≥ 3.33) = 0.00
0.0167
La probabilità è la stessa perché ogni proporzione o valore percentuale è
direttamente legato ad uno specifico numero di successi.
Un’applicazione della Normale: la media campionaria
Supponiamo di voler estrarre da una popolazione un campione casuale e di
osservare su questo il fenomeno oggetto d’interesse: ad esempio vogliamo
intervistare alcuni consumatori per valutare il loro livello di spesa in prodotti
di largo consumo
Gli n soggetti che compongono il campione casuale rappresentano di fatto
un insieme di n variabili casuali
X1 , X 2 ,K , X n
Ogni v.c. è indipendente e ha uguale distribuzione di probabilità
Possiamo considerare congiuntamente tutta l’informazione espressa dalle
diverse osservazioni campionarie per mezzo di particolari funzioni chiamate
statistiche : essendo funzione di più variabili casuali ogni statistica è a sua
volta una variabile casuale, con una sua distribuzione di probabilità
1 n
X = ∑ Xi
n i =1
la media campionaria è una statistica che
consente di esprimere sinteticamente in
un unico valore l’informazione contenuta
in tutti i possibili campioni
Esempio
Consideriamo una popolazione finita composta dalle seguenti 5 unità:
x1 = 8 x2 = 4 x3 = 2 x4 = 11 x5 = 6
Si consideri l’estrazione senza ripetizione di campioni di dimensione n=2 e
per ognuno di essi si calcoli la statistica media campionaria.
X 1 8 8 8 8 4 4 4 4 2 2 2 2 11 11 11 11 6 6 6 6
X2
4 2 11 6 8 2 11 6 8 4 11 6 8
X
6 5 9,5 7 6 3 7,5 5 5 3 6,5 4 9,5 7,5 6,5 8,5 7 5 4 8,5
4
2
6 8 4 2 11
Ogni campione ha probabilità 0,5 di essere estratto e quindi la distribuzione
di probabilità della media campionaria è data da:
X
( )
P X
3
4
5
6
6,5
7
7,5 8,5 9,5
0,1 0,1 0,2 0,1 0,1 0,1 0,1 0,1 0,1
Proprietà
E( X ) = µ
il valore atteso
Var ( X ) = σ
la varianza
Se
X ~ Be(π )
Se
X ~ N µ;σ
(
2
)
allora
allora
2
n
X∼
1
Bin(n,π )
n
 σ2 
X ~ N  µ; 
 n 
Qualunque sia la popolazione, per il Teorema del Limite Centrale
X − µ

lim P 
≤ z  = P (Z ≤ z )
n→∞  σ n

dove Z è una v.c. Normale standardizzata
Approfondiremo nella seguente lezione i concetti di campione casuale e
di distribuzione della media campionaria