Stim e puntuali
Probabilità e Statistica I - a.a. 04/05 - Stimatori
1
Vocabolario
Popolazione: un insieme di oggetti sul quale si desidera avere
Informazioni.
Parametro: una caratteristica numerica della popolazione. E’ un
Numero fissato, ma in genere incognito.
Unità: ogni elemento della popolazione.
Campione casuale: un sottoinsieme della popolazione utilizzato
per ricavare informazioni sulla popolazione.
Taglia del campione casuale: è la numerosità del campione.
Variabile: una caratteristica di una unità valutabile dalle unità
del campione.
Statistica: funzione del campione casuale.
Cambiando campione casuale, cambia
l’istogramma e cambiano gli indici
Probabilità e Statistica I - a.a. 04/05 - Stimatori
2
Esempio :
Si assuma di avere a disposizione una scatola con un gran
numero di palline, tutte uguali eccetto per il colore (l’insieme di
queste palline costituisce una popolazione). Il 20% delle palline
ha colore rosso p = 0.20 (il resto ha colore bianco, ad esempio).
Questo numero è un parametro. Assumiamo di estrarre 25 palLine (ad esempio con ripetizione – l’insieme di queste 25 palline
è un campione casuale). Possiamo rispondere ai seguenti quesiti:
Quante palline rosse ci aspettiamo nel campione?
- Se estraiamo diversi campioni casuali di taglia 25, potrebbe accadere che nessuna pallina sia rossa? O che siano tutte rosse?
In genere ci aspettiamo che il 20% delle palline estratte sia rosso
(5 su 25). Ma può accadere che ci siano 4 palline rosse su 25, oppure 15 su 25. In ogni caso la frequenza relativa è sempre una
stima del parametro (buona nel caso 4/25 o 5/25, cattiva nel
caso 15/25).
Probabilità e Statistica I - a.a. 04/05 - Stimatori
3
num. palline rosse in un campione percentuale stimata num. campioni percentuale dei campioni
0
0
3
0,015
1
0,04
8
0,040
2
0,08
12
0,060
3
0,12
34
0,170
4
0,16
40
0,200
5
0,2
47
0,235
6
0,24
24
0,120
7
0,28
20
0,100
8
0,32
9
0,045
9
0,36
3
0,150
Palline rosse
50
45
Frequenza
40
35
30
25
20
15
10
5
0
0
0.04
0.08
0.12
0.16
0.2
0.24
0.28
Probabilità e Statistica I - a.a. 04/05 - Stimatori
0.32
0.36
Percentuale stimata
4
ST AT IST ICA
ST AT IST ICA
DESCRIT T IVA
ST AT IST ICA
INFERENZIALE
Metodi per estrarre dai dati
osservati informazioni sul
modello aleatorio della popolazione.
Metodi per sommarizzare
e presentare dati osservati.
La statistica inferenziale è l'altra faccia del calcolo delle
probabilità. In quest'ultimo si cerca di prevedere il valore di X
assumendo nota la sua distribuzione. In statistica, al contrario,
si osserva il valore di X e si cerca di inferire informazioni sulla
distribuzione sottostante.
Probabilità e Statistica I - a.a. 04/05 - Stimatori
5
( x1 , x 2 , Κ , x n ) ← Si estrae un campione casuale
si calcolano la media
e la varianza campionaria
...
40
30
20
10
0
3,
3
3,
33
8
3,
37
6
3,
41
4
3,
45
2
3,
49
3,
52
8
3,
56
6
3,
60
4
3,
64
2
3,
68
Al
tro
Popolazione
Incognita
X v.a. con funzione di ripartizione
incognita dipendente da uno o più
parametri incogniti
A) si stimano i parametri incogniti
B) si ipotizza la forma della funzione
di ripartizione
X v.a. con funzione di ripartizione
nota dipendente da uno o più
parametri noti
TEST
Probabilità e Statistica I - a.a. 04/05 - Stimatori
6
Popolazione
Incognita
Dati
=X
X
↓
viene oss er vata n volte
↓
( x1 , x2 , Κ , xn )
osservazione
( X 1 , X 2 ,Κ , X n )
Definizion e
Le variabili aleatorie (X 1 , X 2 , Κ , X n ) costituiscono un campione casuale di
taglia n se :
(a) le X i sono variabili aleatorie indipendenti;
(b) tutte le variabili aleatorie X i hanno medesima distribuzione.
Probabilità e Statistica I - a.a. 04/05 - Stimatori
7
X ≈ FX (x, ϑ )
Popolazione
Incognita
ˆ = h(X , X ,Κ , X ) ⇒ STIMATORE di ϑ
n
1
2
dove X 1 , X 2 , Κ , X n rappresenta il campione casuale di taglia n estratto dalla
popolazione descritta da X .
Definizion e
Una stima puntuale del parametro incognito ϑ è un singolo valore numerico ϑˆ
della statistica ˆ.
Θ − ϑ ⇒ v.a. detta errore
E [Θ − ϑ ] ⇒ detto distorsione (bias)
[
]
E (Θ − ϑ ) ⇒ detto errore quadratico medio
2
Probabilità e Statistica I - a.a. 04/05 - Stimatori
8
Esempi di stimator i
La media campionaria
La media campionari a rappresent a uno stimatore puntuale della media
µ di una popolazion e
1 n
Xi
n i =1
dove X 1 , X 2 , Κ , X n è il campione casuale.
X =
∑
Il valore numerico della media campionari a µˆ=
1
n
n
∑ x rappresent a una
i
i =1
stima puntuale di µ .
Perché la media campionaria è uno stimatore della media della
popolazione? Metodo dei momenti
Probabilità e Statistica I - a.a. 04/05 - Stimatori
9
La varianza campionaria
La varianza campionari a rappresent a uno stimatore puntuale della varianza
σ 2 di una popolazion e
1
n −1
dove X 1 , X 2 , Κ , X n è il campione casuale.
S2 =
n
∑(X
i
− X )2
i =1
Il valore numerico della varianza campionari a s 2 =
1
n
n
∑ ( x − µˆ)
i
2
rappresen -
i =1
ta una stima puntuale di σ 2 .
Definizione
ˆè uno stimatore corretto
Uno stimatore puntuale Θ
Stimator i cor r etti
(in inglese unbiased = distorsione nulla) per il pa rametro incognito ϑ se
ˆ =ϑ
EΘ
()
Probabilità e Statistica I - a.a. 04/05 - Stimatori
10
Esercizio: Mostrare che la media campionaria e la varianza campionaria sono stimatori corretti rispettivamente della media e della varianza della popolazione.
Per uno stesso parametro incognito esistono più stimatori corretti: ad esempio per la media
sono stimatori corretti la media campionaria, la mediana campionaria e la media tagliata al
10%. Quale tra questi è il migliore?
La misura della precisione di una stima del parametro è usualmente rappresentata dall’errore standard dello stimatore impiegato.
Definizion e
ˆ è la sua deviazione standard,
L' errore standard di uno stimatore Θ
()
ˆ.
σ Θˆ = Var Θ
Se nell' espression e dell' errore standard sono presenti dei parametri incogniti,
allora la sostituzio ne delle stime di questi parametri nell' epressione dell' errore
ˆ usualmente indicato con σˆˆ.
standard produce un errore standard stimato di Θ
Θ
Probabilità e Statistica I - a.a. 04/05 - Stimatori
11
Definizion e
Lo stimatore corretto che tra tutti gli stimatori corretti di ϑ ha varianza
inferiore viene denominato stimatore corretto a varianza minima .
Teorema
Θ3
Θ2
Θ1
Se X 1 , X 2 ,Κ , X n è un campione casuale
di taglia n estratto da una popolazione nor male di media µ e varianza σ 2 , allora la
media campionaria X è lo stimatore corret to a varianza minina della media µ .
ϑ
In situazioniin cuinon sisa se esiste uno stim atore corretto a varianza
m inina,è sem pre possibile utilizzare ilprincipio della varianza m inim a perscegliere tra più stim atoricorretti.
Esercizio: Assegnato un campione casuale di taglia n stabilire quale tra la media
campionaria e la i-esima osservazione è lo stimatore corretto a varianza minima
per la media.
Probabilità e Statistica I - a.a. 04/05 - Stimatori
12
Esercizio: Nel testare un nuovo metodo per misurare la conduttività termica di un
ferro da stiro, usando una temperatura di 100° e una potenza di input pari a 550 W,
sono stati ottenute le seguenti 10 misurazioni della conduttività termica (Trans. AMSE
1974): 41,60 - 41,48 - 42,34 - 41,95 - 41,86 - 42,18 - 41,72 - 42,26 - 41,81 - 42,04.
Determinare una stima della media della conduttività termica. Valutarne la precisione
e discutere il caso in cui si assuma che il campione proviene da una popolazione normale.
Dati
41.6
41.48
42.34
41.95
41.86
42.18
41.72
42.26
41.81
42.04
Dati Ordinati
41.48
41.6
41.72
41.81
41.86
41.95
42.04
42.18
42.26
42.34
Analisi dei
dati con
Excel
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Probabilità e Statistica I - a.a. 04/05 - Stimatori
41.924
0.089842
41.905
#N/D
0.284105
0.080716
-1.02375
-0.02116
0.86
41.48
42.34
419.24
10
13
Distr ibuz ione campionar ia della media campionar ia
Se la popolaz ione è gaussiana (var ianz a nota)
Teorema
Siano X 1 , X 2 , Κ , X n variabili aleatorie indipendenti con distribuzi one gaussiana,
e E [X i ] = µ i e Var [X i ] = σ i2 . La variabile aleatoria Y = X 1 + X 2 + Κ + X n è
gaussiana con E [Y ] = µ1 + µ 2 + Κ + µ n e Var [Y ] = σ 12 + σ 22 + Κ + σ n2
 σ 
, dove µ = E [X i ] e σ = Var (X i )
X ≈ N  µ ,
n

Se la popolaz ione è gaussiana (var ianz a incognita)
DISTRIBUZIONE T-STUDENT
Probabilità e Statistica I - a.a. 04/05 - Stimatori
14
Definizion e
Una variabile aleatoria T ha distribuzi one di T - Student con gradi di libertà
k se la sua funzione densità ha la seguente forma :
 k + 1
Γ
1
2 
f T (x ) = 
, x ∈ ℜ , dove
( k +1 ) / 2
k   x2

πk Γ  
+ 1
 2   k

k = 2,8,30,100
=
∫
∞
0
x r −1 e − x dx
k
,k > 2
k −2
• La forma della funzione densità f T (x )
• E [T ] = 0, Var[T ] =
è simile a quella della normale standard
(unimodale, simmetrica rispetto all'
asse
delle y), tuttavia f T (x ) ha code più " pe santi"
d
• Per k → ∞, T → N (0,1)
• Tabelle
Probabilità e Statistica I - a.a. 04/05 - Stimatori
15
Se la popolaz ione non è gaussiana
In molti casi il teorema centrale del limite si può applicare per n=4,5.. specie se
la popolazione è continua, unimodale e simmetrica, ma nella maggioranza dei
casi l’approssimazione si ritiene valida per valori della taglia del campione superiori a 30. Dal teorema centrale del limite, segue che per n grande:
 σ 
, dove µ = E [X i ] e σ = Var (X i )
X ≈ N  µ ,
n

Distr ibuz ione campionar ia della var ianz a campionar ia
DISTRIBUZIONE CHI-QUADRATO
Probabilità e Statistica I - a.a. 04/05 - Stimatori
16
Definizion e
Una variabile aleatoria χ ha distribuzione di chi - quadro con gradi di libertà
k se la sua funzione densità ha la seguente forma :
2
f χ (x ) =
1
x (k / 2 )−1e − x / 2 , x > 0
2 k / 2 Γ(k / 2)
k = 2,4,8,16,32
[ ]
Var [χ ] = 2k
• E χ 2 = k,
2
• Per k → ∞, la forma
limite di una distribu zione chi - quadro è
quella di una normale.
Probabilità e Statistica I - a.a. 04/05 - Stimatori
17
Teorema
Assegnate Z1,Z 2 ,...,Z n v.a. gaussiane standard, risulta
Z12 + Z 22 + Λ + Z n2 ≈ χ n
( n − 1) S
≈
σ2
2
∑ (X
n
i =1
i
−X
2
) ≈χ
2
2
n −1
Distr ibuz ione campionar ia della per centuale campionar ia
Popolazion e di Bernoulli ⇒ (X 1 , X 2 , Κ , X n ) di Bernoulli ⇒
1
X =
n
n
∑X
i =1
i
=
num. successi nel campione
taglia del campione
Probabilità e Statistica I - a.a. 04/05 - Stimatori
18