STIMA DEI PARAMETRI E VERIFICA DELLE IPOTESI

STIMA PARAMETRICA E TEST DELLE IPOTESI
L’inferenza Statistica riguarda affermazioni circa I parametri di una
popolazione sulla base della metodologia statistica e del calcolo delle
probabilità
• Stima puntuale
Quando un parametro della popolazione incognito è valutato (stimato) da
una sola statistica (parametro) tratto da un campione
• Stima Intervallo
Quando un parametro della popolazione incognito è valutato (stimato)
mediante un intervallo di valori e alla valutazione è associato un giudizio
di fiducia circa la possibilità di trovare in tale intervallo il valore
incognito.
Sia θ un generico parametro incognito e sia noto un campione x1 , x 2 ,..., x n .
Sia Θ spazio dei parametri campionari– l’insieme dei valori che può
assumere θ.
La stima parametrica significa trovare una procedura che ci consenta di
trarre dal campione osservato x1 , x 2 ,..., x n (Stimatore) l’informazione per
assegnare a θ un valore (stima) o un insieme di valori.
Lo Stimatore è dunque una vc e la stima è una sua determinazione data
una particolare osservazione
Test di Ipotesi
E’ una procedura che porta a stabilire quandto un evidenza
campionaria è in grado di respingere una certa assunzione circa il
parametro incognito di una popolazione.
Se si assume cxhe un determinato parametro incognito di una
distribuzione sia vero e si costruisce la corrispondente distribuzione di
probabilità. Se la corrispondente statistica campionaria ha una
bassaporbabilità di appartenere a quella distribuzione diremo che
l’ipotesi formulata è respinta dall’evidenza empirica (falsificazione) – al
contrario, se la probabilià è alta non sarà rigettata (ma mai confermata).
E’ una strategia per fare inferenza mediante un approccio indiretto.
STIMA PUNTUALE
Si definisce stimatore del parametro θ incognito qualunque statistica
T = t( X 1 , X 2 ,..., X n ) utilizzata per stimare θ.
Il valore assunto dallo stimatore T per un dato campione è una stima ( θ̂ ).
La vc stimatore t( X 1 , X 2 ,..., X n ) ha una propria distribuzione campionaria
quindi una propria media e varianza.
Si ricorre a varie strategie per trovare lo stimatore di un parametro θ .
In ogni caso la scelta dello stimatore è basata sulla distribuzione di
probabilità e su alcune proprietà desiderabili.
Correttezza
Uno stimatore T diθ è corretto se e solo se
E (T ) = θ
Efficienza
Uno stimatore corretto di θ, T*, è efficiente se: Var (T *) ≤ Var (T ) Per ogni
altro stimatore corretto T e per ogni θ ∈ Θ .
Esempio: la media aritmentica è uno stimatore corretto della media della
popolazione μ.
θ = μ e T = X segue :
⎛1 n
⎞ 1 n
E (T ) = E (X ) = E ⎜ ∑ X i ⎟ = ∑ E ( X i ) = μ
⎝ n i =1 ⎠ n i =1
Esempio: La varianza campionaria è uno stimatore distorto della varianza
in popolazione. Lo stimatore corretto è:
⎛ n
2 ⎞
⎜ ∑ (X i − X ) ⎟
⎟ =σ 2
E (s 2 ) = E ⎜ i =1
⎜
⎟
n −1
⎜
⎟
⎝
⎠
Graphs
Stima Intervallo
Un Intervallo di confidenza è dato da due valori calcolati sulla base del
campione che identificano una classe di valori che con una data
probabilità (confidenza ), include il valore vero del parametro
X 1 , X 2 ,..., X n
Dato un campione casuale
con funzione di
probabilità f (x;θ ) , estratto da una Popolazione
Sia t1 ( X 1 , X 2 ,..., X n ) e t 2 ( X 1 , X 2 ,..., X n ) 2 statistiche, dove t1<t2
e P(t1 < θ < t 2 ) = 1 − α ,
L’intervallo casuale [t1 ,t 2 ] è un intervallo di confidence di θ con
confidenza 1-α.
NOTA: interpretazione corretta
Dato un livello di confidenza α, e un gran numero di ripetizioni della
selezione campionaria, l’intervallo [t1 ,t 2 ] include θ 100(1−α)% .
Stima Intervallo della media (μ)
Si ricorre alla distribuzione campionaria di X .
X −μ
~ N (0,1)
σ/ n
da cui
⎤
⎡
X −μ
P ⎢− zα / 2 ≤
≤ zα / 2 ⎥ = 1 − α
σ/ n
⎦
⎣
[
]
P μ − zα / 2σ / n ≤ X ≤ μ + zα / 2σ / n = 1 − α
Risolvendo per μ :
[
]
[
]
P X − zα / 2σ / n < μ < X + zα / 2σ / n = 1 − α
Se α=0.05
P X − 1.96σ / n < μ < X + 1.96σ / n = 0.95
Questo è un intervallo con una “confidenza” alta (0,95) che includa al suo
[
interno la media vera incognita μ, x − 1.96σ / n , x + 1.96σ / n
La domanda: quanto è grande l’intervallo?
dipende dalla varianzae da n
Se la varianza non è nota
X −μ
~ t n −1
s/ n
]
L’intervallo di confidenza è:
[
]
P X − t n −1,α / 2 s / n < μ < X + t n −1,α / 2 s / n = 1 − α
Differenza tra due medie
(
)
X 1 , X 2 ,..., X n è un campione selezionato dalla popolazione N μ x ,σ x2 , σ x2
noto.
Y1 ,Y2 ,...,Ym è un campione selezionato dalla popolazione N (μ y ,σ y2 ), σ y2
noto
allora:
(X − Y ) − (μ
x
− μy )
σ / n +σ / m
2
x
2
y
~ N (0 ,1) ,
L’intervallo di confidenza per la differenza tra medie:
( X − Y ) − zα
/2
σ x2 / n + σ y2 / m ≤ μ x − μ y ≤ (X − Y ) + zα / 2 σ x2 / n + σ y2 / m
NB: Il risultato è valido anche se le due popolazioni non sono note se n è
grande.
Il risultato è valido anche se trattiamo con proporzioni grazie alla
approssimazione della binomiale alla normale
Esercizio 1.
In una indagine sul variazione del reddito è stata condotta su un campione
di 6 regioni di un paese.
L’indagine ha mostrato I seguenti incrementi di reddito:
19,2 18,4 19,8 20,2 20,4 19 (%)
Qual’è la stimma intervallo della variazione del reddito medio per l’intero
paese What is the interval estimate of the average income increase for the
whole country (Grado di confidenza 0.95)
Soluzione
Dall’indagime abbiamo:
x = 117 / 6 =19,5
s 2 = 0 ,588
s = 0 ,7668
s / n = 0 ,313
Se si assume che la variazione del reddito medio campionario si
distribuisca come una Normale
L’intervallo di confidenza (0.95) va costruito con riferi,emto alla
distribuzione t-Student con 5 gradi di libertà, dalle tavole otteniamo
t5; 0 ,975 =2,571. Quindi:
x ± t n −1,α s / n = 19,5 ± 2,571 (0,313) = 19,5 ± 0,805
2
cioè [18,695; 20,305]
Esercizio 2.
Si vuole stimare l’occupazione di un certo paese.
Si seleziona un srs di 100 persone o, 70 di queste risultano occupate.
Vogliamo che la stima della popolazione abbia una fiducia del 0.95.
Solztione
Si tratta di una proporzione
La proporzione campionaria porta ad una vc che si distribuisce secondo
una Binomial con media P e varianza P(1-P)/n. Poiché il campione è
grande grazie al central limit Theorem, può essere approssimata da una
normal con.
E(P)=P e V(P)=P(1-P)/n,
Se si assume che la stima pˆ = 0,7 e pˆ (1 − pˆ ) / n = (0,7)(0,3) / 100 = 0,0021 per media
e varianza della proporzione campionaria si ottiene:
( da notare che la Var(P) contiene un parametro incognito che stimiamo
riferendoci alla proporzione campionaria )
pˆ ± z ,α
pˆ (1 − pˆ )
2
n
= 0,7 ± 1,96 (0,0458) = 0,7 ± 0,0897
L’intervallo al 0.95 è [0,6103; 0,7897].