pdf2

2/19/2015
Richiami di inferenza statistica
Richiami di inferenza statistica
Strumenti quantitativi per la gestione
Emanuele Taufer
Inferenza statistica
Parametri e statistiche
Esempi
Tecniche di inferenza
Stima
Precisione delle stime
Intervalli di confidenza (IC)
Esempio
Esempio: IC per la media μ
Verifica delle ipotesi
Errori nella decisione
Esempio 1
Regole di decisione
Un esempio intuitivo
Esempio
Inferenza statistica
Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una (o più)
caratteristiche (o parametri) su una data popolazione sulla base di dati campionari.
Alcuni aspetti formali:
Popolazione: un insieme di N unità (persone, imprese, Stati) che siamo interessati ad
analizzare. Indichiamo con U = {x1 , x2 , … , xN } l’insieme delle modalità della caratteristica
che siamo interessati ad analizzare (sesso, altezza, reddito, addetti, PIL, etc.) misurate su ogni
unità della popolazione.
Campione: un sottoinsieme di dimensione n , (n << N ) delle unità della popolazione
selezionate con criteri probabilistici. Poichè a priori non sappiamo quali unità faranno parte del
campione, le corrispondenti modalità sono delle variabili casuali. Indichiamole con C = {X 1 , X 2 , … , X n }
Parametri e statistiche
Parametri: caratteristiche della popolazione. Tipicamente la media (μ ), la varianza ( σ2 ), etc..
Di solito si usano lettere dall’alfabeto greco per indicare i parametri della popolazione.
Statistiche: caratteristiche del campione. Tipicamente la media,
¯
X =
1
n
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
n
∑ Xi ,
i=1
1/10
2/19/2015
Richiami di inferenza statistica
la varianza (corretta),
S
2
1
=
n − 1
n
¯ 2
∑(Xi − X) .
i=1
Poiché il valore delle statistiche cambia con il campione selezionato, a priori, ossia prima della
selezione del campione, sono delle variabili casuali.
Esempi
stimare l’età (o l’altezza) media della popolazione residente in Italia
stimare la percentuale di consumatori di una certa regione che acquista abitualmente un certo
tipo di prodotto
prevedere (con un dato margine di errore) l’esito delle elezioni
verificare se una certa campagna pubblicitaria ha portato ad un aumento delle vendite
Tecniche di inferenza
Le principali tecniche di inferenza statistica sono:
Stima: quando interessa individuare il valore di una certa caratteristica. Si distingue in:
puntuale
intervallare
Verifica delle ipotesi (o test): quando i dati campionari sono utilizzati per verificare una certa
ipotesi su un parametro della popolazione.
Stima
Si consideri il caso in cui siamo interessati a determinare un valore numerico (la stima)
sufficientemente preciso per la media μ di una certa popolazione.
¯
Dato un campione, proveniente dalla popolazione di interesse, sembra naturale utilizzare X
come
indicatore del valore di μ
Terminologia
Stimatore: la regola per effettuare la stima (calcola la media). Lo stimatore è una
variabile casuale poichè definito a priori su tutti i possibili risultati campionari.
Stima: il valore dello stimatore ottenuto dal campione. Un valore numerico.
Esistono diversi metodi di stima che permettono di ottenere delle buone regole di stima per problemi
anche molto complessi.
Precisione delle stime
Per valutare la precisione delle regole di stima è opportuno ragionare a priori su tutti i possibili risultati
campionari.
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
2/10
2/19/2015
Richiami di inferenza statistica
Idealmente questo si può fare agevolmente se si conosce la distribuzione di probabilità dello
stimatore adottato. Poichè nella pratica questo non sempre è possibile, si utilizzano alcuni indicatori di
sintesi.
Indichiamo con T uno stimatore per il generico parametro θ .
1. Il valore atteso, ossia la media calcolata su tutti i possibili risultati campionari. Se
E(T ) = θ
∀θ
si dice che lo stimatore è non distorto o corretto poiché il suo valore atteso coincide con il
parametro che si vuole stimare. In caso contrario la quantità
E(T ) − θ ≠ 0
è definita bias o distorsione.
La media campionaria è uno stimatore corretto per la media della popolazione μ poiché
¯
E(X) = μ
, ∀μ
2. Una indicatore della dispersione dello stimatore, lo MSE (mean squared error), misura la
distanza quadratica media dello stimatore dal parametro.
M S E(T ) = E(T − θ)
2
= V ar(T ) + (E(T ) − θ)
2

2
Bias
Nel caso della media, poiché è corretta per μ ,
2
¯
¯
M S E(X) = V ar(X) = σ /n
dove σ2 indica la varianza della popolazione campionata.
Intervalli di confidenza (IC)
Un IC di livello (1 − α) per il parametro θ è un intervallo casuale (dipende dal campione) che include
il vero valore di θ con probabilità (1 − α) .
Anche per gli IC esiste una distinzione analoga a quella fra stimatore e stima:
A priori, prima di selezionare il campione, la procedura di costruzione fornisce un IC che
includerà il vero valore del parametro con probabilità (1 − α) .
A posteriori, l’intervallo determinato dai dati non è più casuale e conterrà oppure no il vero
valore del parametro. Questo non è, di solito, noto. La procedura di costruzione ci dà un certo
grado di confidenza, pari a (1 − α) , ma nulla di più.
Tipicamente α è piccolo per avere gradi di confidenza elevati. Ad esempio α
α = 0.01 .
= 0, 05
o Esempio
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
3/10
2/19/2015
Richiami di inferenza statistica
Esempio: IC per la media μ
Un IC di livello (1 − α) per la media di una popolazione μ è dato da
¯
X ± zα/2
S
√n
L’IC è esatto se la popolazione campionata è normale, è approssimato (per il teorema limite
centrale) in altri casi
−−
2
S = √S
zα/2
è il percentile (1 − α/2) per la distribuzione normale standard.
Esempio: se α
= 0.05
allora z0.025
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
= 1.96
.
4/10
2/19/2015
Richiami di inferenza statistica
Verifica delle ipotesi
Nella teoria dei test i risultati campionari sono usati per decidere tra due ipotesi in competizione
H0
 ipotesi nulla
H1
 ipotesi alternativa
Esempio
Il prezzo medio di una stanza in hotel 4S a Londra è 150 Euro (H0 )
Possibili alternative (H1 )
il prezzo medio è >
il prezzo medio è <
il prezzo medio è ≠
 unilaterale
150  unilaterale
150  bilaterale
150
Errori nella decisione
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
5/10
2/19/2015
Richiami di inferenza statistica
α = P (Rifiutare erroneamente H0 )
β = P (Accettare erroneamente H0 )
Esempio 1
Regole di decisione
Esiste tradeoff tra α e β e non è possibile minimizzarli contemporaneamente.
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
6/10
2/19/2015
Richiami di inferenza statistica
Poiché H0 è l’ipotesi fondamentale, la decisione è di rifiutare H0 (e quindi accettare H1 )
quando la probabilità dell’errore di prima specie, α , molto piccola.
Tipicamente si richiede che α
< 0.05
.
In generale la decisione è presa osservando il valore assunto da una certa statistica
campionaria, definita, in questo caso, statistica test
Le statistiche test sono diverse a seconda del problema considerato ed esistono metodi
statistici per determinare regole ottimali.
Un esempio intuitivo
Abbiamo un campione di n unità da una distribuzione normale a media μ e varianza σ2 (nota).
Vogliamo verificare il set di ipotesi: H0 : μ = 0 contro H0 : μ ≠ 0 .
¯
Poichè X
è stimatore per μ sembra ragionevole confrontarne il valore con quello indicato nell’ipotesi
nulla e rifiutare se questo è molto minore o molto maggiore di 0 .
Per quantificare quel “molto maggiore” o “molto minore”, conviene di solito misurare le distanze in
¯
termini di deviazioni standard, ossia procediamo a standardizzare X
:
¯
(X − 0)√n
Z =
σ
Si noti che la standardizzazione usa il valore di μ specificato dall’ipotesi nulla. Ossia si fanno i calcoli
ipotizzando che questa sia effettivamente vera.
Ad esempio, se |Z | = 1 , si trova ad una deviazione standard dall’ipotesi nulla; se |Z |
4 deviazioni standard dall’ipotesi nulla.
= 4
si trova a
Per decidere è necessario sapere quale distanza assicura ci assicura che la probabilità dell’errore di
prima specie α sia piccola, diciamo < 0.05.
Riassumendo:
La statistica test è: Z
La regola di decisione è: rifiuta se |Z | supera un valore soglia che renda la probabilità
dell’errore di prima specie α < 0.05 .
In altre parole, dobbiamo individuare un valore z ( il valore soglia) per il quale
P (|Z | > z|H0
è
vera) = α
Se dai dati osserviamo il valore zoss della statistica test, il valore soglia z è superato se
P (|Z | > zoss |H0
P (|Z | > zoss |H0 )
è
vera) < α
è definito p value ed è tipicamente fornito dai software per la decisione.
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
7/10
2/19/2015
Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
8/10
2/19/2015
Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
9/10
2/19/2015
Richiami di inferenza statistica
Esempio
Il prezzo medio di una stanza in hotel 4S a Londra è 150 Euro (H0 )
Il prezzo medio è ≠
150 (H1 )
In termini di parametri possiamo scrivere H0
: μ = 150
contro H1
: μ ≠ 150
Supponiamo per semplicità che la popolazione sia normale con varianza σ2
= 2500
¯
Un campione casuale di 25 unità fornisce un prezzo medio ( X
) pari a 180 Euro.
la statisitca test è
−
−
(180 − 150)√25
z =
−
−
−
−
√2500
= 3
che si colloca a tre deviazioni standard dalla media
il p value associato è 0.0027 .
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html
10/10