Inferenza statistica
Corso di STATISTICA
Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II
Professore supplente, Università della Basilicata
a.a. 2011/2012
Prof. Roberta Siciliano
Statistica
1
Obiettivo dell’unità didattica
n 
Definire i concetti di base sull’inferenza
statistica
Contenuti
n  L’induzione statistica
n  Definizione di statistica campionaria e
distribuzione campionaria
n  Stima puntuale e per intervalli
n  Il test statistico
Prof. Roberta Siciliano
α.α. 2002-2003
Statistica
2
1
Inferenza statistica
Il problema di risalire alla struttura
non nota delle popolazioni (e delle
v.c.) viene affrontato teoricamente
dalla inferenza statistica.
Prof. Roberta
Siciliano
Statistica
3
Problema inverso
Si passa dalla Deduzione alla
Induzione, dal Problema diretto al
Problema Inverso.
L Inferenza statistica è lo
strumento metodologico utile ad
affrontare e a risolvere il problema
inverso.
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
4
2
Il problema inverso
Le informazioni sulla
struttura della
popolazione sono
fornite da un
campione casuale.
Prof. Roberta Siciliano
Statistica
5
Problema inverso
I risultati e le decisioni
comportano un rischio, dovuto
alla limitatezza delle informazioni
usate.
Il rischio può essere valutato e
controllato in termini probabilistici
con gli strumenti della inferenza
statistica.
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
6
3
La Procedura Inferenziale
Popolazione Collettivo oggetto di inferenza
Campione
Parte delle unità statistiche nella
popolazione sottoposta alla
osservazione
Nota: L osservazione di un fenomeno è vista
come la realizzazione di un modello di probabilità
teorico.
Prof. Roberta
Siciliano
Statistica
7
La Procedura inferenziale
Parametri
Valori caratteristici della popolazione
Informazioni a priori sulla popoAssunzioni lazione che consentono di scegliere
un modello piuttosto che un altro.
Ritenere più probabile che una data
Incertezza osservazione sia stata generata da
alcune distribuzioni di probabilità
che da altre appartenenti al modello.
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
8
4
La Procedura inferenziale
Inferenza
Modello
Prof. Roberta
Siciliano
Essere indotti a ritenere piu
probabile che la popolazione
appartenga ad un certo
sottoinsieme del modello che ad
un altro.
L insieme delle distribuzioni di
probabilità definite su un
opportuno spazio campionario e
caratterizzato da uno o più
parametri.
Statistica
9
Stima
Teoria della stima
Conoscere il valore numerico o un
intervallo di valori di uno o più
parametri incogniti del modello di
probabilità teorico (ovvero della
popolazione) a partire dai dati
campionari.
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
10
5
Test
Teoria della verifica delle ipotesi
Verificare con una regola di
decisione una certa affermazione
fatta relativamente alla popolazione,
ovvero se essa debba ritenersi vera
o falsa sulla base di ciò che appare
dal campione.
Prof. Roberta
Siciliano
Statistica
11
Campionamento
Campione casuale o probabilistico: ogni
elemento della popolazione ha una probabilità
non nulla di entrare a far parte del campione.
Estrazione con ripetizione: la struttura della
probabilità non si modifica ad ogni estrazione
perché ciascuna unità estratta è inserita
nuovamente nella popolazione.
Estrazione senza ripetizione: si estraggono n
unità in blocco dalla popolazione e la struttura di
probabilità si modifica ad ogni estrazione.
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
12
6
Statistica campionaria
La statistica campionaria e la sua distribuzione
Realtà operativa
In teoria
Si avrà a disposizione un
solo campione o comunque
un numero limitato di
campioni.
Prof. Roberta
Siciliano
Se si avessero un numero
elevato di campioni o tutti i
campioni possibili, cioè un
universo campionario.
Statistica
13
Concetti teorici
Statistica campionaria: Una v.c. definita quale
funzione di un campione casuale ( X 1 , X 2 ,...X n )
ovvero una qualunque trasformazione dei valori
osservati che consente di inferire sui parametri
non noti della popolazione.
Distribuzione campionaria: É la distribuzione
delle stime al variare del campione.
Estraendo tutti i possibili campioni di numerosità n dalla
popolazione si ottengono tutti i possibili valori che la statistica
campionaria può assumere, ovvero l insieme delle possibili
stime del parametro incognito della popolazione.
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
14
7
xH
campione
H = Nn
x2
x1
Prof. Roberta Siciliano
x1 ≤ x 2 ≤ ...x H
Statistica
15
v.c. media campionaria
Consideriamo una popolazione di
quattro unità statistiche, e proviamo
ad estrarre tutti i possibili campioni
di ampiezza 2, generando quindi Nn
possibili campioni, cioè 42=16..
Universo di
campioni
Calcoliamo poi la media di ogni
campione e costruiamo la
distribuzione di frequenza di tutte le
medie.
Prof. Roberta Siciliano
α.α. 2002-2003
Statistica
16
8
U1U 2U 3U 4
1
1
4
U 1 U1 U1 U 2 U1 U 3 U 1 U 4
U 2 U1 U 2 U 2 U 2 U 3 U 2 U 4
U 3 U1 U 3 U 2 U 3 U 3 U 3 U 4
6
U 4 U1 U 4 U 2 U 4 U 3 U 4 U 4
N =4
n=2
n
N possibili campioni
1 1 1 1 1
4 1 6
1 1 1 1 1
4 1 6
4 1 4 1 4 4 4 6
6 1 6 1 6 4 6 6
tutti i possibili campioni
Prof. Roberta Siciliano
X=
1
fi =
1
4
Statistica
2 .5 3 .5
1
4
4
1
4
1
16
17
5
6
1 1
8 16
⎛ 1 ⎞
⎛ 1 ⎞
⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞
E (X ) = 1⎜ ⎟ + 2.5⎜ ⎟ + 3.5⎜ ⎟ + 4⎜ ⎟ + 5⎜ ⎟ + 6⎜ ⎟ = 3
⎝ 4 ⎠
⎝ 4 ⎠
⎝ 4 ⎠ ⎝ 16 ⎠ ⎝ 8 ⎠ ⎝ 16 ⎠
(
VAR (X ) = 1 − 3
) ⎛⎜ 14 ⎞⎟ + (2.5 − 3) ⎛⎜ 14 ⎞⎟ + (3.5 − 3) ⎛⎜ 14 ⎞⎟ +
2
2
2
⎝ ⎠
⎝ ⎠
⎝ ⎠
2 ⎛ 1 ⎞
2 ⎛ 1 ⎞
2 ⎛ 1 ⎞
+ (4 − 3) ⎜ ⎟ + (5 − 3) ⎜ ⎟ + (6 − 3) ⎜ ⎟ = 2.25
⎝ 16 ⎠
⎝ 8 ⎠
⎝ 16 ⎠
Prof. Roberta Siciliano
α.α. 2002-2003
Statistica
18
9
Nella popolazione si ha:
1
1 + 1 + 4 + 6 12
x
=
= =3
∑ i
n
4
4
1
4 + 4 +1+ 9
2
σ 2 = ∑ (xi − µ ) =
= 4.5
n
4
µ=
v.c Media Campionaria
E (X ) = µ = 3
VAR (X ) =
Prof. Roberta Siciliano
σ2
n
=
4.5
= 2.25
2
Statistica
19
v.c. media campionaria
(senza reintroduzione)
Consideriamo una popolazione di
quattro unità statistiche, e proviamo
ad estrarre tutti i possibili campioni
di ampiezza 2 (senza
reintroduzione), generando quindi
12 possibili campioni.
Calcoliamo poi la media di ogni
campione e costruiamo la
distribuzione di frequenza di tutte le
medie.
Prof. Roberta Siciliano
α.α. 2002-2003
Statistica
20
10
Senza ripetizione
U1 U 4
tutti i possibili campioni
U2
U3
U1 U 2 U 3 U 2 U 4
U1 U 3 U 2 U 3 U 4
Medie di tutti
i campioni
U4
U1 U 4 U 2 U 4 U 3
U1 U 2
1
1
4
6
1
1
1
1
U1 U 3
1
1
4
6
4
4
1
1
1
1
4
6
6
6
6
4
Prof. Roberta Siciliano
X=
1
fi =
1
6
1
2 .5 3 .5
1 2 .5 3 .5
2 .5 2 .5 5
3 .5 3 . 5
Statistica
5
21
2.5 3.5 5
1
3
1
3
1
6
v.c Media Campionaria
E (X ) = 3
VAR (X ) =
Prof. Roberta Siciliano
α.α. 2002-2003
σ2 N −n
n N −1
= 1. 5
Statistica
22
11
Concetti teorici
Supponiamo di avere una popolazione che segue
un modello noto a meno di uno o più parametri.
Ciò implica ad es.che:
la v.c. X (associata alla popolazione)
ha una distribuzione di probabilità (v.c. discreta)
o una funzione di densità di probabilità
(v.c.continua), indicata con f(x;θ), in cui il
parametro θ è incognito.
- 
Il problema che si pone è quello di stimare θ .
Prof. Roberta
Siciliano
Statistica
23
Concetti teorici
Estraiamo con ripetizione un campione casuale di n
unità:
•  Prima che l operazione di estrazione sia
effettuata le n estrazioni campionarie generano n
v.c. campionarie indipendenti ( X 1 , X 2 ,... X n )
•  Dopo che l estrazione campionaria è avvenuta, si
otterranno solo n osservazioni campionarie
(x1 , x2 ,...xn ) cioè n numeri.
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
24
12
Concetti teorici
Lo stimatore di
stimatore
θ è la v.c.
T ( X ) = t ( X1, X 2 ,....., X n )
definita quale funzione nota del campione.
stima
La stima di θ é il valore assunto dallo
stimatore assunto in corrispondenza di un
particolare campione.
Funzione di É la particolare funzione (t.) che lega le v.c.
stima
del campione.
Prof. Roberta
Siciliano
Statistica
25
Concetti teorici
Alcune proprietà degli stimatori
Correttezza
Efficienza
relativa
Prof. Roberta
Siciliano
α.α. 2002-2003
Uno stimatore T(X) di θ, è corretto
se, in media, fornisce stime non
distorte del parametro incognito.
Uno stimatore corretto T1 ( X ) di θ è
più efficiente di un altro stimatore
corretto T2 (X ) di θ se ha varianza più
piccola.
Impossibile visualizzare l'immagine. La memoria del
computer potrebbe essere insufficiente per aprire
Statistica
26
13
Concetti teorici
Efficienza
assoluta
Coerenza
Prof. Roberta
Siciliano
Esiste un limite inferiore alla varianza
di uno stimatore di θ che può essere
raggiunto dallo stimatore più efficiente
in senso assoluto, sebbene non si può
escludere, che uno stimatore la cui
varianza non raggiunge tale limite non
sia il più efficiente.
Uno stimatore T(X) di θ è coerente se
contemporaneamente la sua
distorsione e la sua varianza tendono a
zero al crescere della numerosità
campionaria.
Statistica
27
Stima per intervalli
La Teoria della Stima precisa delle proprietà
ottimali per uno stimatore e costruisce degli
stimatori i quali, una volta ottenuto il campione,
forniscono – mediante semplice sostituzione – il
valore numerico della stima. Per un altro campione,
generalmente, lo stesso stimatore condurrà ad una
stima differente.
Il valore numerico della singola stima non
informa sul probabile campo di variazione delle
stime del parametro.
Prof. Roberta Siciliano
α.α. 2002-2003
Statistica
28
14
In presenza di campioni di numerosità limitata
questi problemi divengono particolarmente gravi
in quanto il semplice "affidamento" al valore
numerico trovato può essere inopportuno per
l'elevata variabilità delle osservazioni.
Vi è pertanto l'esigenza di costruire un
intervallo, anziché un punto, che con
probabilità fissata includa il parametro da
stimare.
Prof. Roberta Siciliano
Statistica
29
Intervalli di stima
Dato un campione casuale
(X 1, X 2 ,... X n )
con estrazioni con
ripetizione da una popolazione X con nota la f(x; θ). L intervallo di confidenza: É un intervallo casuale che
contiene il parametro incognito
θ con una probabilità nota
(ciò prima di estrarre il campione)
P(L1 ≤ θ ≤ L2 ) = (1 − α)
dove
L1 ed L 2 sono funzione dello stimatore puntuale di θ.
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
30
15
Intervalli di stima
Non è corretto affermare :
(L ,
1
L 2) contiene con probabilità (1–α) il vero valore di θ.
Ma si è confidenti al
[ L1,
100(1–α)%
che l'intervallo L 2] includa il vero valore di θ.
Per un ipotetico processo di estrazioni campionarie
l'intervallo osservato – non casuale – conterrebbe
θ nel
100(1-α)% dei casi mentre lo escluderebbe nel 100α%.
Tanto minore è il livello fissato di α tanto più ampio
risulta l'intervallo di confidenza.
Prof. Roberta
Siciliano
Statistica
31
Elementi chiave
n  La
variabilità del fenomeno
n  La numerosità campionaria
n  L ampiezza dell intervallo
n  Il livello di confidenza
Prof. Roberta Siciliano
α.α. 2002-2003
Statistica
32
16
Metafora
ampiezza
intervallo
variabilità
σ2
ε
n
dimensione del
campione
x ± zα
2
σ
n
Grado di fiducia
Variabilità
nella
popolazione
campione
0,99
1− α
Prof. Roberta Siciliano
0,95
Statistica
0,90
33
…(minore è la distanza dal bersaglio)
variabilità
σ
2
ampiezza
intervallo
ε
n
dimensione del
campione
σ 2, ε
A parità di
minore è n
maggiore
1− α
Prof. Roberta Siciliano
α.α. 2002-2003
Statistica
34
17
… (più grande è il bersaglio)
ampiezza
intervallo
variabilità
ε
σ2
n
dimensione del
campione
A parità di
σ2 , n
piú grande è
maggiore è
ε
1− α
(il bersaglio)
Prof. Roberta Siciliano
Statistica
35
… (più preciso è lo strumento di tiro)
variabilità
σ
ampiezza
intervallo
2
ε
n
Dimensione del
campione
A parità di n, ε,
2
minore è
(varianza)
σ
maggiore è
1− α
Prof. Roberta Siciliano
α.α. 2002-2003
(grado di fiducia)
Statistica
36
18
Test statistico
ipotesi statistiche
n  tavola delle decisioni
n  variabili test
n  regole di decisione
n 
Prof. Roberta
Siciliano
Statistica
37
Il Test Statistico
Il Test Statistico è un giudizio di conformità
probabilistica fra campione e popolazione e
serve per decidere se alcune situazioni
ipotetiche concernenti la popolazione appaiono
ragionevoli o meno alla luce dell'evidenza
empirica.
Ipotesi Statistica: è un'affermazione
riguardante i parametri della f(x; θ) o il
processo cha ha generato le osservazioni
campionarie.
Ipotesi nulla vs. Ipotesi alternativa
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
38
19
Tavola delle decisioni
DECISIONE
REALTA‘
H0
H0
Decisione giusta
H1
Errore del II tipo
1− α
β
H1
Errore del I tipo
α
Decisione giusta
1− β
A-posteriori, ovvero dopo aver estratto il campione e presa una
decisione con la statistica test, non ha senso parlare di probabilità
di decisioni giuste o errate, in quanto non essendo nota
l'ipotesi vera sulla popolazione si è già commesso di fatto un
errore o si è già presa di fatto una decisione giusta.
Prof. Roberta
Siciliano
Statistica
39
Variabile test
Statistica Test: è una funzione d(X) che fa
corrispondere ad ogni campione casuale un valore
numerico che può essere classificato come coerente
o meno con l'ipotesi specificata dalla H0.
Il test statistico conduce ad una partizione
dell'universo dei campioni in due sottoinsiemi
complementari: la regione di accettazione, ovvero
i campioni per i quali la statistica test assume valori
compatibili con H0 , la regione critica o di rifiuto,
ovvero i campioni per i quali la statistica test assume
valori compatibili con H1.
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
40
20
Numerosità Campionaria e Potenza del Test
Nella costruzione del test si pone come ipotesi nulla quella
per la quale si ritengono più gravi le conseguenze derivanti
dal commettere un errore del primo tipo, così che si sceglie
un opportuno valore
α del livello di significatività.
Qualora si desideri controllare, oltre alla probabilità
dell'errore del primo tipo, anche quella dell'errore del
secondo tipo, occorre determinare la numerosità
campionaria in modo tale che il test garantisca, oltre al
livello di significatività a, anche una potenza del test
prefissata.
Prof. Roberta
Siciliano
Statistica
1- β
41
Lo Schema per l'Applicazione
1. 
Considerazioni generali: scelta del modello di
probabilità, campionamento, assunzioni;
2. 
Ipotesi statistiche da verificare: definizione
dell'ipotesi nulla e dell'ipotesi alternativa;
3. 
Statistica Test: si definisce la funzione dello
stimatore, la sua distribuzione (con eventuale stima
di parametri incogniti non sottoposti a test), e si
determina il valore osservato della statistica test;
Prof. Roberta
Siciliano
α.α. 2002-2003
Statistica
42
21
Lo Schema per l'Applicazione
α
4. 
Regione critica di ampiezza
: sulla base della
distribuzione nota della statistica test e quindi della
corrispondente tavola statistica, si determina il valore
critico (test unidirezionale) o i valori critici (test
bidirezionale) per distinguere la regione critica dalla
regione di accettazione;
5. 
Commenti e generalizzazioni: Si conclude il test
accettando l'ipotesi nulla o rifiutandola, e si
commentano i risultati.
Prof. Roberta
Siciliano
Statistica
43
Regione di accettazione
Regione critica
d*
Regione critica
Valori di statistica test
Regione di accettazione
d*
Regione di accettazione
d1
d2
d(X) valore osservato da confrontare con il valore critico di d*
Regioni critiche e di accettazione per test uni- e bidirezionali
Prof. Roberta Siciliano
α.α. 2002-2003
Statistica
44
22
Consideriamo una variabile casuale distribuita
come una Normale:
(
X ~ N µ ,σ 2
)
con σ 2 = nota
Si estrae un campione di ampiezza n
Si fissa il livello di significatività
Prof. Roberta Siciliano
α
Statistica
45
Test sul valore medio con varianza nota:
Abbiamo tre possibili situazioni:
1)
H 0 : µ = µ0
H1 : µ > µ0
RCO (α ): X ≥ µ 0 + zα
σ
2)
H 0 : µ = µ0
H1 : µ < µ0
RCO (α ): X ≤ µ 0 - zα
σ
H 0 : µ = µ0
3)
H1 : µ ≠ µ0
Prof. Roberta Siciliano
α.α. 2002-2003
n
n
σ
⎧
⎪⎪ X ≥ µ 0 + zα 2
n
RC (α ): ⎨
σ
⎪ X ≤ µ 0 - zα
⎪⎩
2
n
Statistica
46
23
Test sul valore medio con varianza nota:
1)
H 0 : µ = µ0
H1 : µ > µ0
1- α
H0
α
µ0
zα
Regione di
accettazione
Prof. Roberta Siciliano
Regione di
rifiuto
Statistica
47
Test sul valore medio con varianza nota:
H 0 : µ = µ0
2)
H1 : µ < µ0
H0
1- α
α
µ0
Regione di
rifiuto
Prof. Roberta Siciliano
α.α. 2002-2003
- zα
Regione di
accettazione
Statistica
48
24
Test sul valore medio con varianza nota:
3)
H 0 : µ = µ0
H1 : µ ≠ µ0
α
1- α
H0
α
2
2
µ0
Regione di
rifiuto
- zα
zα
2
2
Regione di
rifiuto
Regione di
accettazione
Prof. Roberta Siciliano
Statistica
49
Test e intervalli di stima
n  Si
costruisce l intervallo di stima e si
verifica se esso è coerente con
l ipotesi nulla
x ± zα
2
σ
n
0,99
1− α
Prof. Roberta Siciliano
α.α. 2002-2003
Comprende
µ0 ?
test sulla media
0,95
0,90
Statistica
50
25
Caso particolare
n 
n 
Popolazioni descritte da una v.c.
dicotomica (0,1) in corrispondenza di
insuccesso e successo con probabilità di
successo π
La media campionaria di 0 e 1
corrisponde al conteggio dei successi sul
totale delle osservazioni campionarie
(proporzione campionaria p)
Prof. Roberta Siciliano
Statistica
51
Inferenza sulla probabilità di successo
n  La
variabile test è
Z=
n  L
P — π0
~ N 0;1
π 0 (1−π 0 )
n
)
intervallo di confidenza è:
⎡
⎢ p ± zα
⎣
2
Prof. Roberta Siciliano
α.α. 2002-2003
(
p (1-p ) ⎤
⎥
n
⎦
Statistica
52
26
Test di indipendenza
n 
Data una tabella di contingenza di dimensioni r x c
H o : π ij = π i + π + j
per ogni coppia ( i , j )
H 1 : π ij ≠ π i +π + j
per almeno una coppia ( i , j )
con i = 1,..., r ; j = 1,..., c
Statistica test
r
c
∑∑
2
( nij −ni +n+ j n )
i =1 j =1
Se
ni + n+ j n
2
χ oss
Prof. Roberta Siciliano
α.α. 2002-2003
2
~ χ ( r −1)( c −1)
se è vera H o
Valori tabulati
Decisione
2
< χ critico si accetta Ho
Statistica
53
27