parametri della popolazione

CAPITOLO 10
L’INFERENZA STATISTICA
Definizione del termine
inferenza
Inferire significa risalire dal particolare al generale, e cioè estendere il risultato delle
considerazioni statistiche da una piccola parte alla generalità dei casi, all’universo.
Nell’inferenza statistica ricorrono alcune espressioni che necessitano di un chiarimento:
1. statistiche campionarie: valori caratteristici del campione, misure statistiche ad esso riferite e
su di esso calcolate. Si indicano, generalmente con la lettera S e singolarmente con le lettere
latine minuscole
2. parametri della popolazione: valori caratteristici della popolazione, misure statistiche ad essa
riferite, non note si indicano generalmente con la lettera greca Θ e singolarmente con le
lettere greche minuscole.
Statistiche, parametri ed
obiettivi dell’inferenza
x 
 
s 
2

s 

S  term. noti
b 
r 
 

p 


ˆ


 
 
 
2

 

 term. ignoti
 
 
 

 

Obiettivo dell’inferenza statistica è quello di valutare attraverso le distribuzioni
delle statistiche campionarie (S) il valore dei parametri incogniti
(Θ) della
popolazione. In base alle caratteristiche dei campioni si stimeranno, utilizzando le
distribuzioni delle statistiche campionarie (valori potenzialmente noti) ed
opportune metodologie, i parametri incogniti della popolazione.
I metodi dell’inferenza
statistica
Per fare inferenza statistica, abbiamo a disposizione due diversi metodi:
1. la stima dei parametri (alla quale dedicheremo questo capitolo)  verrà
studiata la funzione stimatore e la teoria della stima statistica.
2. la verifica delle ipotesi (alla quale dedicheremo il capitolo successivo).
Sia data una popolazione composta da 5 elementi – 20 21 22 23 24 determiniamone
La media e la varianza
 e 2
20,00
22,00
-2,00
4,00
21,00
22,00
-1,00
1,00
22,00
22,00
0,00
0,00
23,00
22,00
1,00
1,00
24,00
22,00
2,00
4,00
110,00
22,00
0,00
10,00
  22 e   2
2
Da cui
5
Dalla popolazione analizzata si possono estrarre , detti N la dimensione della
Popolazione e n la dimensione del campione
N n campioni
Per cui da una popolazione d 5 elementi si possono estrarre 25 campioni di
dimensione 2
I 25 campioni offriranno la possibilità di calcolare 25 medie e 25 varianze
Operando in tal modo avremo esaurito l’universo campionario di dimensione 2.
E’ evidente che il ragionamento è reiterabile per qualunque N ed n
6
Ma estrarre da una popolazione un campione di una certa dimensione configura
Un esperimento aleatorio.
Esiste una popolazione assimilabile ad un ‘urna che contiene tutti i casi possibili, dalla
quale bisogna estrarre n elementi che costituiranno il campione
Quindi per avere un campione di una certa dimensione bisogna estrarre dall’urna
n elementi. Ma quali saranno questi elementi ?
E’ evidente che prima dell’estrazione essi non si conoscono. Si sa solo che può essere
uno qualsiasi degli N elementi che costituiscono la popolazione
7
Si ipotizzi una popolazione costituita da N elementi fissato un campione di n = 2
costruiamo in seguente schema.
N  X1 X 2 .... Xi X4 ....Xn
Se desidero estrarre da N un campione di dimensione 2 , nella fase che precede
l’operazione materiale dell’estrazione si deve considerare che a far parte del
Campione potrebbe entrare a far parte qualunque elemento della popolazione
Ciò configura un esperimento aleatorio che, comunque comporta il seguente
ragionamento
Devo osservare due elementi dalla popolazione 2 elementi che nella fase della
pre osservazione sono incogniti e non individuabili
8
Alla luce di quanto prima si può formalizzare
ˆ  f ( X X ) in cui X X sono 2 degli elemen

1
2
1
2
estraibili
X1
X2
20
20
21
21
22
22
23
23
24
24
Una volta estratti gli elementi avranno valori certi sui quali sarà possibile
calcolare le statistiche campionarie
ˆ  h( x x ) in cui x x sono gli elementi

1
2
1
2
estratti
9
Funzione stimatore e
teoria della stima
• Statistica campionaria
• Parametri

• Funzione stimatore
̂
S
(tra S e

stimatore del parametro incognito della popolazione è una funzione delle osservazioni
campionarie le quali sono variabili casuali indipendenti, identicamente distribuite, con
stessa distribuzione della popolazione, e quindi con stessa media e stessa varianza. Lo
stimatore è, quindi, una variabile casuale del tipo
ˆ  h X , X ,..., X 

1
2
n
ˆ  hx , x ,..., x 

1
2
n
Attraverso la funzione stimatore è possibile configurare l’intero universo
campionario di una prefissata dimensione n, nonché l’insieme di tutte le
statistiche campionarie potenzialmente calcolabili.
La successione delle n statistiche campionarie calcolate, organizzata in
distribuzione di frequenza, origina la distribuzione campionaria della
statistica S.
Tali distribuzioni possono essere create ricorrendo al:
• Campionamento di tipo Bernoulliano (con ripetizione).
• Campionamento senza ripetizione (anche detto in blocco).
Alcune precisazioni
Se si fa riferimento alla media campionaria, l’insieme di tutte le medie calcolate su
tutti i possibili campioni, di dimensione n appartenenti ad un certo universo
campionario origina la distribuzione campionaria della media.
Il concetto, con i dovuti accorgimenti di cui si dirà in seguito, è ripetibile per tutte
le misure statistiche calcolabili sui campioni.
Essa comprende tutti i possibili valori della statistica nell’universo campionario
prescelto. E’ una distribuzione particolare da non confondere con la distribuzione
di un carattere che si studia nella popolazione.
campioni
medie
scarti
20
20
20
22
4,00
20
21
20,5
22
2,25
20
22
21
22
1,00
20
23
21,5
22
0,25
20
24
22
22
0,00
21
20
20,5
22
2,25
21
21
21
22
1,00
21
22
21,5
22
0,25
21
23
22
22
0,00
21
24
22,5
22
0,25
22
20
21
22
1,00
22
21
21,5
22
0,25
22
22
22
22
0,00
22
23
22,5
22
0,25
22
24
23
22
1,00
23
20
21,5
22
0,25
23
21
22
22
0,00
23
22
22,5
22
0,25
23
23
23
22
1,00
23
24
23,5
22
2,25
24
20
22
22
0,00
24
21
22,5
22
0,25
24
22
23
22
1,00
24
23
23,5
22
2,25
24
24
24
22
4,00
550,00
D.C. Media
Media
Var. D.C. Media
20,00
1
20,00
22,00
4,00
4,00
20,50
2
41,00
22,00
2,25
4,50
21,00
3
63,00
22,00
1,00
3,00
21,50
4
86,00
22,00
0,25
1,00
22,00
5
110,00
22,00
0,00
0,00
22,50
4
90,00
22,00
0,25
1,00
23,00
3
69,00
22,00
1,00
3,00
23,50
2
47,00
22,00
2,25
4,50
24,00
1
24,00
22,00
4,00
4,00
25
550,00
22
25,00
var
1,00
25,00
13
ŝ 2
20
20
20
20
21
20,5
0,50
20
22
21
2,00
20
23
21,5
4,50
20
24
22
8,00
21
20
20,5
0,50
21
21
21
0,00
21
22
21,5
0,50
21
23
22
2,00
21
24
22,5
4,50
22
20
21
2,00
22
21
21,5
0,50
22
22
22
0,00
22
23
22,5
0,50
22
24
23
2,00
23
20
21,5
4,50
23
21
22
2,00
23
22
22,5
0,50
23
23
23
0,00
23
24
23,5
0,50
24
20
22
8,00
24
21
22,5
4,50
24
22
23
2,00
24
23
23,5
0,50
24
24
24
D.C. varianza
s
0,00
0,00
5,00
0,00
0,25
8,00
2,00
1,00
6,00
6,00
2,25
4,00
9,00
4,00
2,00
8,00
25,00
25,00
E(S²)=1
D.C. varianza corretta
ŝ 2
0,00
5
0,00
0,50
8
4,00
2,00
6
12,00
4,50
4
18,00
8,00
2
16,00
25
50,00
(
E ( sˆ 2 )  2
0,00
14
Proprietà degli stimatori
1. Centratura
2. Efficienza
3. Consistenza
4. Sufficienza
Uno stimatore si dice centrato (non distorto, non tendenzioso) quando:
La proprietà è verificata per
()
- la media: E x = m
-
( )
la medi ana : E Me = Me
( )
la moda: E Mo = Mo
-
non vale per la varianza
-
: E (s 2 )= s
2
® non vero
E(ˆ n )  
.
Dati due o più stimatori, tutti centrati sulla media, preferiamo quello che presenti la
minore varianza
Le ascisse dei punti di flesso si
trovano ad uno scarto quadratico
medio (s.q.m. o σ) dalla media µ
A parità di centratura si sceglie lo
stimatore con varianza minore
Uno stimatore si dice consistente se


ˆ    1
lim Pr 
n
n   
̂ n = valore dello stimatore – dipende da n
 = valore incognito della popolazione – che vogliamo stimare
n = dimensione campionaria

= prefissato piccolo
Esprime una legge
di convergenza in probabilità,
inferenza, non lavoriamo, quindi, con fatti certi).
non in valore (facciamo
Data una variabile casuale, cui si associa una famiglia di distribuzioni di probabilità
parametrizzate tramite il vettore θ, e una statistica T(.), T(x) è sufficiente per θ se la
distribuzione di probabilità della X data T(X) non dipende da θ.
L’idea di fondo è che uno stimatore possa dirsi sufficiente quando racchiude ed
esaurisce tutte le informazioni riguardanti il parametro incognito e contenute nel
campione casuale.
Sia X=(X1, X2,…,Xn) un campione casuale generato dalla v.c. X che segue una
distribuzione del tipo f(x; θ) dove θ appartiene ad Ω(θ) è il parametro oggetto di
stima. Diremo che Tn è uno stimatore sufficiente per θ
Tn è sufficiente per    X x1 , x2 ,..., xn Tn  t 0 
non dipende da 
Campionamento Bernoulliano
(con ripetizione)
Parametri della
Popolazione
N
Dimensione della popolazione
μ
σ²
Nn
Distribuzione
campionaria
Universo campionario di dimensione n
E (x )  
2

 x2 
n
Esempio
Prendiamo in considerazione la distribuzione dei voti medi calcolati su 25
campioni di dimensione 2.
N=5
dimensione della popolazione
μ= 22
σ² = 2
Nn=52=25
E ( x )    22
 
2
x
2
n

2
1
2
Universo campionario di
dimensione 2
Campionamento senza
ripetizione o in blocco
Parametri della
popolazione
N
dimensione della popolazione
μ
σ²
universo campionario di
dimensione n
N * (N -1)
Distribuzione
campionaria
E (x )  
 
2
x
 2 N -n
n
*
N -1
Campionamento senza
ripetizione o in blocco
N=5
dimensione della popolazione
μ= 22
σ² = 2
universo campionario di
dimensione 2
N * (N -1) =20
E ( x )    22
 
2
x
2 N  n
n
*
N -1
 0,75
Alcune precisazioni
Teorema del Limite
Centrale
Con questo nome viene indicato un gruppo di
teoremi che risultano indispensabili per la teoria delle
distribuzioni, necessaria allo sviluppo della statistica
inferenziale.
Questi teoremi costituiscono in pratica un modo per
“quantificare la legge dei grandi numeri”.
Fondamentali della teoria
del limite centrale
• Per prove ripetute indipendenti, dove il risultato di ciascuna prova può essere
classificato come successo o insuccesso, si può affermare che:
al crescere del numero delle prove, la frequenza relativa dei successi converge
alla probabilità di successo di una prova  teorema di Bernulli
•Per prove ripetute indipendenti in cui il risultato di ciascuna prova è il valore x
di una variabile aleatoria X (ad esempio una misura di lunghezza, peso, durata) si
può asserire che:
per un numero sufficientemente grande di prove indipendenti, la media
aritmetica dei valori osservati di una variabile aleatoria converge in probabilità
alla sua speranza matematica  teorema di Cebicev
Alcune precisazioni
Tutte le formulazioni della legge dei grandi numeri stabiliscono che i risultati
delle singole prove influiscono poco sul risultato medio di un numero elevato di
prove: le deviazioni dalla media, inevitabili in una singola prova, si livellano
reciprocamente quando il numero delle prove è elevato.
quando il numero di prove, E, è elevato, il risultato medio diventa stabile e,
quindi, può essere previsto
La possibilità di effettuare tali previsioni sono rese maggiori dal teorema del limite
centrale che stabilisce quale distribuzione segue la somma di un numero
sufficientemente grande di variabili aleatorie.
Tale teorema, detto “centrale” proprio per la sua importanza, permette di
definire delle ipotesi e di stimare la loro probabilità di verificarsi.
In precedenza si è presa in esame la distribuzione campionaria della media
aritmetica ipotizzando che la popolazione seguiva una distribuzione
normale.
Tuttavia, non é realistico ritenere che la popolazione oggetto di studio
segua sempre una distribuzione normale.
In molti casi, o non si ha nessuna conoscenza reale della forma della
popolazione oppure si sa che la popolazione non segue una distribuzione
normale.
Che aspetto avrà la distribuzione campionaria della media aritmetica delle
popolazioni che non sono normali?
Questa domanda ci porta a prendere in considerazione il più importante
teorema della statistica, il teorema del limite centrale.
28
La Figura , illustra la distribuzione
campionaria della media aritmetica per
campioni selezionata da una popolazione
normale.
Sappiamo che se la popolazione segue
una distribuzione normale, la
distribuzione campionaria della media
aritmetica si distribuirà normalmente
quale che sia la dimensione del campione.
Dall'esame delle distribuzioni
campionarie mostrate nella Figura si
ricava una prova empirica di questa
affermazione.
Per ciascuna dimensione di campione
presa in esame, la distribuzione
campionaria della media aritmetica segue
una distribuzione approssimativamente
normale.
29
La Figura , mostra la distribuzione campionaria
della media aritmetica per una popolazione 'che
segue una distribuzione• uniforme continua
(rettangolare).
Da quanto mostrato nella parte (a), per
campioni di dimensione n = 1, ciascun valore della
popolazione è ugualmente probabile.
Tuttavia, quando vengono selezionati campioni
anche di soli due valori, vi è già insito un effetto
di "limite centrale". Quindi, in tal caso si possono
osservare più valori "prossimi" alla media
aritmetica della popolazione, che valori calcolati
agli. estremi.
Inoltre, al crescere della dimensione del
campione, la distribuzione campionaria della
media aritmetica tende ad avvicinarsi velocemente
alla distribuzione normale. Per campioni di
almeno otto osservazioni, la media aritmetica
campionaria segue approssimativamente una
distribuzione normale.
30
Infine, la terza figura, serve
come esempio di distribuzione
campionaria della media
aritmetica, ottenuta da una
popolazione estremamente
obliqua destra, denominata
distribuitone esponenziale
Si osserva dalla Figura che al
crescere della dimensione del
campione, la distribuzione
campionaria tende a diventare
meno obliqua.
Per campioni di dimensione 16,
la distribuzione della media
aritmetica tende ad essere
leggermente obliqua, mentre per
campioni di dimensione 32, la
distribuitone della media
aritmetica tende a seguire una
distribuzione normale.
31
A questo punto si possono utilizzare i risultati ottenuti dalle distribuzioni statistiche a
noi note (normale, uniforme, esponenziale e si vedrà poi –al verificarsi di
certe condizioni- binomiale e Poisson)
Conclusioni
1)- Quale che sia la forma, per la massima parte delle distribuzioni della
popolazione, la distribuzione campionaria della media aritmetica tenderà a seguire
una distribuzione approssimativamente normale se vengono selezionati campioni
di almeno 30 osservazioni.
2)- Se la distribuzione della popolazione tenderà ad essere discretamente
simmetrica, la distribuzione campionaria della media aritmetica sarà
approssimativamente normale se vengono selezionati campioni di almeno 15
osservazioni.
3)-Se la popolazione si distribuisce normalmente, la distribuzione campionari della
media aritmetica tenderà a seguire una distribuzione normale quale ( sia la
dimensione del campione.
Il teorema del limite centrale riveste ,pertanto, un ruolo molto importante quando
si utilizza l'inferenza statistica per trarre delle conclusioni intorno una
popolazione. Consente al ricercatore di fare dell'inferenza intorno media aritmetica
della popolazione, senza dover essere a conoscenza della forma specifica della
32
distribuzione della popolazione.
Formalizzazione del
Teorema del Limite Centrale
Sia Sn una variabile aleatoria somma di n variabili aleatorie indipendenti
Xi aventi ciascuna la stessa distribuzione di probabilità, speranza
matematica μ e varianza, al crescere di n, essa tende ad assumere una
distribuzione normale con media nμ e:
Sn  X 1  X 2    X n
Z
S n  n
n 
è
la
corrispondente
normale standardizzata
variabile
La distribuzione T di Student è:
- definita positiva
- dipende da n (numerosità campionaria ) per cui esistono infinite curve
tutte simmetriche ed asintotiche, più piatte della Normale (sono affette da
curtosi – sono platicurtiche o iponormali)
- per n che tende ad infinito la distribuzione T tende alla normale
In questo caso la statistica di riferimento sarà
t
x
ˆ x
La differenza con la statistica z  denominatore
1. Denominatore z = l’errore standard della media calcolato attraverso l’utilizzo
dello s.q.m. della popolazione con varianza della popolazione è nota.
2. Denominatore t = errore standard della media calcolato utilizzando la stima
dello scostamento quadratico medio della popolazione con varianza della
popolazione incognita.
Lo s.q.m. della popolazione è stimato utilizzando la statistica campionaria
scostamento quadratico medio campionario corretto.
Il teorema del limite centrale risulta valido per n sufficientemente grande, qualunque sia la
distribuzione della variabile. E’ possibile generalizzarlo al caso di variabili aleatorie con
distribuzione di probabilità qualsiasi, alla sola condizione che ciascuna di esse abbia media
e varianza finite e non risulti predominante rispetto alle altre.
Se le variabili hanno distribuzione normale con media e varianza σ allora la variabile media
campionaria ha sempre distribuzione normale, qualunque sia il valore di n . Se σ² non é nota,
è però comunque stimabile attraverso i dati campionari. Con campionamento con
ripetizione avremo:
ˆ 2  s 2 
n
n 1
 ˆ
Trasferendo la stima corretta nell’espressione
Da cui
1
n
s
ˆ x  s  

n n 1
n 1
n
n 1
 s
x 

n
otterremo
̂
n
o
sˆ
n
con campionamento senza ripetizione tenendo presente il fattore di correzione
per la varianza stimata su dati campionari per campioni estratti senza ripetizione
e considerando la varianza nota avremo
x 

n

N n
N 1
Quando la varianza non è nota l’espressione diventa
In cui
n N 1
sˆ  s 

n 1 N
1
̂ x  s

n
n

n 1
N 1

N
sˆ
N n
ˆ x 

N 1
n
N n
1
N n
s

N 1
n 1
N
36
Metodi di stima
Puntuale
Si stima mediante
la statistica di un campione
̂  
Stima
Intervallo
di confidenza
Intervallo entro il quale
cade Θ

Metodi di stima
La stima puntuale non ci dà la possibilità
di conoscere la probabilità di errore. Essa
presenta un errore dovuto al fatto che si
rileva un solo campione e non tutta la
popolazione. Tale errore, inoltre, non è
valutabile.
Stima per intervallo: talvolta, si
preferisce determinare un intervallo (a-b)
in base alle osservazioni campionarie.
Tale intervallo appartiene allo spazio del
parametro della popolazione, entro cui
esso cade con una certa prefissata
probabilità.
Nell’intervallo di confidenza con un prefissato rischio di errore α, cade il parametro incognito
della popolazione:
(a b) = limiti di confidenza
(a – b)= intervallo di confidenza = d.
L’errore è l’area esterna ad a e b
Il parametro incognito può essere esterno all’intervallo (a-b) sia per eccesso
che per difetto  la probabilità di errore va ripartita sulle due code della
distribuzione dello stimatore  α/2 può essere la probabilità che il
parametro incognito sia minore di a oppure maggiore di b:
Pr(Θ≤ a)= α/2
Pr(Θ≥b)= α/2
1. (1- α): livello di confidenza  probabilità che il parametro da stimare sia
interno all’intervallo (a-b). L’incertezza è dovuta al fatto che si lavori sul
campione invece che sulla popolazione
2. Pr(1-α)=Pr(a<Θ<b)  c.d. intervallo centrato: deve essere alta ma non pari ad 1
altrimenti non si fa inferenza perché si lavorerebbe con eventi certi e non
probabili.
3. A parità di α, più è piccolo l’intervallo (a-b) più è precisa la stima.
Intervalli di confidenza
(a-b): c.d. “intervallo di confidenza”, intervallo
nel quale, cioè, si è confidenti possa cadere il
parametro della popolazione
Si può costruire un intervallo di confidenza per qualsiasi parametro
Volendo stimare µ (la media della popolazione, e cioè il parametro incognito da
stimare), ricaviamo l’intervallo che contiene µ con Pr=1-α
La distribuzione campionaria della media, ricorrendo le condizioni dettate dal
teorema del limite centrale, segue una legge Normale e come tale standardizzabile,
quindi la statistica di riferimento sarà:
z
x
x
avendo fissato il rischio di errore α si tratterà di considerare tutti i valori compresi
tra:
 z 
2
x
x
 z
2
Moltiplicando per tutti i membri della disuguaglianza
 z    x     x  z    x 
2
2
e aggiungendo a destra e a sinistra la media campionaria
 x  z    x     x  z    x 
2
2
Concretamente
Fissando α = 0.05 e ricordando che la stima può essere errata sia per difetto che per
eccesso, bisogna individuare quei valori di zα/2 che delimitano l’intervallo di
confidenza.
Essendo l’area sottesa alla curva che descrive l’andamento dello stimatore, media
campionaria, uguale ad 1, l’area interna all’intervallo di confidenza (1–α) sarà
uguale a 1-0.05= 0.95. Tenuto conto che la probabilità di errore che delimita
l’intervallo di confidenza. :
0.95/2= 0.475
Ipotizzando di utilizzare una distribuzione Normale alla Probabilità (area) pari a
0.475 si associa il valore ±1,96.
Graficamente
Area pari ad 1-α
α
0
z
Area pari ad 1-α
α/2
α/2
-z
0
+z
Distribuzione campionaria
della media
La distribuzione campionaria della media è standardizzabile attraverso
l’applicazione della seguente formula
z
x
x
nel caso si verifichi che:
 la dimensione campionaria sia sufficientemente grande n > 30;
 sia nota la varianza della popolazione;
 il campionamento sia avvenuto con ripetizione,
 la costruzione dell’intervallo di confidenza è di immediata e facile soluzione.
Se permangono le condizioni 1 e 2 ed il campionamento avviene senza ripetizione o in
blocco, nella costruzione dell’intervallo di confidenza bisogna tenere conto di tale
circostanza.
Nel calcolo dell’errore standard (denominatore) si dovrà considerare il fatto che il
campionamento sia stato effettuato senza ripetizione o in blocco. Pertanto, pur
rimanendo inalternata la formula della standardizzata
z
x
x
la distribuzione avrà i seguenti valori:
E x   
x 

n
2  N n
 


N n
N 1
2
x
n  N 1 
In presenza di piccoli campioni e/o di mancata conoscenza della varianza della
popolazione, la distribuzione campionaria della media segue una legge T di
Student con n–1 gradi di libertà.
I valori caratteristici sono:
E x   
ˆ x 
s
n
1
⇒in cui s  s
da cui
n 1
n
n
s
n
n 1
 ˆ x 
s
n 1
Si ricordi che s è lo scostamento quadratico medio campionario non corretto è:
 (x  x)
2
i
n
che per essere uno stimatore centrato di σ deve essere corretto
s
n
n 1
Se il campionamento avviene senza ripetizione o in blocco i valori caratteristici
della distribuzione campionaria della media sono:
E x   
ˆ x 
s
n
N n
N 1
ss
N 1
n 1
N
n

dopo alcune semplificazioni si avrà:
s
n
N -n
1

N 1
n
n
N 1 N n
s
n 1
N
N 1
ˆ x  s
1
N n

n 1
N
Esempio
Un campione di 50 famiglie dichiara la spesa media mensile per divertimenti. La
media campionaria è
x  € 45
Si sa che la varianza, calcolata in indagini passate è di € 128. Assumendo una
distribuzione normale della popolazione si determini un intervallo di
confidenza al 90% per la spesa media di tutte le famiglie.
Sia α = 0,10 da cui α/2 = 0,05 z0,05 = 1,645.
Con la normalità della popolazione ,la Distribuzione campionaria della media
Ha i seguenti parametri:
E (x )  
x 

n
Svolgimento
P( x  z    x    x  z    x )  1  
2

x 
n
2
P( x  z   x    x  z   x )  0,90
2
2
128
128
P(45  1,645
   45  1,645
)  0,90
50
50
P(45  2,632   45  2,632)  0,90
P(42,368   47,632)  0,90
I gradi di libertà
I concetto di “gradi di libertà” è una nozione che occupa un posto
particolare preminenza nei problemi di inferenza statistica ed è,
quindi, opportuno cercare di afferrarne il significato.
Assumiamo, per esempio che l’analisi di un materiale ha portato i
seguenti risultati relativi alla % in peso del componente M
I valori che compaiono nella prima colonna della tabella sono stati ottenuti analizzando
porzioni di materiali rilevate secondo regole ben precise. Si tratta di valori estratti dalla
popolazione con un campionamento casuale e che sono indipendenti tra di loro. Questo
significa che non è possibile, conoscendo il primo valore, predire il secondo, o il terzo e
così via. In generale, la conoscenza di un certo numero di dati non ci consente di
avanzare alcuna ipotesi su quelli che seguono.
Dati
Scarti
70,5
0,39586
0,2916
0,007
0,2951
0,057
0,2916
0,007
0,309
-0,143
0,3167
-0,33
0,3152
-0,053
0,3001
0,09513889
0,2917
0,007
0,316
-0,043
Alcune precisazioni
Il discorso è diverso se consideriamo gli scarti dalla media: la loro somma è zero
(prima proprietà della media aritmetica).
Non disponiamo, tra gli scarti, di dieci valori indipendenti fra di loro, ma solo di
nove; di conseguenza, nove sono i gradi di libertà della serie di scarti.
Come mai, passando dai singoli dati agli scarti dalla media si perde un grado di
libertà?
In pratica è come, se tra i dieci dati a nostra disposizione, uno corrispondesse al
valore vero del contenuto percentuale di M e gli altri nove riflettessero
l’effetto di fattori aleatori di variazione sulle misure.
E’ opportuno sottolineare che il numero dei gradi di libertà viene usato, in questo
caso specifico, per stimare la varianza della popolazione.
Perciò nei problemi di stima, quando si parla di “numero dei gradi di libertà della serie
di misure” si deve correttamente intendere “il numero dei gradi di libertà della serie di
misure disponibili per la stima del parametro”.
Abbiamo, infatti, visto che i gradi di libertà sono 10 se consideriamo le osservazioni
e 9 se ci riferiamo agli scarti dalla media.
L’esigenza di contare unicamente i valori indipendenti fra di loro si presenta in
molti problemi di inferenza statistica.
E’ vero, infatti, che la quantità di informazioni cresce al crescere del numero delle
osservazioni, ma è altrettanto vero che se un osservazione non è indipendente dalle
altre, l’informazione che essa fornisce è già contenuta nelle altre; è, quindi, logico
non contarla tra gli elementi a disposizione per effettuare i calcoli.
In sintesi
1. il numero dei gradi di libertà di un parametro statistico
corrisponde al numero dei valori, indipendenti tra loro,
usati per calcolare il parametro in questione;
2. non sempre il numero dei gradi di libertà di una serie di
osservazioni è dato dal numero delle osservazioni
diminuito di uno;
3. a seconda del parametro che si deve stimare, il numero dei
gradi di libertà può essere n-1 ; n – 2 ; n – 3 e così via.
Per potere fare inferenza sui parametri si deve avere a disposizione:
• le osservazioni che costituiscono il campione,
• gli altri parametri.
Se questi ultimi non sono noti (come ad esempio, la varianza della popolazione) si
ricorre alle loro stime, che si ricavano dai dati campionari.
Possiamo allora dire che, per un dato parametro, il numero dei gradi di libertà (g.l.
oppure d.f. dall’inglese) è dato dal numero delle osservazioni (n=dimensione
campionaria) diminuito del numeri (k) delle stime dei parametri della popolazione
che contribuiscono al calcolo del parametro considerato.
In generale, g.l. = n – k. Infatti nel caso della varianza da stimare si ricorre la
stima della media della popolazione e quindi k=1.
Determinazione della numerosità campionaria
Distribuzione campionaria
delle frequenze relative
Si consideri una popolazione con distribuzione binomiale e si dividano i suoi
elementi in funzione del fatto che posseggano e non posseggano una
determinata caratteristica (modalità). Si individui con il termine successo il
possesso o la presenza della modalità indicata e con insuccesso l’assenza allora
avremo:

presenza della modalità (successo), probabilità: p

assenza della modalità (insuccesso), probabilità: q= 1-p
In un campione di n elementi (prove) avremo media = np e s.q.m. =
npq
Si consideri la distribuzione campionaria delle frequenze dei successi (distribuzione
campionaria delle frequenze).
In un campione di n elementi f rappresenta la frequenza dei successi: in generale f è
la variabile aleatoria campionaria. Allora, in base al teorema del limite centrale
per popolazioni normali
o per campioni con numerosità superiore a 30 e
tendenti all’infinito, la distribuzione campionaria delle frequenze tende ad una legge
normale per
f - np fr - p
z

npq
pq
n
Le differenze tra le due posizioni (A e B) sono:
1. Al numeratore di B compaiono le frequenze relative.
2. Compare p al posto del numero medio di successi np.
I valori caratteristici della distribuzione B saranno:
Np  p
p 
pq
n
z
Fr  p
pq
n
Sarà possibile determinare
Pr  z  z  z   1   
2
2





Fr

p
da cui Pr  z 
 z   1   

2
2
pq


n


da cui per l ' invertibilità della z , abbiamo :
Fr  z
2
pq
 p  Fr  z
2
n
pq
n
Esempio
n = 300 – proporzione campionaria=0,23 – margine d’errore=0,05
1-0,02=0,98  0,98:2=0,49.
Dalle tavole  ad un’area pari a 0,49 è associato un valore di z pari a 2,33.
Avendo p (= proporzione campionaria) = 0,23  q=(1- 0,23)=0,77.
L’intervallo di confidenza formale sarà:
p  z 
2
p(1  p)
p(1  p)
   p  z 
2
n
n
Nel nostro caso, avremo, quindi:


0,231  0,23 
0,231  0,23 
  p  0,23   2,33

0,23   2,33



300
300




0,23  2,33 * 0,024  p  0,23  2,33 * 0,024
0,23  2,33 * 0,056  p  0,23  2,33 * 0,056  0,174;0,286
Esercizi
Di seguito, vengono riportati una serie di links che rinviano a fogli di
lavoro Excel, nei quali sono stati sviluppati esercizi sul tema trattato in
questa lezione.
Ogni esercizio reca un foglio di commento ed uno di svolgimento.
Si noti, inoltre, che ogni esercizio è impostato con formule predefinite. Si
consiglia, quindi, dopo un attento studio della materia, di cimentarsi
nella soluzione di altre tracce e, successivamente, di inserire i propri dati
all’interno del foglio di lavoro per verificare la correttezza dei risultati
ottenuti.
Esercizio 1
Esercizio 2
Esercizio 3
Esercizio 4
Con varianza (σ²) incognita
camp.
20-20
20-21
20-22
20-23
20-24
21-20
21-21
21-22
21-23
21-24
22-20
22-21
22-22
22-23
22-24
23-20
23-21
23-22
23-23
23-24
24-20
24-21
24-22
24-23
24-24
Totale
E (s )  1
2
 2 Fr 50

2
n
25
x
20
20,5
21
21,5
22
20,5
21
21,5
22
22,5
21
21,5
22
22,5
23
21,5
22
22,5
23
23,5
22
22,5
23
23,5
24
2
s
0
0,25
1
2,25
4
0,25
0
0,25
1
2,25
1
0,25
0
0,25
1
2,25
1
0,25
0
0,25
4
2,25
1
0,25
0
25
σ
0
0,5
2
4,5
8
0,5
0
0,5
2
4,5
2
0,5
0
0,5
2
4,5
2
0,5
0
0,5
8
4,5
2
0,5
0
N=5
dimensione della
popolazione
μ= 22
σ² = 2
n=2
Nn=52=25
dimensione del campione
universo campionario di
dimensione 2
E ( x )    22
2 2
 
 1
n 2
2
x
σ
Fr
σ*Fr
0
5
0
0,5
8
4
2
6
12
4,5
4
18
8
2
16
25
50
Esempio
camp
x
s2
20-21
20,5
0,25
0,4
20-22
21
1
1,6
20-23
21,5
2,25
3,6
20-24
22
4
6,4
ŝ 2
21-20
20,5
0,25
0,4
21-22
21,5
0,25
0,4
21-23
22
1
1,6
21-24
22,5
2,25
3,6
22-20
21
1
1,6
22-21
21,5
0,25
0,4
22-23
22,5
0,25
0,4
22-24
23
1
1,6
23-20
21,5
2,25
3,6
23-21
22
1
1,6
23-22
22,5
0,25
0,4
Distribuzione dei voti medi calcolati su 20 campioni di
dimensione 2.
ŝ 2
Fr
σ2*Fr
0,4
8
3,2
1,6
6
9,6
3,6
4
14,4
6,4
2
12,8
40
E ( s 2 )  1,25
 2 Fr 40
E ( ) 
 2
n
20
2