Sintesi didattica

STATISTICA INFERENZIALE
Introduzione
L’insieme di tutte le unità statistiche che compongono il fenomeno collettivo considerato costituisce
l’universo statistico o, semplicemente, universo.
L’insieme costituito soltanto da una parte di tutte le unità statistiche che compongono il fenomeno
collettivo considerato rappresenta il campione statistico o, semplicemente, campione.
Se N è il numero delle unità statistiche dell’universo e n è il numero delle unità statistiche del campione il
rapporto
è detto tasso di campionamento.
La statistica inferenziale è quella parte della statistica che sostituisce all’analisi di un dato
universo(intera popolazione) quella di un campione tratto da esso precisando al contempo il grado di
attendibilità con il quale le conclusioni tratte per il campione possono essere estese all’universo.
In un’indagine di statistica inferenziale bisogna:
1. Individuare il carattere e la popolazione di riferimento
2. Scegliere il tipo di campionamento
3. Scegliere i parametri
4. Formulare il questionario
5. Somministrare il questionario
6. Raccogliere i dati
7. Calcolare i parametri del campione
8. Estendere i parametri del campione all’intera popolazione.
1. Individuare il carattere e la popolazione di riferimento
Il passo iniziale consiste nella scelta della popolazione di riferimento: l’universo statistico.
Si fa osservare che un’indagine statistica condotta su un universo finito può essere globale o
campionaria, mentre quella condotta su un universo infinito è sempre campionaria.
2. Scegliere il tipo di campionamento
Un metodo che è possibile utilizzare per la scelta del campione è il campionamento casuale
semplice.
Le caratteristiche essenziali di un campionamento casuale semplice sono:
 ogni unità della popolazione ha uguale probabilità di far parte del campione
1
A cura della prof.ssa Oliva
 ogni campione di stessa ampiezza ha la stessa probabilità di essere formato.
Un metodo semplice per operare tale campionamento consiste nel numerare tutte le unità della
popolazione, mettere in un’urna tante palline numerate, tutte uguali tra loro, quante sono le unità
della popolazione e quindi sorteggiare da tale urna le palline per formare il campione.
Nella formazione del campione con il campionamento casuale semplice si possono verificare due
diverse circostanze:
 che le unità statistiche estratte siano rimesse nell’universo statistico (estrazione
bernoulliana o con ripetizione);
 che le unità statistiche estratte non siano rimesse nell’universo statistico (estrazione in
blocco).
L’insieme di tutti i campioni estratto si chiama spazio dei campioni.
Esempio
Nel primo caso si tratta di disposizioni con ripetizione e il numero di raggruppamenti è dato da
,
( )
=
(estrazione con reimmissione in cui conta l’ordine degli elementi)
Nel secondo caso si tratta di combinazioni semplici e il numero di raggruppamenti è dato da
,
=
!
!(
)!
(estrazione senza reimmissione in cui non conta l’ordine degli elementi)
Nel terzo caso (poco usato) si tratta di disposizioni semplici e il numero di raggruppamenti è dato da
,
=
∙ ( − 1) ∙ … … … .∙ ( −
+ 1)
(estrazione senza reimmissione in cui conta
l’ordine degli elementi)
2
A cura della prof.ssa Oliva
N.B. esiste anche il caso di estrazione con reimmissione in cui non conta l’ordine degli elementi e il
numero di raggruppamenti è dato da
,
( )
=
∙(
)∙……….∙ (
!
)
ma è poco usata e non considerata nell’esempio.
Es. pag. 1468 n. 4 - 7 e 1470 da 11 a 14.
3. Scegliere i parametri
I parametri da studiare sono scelti in relazione alla natura e alla finalità della ricerca.
Ripetere:
 frequenza assoluta, relativa e percentuale
 media aritmetica semplice, ponderata e per classi
 varianza semplice e ponderata
 deviazione standard o scarto quadratico medio semplice e ponderato
4. Formulare il questionario
Il questionario deve essere concepito in modo tale che la sua compilazione fornisca le informazioni
di interesse in modo univoco, predisponendo eventuali menu a tendina da cui selezionare le tutte
possibili risposte.
5. Somministrare il questionario
Può avvenire con diverse modalità utilizzando il supporto cartaceo o preferibilmente via web.
E’ consigliabile effettuare una somministrazione di prova per verificare la correttezza e l’efficacia del
questionario.
6. Raccogliere i dati
La raccolta dei dati deve essere eseguita per una durata temporale prestabilita.
7. Calcolare i parametri del campione
Distribuzione della media campionaria
3
A cura della prof.ssa Oliva
Se non rimettiamo nell’urna la pallina estratta si tratta di combinazioni semplici e il numero di
raggruppamenti è dato da
,
=
!
!(
)!
= =6
E i campioni sono: (6,12), (6,18), (6,24)(12,18), (12,24), (18,24)
9 12
15
18
+ 12 ∙
1
6
21
P
μ =9∙
1
6
σ = (9 − 15) ∙
(21 − 15) ∙
=
+ 15 ∙
2
6
+ 18 ∙
+ (12 − 15) ∙
1
6
+ 21 ∙
1
6
= 15
+ (15 − 15) ∙
+ (18 − 15) ∙
+
= 15
4
A cura della prof.ssa Oliva
Conclusioni
Effettuare le opportune verifiche degli esempi svolti.
Di seguito, tenendo in considerazione più esempi, si mostra come la distribuzione della media
campionaria tende ad una distribuzione normale.
5
A cura della prof.ssa Oliva
6
A cura della prof.ssa Oliva
Questi esempi dimostrano che aumentando la numerosità del campione, la varianza della media
campionaria che è sempre inferiore alla varianza della popolazione, tende a diminuire.
Questo significa che le medie campionarie hanno una minore dispersione e diventano più strette
intorno al valore medio (caratteristica della distribuzione normale).
Concludendo: aumentando la numerosità del campione, aumenta la probabilità che la media di un
campione differisca di poco dalla media della popolazione; in genere si preferisce considerare
campioni con n>30(grandi campioni, nella generalità per indagini affidabili almeno n=100).
Es. pag. 1472 n. 17-18
Distribuzione della frequenza campionaria o della proporzione - F
Supponiamo di avere un universo composto dai seguenti elementi di tipo qualitativi:
{ . . } ed N=3
relativamente al quale indichiamo un carattere specifico su cui effettuare l’indagine statistica(es.
essere diplomato).
Costruiamo la seguente tabella:
Termine
Frequenza assoluta
A
1
B
0
C
1
in cui supponiamo che:

il primo elemento A sia diplomato e quindi ad esso assegniamo la frequenza 1,

il secondo B non sia diplomato e quindi ad esso assegniamo la frequenza 0,

il terzo C sia diplomato e quindi ad esso assegniamo la frequenza 1.
Osserviamo che la frequenza relativa del carattere indicato dell’intero universo, che indichiamo con
p, è:
=
2
3
Ricordando che esiste una relazione che lega il concetto di frequenza con quello di probabilità(vedere
allora per calcolare la varianza utilizziamo la formula:
σ = p ∙ q e quindi, essendo q l’evento contrario di p, esso vale q = 1 − p =
appendice (*) Ghisetti e Corvi – Statistica 3 ),
e quindi
σ = ∙
=
(e la deviazione standard è σ =
p∙q σ=
= 0,47)
I CASO - Estraiamo con reimmissione i campioni costituiti da 2 elementi:
Il numero dei campioni è:
D
,
( )
=3 =9
costruiti come di seguito riportati:
AA, AB, AC,
7
A cura della prof.ssa Oliva
BA, BB, BC
CA, CB, CC
Costruiamo la seguente tabella:
Frequenza
Termine
campionaria
Frequenza
indagato
del
=
carattere
all’interno
del
Frequenza
campione
relativa
del
rispetto
allo
spazio dei campioni
campione
BB
AB,
BC,
BA, CB
AC, CA,
CC, AA
0
=0
2
1
2
1
9
4
9
2
=1
2
4
9
La distribuzione della frequenza campionaria (o della proporzione) è:
1
,
2
0,
1
di pesi:
1
,
9
4
,
9
4
9
Il valore medio della distribuzione della frequenza campionaria è:
μ =0∙
+ ∙
+1∙
=
+ =
=
Si osserva che il valore μ ottenuto è uguale al valore di frequenza relativa p calcolato per
l’intero universo.
σ = 0−
+
=
∙
+
−
∙
+ 1−
∙
=
∙ +
∙ + ∙ =
+
=
Si osserva che il valore σ
ottenuto non è uguale a quello
calcolato per l’intero universo.
Il valore della varianza si può trovare anche con la formula:
σ =
.
σ =
.
= ∙ =
II CASO - Estraiamo senza reimmissione i campioni costituiti da 2 elementi:
Il numero dei campioni è:
8
A cura della prof.ssa Oliva
!
=
,
)!
!(
=3
costruiti come di seguito riportati:
AB, AC, BC
Costruiamo la seguente tabella:
Frequenza
Termine
Frequenza
indagato
campionaria
del
=
carattere
all’interno
del
Frequenza
campione
relativa
del
rispetto
allo
spazio dei campioni
campione
2
=1
2
1
2
AC
AB, BC
1
3
2
3
La distribuzione della frequenza campionaria (o della proporzione) è:
1,
1
2
di pesi:
1
,
3
2
3
Il valore medio della distribuzione della frequenza campionaria è:
μ =1∙
+ ∙
=
+ =
Si osserva che il valore
μ
ottenuto è uguale al valore di frequenza relativa p calcolato per
l’intero universo.
σ =
1−
∙
+
Si osserva che il valore σ
−
∙
= ∙ +
∙
=
ottenuto non è uguale a quello σ
+
=
=
calcolato per l’intero universo.
Il valore della varianza si può trovare anche con la formula:
σ =
.
∙
σ =
.
∙
=
Es. pag. 1478 n. 37-38
9
A cura della prof.ssa Oliva
8. Estendere i parametri del campione all’intera popolazione
Obiettivo di questo paragrafo è far comprendere come, avendo a disposizione un unico campione,
sia possibile considerare i parametri ottenuti da esso, ad es. media aritmetica, frequenza come
parametri validi anche per l’intera popolazione quando quest’ultimi sono ignoti.
Per fare ciò introduciamo innanzitutto il concetto di stimatore e poi definiremo il concetto di stima.
Stimatori (cenni).
10
A cura della prof.ssa Oliva
Invece la varianza campionaria
σ
è uno stimatore non corretto di
σ
ed esso viene corretto
mediante la seguente formula:
s =σ ∙
n
n−1
Il valore della varianza così ottenuto è uguale a quello della varianza della popolazione, infatti
riprendendo l’esempio della distribuzione della media campionaria:
s = 22,5 ∙
che è lo stesso valore della varianza dell’universo
= 45
σ .
Se l’estrazione dei campioni non è bernoulliana, la formula di correzione cambia, ma anche in alcune
fonti (Schaum e Trovato) si considera come unica formula di correzione quella sopra scritta.
Stima puntuale.
La stima puntuale è semplice da calcolare, ma talvolta può portare a valutazioni errate.
Per effettuare una stima puntuale di un parametro dell’universo, si procede nel modo seguente:

si calcola il valore dello stimatore prescelto con i dati del campione e lo si associa a quello
dell’universo; nel nostro studio, la media aritmetica del campione ̅ diventa stima della media
aritmetica dell’universo,
la frequenza del campione
diventa stima della frequenza
dell’universo;

nel caso della stima della media aritmetica dell’universo, si calcola un valore che indichi il
grado di incertezza della stima fatta come segue:
o
se si conosce, per esperienza, lo scarto quadratico medio dell’universo
varianza dell’universo
σ ,
σ
o la
il grado di incertezza si chiama errore di campionamento
ed è fornito dalle formule:
σ =
o
√
(estrazione bernulliana)
σ =
√
∙
se si conosce lo scarto quadratico medio del campione
s
(estrazione in blocco)
s o la varianza del campione
, il grado di incertezza si chiama stima dell’errore di campionamento ed è fornito
dalle formule:
s =
√
(estrazione bernulliana)
s =
√
∙
(estrazione in blocco)
11
A cura della prof.ssa Oliva
dove s è la radice quadrata della varianza corretta nel modo seguente:
s = s ∙
n
n−1
(alcuni testi differenziano il caso di correzione di varianza di un campione bernoulliano:
̂ =
∙
da quello di correzione di varianza di un campione estratto in blocco:
̂ =

∙
∙
)
nel caso della stima della frequenza dell’universo, si calcola un valore che indichi il grado di
incertezza della stima fatta come segue:
o
si calcola lo scarto quadratico medio del campione
s
e lo si utilizza per calcolare il
grado di incertezza che si chiama stima dell’errore di campionamento ed è fornito
dalle formule:
s =
√
(estrazione bernulliana)
s =
√
∙
(estrazione in blocco)
Per comprendere meglio i procedimenti descritti si riportano i seguenti esempi.
Es.1
12
A cura della prof.ssa Oliva
Es.2
Nell’esempio seguente viene fornito lo scarto quadratico medio dell’universo, quindi non c’è bisogno
di eseguire correzioni.
Es. pag. 1481 n. 49-50-51
Es.3
13
A cura della prof.ssa Oliva
Es.4
Es. pag. 1481 n. 52-53-54
Stima intervallare.
In alcune circostanze risulta più sicuro determinare un intervallo, detto anche intervallo di fiducia o di
confidenza, che contenga con una determinata probabilità il valore del parametro richiesto che rimane
ignoto.
Stima intervallare della media.
PASSO 1
Procediamo innanzitutto facendo un esempio di come si calcola la probabilità associata a un
intervallo.
Dati noti:





media dell’universo
varianza dell’universo
numerosità del campione
estrazione bernoulliana
intervallo che contiene il parametro prescelto(in questo caso la media campionaria)
Dati da calcolare:

valore della probabilità associata all’intervallo
14
A cura della prof.ssa Oliva
Ricordiamo che per distribuzione normale (in appendice) si intende una distribuzione che
rappresentata graficamente assomiglia ad una campana con le seguenti caratteristiche:
 assume il massimo valore in corrispondenza della media
 presenta due punti di flesso in corrispondenza dei valori: media ± deviazione standard
 è asintotica rispetto all’asse delle ascisse
come nell’esempio seguente:
Ricordiamo che standardizzare una distribuzione normale significa trasformarla in una distribuzione
ancora normale con le seguenti caratteristiche:
 assume il massimo valore in corrispondenza di x= media = 0
 presenta i due punti di flesso in corrispondenza dei valori: ± 1
come nell’esempio seguente:
Tale trasformazione si effettua utilizzando la formula Z sopra scritta e consente di utilizzare
un’apposita tavola per il calcolo della probabilità.
Quindi nel nostro caso particolare partendo dalla formula :
(34,5 <
< 35,5)
dove 34,5 e 35,5 sono gli estremi del intervallo considerato che potremo indicare con
15
A cura della prof.ssa Oliva
(
<
<
)
Dobbiamo trasformare questa formula in una equivalente relativamente al valore di probabilità,
utilizzando la trasformazione Z che trasforma la nostra distribuzione normale in una equivalente
standardizzata:
(
<
<
)
16
A cura della prof.ssa Oliva
PASSO 2
Procediamo in maniera inversa alla precedente, fissiamo un valore di probabilità e determiniamo
l’intervallo che contenga il parametro prescelto con quella probabilità.
Tale probabilità la indichiamo con 1- α e lo chiamiamo livello di confidenza o fiducia, mentre con α
indichiamo il rischio dell’indagine campionaria.
Dati noti:





media dell’universo
varianza dell’universo
numerosità del campione
estrazione bernoulliana
valore della probabilità associata all’intervallo che contiene il parametro prescelto (media del
campione)
Dati da calcolare:

l’intervallo che contiene il parametro prescelto (media del campione)
17
A cura della prof.ssa Oliva
18
A cura della prof.ssa Oliva
Quelli più utilizzati sono riportati nella seguente tabella anche a scopo dimostrativo per imparare a
calcolare i valori esatti utilizzando la tavola di Sheppard in appendice.
prob. in %
= 1- α
prob. in freq. rel prob. in freq. rel/2 val1 tab val2 tab approx
68,27%
0,6827
0,34135
0,3413
80%
0,8000
0,4000
0,3997
0,4015 0,3997
90%
0,9000
0,4500
0,4495
0,4505
95%
0,9500
0,4750
95,45%
0,9545
0,4772
99%
0,9900
0,4950
0,4949
0,4951
99,74%
0,9974
0,4987
99,99%
0,9999
0,49995
1
1,28
(1,64+1,65)/2=1,645
1,96
2
(2,57+2,58)/2=2,575
3
3,87*
*(in altra tavola con 5 cifre
decimali)
PASSO 3
Dati noti:





media del campione
varianza del campione
numerosità del campione
estrazione bernoulliana
valore della probabilità associata all’intervallo che contiene il parametro prescelto(media
dell’universo)
Dati da calcolare:

l’intervallo che contiene il parametro prescelto(media dell’universo)
19
A cura della prof.ssa Oliva
Se non è nota la varianza o la deviazione standard dell’intera popolazione bisogna correggere la
varianza o la deviazione standard campionaria e sostituire il valore trovato s al posto di σ nelle formule
sopra indicate.
Attenzione:

se l’estrazione del campione non è specificata la si considera generalmente bernoulliana, se
invece viene specificata come estrazione quella in blocco allora nella formula il rapporto
va
√
moltiplicato per il rapporto

se il campione ha un numero di elementi minore o uguale a 30, si tratta di un piccolo campione,
allora si utilizza un procedimento quasi analogo a quello descritto, tenendo però presente non la
distribuzione gaussiana, ma quella T di Student. Tale procedimento non è sviluppato in questa
trattazione.
Es. pag. 1483 n. 63
20
A cura della prof.ssa Oliva
Stima intervallare della frequenza.
−
∙
√
<
<
+
Effettuando gli opportuni cambiamenti e sostituendo a
−
−
∙
√
<−
∙
=1−
√
la frequenza relativa del campione
<− +
∙
√
:
=1−
otteniamo la formula:
−
∙
√
<
<
+
∙
, +
∙
√
=1−
da cui si ricava l’intervallo di interesse:
−
Se non è possibile calcolare
campionaria
√
∙
√
perché manca p, si sostituisce nella formula la deviazione standard
, come di seguito:
−
∙
√
<
<
+
∙
, +
∙
√
=1−
ottenendo l’intervallo:
−
√
∙
√
Attenzione:

se l’estrazione del campione non è specificata la si considera generalmente bernoulliana, se
invece viene specificata quella in blocco allora nella formula il rapporto
√
√
va
moltiplicato per il rapporto
21
A cura della prof.ssa Oliva
Nello studio della stima intervallare della frequenza ci si può chiedere qual è il massimo valore che può
assumere il rapporto
√
√
,
che di fatto rappresenta il grado di incertezza o errore che si accetta di
sopportare.
Ricordando che σ = p ∙ q (e che tale formula può essere utilizzata anche per calcolare la stima
dell’errore campionario) si osserva che il massimo valore che può assumere il rapporto si ottiene proprio
per p=0,5 (come si può facilmente verificare) pervenendo al seguente intervallo di fiducia:
E quindi, nell’esempio precedente, l’intervallo che tiene conto di un errore massimo è:
Es. pag. 1485 n. 75 -76- 77.
___________________________________________________________________________________
Bibliografia:
Zanichelli - Matematica.rosso
Tramontana – Matematica generale e applicata
Ghisetti e Corvi – Statistica 3
Collana Schaum Statistica
Testo di riferimento per gli esercizi:
Zanichelli Matematica.rosso, altri esercizi sono stati preparati su apposite schede.
Prerequisiti:
Distribuzioni di frequenze
Valori medi e variabilità
Calcolo combinatorio
Definizione di probabilità
Distribuzioni di probabilità - variabili casuali
Distribuzione gaussiana
22
A cura della prof.ssa Oliva
Appendice
(*) Ghisetti e Corvi – Statistica 3
da cui la media aritmetica risulta essere:
la varianza e lo scarto quadratico medio rispettivamente:
23
A cura della prof.ssa Oliva
Distribuzione gaussiana
24
A cura della prof.ssa Oliva
25
A cura della prof.ssa Oliva
Tavola di Sheppard
26
A cura della prof.ssa Oliva