OTTAVA UNITA’
Stime e inferenze
Come già accennato, nella statistica inferenziale la differenza tra popolazione e campione di una
popolazione gioca un ruolo essenziale. Ciò è sottolineato anche dalla nomenclatura usata. Le
elaborazioni proprie di un campione (media, moda, mediana, varianza, deviazione standard,
differenza interquartile, ecc.) sono denominate statistiche, mentre la vera media, moda, mediana,
varianza, deviazione standard, ecc., della popolazione, che spesso non conosciamo direttamente,
sono chiamate parametri. In più, per sottolineare questa differenza, si usano le lettere latine per le
statistiche, mentre si usano quelle greche per la popolazione. Anche per il numero delle unità
statistiche prese in considerazione si usa in genere la N (la N maiuscola) per indicare il numero
presente nella popolazione intera e n (la n minuscola) per indicare la dimensione o ampiezza del
campione.
Le statistiche che si possono elaborare a partire da un campione sono usate per stimare i parametri
di una popolazione. Conoscendo la media di un campione, possiamo stimare la media di una
popolazione; la deviazione standard di un campione fornisce un’idea della possibile deviazione
standard della popolazione. E così via. Questo processo è chiamato inferenza statistica. Vediamo
come funziona.
1) Se incontriamo per la prima volta un animaletto esotico la cui altezza è di 10 cm, è difficile
generalizzare la cosa dicendo: “dunque tutti questi animali sono alti 10 cm”. Tuttavia, ci si fa
un’idea ipotetica dell’altezza di altri esseri di questo tipo. Possiamo, un po’ avventurosamente,
pensare che la loro altezza media sia 10 cm, e l’altezza di altri esemplari di questo tipo di animali
sia distribuita in maniera normale. Ciò sta a dire che ce ne saranno di più alti e di più bassi, ma che
un certo addensamento delle altezze si può collocare intorno ai 10 cm. Questi pensieri derivano
dall’ipotesi che abbiamo circa la maggiore probabilità di incontrare alcune distribuzioni rispetto ad
altre meno comuni.
Già in queste condizioni possiamo confrontare tre possibili distribuzioni delle altezze proprie di
questo tipo di animali: A, B e C.
Fig.1 - Possibili forme di distribuzione delle altezze degli animali.
79
Le distribuzioni A e B sono certamente le meno probabili. Infatti la curva A suggerisce che
l’animaletto che stiamo vedendo sia più di 3 deviazioni standard sopra la media (cioè uno del
gruppo dei più alti che costituisce solo lo 0,15 % della popolazione). La curva B, d’altra parte,
implica che esso si trovi a meno due deviazioni standard sotto la media (cioè, uno del gruppo dei
più bassi che costituisce il 2,5 % della popolazione). Certo B è un po’ più probabile di A, ma tutte e
due sono assai meno probabili di C1, C2, C3. Tutte queste distribuzioni hanno media 10 cm, anche
se la dispersione nei tre casi è assai diversa: C1 indica una dispersione piccola, C2 media, C3 alta.
Fig.2 - Altre possibili forme di distribuzione delle altezze degli animali.
Anche se, a esempio, spostassimo un poco la curva C2 come in figura, le cose cambierebbero assai
modestamente. Rimarrebbe la tendenza a considerare più probabile una distribuzione che si
avvicina a quella normale.
2) All’improvviso il nostro animaletto esotico è raggiunto da altri quattro suoi simili, e la loro
altezza è 9,2, 9,6, 10,3 e 10,5 cm. A questo punto possiamo avanzare una nuova stima dei parametri
della popolazione. La media del nuovo campione, ora formato da cinque elementi, è 9,9 cm. Una
statistica non molto diversa dalla precedente, ma possiamo stimare su questa base la dispersione
della popolazione. La deviazione standard del nostro campione è di 0,5 cm. Ciò suggerisce il fatto
che solo pochi animali di questo tipo siano più bassi di 8,5 cm e più alti di 11,5 cm (cioè di più o
meno 3 deviazioni standard). La curva C2 appare ora assai più verosimilmente una buona
rappresentazione della distribuzione della popolazione costituita dai nostri animaletti esotici.
Cosa possiamo concludere da questo esempio? Che le nostre previsioni possono migliorare sulla
base delle nuove informazioni che possiamo raccogliere. Tuttavia, finché ci basiamo su campioni
della popolazione non potremo mai essere del tutto certi delle nostre affermazioni. Possiamo però
giungere a conclusioni che sono sempre più vicine alla situazione reale. Non solo, ma anche
indicare i margini di errore che le nostre previsioni hanno.
•
•
•
•
Riferendoci al nostro esempio, sulla base delle informazioni ora possedute, che probabilità
abbiamo di incontrare uno di questi animali che sia alto 12 cm?
E di incontrarne uno che sia alto 10,5 cm?
E uno che sia alto 8 cm?
In termini di probabilità soggettiva: qual è il nostro grado di fiducia nel verificarsi dell’evento
futuro di incontrare uno di questi animali alto 12, 10,5, 8 cm?
1. La logica della campionatura: la distribuzione delle medie campionarie
Supponiamo di aver misurato il ritmo delle pulsazioni cardiache di 50 studenti, che costituiscono la
nostra popolazione di riferimento e di aver trovato questi risultati.
80
89
85
82
77
82
68
64
81
90
88
92
79
86
83
79
74
77
71
81
79
76
96
90
73
94
65
80
87
80
82
77
70
71
78
66
83
85
72
81
78
75
80
62
81
74
87
80
78
75
72
Tab.1 - Pulsazioni cardiache registrate a 50 studenti.
L’ampiezza della distribuzione è compresa tra 62 e 96 battiti al minuto: 96 – 62 = 34.
Riassumiamo la statistica descrittiva di questa serie di dati, ottenuta mediante l’uso del programma
Excel.
Media
79,1
Intervallo
34
Mediana
79,5
Minimo
62
Moda
80,81
Massimo
96
7,6698
Somma
3955
Deviazione standard
Varianza
58,8265
Conteggio
50
Prendiamo ora 10 risultati a caso. E’ un campione della popolazione. La sua media è 78,6 battiti al
minuto.
Che cos’è un campione di una popolazione?
E’ una parte, o sottoinsieme, degli elementi statistici che costituiscono la popolazione. Esistono
molti modi per scegliere un campione. In primo luogo occorre deciderne l’ampiezza n, cioè il
numero di elementi da selezionare. Tale scelta può essere fatta soltanto a caso, nel senso di
selezionarli in modo che la probabilità di essere selezionati è uguale per tutte le unità statistiche
della popolazione: in questo caso il campione viene denominato casuale. Oppure può essere usato
un metodo più sistematico. A esempio, si possono dividere le unità della popolazione in gruppi di
uguale dimensione (magari presi da una lista, come l’elenco telefonico) e scegliere a caso un
elemento per ogni gruppo. Oppure si può tener conto di alcune caratteristiche della popolazione
(età, residenza, livello di studi, ecc.) e garantire che il campione sia rappresentativo in maniera
proporzionale delle articolazioni, o strati, della popolazione che corrispondono a queste
caratteristiche. Si tratta allora di un campione cosiddetto stratificato.
Se consideriamo altri quattro campioni della stessa dimensione presi a caso, ci si può aspettare che
si ottenga la stessa media per ognuno di essi?
Se lo pensiamo, saremo certamente frustrati. I quattro campioni aggiuntivi forniranno quattro medie
differenti. Consideriamo cinque campioni di dieci unità prese a caso dai dati precedenti. Possono
anche essere le cinque righe della serie di dati della tabella 1. Le medie dei cinque campioni sono:
78,6; 79,6; 78,0; 79,9; 79,4. Otteniamo così una nuova serie di dati: sono le medie dei campioni,
che hanno una loro variabilità e per le quali possiamo calcolare le differenti statistiche. La
variabilità tra le medie dei campioni è detta distribuzione campionaria delle medie.
81
Si può fare anche il conto di quanti campioni è possibile estrarre da una popolazione di N unità
statistiche. Nel nostro caso abbiamo 50 unità statistiche, i campioni di 10 unità estraibili possono
essere di due tipi: senza reinserimento e con reinserimento. Nel primo caso, se estraggo dieci unità
queste non possono essere più conteggiate; nel secondo caso le unità estratte possono essere
riconsiderate in una seconda estrazione.
Nel primo caso (estrazione casuale senza reinserimento o reimbussolamento) si ha comunque un
numero altissimo di possibili campioni.
La formula che consente di conteggiare tutti i possibili campioni estraibili da una popolazione di N
entità statistiche è quella che fornisce il numero di combinazioni semplici di N elementi presi a n a
n.
Il numero delle combinazioni possibili di N elementi presi in quantità n ogni volta in modo da non
conteggiarli più nel seguito è dato dalla formula
N!
N(N-1)(N-2)(N-3)…..1
----------- = -----------------------------------------------------n! (N-n)! n(n-1)(n-2)….1x(N-n)(N-n-1)(N-n-2)….1
Nel secondo caso (estrazione casuale con reinserimento o reimbussolamento) si ha intuitivamente
un numero ancora più grande di possibili casi.
Il numero delle combinazioni possibili di N elementi presi in quantità n ogni volta in modo da poter
conteggiare di nuovo un elemento già considerato (combinazioni con ripetizione) è dato dalla
formula
(N +n-1)!
(N + n - 1)(N + n -1 - 1)…..1
----------- = ---------------------------------------------n! (N-1)!
n(n-1)(n-2)….1x(N-1-1)(N-1- 2)….1
Normalmente si usa scegliere campioni come combinazioni semplici (senza ripetizione). In pratica,
come vedremo, ci si limita a scegliere casualmente n entità statistiche tra le N che costituiscono la
popolazione.
Da un punto di vista teorico è possibile pensare a tutti i campioni che possiamo estrarre da una certa
popolazione. Di tutti questi campioni possiamo calcolare le loro medie. Otteniamo così le cosiddette
medie campionarie. In formula si scrive: X . La distribuzione di queste medie che forma
assumerà? Essa assumerà approssimativamente la forma di una curva normale. Come mai? Nella
popolazione considerata i valori tendono a diventare sempre più scarsi a mano a mano che sono più
grandi o più piccoli della media. Così in un campione tratto da quella popolazione è più probabile
trovare valori simili in dimensione a quelli della media della popolazione che sono molto differenti
da essa. Così i campioni che includono valori vicini a quelli della media della popolazione tendono
a essere più numerosi di quelli che hanno valori distanti da essa. Viceversa, campioni la cui media è
simile a quella della popolazione sono probabilmente più frequenti di quelli la cui media è assai
differente da essa.
82
E’ assai facile verificare empiricamente mediante l’uso di un calcolatore (e di un programma di
calcolo statistico) che la media della distribuzione delle medie dei campioni tende a coincidere con
la media della popolazione, se i campioni sono di dimensione o ampiezza abbastanza elevata.
La deviazione standard della distribuzione delle medie campionarie viene chiamata errore
standard. Questa deviazione dalla media delle medie dei diversi campioni tende a diminuire
all’aumento della loro dimensione, fino a coincidere esattamente con la media della popolazione
quando il campione stesso coincide con la popolazione stessa. Invece, quando la dimensione dei
campioni è costante e uguale a n, mentre varia l’ampiezza della popolazione, all’aumento della
deviazione standard della popolazione corrisponde l’aumento della deviazione standard della media
delle medie campionarie (l’errore standard).
Inoltre, sia che la popolazione (e di conseguenza i suoi campioni) sia distribuita normalmente, sia
che non lo sia, le medie che calcoliamo per i campioni si distribuiscono approssimativamente
secondo la distribuzione normale; cioè, più sono grandi i campioni, più essa sarà vicina alla curva
normale. Più aumenterà l’ampiezza del campione (il numero di unità statistiche considerate per ogni
campione) più aumenterà tale approssimazione.
Queste considerazioni tendono a giustificare intuitivamente il teorema del limite centrale. Esso
afferma in primo luogo quanto segue.
Data una qualunque popolazione, la cui distribuzione assume una forma non specificata, al
crescere di n, cioè dell’ampiezza del campione, la distribuzione delle medie campionarie tende alla
distribuzione normale e la media delle medie tende alla media della popolazione.
Fig. 3 - Distribuzione delle medie campionarie con campioni di ampiezza 2, 4 e 30 di tre tipi di popolazione.
83
Si può fare a questo proposito una osservazione. In genere non si scelgono molti campioni per
condurre indagini sui parametri di una popolazione. Anzi, molto spesso si tratta di uno solo. Che
fiducia possiamo avere sui risultati che otteniamo? L’errore che possiamo fare è in genere
abbastanza piccolo. Vedremo in seguito come possiamo calcolarlo con precisione.
Diversa è la situazione per quanto riguarda la deviazione standard. Questa in genere sarà più piccola
di quella della popolazione. In altre parole la distribuzione delle medie campionarie sarà in generale
meno dispersa di quella della popolazione e anche di un singolo campione. La rappresentazione di
questa situazione è illustrata dalla figura seguente. La curva A rappresenta la distribuzione della
popolazione, la curva C rappresenta la distribuzione del campione, la cui media è un po’ differente
da quella della popolazione, la curva B rappresenta la distribuzione delle medie campionarie.
Fig. 4 - Differenza tra la distribuzione della popolazione e quella delle medie campionarie.
Per questo motivo e per distinguere la deviazione standard di un singolo campione o di una intera
popolazione da quella della distribuzione campionaria, è stata introdotta la denominazione di errore
standard per la deviazione standard della distribuzione delle medie campionarie.
Anche nel caso della varianza e dell’errore standard esistono precise indicazioni contenute
nell’enunciato del teorema del limite centrale, che però non è possibile giustificare in queste
dispense1.
La varianza delle medie campionarie è uguale alla varianza della popolazione divisa per n
(ampiezza del campione) e l’errore standard della media campionaria è uguale alla deviazione
standard della popolazione diviso per la radice quadrata di n.
Ecco le formule relative al teorema del limite centrale, che verranno utilizzate nel seguito delle
dispense.
Spesso si usa la seguente formula per stimare s ? partendo dalla varianza del campione.
Quando il campione ha ampiezza 1, l’errore standard è uguale alla deviazione standard della
popolazione, poiché ogni punteggio grezzo coincide con un valore medio. Quando n diventa molto
1
Chi fosse interessato può consultare G. Dall’Aglio, Calcolo delle probabilità, Bologna, Zanichelli, 1988.
84
grande e tende all’infinito, l’errore standard tende a zero e la media del campione coincide con la
media della popolazione, cioè non c’è errore.
Fig. 5 - Aumentando l’ampiezza del campione diminuisce l’errore standard delle medie campionarie.
La distribuzione campionaria è uno dei concetti più importanti di tutta la statistica inferenziale. Si
tratta di un concetto teorico. Mentre la distribuzione delle frequenze è ottenuta empiricamente,
osservando o misurando direttamente le differenti unità statistiche e ottenendo così i dati grezzi, la
distribuzione campionaria è derivata teoricamente a partire da una infinita serie di campioni della
stessa dimensione scelti nella popolazione studiata. E’ possibile d’altronde elaborare distribuzioni
campionarie per tutti i tipi di statistiche come medie e deviazioni standard.
2. Applicazioni della distribuzione campionaria
Sulla base del teorema del limite centrale possiamo affermare che la distribuzione normale
rappresenta abbastanza bene la distribuzione campionaria quando l’ampiezza n del campione è
superiore a 30. Il grande vantaggio di questa conoscenza sta nel fatto che possiamo utilizzare quello
che già sappiamo circa la deviazione standard, i punteggi z, i percentili, le aree sotto la curva
normale, ecc.
Iniziamo con l’introdurre il concetto di errore campionario. Esso esprime la differenza che
possiamo riscontrare tra la media del campione X e la media della popolazione µ: X – µ. Questi
errori in genere sono dovuti a fattori casuali e la distribuzione di questi errori tende ad assumere un
andamento assimilabile a quello della curva normale e di conseguenza la loro somma tende a zero:
S ( X – µ) = 0. Ciò ci consente di stimare l’ampiezza dei valori che la media campionaria può
assumere.
Immaginiamo di scegliere un campione di 100 soggetti tra una popolazione. La media del campione
è 45 e la deviazione standard è 3,5. Se scegliamo un altro campione, quale differenza ci aspettiamo
tra le medie dei due campioni? Se escludiamo errori sistematici, la differenza è abbastanza limitata
ed è dovuta al caso. Se continuiamo a scegliere altri campioni, la distribuzione campionaria delle
medie trovate avrà una sua media e una sua deviazione standard. Queste si possono trovare con le
formule precedentemente introdotte.
85
Tuttavia, quando intendiamo stimare la deviazione standard della popolazione, si riscontra il fatto
che la varianza della distribuzione campionaria delle medie fornisce un valore distorto della
varianza della popolazione, in quanto la sottostima. Si è trovato che un valore non distorto della
varianza della popolazione si può stimare, utilizzando la seguente formula:
La stima dell’errore standard della media nel nostro esempio sarà dunque:
N = 100
s = 3,5
Quanto alle medie che troviamo possiamo stimare quello che si chiama l’intervallo di confidenza
per la media, che indica la probabile ampiezza dell’intervallo numerico entro il quale si
collocheranno le medie via via trovate. Dal momento che la distribuzione delle medie dei campioni
tende a distribuirsi normalmente e i nostri campioni sono abbastanza ampi, possiamo usare le
conoscenze che abbiamo circa i punteggi standard: in particolare che approssimativamente il 68%
dei punteggi si colloca a una deviazione standard sopra e sotto la media. Un intervallo di confidenza
del 68 % è dato dunque dalla media più o meno la deviazione standard. Utilizzando i valori sopra
indicati si ha un intervallo compreso tra:
X = 45
45 – 0,35 = 44,65
sx = 0,35
e
45 + 0,35 = 45,35
Possiamo anche determinare il grado di probabilità che intendiamo utilizzare nella nostra stima.
Normalmente si usano gradi di probabilità del 95% e del 99%, ciò è possibile ricordando che in
questi casi basta considerare la media più o meno due volte o tre volte la deviazione standard: un
punteggio z di più o meno 1,96 rappresenta il 95% dei punteggi intorno alla media; mentre un
punteggio z di più o meno 2,58 rappresenta il 99 % dei punteggi.
Occorre comunque ricordare che si tratta di campioni che hanno un’ampiezza n uguale o maggiore
di 100. Per quelli di ampiezza inferiore verrà ripreso il discorso in seguito, introducendo il concetto
di distribuzione di t di Student.
Inoltre, occorre fare attenzione al significato esatto di intervallo di confidenza. Esso si riferisce
soltanto alla probabilità che in esso si collochino le medie dei campioni di una data ampiezza, nulla
dice sulla probabilità che la media di 45 sia quella corretta.
86
Tab. 2 - Esempi di intervalli di confidenza del 68%, 95% e 99%, quando la media è 45, la deviazione
standard 3,5 e l’ampiezza del campione è 100.
Fig. 6 - Illustrazione della distribuzione normale con tre comuni intervalli di confidenza.
Nello stimare i parametri di una popolazione a partire da un suo campione viene sempre usato il
concetto di probabilità. A questo proposito è necessario aggiungere alcune precisazioni. Parlando di
differenze tra valore reale e valore stimato, a esempio, noi possiamo non tener conto della direzione
di questa differenza, cioè non considerare i due casi possibili: che la nostra stima sia inferiore alla
media reale, oppure che essa sia superiore a essa. In altri casi, invece, è necessario o opportuno
tener conto anche della direzione che assume questa differenza. Evidentemente la probabilità del
verificarsi di un evento di questo tipo dipende anche dalle sue caratteristiche.
87
Primo caso: valore di probabilità a una coda.
Consideriamo una popolazione la cui media sia µ = 50 e la cui deviazione standard si s = 10. Qual è
la probabilità di ottenere un punteggio uguale o maggiore di 60?
Possiamo trasformare il punteggio grezzo 60 in punteggio z (o punteggio standard):
Quello che ora cerchiamo è la probabilità di ottenere un punteggio uguale o superiore al punteggio
z = 1. Nell’apposita tabella troviamo che la probabilità di trovare un punteggio uguale o superiore a
z = 1, cioè come punteggio grezzo 60, è di circa il 16 %.
Secondo caso: valore di probabilità a due code.
Consideriamo sempre una popolazione la cui media sia µ = 50 e la cui deviazione standard sia s =
10. Qual è la probabilità di ottenere un punteggio uguale o maggiore di 60 oppure uguale o inferiore
a 40? I due punteggi trasformati in punteggi standard danno z = +1 e z = -1. Ambedue i punteggi
stanno a una deviazione standard di distanza dalla media.
Ciò che cerchiamo è la probabilità di ottenere un punteggio uguale o superiore al punteggio z = +1,
oppure uguale o inferiore a z = -1. Data la simmetria della situazione è abbastanza evidente che la
probabilità debba essere raddoppiata, in quanto è di circa il 16% la probabilità di ottenere un
punteggio uguale o superiore a z = +1 (o 60 in punteggio grezzo) e di circa il 16% è la probabilità di
ottenere un punteggio uguale o inferiore a z = -1 (o 40 in punteggio grezzo).
Naturalmente è possibile partire dalla probabilità desiderata per trovare il punteggio corrispondente.
Il percorso è inverso a quello descritto e utilizza la formula inversa di quella per trovare i punti z.
Dalle tavole si individua il valore di z corrispondente alla probabilità richiesta, poi si usa la formula
seguente per trovare il punteggio X:
88