Statistica
La statistica riguarda la raccolta, presentazione, analisi (elaborazione) e utilizzazione di dati numerici
allo scopo di effettuare inferenze, estrapolazioni, e di fornire indicazioni decisionali in situazioni che
presentano un certo grado di aleatorietà. Essa è utilizzata in settori quali l’economia, le scienze sociali, le
scienze fisiche, naturali, l’agronomia, la medicina, il controllo di qualità, ecc.
Il materiale di base su cui opera la statistica è costituito dai dati, cioè da valori numerici. Se una
determinata caratteristica può assumere diversi valori numerici si parla di una variabile.
Le variabili possono essere di due tipi:
1) Variabili qualitative, quando la caratteristica non può essere misurata, ma solo classificata in base
ad aspetti qualitativi. I dati numerici, in questo caso, consistono nelle frequenze degli elementi che
possiedono le caratteristiche rilevate. Un esempio di variabile qualitativa può essere il numero di
alberi di diverse specie presenti in una determinata area di un bosco, il numero di piante sane o con
diversi livelli di sintomi di una malattia, il numero di individui con un determinato gruppo sanguigno,
le preferenze elettorali, ecc.
2) Variabili quantitative quando è possibile effettuare una misurazione della caratteristica, ad esempio
l’altezza delle piante, il peso specifico del legno, il diametro del tronco, la velocità di crescita,
l’efficienza fotosintetica, ecc.
La statistica si articola in due settori principali: descrittiva e inferenziale. La statistica descrittiva
riguarda la descrizione sintetica di un insieme di dati mediante il calcolo di parametri statistici; questi si
riferiscono all’intera popolazione che rappresenta l’universo statistico, cioè la totalità dei dati. Essa fa
riferimento, inoltre, ai criteri per la presentazione dei dati sotto forma di tabelle e grafici. La statistica
inferenziale consiste nell’insieme dei procedimenti che permettono di trarre inferenze (cioè di estrapolare dal
particolare al generale) e formulare ipotesi sulla struttura della popolazione esaminando un campione, cioè
un sottoinsieme, una parte di essa. Attraverso un ragionamento deduttivo è possibile dedurre le
caratteristiche che avrà un campione estratto da una popolazione, mentre con il metodo induttivo (dal
particolare al generale) è possibile estrapolare le caratteristiche di una popolazione analizzando un
campione. Affinché l’inferenza o estrapolazione sulla struttura della popolazione sia valida è necessario che
il campione esaminato sia rappresentativo e sia specificata la probabilità di errore derivante da tale
inferenza.
La statistica nacque come scienza puramente descrittiva, ma la sua componente inferenziale,
sviluppatasi successivamente, è divenuta fondamentale a tutti i livelli e in tutti i settori nei processi
decisionali. L’analisi statistica moderna, quindi, si riferisce prevalentemente all’analisi induttiva o inferenziale.
I due aspetti, tuttavia, si complementano, infatti è necessario conoscere, sulla base del calcolo delle
probabilità, la struttura dei campioni che si possono estrarre da una popolazione, prima di effettuare il
procedimento inverso, di stima dei parametri della popolazione sulla base di un campione estratto da essa.
Affinché l’inferenza sia valida è necessario che il campione sia rappresentativo. Per essere tale il campione
deve essere casuale, cioè ciascuno degli elementi della popolazione deve avere la stessa probabilità di
essere estratto. La possibilità dell’errore è intrinseca all’inferenza statistica, quindi le stime o i saggi (test) dei
parametri statistici di una popolazione devono comprendere anche una valutazione della probabilità di
errore.
Statistica descrittiva
2.1 Distribuzioni di frequenza
A volte può essere opportuno organizzare un insieme di dati in una distribuzione di frequenze,
suddividendo i dati in gruppi o classi e indicando il numero di osservazioni in ciascuna classe. Dividendo il
numero di osservazioni in ciascuna classe per il numero totale di osservazioni nell’insieme dei dati si ottiene
una distribuzione di frequenze relative, la cui somma è uguale a uno. Un istogramma consiste in un
grafico a barre, basato su una distribuzione di frequenza, nel quale le classi sono disposte lungo l’asse
orizzontale e le frequenze lungo quello verticale. Un poligono di frequenze consiste in un grafico lineare
ottenuto congiungendo le frequenze di ciascuna classe nel punto centrale dei valori della classe. Una
distribuzione di frequenze cumulate comprende, per ciascuna classe, anche il numero totale di
osservazioni in tutte le classi precedenti; quando viene tracciata si ottiene una curva di distribuzione od
ogiva.
Esempio 1. Uno studente ha ricevuto i seguenti voti (grades) da 0 a 10 nei 10 quiz svolti durante un
semestre: 6, 7, 6, 8, 5, 7, 6, 9, 10 e 6. Questi voti possono essere organizzati in distribuzioni di frequenza
(Tab. 2.1) e graficamente (Fig. 2.1).
1
Esempio 2. Venti barattoli (cans) di un campione contengono un peso netto variabile tra 19,3 e 20,9 once (1
oncia=28,35 g), come illustrato in Tab. 2.2. Raggruppando questi dati in sei classi si ottengono intervalli di
classe di 0,3 once [(21,0-19,2)/6=0,3 once]. I pesi in Tab 2.2 sono organizzati in distribuzioni di frequenza in
Tab. 2.3 e mostrati graficamente in Fig. 2.2.
2
2.2 Indici di tendenza centrale
Gli indici o misure di tendenza centrale più importanti sono: 1) la media, 2) la mediana e 3) la
moda. Essi possono essere determinati per la popolazione (o universo statistico, l’insieme di tutti gli
elementi che vogliamo descrivere) o per campioni estratti da essa utilizzando dati aggregati (raggruppati) o
disaggregati (non raggruppati).
1.
La media aritmetica di una popolazione viene indicata con la lettera greca μ, quella di un
campione con X (Esempio 3). Per dati disaggregati μ e X si calcolano con le seguenti
formule:
X
e
X
X
n
N
dove ΣX è la somma di tutte le osservazioni, mentre N e n si riferiscono, rispettivamente, al
numero di osservazioni nella popolazione e nel campione. Per dati aggregati μ e X si calcolano
con le seguenti formule:
fX
N
e
X
fX
n
dove ΣfX si riferisce alla somma delle frequenze di ciascuna classe f moltiplicata per il valore
centrale X della classe (Esempio 4).
2.
La mediana per dati disaggregati rappresenta il valore dell’elemento centrale quando tutti gli
elementi sono ordinati in termini di valori ascendenti o discendenti.
Mediana = (N+1)/2 esimo elemento nella serie di dati.
Per dati aggregati:
n/2 F
c
fm
Dove: L= limite inferiore della classe mediana, cioè della classe che contiene la mediana
n= numero di osservazioni
F= somma delle frequenze fino alla classe mediana esclusa
f m=frequenza della classe mediana
c= ampiezza dell’intervallo di classe.
Mediana
L
La moda è il valore che presenta la massima frequenza nell’insieme di dati. Per dati aggregati:
d1
Moda L
c
d1 d 2
dove L= limite inferiore della classe modale (classe con la massima frequenza)
d1= frequenza della classe modale meno la frequenza della classe precedente
d2= frequenza della classe modale meno la frequenza della classe successiva
c= ampiezza dell’intervallo di classe.
3.
3
La media è la misura di tendenza centrale più comunemente utilizzata. La media, tuttavia, è
influenzata dai valori estremi, mentre la mediana e la moda non lo sono. Altre misure di tendenza centrale
sono la media ponderata, la media geometrica e la media armonica.
4.
Media ponderata. Si calcola moltiplicando i singoli valori, prima di sommarli, per il loro peso,
che, in genere, coincide con il numero di volte in cui quel dato è presente (frequenza).
Esempio: Una ditta paga un salario orario di 4€ a 25 manovali, 6€ a 15 operai e 8€ a 10 operai
specializzati, si vuol conoscere il salario medio (media ponderata) pagato dalla ditta.
4 25 6 15 8 10
25 15 10
w
100 90 80
50
270
50
5,40
5.
Media geometrica. Si calcola con la radice n-esima del prodotto di tutti i valori. Si usa, ad
esempio, per i tassi di crescita, d’interesse o d’inflazione.
Esempio. Una nazione ha un tasso di inflazione del 2% il primo anno, 5% il secondo anno e 12,5% il
terzo anno. Si vuol conoscere la media geometrica del tasso di inflazione.
G
XG
n
X1 X 2
3
Xn
G
2 5 12,5
3
125
5%
In pratica la media geometrica si calcola utilizzando i logaritmi:
log
log x
G
N
Esempio 3. Calcolo del voto medio per la popolazione costituita dai voti dei 10 quiz dell’Esempio 1, usando
la formula per dati disaggregati:
X
N
6 7 6 8 5 7 6 9 10 6
10
70
10
7
Per calcolare la mediana per i dati disaggregati prima si dispongono i dati in ordine crescente: 5, 6, 6, 6, 6, 7,
7, 8, 9, 10. Poi si calcola il valore dell’elemento centrale: (N+1)/2= (10+1)/2= 5,5 esimo valore. Quindi la
mediana sarà data dalla media del 5° e 6° elemento della serie ordinata di dati: (6+7)/2= 6,5. Il valore della
moda per questo insieme di dati è 6 (valore di massima frequenza).
Esempio 4. E’ possibile stimare la media dei dati aggregati del campione in Tab 2.3 con l’aiuto della Tab.
2.4:
fX 401,6
X
20,08
n
20
La mediana per gli stessi dati aggregati si calcola come segue:
4
dove: L= 19,8= limite inferiore dela classe mediana (classe 19,8-20,0 contenente la 10a e 11a osservazione)
n= 20= numero di osservazioni o elementi
F= 3= somma delle frequenze precedenti ma non comprendenti la classe mediana
f m= 8= frequenza della classe mediana
c= 0,3= ampiezza dell’intervallo di classe
Analogamente per la moda:
Esempio 5. I 25 lavoratori di un’azienda ricevono le retribuzioni orarie (wages) in dollari riportate in Tab.
2.10. a) Disporre i dati in ordine crescente. b) Raggruppare i dati in classi. c) Presentare i dati in forma di
istogramma, istogramma delle frequenze relative. d) Calcolare la media utilizzando i dati singoli
(disaggregati). e) Calcolare la media utilizzando i dati aggregati in classi di frequenza.
a)
b) I dati variano tra 3,55 e 4,26, quindi è opportuno suddividerli in 8 classi con ampiezza 0,1
(4,30-3,50)/8=0,1). Occorre calcolare anche il punto centrale di ciascuna classe.
5
c)
d)
X
X
n
3,65 3,78 3,85
25
4,05
98,65
25
3,95
e)
X
fX
n
98,75
25
3,95
6
2.3 Indici di dispersione
La dispersione si riferisce alla variabilità esistente nei dati. Gli indici o misure di dispersione più
importanti sono: 1) la varianza e 2) la deviazione standard. Anche gli indici di dispersione possono essere
calcolati per la popolazione o per un campione e per dati aggregati (raggruppati) o disaggregati (non
raggruppati).
1. La varianza della popolazione si indica con σ2 (sigma), quella del campione con s2 e si
calcolano come segue per dati disaggregati:
)2
(X
2
e
N
X )2
(X
s2
n 1
e per dati aggregati:
2
)2
f (X
N
e
X )2
f (X
s2
n 1
2. Le deviazioni standard della popolazione e del campione si ottengono estrendo la radice
quadrata della varianza. Per dati disaggregati:
(X
)2
e
N
s
(X
X )2
n 1
e per dati aggregati:
f (X
)2
e
N
s
f (X
X )2
n 1
n-1= gradi di libertà. da usare per i campioni.
Gli indici di dispersione più utilizzati sono la varianza e la deviazione standard. Altri indici sono il campo di
variazione (range), la variazione interquartile e la deviazione quartile.
3. Il coefficiente di variazione CV (o V) misura la dispersione relativa:
CV=
/ per le popolazioni;
CV= s/ X per i campioni.
Esempio 5. La varianza, la deviazione standard e il coefficiente di variazione dei dati in Tab. 2.1
dell’esempio 1 (dati disaggregati, popolazione) possono essere calcolati con l’aiuto della Tab. 2.5 ( = 7).
7
(X
2
N
)2
22
10
N
1,48
7
CV
)2
(X
2,2 ;
22
10
2,2
1,48
0,21 , o anche 21%
Esempio 6. Varianza, deviazione standard e coefficiente di variazione per la distribuzione di frequenza dei
pesi (dati aggregati, campione) in Tab. 2.3 possono essere calcolati con l’aiuto della Tab. 2.6 ( X =20,08).
s2
f (X
n 1
X )2
2,952
19
0,1554 ;
CV
s
X
f (X
s
0,3942
20,08
X )2
n 1
2,952
19
0,1544
0,3942
0,0196 , o anche 1,96%
2.4 Forma delle distribuzioni di frequenza
La forma delle distribuzioni di frequenza si riferisce 1) al grado di simmetria o asimmetria
(skewness) e 2) al livello di compattezza (curtosi).
1. Simmetria/asimmetria (skewness). Una distribuzione ha asimmetria (skewness) zero se è
simmetrica rispetto alla sua media. In una distribuzione simmetrica e unimodale media, mediana
e moda coincidono. Una distribuzione è positivamente asimmetrica se la coda destra è più lunga
(allora: media>mediana>moda); è negativamente asimmetrica se è più lunga la coda sinistra
(allora: moda>mediana>media).
L’asimmetria o skewness (Sk) si può calcolare con il coefficiente di asimmetria di Pearson:
per le popolazioni:
per i campioni:
Per le distribuzioni simmetriche: Sk= 0.
2. Curtosi. Una curva ristretta e alta si definisce leptocurtica, una bassa e ampia platicurtica, in
riferimento a una curva intermedia definita mesocurtica.
8
Esempio 7. Calcolo del coefficiente di asimmetria (skewness) di Pearson per i voti dell’esempio 1 ( = 7,
mediana= 6,5 (Esempio 3) e = 1,48 (Esempio 5):
Analogamente per i dati del campione in Tab 2.2 e la distribuzione di frequenza in Tab. 2.3 dell’esempio 2
( X = 20,08, mediana= 20,06 (Esempio 4) e s= 0,39 (Esempio 6)):
2.5 Formula semplificata per il calcolo della varianza
E’ possibile dimostrare che le formule per il calcolo della varianza viste in precedenza:
)2
(X
2
(popolazione)
N
X )2
(X
s2
e
n 1
(campione)
equivalgono a quelle seguenti, molto più semplici e comunemente utilizzate:
( X )2
N
N
X2
2
X2
(popolazione)
s2
e
( X )2
n
(campione)
n 1
e per i dati aggregati:
fX 2
(
fX ) 2
N
2
fX 2
(popolazione)
N
s2
e
(
fX 2 )
n
n 1
(campione)
Dimostrazione:
)2
(X
2
(X 2
N
X
2
N
N
2
2X
X2
)
2
N
2
X2
N(
N
X
N
X
N
)2
X2
(
N
2
X2
N
2
2
2
X )2
N
N
9
Esempio 8. Calcolo della varianza, della deviazione standard e del coefficiente di variazione per una
popolazione utilizzando la formula semplificata dei dati in Tab. 2.7 (Voti da 0 a 10 in una classe di 40
studenti).
e per i dati aggregati in Tab. 2.20:
CV= / =2,19/6=3,65
ovvero: 3,65%
10
Esempio 9. Calcolo della varianza, della deviazione standard e del coefficiente di variazione per un
campione utilizzando la formula semplificata dei dati in Tab. 2.10 (Retribuzione oraria in dollari ($) di 25
operai).
2
2
2
2
2
2
X =3,65 +3,78 +3,85 +....................+4,18 +4,05 =390,13
X=3,65+3,78+3,85+.......................+4,18+4,05=98,65
X = X/n=98,65/25=3,95
X)2/n=98,652/25=389,27
( X )2
X2
n = 390,13 389,27 =0,036
s2
24
n 1
s
s 2 = 0,036 =0,19
CV=s/ X =0,19/3,95=0,048
ovvero: 4,8%
11
Probabilità e distribuzioni di probabilità
3.1 Probabilità di un evento singolo
Se un evento A può verificarsi nA volte su un totale di N eventi possibili ed equiprobabili, la
probabilità che si verifichi l’evento A sarà data da:
P ( A)
nA
N
La probabilità può essere visualizzata con un diagramma di Venn. In Fig. 3-1 il cerchio rappresenta
l’evento A, mentre l’area totale del rettangolo rappresenta tutti i possibili eventi. P(A) varia tra 0 e 1.
Se P(A)=0 l’evento A non può verificarsi, è impossibile. Se P(A)=1 l’evento A si verificherà certamente.
Se P(A’) rappresenta la probabilità che non si verifichi A, allora:
P(A)+P(A’)=1
Esempio 1. Lanciando una moneta bilanciata testa (T) e croce (C) sono due eventi con le stesse possibilità,
Quindi:
nC 1 ;
nT 1 ;
P(T ) P(C ) 1
P (T )
P (C )
N 2
N 2
Esempio 2. Lanciando un dado una volta sono possibili sei risultati ugualmente probabili: 1, 2, 3, 4, 5 e 6.
Quindi:
La probabilità di non ottenere 1 è:
ne consegue:
Esempio 3. Un mazzo da poker ha 52 carte con quattro colori (cuori, quadri, fiori, picche) e 13 carte per
ciascun colore. Se il mazzo è ben mescolato esiste la stessa probabilità di estrarre una qualsiasi delle 52
carte. Poichè ci sono 4 jack (J), la probabilità di estrarne uno è:
J
nJ
N
4
52
1
13
Poichè ci sono 13 quadri, indicati con Q; la probabilità di estrarre un quadri è P(Q), quella di estrarre una
carta di versa è P(Q’):
P (Q)
13
52
1
4
P (Q' ) 1 P (Q) 1
1
4
3
4
12
Esempio 4. Supponiamo che in 100 lanci di una moneta si ottengano 53 teste (H) e 47 croci (T). La
frequenza relativa delle teste è 53/100, o 0,53. Questa è la frequenza relativa della probabilità empirica
(osservata), che deve essere distinta dalla probabilità a priori o classica P(H)=0,5. All’aumentare del numero
di lanci (limite che tende a infinito) la probabilità osservata converge verso la probabilità a priori.
3.2
Probabilità di eventi multipli
1. Regola dell’addizione per eventi non mutuamente esclusivi. Due eventi, A e B, non sono
mutuamente esclusivi se il verificarsi di A non preclude il verificarsi di B, o viceversa. Quindi:
P(A o B)=P(A)+P(B)-P(A e B)
P( A  B)
ovvero:
P( B) P( A  B)
P( A)
si sottrae P(A e B) per evitare di conteggiare due volte la parte in comune. Il diagramma di Venn in
Fig. 3.2 chiarisce meglio il motivo (se non si sottraesse P(AeB) la parte centrale del diagramma
verrebbe conteggiata due volte, prima per A e poi per B).
2. Regola dell’addizione per eventi mutuamente esclusivi. Due eventi A e B sono mutuamente esclusivi
se il verificarsi di A preclude il verificarsi di B, o viceversa. Quindi:
P(A e B)=P(A)+P(B)
P( A  B)
ovvero:
P( A)
P( B)
3. Regola del prodotto per eventi dipendenti. Due eventi sono dipendenti se il verificarsi di uno è
connesso in qualche maniera con il verificarsi dell’altro. Quindi la probabilità congiunta di A e B è:
P(A e B)=P(A)∙P(B/A)
P( A  B)
ovvero:
P ( A) P ( B / A)
che va letto: “La probabilità che entrambi gli eventi A e B si verifichino è data dal prodotto della
probabilità dell’evento A per la probabilità dell’evento B, posto che A si sia già verificato.”
P(B/A)=probabilità condizionata dell’evento B, dato che l’evento A si sia già verificato;
inoltre:
cioè:
P(A e B)=P(B e A)
P( A  B)
P( A) P( B / A)
P( B) P( A / B)
4. Regola del prodotto per eventi indipendenti. Due eventi A e B sono indipendenti se il verificarsi di A
non è connesso in nessuna maniera al verificarsi di B. [P(B/A)=P(B)]. Quindi:
P(A e B)=P(A)∙(P(B)
cioè:
P( A  B)
P ( A) P ( B )
13
Esempio 5. (Regola 2) Con un singolo lancio di un dado possiamo ottenere 1, 2, 3, 4, 5 o 6. Questi sono
eventi mutuamente esclusivi, quindi P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=1/6.
La probabilità di ottenere 2 o 3 in un singolo lancio sarà:
P (2  3)
P ( 2)
1
6
1
6
2
6
1
3
P (4)
1
6
1
6
1
6
P (3)
e quella di ottenere 2 o 3 o 4:
P (2  3  4)
P ( 2)
P(3)
3
6
1
2
Esempio 6. (Regola 1) Le probabilità di estrarre da un mazzo di carte una carta di picche (P) o un re (R) da
un mazzo di carte da poker non costituiscono due eventi mutuamente esclusivi, perchè potrebbe essere
estratto un re di picche. Quindi:
P(P o R)=P(P)+P(R)-P(P e R) 13
52
Usando i simboli degli insiemi:
4
52
1
52
16
52
4
13
13 4
1 16 4
52 52 52 52 13
dove il simbolo di unione sostituisce “o” e il simbolo di intersezione sostituisce “e”.
P( P
R)
P( P)
P( R) P( P
R)
Esempio 7. (Regola 4) I risultati di due lanci successivi di una moneta sono eventi indipendenti. Il risultato
del primo lancio non influenza quello del secondo lancio. Quindi (T=testa, C=croce):
P(T e T)=P(T∩T)=P(T)∙P(T)=
analogamente, per tre lanci:
1 1
2 2
1
4
0,25
P(T e T e T)= P(T∩T∩T)=P(T)∙P(T) P(T)= 1 1 1
2 2 2
1
8
0,125
Esempio 8. (Regola 3, probabilità condizionata) La probabilità di ottenere un re di quadri (Rq) alla prima
estrazione è:
1
P ( Rq )
52
Se la prima carta estratta è proprio il re di quadri e non viene reintrodotta, la probabilità di ottenere un altro
re alla seconda estrazione sarà dipendente dalla prima estrazione, perchè ora ci sono tre re su 51 carte
rimaste. La probabilità condizionata di estrarre un secondo re, dato che il re di quadri è stato già estratto e
non reintrodotto, è:
3
P ( R / Rq )
51
Quindi la probabilità di ottenere il re di quadri alla prima estrazione e, senza reintroduzione, di estrarre un
secondo re sarà:
P(Rq e R)=P(Rq)∙P(R/Rq)=
1 3
52 51
3
2652
14
3.3
Distribuzioni di probabilità discrete: la distribuzione binomiale
Una variabile casuale o random o stocastica è una variabile i cui valori sono associati con una
certa probabilità di essere osservata. Una variabile casuale discreta o qualitativa (in contrapposizione a una
continua o quantitativa) può assumere solo valori finiti e distinti. Si definisce distribuzione di probabilità
l’insieme di tutti i possibili valori di una variabile casuale e delle probabilità ad essa associate. La somma di
tutte le probabilità ha valore 1 (uno).
Una distribuzione di variabilità discreta è la distribuzione binomiale, che fornisce la probabilità che
si verifichi X volte un evento o di successi di un evento, P(X), in n ripetizioni dello stesso esperimento. Le
condizioni sono: 1) che ci siano due sole possibilità mutuamente esclusive (es. testa o croce), 2) che le n
ripetizioni siano indipendenti (ogni lancio è indipendente dagli altri) e 3) che la probabilità di successo p
rimanga costante in ciascuna ripetizione dell’esperimento. Quindi:
n
P( X )
x
p X qn
X
n!
p X qn
X !(n X )!
n!
p X (1 p) n
X !(n X )!
X
X
dove n è il numero delle ripetizioni ed n fattoriale: n!=n∙(n-1)∙(n-2)∙∙∙∙∙∙∙∙∙3∙2∙1 e per definizione 0!=1;
p= frequenza di un evento A (es. croce), q= frequenza di un evento alternativo B (es. testa), p+q=1.
La media della distribuzione binomiale è:
np
2
La varianza è:
npq
np(1 p)
La deviazione standard è:
npq
np(1 p)
Se p=q=1-p=0,5 la distribuzione binomiale è simmetrica; se p<0,5 è asimmetrica verso destra; se p>0,5 è
asimmetrica verso sinistra.
Esempio 9. Gli esiti possibili di due lanci di una moneta (T=testa, C=croce) sono: TT, TC, CT e CC. Quindi:
P (0T )
1
4
P (1T )
1
2
P(2T )
1
4
Il numero di teste è quindi una variabile casuale discreta e l’insieme di tutti gli eventi possibili con le loro
probabilità associate costituisce una distribuzione di probabilità discreta (nella tabella e nel grafico seguenti
H (Head)=T e T (Tail)=C).
Esempio 10. Usando la distribuzione binomiale possiamo calcolare la probabilità di ottenere 4 teste in 6
lanci di una moneta:
15
Il numero atteso di teste in 6 lanci sarà:
np
6
1
2
3
e la deviazione standard della distribuzione di probabilità di 6 lanci sarà:
np(1 p)
6
1 1
2 2
6
4
1,5 1,22
Poichè p=0,5 la distribuzione di probabilità è simmetrica.
Esempio 11. a) Calcolare la probabilità di ottenere 3 teste in 5 lanci di una moneta. b) Calcolare la
probabilità di ottenere meno di 3 teste.
P( X )
n
x
p X qn
X
n!
p X qn
X ! (n X )!
X
n!
p X (1
X !(n X )!
p) n
X
a)
n=5; X=3; p=0,5.
P(3)
5!
0,530,52
3!(5 3)!
120 5
0,5
12
0,3125
b)
P( X
3) P(0) P(1) P(2)
5!
5
P(0)
0,500,55
0,03125 0,03125
0!5!
5
5!
120
P(1)
0,510,54
0,5 0,0625 0,15625
1!(5 1)!
24
5!
120
P(2)
0,520,53
0,25 0,125 0,3125
2!(5 2)!
12
P( X 3) P(0) P(1) P(2) 0,03125 0,15625 0,3125
3.4
0,5
La distribuzione di Poisson
La distribuzione di Poisson è un’altra distribuzione di probabilità discreta. E’ utilizzata per
determinare la probabilità di un determinato numero di successi per unità di tempo, posto che gli eventi o
successi siano indipendenti e che il numero medio di successi per unità di tempo rimanga costante. Allora:
X
P( X )
e
X!
dove: X= numero designato di successi
P(X)= probabilità di ottenere X successi
= numero medio di successi per unità di tempo
e= base dei logaritmi naturali (2,71828)
Esempio 11. Un dipartimento di polizia riceve una media di 5 chiamate all’ora. La probabilità di ricevere 2
chiamate in un’ora selezionata a caso è:
X
P( X )
e
X!
52 e 5
2!
25 0.00674
2
0,08425
La distribuzione di Poisson può essere usata come un’approssimazione della distribuzione binomiale
quando n è elevato e p o 1-p sono piccoli.
3.5
Distribuzioni di probabilità continue
Una variabile casuale continua X può assumere un numero infinito di valori in ogni intervallo dato.
La probabilità che X ricada entro ciascun intervallo è data dall’area sottostante la distribuzione di
probabilità (o funzione di densità). L’area totale (probabilità) sottostante la curva è 1 (uno).
La distribuzione normale è la distribuzione di probabilità continua più comunemente utilizzata
nell’analisi statistica. La curva normale ha forma a campana ed è simmetrica rispetto alla media. Essa si
16
estende indefinitamente (asintoticamente) in entrambe le direzioni, ma gran parte dell’area (probabilità) si
addensa intorno alla media; il 68,26% dell’area (probabilità) al di sotto della curva normale è compreso entro
una deviazione standard dalla media in entrambe le direzioni (cioè entro µ±1σ), 95,44% entro µ±2σ e
99,74% entro µ±3σ.
La distribuzione normale standard è una distribuzione normale con media 0 e deviazione standard
1 (cioè µ=0 e σ=1). Qualsiasi distribuzione normale (X scale in Fig. 3-4) può essere convertita, mediante una
trasformazione lineare, in una distribuzione normale standard ponendo µ=0 ed esprimendo le deviazioni
dalla media in unità di deviazione standard (scala z).
Per trovare le probabilità (aree) per problemi inerenti la distribuzione normale, occorre prima
convertire il valore X nel valore z corrispondente (trasformazione lineare) come segue:
z
X
In appendice 3 sono riportati i valori di z. La tabella riporta la proporzione dell’area (probabilità) sotto
la curva compresa tra la media e il valore z.
Una distribuzione di probabilità continua si riferisce all’intervallo di tutti gli infiniti valori che possono
essere assunti da una variabile casuale continua, insieme alle probabilità ad essi associate. La distribuzione
di probabilità di una variabile casuale continua può essere definita come una funzione di densità di
probabilità o, più semplicemente, una funzione di probabilità. Essa è data da una curva a campana tale che
l’area totale (probabilità) sotto la curva assuma valore 1. Poichè una variabile casuale continua può
assumere un numero infinito di valori all’interno di ogni intervallo definito, la probabilità di ogni valore
specifico è pari a 0. E’ possibile, tuttavia, misurare la probabilità che una variabile casuale continua X
assuma qualsiasi valore entro un dato intervallo (ad esempio tra X1 e X2) calcolando l’area sottostante la
curva e compresa in quell’intervallo, cioè dall’integrale definito:
X2
P( X 1
X
X2)
f ( X )dX
X1
dove f(X) è l’equazione della funzione di densità di probabilità.
Una distribuzione normale è una funzione di probabilità continua con forma a campana, simmetrica
rispetto alla media e mesocurtica. Allontanandosi dalla media in entrambe le direzioni, la curva normale si
avvicina asintoticamente all’asse orizzontale, senza mai toccarlo. L’equazione della funzione di probabilità
normale è data da:
f (X )
2
)2
(X
1
2
e
2
2
1
e
2
1 X
(
2
)2
dove: f(X)= ordinata (altezza) della curva normale;
e= 2,7183
= 3,1426
= media della distribuzione
= deviazione standard della distribuzione
17
X
e poichè: z
l’equazione della variabile normale standardizzata sarà:
f ( z)
l’area totale da
a
z2
2
1
e
2
racchiusa dalla curva normale è:
1
2
2
e
(X
2
)2
2
dX
1
La distribuzione normale standard è una distribuzione normale con =0 e
=1. Qualsiasi
distribuzione normale (definita da un determinato valore di
e
può essere trasformata in una
distribuzione normale standard ponendo =0 ed esprimendo le deviazioni da
in unità di deviazione
standard. E’ possibile calcolare le aree (probabilità) convertendo i valori X nei corrispondenti valori z
(trasformazione lineare: z=(X- )/ ) e cercando i valori calcolati nella tabella di z.
Esempio 12. L’area (probabilità) sottostante la curva normale standard e compresa tra z= 0 e z= 1,96 si
ottiene in corrispondenza del valore di 1,96 in App. 3. Il valore z=0.4750 significa che il 47,50% dell’area
totale sotto la curva è compreso tra 0 e 1,96. Ovviamente, essendo la curva simmetrica, anche l’area
compresa tra -1,96 e 0 è del 47,50%. Quindi l’area totale compresa tra -1,96 e +1,96 è 0,95, cioè comprende
il 95% dell’area totale sottesa dalla curva normale.
Esempio 13. Supponiamo che X sia una variabile casuale distribuita normalmente con = 10 e 2= 4 e che
si voglia conoscere la probabilità che X assuma un valore tra 8 e 12. Prima si calcolano i valori z
corrispondenti ai valori 8 e 12 di X, quindi si cercano i valori z ottenuti in tabella.
z1
X1
8 10
2
1
z2
X2
12 10
2
1
Per z=1 si ottiene un valore di 0,3413, quindi z= ±1 equivale a 2(0,3413)= 0,6826. Ciò significa che la
probabilità che X assuma un valore tra 8 e 12 [P(8<X<12)] è 68,26% (Fig. 3-4).
Esempio 14. Supponiamo ancora che X sia una variabile casuale distribuita normalmente con = 10 e
La probabilità che X assuma un valore tra 7 e 14 è:
z1
X1
7 10
2
1,5
z2
X2
14 10
2
2
=4.
2
In tabella per z1= -1,5 otteniamo 0,4322 e per z2= 2 otteniamo 0,4772.
Perciò P(7<X<14)= 0,4332+0,4772=0,9104, ovvero 91,04% (Fig. 3-5). Quindi la probabilità che X assuma un
valore inferiore a 7 o superiore a 14 è di 1-0,9104= 0,0896, cioè 8,96%. La distribuzione normale
approssima la distribuzione binomiale quando n≥30, np>5 e n(1-p)>5, mentre approssima la distribuzione di
Poisson quando ≥10.
18
Inferenza statistica: Stima
4.1 Campionamento
L’inferenza statistica è uno degli aspetti più importanti e cruciali nel processo decisionale in ambito
scientifico, economico e finanziario. Attraverso un procedimento induttivo essa permette di definire le
caratteristiche di una popolazione dall’osservazione di una parte di essa, detta campione. La popolazione
consiste in tutti gli elementi dell’insieme oggetto di studio, mentre il campione consiste in una porzione di
elementi estratti dalla popolazione. L’analisi dell’intera popolazione può essere impossibile o antieconomica,
ad esempio per le sue dimensioni o perchè l’acquisizione dei dati comporta la distruzione degli elementi
studiati. Queste difficoltà possono essere superate estraendo un campione rappresentativo, cioè casuale,
dalla popolazione. L’inferenza statistica si riferisce alla stima e al saggio (test) delle ipotesi. La stima
consiste nel processo di inferenza o stima di un parametro di una popolazione dalle statistiche (stimatori)
corrispondenti relative a un campione estratto dalla popolazione. Un parametro consiste in una caratteristica
descrittiva (ad esempio la media e la deviazione standard) di una popolazione; una statistica o stimatore è
una caratteristica descrittiva di un campione.
L’inferenza statistica può quindi essere di due tipi: 1) stima e 2) saggio (o test) delle ipotesi. La stima
consiste nell’inferire o stimare un parametro della popolazione dalla statistica corrispondente del campione.
Ad esempio, possiamo stimare la media e la deviazione standard di una popolazione dalla media e dalla
deviazione standard di un campione da essa estratto. Il saggio o test dell’ipotesi prevede di determinare,
sulla base delle informazioni rilevate dal campione, se accettare o rigettare un’ipotesi o un assunto con
riferimento al valore di un parametro.
Per essere validi la stima e il saggio dell’ipotesi devono essere basati su un campione
rappresentativo, che per essere tale deve essere ottenuto mediante un campionamento casuale
(random), nel quale ciascuno dei componenti della popolazione deve avere la stessa possibilità di essere
incluso nel campione. Esistono diversi tipi di campionamento casuale. Nel campionamento casuale
semplice non solo ciascun elemento, ma anche ciascun campione ha la stessa probabilità di essere
estratto. Nel campionamento sistematico gli elementi estratti sono selezionati dalla popolazione a intervalli
uniformi di tempo, ordine o spazio (ad esempio estraendo ogni centesimo nome da una rubrica telefonica). Il
campionamento sistematico spesso può determinare campioni sbilanciati, non rappresentativi, ad esempio
rilevando il volume di rifiuti ogni lunedì, quando si accumulano i rifiuti del fine settimana. Nel campionamento
per raggruppamenti stratificato e cluster (grappolo) la popolazione è suddivisa in strati (ad esempio per
gruppi di età) e cluster (ad esempio gli isolati di una città), dai quali si estrae casualmente un numero
proporzionale di elementi da ciascuno strato e cluster. Il campionamento stratificato si usa quando le
variabilità entro ciascuno strato sono piccole in relazione alle variabilità tra strati, quello cluster nel caso
opposto.
Esempio 1. Un campione casuale di 5 degli 80 operai di un’azienda può essere ottenuto scrivendo il nome
degli 80 elementi su un foglietto e poi estraendone casualmente 5. Più semplicemente è possibile usare una
tabella di numeri casuali. In questo caso si assegna un numero da 1 a 80 ad ogni operaio, poi si selezionano
5 numeri di seguito, verticalmente od orizzontalmente.
4.2 Distribuzione campionaria della media
Se si estraggono più campioni casuali da una popolazione e si calcola la media di ciascun
campione, si otterranno altrettante medie campionarie X , che saranno diverse tra loro. La distribuzione di
probabilità di queste medie di campioni si definisce distribuzione campionaria della media. Anche la
distribuzione campionaria della media ha a sua volta una propria media, che si indica con il simbolo X , e
una deviazione standard della media o errore standard, che si indica con
X
Le seguenti due caratteristiche importanti collegano la distribuzione campionaria della media alla
popolazione di origine.
1) Se si estraggono ripetutamente campioni casuali di dimensione n da una popolazione:
X
X
n
e per popolazioni finite di dimensione N, quando n≥0,05N:
X
n
N n
N 1
19
2) Teorema centrale del limite. All’aumentare della dimensione del campione ( n
) la distribuzione
campionaria della media si avvicina alla distribuzione normale, indipendentemente dalle caratteristiche della
popolazione di provenienza, quindi anche quando questa non è distribuita normalmente. L’approssimazione
alla normalità è adeguata per n≥30.
E’ possibile calcolare la probabilità che un campione casuale abbia media X in un determinato
intervallo calcolando i valori z per l’intervallo:
z
X
X
X
e poi cercando i valori nella tabella di z.
Esempio 2. In Fig. 4-1 la media della distribuzione campionaria della media
X
è uguale alla media della
indipendentemente dalla dimensione n del campione. All’aumentare di n,
popolazione di partenza
tuttavia, si riduce l’ampiezza dell’errore standard della media
X
. Se la popolazione di partenza è normale
anche le distribuzioni campionarie della media saranno distribuite normalmente, anche nei piccoli campioni.
Secondo il teorema centrale del limite, anche se la popolazione di partenza non è distribuita normalmente, le
distribuzioni campionarie della media saranno approssimativamente normali per n≥30.
Esempio 3. Supponiamo che una popolazione sia costituita da 900 elementi, con media 20 e deviazione
standard 12. La media e l’errore standard della distribuzione campionaria della media per un campione di 36
elementi è:
12
2
20
X
X
n
36
Se la dimensione del campione n=64 anziché 36 (quindi n>0,05N):
X
invece di
X
n
N n
N 1
12
64
900 64
900 1
12 836
8 899
(1,5)(0,96) 1,44
=1,5, senza il fattore di correzione per popolazioni finite.
Esempio 4. La probabilità che la media X di un campione casuale di 36 elementi estratti dalla popolazione
dell’esempio 3 sia compresa tra 18 e 24 si calcola:
z1
X1
18 20
2
X
X
1
z2
X2
X
X
24 20
2
2
Cercando z1 e z2 nella tabella di z troviamo:
P(18
X
24) 0,3413 0,4772 0,8185 ; ovvero 81,85%
20
4.3 Stima usando la distribuzione normale
Per il parametro statistico di una popolazione possiamo effettuare una stima puntuale o una stima
per intervallo. La stima puntuale consiste, ovviamente, in un numero singolo, la cui stima è corretta e
obiettiva (unbiased) se in ripetuti campionamenti casuali dalla popolazione il valore atteso o medio del
parametro statistico corrispondente (stimatore) è uguale al parametro della popolazione.
X , ad esempio, rappresenta una stima puntuale corretta di , perchè X
, dove X è il valore
atteso di X . La deviazione standard campionaria s rappresenta una stima corretta di e la proporzione p
del campione è una stima corretta della proporzione p, per una determinata caratteristica, della popolazione.
La stima per intervallo si riferisce ad un intervallo di valori insieme alla probabilità, o livello di
confidenza o fiduciale, che tale intervallo comprenda il parametro sconosciuto della popolazione. Data la
deviazione standard della popolazione o la sua stima e assumendo che la popolazione sia normale o che il
campione casuale abbia dimensione uguale o maggiore di 30, è possibile calcolare l’intervallo di
confidenza al 95% per la media sconosciuta della popolazione:
P( X 1,96
X
X 1,96
X
)
0,95
Ciò significa che in un campionamento casuale ripetuto ci aspettiamo che 95 volte su 100 l’intervallo
definito da tale equazione comprenderà la media sconosciuta della popolazione.
Analogamente è possibile ricavare l’intervallo di confidenza per la proporzione di una popolazione
(esempio 7):
p
(p= proporzione di successi relativi a un fenomeno nella popolazione)
p
n
p(1 p)
n
p
(errore standard della proporzione)
Esempio 5. Da una popolazione di 1.000 elementi si estrae un campione casuale di 144 con media 100 e
deviazione standard 60. L’intervallo di confidenza della media sconosciuta della popolazione sarà:
X
1,96
X
X
1,96
n
N n
N 1
100 1,96
60 1000 144
144 1000 1
100 1,96(5)(0,93) 100 9,11
Quindi sarà compresa tra 90,89 (100-9,11) e 109,11 (100+9,11) con un livello di confidenza del 95%. Altri
livelli di confidenza utilizzati frequentemente sono 90 e 99%, corrispondenti, rispettivamente, a valori di z di
1,64 e 2,58.
Esempio 6. Un manager desidera stimare il numero medio di minuti impiegato dai lavoratori per completare
un determinato lavoro entro ±3 minuti e con un livello di confidenza di 90%. In base all’esperienza pregressa
il manager sa che la deviazione standard è di 15 minuti. Il manager vuol conoscere la dimensione minima
del campione (n>30) necessaria per effettuare la stima richiesta.
z
X
;
quindi:
z
X
X
e assumendo n<0,05N:
1,64
X
poichè l’intervallo di confidenza ( X
) è di 3 min: 1,64
15
n
3 e
n
n
1,64
X
15
3
21
quindi:
n= 67,24 e, arrotondando, n= 68.
Esempio 7. In un campione casuale di 100 studenti universitari 40 conseguono la laurea. Si desidera
calcolare l’intervallo di confidenza al 99% per la proporzione di studenti laureati sul totale. Innanzi tutto
bisogna notare che si tratta di una distribuzione binomiale. Poichè n>30, np>5 e n(1-p)>5 la distribuzione
binomiale approssima la distribuzione normale, più semplice da utilizzare. Quindi, per n<0,05N:
p
p
z
p
p
z
p(1 p)
n
0,4 2,58
(0,4)(0,6)
100
0,4 2,58(0,05)
0,4 0,13
Quindi p sarà compreso tra 0,27 e 0,53 con un livello di confidenza del 99%.
4.4 Intervalli di confidenza della media usando la distribuzione del t di Student
Quando la popolazione è distribuita normalmente, ma è sconosciuta e n<30, non si può usare la
distribuzione normale per determinare gli intervalli di confidenza per la media sconosciuta di una
popolazione, invece occorre usare la distribuzione t di Student. Questa distribuzione è simmetrica rispetto
alla media zero, ma è più piatta rispetto alla distribuzione normale, quindi un’area maggiore ricade nelle
code della curva. Esiste una sola distribuzione normale standard, mentre c’è una distribuzione t differente
per ciascuna dimensione n del campione (Fig. 4-3). All’aumentare di n, tuttavia, la distribuzione di t si
avvicina alla distribuzione normale standard, diventando approssimativamente uguale quando n>30. Per i
diversi gradi di libertà le tabelle della distribuzione di t forniscono i valori di t a destra dei quali si trovano 10,
5, 2,5, 1 e 0,5% dell’area totale sotto la curva. I gradi di libertà (df= degree of freedom in inglese) in questo
caso sono n-1 (ovvero la dimensione del campione meno 1 per il singolo parametro
che desideriamo
stimare). Quando si usa la distribuzione di t l’intervallo di confidenza al 95% per la media sconosciuta della
popolazione è dato da:
P( X
t
s
n
X
t
s
)
n
0,95
Esempio 8. Da una linea produttiva che produce batterie con durate distribuite normalmente si estrae un
campione casuale di n= 10 batterie da torcia elettrica con una durata media X = 5 ore e una deviazione
standard campionaria s= 1 ora. Per calcolare l’intervallo di confidenza al 95% della durata media
sconosciuta dell’intera popolazione di batterie prima troviamo il valore di t0 , 025 , talché il 2,5% dell’area sia
entro ciascuna coda, per n-1= 9 gradi di libertà. Nella tabella di t nella colonna 0,025 in corrispondenza di 9
gradi di libertà troviamo 2,262. Quindi:
X
e
2,262
s
n
5 2,262
1
10
5 2,262(0,316)
5 0,71
è compresa tra 4,29 e 5,71, con livello di confidenza del 95% (Fig. 4-4).
22
Inferenza statistica: Saggio (test) delle ipotesi
5.1 Saggio delle ipotesi
Il saggio o test delle ipotesi sulle caratteristiche (parametri) di una popolazione (es. e ) è un
altro aspetto fondamentale dell’inferenza e dell’analisi statistica. Nel saggiare (valutare) un’ipotesi si
comincia effettuando un assunto, una supposizione su una caratteristica sconosciuta (parametro) della
popolazione. Successivamente si estrae un campione casuale dalla popolazione e sulla base della
caratteristica corrispondente del campione (stimatore o statistica campionaria) si accetta o si rigetta l’ipotesi
formulata con un determinato livello di confidenza.
Nel saggio dell’ipotesi è possibile effettuare due tipi di errore. Se sulla base dell’informazione
campionaria si rigetta un’ipotesi che era corretta si commette un errore di primo tipo (I); se invece si
accetta un’ipotesi errata si commette un errore di secondo tipo (II).
E’ possibile controllare o determinare la probabilità di effettuare un errore di I tipo, indicato con .
Riducendo , tuttavia, si accetta una probabilità più elevata di effettuare un errore di II tipo, indicato con ,
altrimenti si dovrà aumentare la dimensione del campione. La probabilità di errore di I tipo, cioè , si
definisce livello di significatività, mentre 1- è il livello di confidenza del saggio.
Esempio 1. Supponiamo che una ditta che produce lampadine desideri conoscere se può affermare che le
sue lampadine durano in media =1000 ore. Occorre estrarre un campione casuale di 100 lampadine, ad
esempio, e valutare la loro vita media X . Quanto più è piccola la differenza tra X e , tanto più elevata
sarà la probabilità di accettare l’ipotesi =1000 ore di durata a un determinato livello
di significatività.
Fissando
5% la ditta accetta il rischio calcolato di rigettare un’ipotesi corretta nel 5% dei casi. Fissando
= 1% la ditta correrebbe un rischio più elevato di accettare un’ipotesi falsa, cioè di commettere un errore di
II tipo .
5.2 Saggio delle ipotesi su media e proporzione della popolazione
Il saggio delle ipotesi sulla media (o proporzione) della popolazione prevede le seguenti fasi:
1) Si ipotizza che assuma un valore ipotetico 0. Ciò è rappresentato da H0: = 0 e si definisce
ipotesi nulla. L’ipotesi alternativa è H1: ≠ 0, cioè, a seconda dei casi, H1:
0 o H1:
0.
2) Si fissa il livello di significatività del saggio (solitamente 5%, ma a volte 1%) e, usando la
distribuzione appropriata, si definisce la regione di accettazione e la regione di rigetto del saggio.
3) Si estrae un campione casuale dalla popolazione e si calcola X . Se X ricade nella regione di
accettazione si accetta H0, altrimenti si rigetta H0 in favore di H1.
Esempio 2. Supponiamo che la ditta dell’esempio 1 desideri saggiare se può affermare correttamente che le
lampadine durano 1000 ore. La ditta estrae un campione casuale di n= 100 lampadine e rileva che il
campione ha media X = 980 ore e deviazione standard s= 80 ore. Supponiamo che la ditta voglia condurre
il saggio al 5% di significatività. Poichè potrebbe essere uguale, maggiore o inferiore a 1000, la ditta
dovrebbe fissare l’ipotesi nulla e quella alternativa:
H1: ≠ 1000
H0: = 1000
Poichè n>30, la distribuzione campionaria della media è approssimativamente normale (e possiamo usare s
come una stima di ). La regione di accettazione del saggio al 5% di significatività si trova entro ±1,96 sotto
la curva normale standard e la regione di rigetto al di fuori (Fig. 5-1). Poichè la regione di rigetto si trova in
entrambe le code, effettuiamo un saggio a due code. La terza fase consiste nel trovare il valore di z
corrispondente a X :
z
X
0
X
X
0
/ n
X
0
s/ n
980 1000
80 / 100
20
8
2,5
23
Poichè il valore calcolato di z ricade nella regione di rigetto, al 5% di significatività la ditta dovrebbe rigettare
l’ipotesi nulla H0, cioè = 1000, e accettare l’ipotesi H1, cioè ≠ 1000.
Esempio 3. Una ditta vuol determinare al livello di confidenza del 95% se può affermare che le scatole di
detersivo vendute contengono più di 500 g di prodotto. Dall’esperienza precedente la ditta conosce che la
quantità di detersivo nelle scatole è distribuita normalmente. La ditta estrae un campione casuale di n= 25 e
trova X = 520 g e s= 75 g. Poichè la ditta desidera saggiare se >500 g, si ha:
H0: = 500
H1: >500
La popolazione è distribuita normalmente, ma n<30 e è sconosciuta, perciò si deve usare la distribuzione
di t (con n-1=24 gradi di libertà) per definire la regione critica (o di rigetto) del saggio al livello 5% di
significatività (Tabella di t e fig. 5-2; t=1,711). In questo caso dobbiamo effettuare un saggio sulla coda
destra.
X
s/ n
t
520 500
75 / 25
20
15
1,33
Il valore di t ricade nella regione di accettazione, quindi accettiamo l’ipotesi nulla H0 che =500 g al 5% di
livello di significatività, ovvero con un livello di confidenza del 95%.
Esempio 4. Negli anni precedenti il 60% degli iscritti a un’università hanno conseguito la laurea in 4 anni.
Per i 36 immatricolati nel 1980 solo 15 hanno conseguito la laurea nel 1984. Per valutare se gli immatricolati
del 1980 sono stati peggiori rispetto a quelli degli anni precedenti occorrerebbe usare la distribuzione
binomiale, tuttavia è possibile utilizzare la distribuzione normale perchè n>30 e np e n(1-p)>5 (vedere Sez.
3.5), con p= 0,60 (proporzione di successi). Per gli immatricolati del 1980 la proporzione di successi è:
p 15 / 36
0,42 e l’errore standard è:
p
p(1 p)
n
(0,6)(0,4)
36
0,08 . Poichè vogliamo
saggiare se gli immatricolati nel 1980 hanno conseguito risultati peggiori avremo:
H0: p= 0,60
Quindi:
z
H1: p< 0,60
p
p
p
0,42 0,60
0,08
2,25
Poichè si tratta di un saggio sulla coda sinistra e il 5% dell’area sotto la curva normale standard si trova a
sinistra di -1,64 rigettiamo l’ipotesi nulla H0 e concludiamo che, al livello 5% di significatività, gli immatricolati
24
del 1980 hanno conseguito risultati peggiori rispetto agli anni precedenti. Se
critica a sinistra sarebbe stata z= -2,33 e avremmo accettato l’ipotesi nulla H0.
= 1%, tuttavia, la regione
5.3 Saggio delle ipotesi per differenze tra due medie o proporzioni
In molte situazioni che richiedono una decisione è importante determinare se le medie o proporzioni
di due popolazioni sono uguali o differiscono. Occorre estrarre un campione casuale da ciascuna
popolazione e solo se la differenza tra le medie o proporzioni dei campioni può essere attribuita al caso
accettiamo l’ipotesi che le due popolazioni abbiano medie o proporzioni uguali.
Se le due popolazioni sono distribuite normalmente (o se per entrambe n1 e n2≥ 30) e indipendenti,
allora anche la distribuzione campionaria della differenza tra le medie o proporzioni dei campioni è normale
o approssimativamente normale, con errore standard dato da:
X1 X 2
e
2
2
n1
n2
p (1 p )
n1
p1 p 2
per saggiare se
1
=
2
(confronto tra medie)
p (1 p )
per saggiare se p1 = p2 (confronto tra proporzioni)
n2
n1 p1 n2 p2
n1 n2
p
dove:
2
1
p1 e p2 )
(media ponderata di
Esempio 5. Un manager desidera determinare al livello di significatività 5% se le retribuzioni orarie degli
operai sono le stesse in due città. Occorre estrarre un campione casuale di retribuzioni orarie in entrambe le
città e trova che X 1
sono:
€6,00 , X 2
H0:
H1:
=
1 ≠
1
€5,40 ; s1= €2,00, s2= €1,80; n1= 40, n2= 54. Le ipotesi da saggiare
ovvero
ovvero
2
2
H0:
H1:
–
–
1
1
2=
0
≠
0
2
Questo è un test a due code e la regione di accettazione dell’ipotesi nulla H0 è compresa entro ±1,96 al di
sotto della curva normale (Fig. 5-1).
X1 X 2
2
1
2
2
n1
n2
z
( X1
s12
n1
s22
n2
X2) (
1
X1 X 2
2,002
40
2
)
( X1
1,802
54
X2) 0
X1 X 2
0,1 0,06
0,6
0,4
0.16
0,4
1,5
Poichè il valore calcolato di z rientra nella regione di accettazione, si accetta l’ipotesi nulla H 0: 1= 2 al livello
di significatività del 5%. Se entrambe le popolazioni fossero state distribuite normalmente, ma con n 1 e n2
minori di 30 e posto che σ12= σ22 (ma sconosciute), allora la distribuzione campionaria della differenza tra le
medie avrebbe avuto una distribuzione t, con n1+n2-2 gradi di libertà.
Esempio 6. Una ditta desidera determinare con livello di significatività 1% se la proporzione p1 di
componenti elettronici validi di un fornitore straniero supera quella p2 di un fornitore locale. La ditta estrae un
campione casuale dalla fornitura di ciascun fornitore e rileva che p1 = 0,9 e p2 = 0,7 per n1= 100 e n2= 80.
La ditta definisce le due ipotesi seguenti:
H0: p1=p2
H1: p1>p2
Questo è un saggio sulla coda destra della curva e la regione di rigetto dell’ipotesi nulla H0 giace alla destra
di 2,33 sotto la curva normale standard.
p
n1 p1 n2 p2
n1 n2
(100)( 0,9) (80)(0,7)
180
146
180
0,8
25
p1 p 2
p (1 p )
n1
p (1 p )
n2
( p1
z
(0,8)(0,2)
100
p2 ) ( p1
p2 )
p1 p 2
(0,8)(0,2)
80
(0,9 0,7) 0
0,06
0,0016 0,002
0,2
0,06
0,0036
0,06
3,33
Quindi rigettiamo l’ipotesi nulla H0 e accettiamo l’ipotesi che p1>p2 al livello di significatività di 1%.
5.4 Saggio (test) del chi quadrato di congruità e indipendenza
2
La distribuzione del
(chi quadrato) è usata per saggiare se: 1) le frequenze osservate
differiscono significativamente dalle frequenze attese quando sono possibili più di due esiti (risultati); 2) la
distribuzione del campione è binomiale, normale o altro; 3) due variabili sono indipendenti.
La statistica
2
si calcola dai dati del campione come segue:
2
f a )2
( fo
fa
dove f o indica le frequenze osservate e f a le frequenze attese.
2
Se il valore calcolato di
supera il valore tabulare corrispondente al livello di significatività stabilito
e ai gradi di libertà, allora si rigetta l’ipotesi nulla H0 in favore dell’ipotesi alternativa H1.
I gradi di libertà (gl) per le applicazioni 1) e 2) sono dati da:
gl= c-m-1
dove c rappresenta il numero di categorie e m il numero di parametri della popolazione stimati dai
corrispondenti stimatori (statistiche) del campione.
I gradi di libertà per le applicazioni 3), relative ai saggi di indipendenza delle tabelle di contingenza, sono
dati da:
gl= (r-1)(c-1)
dove r indica il numero di righe e c il numero di colonne della tabella di contingenza.
La frequenza attesa f a per ciascun dato di una tabella di contingenza è data da:
fa
r
fo
c
fo
n
dove r e c indicano rispettivamente la somma delle righe e delle colonne di ciascun dato osservato e n
rappresenta la dimensione del campione totale.
Esempio 7. In passato i televisori venduti da un negozio potevano essere ripartiti, in base alle dimensioni
dello schermo, nelle seguenti categorie: 30% con schermo piccolo, 40% medio e 30% grande. Il gestore
decide di determinare se le vendite più recenti rispecchiano la situazione del passato ed estrae un campione
casuale relativo a 100 vendite recenti, osservando che 20 erano televisori con schermo piccolo, 40 con
schermo medio e 40 grande. Per saggiare al livello di significatività del 5% l’ipotesi nulla H 0 che l’andamento
delle vendite recenti sia simile a quello del passato, il gestore deve procedere come segue (Tab. 5.1):
2
gl
(20 30) 2
fa
30
c m 1 3 0 1 2
( fo
f a )2
(40 40) 2
40
(40 30) 2
30
102
30
02
40
102
30
100
30
100
30
6,67
Poichè non si stimano parametri della popolazione m=0. Il valore calcolato di χ2= 6,67 supera il valore della
distribuzione teorica χ2= 5,99 riportato in tabella, con = 5% e gl= 2, quindi si rigetta l’ipotesi nulla H0 e si
conclude che l’andamento delle vendite recenti differisce da quello del passato con livello di significatività del
5%.
26
Esempio 8. Un rivenditore di automobili ha raccolto i dati in Tab. 5.2 sul numero di automobili di produzione
estera e nazionale acquistate da clienti con meno di 30 anni e con più di 30 anni. Per saggiare con livello di
significatività 1% se il tipo di auto acquistata (straniera o nazionale) è indipendente dall’età dell’acquirente, il
rivenditore compila una tabella delle frequenze attese (Tab. 5.3), calcolata in base alla Tab. 5.2.
Per la prima casella: f a ,11
per la terza: f a , 21
(100)(50)
170
fo
r
c
fo
n
(70)(50)
170
29 ; per la quarta: f a , 22
21 ; per la seconda: f a ,12
(100)(120)
170
(70)(120)
170
49
71
Tab. 5.2 Tabella di contingenza per acquirenti di automobili
Età
<30
>30
Totale
Tipo di automobili
Straniere
Nazionali
30
40
20
80
50
120
Totale
70
100
170
Tab. 5.3 Tabella delle frequenze attese per le frequenze osservate in Tab. 5.2
Età
<30
>30
Totale
gl
2
(r 1)(c 1)
f a )2
( fo
fa
Tipo di automobili
Straniere
Nazionali
21
49
29
71
50
120
Totale
70
100
170
(2 1)( 2 1) 1
(30 21) 2
21
(40 49) 2
49
(20 29) 2
29
(80 71) 2
71
9,44
Il valore calcolato di χ2 supera quello riportato in tabella con = 0,01 e gl= 1 (χ2= 6,63), quindi rigettiamo
l’ipotesi nulla H0 che il tipo di auto acquistata sia indipendente dall’età e concludiamo che i giovani hanno
una maggiore propensione ad acquistare automobili straniere
5.5 Analisi della varianza a una via
Se è stato effettuato un esperimento con più trattamenti (campioni) sperimentali e relative medie da
confrontare dovremmo utilizzare una serie di test del t di Student per verificare la significatività di tutte le
possibili coppie di trattamenti. Con tre trattamenti (A, B e C) si dovrebbero effettuare tre diversi confronti (A
con B, A con C e B con C), ma sette trattamenti richiederebbero 21 confronti con il saggio t! A prescindere
dalla complessità richiesta dai confronti multipli, ciò sarebbe scorretto perchè, se adottassimo un livello di
significatività =0,05, su 21 saggi t sarebbe atteso, probabilisticamente, un risultato falso su 21. Per
superare questo inconveniente si utilizza l’analisi della varianza, un metodo di analisi statistica messo a
punto da R.A. Fisher. L’analisi della varianza richiede, se possibile, campioni della stessa dimensione, cioè
con lo stesso numero di repliche per ciascun trattamento sperimentale. Altrimenti occorrono procedimenti più
complessi per ricostruire i dati mancanti.
L’analisi della varianza (ANOVA) si utilizza per saggiare l’ipotesi nulla H0, in base alla quale le
medie di due o più popolazioni sono uguali, rispetto all’ipotesi alternativa che almeno una delle medie sia
differente. Si assume che le popolazioni siano distribuite normalmente, indipendenti e che abbiano
varianza simile. Esistono opportuni test per verificare l’omogeneità (omoscedasticità) delle varianze, ad
27
esempio il test di Bartlett. In alcuni casi è possibile ovviare a questo inconveniente attraverso la
trasformazione dei dati, ad esempio con la trasformazione logaritmica.
L’analisi della varianza prevede le seguenti fasi:
1. Stima della varianza della popolazione dalla varianza tra le medie dei campioni (st2= varianza tra
trattamenti o tesi, Tab. 5.4).
2. Stima della varianza della popolazione dalla varianza entro i campioni (se2= varianza entro
trattamenti o varianza dell’errore, Tab. 5.4)
3. Calcolo del rapporto F (st2/se2 in Tab. 5.4).
F= varianza tra le medie dei campioni/varianza entro campioni
4. Se il rapporto F calcolato supera il valore di F riportato in tabella, in corrispondenza del livello
desiderato di significatività e dei gradi di libertà, si rigetta l’ipotesi nulla H0, che assumeva medie di
popolazioni uguali, in favore dell’ipotesi alternativa H1.
Tab. 5.4 Tabella di analisi della varianza (ANOVA)
Fonte di variazione
Devianza
(somma dei quadrati degli scarti)
Tra le medie
(trattamenti)
Devt
Entro campioni
(errore)
Deve
Totale
Dove:
-
r
Devtot
( xij
(x j
x )2
( xij
x j )2
x )2
Devt
Gradi di
libertà
t 1
(r 1)t
Deve
rt 1
Varianza
st2
Devt
t 1
se2
Deve
(r 1)t
Devtot
rt 1
2
stot
F
F
st2
se2
j= campioni
i= osservazioni
t= numero di campioni (trattamenti o tesi);
r= numero di osservazioni per ciascun campione (repliche o ripetizioni);
-
xj
-
x
-
Devt
i
xij
(media del campione j con i osservazioni);
r
i
j
xij
rt
r (x j
(media generale di tutte le osservazioni);
x )2 (devianza dei trattamenti, somma dei quadrati degli scarti dovuti ai
trattamenti, cioè alla differenza tra campioni);
-
Deve
( xij
x j )2 (devianza dell’errore o residua, somma dei quadrati degli scarti dovuti a
fattori diversi dalla differenza tra campioni);
-
Devtot
( xij
x )2 (devianza totale, somma dei quadrati degli scarti riferiti a tutte le
osservazioni).
La significatività di F per = 0,05 e per = 0,01 può essere saggiata rispetto ai valori riportati nella
tabella della distribuzione di F, in corrispondenza delle coppie di gradi di libertà:
- gl del numeratore= t-1, dove t è il numero di campioni o trattamenti;
- gl del denominatore= (r-1)t, dove r è il numero di osservazioni entro ciascuna campione o
trattamento.
28
Esempio 9. Una ditta vende la stessa quantità dello stesso sapone allo stesso prezzo in tre diverse
confezioni. La Tab. 5.5 riporta le vendite in un periodo di 5 mesi.
Mesi
1
2
3
4
5
Totale
Media
Confezione1
87
83
79
81
80
410 (TC1)
82
Confezione 2
78
81
79
82
80
400 (TC2)
80
Confezione 3
90
91
84
82
88
435 (TC3)
87
1245 (TG)
83
I dati di vendita sono distribuiti normalmente, con varianza simile. Per saggiare al 5% di significatività
se le vendite medie di sapone per i tre tipi di confezione sono uguali o differiscono (H0: 1= 2= 3 oppure
H1: 1, 2 e 3 non sono uguali) si procede come segue:
x1
410
5
Devt r
Deve
82,
x2
400
5
80,
435
5
410 400 435
(5)(3)
x
87,
83
( x j x )2 5[(82 83)2 (80 83)2 (87 83)2 ] 130
x )2
( xij
[(87 82)2
(83 82)2
[78 80)2
(81 80)2
[(90 87) 2
Devtot
x3
( x ij
x )2
(87 83) 2
(91 87)2
(79 82)2
(79 80)2
(84 87) 2
(83 83) 2
(81 82)2
(80 82)2 ]
(82 80)2
(80 80)2 ]
(82 87) 2
(82 83) 2
(88 87)2 ] 110
(88 83) 2
240
Metodo semplificato per il calcolo delle devianze (Sez. 2.5, pag. 7):
Fattore di correzione (FC)= TG2/rt= 12452/15= 103335
2
2
2
2
2
2
Dev t= (TC1 +TC2 +TC3 )/r-FC= (410 +400 +435 )/5-103335= 103465-103335= 130
Dev tot= x2-FC= (872+832+792+∙∙∙∙∙∙∙∙+842+822+882)-103335= 103575-103335= 240
Dev e= Devtot-Devt= 240-130= 110
La devianza dell’errore si può calcolare anche direttamente:
Dev e= [(872+832+∙∙∙∙+802)-4102/5]+[(782+812+∙∙∙∙+802)-4002/5]+[(902+912+∙∙∙∙+882)-4352/5]= 40+10+60= 110
Tab. 5.6 ANOVA per le confezioni di sapone
Fonte di variazione
Tra confezioni
(trattamenti)
Entro confezioni
(errore)
Totale
Devianza
(somma quadrati scarti)
Dev t= 130
Gradi di
libertà
t-1= 2
Dev e= 110
Dev tot= 240
Varianza
st2
130 / 2
65
(r-1)t= 12
se2
110 / 2
9,17
rt-1= 14
2
stot
F
F= 65/9,17= 7,09
240 / 14 17,14
Il valore calcolato di F supera il valore tabulare di F= 3,88 per =0,05 e 2 e 12 gradi di libertà, quindi
rigettiamo l’ipotesi nulla H0, che le vendite medie di sapone siano le stesse per i tre tipi di confezione, e
accettiamo l’ipotesi alternativa H1, cioè che le medie differiscono. Quella illustrata è la forma più semplice di
analisi della varianza, detta a una via o a un fattore; esistono numerosi schemi sperimentali che richiedono
analisi della varianza più complesse, che permettono di ripartire la varianza tra più fattori e di determinarne
le interazioni. Uno degli schemi sperimentali più semplici e più utilizzati nella sperimentazione agraria e
forestale è lo schema a blocchi randomizzati.
29
Esempio 10. Vogliamo confrontare la crescita in coltura (biomassa in mg) di tre ceppi batterici, utilizzando
tre repliche per ciascuno dei tre ceppi.
Replica
1
2
3
x ij
Ceppo A
12
15
9
36
Ceppo B
20
19
23
62
Ceppo C
40
35
42
117
3
12,00
3
20,67
3
39,00
450
1290
4589
n
x
F.C.=
xij ) 2
(
72
69
74
215
23,89
5136,11
2
(215 /9)
rt
x2
x2
Devtot
Totale
6329
1192.89
F .C.
(6329-5136,11)
(
Devt
j
(
xi )
2
xi ) 2
432,00
1281,33
4563,00
r
F .C.
6276,33
1140,22
(6276,33-5136,11)
Deve
x
(
2
j
18
xi ) 2
r
8,67
26
52,67
(6329-6276,33)
Fonte variazione
Trattamenti
Errore (residua)
Totale
GL
2 (t-1)
6 (t(r-1))
8 (tr-1)
Devianze
1140,22
52,67
1192,89
Varianze
570,11
8,78
F
64,93
Il valore calcolato di F 64,93 supera abbondantemente il valore tabulare di F (gl= 2 e 6) con α=0,05 (5,14) e
α=0,01 (10,93) quindi la differenza tra le medie dei trattamenti è altamente significativa.
Differenze minime significative (LSD)
L’analisi della varianza ci dice, tuttavia, se esistono differenze tra i trattamenti nel loro insieme, ma spesso si
desidera conoscere se esistono differenze significative tra le singole coppie di trattamenti. Se si vogliono
confrontare singole coppie di trattamenti, come accade, ad esempio, quando si confrontano i singoli
trattamenti sperimentali con un trattamento di controllo, è possibile utilizzare il metodo delle differenze
minime significative (in inglese LSD= Least Significant Differences), che è simile al test t di Student.
1
) (dove nA e nB sono i numeri di dati delle medie A e B da confrontare).
nB
2
LSD t0, 025 se2
n
Poichè, in genere, nA = nB:
LSD
t0,025 se2 (
1
nA
Nell’esempio precedente:
n=3; GLe=6; t0 , 025
2,447 ; se2
8,78 ; LSD5%
2,447 8,78
2
3
5,92
30
Le differenze tra le medie dei tre ceppi di batteri (tra i ceppi A e B: 8,67; tra B e C: 18,33; tra A e C: 27)
superano il valore di LSD, quindi possiamo affermare che i tre ceppi differiscono significativamente ( =0,05)
nella produzione di biomassa.
Confronti multipli e test di Tukey
Le differenze minime significative possono essere utilizzate per verificare la significatività delle differenze tra
medie quando si effettuano confronti tra coppie di dati, ad esempio quando si confrontano diversi trattamenti
con un unico trattamento di controllo. Nella maggior parte degli esperimenti, dopo aver rilevato differenze
significative tra l’insieme dei trattamenti sperimentali utilizzando l’analisi della varianza, si vogliono
confrontare le singole medie, identificando quelle che differiscono significativamente, cioè si effettuano
confronti multipli. In questo caso sarebbe scorretto utilizzare le differenze minime significative, perchè al
crescere del numero dei confronti varierebbe il livello di significatività, perchè aumenterebbe la probabilità di
rilevare differenze significative. Per ovviare a questo problema sono stati messi a punto una serie di test da
utilizzare nei confronti multipli, che compensano le variazioni nel livello di significatività (test di Bonferroni,
Scheffé, Tukey, Duncan, ecc.).
Il test di Tukey è uno dei più semplici e utilizzati tra i test per confronti multipli.
I requisiti per l’applicazione del test di Tukey sono gli stessi richiesti per l’analisi della varianza:
1) indipendenza delle osservazioni da confrontare;
2) medie derivanti da popolazioni con distribuzione normale;
3) omogeneità delle varianze (omoscedasticità).
Il test di Tukey si basa su una distribuzione Q di intervalli studentizzati, simile alla distribuzione di t, ma con i
valori che variano in base al numero di confronti tra le medie dei trattamenti (campioni) da confrontare.
La procedura prevede le seguenti fasi.
1) Calcolo dell’errore standard dalla varianza dell’errore (residua) ottenuta dall’analisi della varianza:
se2
n
ES
2) Elenco delle medie dei trattamenti sperimentali dal valore più alto al più basso.
3) Calcolo delle differenze tra le coppie di medie ( X n
Xk).
4) Calcolo del valore di Q moltiplicando il valore tabulare di Q (numero di medie che si stanno confrontando;
gradi di libertà dell’errore nell’ANOVA) per l’ES.
5) Confronto della differenza tra le medie confrontate con il valore Q: se la differrenza tra le medie supera il
valore di Q esse differiscono significativamente con = quello riportato nella tabella di Q.
Esempio 11. Applicazione del test di Tukey all’esperimento di confronto fra tre ceppi batterici.
Ceppo
C
B
A
se2
GL
1) Calcolo dell’errore standard: ES
se2
n
Media
39
20,67
12
8,78
a
b
c
6
8,78
3
1,71
2) Valore tabulare di Q (5%, 3 medie, 6 GL)= 4,34.
Q
4,34 1,71 7,42
3) Confronti:
C-B= 39-20,67=18,33>7,42; quindi C e B differiscono significativamente.
C-A= 39-12=27>7,42; quindi A e C differiscono significativamente.
B-A= 20,67-12=8,67>7,42; quindi A e B differiscono significativamente.
Le lettere a destra della tabella indicano le medie significativamente diverse: lettere uguali (in questo caso
assenti) indicano l’assenza di significatività.
31
Esempio 12. ANOVA e test di Tukey
Replica
1
2
3
4
5
xi
Ceppo A
27.0
26.2
28.8
33.5
28.8
144.3
Ceppo B
22.8
23.1
27.7
27.6
24.0
125.2
Ceppo C
21.9
23.4
20.1
27.8
19.3
112.5
Ceppo D
23.5
19.6
23.7
20.8
23.9
111.5
5
28.86
5
25.04
5
22.5
5
22.3
4196.57
3158.5
2576.51
2501.95
4164.49
3135.01
2531.25
2486.45
n
x
F.C.=
(
x)
2
Totale
72
69
74
493.5
24.68
12177,11
(493.52/20)
rt
x2
Devtot
x
2
F .C.
12433.53
256.42
(12433.53-12177.11)
(
Devt
j
(
xi )
2
xi ) 2
r
F .C.
140.10
(12317.21-12177.11)
Deve
x
(
2
j
xi ) 2
r
(256.42-140.09)
32.072
23.492
Fonte variazione
Trattamenti
Errore (residua)
Totale
GL
3 (t-1)
16 (t(r-1))
19 (tr-1)
Devianze
140.10
116.32
256.42
I valori tabulari di F sono: 3,24 per =0,05 e 5,29 per
significative tra le medie dei trattamenti.
Ceppo
A
B
C
D
se2
GL
Calcolo dell’errore standard: ES
se2
n
7,27
5
Media
28,86
25,04
22,50
22,30
7,27
45.26
Varianze
46.70
7.27
15.5
116.32
F
6.42
=0,01, quindi esistono differenza altamente
a
ab
b
b
16
1,21
Valore tabulare di Q (5%, 4 medie, 16 GL)= 4,05.
Q
4,05 1,21 4,88
Valore tabulare di Q (1%, 4 medie, 16 GL)= 5,2.
Q
5,2 1,21 6,27
Confronti:
1) A-B= 28,86-25,04=3,82<4,88; quindi A e B non differiscono significativamente.
2) A-C= 28,86-22,5=6,36>6,27; quindi la differenza tra A e C è altamente significativa (1%).
3) A-D= 28,86-22,3=6,56>6,27; quindi la differenza tra A e D è altamente significativa (1%).
32
4) B-C= 25,04-22,5=2,54<4,88; quindi B e C non differiscono significativamente.
5) B-D= 25,04-22,3=2,74<4,88; quindi B e D non differiscono significativamente.
5) C-D= 22,5-22,3=0,2<4,88; quindi C e D non differiscono significativamente.
Analisi della regressione
6.1 Modello lineare con due variabili
Il modello lineare con due variabili, o analisi della regressione semplice, è utilizzato per saggiare
ipotesi sulla relazione esistente tra una variabile dipendente Y e una variabile indipendente X e per
effettuare previsioni. Una valutazione preliminare della regressione lineare può essere effettuata inserendo i
dati corrispondenti ai valori X e Y in un diagramma cartesiano e rilevando se esiste una relazione lineare
approssimativa:
Yi
b0
b1 X i
dove b0 è l’intercetta e b1 il coefficiente angolare della retta.
E’ improbabile che tutti i punti siano situati esattamente sulla retta corrispondente all’equazione, quindi la
relazione lineare deve essere modificata introducendo un ulteriore elemento, l’errore o elemento
stocastico ui:
Yi
b0
b1 X i
ui
L’errore inserito nell’equazione ha le seguenti caratteristiche: 1) è distribuito normalmente, 2) ha valore
atteso o media zero; 3) la varianza è costante; 4) gli errori ui sono indipendenti, non sono correlati tra loro; 5)
la variabile indipendente Xi e l’errore ui non sono correlati.
Esempio 1. La tab. 6.1 riporta la produzione di mais Y nei dieci anni tra 1971 e 1980, espressa in bushel (1
bushel di mais≈ 25 kg) per acro (1 acro≈ 4000 m 2), derivante dall’uso di quantità crescenti di fertilizzante X,
espresse in libbre (1 libbra≈450 g) per acro. I dati sono riportati nel diagramma sottostante. La relazione tra
la variabile indipendente X e la variabile dipendente Y è approssimativamente lineare.
33
6.2 Metodo dei minimi quadrati
Il metodo dei minimi quadrati consiste in una tecnica che permette di adattare la migliore linea
retta al campione di osservazioni XY e prevede di minimizzare la somma delle deviazioni dalla retta
(secondo l’asse verticale, delle ordinate) al quadrato:
(Yi Yˆi ) 2
Min
dove Yi si riferisce ai valori osservati per la variabile dipendente, mentre Yˆi si riferisce ai valori
corrispondenti adattati, il valore Yi Yˆi ei si definisce residuo.
Si possono definire due equazioni normali:
Yi
nb0
bˆ1
Xi
X iYi
e
bˆ0
Xi
bˆ1
X i2
Risolvendo simultaneamente le due equazioni si ottiene:
bˆ1
Xi
X iYi
X i2
(
Yi
n
X i )2
n
34
Il valore dell’intercetta b̂0 è dato da:
bˆ0
Y
bˆ1 X
E l’equazione della retta di regressione stimata sulla base dei minimi quadrati è:
Yˆi
bˆ0
bˆ1 X i
Esempio 2. Calcolo della retta di regressione relativa alla relazione tra concimazione e produzione di mais
in tab. 6.1.
Tab. 6.2 Dosi di fertilizzante e produzione di mais
2
n
Yi
Xi
XiYi
Xi
mais
fert.
1
40
6
240
36
2
44
10
440
100
3
46
12
552
144
4
48
14
672
196
5
52
16
832
256
6
58
18
1044
324
7
60
22
1320
484
8
68
24
1632
576
9
74
26
1924
676
10
80
32
2560
1024
2
n= 10
Yi 570
X i 180
X iYi 11216
X i 3816
Y 57
X 18
X i Yi / 10 10260
( X i )2 / 10 3240
Xi
X iYi
bˆ1
X
2
i
bˆ1 X
(
Yi
n
X i )2
11216 10260
3816 3240
956
576
1,66 (coefficiente angolare della retta di regressione)
n
bˆ0
Y
Yˆi
27,12 1,66 X i (equazione della retta di regressione stimata)
57 (1,66)(18) 57 29,88 27,12 (intercetta sull’asse Y)
35
6.3 Saggi di significatività delle stime dei parametri
Per saggiare la significatività delle stime dei parametri della regressione occorre calcolare la
varianza di b̂0 e di b̂1 : è possibile dimostrare che:
Var bˆ0
2
u
X i2
n
X
2
i
(
Xi )
Var bˆ1
e
2
2
u
X
2
i
1
(
X i )2
2
La varianza dell’errore attribuibile alla relazione tra Xi e Yi, u , non è conosciuta, ma la varianza residua s2
può essere usata come sua stima puntuale (valore più plausibile del parametro varianza calcolato dal
campione):
s2
2
u
ei2
n k
ˆ
Yi rappresenta l’errore (definito anche disturbo o termine stocastico) e misura la deviazione
dove ei Yi
di ciascun valore Y osservato della variabile dipendente dal valore vero ma non osservato situato sulla retta
di regressione; Yˆi è il valore calcolato in corrispondenza di ciascun X Y sulla retta di regressione; n è il
numero di osservazioni e k è il numero di parametri stimati, che nella regressione semplice sono 2,
l’intercetta e il coefficiente angolare).
ei2
2
bˆ0
s
Quindi:
2
dove sbˆ
0
n 2n
X i2
X
2
i
(
Xi )
2
;
2
bˆ1
s
ei2
n 2
X
2
i
1
(
X i )2
2
e sbˆ sono gli errori standard delle stime. Poichè l’errore ui è distribuito normalmente, lo sono
1
ancheYi, b̂0 e b̂1 , quindi è possibile utilizzare la distribuzione di t con n-k gradi di libertà per saggiare le
ipotesi e ricavare gli intervalli di confidenza per b̂0 e b̂1 .
Esempio 3. In tab. 6.3 sono riportati i calcoli richiesti per valutare la significatività di b̂0 e b̂1 . I valori di Yˆi
(valori attesi di Y) sono stati ottenuti introducendo i valori di Xi nell’equazione di regressione trovata
nell’esempio 2 ( Yˆi 27,12 1,66 X i ).
n
1
2
3
Yi
mais
40
44
46
4
48
5
52
6
7
58
60
8
9
10
68
74
80
Somme
570
( Yi ) 2
32490
Tab. 6.3 Dosi di fertilizzante e produzione di mais
Xi
ei
ei2
Xi2
Yi2
Yˆi
fert.
6
37,80 2,92
8,53
36
1600
10
43,72 0,28
0,08
100
1936
12
47,04
1,08
144
1,04
2116
14
50,36
5,56
196
2,36
2304
16
53,68
2,82
256
1,68
2704
18
57,00 1.00
1,00
324
3364
22
63,64
13,25
484
3,64
3600
24
66,96 1,04
1,08
576
4624
26
70,28 3,72
13,84
676
5476
32
80,24
0,06 1024
0,24
6400
180
47,3056 3816 34124
( X i )2
3240
36
sb2ˆ
0
2
bˆ1
s
ei2
n 2n
X i2
X
ei2
n 2
X
2
i
2
i
(
1
(
Xi )
Xi )
47,3056 3816
10 2 10(576)
2
2
47,3056
(10 2)576
sb̂
3,92 ;
3,92 1,98
0
sb̂
0,01 ;
0,01 0,1
1
Ipotesi nulla H0: b0=0; b1=0
t0
bˆ0 b0
sbˆ
27,12 0
13,7 ;
1,98
bˆ1 b1
sbˆ
t1
0
1,66 0
16,6
0,1
1
poichè entrambi t0 e t1 superano il valore di t=2,306 (8 g.l.,
statisticamente significativi al livello del 5%.
=5%), concludiamo che sia b0 sia b1 sono
Correlazione
La conoscenza del rapporto di causa/effetto tra la variabile indipendente (X) e quella dipendente (Y)
è un requisito essenziale dell’analisi di regressione. Un esempio tipico nell’uomo è la relazione tra altezza e
peso, perchè è ovvio che il peso, salvo situazioni anomale di magrezza o obesità, è funzione dell’altezza, ma
non l’altezza del peso; nelle piante l’altezza è funzione dell’età. Altri esempi possono essere la quantità e la
qualità del cibo consumato e il peso nell’uomo, o la quantità di fertilizzante e la produzione di granella nelle
piante. In altri casi, invece, non esiste o non è possibile determinare la relazione di causa effetto tra due
variabili, ma si vuol determinare se tra di esse esiste una correlazione diretta o inversa, cioè se
all’incremento di una delle variabili corrisponde un incremento o un decremento dell’altra. Un esempio può
essere la relazione tra altezza della pianta e circonferenza del tronco: non esiste una relazione di
causa/effetto tra le due variabili, ma entrambe dipendono da una terza variabile, l’età della pianta. Un altro
esempio potrebbe essere lo sviluppo dell’apparato radicale e della chioma: sono correlati, ma non è
possibile determinare il rapporto di causa/effetto. In questi casi si utilizzano due parametri statistici: il
coefficiente di correlazione r e il coefficiente di determinazione R2 (indicato anche con r2). Il calcolo di
questi coefficienti è utile anche quando è stata determinata la retta di regressione che interpola i punti che
mettono in relazione due variabili collegati da una chiara relazione di causa/effetto.
Coefficiente di correlazione:
r
cov( X , Y )
X
Xi
X iYi
Y
(
X
2
i
(
Xi )
N
Yi
N
2
)(
Yi
(
Yi ) 2
N
)
Coefficiente di determinazione:
R2
r2
Il coefficiente di correlazione r può assumere valori compresi tra -1 e +1; il valore -1 indica una
perfetta correlazione negativa tra le due variabili, il valore +1 una perfetta correlazione positiva, mentre il
valore 0 indica assenza di correlazione. I valori intermedi indicano diversi livelli di correlazione positiva o
negativa.
Il coefficiente di determinazione R2 può assumere valori positivi compresi tra 0 e +1 e indica la forza,
l’entità della correlazione tra le due variabili, ma non ci dà alcuna indicazione sulla direzione, positiva o
negativa, della correlazione.
Il coefficiente di determinazione, in associazione con la regressione, ci fornisce una misura della
frazione della variabilità totale della variabile dipendente Y spiegata, giustificata dalla regressione tra X e Y.
Esempio 4. Calcolare i coefficienti di correlazione e di determinazione dei dati riguardanti la concimazione di
mais (Tab. 6.3).
37
Xi
X iYi
r
(
X i2
(
Xi )
N
Yi
N
2
)(
Yi 2
R2
(
Yi )
N
r2
2
)
11216 10260
(3816 3240)(34124 32490)
956
970,15
0,9854
0,9854 2
0,9710 (ovvero r2= 97,1%)
In questo esperimento, quindi, l’equazione di regressione giustifica, spiega circa il 97% della variabilità totale
riscontrata nella produzione di mais, mentre il 3% residuo può essere attribuito a fattori inclusi nell’errore,
cioè a deviazioni dalla retta di regressione. Il valore positivo di r=0,9854 indica che la correlazione tra le
variabili X e Y è positiva.
La Fig. 6-3 illustra la variazione di Y totale, spiegata dalla regressione e residua.
38