statistica - AgrariaFree

annuncio pubblicitario
Università degli studi di Sassari
Facoltà di Agraria
Sede di Oristano
CORSO DI LAUREA IN TECNOLOGIE ALIMENTARI
CORSO DI LAUREA IN VITICOLTURA ED ENOLOGIA
DISPENSE DEL CORSO DI
STATISTICA
Docente
NICOLO’ MACCIOTTA
DIPARTIMENTO DI SCIENZE ZOOTECNICHE
ANNO ACCADEMICO 2003/2004
1
INTRODUZIONE
La statistica è un settore della matematica applicata che si occupa dell’analisi e dell’interpretazione
dei dati numerici. Nel linguaggio comune, la statistica è solitamente associata all’idea di indagini di
tipo sociologico, politico o economico, che mirano ad esempio a valutare la frazione di italiani che
sono impiegati in un particolare settore o che votano per un determinato partito politico o che fanno
uso di un particolare prodotto e così via. In realtà l’esame accurato dei dati numerici e l’estrazione
delle informazioni in essi contenute è una esigenza prioritaria di molti settori del mondo della
ricerca e del lavoro. Ad esempio, al responsabile della produzione di un caseificio capita spesso di
esaminare i referti delle analisi chimiche condotte sul latte proveniente da diversi allevamenti: da
questi dati egli può trarre delle informazioni utili per valutare eventuali differenze tra i contenuti in
grasso e proteine nelle varie zone di produzione oppure per mettere in relazione la composizione
chimica del latte con la resa alla caseificazione nei vari tipi di formaggi che il caseificio produce.
Una tale interpretazione dei dati originari viene realizzata attraverso i metodi della statistica che
consentono di riassumere i dati, di analizzarli e di rappresentare i risultati dell’analisi in maniera
sintetica ma altamente informativa.
La statistica viene solitamente suddivisa in Statistica descrittiva e Statistica Inferenziale.
La statistica descrittiva comprende i metodi atti a fornire una descrizione più efficace dei dati, in
maniera da renderli più immediatamente leggibili e più facilmente interpretabili: a tale scopo si
avvale di misure riassuntive, di rappresentazioni tabulari e grafiche.
La statistica inferenziale parte dai risultati osservati su un limitato numero di unità sperimentali allo
scopo di trarne delle considerazione di carattere generale. Di solito quando si conduce un
esperimento o anche una indagine, i dati che si registrano hanno una numerosità limitata. Ad
esempio, un’industria mangimistica che vuole produrre un nuovo mangime per ovini da latte, può
fare riferimento ad un gregge di 500 pecore, che viene suddiviso in due gruppi di 250 pecore
ciascuno: uno alimentato con il nuovo mangime l’altro con il mangime tradizionale dell’azienda. Su
tutti i 500 animali viene misurata la produzione di latte (variabile di risposta) per verificare se gli
animali alimentati con il nuovo mangime producono di più rispetto a quelli alimentati con il
prodotto tradizionale. Ciascun animale costituisce una unità sperimentale e l’insieme dei 500
animali costituisce il campione. E’ ovvio che la ditta che ha organizzato l’esperimento non è
interessata a produrre un mangime che determini una maggiore produzione solamente in quelle 250
pecore coinvolte nell’esperimento (campione). Il suo scopo è invece quello di mettere a punto un
prodotto valido per l’alimentazione degli ovini da latte in generale (popolazione). A tal fine i
risultati ottenuti sul campione debbono servire per trarre delle conclusioni che siano generalizzabili,
cioè estendibili alla popolazione.
2
VARIABILI
Per variabile si intende una qualsiasi grandezza, relativa ad un particolare fenomeno che si esprime
attraverso un valore numerico e che può assumere valori diversi: il peso di un animale, il contenuto
in proteina del latte prodotto da una bovina, il contenuto glucosio dell’uva, la positività ad un test
per la ricerca di contaminanti in un prodotto alimentare etc. Una variabile è detta casuale quando i
valori che essa può assumere dipendono unicamente dal caso. Un esempio classico di variabile
casuale è il punteggio che si totalizza quando si lancia una coppia di dadi (non truccati!). La
variabile invece è detta deterministica quando il fenomeno da essa rappresentato segue delle leggi
che consentono di prevederne con esattezza i valori. Nella realtà tanto la completa casualità quanto
il completo determinismo sono delle idealizzazioni e tutte le variabili di interesse scientifico e
tecnologico sono un misto di casualità e determinazione. Un esempio di tale mescolanza di caso e
determinazione è riportato nella tabella 1.
Tabella 1. Fattori che influenzano una variabile biologica
Peso di un bovino
Età
Sesso
Parte
Razza
Deterministica
Tipo di alimentazione
Altri fattori che non conosciamo
parte casuale
Il peso di un bovino è una tipica variabile biologica e presenta un ampio campo di variazione: si va
da vitelli alla nascita che pesano 30 kg sino a tori adulti di razze da carne che possono
tranquillamente pesare kg 1200. Alcune delle cause che determinano questa variabilità sono note:
animali adulti sono di solito più pesanti di quelli giovani, i maschi pesano più delle femmine, i
bovini di razze specializzate per la produzione della carne sono più pesanti di quelli appartenenti a
razze da latte, un bovino ben alimentato pesa di più di un altro alimentato in maniera inadeguata etc.
Questo elenco di fattori costituisce la parte deterministica della variabilità del fenomeno. Il peso
però è anch’esso una variabile in parte deterministica ma in parte casuale: se infatti si prendono
della due bovini della stessa razza, sesso, età, tipo di alimentazione, difficilmente avranno
esattamente lo stesso peso. Questo perché esiste però un’altra serie di fattori che influenzano il peso
del bovino ma che noi non conosciamo. Essi costituiscono la parte casuale della variabilità del
fenomeno.
3
Scopo fondamentale della statistica è quello di aumentare la parte deterministica, o spiegata, di un
fenomeno, riducendo nel contempo la quota della variabilità casuale (non spiegata o residua).
Ritornando all’esempio precedente sul peso del bovino, il risultato della statistica può essere
riassunto nei due seguenti punti:
1) Aumento della capacità esplicativa relativamente al fenomeno in esame
Aumentano le conoscenze sui fattori che fanno variare il peso nei bovini;
2) Aumento del potere previsionale.
Possibilità di prevedere il peso che un bovino può avere quando non lo si può
misurare direttamente ma si conoscono i fattori che lo condizionano
In base alla modalità di espressione del fenomeno di cui sono espressione, le variabili si distinguono
in variabili continue e variabili discontinue.
Una variabile si dice continua o quantitativa quando può essere misurata in una scala graduata
(metri, centimetri etc.) e può assumere tutti i valori possibili tra gli estremi della scala. Ad esempio
il peso di una pecora di razza Sarda (figura 1)
35
↑
↑
40
45
50
↑
↑
↑
↑
37,5
55
60
↑
↑
65
↑
52,4
Se si considera un intervallo di peso che va da 35 a 65 kg, è possibile trovare animali che hanno uno
qualunque degli innumerevoli valori di peso compresi fra questi estremi. Rifacendoci a quanto
riportato in figura 1, accanto alla pecora che pesa 37,5 kg è possibile trovarne una che pesa 37,6, e
tra queste due si può trovarne un’altra che pesa 37,55 etc. Quindi una caratteristica importante di
questo tipo di variabili è proprio la variazione continua, cioè per quantità infinitesime e non solo
per bruschi salti. Molte delle variabili di interesse del settore agro-alimentare sono di tipo continuo:
la produzione giornaliera di latte, il contenuto in grasso del latte, il grado zuccherino di un mosto
etc.
Una variabile discreta o qualitativa invece è quella che assume valori discontinui, che consentono
solamente la classificazione della unità sperimentali in categorie. Ciò che solitamente si fa con
questo tipo di variabili infatti è il conteggio delle unità sperimentali che presentano un determinato
valore del carattere, cioè la determinazione delle frequenze. Un esempio è il caso della positività o
4
meno di un animale ad un test che diagnostica una determinata malattia: il risultato può essere
positivo o negativo, non esistono altre possibilità. Pertanto, se il test viene eseguito su 100 animali
si potranno contare il n. di animali positivi (ad es. 10) e di quelli negativi (90).
Ai fini dell’elaborazione statistica, la differenza tra tipi di variabili ha profonde conseguenze e le
metodologie adottate per sono talvo lta molto differenti fra loro.
5
TECNICHE DI STATISTICA DESCRITTIVA
Misure di centro di un insieme di dati
Come detto in precedenza, la statistica descrittiva comprende tutte le tecniche che consentono di
descrivere in maniera più strutturata, sintetica ed efficace i dati originari. Un esempio classico di
rappresentazione dei dati è quello tabulare. Nella tabella seguente sono riportate le produzioni totali
per lattazione (espresse in quintali) di 40 bovine suddivise in due mandrie di 20 bovine ciascuna. .
Tabella 2. Produzione di latte (quintali/lattazione) di due mandrie di bovine (da Grasselli)
Vacca
MANDRIA A
Vacca
MANDRIA B
1
60,1
21
77,3
2
52,6
22
67,8
3
64,6
23
79,1
4
68,8
24
64,4
5
67,7
25
78,5
6
59,5
26
53,0
7
74,9
27
83,6
8
64,2
28
69,2
9
60,2
29
54,1
10
54,3
30
82,4
11
61,3
31
54,7
12
47,4
32
76,2
13
78,4
33
73,0
14
67,3
34
45,6
15
84,4
35
54,6
16
74,9
36
49,8
17
63,6
37
48,7
18
58,1
38
77,9
19
59,4
39
46,5
20
69,5
40
54,9
La rappresentazione tabulare, cioè la semplice registrazione ordinata dei dati, è difficilmente
leggibile però nel caso di insiemi di dati di numerosità elevata: già nel caso sopra riportato di 40
dati la tabella si presenta molto fitta e di non agevole leggibilità.
6
Un primo passo verso una rappresentazione più sintetica dell’insieme di dati riportato nella tabella 1
è quello del calcolo di una misura di tendenza centrale, cioè del centro di gravità della distribuzione
dei dati. Tra le misure di centro possono essere ricordate la mediana, la moda e la media aritmetica.
La moda di un insieme di dati è quel valore che si presenta con la maggiore frequenza. Nel caso
delle due mandrie riportate nella tabella 1, si può notare come nella mandria A il valore 74,9 sia
presente due volte mentre gli altri valori sono presenti tutti una sola volta; pertanto la moda della
mandria A è pari a 74,9. Nel caso della mandria B invece, i 20 valori sono tutti uno diverso
dall’altro, hanno perciò la stessa frequenza e pertanto non esiste una moda. Un insieme di dati
potrebbe avere più mode (ad esempio, nella prima mandria poteva esserci un altro numero che,
come 74,9, si ripeteva due volte): si possono avere pertanto distribuzioni bimodali, trimodali etc. In
campo scientifico la moda non è una misura di centro molto utile. Il concetto di moda, al contrario,
è usato diffusamente nel linguaggio comune in senso qualitativo: un modello di auto “di moda” è un
modello molto venduto e quindi risulta molto frequente vederlo sulle strade. La moda è una misura
che può essere utilizzata sia per variabili quantitative che qualitative, ed influenzata da valori
cosiddetti outliers, cioè che i discostano notevolmente dagli altri (ad esempio se nella mandria A ci
fosse una bovina che producesse 110 quintali).
La mediana di un insieme di dati ordinato in maniera crescente è quel dato che si trova esattamente
nel mezzo dell’insieme. Nel caso il numero dei dati sia dispari, la mediana è esattamente in valore
centrale, mentre nel caso sia pari, la mediana è data dalla media dei due valori centrali. Tornando
all’esempio delle vacche, se si ordinano i dati in maniera crescente (tabella 3) si nota come la
mediana della prima mandria sarà 63,9 (cioè il valore medio tra l ‘11° ed il 10° valore,
(63,6+64,2)/2) mentre quella della seconda 66,1 ((64,4+67,8)/2). La mediana è abbastanza usata
come misura del punto centrale di grandi insiemi di dati, può essere applicata solamente alle
variabili quantitative.
7
Tabella 3. Produzione di latte (quintali/lattazione) di due mandrie di
bovine (da Grasselli), con dato ordinati in maniera crescente.
Vacca
MANDRIA A
Vacca
MANDRIA B
12
47,4
34
45,6
2
52,6
39
46,5
10
54,3
37
48,7
18
58,1
36
49,8
19
59,4
26
53,0
6
59,5
29
54,1
1
60,1
35
54,6
9
60,2
31
54,7
11
61,3
40
54,9
17
63,6
24
64,4
8
64,2
22
67,8
3
64,6
28
69,2
14
67,3
33
73,0
5
67,7
32
76,2
4
68,8
21
77,3
20
69,5
38
77,9
7
74,9
25
78,5
16
74,9
23
79,1
13
78,4
30
82,4
15
84,4
27
83,6
La media aritmetica o semplicemente media di un insieme di dati è data dalla somma dei valori dei
dati (xi) divisa per la loro numerosità (n).
X =∑
xi
n
Solitamente la media di un campione viene indicata con le lettere barrate in alto. Continuando con
l’esempio delle bovine, la media della mandria A sarà 64,56 mentre quella della mandria B sarà
64,56. La media aritmetica è probabilmente la statistica descrittiva di uso più comune. Essa ha un
8
grande potere esplicativo sulla struttura dei dati. La media aritmetica può essere utilizzata solo per
le variabili quantitative ed è sensibile, soprattutto per insiemi di dati di numerosità ridotta, alla
presenza di outliers.
Riassumendo la situazione delle due mandrie rispetto alle misure di centro è:
Tabella 4. Misure di centro dei dati riportati nelle tabelle 1 e 2.
Mandria A
Mandria B
Mediana
63,9
66,1
Moda
74,9
-
Media
64,56
64,56
Il fatto che le due mandrie presentino la stessa media porterebbe a trarre la conclusione che i due
insiemi di dati sono molto simili fra di loro. In realtà, se si osservano con attenzione i dati della
tabella 2, si può notare come nella mandria A i valori delle produzione delle 20 vacche siano
abbastanza simili fra di loro e vicini al valore medio, mentre nella mandria B siano piuttosto
differenti fra loro e anche distanti dalla media. Le due mandrie presentano pertanto una uguale
misura di centro (la media aritmetica) ma hanno una diversa dispersione dei dati intorno al centro.
Ciò significa che la media sintetizza solo una parte dell’informazione relativa alla struttura dei dati.
La diversa struttura dei due ins iemi dei dati considerati nell’esempio può essere evidenziata
utilizzando una rappresentazione grafica, l’istogramma di frequenza.
Un istogramma di frequenza è solitamente un grafico a barre verticali che presenta sull’asse delle
ordinate delle frequenze (relative oppure assolute) e sull’asse delle ascisse gli intervalli di ampiezza
delle classi in cui viene suddiviso il campo di variabilità della variabile oggetto di studio.
L’istogramma si costruisce attraverso questi passi:
•
Ordinamento dell’insieme di dati in maniera crescente;
•
Suddivisione dell’intervallo compreso tra il valore più alto e quello più basso (cioè il campo
di variabilità) in una serie di classi (a seconda dei casi non meno di 5 e non più di 20);
•
Conta delle frequenze entro ciascuna classe;
•
Rappresentazione delle frequenze su un grafico a barre.
9
Continuando l’esempio delle due mandrie, riprendiamo i dati riportati nella tabella 2 e poniamo di
suddividerli in otto classi a partire da quella che comprende valori di produzione inferiori ai 50
quintali sino alla classe con produzione superiore agli 80 quintali. La tabella 5 riporta le frequenze
assolute (cioè il numero di vacche presenti in ogni classe) per ciascuna delle due mandrie.
Tabella 5. Frequenze assolute per classi di produzione nelle due mandrie
Classe
Frequenze
Mandria A
Mandria B
Meno di 50
1
4
Tra 50 e 55
2
5
Tra 55 e 60
3
0
Tra 60 e 65
6
1
Tra 65 e 70
4
2
Tra 70 e 75
2
1
Tra 75 e 80
1
5
Più di 80
1
1
L’osservazione della tabella evidenzia come la distribuzione delle bovine nelle diverse classi di
produzione sia nettamente diversa nelle due mandrie. Tale conclusione è confermata in maniera
immediata dagli istogrammi delle frequenze assolute delle due mandrie riportati nelle figure 1a e
1b.
7
6
5
4
3
2
1
0
6
5
4
3
2
1
<50
5055
5560
6065
6570
7075
7580
0
>80
<50
5055
5560
6065
6570
7075
7580
>80
Figura 1a. Istogramma di frequenza dei dati della Figura 1b. Istogramma di frequenza dei dati
mandria A.
della mandria B.
10
Nella mandria A infatti l maggior parte della bovine si trova nella classe che contiene la media
(quella centrale, che va da 60 a 65 quintali) o in quelle vicine. Nella mandria B invece la classe
centrale comprende 1 sola bovina e addirittura quella tra 55 e 60 nessuna. La due mandrie quindi,
pur avendo medie uguali, presentano una distribuzione dei valori intorno alla media, o dispersione
dei dati intorno alla media, decisamente differente. Questo tipo di informazione sulla struttura dei
dati non ci viene data dalle misure di centro ma bisogna ricorrere a misure di variabilità o
dispersione.
Misure di dispersione
La misura di dispersione più immediata è il campo di variabilità o range, dato dalla differenza fra il
valore più alto e quello più basso dell’insieme di dati. Nel caso della mandria A il campo di
variabilità è 37 (84,4 - 47,4) nella mand ria B è 38 (83,6 – 45,6). Si può notare da questo esempio
come il campo di variabilità sia una misura di scarsa rilevanza pratica: nelle due mandrie esso è
infatti pressoché simile e pertanto non permette di cogliere le differenze strutturali dei due insiemi
di dati.
Una altra misura di variabilità è rappresentata dal percentile. Il p-esimo percentile di un insieme di
dati ordinato in maniera crescente è quel valore che ha il p% di dati al di sotto. Ad esempio, il 25°
percentile della mandria A è il valore che lascia al di sotto di sé il 25% dei dati (in questo caso 5
dati) ordinati in maniera crescente: in particolare il suo valore è pari 59,475. Come si nota il valore
del percentile non è un valore che compare nell’insieme dei dati ma viene calcolato con delle
apposite formule. Il 50° percentile di un insieme di dati è la mediana. Il percentile è una misura
molto utilizzata in campo medico. I percentili di interesse sono solitamente il 25°, il 50° ed il 75° e
sono denominati quartile inferiore, quartile mediano e quartile superiore rispettivamente. Il range
interquartile (IQR) di un insieme di dati è la differenza fra il percentile superiore (75°) e quello
inferiore (25°). Nel caso della mandria A, il range interquartile sarà 68,25 (75°) – 59.475(25°)=
8,775. L’IQR viene utilizzato per paragonare la variabilità di due insiemi di dati. Nel caso delle due
mandrie, quello della mandria A è 8,775 mentre quello della mandria B è 22,925. Quindi questa
misura di variabilità inizia ad evidenziare la differenza nella dispersione di dati che esiste fra le due
mandrie.
Dalla combinazione delle mediana con il range interquartile si ottiene una rappresentazione grafica
dei dati molto efficace nota come Box-Whiskers Plot. In questa rappresentazione (Figure 2a e 2b)
viene infatti indicata sia una misura di centro che una di variabilità. Il rettangolo (o quadrato nel
caso della figura 2b) rappresenta il range interquartile mentre la linea orizzontale interna è la
11
mediana delle due mandrie. La maggiore dimensione del rettango lo nella figura 2b evidenzia la
maggiore dispersione dei dati attorno alla mediana.
Figura 2a. Rappresentazione Whiskers Plot dei dati
Figura 2b. Rappresentazione Whiskers Plot dei
della mandria A
dati della mandria B
Tuttavia, la misura più utilizzata per la descrizione della variabilità di un insieme di dati è
certamente la varianza. Intuitivamente, una maniera immediata per verificare quale sia la
dispersione di ogni singolo dato (xi) rispetto alla media ( x ) è quella del calcolo dello scarto del dato
da quest’ultima. Cioè ritornando al caso della mandria si dovrebbe fare (60,1-64.56), quindi (52,664,56) e così via. Sfortunatamente però se si sommano tutti gli scarti dalla media, per la definizione
stessa della media, alla fine si otterrà zero. Questo ostacolo viene superato elevando ciascuno scarto
al quadrato. Alla fine si giunge al calcolo della varianza, o scarto quadratico medio, che è dato dalla
somma degli scarti al quadrato di ciascun dato (xi ) dalla media ( x ), diviso per il numero di dati (n)
meno uno.
S =∑
2
(xi − x )2
n −1
[1]
Nello schema seguente è riportato per esteso il calcolo della varianza per la mandria A.
12
Mandria A
Media
Scarti
Scarti al quadrato
60,1
64,56
-4,46
19,8916
52,6
64,56
-11,96
143,0416
64,6
64,56
0,04
0,0016
68,8
64,56
4,24
17,9776
67,7
64,56
3,14
9,8596
59,5
64,56
-5,06
25,6036
74,9
64,56
10,34
106,9156
64,2
64,56
-0,36
0,1296
60,2
64,56
-4,36
19,0096
54,3
64,56
-10,26
105,2676
61,3
64,56
-3,26
10,6276
47,4
64,56
-17,16
294,4656
78,4
64,56
13,84
191,5456
67,3
64,56
2,74
7,5076
84,4
64,56
19,84
393,6256
74,9
64,56
10,34
106,9156
63,6
64,56
-0,96
0,9216
58,1
64,56
-6,46
41,7316
59,4
64,56
-5,16
26,6256
69,5
64,56
4,94
24,4036
Somma degli scarti al quadrato
=1546,068
Varianza = 1546,068/19
=81,372
Analogamente si può calcolare la varianza della mandria B, che è pari a 176,494. Si può notare
quindi come la varianza della seconda mandria è pari a più del doppio di quella della prima. Quindi
questa nuova misura di variabilità è in grado di cogliere la differente dispersione dei dati attorno
alla media nelle due mandrie (cosa che ad esempio non riusciva a fare il range) e indica come tale
dispersione sia maggiore nella mandria B rispetto alla A. Infatti, maggiore è la varianza di un
insieme di dati, maggiore è la sua dispersione attorno ad un valore centrale.
Un inconveniente della varianza è dato dal fatto che essa è una misura quadratica per cui, ad
esempio, nel caso del latte essa deve essere espressa in quintali al quadrato. Per ricondurla alla
stessa unità di misura dei dati si estrae la radice quadrata e si ottiene la deviazione standard.
13
S=
∑
( xi − x )2
[2]
n −1
I valori della deviazione standard nelle due mandrie sono rispettivamente 9,02 e 13.28 e sono
espressi in quintali, cioè nella stessa unità di misura dei dati originari, in cui risulta espressa anche
la media. A questo punto abbiamo gli elementi di statistica descrittiva che ci possono permettere di
caratterizzare i due insiemi dei dati. Una indicazione corretta dei risultati è questa:
MANDRIA A
MANDRIA B
64,56 ± 9,02
64,56 ± 13,28
questa dicitura sta ad indicare come le due mandrie abbiano la stessa media ma diversa variabilità,
espressa dalla deviazione standard, che per consuetudine viene rappresentata subito dopo la media
preceduta dal segno ±.
Se si ritorna alle figure 2a e 2b, si nota come la media rappresenta effettivamente il centro
dell’insieme dei dati soprattutto nei casi in cui questi hanno una struttura simile a quella della
madria A. Esistono però delle variabili che hanno una struttura notevolmente diversa e per le quali
la media aritmetica non ha molto significato. Un caso tipico è rappresentato dal contenuto in cellule
somatiche del latte (CCS), parametro essenziale per la valutazione della qualità del latte e dello
stato sanitario dell’animale, che presenta solitamente una distribuzione fortemente asimmetrica. In
figura 3 è riportata la distribuzione del cellule somatiche del latte di 88 pecore di razza Sarda,
raggruppati in classi di ampiezza di 400000. Si può notare come la distribuzione sia fortemente
asimmetrica, con la grande maggioranza dei dati concentrati nelle classi di minor valore, ma
assieme alla presenza di dati anche nelle classi di valore elevato.
14
35
media=1.752.000
n. individui
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
classi di CCS (da 0 a 8.800.000)
Figura 3. Distribuzione dei dati del CCS di pecore Sarde, raggruppati in classi di ampiezza di
400000
Questa particolare distribuzione fa sì che la rappresentatività della media come valore centrale
dell’insieme di dati venga meno: la media aritmetica infatti è pari a 1,752,000 cellule per millilitro
di latte ed è rappresentata con la linea verticale sottile nel grafico ma è distante dalla zona dove
sono localizzati la maggioranza dei dati. Questo perché i dati delle classi elevate, pur non essendo
molti, hanno il potere di trascinare la media verso un valore superiore, distante dal reale centro
dell’insieme dei dati. In questi casi possono essere adottate due soluzioni: la trasformazione dei dati
o l’utilizzo di misure di centro diverse dalla media aritmetica.
La trasformazione dei dati consiste nel trasformare mediante operazioni semplici la variabile
originaria in modo da modificarne la distribuzione e renderla più simile a quella della figura 2a. Nel
caso dei dati raffigurati in figura 3, la trasformazione della variabile (numero di cellule per millilitro
di latte) nel suo logaritmo in base 10, comporta la modificazione della distribuzione, rappresentata
in figura 4. Si nota come la struttura dei dati, pur rimanendo ancora irregolare sia nettamente
diversa da quella della variabile non trasformata e come in questo caso la media (2,87) sia
effettivamente un indice abbastanza fedele del centro dell’insieme di dati.
15
n. individui
18
16
14
12
10
8
6
4
2
0
media=2,87
1,75<
1,75-2
2-2,25
2,25-2,5 2,5-2,75
2,75-3
3-3,25
3,25-3,5 3,5-3,75
3,75-4
LOG CCS
Figura 4. Distribuzione del logaritmo in base 10 dei dati riportati in figura 3.
Per quanto riguarda invece l’adozione di misure di centro diverse dalla media aritmetica, una
misura utilizzata spesso proprio nel caso delle cellule somatiche è la media geometrica. La media
geometrica di un insieme di n dati è data dalla radice n-esima del prodotto degli n dati
Media geometrica =
n
x ⋅ x ⋅ ....... ⋅ x
1
2
[3]
n
ad esempio, la media geometrica dei numeri
8
15
22
24
sarà
4
8 × 15 × 22 × 24
= 15,8655
Un’altra misura alternativa alla media aritmetica è quella della media tronca, che si ottiene
calcolando la media aritmetica dell’insieme dei dati oggetto di studio escludendo però i valori
estremi (outliers).
16
PROBABILITA’ E DISTRIBUZIONI DI PROBABILITA’
Definizione della probabilità.
Il concetto di probabilità è alla base di tutta la statistica, tanto è vero che esso è gia stato utilizzato
nel capitolo precedente, sia pure in modo implicito. In termini espliciti, la probabilità del verificarsi
di un evento A, è definita come il rapporto tra il numero di uscite favorevoli all’evento A (nA) ed il
numero totale di uscite possibili (N).
p( A) =
nA
N
[4]
Un esempio classico è quello del lancio di una moneta: quale è la probabilità che lanciando una
moneta venga testa? L’uscita favorevole è pari ad uno (una moneta ha solo una testa, anzi gli euro
nemmeno quella!) mentre il numero di uscite possibili è pari a due (testa o croce), quindi p(testa) =
1/2 = 0,5.
Questa definizione classica, o matematica, della probabilità ha però scarsa rilevanza nelle scienze
empiriche. Nella pratica scientifica, infatti, si utilizza la definizione frequentista di probabilità: un
esperimento viene compiuto N volte (per ricollegarci all’esempio precedente, una moneta viene
lanciata in aria N = 100 volte) ed n volte (n = 45) si registra un determinato risultato (croce). In
questo caso, il rapporto:
f (croce ) =
n croci 45
=
= 0 .45
N lanci 100
[5]
rappresenta la frequenza relativa dell’evento “croce” osservata nel nostro esperimento. Si può
notare come il valore appena calcolato sia simile a quello teorico previsto dalla prima definizione.
Infatti la probabilità intesa in senso frequentistico costituisce una approssimazione della probabilità
teorica
f(croce) ˜ p(croce)
Tale approssimazione è tanto migliore quanto maggiore è il numero di volte in cui si compie
l’esperimento. Il rapporto fra i due concetti di probabilità verrà chiarito con l’esempio seguente (da
L. Ott…, 1993).
17
Si ipotizzi di lanciare in aria contemporaneamente due monete, una con la mano destra e l’altra con
la mano sinistra. Le uscite possibili sono 4:
CC
2 croci
CT
croce con la dx e testa con la sx
TC
testa con la dx e croce con la sx
TT
2 teste
La domanda che ci poniamo è la seguente: quale è la probabilità di ottenere il risultato di una testa
dal lancio delle due monete? Se utilizziamo la definizione classica della probabilità, poiché il
numero di eventi favorevo li (cioè in cui si ha esattamente una sola testa) è 2 (testa a dx e croce a sx
oppure croce a dx e testa a sx), la probabilità sarà:
2 1
= = 0,5
4 2
p(1 testa)
Passiamo ora al concetto frequentistico. Ipotizziamo di compiere 2000 lanci delle due monete
contemporaneamente e di registrare i risultati.
Tabella 6. Frequenze assolute e relative dei risultati di 2000 lanci di due monete.
Uscita
Frequenza
Frequenza relativa
CC
474
474/2000 = 0,237
CT
502
502/2000 = 0,251
TC
496
496/2000 = 0,248
TT
528
528/2000 = 0,264
Se calcoliamo la probabilità in senso frequentistico di avere un sola testa applicando la formula [5]
otteniamo:
p(1 testa)
502 + 496
= 0,499
2000
Questo risultato è molto vicino a quello teorico di 0,5.
18
Come si è detto in precedenza, il valore teorico della probabilità e quello frequentistico tendono a
coincidere quando il numero di volte in cui viene ripetuto l’esperimento (nel nostro esempio il
numero di lanci) è molto grande. In termini formali si può dire che la p(teorica) è uguale al limite
della p(frequentistica) per n che tende all’infinito.
Una conseguenza importante della definizione di probabilità è che essa può assumere valori
compresi fra 0 e 1. Se un evento non si verifica mai nel corso della sequenza degli esperimenti la
sua probabilità è zero, mentre se si verifica sempre la sua probabilità sarà pari ad 1.
Cenni di calcolo delle probabilità
Le due operazioni di base che si fanno con le probabilità sono la somma e la moltiplicazione.
Due eventi sono detti mutuamente esclusivi quando il realizzarsi di uno esclude che, nello stesso
esperimento, possa verificarsi anche l’altro. Consideriamo, ad esempio, il risultato del lancio di un
dado ed in particolare due risultati:
A=3
B=2
è chiaro che se in un singolo lancio si ottiene 3 non si può ottenere 2 e viceversa. Se il dado è
perfetto la probabilità che si verifichi 3 è pari a 1/6 e quella che si verifichi 2 è anch’essa pari a 1/6.
Allora se vogliamo calcolare la probabilità che in un lancio esca o 3 o 2, questa è data dalla somma
delle due probabilità:
p(3 o 2 con un lancio)=p(3)+p(2)=1/6+1/6=2/6=1/3
cioè nel lanciare un dado si ha una probabilità di circa il 33% che esca 3 oppure 2.
In termini generali
p(A o B) = p(A) + p(B)
[6]
Questa regola vale solame nte se i due eventi sono mutuamente esclusivi.
Ipotizziamo di prendere l’elenco degli studenti che frequentano il corso di statistica: la percentuale
degli studenti maschi è pari al 60% mentre quella degli studenti che provengono dalla provincia di
Oristano è del 70%. I due eventi non sono mutuamente esclusivi in quanto uno studente maschio
può anche essere della provincia di Oristano e viceversa. Se ci volessimo calcolare quale è la
19
probabilità che uno studente preso a caso dall’elenco sia o maschio o della provincia di Oristano,
facendo la somma otterremmo
p(studente maschio o della Provincia di Oristano) = 0,6+0,7=1,3
che è un risultato errato in quanto si è detto in precedenza che la probabilità non può assumere
valori superiori ad 1.
L’errore deriva dal fatto che gli studenti maschi della provincia di Oristano vengono considerati sia
nella probabilità di essere maschi che nella probabilità di essere di essere della provincia di
Oristano. Pertanto la formula completa della somma è la seguente:
p(studente maschio o della Provincia di Oristano) = p(studente maschio) + p(studente provincia di
Oristano) – p(studente maschio e della provincia di Oristano)
quindi se si ipotizza che gli studenti maschi della provincia di Oristano rappresentino il 40% del
totale degli studenti del corso di Statistica, applicando la formula precedente si avrà:
p(studente maschio o della Provincia di Oristano) = 0,6 + 0,7 – 0,4 = 0,9
In termini più generali:
p(A o B o entrambi) = p(A) + p(B) – p(A e B)
[7]
E ovvio che quando due eventi sono mutuamente esclusivi (come l’esempio del lancio del dado
fatto in precedenza), il termine p(A e B) diventa uguale a zero (nel lancio di un singolo dado non si
possono ottenere due e tre contemporaneamente) e la formula [7] ritorna alla forma [6].
Gli esempi sopra riportati riguardano tutti l’unione di due eventi A e B, cioè l’insieme di tutte le
uscite che includono A o B (o entrambi). In termini matematici l’unione di due eventi A e B è
indicata con A ∪ B.
Passiamo ora alla mo ltiplicazione tra probabilità. Ipotizziamo di lanciare due monete
contemporaneamente, una con la mano destra e l’altra con la mano sinistra. Che probabilità
abbiamo di ottenere due croci? La regola della moltiplicazione delle probabilità dice:
20
p(croce mano dx e croce mano sx) = p(croce mano dx) x p(croce mano sx) = 1/2 x 1/2 = 1/4 = 0,25
Nel nostro esempio il fatto che sia uscita croce nella mano destra non influenza minimamente la
probabilità che esca croce sulla mano sinistra, cioè i due eventi sono tra loro indipendenti. Pertanto,
quando due eventi sono tra loro indipendenti:
p(A e B) = p(A) x p(B)
[8]
Esistono però dei casi in cui gli eventi non sono fra loro indipendenti., cioè che la p(B) una volta
che si è verificato l’evento A, sia diversa dalla p(B) in assenza di A.
Ad esempio consideriamo i risultati di uno studio sulle relazioni fra colore degli occhi e colore dei
capelli riassunto nella tabella seguente:
Tabella 7. Frequenze relative di colore di capelli e colore degli occhi in un
dato campione di individui (Pilla, 1985)
Colore capelli
Colore occhi
Neri
Biondi
Marroni
0,64
0,16
Azzurri
0,04
0,16
La percentuale di individui con i capelli neri è del 68% mentre quella che ha gli occhi azzurri è del
20%. La domanda che ci poniamo è: se prendiamo un individuo con i capelli neri, che probabilità
abbiamo di trovarlo con gli occhi azzurri? Se i due eventi fossero tra loro indipendenti basterebbe
fare
p(occhi azzurri e capelli neri) = p(occhi azzurri) x p(capelli neri)
In realtà i due eventi non sono indipendenti. I dati riportati nella tabella 7 mostrano chiaramente
l’esistenza di un legame tra colore dei capelli e quello degli occhi, con gli individui con capelli neri
che tendono ad avere in massima parte occhi marroni. In questo caso bisogna applicare la formula
più generale che dice
p(A e B) = p(B) x p(A¦ ?B )
[9]
21
dove p(A¦ ?B) è la probabilità che si verifichi A dato che si è verificato B, cioè è la probabilità
condizionata dell’evento A in relazione all’evento B. Nel caso del nostro esempio la frequenza
degli individui con gli occhi azzurri entro quelli che hanno i capelli neri è:
p(occhi azzurri ?¦ capelli neri) = p(capelli neri e occhi azzurri)/ capelli neri = 0,04/0,68 = 0,06
una volta trovata la probabilità condizionale, si passa alla risoluzione del quesito:
p(occhi azzurri e capelli neri) = p(capelli neri) x p(occhi azzurri ?¦ capelli neri) = 0,68 x 0,06 = 0,04
Se i due eventi fossero invece tra loro indipendenti (come il caso del lancio delle due monete)
p(A¦ ?B) = p(A) per cui la formula [9] ritorna alla forma [8]. L’insieme di uscite che contengono sia
A che in B costituiscono l’intersezione dei due eventi e si indicano con A∩B.
Il seguente esempio mostra come l’applicazione delle diverse formule per il calcolo delle
probabilità al medesimo caso porti allo stesso risultato.
Poniamo di dover calcolare la probabilità di estrarre un fante di cuori da un mazzo di 52 carte. Le
probabilità semplici dei due eventi sono:
p(fante) = 4/52 = 0,076923
p(cuori) = 13/52 = 0,25
I due eventi sono tra loro indipendenti, perché il fatto che io prenda dal mazzo una carta di cuori
non modifica la probabilità di estrarre un fante e viceversa. Un primo modo intuitivo di rispondere
al quesito che ci siamo posti, basato sul fatto che esiste un solo fante di cuori su 52 carte, è fare il
rapporto
p(fante e cuori) = 1/52 = 0,019231
Trattandosi di due eventi indipendenti, però, si può fare anche il prodotto delle probabilità semplici
22
p(fante e cuori) = p(fante) x p(cuori) = 0,076923 x 0.25 = 0,019231
Ma si può anche applicare la formula generale dell’intersezione fra due eventi [9]
p(fante e cuori) = p(cuori) x p(fante ?¦ cuori)
ma p(fante ?¦ cuori) = p(fante) per cui la precedente diventa
p(fante e cuori) = p(cuori) x p(fante¦ ?cuori) = p(cuori) x p(fante) = 0,076923 x 0.25 = 0,019231
Come si vede il risultato rimane sempre lo stesso.
Distribuzioni di probabilità.
Nel capitolo sulla statistica descrittiva si è visto come la rappresentazione grafica dei dati in forma
di istogramma (figure 1a e 1b) consenta di evidenziarne la diversa struttura nelle due mandrie.
Riprendiamo ora l’istogramma dei dati delle bovine della mandria A, questa volta espresso
intermini di frequenze relative:
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
<50 50-55 55-60 60-65 65-70 70-75 75-80 >80
Figura 5. Istogramma di frequenza relativa dei dati della mandria A.
23
Questo istogramma rappresenta la distribuzione delle probabilità (intese in senso frequentista) dei
diversi valori della variabile produzione di latte nella mandria A. Se prendo a caso una bovina dalla
mandria A, che probabilità ho di trovare un animale che produce tra 55 e 60 quintali? Dalla
osservazione della figura 5 si nota come la classe che comprende gli animali che producono fra 55
e 60 quintali abbia una frequenza del 15% (3 vacche su 20) per cui la risposta alla domanda è 0,15.
La distribuzione di probabilità di una variabile casuale è data dall’insieme delle probabilità che la
variabile ha di assumere tutti i valori possibili. Lo studio delle distribuzioni di probabilità
rappresenta uno dei settori più importanti (anche se forse meno attraenti!) della statistica in quanto
fornisce gli elementi indispensabili per l’applicazione delle tecniche della statistica inferenziale. Il
primo compito dello statistico è infatti scegliere, tra i vari modelli teorici di distribuzione di
probabilità, quello che meglio si adatta alla distribuzione della variabile oggetto di studio.
Ritornando all’esempio della mandria A, si può notare come la distribuzione della variabile
produzione di latte sia caratterizzata da elevate frequenze nelle classi centrali, cioè gran parte dei
valori si collocano nelle vicinanze della media, mentre le frequenze per valori molto elevati o molto
ridotti sono piuttosto basse. Numerose variabili di interesse tecnico-scientifico presentano una
distribuzione di questo tipo, a collinetta (Mound-Shaped in inglese). La distribuzione teorica di
probabilità che meglio si adatta a queste forme è la distribuzione Normale, nota anche come
distribuzione a campana o di Gauss.
La distribuzione Normale
La distribuzione Normale è forse la più conosciuta distribuzione di probabilità per le variabili di
tipo quantitativo. Come detto in precedenza, molte variabili di interesse scientifico come l’altezza
nella specie umana, la produzione di latte nei bovini, il contenuto di grasso del latte nelle pecore etc.
presentano una distribuzione che può essere ricondotta a quella normale.
Per ciascuna distribuzione di probabilità di variabili di tipo quantitativo esiste la funzione di densità
di probabilità che consente di calcolare le probabilità teoriche corrispondenti a ciascun valore della
variabile y (alcuni software come excel la definiscono probabilità di massa). La funzione di densità
di probabilità della distribuzione Normale è la seguente:
f ( y) =
1
2πσ
−
e
( y − µ )2
2σ 2
[10]
24
e la sua rappresentazione grafica sotto forma di istogramma produce una curva smussata con forma
f(y)
di campana (figura 6).
y
Figura 6. Istogramma di frequenza della Distribuzione Normale.
Sull’asse delle ascisse sono riportati i valori della variabile oggetto di studio (y) mentre sull’asse
delle ordinate le frequenze relative (o densità relative) dei diversi valori di y. I parametri
fondamentali della distribuzione Normale sono la media (µ) e la deviazione standard (σ). In realtà,
come si vedrà in seguito, parlare di probabilità di un singolo valore per una variabile continua che
può assumere infiniti valori non ha molto senso, mentre ha maggiore rilevanza pratica parlare di
intervalli di valori.
La funzione di distribuzione cumulativa di probabilità, consente invece di calcolare la probabilità
cumulativa che la variabile continua y ha di assumere valori minori o uguali ad un determinato
valore k. L’andamento della funzione di probabilità cumulativa della distribuzione Normale è
riportato nella figura 7.
25
f(y)
y
Figura 7. Grafico della probabilità cumulativa della Distribuzione Normale.
Vediamo ora alcune interessanti proprietà della distribuzione Normale.
Essa è una distribuzione simmetrica rispetto alla media, in cui media, mediana e moda coincidono.
L’area totale racchiusa sotto la curva è pari ad 1. La cosiddetta regola empirica della distribuzione
normale dice che nell’area compresa tra la media e ± 1 volta la deviazione standard ricade il 68%
dell’area totale racchiusa dalla curva, mentre tra µ ± 2 σ è compreso circa il 95% dell’area totale ed
infine tra µ ± 3 σ è compreso circa il 99% dell’area.
Come detto in precedenza, i parametri fondamentali della distribuzione normale sono la media e la
deviazione standard: esisteranno pertanto infinite distribuzioni normali in base al valore che
assumeranno questi due parametri. Ad esempio, dall’osservazione della figura 8 si può notare come
f(y)
all’aumentare del valore della deviazione standard la curva Normale tenda ad abbassarsi.
0.2
1.8
3.4
5
6.6
y
Figura 8. Istogramma di frequenza di due distribuzioni di tipo Normale, con uguale media (4) e
diversa deviazione standard: 2 (- - - ) o 1(- ¦ - ).
26
Ai fini di una utilizzazione pratica però occorre avere una unica distribuzione teorica di riferimento.
Per questo fatto si ricorre alla distribuzione normale della variabile standardizzata z, che ha media 0
e deviazione standard 1. Qualunque variabile quantitativa y può essere ricondotta alla z attraverso
una standardizzazione, cioè sottraendo al valore della variabile la sua media e dividendo il tutto per
la deviazione standard:
z=
y− y
σ
[11]
I valori tabulati delle frequenze della distribuzione z sono riportati nella tabella A-1, in appendice a
queste dispense. Nella prima colonna sono riportati i valori di z sin al primo decimale, mentre nella
prima riga i valori del secondo decimale di z. I valori interni al bordo rappresentano invece l’area
della curva che si trova a destra del corrispondente valore di z.
Passiamo ora ad alcune applicazioni pratiche della distribuzione normale. Nell’esempio precedente,
in cui ci si chiedeva quale fosse la probabilità di trovare una bovina nella mandria A che producesse
tra 55 e 60 quintali, implicitamente si è introdotto il concetto di intervallo di valori. Per le variabili
continue non ha infatti grande interesse pratico conoscere la probabilità puntuale di un singolo
valore (ad es. che probabilità ho di trovare una vacca che produca esattamente 55,178 quintali?)
mentre ha maggior interesse pratico ragionare per intervalli: che probabilità ho di trovare un
animale che produca tra 60 e 65 quintali? Oppure che probabilità ho di trovare una bovina che
produca più di 50 quintali? Cioè nel calcolo della probabilità delle variabili continue con una
distribuzione riconducibile a quella Normale, i valori tabulati della distribuzione Normale della
variabile z sono utilizzati per il calcolo delle aree.
La statura degli esseri umani è una variabile di tipo quantitativo ed ha una distribuzione simile a
quella normale: ipotizziamo che statura media degli uomini italiani sia pari a 170 cm con una
deviazione standard di 15. Che probabilità ho di trovare degli italiani più alti di 190 cm?
Prima di tutto bisogna standardizzare il valore che mi interessa, cioè 190 cm, con la formula [11].
Quindi si osserva nelle tabella della distribuzione Normale standardizzata z (tabella A-1) e si vede
che in corrispondenza del valore di z =1,33, l’area lasciata a destra da tale valore è pari a 0,0918
(Figura 9). Quindi si può concludere che la probabilità di trovare italiani di altezza superiore ai 190
cm è pari a circa il 9,2%. Analogamente potrei chiedermi che probabilità ho di trovare italiani alti
più di 180 cm: il valore di z in questo caso è pari a circa 0,67. a cui corrisponde un valore di
probabilità pari a circa il 25,1%. Infine, se volessi sapere quale è la probabilità di trovare italiani di
altezza compresa i fra 180 e 190 cm dovrei fare la sottrazione 25,1-9,2=15,9%.
27
f(y)
15,9%
9,2%
y
z=0,67
z=1,33
Figura 9. Esempio di calcolo di aree con la distribuzione Normale standardizzata.
Una distribuzione di probabilità per le variabili discrete: la distribuzione binomiale
Nella sezione introduttiva abbiamo visto come alcuni fenomeni non si esprimano attraverso delle
grandezze misurabili con una scala metrica (cioè delle variabili di tipo quantitativo) ma si
manifestino attraverso risposte di tipo qualitativo, come ad esempio una positività ad una malattia, il
genotipo ad un particolare locus etc. In questi casi gli esperimenti sono costituiti da una serie di
tentativi (ad esempio il numero di animali sui quali viene eseguito un test diagnostico) nel corso dei
quali viene realizzato un certo numero di successi (animali trovati positivi alla presenza della
malattia). A differenza di quanto detto per le variabili continue, nel caso delle variabili discrete la
conoscenza della probabilità che ha un dato valore della variabile di verificarsi riveste un certo
interesse. Per il calcolo di tale probabilità occorre però conoscere la probabilità media che ha
l’evento cercato di verificarsi in ogni singolo tentativo.
La distribuzione binomiale consente di calcolare le probabilità associate a i diversi valori che può
assumere una variabile discreta che abbia una manifestazione del tipo 0 e 1, cioè positivo o
negativo.
Esempio: la mastite è una infezione che colpisce l’apparato mammario degli animali in lattazione.
Poniamo che la prevalenza della forma subclinica della mastite negli ovini in Sardegna sia del 30%.
In queste condizioni, se nel corso di un’indagine sanitaria 15 pecore vengono sottoposte ad un test
capace di individuare la mastite, che probabilità ci sono di trovare 10 animali infetti?
Se facciamo questo calcolo usando la funzione DISTRIB.BINOM di excel, i valori che occorrono
sono:
28
n. di successi, cioè il valore della variabile per il quale vogliamo calcolarci la probabilità, nel nostro
caso 10
prove:
sono 15 poiché esaminiamo 15 animali;
probabilità di successo per ciascuna prova: 0,3 poiché il valore medio della prevalenza della
mastite subclinica in Sardegna è pari al 30%, quindi per ogni pecora che prendiamo
abbiamo in media una probabilità del 30% di trova rla positiva al controllo per la
mastite
cumulativo:
FALSO, perché vogliamo la probabilità puntuale di 10 successi e non quella
cumulativa.
Nel nostro esempio, il valore è pari a 0,00298; cioè se prendiamo 15 pecore a caso in un
allevamento ubicato in Sardegna, dove la mastite clinica ha una prevalenza del 30%, e su queste
conduciamo un test in grado di individuare gli animali affetti da mastite, abbiamo una probabilità di
circa lo 0,3% di trovarne esattamente 10 positivi. Nella figura 10 è riportato l’istogramma delle
probabilità di trovarne positivi da 1 a 5.
0.25
Probabilità
0.2
0.15
0.1
0.05
0
1
2
3
4
5
n. animali positivi
Figura 10. Distribuzione Binomiale per una probabilità di successo pari a 0,3 ed un numero di prove
pari a 15.
Va ricordato infine che quando il numero di prove è superiore a 30, la distribuzione binomiale può
essere approssimata dalla distribuzione normale.
29
INFERENZA STATISTICA
Quando si esegue un esperimento, la quantità di dati di cui si dispone è solitamente limitata, in
ragione della complessità e dei costi di realizzazione dell’esperimento stesso. Le ricerche
sperimentali, però, hanno lo scopo di trovare risposte che abbiano una validità di carattere generale,
non limitata all’insieme delle unità sperimentali sulle quali si è effettivamente indagato. Queste
ultime rappresentano un campione che è stato estratto da una popolazione, la quale costituisce il
reale obiettivo conoscitivo dello sperimentatore (figura 11).
Insieme di tutte le unità
sperimentali
POPOLAZIONE
Campionamento
Unità sperimentali
selezionate della
popolazione
Inferenza
statistica
CAMPIONE
Figura 11. Relazioni tra popolazione e campione in statistica.
Un esempio chiarirà meglio questi concetti.
Ipotizziamo che una casa automobilistica intenda costruire una vettura da mettere in commercio in
Sardegna. Per dimensionare correttamente l’abitacolo, la ditta ha necessità di conoscere l’altezza
media dei sardi adulti. E’ chiaro che misurare l’altezza di tutti i sardi adulti (circa un milione)
sarebbe un’impresa ardua e costosissima, se non impossibile. La ditta pertanto decide di svolgere
un’indagine su un campione di 1500 Sardi, la cui altezza media risulta essere 172 cm. La macchina
però non deve essere costruita solamente per quelle 1500 persone, per le quali è stato possibile
misurare l’altezza, ma deve essere adatta per tutti i Sardi (o almeno per la maggior parte). La casa
automobilistica deve quindi partire dall’osservazione fatta sul campione (i 1500 individui misurati)
per arrivare ad un’idea abbastanza precisa dell’altezza media della popolazione. Questa operazione
30
configura un caso tipico di inferenza statistica: se nella fase dell’indagine sperimentale si estrae un
campione dalla popolazione (freccia con linea intera nella figura 11), nell’inferenza si compie il
percorso opposto (linea tratteggiata), cioè si parte dai risultati ottenuti sul campione per arrivare ad
una conoscenza induttiva valida per la popolazione.
A partire dai 1500 valori di altezza misurati sul campione si possono calcolare delle misure di
centro (media, mediana, etc.) e delle misure di variabilità (deviazione standard, varianza). Queste
sono dette statistiche e vengono convenzionalmente indicate con le lettere dell’alfabeto latino. I
valori delle stesse grandezze riferite alla popolazione si chiamano invece parametri e vengono
indicati convenzionalmente con le lettere dell’alfabeto greco. I parametri, ovviamente, non possono
essere calcolati (perché non disponiamo dei dati relativi a tutta la popolazione). I loro valori
debbono invece essere stimati. Sostanzialmente l’inferenza statistica parte dalle statistiche calcolate
sul campione e le utilizza per stimare i parametri relativi alla popolazione. Tali concetti possono
essere così riassunti.
CAMPIONE
?
STATISTICHE
media =
Y
varianza = s2
deviazione standard = s
?
POPOLAZIONE
?
?
INFERENZA STATISTICA
PARAMETRI
media = µ
varianza = σ2
deviazione standard = σ
Il fatto che il valore di un parametro debba essere stimato (e non calcolato) comporta che tale valore
sia, in qualche misura, incerto, cioè soggetto ad un possibile errore. Anche nel linguaggio corrente
peraltro il termine stima si accompagna solitamente all’idea di incertezza: se si stima una
grandezza, vuol dire che non la si misura direttamente ma se ne induce un valore che è soggetto ad
un errore più o meno elevato. L’errore costituisce un elemento fondamentale della inferenza
statistica la quale non giunge mai a delle conclusioni esatte in misura assoluta, ma solo a risultati a
31
cui è associato un certo margine di incertezza (i cui limiti lo statistico può decidere di fissare
preliminarmente alla elaborazione dei dati).
Stima della media di una variabile continua.
Vediamo ora come l’inferenza statistic a affronta il problema della stima di un parametro di una
popolazione, riferendoci in particolare al parametro media. Il processo di inferenza, in questo caso,
si fonda su una proprietà delle distribuzioni probabilistiche, enunciata dal così detto Teorema del
Limite Centrale.
Se campioni casuali di numerosità n sono estratti da una popolazione con media µ e deviazione
standard σ, quando n è grande, l’istogramma di frequenza delle medie di tali campioni sarà
approssimativamente normale (forma a campana) con media µ e deviazione standard (o errore
standard della media) σx=
σ
n
Ritorniamo all’esempio della casa automobilistica alla prese con l’altezza dei Sardi. Poniamo che
l’altezza media e la deviazione standard della popolazione siano µ=170 cm e σ=8. Se si estraggono
casualmente dalla popolazione un certo numero di campioni (ad es. 300), ciascuno costituito da n
Sardi (n = 2000), e si calcola per ciascun campione l’altezza media, le 300 medie risultano diverse
fra loro e diverse da µ. La loro distribuzione però (detta distribuzione delle medie campionarie) è
Normale, con media = 170 cm e deviazione standard (errore standard della media)
σx=
σ
=
n
8
= 0,179 cm.
2000
Nel paragrafo dedicato alla distribuzione Normale, si è visto che nell’intervallo µ ± 2 σ (per la
precisione 1,96σ) è compreso il 95% dell’area racchiusa dalla curva. Quindi, anche nel caso della
distribuzione delle medie campionarie, tra µ ± 1,96σx si trova il 95% dei valori delle medie
campionarie. Di conseguenza, ogniqualvolta la media del campione ( Y ) è compresa tra µ ± 1,96σx
(cioè nel 95% dei casi), l’intervallo
popolazione. L’intervallo
Y ± 1,96
σ
conterrà il vero valore della media di
n
Y ± 1,96σx è definito come intervallo di confidenza al 95% della media
della popolazione, nel senso che esso contiene la vera media della popolazione con una probabilità
del 95%.
32
Concetto di Intervallo di confidenza
Un intervallo al (1-α) di confidenza di una media rappresenta un intervallo di valori che contiene
al suo interno il vero valore cercato della media di popolazione al (1-α) di probabilità. Di
conseguenza, il valore α è la probabilità di errore, cioè la probabilità che il parametro che ci
interessa ricada al di fuori dell’intervallo stimato.
La formula generale per il calcolo dell’intervallo di confidenza di una media è.
Y ± zα/2 σx
[12]
dove:
Y
σx =
è la media del campione
σ
n
è l’errore standard della media. Si può notare come la formula contenga σ, cioè la
vera deviazione standard della popolazione che, essendo un parametro, è per
definizione inconoscibile. Tuttavia, quando la numerosità del campione (n) è
abbastanza elevata (maggiore di 30), la deviazione standard del campione (s)
rappresenta una stima ragionevolmente affidabile della deviazione standard della
popolazione (σ) e quindi può essere utilizzata al posto di questa per il calcolo
dell’errore standard della media. Per numerosità inferiori, si utilizza al posto di z
un’altra variabile standardizzata (t), come vedremo nel paragrafo seguente.
zα/2
è il valore della variabile normale standardizzata z che lascia alla sua destra un’area
pari ad α/2 (vedi tabella A-1 nell’appendice)
α
è la probabilità di errore.
Torniamo all’esempio delle altezze. Si ipotizzi di prendere un campione di 2000 Sardi, misurarne le
altezze e calcolarne la media (ad esempio, cm168) e la deviazione standard (6). Come dobbiamo
fare ora per stimare la vera altezza media dei sardi?
33
Dovremo stimare un intervallo con la formula [12]. Gli elementi che occorrono per l’applicazione
della formula sono:
Y = 168
σx =
σ
=
n
6
= 0,13464
2000
Il livello di confidenza (1-α) dell’intervallo dipenderà dall’errore (α) che siamo disposti ad
accettare: poniamo di fissare tale valore al 5%, per cui l’intervallo sarà al 95% di confidenza. Se
α = 0,05, α/2 sarà 0,025. Per trovare il valore di zα/2, la tabella dei valori teorici della distribuzione
Normale (tabella A-1) va utilizzata in maniera differente rispetto a quanto fatto nei paragrafi
precedenti. Infatti ora non si dispone del valore di z, ma di α/2, cioè dell’area che si trova a destra
del valore di z che si vuole trovare. Pertanto bisogna cercare dentro i margini della tabella A-1 il
valore di 0,025. Si può notare come a tale valore corrisponda un valore di z pari a 1,96.
Riassumendo:
Calcolo di un intervallo di confidenza al 95% per una media a partire da un campione di 2000
individui applicando la formula [12].
n = 2000
α=0,05
limite superiore =
limite inferiore =
Y = 168
s=6
zα/2, = 1,96 σx = 0,13464
Y + zα/2 σx=168 + 1,96 x 0,13464 = 168 + 0,26292 = 168,263
Y - zα/2 σx=168 - 1,96 x 0,13464 = 168 - 0,26292 = 167,737
Quindi, in base ai risultati ottenuti dalla misurazione dell’altezza del campione di 2000 sardi, la
vera altezza media della popolazione sarda è compresa, al 95% di probabilità, tra 167,737 e 168,263
cm.
La funzione statistica CONFIDENZA di Excel consente di calcolare metà dell’ampiezza
dell’intervallo di confidenza. I parametri richiesti dalla funzione sono:
alfa
che rappresenta la probabilità di errore. Nel nostro caso, con un intervallo di
confidenza al 95%, sarà pari al 5%, cioè 0,05
34
dev_standard
la deviazione standard della popolazione. In base a quanto detto in
precedenza, poiché la numerosità del campione è sufficiente, noi utilizzeremo
la deviazione standard del campione, cioè 6
dimensioni
la numerosità del campione nel nostro caso 2000.
Il risultato fornito da Excel con questi dati è 0,262957. Il lettore potrà facilmente constatare che
questo numero rappresenta (con una minima approssimazione) il temine zα/2 σx, cioè la quantità da
aggiungere (o da togliere) alla media del campione per il calcolo del limite superiore (o inferiore)
dell’intervallo di confidenza.
L’intervallo di confidenza della media calcolato nell’esempio sopra riportato ha una ampiezza
abbastanza limitata, cioè gli estremi sono molto ravvicinati. Quindi la stima ha fornito un risultato
piuttosto preciso. La ragione di ciò sta nella numerosità molto elevata del campione utilizzato per

σ 
l’indagine. Nella formula dell’errore standard della media  σ x =
 , infatti, la numerosità del
n 

campione è al denominatore e pertanto al suo aumentare σx diminuisce, con conseguente
diminuzione dell’ampiezza dell’intervallo di confidenza ( si veda la formula [12]). A titolo di
esempio, si riportano i limiti inferiore e superiore dell’intervallo di confidenza al 95% calcolato per
media=18, deviazione standard=6 e tre valori di numerosità del campione: 2000, 200, 50.
Numerosità (n)
errore standard
limite superiore
limite inferiore
2000
0,134164
18,263
17,737
200
0,424264
18,832
17,168
20
0,848528
19,663
16,337
E’ evidente come, al diminuire della numerosità del campione, aumenta l’ampiezza dell’intervallo
di confidenza e quindi la stima diventa meno precisa. La numerosità del campione riveste pertanto
un’importanza fondamentale ai fini della affidabilità dei risultati ottenibili da esperimenti ed
indagini scientifiche. E’ inoltre necessario tener presente che la teoria statistica presuppone che i
campioni, di qualsiasi dimensione, siano estratti casualmente dalla popolazione alla quale
appartengono. Venendo all’esempio delle altezze, se tutti i 2000 sardi del campione fossero stati
presi da un’unica zona, ad esempio la Gallura (dove gli uomini sono solitamente più alti che in
altre regioni dell’Isola) il campione, ancorché numericamente rilevante, sarebbe poco
35
rappresentativo dell’altezza di tutti i sardi o, come si dice in gergo statistico, sarebbe un campione
distorto.
Come si è visto, il secondo fattore che influenza l’ampiezza dell’intervallo di confidenza è l’errore
che lo sperimentatore è disposto a tollerare quando sviluppa l’inferenza. Minore è l’errore (quindi
maggiore è la prudenza dello sperimentatore) maggiore sarà l’ampiezza dell’intervallo. Nello
schema seguente sono riportati i calcoli dell’intervallo di confidenza per media=18, deviazione
standard=6, numerosità del campione 200 e tre livelli di coefficiente di confidenza (1-α): 90%, 95%
e 99%..
α
α/2
zα/2
Limite superiore
Limite inferiore
0,90
0,10
0,05
1,645
18,69791
17,30209
0,95
0,05
0,025
1,96
18,83156
17,16844
0,99
0,01
0,005
2,575
19,09248
16,90752
Coefficiente di confidenza
(1-α)
A conferma di quanto detto, l’esempio mostra come al diminuire dell’errore che si è disposti a
tollerare aumenta l’ampiezza dell’intervallo di confidenza della media. Questo risultato non
dovrebbe meravigliarci, visto che lo utilizziamo intuitivamente nella logica di tutti i giorni: se
facciamo una scommessa con un amico sulla posizione in classifica che avrà la squadra di calcio
del Cagliari alla fine dell’attuale campionato di calcio di serie B (2003-2004), quando la posta è una
pizza (15 euro, ndr) possiamo anche sbilanciarci e dire: entro le prime 4. Se però l’amico vuole
giocarsi una cena a base di pesce in un ristorante chic, allora siamo disposti a sbagliare di meno (α
più piccolo) e quindi andiamo più cauti: entro le prime 8. Se infine il nostro amico si vuole giocare
lo stipendio, allora cerchiamo di andare sul sicuro e diciamo entro le prime 12. In definitiva, minore
è il rischio (la probabilità di errore) che siamo disposti a correre, maggiore è l’intervallo di valori
che proponiamo, cioè maggiore è l’incertezza della stima.
Infine l’ultimo fattore che fa variare l’ampiezza dell’intervallo di confidenza è la deviazione
standard del campione: all’aumentare di questa aumenta l’ampiezza dell’intervallo.
Di seguito è riportato un altro esempio di calcolo di intervallo di confidenza al 95% della media di
popolazione. Esso si riferisce al contenuto di grasso del latte di pecora stimato in base ai dati rilevati
su un campione di 50 pecore di razza Sarda.
36
Dati.
Pecora
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Grasso (%)
5
7.7
4.5
5.2
6.1
6.7
7.9
5.4
6.5
4
3.4
6.6
6.5
6.7
4.7
4.7
6.5
6
9.1
8
7
7.1
6.2
9.3
6.8
6.9
5
3.4
7.1
3.4
8.5
5.1
3
6.6
4.7
5.2
4.3
7.6
8
6.3
37
41
42
43
44
45
46
47
48
49
50
n = 50
5.9
9
7
3
8.5
4.4
7
4.6
3.3
7
α=0,05
limite superiore =
limite inferiore =
Y = 6,048
s = 1,679
zα/2, = 1,96 σx = 0,237
Y + zα/2 σx=6,048 + 1,96 x 0,237 = 6,512
Y + zα/2 σx=6,048 - 1,96 x 0,237 = 5,583
(n.b. i risultati sono approssimati alle prime tre cifre decimali)
Gli esempi sinora riportati di stima dell’intervallo di confidenza di una media di popolazione
presuppongono la conoscenza della deviazione standard della popolazione (σ). Si è visto che
quando la numerosità del campione è elevata (n>30) la deviazione standard del campione può
essere considerata una stima attendibile di σ e quindi utilizzata al posto di questa nel calcolo
dell’errore standard della media. Nei casi però in cui non si conosce σ e la numerosità del campione
è ridotta (n<30), per il calcolo dell’intervallo di confidenza non si usa la variabile z ma la variabile
t, nota come t di Student. Analogamente alla z, la t è una variabile standardizzata, presenta una
distribuzione molto simile alla curva Normale (leggermente più stretta e con le code più allungate).
A differenza della z che ha un’unica distribuzione, la t presenta però numerose distribuzioni in
funzione della numerosità dei campioni esaminati, riassunta nei gradi di libertà. Si può osservare
infatti dalla tabella A-2 riportata in appendice a queste dispense come esistano diversi valori di t al
variare dei gradi di libertà. Comunque, al crescere delle numerosità del campione (n>30) la
distribuzione t tende a coincidere con la z.
38
Test di ipotesi su variabili quantitative: uso del test t per il confronto fra le medie di due
gruppi
Spesso uno studio scientifico si sviluppa a partire da un’ipotesi, che gli sperimentatori formulano in
base alle loro precedenti conoscenze sull’argomento. In questi casi si presenta frequentemente
l’esigenza di confrontare i valori che un parametro assume in due popolazioni differenti: ad
esempio, il confronto tra il contenuto in grasso e proteina del latte prodotto da due diverse razze
ovine oppure la gradazione alcolica di un vino ottenuto dallo stesso vitigno ma con due differenti
tecniche di allevamento della vite. In tali situazioni, il ricercatore dispone dei dati rilevati sui
campioni anche se l’interesse è volto al confronto fra i valori del parametro nelle due popolazioni da
cui i campioni sono stati estratti. L’inferenza statistica si sviluppa, allora, attraverso degli opportuni
test statistici, la cui applicazione permette di asserire se, e in quale misura, i dati sperimentali
confermano l’ipotesi di lavoro, oppure la contraddicono.
Dal punto di vista logico, un test statistico si articola in 5 punti fondamentali:
1. Ipotesi nulla (H0 )
2. Ipotesi alternativa o di ricerca (Ha)
3. Statistica del test
4. Regione di rigetto
5. Conclusione del test
L’esempio pratico seguente consentirà di illustrare in maniera semplice la struttura di un test
statistico.
Una casa farmaceutica intende immettere sul mercato un nuovo farmaco per il quale si ipotizza che
sia in grado di combattere un parassita gastrico degli ovini. Per verificarne l’efficacia di azione sul
campo, viene organizzato un esperimento con 14 pecore, divise in due gruppi di 7 animali ciascuno.
Un gruppo viene trattato per un certo numero di giorni con il farmaco (gruppo trattato) mentre
l’altro non subisce alcun trattamento (gruppo di controllo). Alla fine dell’esperimento gli animali
vengono macellati e, per ciascuno di essi, viene rilevato il numero di parassiti presenti nello
stomaco. I risultati sono i seguenti:
Gruppo
Trattato
Controllo
18
40
43
54
n. parassiti gastrici
28
50
16
26
63
21
39
32
37
13
39
Ovviamente, la casa farmaceutica si aspetta che il numero medio di parassiti sia minore nelle pecore
del gruppo trattato rispetto a quelle del gruppo di controllo. L’osservazione delle medie dei due
campioni (statistiche) sembrerebbe confermare questa ipotesi, infatti, dato che
Trattato
28,57
Controllo
40
il valore medio dei parassiti gastrici del gruppo delle pecore trattate è decisamente inferiore a quello
del gruppo di controllo. In precedenza si è visto però come il semplice raffronto dei valori medi non
consenta di evidenziare in maniera precisa le differenze fra due insiemi di dati. Nel caso in esame,
anche se le medie dei due gruppi di pecore sono piuttosto diverse, esiste una variabilità elevata
entro ciascun gruppo: si può notare infatti come nel gruppo trattato ci siano alcune pecore (ad
esempio la quarta) con un numero di parassiti gastrici notevolmente elevato (50), addirittura molto
più alto della media del gruppo di controllo. Tale forte variabilità entro gruppi può essere
evidenziata con l’uso del coefficiente di variabilità, il cui valore risulta elevato in entrambi i gruppi:
50% per il trattato e 37% per il controllo. Da ciò si evince come la semplice comparazione delle
medie dei campioni non sia sufficiente ad affermare che le medie delle due popolazioni da cui i
campioni sono stati estratti siano differenti in maniera statisticamente significativa. Occorre infatti
sempre ricordare che l’interesse della ricerca non è volto ai campioni ma alle popolazioni da cui essi
provengono: la casa farmaceutica non ha alcun interesse a produrre un farmaco in grado di ridurre il
numero dei parassiti gastrici in quelle particolari sette pecore del gruppo trattato (campione), ma
vuole produrre un farmaco che sia efficace per gli ovini in genere (popolazione).
Vediamo ora come un test statistico affronta il problema.
1. Ipotesi nulla (H0 ): Il numero medio dei parassiti gastrici nel gruppo di pecore trattate con il
farmaco (Xtratt) non è inferiore a quello del gruppo delle pecore di controllo
(X ) . Espresso in termini formali:
tontr
Xtratt − Xcontr = 0
40
Nella logica dei test statistici, l’ipotesi nulla è quella che viene assunta come valida a priori e che
rimane tale, a meno che i risultati dell’esperimento non consentano di rigettarla a favore dell’ipotesi
di ricerca. Nell’esempio, l’ipotesi nulla afferma che il farmaco che stiamo testando non è in grado di
ridurre il numero medio di parassiti gastrici (cioè non funziona).
2. Ipotesi alternativa (Ha)
Il numero medio di parassiti gastrici nel gruppo di pecore trattate
con il farmaco è inferiore a quello del gruppo delle pecore di
controllo. Espresso in termini formali:
Xtratt − Xcontr < 0
Come detto in precedenza, questo è il risultato che la casa farmaceutica si aspetta ed è l’idea per
verificare la quale è stato progettato l’esperimento. Poiché l’ipotesi di ricerca può essere accolta
solamente se quella nulla viene rigettata, il problema fondamentale del test è quello di decidere se
rigettare o meno H0. Gli elementi per prendere questa decisione li fornisce la statistica del test.
3. Statistica del test
Valore numerico ricavato dai dati del campione, sulla base del quale
si decide se accettare l’ipotesi nulla o rigettarla a favore dell’ipotesi
di ricerca.
Esistono diverse statistiche del test. Quella più comunemente usata per il confronto fra medie
utilizza nuovamente la distribuzione t di Student.
Nel caso della differenza fra le medie di due gruppi, 1 e 2, la statistica t viene calcolata con la
formula:
t=
X1 − X 2
1 1
Sp
+
n1 n 2
dove
X1 e X2
sono le medie dei due gruppi
n1 e n2
sono le numerosità dei due gruppi
41
[13]
Sp
è la deviazione standard comune dei due gruppi (p sta per pooled, che in inglese vuol
dire raggruppato) calcolata con la formula:
Sp =
(n1 − 1)s 2 1 + (n2 −1)s 2 2
n1 + n2 − 2
[14]
dove S2 1 e S22 sono le varianze dei due gruppi.
Il termine n1 + n2 -2 rappresenta i gradi di libertà dell’esperimento.
L’utilizzo della formula [13] per il calcolo della statistica t con i dati del nostro esempio presuppone
che l’esperimento abbia alcune caratteristiche ben precise:
•
I campioni debbono essere indipendenti. Nel nostro caso tale ipotesi è rispettata in quanto le
7 pecore del gruppo trattato sono diverse dalle 7 del gruppo di controllo. Ma vi possono
essere situazioni in cui questa condizione non è rispettata: ad esempio nel caso di un
farmaco che controlla l’ipertensione, la pressione viene misurata sugli stessi pazienti prima
(controllo) e dopo (trattato) la somministrazione del farmaco. In questi casi i campioni si
dicono appaiati e la verifica di ipotesi si sviluppa in modo diverso, come vedremo.
•
I campioni debbono essere estratti da popolazioni di varianza identica (test omoscedastico)
Come regola pratica si può dire che, calcolate le varianze dei due campioni, si fa il rapporto
fra la varianza maggiore e que lla minore. Se questo rapporto è minore di tre, le varianze
delle popolazioni corrispondenti possono considerarsi identiche. Altrimenti il test si dirà
eteroscedastico. Nell’esempio le varianze dei due gruppi sono 198,62 e 215,33 per cui il test
si può considerare omoscedastico.
Vediamo ora i dati del nostro esempio. Prima si calcola deviazione standard comune ai due gruppi
con la formula [14].
Sp =
(7 − 1)198, 62 + (7 − 1)215,33 = 14,39
14 − 2
Sostituiamo ora il valore trovato nella [13]
42
t=
28,57 − 40
= −1, 49
1 1
14,39 +
7 7
Il valore -1,49 rappresenta il test calcolato sulla base del nostro esperimento. Come va interpretato
questo numero? Dice che H0 può essere rigettata e quindi Ha accettata, oppure che non si hanno
elementi sufficienti per rigettare H0 ? La risposta a questa domanda viene dal punto successivo.
4, Regione di rigetto
Zona della distribuzione di probabilità della statistica del test dove
ricadono i valori che consentono di rigettare l’ipotesi nulla a favore
di quella di ricerca
Nel paragrafo precedente si è visto come l’errore rappresenti un elemento fondamentale
dell’inferenza statistica. Nel condurre un test statistico si possono commettere due tipi di errore:
Errore di tipo I
Rigettare l’ipotesi nulla quando questa è vera. La sua probabilità è
indicata con α
Errore di tipo II
Accettare l’ipotesi nulla quando questa è falsa e quella di ricerca è
vera. La sua probabilità è indicata con β
Possibilità
Se H0 è vera
Se H0 è falsa
(e Ha vera)
Decisione
Accettare H0
Decisione corretta
La probabilità 1 – α corrisponde
al “livello di fiducia”
Errore di II tipo
Probabilità β
Rifiutare H0
Errore di tipo I
La probabilità α è anche
chiamata “livello di
significatività” del test
Decisione corretta
La probabilità 1 – β è anche
chiamata “potenza” del test
Nella maggioranza delle applicazioni dei test statistici viene tenuto in considerazione solamente
l’errore di tipo I, in quanto si ritiene che la cautela maggiore debba essere quella di evitare di
affermare che l’ipotesi di ricerca è vera quando invece è falsa. A tale scopo si fissa preliminarmente
la probabilità dell’errore di tipo I, cioè α, che si è disposti ad accettare: i valori solitamente
considerati come limite massimo di errore tollerabile sono 5% o, nel caso di una maggiore severità,
43
l’1%. Una volta fissato α , bisogna cercare tra i valori tabulati di t, quello che lascia alla sua destra
un un’area pari ad α. La tabella A-2 va letta in maniera differente da quella relativa alla
distribuzione Normale: la prima colonna riporta i gradi di libertà, mentre le altre 6 contengono i
valori di t che lasciano a destra un’area pari al 10% (la prima) sino al 0.01% (l’ultima). Se, per
l’esempio considerato, si fissa α al 5%, allora si dovrà cercare nella colonna di α = 0,05 in
corrispondenza della riga di 12 gradi di libertà. Il valore cercato è 1,782. Il valore trovato nella
tabella rappresenta il valore critico di t e deve essere messo a confronto con il valore di t calcolato
sul campione per pervenire al punto finale del test statistico.
5. Conclusione del test
In base al valore della statistica del test calcolata a partire dai dati
del campione ed al valore critico si decide se rigettare o meno
l’ipotesi nulla a favore dell’ipotesi di ricerca
Il confronto tra i due valori dipende da come è stata formulata l’ipotesi di ricerca. Nel caso del
confronto fra due medie infatti esistono 3 possibili alternative
1. X1 − X 2 ≠ 0
2.
X1 − X 2 > 0
3.
X1 − X 2 < 0
Per i tre casi, considerando una probabilità di errore di tipo I pari ad α e gradi di libertà pari n1 + n2 2, la regole per arrivare alla conclusione del test sono:
1. X1 − X 2 ≠ 0
rigettare H0 se ¦ t¦ > tα/2
2.
X1 − X 2 > 0
rigettare H0 se
t > tα
3.
X1 − X 2 < 0
rigettare H0 se
t < - tα
dove t è il valore di t calcolato sui dati del campione mentre tα e tα/2 rappresentano il valore critico
di t, cioè quello riportato in tabella. Nell’esempio, l’ipotesi di ricerca è Xtratt − Xcontr < 0 , per cui
siamo nel caso n. 3. Quindi dobbiamo confrontare il t calcolato, -1,49, con quello teorico con il
meno davanti. Poiché la condizione t < - tα non è rispettata, in quanto -1,49 non è minore di -1,782,
44
sulla base dei risultati dell’esperimento non è possibile rigettare l’ipotesi nulla e accogliere l’ipotesi
di ricerca. La conclusione del test statistico sarà pertanto:
Il numero medio dei parassiti gastrici nel gruppo di pecore trattate con il farmaco non è inferiore
a quello del gruppo delle pecore di controllo, almeno per un livello di significatività statistica del
5%.
Riassumendo brevemente il test
Ipotesi nulla (H0 )
Xtratt − Xcontr = 0
Ipotesi alternativa o di ricerca (Ha)
Xtratt − Xcontr < 0
Statistica del test
t=
28,57 − 40
1 1
14,39
+
7 7
= −1, 49
Regione di rigetto
Per α = 0,05 , t critico = 1,782
Conclusione del test
Poiché -1,49 non è minore di -1,782 l’ipotesi nulla non può
essere rigettata
E’ importante che nelle conclusioni di un test sia riportato il livello di significatività statistica.
Come detto in precedenza, nella stragrande maggioranza degli studi scientifici che riportano delle
elaborazioni statistiche, i livelli di errore solitamente tollerati sono l’1% o al massimo il 5%. E’
però buona norma che chi compie l’elaborazione statistica fissi il margine di errore non secondo le
consuetudini, ma ragionando sul tipo di esperimento di cui si sta occupando. Nel nostro esempio
abbiamo posto il limite massimo di errore pari al 5%: questo perché, se avessimo trovato che la
media delle pecore trattate era inferiore a quella delle pecore di controllo volevamo sbagliare al
massimo del 5%. In termini probabilistici un po’ grossolani, un errore del 5% vorrebbe dire che
trattando con il farmaco 100 pecore, in media questo sarebbe efficace su 95 di esse. Se però il
parassita che stiamo trattando è molto dannoso per gli ovini e la sua presenza causa perdite
economiche rilevanti agli allevatori, il farmaco che vogliamo proporre è l’unico sinora prodotto
contro quel parassita, è economico, facile da somministrare, allora potremmo accontentarci anche di
45
un margine di sicurezza minore, ed essere disposti a tollerare un errore di tipo I anche sino al 10%.
In questo caso il t critico è pari a 1.356. Allora poiché -1,49 è più piccolo di -1,356 la conclusione
del test sarebbe:
Il numero medio dei parassiti gastrici nel gruppo di pecore trattate con il farmaco (Xtratt) è
inferiore a quello del gruppo delle pecore di controllo
(X ) ,
tontr
almeno per un
livello di
significatività statistica del 10% (P<0,10).
Lo sviluppo dell’esempio sull’esperimento del farmaco negli ovini è stato piuttosto lungo ma ha
permesso di descrivere la logica (un po’ bizantina per la verità) di funzionamento di un test
statistico. Questo sforzo ne risparmierà però degli altri perchè la gran parte dei test statistici segue la
medesima logica.
La funzione TEST.T di Excel consente di sviluppare il confronto fra medie. La finestra del test
chiede:
matrice 1
bisogna selezionare l’intervallo che contiene i dati del primo gruppo (ad es. le pecore
trattate)
matrice 2
bisogna selezionare l’intervallo che contiene i dati del secondo gruppo (ad es. le
pecore di controllo)
coda
un test statistico può essere ad una o a due code, a seconda di come è formulata
l’ipotesi di ricerca. Se è del tipo X1 − X2 ≠ 0 allora il test è a due code, mentre per
gli altri due casi,
X1 − X 2 > 0 e X1 − X 2 < 0 il test è a una coda. Quindi nel
nostro esempio il test è a una coda.
tipo
ci sono tre possibilità. Il nostro esempio è quello contrassegnato con il numero 2
cioè due campioni estratti da popolazioni con uguali varianze.
Il risultato che produce Excel è 0,0815. Questo risultato è il valore di α, cioè è la esatta probabilità
di errore associata al valore di t calcolato sui dati del campione (nel nostro caso -1,49). E’ ovvio che
se ci si era ripromessi di non sbagliare più dello 0,05, essendo l’errore 0,08 concluderemo che
46
l’ipotesi nulla non può essere rigettata a favore di quella di ricerca. I softwares statistici non
mostrano lo sviluppo della complessa sequela di punti, qui seguita per scopi essenzialmente
didattici, ma forniscono direttamente il valore della probabilità di errore di tipo I (α) o livello di
significatività statistica del test, associata al valore della statistica del test calcolato sulla base dei
dati del campione.
Seguono altri due esempi di confronto fra medie di due gruppi.
Confronto tra il contenuto proteico medio del latte di due razze bovine, Frisona e Bruna. Due gruppi
di 25 vacche ciascuno
Bruna
3,44
3,67
3,57
3,45
3,61
3,53
3,89
3,47
3,31
3,48
3,51
3,49
3,67
3,67
3,45
3,82
3,33
3,55
3,48
3,51
3,49
3,67
3,67
3,45
3,82
Frisona
3,14
3,08
3,25
3,33
3,22
3,13
3,32
3,22
3,26
2,99
3,19
3,21
3,28
3,16
3,12
3,22
3,22
3,37
3,10
3,19
3,00
2,59
2,99
3,14
3,29
Media
Deviazione standard
Bruna
3,6
0,14
Frisona
3,20,15
47
Domanda: il contenuto medio in proteina del latte della Bruna è maggiore di quello della Frisona?
Riassumendo brevemente il test
Ipotesi nulla (H0 )
XBruna − XFrisona = 0
Ipotesi alternativa o di ricerca (Ha)
XBruna − XFrisona > 0
Statistica del test
t=
Regione di rigetto
Per α = 0,01 , e 48 gradi di libertà, t critico = 2,406
Conclusione del test
Poiché 9,43 è notevolmente maggiore di 2,406, l’ipotesi nulla
3,6 − 3, 2
= 9,43
1
1
0,0229
+
25 25
può essere rigettata e quella di ricerca può essere accolta.
Quindi il contenuto medio in proteina del latte di Bruna è
superiore a quello del latte di Frisona
Esempio di un test appaiato
E’ stato condotto un esperimento per verificare l’effetto della benzedrina sul battito cardiaco dei
cani. Si ritiene che tale sostanza abbia il potere di aumentare la frequenza del battito: è stato
misurato il battito cardiaco di 14 cani sia prima che dopo la somministrazione del farmaco.
Domanda: la frequenza media del battito cardiaco dopo la somministrazione di benzedrina è
superiore a quella che gli animali avevano prima della somministrazione del farmaco?
48
Cane
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Prima
250
271
243
252
266
272
293
296
301
298
310
286
306
309
Dopo
258
285
245
250
268
278
280
305
319
308
320
293
305
313
In questo caso si deve applicare un test t per dati appaiati poiché le unità sperimentali dei due gruppi
sono le stesse (sono gli stessi 14 cani prima e dopo la somministrazione del farmaco).
Utilizzando la funzione TEST.T di Excel
matrice 1.
colonna che contiene i dati del gruppo prima ;
matrice 2.
colonna che contiene di dati del gruppo dopo;
coda
una coda poiché l’ipotesi è che la media prima della somministrazione del farmaco
sia inferiore alla media dopo la somministrazione, cioè
Xprima − Xdopo < 0
Tipo
appaiato, cioè 1;
Risultato
0,011. Questa è la probabilità di errore di tipo I (a). Quindi possiamo dire che la
frequenza media del battito cardiaco dopo la somministrazione di benzedrina è
superiore a quella di prima con un livello di significatività di 0,011%.
Test di ipotesi su variabili qualitative: uso del test χ2 per il confronto fra le frequenze di due
gruppi
Consideriamo una situazione per certi versi analoga all’esempio del farmaco contro il parassita
gastrico degli ovini riportato nel paragrafo precedente. Anche in questo caso si vuole verificare
l’efficacia di un nuovo farmaco su una malattia e a tal fine si costituiscono due gruppi di 20 pecore
ciascuno, uno trattato con il farmaco (gruppo trattato) e l’altro non trattato (controllo). La presenza
(o l’assenza) della malattia non è però rilevata in forza del conteggio dei parassiti gastrici presenti
nello stomaco di ciascun animale (come nel caso precedente), ma con un esame diagnostico che può
essere eseguito sugli animali vivi e che fornisce una risposta dicotomica del tipo POSITIVO o
49
NEGATIVO. I risultati dell’esperimento sono espressi in termini di frequenze assolute (cioè di
numero di animali che risultano affetti dalla parassitosi in ciascun gruppo) (tabella 8).
Tabella 8 . Tavola di contingenza delle frequenze osservate nell’esperimento.
Gruppo
Trattato
15
5
20
Diagnosi
Negativo
Positivo
Totale
Controllo
7
13
20
Totale
22
18
40
La tabella, che riporta il numero degli animali positivi e negativi rilevati nei due gruppi
sperimentali, cioè le frequenze osservate, ed anche i totali di riga, di colonna ed il totale generale è
conosciuta come Tavola di contingenza.
Poiché la variabile misurata nell’esperimento (positività, negatività) è di tipo qualitativo il test t
(valido solo per le variabili di tipo quantitativo) non è applicabile. Il test specifico è invece il
cosiddetto test di indipendenza del χ 2
(chi-quadrato), fondato direttamente sul calcolo delle
probabilità. Si analizza il problema in termini di eventi: il primo evento è il trattamento
sperimentale che può avere due uscite (trattato o controllo), il secondo è l’esito all’esame
parassitologico, anch’esso con due uscite possibili (positivo e negativo).
Ipotesi nulla (H0 )
Il fatto che un animale sia risultato positivo o negativo all’esame
parassitologico non dipende dal fatto che sia stato trattato o meno dal
farmaco. Cioè l’esito all’esame diagnostico ed trattamento con il
farmaco sono due eventi tra loro indipendenti.
Ipotesi di ricerca (Ha )
Il fatto che un animale sia risultato positivo o negativo all’esame
parasitologico dipende dal fatto che sia stato trattato o meno dal
farmaco. In particolare, la frequenza degli animali negativi al test è
maggiore per quelli del gruppo trattato rispetto a quello di controllo,
pertanto l’esito all’esame diagnostico ed il trattamento con il farmaco
sono due eventi tra loro collegati (non indipendenti).
 (Osservateij − Atteseij ) 
χ = ∑

ij
Atteseij


2
Statistica del test
2
50
[15]
Dove
Osservate
sono le frequenze osservate, cioè i numeri di animali effettivamente conteggiati in
ciascuna cella della tavola di contingenza.
Attese
sono le frequenze teoriche, che ci si sarebbe attesi in ciascuna cella della tavola di
contingenza, nel caso in cui l’ipotesi nulla fosse valida (risultato dell’esame
diagnostico indipendente dal trattamento col farmaco).
Vediamo ora come si calcolano le frequenze attese. Bisogna riprendere il concetto della probabilità
in senso frequentista ed applicarlo al caso in esame. Ci troviamo di fronte a 40 pecore, 20 trattate
con il farmaco e 20 no. Quale è la frequenza (e quindi la probabilità) delle pecore trattate?
f t (trattate) =
20
= 0,5
40
Quale è la frequenza delle non trattate (o gruppo di controllo)?
f c ( controllo ) =
20
= 0,5
40
Alla fine dell’esperimento è stato fatto il test parassitologico. Quale è la frequenza delle positive? su
f p ( positive) =
18
= 0,45
40
Quale è stata la frequenza delle negative?
f n ( negative) =
22
= 0,55
40
Le frequenze attese sono quelle che ci si aspetterebbe nel caso in cui i due eventi fossero tra loro
indipendenti (come nel caso del lancio di due monete, una con la mano destra e l’altra con la mano
sinistra). La regola per il calcolo delle frequenze attese di una tavola di contingenza dice che:
Due variabili rappresentate in una tavola di contingenza sono dette indipendenti se la probabilità
che una misura sia classificata in una cella della tavola è pari al prodotto della probabilità di
51
essere classificata in quella riga per il prodotto di essere classificata in quella colonna. Ciò deve
essere valido per tutte le celle della tavola .
Quindi per il loro calcolo possiamo utilizzare la formula [8]. Ad esempio la frequenza attesa delle
pecore negative del gruppo di controllo sarà:
f a (negative del gruppo di controllo) = f(negative) x f(controllo) =
=
22 20
×
= 0,27
40 40
Per il calcolo della statistica chi-quadrato con la formula [15] occorrono le frequenze assolute (cioè
il numero di animali) mentre nella tabella sopra riportata sono state ottenute le frequenze relative
(espresse cioè in %). Per passare dalle frequenze relative a quelle assolute dovremmo moltiplicare
quelle relative per la numerosità totale, cioè 40. Così, ad esempio, la frequenza attesa assoluta delle
negative trattate diventa
f ( negativetrattate) =
22 20
22
* * 40 =
* 20 = 11
40 40
40
Per semplicità espositiva, il calcolo delle frequenze attese si illustra direttamente all’interno della
tavola di contingenza
Tabella 9. Tavola di contingenza delle frequenze attese nell’esperimento.
Diagnosi
Negativo
Positivo
Totale
Gruppo
Trattato
Controllo
22
f (negative ) * f (trattate ) =
* 20 = 11
40
18
f ( positive) * f (trattate ) =
* 20 = 9
40
22
f (negative ) * f ( controllo ) =
* 20 = 11
40
18
f ( positive) * f (controllo ) =
* 20 = 9
40
20
20
Totale
22
18
40
Una volta ottenute le frequenze assolute bisogna calcolare il valore della statistica del test con la
formula [15]
52
χ =
2
(15 − 11)
2
11
(7 − 11)
2
+
Regione di rigetto
11
(5 − 9)
2
+
9
(13 − 9)
2
+
9
= 1, 454 + 1. 454 + 1,777 + 1 .777 = 6 ,465
Bisogna cercare sulle tabelle della distribuzione del χ 2 il valore critico
per la probabilità di errore di tipo I che ci si è prefissata. Anche per il
χ2 esistono diverse distribuzioni in base ai gradi di libertà. Il calcolo
dei gradi di libertà viene fatto con la formula:
(numero righe della tavola di contingenza-1) x(numero colonne della tavola di contingenza-1)
nel nostro caso sarà
(2-1) x (2-1) = 1
Ponendo α=0,05, per 1 grado di libertà, il valore critico di χ 2 è 3,841.
Conclusione del test
Poiché il valore di χ 2 calcolato sui dati del campione è maggiore del χ 2
tabulato, possiamo rigettare l’ipotesi nulla ed accettare l’ipotesi di
ricerca con un livello di confidenza del test minore del 5% (P<0,05):
l’esito del test sierologico ed il trattamento con il farmaco non sono
due eventi indipendenti. Il farmaco quindi funziona.
La funzione TEST.CHI di excel permette di svolgere un test del chi quadrato: gli input richiesti
Int_effettivo
sono le frequenze osservate
Int_previsto
sono le frequenze attese
Il risultato che fornisce excel è 0.01154., Come visto in precedenza nel caso del test t, il programma
fornisce direttamente il valore dell’errore associato al valore della statistica calcolato suo campione.
53
Infatti si nota anche dalla tabella come il valore del calcolato sul campione è di pochissimo inferiore
al t critico per α=0,01.
Altro esempio di test del chi-quadrato.
E’ stato condotto un esperimento per studiare la relazione esistente tra la coagulabilità del latte,
caratteristica tecnologica di grande importanza ai fini della trasformazione casearia, ed età degli
animali. Su 168 campioni individuali di latte ovino, 84 provenienti da pecore di 2 anni e 84 di
pecore di 3 anni, è stata misurata la capacità di coagulazione, con uno strumento che consente di
stabilire se il latte coagula entro un determinato tempo dall’aggiunta del caglio oppure no. I risultati
sono riportati nella seguente tavola di contingenza,.
2 anni
non coagula
coagula
Totale
3 anni
3
81
84
Totale
22
62
84
25
143
168
Domanda: esiste una relazione fra coagulabilità del latte ed età degli animali?
Calcolo delle frequenze attese
non coagula
coagula
Totale
2 anni
3 anni
Totale
84 × 25
= 12.5
168
84 × 143
= 71.5
168
84 × 25
= 12.5
168
84 × 143
= 71.5
168
84
84
25
143
168
Calcolo della statistica del test
(3 − 12,5)
=
2
χ
2
12,5
(22 − 12,5)
+
2
12,5
(81 − 71,5)
+
71,5
2
(62 − 71,5)
+
71,5
gradi di libertà
(nrighe-1) x (ncolonne-1)=(2-1)x(2-1)=1
54
2
= 17, 22 + 7,22 + 1, 262 + 1,262 = 16,964
Per α=0,01 e 1 grado di libertà il valore critico di χ 2 è 6,635.
Conclusione del test
Poiché 16,694>6,635, si può concludere che la coagulabilità del latte e
l’età degli animali non sono dei fattori tra loro indipendenti. Esiste
infatti una relazione fra i due con un livello di significatività statistica
minore dell’1% (P<0,01).
La funzione TEST.CHI di excel fornisce direttamente la probabilità di errore associata al valore di
χ2 calcolato ( 6,635), che è 0,0000038.
55
STUDIO DELLE RELAZIONI FRA DUE VARIABILI
Le tecniche di analisi statistica trattate nei capitoli precedenti sono dette di tipo univariato, in
quanto sviluppano lo studio di una singola variabile. Nella pratica scientifica, però, è frequente il
caso in cui sulle unità sperimentali vengono misurate più variabili contemporaneamente: su un
bovino si può misurare la produzione di latte, ma anche il peso o la concentrazione ematica di
glucosio; sul latte si può determinare il contenuto in grasso ma anche il pH, l’indice crioscopico; su
un vino il grado alcolico ma anche il contenuto in tannini, etc. Il poter disporre di più variabili
misurate sulle stesse unità sperimentali può rappresentare un notevole vantaggio ai fini della
comprensione del processo che si sta studiando. Ciò dipende dal grado di relazione che esiste tra le
variabili in esame.
Due variabili si dicono statisticamente correlate quando la variazione dell’una non è indipendente
dalla variazione dell’altra, cioè quando esse in qualche misura covariano.
Il termine correlazione, ampiamente utilizzato anche nel linguaggio comune per indicare l’esistenza
di una relazione fra più aspetti degli stessi oggetti, assume quindi nel campo statistico un significato
ben preciso ed introduce al concetto di una variazione comune a due variabili cioè della loro
covariazione. Nella tabella seguente sono riportati i valori di due variabili somatiche, peso corporeo
e altezza al garrese, misurate su 20 pecore di razza Gentile di Puglia.
Tabella 10. Peso corporeo e altezza al garrese di 20 pecore di razza Gentile di Puglia
Pecora
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Peso (cm)
52
47
51
49
39
48
43
53
52
48
55
47
40
57
42
52
45
44
53
50
Altezza al garrese (cm)
85
85
89
84
75
83
80
85
85
85
86
85
80
89
79
87
84
80
85
87
56
Una prima valutazione, qualitativa ma efficace, del grado di relazione esistente tra due variabili
viene fornita dalla loro rappresentazione grafica. A tale riguardo, nel grafico seguente vengono
riportati i dati della tabella 10, ponendo in ascisse il peso corporeo degli animali ed in ordinate
l’altezza al garrese. Ogni punto rappresenta una pecora.
90
altezza al garrese(cm)
88
86
84
82
80
78
76
74
35
40
45
50
55
60
peso corporeo (kg)
Figura 12. relazione fra peso corporeo ed altezza al garrese in pecore di razza Gentile di Puglia.
L’osservazione della figura 12 suggerisce immediatamente l’esistenza di una relazione tra le due
variabili considerate: in particolare, all’aumentare del peso corporeo aumenta l’altezza al garrese
degli animali. Cioè le due variabili almeno in parte variano assieme. Nel caso in esame, la natura di
tale relazione è ben nota ed ha un fondamento biologico: individui più alti tendono pesare di più
perchè, a parità di costituzione, hanno una mole maggiore. E’ sempre buona norma, però, una volta
evidenziata l’esistenza di una correlazione fra due variabili, verificare se questa ha una
giustificazione razionale o se è semplicemente frutto del caso. Altrimenti si corre il rischio di
incappare in conclusioni errate come quella che aveva messo in relazione il consumo di liquori con
lo stipendio dei professori universitari, e che i testi di statistica citano spesso come esempio di
assurdità.
Tornando alla figura 12, si nota come la variazione del peso e dell’altezza al garrese avvengano
nello stesso senso: all’aumentare dell’una cresce anche l’altra. Si possono avere casi in cui alla
variazione di una variabile l’altra risponda con una variazione opposta. Un esempio classico è la
relazione che esiste tra quantità di latte prodotto e contenuto lipidico (figura 13).
57
Contenuto lipidico (%)
11
10
9
8
7
6
5
4
3
2
400
900
1400
1900
2400
produzione di latte (g)
Figura 13. Relazione fra produzione di latte e contenuto lipidico in pecore di razza Valle del Belice
Anche se la tendenza è meno netta di quella evidenziata nella figura precedente, si nota chiaramente
come all’aumento della produzione di latte corrisponda una diminuzione del suo contenuto lipidico.
Questa relazione ha anch’essa una spiegazione biologica, nota come effetto di diluizione: l’aumento
della produzione del latte è dovuto in massima parte alla maggior quantità di acqua secreta
dall’animale per cui il grasso presente nel latte, che aumenta anch’esso ma in minor misura meno
rispetto all’acqua, risulta maggiormente diluito.
Nel capitolo che trattava le misure di variabilità di una singola variabile abbiamo visto come questa
potesse essere espressa dalla varianza [1]. Per la descrizione della variazione comune di due
variabili esiste una misura analoga, la covarianza.
La covarianza tra due variabili x e y, che si indica con il simbolo Sxy , viene calcolata con la
formula:
Sxy =
∑ (x − x )⋅ (y − y)
n −1
[16]
Essa esprime la quota di variabilità comune che presentano due variabili. Maggiore è la covarianza
tra le due variabili, più stretta sarà la relazione fra le due. Di seguito è riportato lo schema di
calcolo della covarianza per le due variabili riportate in tabella 10.
58
media
x
y
x- x
y- y
52
47
51
49
39
48
43
53
52
48
55
47
40
57
42
52
45
44
53
50
48,35
85
85
89
84
75
83
80
85
85
85
86
85
80
89
79
87
84
80
85
87
83,9
3,65
-1,35
2,65
0,65
-9,35
-0,35
-5,35
4,65
3,65
-0,35
6,65
-1,35
-8,35
8,65
-6,35
3,65
-3,35
-4,35
4,65
1,65
1,1
1,1
5,1
0,1
-8,9
-0,9
-3,9
1,1
1,1
1,1
2,1
1,1
-3,9
5,1
-4,9
3,1
0,1
-3,9
1,1
3,1
somma
covarianza
(x- x ) x (y- y )
4,015
-1,485
13,515
0,065
83,215
0,315
20,865
5,115
4,015
-0,385
13,965
-1,485
32,565
44,115
31,115
11,315
-0,335
16,965
5,115
5,115
287,7
287,7/19 = 15,142
La covarianza può essere calcolata anche con la funzione COVARIANZA di Excel. Il risultato
trovato è però diverso, 14,385. Ciò è dovuto al fatto che Excel nell’applicare la formula 16 non
divide per n-1 ma per n. Tale differenza, all’aumentare della numerosità del campione diventa
trascurabile.
Paradossalmente, la grandezza fondamentale è la covarianza, perché la varianza altro non è che a
covarianza di una variabile con sé stessa: il lettore potrà infatti facilmente verificare come
sostituendo y con x nella formula [16] si ottiene la formula del calcolo della varianza [1].
IL COEFFICIENTE DI CORRELAZIONE
Analogamente a quanto detto per la varianza, anche la covarianza, essendo un prodotto di
differenze, ha la caratteristica di non essere immediatamente interpretabile. Una misura di più facile
lettura che esprime l’intensità con la quale due variabili x e y sono legate è il coefficiente di
correlazione (r)
r =
xy
S
xy
S ⋅S
2
x
[17]
2
y
59
dove
Sxy
=
covarianza di x e y
Sx 2
=
varianza di x
S y2
=
varianza di y
Il coefficiente di correlazione può assumere valori compresi tra –1 e 1. Il significato dei diversi
intervalli di valori del coefficiente di correlazione è riportato nello schema seguente.
r>0
→
Relazione lineare positiva fra le →
Al variare dell’una l’altra varia nello stesso
due variabili
senso
Esempio: Altezza al garrese e peso corporeo
r<0
→
Relazione lineare negativa fra →
Al variare dell’una l’altra varia in senso
le due variabili
opposto
Esempio: Produzione di latte e contenuto %
in grasso
r =0
Assenza di relazione fra le due →
La variazione dell’’una è indipendente dalla
variabili
variazione dell’altra
Esempio: Produzione di latte e lunghezza
della coda
Nel caso dei dati riportati in tabella 10, il coefficiente di correlazione è:
rpesohg =
Spesohg
S
2
peso
⋅S
=
2
hg
14,385
= 0,8655
23,6275 *11,69
Il coefficiente di correlazione può essere calcolato con la funzione CORRELAZIONE di Excel.
Esiste una classificazione di riferimento per i valori del coefficiente di correlazione. In generale se
r < 0,4
La correlazione è detta debole
60
0,4 < r < 0,6
La correlazione è detta media
r > 0,6
La correlazione è detta forte
Nel paragrafo precedente si è detto che un’eventuale correlazione fra variabili potrebbe essere
anche frutto del caso. Al fine di prevenire conclusioni errate, si può applicare un test statistico che
consente di dire se il coefficiente di correlazione trovato è statisticamente diverso da zero, cioè se la
relazione che è stata trovata tra le variabili oggetto di studio esiste realmente. Vediamo come si
sviluppa il test.
Ipotesi nulla
r = 0, cioè non esiste relazione fra le due variabili
Ipotesi alternativa
r ≠ 0, cioè esiste relazione fra le due variabili
Statistica del test
t=
(r − 0)
(1 − r )
[18]
2
( n − 2)
Nel caso dei dati della tabella 10
t=
0,8655
= 7,33
(1 − 0,749182)
(18)
Poiché il valore di t trovato è maggiore del valore tabulato di t (tabella A-2) per un valore di α =
0,001 e 18 gradi di libertà, il coefficiente di correlazione è diverso da zero con un livello di
significatività di 0,001.
61
REGRESSIONE
Come si è detto nel paragrafo precedente, il fatto di avere di avere più variabili misurate sulla stessa
unità sperimentale può rappresentare un vantaggio ai fini della comprensione del fenomeno oggetto
di studio. Vediamo ora come questa opportunità può essere sfruttata in pratica.
La tabella 11 riporta i risultati di un esperimento in cui sono stati misurati il peso corporeo e
l’ingestione alimentare (quantità di alimento ingerita nelle 24 ore espressa in kg di sostanza secca)
di 20 pecore di razza Sarda nel periodo di asciutta.
Tabella 11. Peso corporeo e ingestione alimentare di 20 pecore di razza Sarda in asciutta
Peso corporeo (kg)
Ingestione alimentare (kg)
45,0
1,189
44,0
1,151
35,0
0,915
41,0
0,944
42
1,127
43,4
1,031
46,9
1,223
45,2
1,129
39,8
0,888
50,1
1,193
49,2
1,194
45,3
1,095
46,2
1,146
44,2
1,189
41,2
1,045
52,1
1,308
47,7
1,185
48,2
1,202
38,1
0,843
49,0
1,270
La relazione esistente tra queste due variabili può essere desunta dall’osservazione della figura 14,
che riporta i dati della tabella 11: all’aumentare del peso corporeo aumenta l’ingestione alimentare.
Le due variabili quindi sono positivamente correlate, come confermato dal valore del coefficiente di
62
correlazione (r = 0,894). Questa relazione ha una grande importanza dal punto di vista pratico.
L’ingestione alimentare è infatti una variabile di notevole interesse tecnico per chi si occupa della
formulazione della razione degli animali di interesse zootecnico ma presenta il grosso problema di
essere molto difficile da misurare nelle condizioni normali di allevamento. Poiché invece il peso
può essere misurato in maniera relativamente semplice, può essere assai utile un modello statistico
che, sfruttando la correlazione esistente fra le due variabili, consenta di stimare l’ingestione sulla
ingestione alimentare (kg)
base del peso corporeo degli animali.
1.4
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
35
40
45
50
55
peso corporeo (kg)
Figura 15. Relazione fra peso corporeo e ingestione alimentare in pecore di razza Sarda.
La tecnica statistica che consente di arrivare ad una tale relazione è nota come Regressione.
Il modello matematico più semplice per la previsione del valore di una variabile dipendente (y)
sulla base del valore di una variabile indipendente (x) è l’equazione di una retta :
y = bx + a
Nel nostro caso però non è possibile prevedere esattamente il valore dell’ingestione alimentare (y)
corrispondente ad un determinato valore di peso corporeo (x) poiché i punti non giacciono su una
retta (figura 15). Quindi i valori della y sono legati ai valori di x da una relazione più complicata,
del tipo:
y = bx + a + ε
[19]
dove:
63
a
è l’intercetta della retta, cioè il valore di y in corrispondenza del quale la retta di regressione
interseca l’asse delle ordinate
b
è il coefficiente angolare o di regressione (fornisce la pendenza della retta) ed esprime la ù
variazione della variabile dipendente (y) al variare di una unità della variabile indipendente
(x)
ε
è il residuo, cioè la differenza fra il valore di y stimato dall’equazione della retta ed il valore
di y realmente osservato.
I parametri della retta di regressione possono essere calcolati con le formule seguenti
b = rxy
Sy
SX
[20]
dove rxy è il coefficiente di correlazione fra le due variabili, Sx e Sy sono le rispettive deviazioni
standard
a = y − bx
[21]
dove x e y sono le medie delle variabile x e y rispettivamente
Applichiamo ora le formule [20] e [21] per il calcolo dei parametri della retta di regressione
all’esempio del peso corporeo e della ingestione alimentare:
b = 0,894 ×
0,13
= 0,027
4, 26
a = 1,113 – 0,027*(44,68) = -0,0934
Quindi l’equazione della retta di regressione sarà:
64
y = 0,027x + 0,0934 + e
[22]
o, in altri termini
ingestione (kg) = 0,027 x peso corporeo (kg) + 0,0934 + ε
In precedenza si è detto che il coefficiente di regressione rappresenta la variazione della variabile
dipendente al variare di una unità della variabile indipendente. Nel caso specifico della retta che ci
siamo calcolati, quindi, il valore del coefficiente di regressione indica che l’ingestione alimentare
aumenta di 27 grammi (0,027 kg) all’aumentare di 1 kg di peso corporeo.
L’equazione [22] può essere adesso utilizzata per la stima dei valori dell’ingestione a partire dal
peso corporeo. I valori della variabile dipendente stimati con la retta di regressione si indicano
convenzionalmente ŷ
Ad esempio, il valore stimato dell’ingestione alimentare per un animale che pesa 49 kg sarà
ŷ
= 0,027*(49) - 0,0934 = 1,23
Poiché però il vero valore di ingestione misurato sulla pecora che pesava 49 kg è di 1,27 (tabella
11), la differenza
ŷ -y = 1,23-1,27 = 0,04
rappresenta il residuo dalla retta di regressione (ε) e, graficamente, costituisce la distanza dal punto
sperimentale dalla retta di regressione.
Allo stesso modo, utilizziamo l’equazione [22] per calcolare l’ingestione stimata delle 20 pecore del
gruppo sperimentale:
65
Peso corporeo (kg)
Ingestione vera
Ingestione stimata
Residuo
45,0
1,189
1,1216
-0,0674
44,0
1,151
1,0946
-0,0564
35,0
0,915
0,8516
-0,0634
41,0
0,944
1,0136
0,0696
42
1,127
1,0406
-0,0864
43,4
1,031
1,0784
0,0474
1,1729
-0,0501
46,9 1,223
45,2
1,129
1,127
-0,002
39,8
0,888
0,9812
0,0932
50,1
1,193
1,2593
0,0663
49,2
1,194
1,235
0,041
45,3
1,095
1,1297
0,0347
46,2
1,146
1,154
0,008
44,2
1,189
1,1
-0,089
41,2
1,045
1,019
-0,026
52,1
1,308
1,3133
0,0053
47,7
1,185
1,1945
0,0095
48,2
1,202
1,208
0,006
38,1
0,843
0,9353
0,0923
49,0
1,270
1,2296
-0,0404
Si possono ora aggiungere i dati dell’ingestione stimata al grafico riportato in figura 15
66
Ingestione alimentare (kg)
1.3
1.2
1.1
1
0.9
0.8
0.7
30
35
40
45
50
55
Peso corporeo (kg)
Figura 16. Valori dell’ingestione osservata (♦) e stimata con la retta di regressione () [22].
Si può notare come i valori dell’ingestione stimata si trovino sulla retta di regressione. Le distanze
fra i rombi (che rappresentano il valore realmente osservato dell’ingestione) ed il corrispondente
valore sulla retta, rappresentano i residui.
La retta di regressione è nota anche con il nome di retta dei minimi quadrati. Questo perché, dato
un insieme di punti, la retta di regressione è quella retta che soddisfa la condizione matematica di
minimizzare la somma dei quadrati delle distanze dei punti reali da essa. In altre parole, è la retta
che passa più vicina a tutti i punti dell’insieme di dati.
67
APPENDICE
Tabella A-1. Valori dell’integrale della distribuzione Normale (generata con la
funzione distrib.norm di excel)
z
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0
0.5000
0.4960
0.4920
0.4880
0.4840
0.4801
0.4761
0.4721
0.4681
0.4641
0.1
0.4602
0.4562
0.4522
0.4483
0.4443
0.4404
0.4364
0.4325
0.4286
0.4247
0.2
0.4207
0.4168
0.4129
0.4090
0.4052
0.4013
0.3974
0.3936
0.3897
0.3859
0.3
0.3821
0.3783
0.3745
0.3707
0.3669
0.3632
0.3594
0.3557
0.3520
0.3483
0.4
0.3446
0.3409
0.3372
0.3336
0.3300
0.3264
0.3228
0.3192
0.3156
0.3121
0.5
0.3085
0.3050
0.3015
0.2981
0.2946
0.2912
0.2877
0.2843
0.2810
0.2776
0.6
0.2743
0.2709
0.2676
0.2643
0.2611
0.2578
0.2546
0.2514
0.2483
0.2451
0.7
0.2420
0.2389
0.2358
0.2327
0.2296
0.2266
0.2236
0.2206
0.2177
0.2148
0.8
0.2119
0.2090
0.2061
0.2033
0.2005
0.1977
0.1949
0.1922
0.1894
0.1867
0.9
0.1841
0.1814
0.1788
0.1762
0.1736
0.1711
0.1685
0.1660
0.1635
0.1611
1
0.1587
0.1562
0.1539
0.1515
0.1492
0.1469
0.1446
0.1423
0.1401
0.1379
1.1
0.1357
0.1335
0.1314
0.1292
0.1271
0.1251
0.1230
0.1210
0.1190
0.1170
1.2
0.1151
0.1131
0.1112
0.1093
0.1075
0.1056
0.1038
0.1020
0.1003
0.0985
1.3
0.0968
0.0951
0.0934
0.0918
0.0901
0.0885
0.0869
0.0853
0.0838
0.0823
1.4
0.0808
0.0793
0.0778
0.0764
0.0749
0.0735
0.0721
0.0708
0.0694
0.0681
1.5
0.0668
0.0655
0.0643
0.0630
0.0618
0.0606
0.0594
0.0582
0.0571
0.0559
1.6
0.0548
0.0537
0.0526
0.0516
0.0505
0.0495
0.0485
0.0475
0.0465
0.0455
1.7
0.0446
0.0436
0.0427
0.0418
0.0409
0.0401
0.0392
0.0384
0.0375
0.0367
1.8
0.0359
0.0351
0.0344
0.0336
0.0329
0.0322
0.0314
0.0307
0.0301
0.0294
1.9
0.0287
0.0281
0.0274
0.0268
0.0262
0.0256
0.0250
0.0244
0.0239
0.0233
2
0.0228
0.0222
0.0217
0.0212
0.0207
0.0202
0.0197
0.0192
0.0188
0.0183
2.1
0.0179
0.0174
0.0170
0.0166
0.0162
0.0158
0.0154
0.0150
0.0146
0.0143
2.2
0.0139
0.0136
0.0132
0.0129
0.0125
0.0122
0.0119
0.0116
0.0113
0.0110
2.3
0.0107
0.0104
0.0102
0.0099
0.0096
0.0094
0.0091
0.0089
0.0087
0.0084
2.4
0.0082
0.0080
0.0078
0.0075
0.0073
0.0071
0.0069
0.0068
0.0066
0.0064
2.5
0.0062
0.0060
0.0059
0.0057
0.0055
0.0054
0.0052
0.0051
0.0049
0.0048
2.6
0.0047
0.0045
0.0044
0.0043
0.0041
0.0040
0.0039
0.0038
0.0037
0.0036
2.7
0.0035
0.0034
0.0033
0.0032
0.0031
0.0030
0.0029
0.0028
0.0027
0.0026
2.8
0.0026
0.0025
0.0024
0.0023
0.0023
0.0022
0.0021
0.0021
0.0020
0.0019
68
2.9
0.0019
0.0018
0.0018
0.0017
0.0016
0.0016
0.0015
0.0015
0.0014
0.0014
3
0.0013
0.0013
0.0013
0.0012
0.0012
0.0011
0.0011
0.0011
0.0010
0.0010
3.5
0.0002
0.0002
0.0002
0.0002
0.0002
0.0002
0.0002
0.0002
0.0002
0.0002
4
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
4.5
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
5
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
69
Tabella A-2. Valori critici del t di Student
g.l.
α = 0.10
α = 0.05
α = 0.025
α = 0.01
α = 0.005
α = 0.001
1
3.078
6.314
12.706
31.821
63.657
318.313
2
1.886
2.920
4.303
6.965
9.925
22.327
3
1.638
2.353
3.182
4.541
5.841
10.215
4
1.533
2.132
2.776
3.747
4.604
7.173
5
1.476
2.015
2.571
3.365
4.032
5.893
6
1.440
1.943
2.447
3.143
3.707
5.208
7
1.415
1.895
2.365
2.998
3.499
4.782
8
1.397
1.860
2.306
2.896
3.355
4.499
9
1.383
1.833
2.262
2.821
3.250
4.296
10
1.372
1.812
2.228
2.764
3.169
4.143
11
1.363
1.796
2.201
2.718
3.106
4.024
12
1.356
1.782
2.179
2.681
3.055
3.929
13
1.350
1.771
2.160
2.650
3.012
3.852
14
1.345
1.761
2.145
2.624
2.977
3.787
15
1.341
1.753
2.131
2.602
2.947
3.733
16
1.337
1.746
2.120
2.583
2.921
3.686
17
1.333
1.740
2.110
2.567
2.898
3.646
18
1.330
1.734
2.101
2.552
2.878
3.610
19
1.328
1.729
2.093
2.539
2.861
3.579
20
1.325
1.725
2.086
2.528
2.845
3.552
21
1.323
1.721
2.080
2.518
2.831
3.527
22
1.321
1.717
2.074
2.508
2.819
3.505
23
1.319
1.714
2.069
2.500
2.807
3.485
24
1.318
1.711
2.064
2.492
2.797
3.467
25
1.316
1.708
2.060
2.485
2.787
3.450
26
1.315
1.706
2.056
2.479
2.779
3.435
27
1.314
1.703
2.052
2.473
2.771
3.421
28
1.313
1.701
2.048
2.467
2.763
3.408
29
1.311
1.699
2.045
2.462
2.756
3.396
30
1.310
1.697
2.042
2.457
2.750
3.385
40
1.303
1.684
2.021
2.423
2.704
3.307
60
1.296
1.671
2.000
2.390
2.660
3.232
120
1.289
1.658
1.980
2.358
2.617
3.160
240
1.285
1.651
1.970
2.342
2.596
3.125
1.282
1.645
1.960
2.326
2.576
3.090
70
Tabella A – 3. Valori critici della distribuzione del chi-quadrato
α=0.10
α=0.05
α=0.01
α=0.001
1
2.706
3.841
5.024
6.635
10.828
2
4.605
5.991
7.378
9.210
13.816
3
6.251
7.815
9.348
11.345
16.266
4
7.779
9.488
11.143
13.277
18.467
5
9.236
11.070
12.833
15.086
20.515
6
10.645
12.592
14.449
16.812
22.458
7
12.017
14.067
16.013
18.475
24.322
8
13.362
15.507
17.535
20.090
26.125
9
14.684
16.919
19.023
21.666
27.877
10
15.987
18.307
20.483
23.209
29.588
11
17.275
19.675
21.920
24.725
31.264
12
18.549
21.026
23.337
26.217
32.910
13
19.812
22.362
24.736
27.688
34.528
14
21.064
23.685
26.119
29.141
36.123
15
22.307
24.996
27.488
30.578
37.697
16
23.542
26.296
28.845
32.000
39.252
17
24.769
27.587
30.191
33.409
40.790
18
25.989
28.869
31.526
34.805
42.312
19
27.204
30.144
32.852
36.191
43.820
20
28.412
31.410
34.170
37.566
45.315
21
29.615
32.671
35.479
38.932
46.797
22
30.813
33.924
36.781
40.289
48.268
23
32.007
35.172
38.076
41.638
49.728
24
33.196
36.415
39.364
42.980
51.179
25
34.382
37.652
40.646
44.314
52.620
26
35.563
38.885
41.923
45.642
54.052
27
36.741
40.113
43.195
46.963
55.476
28
37.916
41.337
44.461
48.278
56.892
29
39.087
42.557
45.722
49.588
58.301
30
40.256
43.773
46.979
50.892
59.703
31
41.422
44.985
48.232
52.191
61.098
32
42.585
46.194
49.480
53.486
62.487
33
43.745
47.400
50.725
54.776
63.870
34
44.903
48.602
51.966
56.061
65.247
35
46.059
49.802
53.203
57.342
66.619
g.l
α=0.025
71
36
47.212
50.998
54.437
58.619
67.985
37
48.363
52.192
55.668
59.893
69.347
38
49.513
53.384
56.896
61.162
70.703
39
50.660
54.572
58.120
62.428
72.055
40
51.805
55.758
59.342
63.691
73.402
50
63.167
67.505
71.420
76.154
86.661
60
74.397
79.082
83.298
88.379
99.607
70
85.527
90.531
95.023
100.425
112.317
80
96.578
101.879
106.629
112.329
124.839
90
107.565
113.145
118.136
124.116
137.208
100
118.498
124.342
129.561
135.807
149.449
72
Scarica