appunti di statistica - Dipartimento di Matematica

APPUNTI DI STATISTICA
Graziano Crasta
Dipartimento di Matematica, Sapienza Università di Roma
Note per il corso di Calcolo e Biostatistica
Corso di Laurea in Biotecnologie Agro–Industriali, a.a. 2013/2014
(versione del 2 dicembre 2013)
INDICE
1 Probabilità
1.1 Definizione assiomatica di probabilità . . . .
1.2 Variabili aleatorie . . . . . . . . . . . . . . .
1.2.1 Variabili aleatorie discrete . . . . . .
1.2.2 Variabili aleatorie continue . . . . . .
1.3 Legge dei grandi numeri e teorema del limite
1.4 Complementi sulle variabili aleatorie . . . .
1.5 Esercizi . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
centrale
. . . . .
. . . . .
2 Statistica descrittiva e inferenziale
2.1 Statistica descrittiva . . . . . . . . . . . . . .
2.1.1 Rappresentazione dei dati . . . . . . .
2.1.2 Indici di posizione e di dispersione . . .
2.2 Popolazioni, campioni, stimatori . . . . . . . .
2.3 Intervalli di confidenza . . . . . . . . . . . . .
2.3.1 Intervalli di confidenza per la media . .
2.3.2 Intervalli di confidenza per la differenza
2.4 Esercizi . . . . . . . . . . . . . . . . . . . . .
3 Test di ipotesi
3.1 Test di ipotesi sulla media . . . . . . . . . .
3.2 Confronto di medie fra gruppi . . . . . . . .
3.2.1 Confronto fra le medie di due gruppi
3.2.2 Test t per dati appaiati . . . . . . . .
3.2.3 Confronto fra le medie di più gruppi
3.3 Verifica di relazione tra variabili . . . . . . .
3.3.1 Regressione lineare . . . . . . . . . .
3.3.2 Test del chi-quadrato di adattamento
i
.
.
.
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
di due
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
4
10
11
19
21
22
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
medie
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
24
24
25
26
28
28
31
34
.
.
.
.
.
.
.
.
35
37
41
41
48
48
53
53
58
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
3.4
3.5
Complementi . . . . . .
3.4.1 Test t di Student
3.4.2 Test F di Fisher .
Esercizi . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
Tabelle
A – Distribuzione normale standard
B – Distribuzione Chi-quadrato . .
C – Distribuzione t di Student . . .
D – Distribuzione F di Fisher . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
60
61
63
.
.
.
.
66
66
67
68
69
CAPITOLO 1
PROBABILITÀ
In questo capitolo introdurremo gli strumenti matematici di base necessari per la
modellizzazione di eventi aleatori, vale a dire di fenomeni il cui esito è incerto. Ad
esempio, quando lanciamo un dato non sappiamo a priori quale numero uscirà; tutto
ciò che possiamo dire è che il risultato del nostro esperimento sarà un numero intero
fra 1 e 6. Nonostante questa incertezza sull’esito del singolo evento, l’esperienza
mostra però una certa prevedibilità della legge che descrive gli esiti ottenuti ripetendo l’esperimento medesimo un gran numero di volte. Tornando al nostro dado,
sappiamo che se lo lanciamo un gran numero di volte e annotiamo i risultati dei
lanci, ciascuno dei punteggi da 1 a 6 uscirà circa 1/6 delle volte.
Dopo aver brevemente illustrato le nozioni di spazio campionario e di misura di
probabilità, introdurremo il concetto di variabile aleatoria, che servirà a rappresentare l’esito di un evento casuale. Descriveremo poi le principali variabili aleatorie
utilizzate in statistica.
1.1
Definizione assiomatica di probabilità
Si definisce spazio campionario (o spazio dei campioni) l’insieme S contenente tutti i possibili risultati di un esperimento casuale. Si chiama evento un sottoinsieme
E di S.
Esempio 1.1.1. Supponiamo che il nostro esperimento consista nel lanciare due
volte una moneta; lo spazio campionario sarà
S = {T T, CC, T C, CT }
(1.1)
dove, ad esempio, T C indica che al primo lancio è uscita testa e al secondo lancio
croce. L’evento “esce una sola testa” è rappresentato dall’insieme E = {T C, CT } ⊆
S.
2
Appunti di Statistica
3
Si parla di evento certo se E = S, evento impossibile se E = ∅; inoltre, due
eventi A e B si dicono incompatibili (o mutuamente esclusivi) se A ∩ B = ∅.
Lo spazio campionario può essere finito (come nel precedente esempio) oppure
infinito.
Sia S uno spazio campionario finito, e indichiamo con M l’insieme delle parti
di S, vale a dire la famiglia di tutti i sottoinsiemi di S (inclusi l’insieme vuoto e S
stesso).
Definizione 1.1.2. Si dice probabilità (o misura di probabilità) su S una funzione
P : M → R tale che
(a) 0 ≤ P (A) ≤ 1 per ogni A ∈ M;
(b) P (S) = 1;
(c) se A, B ∈ M e A ∩ B = ∅, allora P (A ∪ B) = P (A) + P (B).
Da queste proprietà segue che, se A ∈ M e AC = S \ A è il suo complementare,
allora
1 = P (S) = P (A ∪ AC ) = P (A) + P (AC ),
cioè P (AC ) = 1 − P (A). In particolare P (∅) = 1 − P (S) = 0. Inoltre si verifica
facilmente che la proprietà (c) può essere estesa ad una famiglia finita di insiemi
A1 , . . . An ∈ M a due a due disgiunti:
P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + . . . + P (An ),
se Ai ∩ Aj = ∅ ∀i 6= j.
Esempio 1.1.3. Riprendiamo l’Esempio 1.1.1. In questo caso abbiamo
M = ∅, {T T }, {CC}, {T C}, {CT }, {T T, CC}, {T T, T C}, {T T, CT },
{CC, T C}, {CC, CT }, {T C, CT }, {T T, CC, T C}, {T T, CC, CT },
{CC, T C, CT }, {T T, T C, CT }, {T T, CC, T C, CT } .
A ciascuno dei 16 elementi di M è possibile associare una probabilità; se partiamo
dall’ipotesi che gli eventi elementari {T T }, {CC}, {T C}, {CT } siano equiprobabili,
cioè
1
P ({T T }) = P ({CC}) = P ({T C}) = P ({CT }) = ,
4
possiamo calcolare, utilizzando le proprietà (a), (b), (c), la probabilità di qualsiasi
evento in M. Ad esempio
P ({T T, CC, T C}) = P ({T T }) + P ({CC}) + P ({T C}) =
3
.
4
4
G. Crasta
L’estensione del concetto di probabilità a spazi campionari infiniti presenta
diverse difficoltà che non possono essere affrontate in questa sede. In generale la
funzione P non può essere definita su tutto l’insieme delle parti di S, ma solo su un
suo sottoinsieme, che continueremo a denotare con M, avente le seguenti proprietà:
(i) S ∈ M;
(ii) se A ∈ M, allora anche AC ∈ M;
(iii) se (An )n∈N è una famiglia numerabile di elementi di M, allora anche la loro
unione appartiene a M.
(Una famiglia M avente queste proprietà è detta σ-algebra su S.)
Definizione 1.1.4. Data una famiglia M di sottoinsiemi di S soddisfacenti le proprietà (i), (ii) e (iii), si dice misura di probabilità su M una funzione P : M → R
tale che
(a) 0 ≤ P (A) ≤ 1 per ogni A ∈ M;
(b) P (S) = 1;
(c) se (An )n∈N è una famiglia numerabile di elementi di M, a due a due disgiunti,
allora
!
∞
∞
X
[
P (An ) .
P
An =
n=1
n=1
La terna (S, M, P ) è detta spazio di probabilità.
1.2
Variabili aleatorie
Dato un certo spazio campionario S, una variabile aleatoria (o variabile casuale,
in inglese random variable) è una funzione X : S → R. Una variabile aleatoria rappresenta, intuitivamente, il risultato numerico attribuito ad un esperimento
casuale.
Riprendiamo l’Esempio 1.1.1, con lo spazio campionario S definito in (1.1). Consideriamo la variabile aleatoria X = numero di teste. Ad ogni elemento ω ∈ S
possiamo associare un numero X(ω) che rappresenta il numero di teste dell’evento
ω. Nel nostro caso, X(T T ) = 2, X(T C) = 1, X(CT ) = 1, X(CC) = 0.
Parleremo di variabile aleatoria discreta quando X può assumere solo un numero
finito (o numerabile) di valori distinti, mentre la variabile aleatoria si dirà continua
Appunti di Statistica
5
in caso contrario. Tornando al nostro esempio, X è una variabile aleatoria discreta
(può assumere solo i valori 0, 1 o 2).
Assumiamo ora che sullo spazio campionario S sia definita una misura di probabilità P .
Definizione 1.2.1. Sia X : S → R una variabile aleatoria. La funzione F : R → R
definita da
F (x) := P (X ≤ x),
x ∈ R,
è detta funzione di ripartizione o funzione di distribuzione di X.
Diremo che due variabili aleatorie X e Y hanno la stessa legge, e scriveremo
X ∼ Y , se le rispettive funzione di ripartizione sono uguali.
Nel seguito saremo interessati prevalentemente a due classi particolari di variabili
aleatorie X : S → R:
(D) variabili aleatorie discrete che assumano solo un numero finito di valori distinti
x1 , . . . , xn ; in questo caso indicheremo con P (X = xj ) la probabilità che X
assuma il valore xj , j = 1, . . . , n; la funzione che a j ∈ {1, . . . , n} associa
P (X = xj ) è detta densità di probabilità della variabile aleatoria;
(C) variabili aleatorie continue per le quali esista una funzione f : R → R, detta
densità di probabilità, tale che
Z b
f (x) dx,
∀a, b ∈ R, a ≤ b.
P (a < X < b) =
a
Chiaramente, se la variabile aleatoria discreta X è di tipo (D) e assume solo i
valori x1 , . . . , xn , si dovrà avere
n
X
0 ≤ P (X = xi ) ≤ 1, ∀i = 1, . . . , n,
P (X = xi ) = 1.
i=1
La funzione di ripartizione può essere espressa come
X
F (x) := P (X ≤ x) =
P (X = xi ),
x ∈ R.
xi ≤x
Esempio 1.2.2. Nello spazio di probabilità (S, M, P ) dell’Esempio 1.1.3 consideriamo la variabile aleatoria X = numero di teste. Si verifica immediatamente
che

0,
se x < 0,



1/4, se 0 ≤ x < 1,
F (x) =
3/4, se 1 ≤ x < 2,



1,
se 2 ≤ x.
6
G. Crasta
Ad esempio,
F (1.4) = P (X ≤ 1.4) = P (X = 0) + P (X = 1) =
1 1
3
+ = .
4 2
4
In generale la funzione di ripartizione di una variabile aleatoria di tipo (D) che
assume valori x1 < x2 < . . . < xn è una funzione monotona non decrescente, costante
a tratti, nulla per x < x1 e che vale 1 per x ≥ xn .
F(x) = P(X < x)
P(a < X < b)
a
x
b
Figura 1.1: P (a < X < b) e funzione di ripartizione
Nel caso invece di una variabile aleatoria continua di tipo (C), la densità f dovrà
essere una funzione non negativa, tale che il suo integrale generalizzato sulla retta
reale sia pari a 1, cioè
Z +∞
Z a
f ≥ 0,
f (t) dt = lim
f (t)dt = 1.
−∞
a→+∞
−a
Geometricamente, la probabilità P (a < X < b) è data dunque dall’area della regione
ombreggiata in Figura 1.1 a sinistra. Inoltre, la funzione di ripartizione in questo
caso è data da
Z x
F (x) := P (X ≤ x) =
f (t) dt ,
(1.2)
−∞
che geometricamente reppresenta dall’area della regione ombreggiata in Figura 1.1
a destra. Poiché f ≥ 0, avremo che la funzione di ripartizione è monotona non
decrescente; si ha inoltre
lim F (x) = 0,
x→−∞
lim F (x) = 1.
x→+∞
È chiaro che due variabili aleatorie X e Y di tipo (C) hanno la stessa legge se e solo
se hanno la stessa densità di probabilità.
Appunti di Statistica
7
Definizione 1.2.3 (quantile). Per ogni p ∈ (0, 1), il numero x ∈ R tale che F (x) = p
è detto quantile di ordine p della distribuzione.
In altre parole, il quantile di ordine p è quel numero reale x tale che l’area della
regione ombreggiata in Figura 1.1 a destra valga p.
Definizione 1.2.4 (valore atteso). Se X : S → R è una variabile aleatoria discreta
che assume solo i valori x1 , . . . , xn , si definisce valore atteso (o valor medio o
speranza matematica) la quantità
E[X] :=
n
X
xi · P (X = xi ).
(1.3)
i=1
Se invece X è una variabile aleatoria continua con densità di probabilità f , si
definisce valore atteso la quantità
Z +∞
xf (x) dx.
(1.4)
E[X] :=
−∞
Spesso il valore atteso della variabile aleatoria X viene indicato anche con hXi.
Esempio 1.2.5. Nello spazio di probabilità (S, M, P ) dell’Esempio 1.1.3 consideriamo la variabile aleatoria X = numero di teste. Avremo che
1
1
1
E[X] = 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2) = 0 · + 1 · + 2 · = 1.
4
2
2
Ciò è in accordo con l’evidenza sperimentale: se infatti ripetiamo un gran numero
di volte l’esperimento di lanciare due volte una moneta, ci aspettiamo che in media
esca una volta testa per ogni coppia di lanci.
Definiamo ora una quantità che ci fornisce un’indicazione di quanto i risultati
dell’esperimento si discostino dal loro valore atteso.
Definizione 1.2.6. (varianza e deviazione standard) Si dice varianza di una
variabile aleatoria X la quantità
Var(X) := E[(X − E[X])2 ] .
La radice quadrata della varianza è detta deviazione standard o scarto quadratico
medio.
8
G. Crasta
Osserviamo che, per una variabile aleatoria discreta di tipo (D) si ha che
Var(X) =
n
X
(xi − µ)2 P (X = xi )
(1.5)
i=1
mentre, per una variabile aleatoria continua di tipo (C), si ha
Z +∞
Var(X) =
(x − µ)2 f (x) dx.
(1.6)
−∞
Esempio 1.2.7. Lo spazio campionario associato al lancio di un dado è
S = {1, 2, 3, 4, 5, 6}
su cui è definita una misura di probabilità P caratterizzata da
P (1) = P (2) = P (3) = P (4) = P (5) = P (6) = 1/6.
Consideriamo la variabile aleatoria X = punteggio del dado. Avremo che:
E[X] =
6
X
k=1
k · P (X = k) = 3.5,
Var(X) =
6
X
(k − E[X])2 · P (X = k) ' 2.917.
k=1
Definizione 1.2.8. Le variabili aleatorie X1 , . . . , Xn si dicono indipendenti se,
per ogni scelta di intervalli I1 , . . . , In , si ha
P (X1 ∈ I1 , . . . , Xn ∈ In ) = P (X1 ∈ I1 ) · · · P (Xn ∈ In ).
(Il termine a primo membro indica la probabilità che si abbia, contemporaneamente,
X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In .)
In altri termini, gli eventi {X1 ∈ I1 }, . . . , {Xn ∈ In } sono indipendenti se la
probabilità che accada uno di essi non dipende dal fatto di sapere qualche cosa
legata agli altri eventi (se sono accaduti, se non sono accaduti, o non sapendo nulla).
Supponiamo, ad esempio, di ripetere n volte il lancio di un dado e di indicare con
Xi il punteggio ottenuto all’i-esimo lancio. È chiaro che il punteggio ottenuto ad
ogni lancio è indipendente (cioè non è influenzato) dal punteggio ottenuto negli altri
lanci; le variabili aleatorie X1 , . . . , Xn sono dunque indipendenti.
Appunti di Statistica
9
Teorema 1.2.9. Siano X1 , . . . , Xn variabili aleatorie e c1 , . . . , cn ∈ R delle costanti.
Allora:
(i) E[c1 X1 + . . . + cn Xn ] = c1 E[X1 ] + . . . + cn E[Xn ];
(ii) E[X1 + c1 ] = E[X1 ] + c1 , Var(X1 + c1 ) = Var(X1 );
(iii) se, in aggiunta, le variabili sono indipendenti,
Var(c1 X1 + . . . + cn Xn ) = c21 Var(X1 ) + . . . + c2n Var(Xn ).
Osservazione 1.2.10 (Standardizzazione). Data una variabile aleatoria X, è spesso
utile operare una trasformazione per ottenere, a partire da X, una variabile aleatoria
di valore atteso 0 e varianza 1. Tale trasformazione è detta di standardizzazione,
ed è definita da
X − E[X]
Y := p
.
Var(X)
Usando infatti le proprietà enunciate nel Teorema 1.2.9 abbiamo che
1
E[Y ] = p
(E[X] − E[X]) = 0,
Var(X)
Var(Y ) =
1
Var(X) = 1.
Var(X)
Anticipiamo qui la nozione di campione, che vedremo più in dettaglio nel Paragrafo 2.2: un campione (di ampiezza n) per un fenomeno casuale X (o per una
popolazione con legge casuale X) è una n-pla X1 , . . . , Xn di osservazioni indipendenti e tutte con la stessa legge: X1 ∼ X, . . . , Xn ∼ X. Si definiscono media
campionaria e varianza campionaria le variabili aleatorie
X = Mn :=
S 2 :=
1
n−1
X1 + . . . + Xn
,
n
n
X
2
Xi − X .
(1.7)
(1.8)
i=1
Se il campione è estratto da una popolazione di media µ e varianza σ 2 , dalle proprietà
elencate nel Teorema 1.2.9 segue che
n
1X
E[X] =
E[Xi ] = µ,
n i=1
Var(X) =
n
1 X
σ2
Var(X
)
=
.
i
n2 i=1
n
(1.9)
(1.10)
10
1.2.1
G. Crasta
Variabili aleatorie discrete
In questo paragrafo descriveremo brevemente le principali variabili aleatorie discrete.
Variabile aleatoria di Bernoulli. Assume solo i due valori 1 e 0, con probabilità
rispettivamente p e 1 − p, con 0 ≤ p ≤ 1. In genere, il valore X = 1 è detto successo,
mentre il valore X = 0 è detto insuccesso. Per indicare che X è una variabile
aleatoria di Bernoulli con probabilità di successo p scriveremo X ∼ Ber(p). Usando
le formule (1.3) e (1.5) abbiamo che
E(X) = 0 · P (X = 0) + 1 · P (X = 1) = p,
Var(X) = (0 − p)2 · P (X = 0) + (1 − p)2 · P (X = 1) = p(1 − p) .
Variabile aleatoria Binomiale. Si chiama esperimento Bernoulliano un esperimento casuale che consiste in un insieme di prove ripetute, ciascuna delle quali è
descritta da una variabile aleatoria di Bernoulli Xi ∈ Ber(p), dove p è lo stesso per
tutte le prove, e tali che i risultati delle prove siano indipendenti. Se ripetiamo n volte l’esperimento casuale, vogliamo determinare la probabilità di ottenere k successi.
La variabile aleatoria che conta il numero di successi in n prove (la cui probabilità
di successo è p) si chiama Binomiale, e si scrive X ∼ Bin(n, p). Si può dimostrare
che, se X ∼ Bin(n, p), allora
n
P (X = k) =
pk (1 − p)n−k ,
k = 0, 1, . . . , n,
(1.11)
k
dove
n(n − 1) · · · (n − k + 1)
n!
n
=
=
k
k!(n − k)!
k(k − 1) · · · 2 · 1
è chiamato coefficiente binomiale. Si può verificare, direttamente o facendo uso delle
proprietà riassunte nel Teorema 1.2.9, che
E(X) = n p,
Var(X) = n p(1 − p) .
Esercizio 1.2.11. Dimostrare la formula (1.11).
Svolgimento. Indichiamo con una stringa di n simboli 0 o 1 il risultato degli n
esperimenti Bernoulliani. Ciascuna di queste stringhe in cui compaiano esattamente
k simboli 1 (e dunque n − k simboli 0) ha probabilità pk (1 − p)n−k di verificarsi. Per
dimostrare
(1.11) basta dunque osservare che il numero di tali stringhe è dato da
n
.
k
Variabile aleatoria di Poisson. Viene utilizzata per descrivere in maniera approssimata processi di Bernoulli con eventi rari, cioè con probabilità di successo
Appunti di Statistica
11
molto piccola. Più precisamente, si può dimostrare che se p è vicino a zero e se
n p = λ > 0 (con n grande), allora si ha approssimativamente
λk e−λ
,
k = 0, 1, 2, . . .
k!
Una variabile aleatoria X avente la densità di probabilità data a secondo membro
è detta variabile aleatoria di Poisson di parametro λ > 0 e viene indicata con
X ∼ Poi(λ). Si può dimostrare che
P (X = k) '
E(X) = λ,
Var(X) = λ.
Esempio 1.2.12. La probabilità di centrare un bersaglio è p = 0.001 per ogni colpo.
Trovare la probabilità di centrare un bersaglio con due o più pallottole se il numero
di colpi sparati è n = 5000.
In questo caso p è molto piccolo ed n è grande. Posto λ = n p = 5, e se X ∼ Poi(λ),
la probabilità cercata vale approssimativamente
P (X ≥ 2) = 1−P (X < 2) = 1−P (X = 0)−P (X = 1) = 1−e−5 −5 e−5 ' 0.95957 .
(Il calcolo esatto facendo uso della distribuzione binomiale fornisce 0.95964.)
1.2.2
Variabili aleatorie continue
In questa sezione descriveremo le principali variabili aleatorie continue.
Variabile aleatoria uniforme. Se [a, b] è un intervallo limitato, si dice variabile
aleatoria uniforme la variabile aleatoria avente densità di probabilità costante in
[a, b] e nulla fuori, cioè f (x) = 1/(b − a) se x ∈ [a, b], f (x) = 0 se x 6∈ [a, b].
Variabile aleatoria esponenziale. Ha densità f (x) = λ e−λ x se x ≥ 0, f (x) = 0
se x < 0, dove λ > 0 è un parametro. Si può dimostrare che, se X è una variabile
aleatoria esponenziale di parametro λ, allora E(X) = 1/λ, Var(X) = 1/λ2 .
Esempio 1.2.13. La variabile aleatoria T che descrive il tempo di decadimento di
un isotopo radioattivo è di tipo esponenziale; la probabilità che un atomo decada
nell’intervallo di tempo [0, t] è dunque data da
Z t
λ e−λ x dx = 1 − e−λt .
P (0 ≤ T ≤ t) =
0
Se al tempo iniziale t = 0 abbiamo un numero (elevato) N0 di atomi radioattivi, il
numero di atomi decaduti al tempo t ≥ 0 sarà dato da N0 · P (0 ≤ T ≤ t), per cui il
numero N (t) di atomi non ancora decaduti al tempo t ≥ 0 sarà
N (t) = N0 − N0 · P (0 ≤ T ≤ t) = N0 e−λt .
D’altra parte, i modelli deterministici (basati su equazioni differenziali) prevedono
che N (t) = N0 e−(t log 2)/τ , dove τ è il tempo di dimezzamento. Dal confronto delle
due espressioni deduciamo dunque che λ = (log 2)/τ .
12
G. Crasta
Variabile aleatoria normale (o Gaussiana). È sicuramente la distribuzione di
probabilità più importante in statistica. La variabile aleatoria normale standard,
denotata con Z ∼ N (0, 1), ha densità
x ∈ R.
0.2
0.0
0.1
dnorm(x, 0, 1)
0.3
0.4
1
2
f (x) = √ e−x /2 ,
2π
−4
−2
0
2
4
Figura 1.2: Densità della variabile normale standard Z ∼ N (0, 1)
Si può dimostrare che E(Z) = 0 e Var(Z) = 1. In generale, si dice variabile aleatoria
normale una variabile aleatoria X avente densità del tipo
(x−µ)2
1
f (x) = √ e− 2σ2 ,
σ 2π
x ∈ R,
(1.12)
dove µ ∈ R e σ > 0 sono due parametri. Scriveremo X ∼ N (µ, σ 2 ) per indicare
una variabile aleatoria con densità di probabilità data da (1.12). Il significato dei
parametri µ e σ è presto detto: si può infatti verificare che
E(X) = µ,
Var(X) = σ 2
(si veda l’Esercizio 1.2). La dipendenza di f dai parametri µ e σ è mostrata in
Figura 1.3. Una variazione di µ (a σ fissata) si traduce in una traslazione del grafico
lungo l’asse x. Al crescere di σ, invece, la distribuzione si appiattisce (è più dispersa).
I valori della funzione di ripartizione P (Z < x) della variabile normale standard
Z ∼ N (0, 1) sono tabulati su qualsiasi testo di statistica (si veda la Tabella 1.1).
Per simmetria, è sufficiente tabulare la funzione solo per x ≥ 0, in quanto P (Z <
x) = 1 − P (Z < −x). Quando si ha una variabile gaussiana X ∼ N (µ, σ 2 ), per
poter utilizzare i valori tabulati ci si riconduce ad una variabile normale standard
tramite l’operazione di standardizzazione
Z=
X −µ
∼ N (0, 1)
σ
13
0.4
0.4
Appunti di Statistica
0.2
0.2
σ=1
σ=2
−6
−4
−2
µ=2
0
2
0.0
0.0
µ = −3
4
6
−4
−2
0
2
4
P (Z < x )
0.3
P (Z < x)
0.945
0.955
0.964
0.971
0.977
0.982
0.986
0.989
0.992
0.994
0.995
0.997
0.997
0.998
0.999
0.999
0.2
x
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
0.1
P (Z < x)
0.500
0.540
0.579
0.618
0.655
0.691
0.726
0.758
0.788
0.816
0.841
0.864
0.885
0.903
0.919
0.933
x
0.0
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
0.4
Figura 1.3: Densità gaussiana al variare di µ e σ
−4
−2
0
2
4
Tabella 1.1: Funzione di ripartizione della normale standard
(si veda l’Osservazione 1.2.10). È chiaro che, essendo X = µ + σ Z, la probabilità
P (a < X < b), con −∞ ≤ a < b ≤ +∞, può essere calcolata dai valori tabulati
della funzione di ripartizione di Z osservando che
a<X<b
⇐⇒
a < µ+σZ < b
⇐⇒
a−µ
b−µ
<Z<
.
σ
σ
Per determinare le probabilità richieste è posso essere d’aiuto le seguenti identità,
che si dimostrano immediatamente tenendo conto della simmetria della distribuzione
normale:
P (Z < −x) = 1 − P (Z < x),
x ∈ R,
P (|Z| < x) = P (Z < x) − P (Z < −x) = 2P (Z < x) − 1,
x ≥ 0,
P (|Z| > x) = 1 − P (|Z| ≤ x) = 2[1 − P (Z ≤ x)],
x ≥ 0.
(1.13)
14
G. Crasta
Analoghe relazioni valgono per qualsiasi variabile aleatoria con densità di probabilità
simmetrica (come ad esempio la variabile t di Student che vedremo fra poco).
Esercizio 1.2.14. Sia X ∼ N (7, 4) una variabile aleatoria normale di media 7 e
varianza 4. Si calcoli P (3 < X < 9).
Svolgimento.
Abbiamo che X è una variabile aleatoria normale con µ = 7 e σ =
√
4 = 2. Utilizzando la variabile standardizzata Z = (X − 7)/2, dobbiamo calcolare
la probabilità P (−2 < Z < 1). Abbiamo che
P (−2 < Z < 1) = P (Z < 1) − P (Z < −2) = P (Z < 1) − [1 − P (Z < 2)]
= P (Z < 1) + P (Z < 2) − 1.
Utilizzando la Tabella 1.1 si ha P (Z < 1) = 0.841, P (Z < 2) = 0.977, quindi
P (−2 < Z < 1) = 0.818.
Esercizio 1.2.15. Sia X ∼ N (15, 25) una variabile aleatoria normale di media 15
e varianza 25. Calcolare P (X < 7.5).
Svolgimento. Utilizzando la variabile standardizzata Z = (X − 15)/5 si ha
P (X < 7.5) = P (Z < (7.5 − 15)/5) = P (Z < −1.5) = 1 − P (Z < 1.5) .
Sulla tabella della distribuzione normale standard si trova P (Z < 1.5) = 0.933. Di
conseguenza, P (X < 7.5) = 0.067.
Sia X ∼ N (µ, σ 2 ). In seguito utilizzeremo spesso le probabilità
P (µ − σ < X < µ + σ) = P (−1 < Z < 1) = 2 P (Z < 1) − 1 ' 0.683,
P (µ − 2σ < X < µ + 2σ) = P (−2 < Z < 2) = 2 P (Z < 2) − 1 ' 0.956,
P (µ − 3σ < X < µ + 3σ) = P (−3 < Z < 3) = 2 P (Z < 3) − 1 ' 0.997.
È istruttivo osservare che il 95.6% della probabilità che si realizzi un evento gaussiano
è compresa entro due deviazioni standard dalla media, mentre la probabilità che
l’evento si realizzi ad oltre tre deviazioni standard è praticamente nulla (inferiore
allo 0.3%).
Il problema inverso rispetto a quello del calcolo delle aree è il seguente. Dato un
numero 0 ≤ p ≤ 1, vogliamo determinare un numero z ∈ R tale che P (Z < z) = p.
Come abbiamo già detto nella Definizione 1.2.1, un tale valore di z è detto quantile
di ordine p della distribuzione normale standard; i principali quantili sono tabulati
nella Tabella 1.2.
Spesso, dato p ∈ (0, 1), siamo interessati a determinare z > 0 tale che P (|Z| < z) =
P (−z < Z < z) = p, oppure P (|Z| > z) = p. Tenendo conto delle identità (1.13),
avremo che
1+p
,
P (|Z| < z) = p ⇐⇒ P (Z < z) =
2
p
P (|Z| > z) = p ⇐⇒ P (Z < z) = 1 − .
2
Appunti di Statistica
P (Z < x)
0.500
0.600
0.700
0.800
0.900
0.910
0.920
0.930
0.940
0.950
x
0.000
0.253
0.524
0.842
1.282
1.341
1.405
1.476
1.555
1.645
P (Z < x)
0.955
0.960
0.965
0.970
0.975
0.980
0.985
0.990
0.995
0.999
15
x
1.695
1.751
1.812
1.881
1.960
2.054
2.170
2.326
2.576
3.090
Tabella 1.2: Quantili della distribuzione normale standard
Esercizio 1.2.16. Calcolare z > 0 tale che P (|Z| < z) = 0.99.
Svolgimento. Per quanto detto sopra, abbiamo che P (|Z| < z) = 0.99 se e solo se
P (Z < z) = (1 + 0.99)/2 = 0.995. Dalla Tabella 1.2 ricaviamo che z = 2.576.
Concludiamo la discussione sulla variabile normale osservando che essa può essere
ottenuta come limite della variabile aleatoria binomiale. Più precisamente, se X ∼
Bin(n, p), con 0 < p < 1 ed n sufficientemente grande, allora la variabile
X − np
p
' N (0, 1)
n p (1 − p)
(1.14)
si distribuisce approssimativamente come la variabile aleatoria normale standard.
(Come regola empirica, per avere una buona approssimazione basta che n p > 5 e
n(1 − p) > 5.)
Esempio 1.2.17. Calcolare la probabilità che in n = 1000 lanci di una moneta si
ottengano fra le 470 e le 520 teste.
Il processo aleatorio è descritto dalla variabile aleatoria X ∼ Bin(1000, 0.5). La
probabilità richiesta è data da
520 1 X 1000
.
(1.15)
P (470 ≤ X ≤ 520) = 1000
k
2
k=470
È chiaro che eseguire il calcolo esatto (senza l’ausilio di un calcolatore) è un compito
improbo. Utilizziamo l’approssimazione (1.14). Abbiamo che
X − 500
√
' Z ∼ N (0, 1) .
250
Di conseguenza
470 − 500
520 − 500
√
P (470 ≤ X ≤ 520) ' P
≤Z≤ √
250
250
= P (−1.897 < Z < 1.265) = 0.868.
16
G. Crasta
Usando un software statistico1 si può calcolare il valore esatto dato da (1.15), che
è circa 0.8757779. Osserviamo che c’è una certa discrepanza fra il valore esatto
e il valore approssimato 0.868. In realtà questo è dovuto al fatto che è opportuno fare la seguente correzione. Poiché il numero di teste è intero, è più corretta
l’approssimazione (nota come correzione di Yates)
469.5 − 500
520.5 − 500
√
√
P (470 ≤ X ≤ 520) ' P
≤Z≤
250
250
= P (−1.929 < Z < 1.296) = 0.876.
Vediamo che in effetti l’accordo col risultato esatto è adesso molto buono.
Variabile Chi-quadrato. La variabile Chi-quadrato, denotata con χ2ν , dipende
da un parametro intero positivo ν, che ne identifica il numero di gradi di libertà
(in inglese degrees of freedom, abbreviato con d.f.). Quindi, per ogni ν, si ha una
diversa variabile. La densità di probabilità di χ2ν è
f (x) = Cν xν/2−1 e−x/2 ,
se x > 0,
se x ≤ 0,
f (x) = 0,
dove Cν è una costante positiva determinata dalla condizione
dimostrare che
E(χ2ν ) = ν,
Var(χ2ν ) = 2ν .
R
R
f (x) dx = 1. Si può
0.20
0.25
L’andamento della densità di χ2ν per alcuni valori di ν è rappresentato in Figura 1.4.
Nella Tabella B sono tabulati i quantili della distribuzione per diversi valori di ν e
di α. Ad esempio, P (χ210 < x) = 0.95 quando x = 18.31.
0.00
0.05
0.10
0.15
df = 3
df = 5
df = 10
0
5
10
15
20
Figura 1.4: Densità della variabile χ2ν con ν = 3, 5, 10 gradi di libertà
L’importanza della variabile χ2ν in statistica è dovuta principalmente al seguente
risultato.
1
Ad esempio R, http://www.R-project.org
Appunti di Statistica
17
Teorema 1.2.18. Siano date n variabili aleatorie indipendenti X1 , . . . , Xn ∼
N (µ, σ 2 ) (o, equivalentemente, un campione di ampiezza n estratto da una
popolazione normale di media µ e varianza σ 2 ). Allora:
2
n X
Xi − µ
∼ χ2n ;
(i)
σ
i=1
n
(n − 1)S 2 X
(ii)
=
σ2
i=1
Xi − Mn
σ
2
∼ χ2n−1 ,
dove Mn ed S 2 sono rispettivamente la media e la varianza campionaria definite in
(1.7) e (1.8). Inoltre, Mn e S 2 sono variabili aleatorie indipendenti.
Osserviamo che (i) è equivalente a:
(i’) se Z1 , . . . , Zn ∼ N (0, 1) sono variabili aleatorie normali standard indipendenti,
allora Z12 + . . . + Zn2 ∼ χ2n .
Variabile t di Student. Se Z ∼ N (0, 1) e W ∼ χ2ν sono variabili aleatorie
indipendenti, allora la trasformazione
T =p
Z
Z ∼ N (0, 1), W ∼ χ2ν
W/ν
0.4
definisce la distribuzione t di Student con ν gradi di libertà. Il suo andamento è
simile a quello della distribuzione normale standard, ma ha una maggiore dispersione
(le code sono più alte rispetto a quelle della distribuzione normale standard, si veda
la Figura 1.5). Abbiamo che E(T ) = 0 mentre Var(T ) = ν/(ν − 2) per ν > 2 (se
ν = 1 o 2 la varianza non è definita).
0.0
0.1
0.2
0.3
Z
t (df= 1 )
t (df= 2 )
t (df= 3 )
−4
−2
0
2
4
Figura 1.5: Confronto fra la normale standard e la distribuzione t di Student
18
G. Crasta
Se X1 , . . . , Xn ∼ N (µ, σ 2 ) sono n variabili aleatorie indipendenti, allora, per il
2
2
2
Teorema 1.2.18,
√ W = (n − 1)S /σ ∼ χn−1 . Inoltre la variabile aleatoria Z =
(Mn − µ)/(σ/ n) è una normale standard, ed è indipendente da W (dal momento
che Mn ed S 2 sono indipendenti). Di conseguenza
√
Z
(Mn − µ)/(σ/ n)
Mn − µ √
T =p
=p
=
n
(1.16)
S
W/(n − 1)
[(n − 1)S 2 /σ 2 ]/(n − 1)
si distribuisce come la variabile t di Student con ν = n − 1 gradi di libertà.
Riepilogando:
Z=
Mn − µ √
n ∼ N (0, 1),
σ
Mn − µ √
n ∼ tn−1 .
S
T =
(1.17)
Nella definizione di Z compare la deviazione standard σ della popolazione, mentre
nella definizione di T compare S (che fornisce una stima di σ). Ciò è in accordo col
fatto che la distribuzione di T sia più dispersa di quella di Z.
Variabile F di Fisher. Se Xm ∼ χ2m e Yn ∼ χ2n sono indipendenti, il rapporto
F =
Xm /m
Yn /n
definisce la distribuzione F di Fisher con m gradi di libertà al numeratore ed n
gradi di libertà al denominatore. Si può dimostrare che, se X è una siffatta variabile
aleatoria di Fisher, allora
E(X) =
n
n−2
(se n > 2),
Var(X) =
2n2 (n + m − 2)
m(n − 2)2 (n − 4)
(se n > 4).
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
In Figura 1.6 è rappresentata la distribuzione F con m = 6 gradi di libertà al
numeratore ed n = 8 gradi di libertà al denominatore.
0
1
2
3
4
Figura 1.6: Distribuzione F di Fisher con m = 6 ed n = 8 gradi di libertà
Appunti di Statistica
19
Supponiamo di avere due campioni casuali di ampiezza rispettivamente n1 ed n2 ,
estratti da due popolazioni normali distinte aventi varianze rispettivamente σ12 e σ22 .
Se S12 e S22 indicano le varianze campionarie, per il Teorema 1.2.18, abbiamo che
W1 = (n1 − 1)S12 /σ12 ∼ χ2n1 −1 ,
W2 = (n2 − 1)S22 /σ22 ∼ χ2n2 −1 .
Di conseguenza,
F =
W1 /(n1 − 1)
S12 /σ12
[(n1 − 1)S12 /σ12 ]/(n1 − 1)
=
=
W2 /(n2 − 1)
[(n2 − 1)S22 /σ22 ]/(n2 − 1)
S22 /σ22
si distribuisce come la variabile di Fisher con ν1 = n1 − 1 gradi di libertà al
numeratore e ν2 = n2 − 1 gradi di libertà al denominatore.
1.3
Legge dei grandi numeri e teorema del limite
centrale
Vediamo ora alcuni risultati di notevole importanza in probabilità. Supponiamo di
avere una successione X1 , X2 , . . . , di variabili aleatorie indipendenti; indichiamo con
X1 + X2 + . . . + Xn
(1.18)
n
la media campionaria delle prime n variabili della successione. Supponiamo che
queste variabili aleatorie abbiano tutte la stessa media µ e la stessa varianza σ 2 ,
cioè
E[Xi ] = µ, Var(Xi ) = σ 2 ,
∀i ∈ N .
Mn =
Abbiamo già visto in (1.9) e (1.10) che
n
1 X
E[Mn ] =
E[Xi ] = µ,
n i=1
n
1 X
σ2
Var(Mn ) = 2
Var(Xi ) =
.
n i=1
n
Vediamo che, mentre il valore atteso di Mn è indipendente da n, la sua varianza
tende a 0 per n → +∞. Ricordando che la varianza è una misura della dispersione
rispetto al valore atteso, da questa proprietà discende il seguente risultato.
Teorema 1.3.1 (Legge dei grandi numeri). Sia Xi , i = 1, 2, . . ., una successione
di variabili aleatorie indipendenti, tutte con lo stesso valore atteso µ e la stessa
varianza σ 2 , e sia Mn la media campionaria di X1 , . . . , Xn . Allora
lim P ({|Mn − µ| > }) = 0
n→∞
∀ > 0.
20
G. Crasta
Consideriamo ora le variabili standardizzate
Mn − µ √
Mn − E[Mn ]
=
Zn := p
n.
σ
Var(Mn )
Abbiamo che
√
E[Zn ] =
n
(E[Mn ] − µ) = 0,
σ
Var(Zn ) =
n
Var(Mn ) = 1.
σ2
Il seguente teorema asserisce che, per n abbastanza grande, le variabili Zn si distribuiscono approssimativamente come la variabile normale standard (e questo avviene
indipendentemente alla distribuzione delle variabili di partenza Xi ).
Teorema 1.3.2 (Teorema del Limite Centrale). Siano X1 , X2 , . . . , Xn , . . . , variabili aleatorie indipendenti, tutte con lo stesso valore atteso µ e la stessa varianza
σ 2 . Allora
Mn − µ √
lim P a ≤
n ≤ b = P (a ≤ Z ≤ b),
n→+∞
σ
dove Z ∼ N (0, 1).
Osserviamo che le variabili aleatorie Xi possono essere distribuite con qualsiasi
legge (purché abbiano tutte stessa media e stessa varianza); non è cioè necessario
che
Mn −µ √
n∼
siano anch’esse variabili aleatorie normali (in tal caso si avrebbe Zn = σ
N (0, 1) per ogni n = 1, 2, . . .). In particolare, il Teorema del Limite Centrale dice
che, per n abbastanza grande (tipicamente è sufficiente n > 30, purché il fenomeno
osservato non sia troppo asimmetrico), la media campionaria Mn di n variabili aleatorie indipendenti X1 , . . . , Xn , aventi stesso valore atteso µ e stessa varianza σ 2 , si
distribuisce approssimativamente come una variabile aleatoria normale di media µ
e varianza σ 2 /n, cioè
Mn ' N (µ, σ 2 /n).
Questo risultato riveste notevole importanza nei test statistici. Vedremo infatti,
nel prossimo capitolo, che molti test statistici sono basati sull’ipotesi che la media
campionaria sia distribuita normalmente. Questa ipotesi è certamente soddisfatta
se il campione è estratto da una popolazione anch’essa distribuita normalmente. Il
teorema del limite centrale garantisce che, anche se la popolazione di partenza non è
distribuita normalmente, per campioni di ampiezza sufficientemente grande la media
campionaria è comunque distribuita approssimativamente come una normale.
È istruttivo “verificare” la validità del Teorema del Limite Centrale facendo una
simulazione numerica. Fissato un intero n ≥ 1, siano X1 , . . . , Xn variabili aleatorie
che rappresentano il risultato del lancio di n dadi (Xi = lancio dell’i-esimo dado). In
Appunti di Statistica
n= 2
n= 3
0.00
0.00
0.10
0.15
0.20
0.30
0.0 0.1 0.2 0.3 0.4
n= 1
1
2
3
4
5
6
1
2
3
4
5
6
5
6
4
5
6
1.0
0.6
0.5
0.0
0.2
0.0
4
3
n = 50
0.4
0.4
0.2
3
2
n = 10
0.0
2
1
1.5
n= 5
1
21
1
2
3
4
5
6
1
2
3
4
5
6
Figura 1.7: Densità di Mn = media del lancio di n dadi
Figura 1.7 è rappresentata la densità di Mn , per diversi valori di n, in una simulazione
con 5000 ripetizioni del lancio di n dadi. La linea continua rappresenta la densità
della variabile aleatoria normale Z ∼ N (µ, σ 2 /n), dove
6
1X
µ=
k = 3.5,
6 k=1
6
1X
σ =
(k − µ)2 ' 2.917
6 k=1
2
(1.19)
sono rispettivamente la media e la varianza delle Xi .
Esempio 1.3.3. Un dado viene lanciato 50 volte. Determinare la probabilità che
la media dei punteggi sia compresa fra 3 e 4.
Poiché n = 50 è abbastanza grande, la media Mn si distribuisce approssimativamente
come una variabile aleatoria normale di media µ e varianza σ 2 /n, con µ e σ 2 calcolati
in (1.19). Abbiamo dunque
3−µ√
Mn − µ √
4−µ√
n≤
n≤
n
P (3 ≤ Mn ≤ 4) = P
σ
σ
σ
3−µ√
4−µ√
'P
n≤Z≤
n
σ
σ
= P (|Z| ≤ 2.07) = 0.96 .
1.4
Complementi sulle variabili aleatorie
Riportiamo qui, senza dimostrazione, alcuni risultati sulle variabili aleatorie.
22
G. Crasta
1. Se X è una variabile aleatoria continua con densità di probabilità f , c1 , c2 ∈ R,
e g1 , g2 : R → R sono funzioni, allora
Z +∞
E[g1 (X)] =
g1 (y)f (y) dy,
−∞
E[c1 g1 (X) + c2 g2 (X)] = c1 E[g1 (X)] + c2 E[g2 (X)].
2. Se X1 , . . . , Xn sono variabili aleatorie indipendenti, e se X = c1 X1 +. . .+cn Xn ,
con c1 , . . . , cn ∈ R, allora
E[X] =
n
X
ci E[Xi ],
Var(X) =
i=1
n
X
c2i Var(Xi ) .
i=1
(L’ipotesi d’indipendenza serve solo per la seconda uguaglianza.)
3. Se X1 , . . . , Xn sono variabili aleatorie indipendenti normalmente distribuite,
con Xi ∼ N (µi , σi2 ) per i = 1, . . . , n, e se X = c1 X1 + . . . + cn Xn , con
c1 , . . . , cn ∈ R, allora anche X è distribuita normalmente con
E[X] =
n
X
ci µ i ,
Var(X) =
i=1
n
X
c2i σi2 .
i=1
4. Se X1 , . . . , Xn sono variabili aleatorie continue indipendenti, con densità di
probabilità f1 , . . . , fn rispettivamente, e se g : Rn → R è una funzione, allora
Z
g(x1 , . . . , xn )f (x1 ) · · · f (xn ) dx1 · · · dxn .
E[g(X1 , . . . , Xn )] =
Rn
1.5
Esercizi
Esercizio 1.1. Dimostrare che Var(X) = E[X 2 ] − (E[X])2 .
Soluzione. Indichiamo µ = E[X]. Usando le proprietà elencate nel Teorema 1.2.9,
(i) e (ii), abbiamo che
Var(X) = E[(X − µ)2 ] = E[X 2 − 2µX + µ2 ] = E[X 2 ] − 2µE[X] + µ2 = E[X 2 ] − µ2 .
Esercizio 1.2. Sia X ∼ N (µ, σ 2 ). Sapendo che
Z +∞
√
2
e−x /2 dx = 2π ,
−∞
dimostrare che E[X] = µ e Var(X) = σ 2 .
(1.20)
Appunti di Statistica
23
Soluzione. Osserviamo preliminarmente che
Z +∞
Z +∞
√
2
−x2 /2
x2 e−x /2 dx = 2π ;
xe
dx = 0,
−∞
−∞
il valore del primo integrale discende dal fatto che la funzione integranda è dispari (e
integrabile in senso generalizzato), mentre il secondo integrale può essere calcolato
per parti riconducendosi a (1.20). Usando il cambiamento di variabile y = (x − µ)/σ
si ha che
Z +∞
Z +∞
1
1
2
−(x−µ)2 /(2σ 2 )
xe
dx = √
(µ + σy) e−y /2 dy = µ
E[X] = √
σ 2π −∞
2π −∞
mentre
1
Var(X) = √
σ 2π
Z
+∞
2 −(x−µ)2 /(2σ 2 )
(x − µ) e
−∞
σ2
dx = √
2π
Z
+∞
y 2 e−y
2 /2
dy = σ 2 .
−∞
Esercizio 1.3. Si considerino le seguenti variabili aleatorie normali:
X ∼ N (50, 16),
Y ∼ N (22, 25),
Z ∼ N (−10, 9).
Calcolare P (X < 46), P (17 < Y < 32), P (Z > −13).
Soluzione. 0.159, 0.818, 0.841
Esercizio 1.4. Si consideri un campione X1 , . . . , X9 estratto da una popolazione
normale di media µ = 72 e varianza σ 2 = 16. Indicata con X la media campionaria,
si determini P (68 < X < 72).
Soluzione. 0.977
CAPITOLO 2
STATISTICA DESCRITTIVA E
INFERENZIALE
2.1
2.1.1
Statistica descrittiva
Rappresentazione dei dati
I dati raccolti su una popolazione o un campione sono detti dati grezzi. Soprattutto
se i dati sono in numero elevato, è difficile ottenere informazioni significative su di
essi senza prima ordinarli e organizzarli in qualche modo.
La seguente tabella, ad esempio, riporta le lunghezze dei principali fiumi americani1 .
735
280
1243
265
291
300
410
696
375
800
1038
246
1
320
315
890
850
710
560
460
605
1270
420
424
360
325 392 524 450 1459
870 906 202 329 290
350 407 286 280 525
210 630 260 230 360
340 217 281 352 259
900 625 332 2348 1171
260 255 431 350 760
250 411 1054 735 233
545 445 1885 380 300
350 360 538 1100 1205
310 300 444 301 268
529 500 720 270 430
135 465 600
1000 600 505
720 390 250
730 600 306
250 470 680
3710 2315 2533
618 338 981
435 490 310
380 377 425
314 237 610
620 215 652
671 1770
330
1450
327
390
570
780
1306
460
276
360
900
336
840
230
420
350
280
500
383
210
540
525
Questo è uno dei dataset presente nel software statistico R, http://www.R-project.org
24
Appunti di Statistica
25
In questo caso abbiamo a che fare con una variabile quantitativa (o numerica);
si possono avere anche variabili qualitative (ad esempio, potremmo rilevare le
preferenze elettorali in un sondaggio).
È evidente come questi dati grezzi non forniscano delle informazioni immediatamente fruibili. Per questo motivo i dati vengono spesso organizzati in istogrammi
o boxplot; altri metodi di visualizzazione sono, ad esempio, i diagrammi a torta.
In Figura 2.1 abbiamo rappresentato i dati della tabella precedente sotto forma di
istogramma e boxplot (sul significato di quest’ultimo torneremo tra breve).
0
1000
2000
3000
4000
0
0
500
20
1000
1500
40
2000
60
2500
3000
80
3500
Istogramma delle lunghezze dei fiumi
Figura 2.1: Lunghezza dei principali fiumi americani: istogramma e boxplot
2.1.2
Indici di posizione e di dispersione
Alcune informazioni su una distribuzione di dati grezzi si possono ottenere utilizzando gli indici di posizione (che, grosso modo, ci dicono dove si trovano i dati)
e gli indici di dispersione (che ci dicono quanto dispersi sono i dati rispetto alla
posizione). I principali indici di posizione sono la media e la mediana.
Definizione 2.1.1 (media e mediana). Si definisce media aritmetica o media
campionaria di n dati x1 , . . . , xn la quantità
n
x̄ :=
x1 + . . . + xn
1X
=
xi .
n
n i=1
Se i dati sono ordinati, cioè se x1 ≤ x2 ≤ . . . ≤ xn , si definisce mediana il valore
centrale dei dati; più precisamente, se n è dispari la mediana è il valore centrale,
mentre se n è pari la mediana è la media dei due valori centrali.
26
G. Crasta
Altri indici di posizione spesso utilizzati sono i quartili; senza entrare troppo
nei dettagli della definizione precisa, il primo ed il terzo quartile (Q1 e Q3) sono quei
valori che lasciano, rispettivamente, il 25% e il 75% dei dati ordinati alla propria
sinistra. In un boxplot (si veda la Figura 2.1 a destra) questi indicatori vengono
rappresentati mediante un rettangolo avente basi alla quota del primo e terzo quartile
(Q1 e Q3), più un segmento intermedio che rappresenta la mediana. Sono presenti
inoltre due “baffi” che hanno come quota il minimo e il massimo dei dati compresi
fra Q1 − 1.5 ∗ (Q3 − Q1) e Q3 + 1.5 ∗ (Q3 − Q1); gli outliers, cioè i punti esterni a
questo intervallo, sono invece rappresentati da cerchietti.
I principali indici di dispersione sono invece la varianza campionaria (e la sua
radice quadrata, la deviazione standard) e lo scarto interquartile Q3 − Q1, che in
un boxplot è rappresentato dall’altezza del rettangolo.
Definizione 2.1.2 (varianza campionaria). Si definisce varianza campionaria di
n dati x1 , . . . , xn , n ≥ 2, la quantità
!
n
n
X
X
1
1
(xi − x̄)2 =
x2 − nx̄2 .
s2 :=
n − 1 i=1
n − 1 i=1 i
Si definisce deviazione standard o scarto quadratico medio la radice quadrata
della varianza campionaria.
Vediamo subito, dalla definizione, che la varianza fornisce una indicazione di
quanto i dati si discostino dalla media; nel caso limite di varianza nulla tutti i dati
coincidono con la media.
Con un po’ di pazienza (o, più semplicemente, utilizzando un software statistico)
possiamo calcolare gli indicatori sopra citati nel caso dei dati relativi alle lunghezze
dei fiumi. Abbiamo che
x = 591.2,
s = 493.9,
mediana = 425.0,
Q1 = 310.0,
Q3 = 680.0.
Si tenga presente che, nelle calcolatrici scientifiche, lo scarto quadratico medio è
spesso denotato con σn−1 oppure sn−1 .
2.2
Popolazioni, campioni, stimatori
Nel capitolo precedente abbiamo visto come, supponendo nota la legge che descrive
un fenomeno, si possa calcolare la probabilità di vari eventi. La statistica si occupa
invece del problema in un certo senso opposto: si vuole capire la legge che descrive
Appunti di Statistica
27
un fenomeno, oppure il legame fra più fenomeni, osservando i fenomeni stessi accadere. A grandi linee, e senza entrare in dettagli, uno studio statistico si compone di
diverse fasi: identificazione dello scopo principale, identificazione della popolazione,
campionamento, descrizione dei dati, ipotesi, analisi statistica.
Noi ci occuperemo solamente di alcune semplici analisi statistiche dei dati. In
particolare, vedremo come è possibile stimare i parametri di una popolazione incognita a partire da un campionamento della stessa (di questo si occupa la statistica
inferenziale).
In statistica, per popolazione si intende l’insieme degli elementi (che possono
essere misure, osservazioni, etc.) che sono oggetto di studio, mentre per campione si intende un sottoinsieme della popolazione che viene selezionato per l’analisi
statistica.
Per quanto ci riguarda, supporremo che la popolazione sia distribuita secondo una legge aleatoria X di parametri tipicamente ignoti allo sperimentatore (ad
esempio, una distribuzione normale di media e varianza non conosciuti dallo sperimentatore). Un campione (di ampiezza n) sarà dunque una n-pla X1 , . . . , Xn di
osservazioni indipendenti (dunque di variabili aleatorie indipendenti) e tutte con la
stessa legge: X1 ∼ X, . . . , Xn ∼ X. Questi n esperimenti casuali possono essere
visti come n “copie” dello stesso esperimento astratto X (o equivalentemente della
stessa popolazione).
Detto in maniera spicciola, le n variabili aleatorie X1 , . . . Xn rappresentano tutti
i possibili campionamenti di ampiezza n della popolazione assegnata; è chiaro che,
in pratica, lo sperimentatore effettuerà un solo campionamento di questo tipo, ma
per poter trarre, da questo singolo campione, informazioni relative all’intera popolazione, abbiamo bisogno di sapere quale sia la distribuzione di tutti i possibili
campionamenti di prefissata ampiezza.
Definizione 2.2.1. (stimatore) Uno stimatore Tn per un parametro incognito τ
della popolazione è una funzione Tn = Tn (X1 , . . . , Xn ) del campione. Diremo che
• lo stimatore Tn è corretto, o non distorto (unbiased in inglese) se E[Tn ] = τ ;
• lo stimatore Tn è consistente o coerente (consistent in inglese) se la sua
varianza tende a zero per n che tende a infinito, cioè se limn Var(Tn ) = 0;
• se Tn ed Rn sono entrambi stimatori corretti del parametro τ , diremo che Tn
è più efficiente di Rn se Var(Tn ) < Var(Rn ).
Ad esempio, abbiamo dimostrato in (1.9) che se µ = E[X], allora la media
campionaria Mn definita in (1.18) è uno stimatore corretto del parametro µ della
popolazione, in quanto E[Mn ] = µ. La media campionaria è anche uno stimatore
28
G. Crasta
consistente della media vera µ, poiché limn Var(Mn ) = limn σ 2 /n = 0, dove σ 2 è
la varianza di X. Questo significa che, se pensiamo di effettuare un gran numero
di campionamenti di ampiezza n e di calcolare, per ciascuno di essi, la media campionaria, i dati così ottenuti forniranno una distribuzione con valore atteso µ e con
varianza pari a σ 2 /n. È possibile dimostrare che la media campionaria è lo stimatore
più efficiente della media della popolazione.
Si può anche dimostrare che la varianza campionaria, vale a dire la variabile
aleatoria definita da
n
1 X
2
(Xi − Mn )2 ,
(2.1)
Sn =
n − 1 i=1
è uno stimatore corretto e consistente della varianza vera σ 2 . (Questo è il motivo
per cui, nella definizione (2.1) di varianza campionaria, compare a denominatore
n − 1 anziché n.) Nel seguito indicheremo anche con X la media campionaria e con
S 2 la varianza campionaria, senza fare riferimento alla numerosità del campione.
2.3
Intervalli di confidenza
Supponiamo di avere uno stimatore per un certo parametro della popolazione oggetto
di studio. Per fissare le idee, supponiamo di avere una popolazione normale di media
µ e varianza σ 2 (incognite). Dato un campione X1 , . . . , Xn , sappiamo che la media
campionaria X è stimatore corretto e coerente della media µ della popolazione. Ad
esempio, supponiamo di avere il seguente campione: 20.8, 18.8, 20.7, 20.1, 24.7, 24.8,
22.4. La media campionaria vale 21.76. D’altra parte, questo numero da solo non
ci dà nessuna indicazione sulla bontà della stima. Per ovviare a questo problema,
spesso si ricorre ai cosiddetti intervalli di confidenza: si fornisce cioè un intervallo
(a, b) che, idealmente, contenga il parametro da stimare (µ in questo caso) e che sia
relativamente piccolo.
Operativamente, si fissa un certo livello di confidenza, ad esempio del 95%, e si
determina un intervallo (a, b) che contenga il parametro da stimare nel 95% dei casi.
Il significato di questa ultima frase è il seguente: se supponiamo di estrarre un gran
numero di campioni indipendenti dalla popolazione assegnata, e se per ciascuno di
questi campioni calcoliamo il relativo intervallo di confidenza al 95%, allora il 95%
di tali intervalli conterrà il vero valore del parametro da stimare (µ).
2.3.1
Intervalli di confidenza per la media
In questo paragrafo tratteremo il problema di stima l’intervallo di confidenza per la
media di una popolazione distribuita normalmente.
Prima di procedere oltre, ricordiamo il seguente risultato riguardante campioni
estratti da una popolazione normale (si vedano il Teorema 1.2.18 e la formula (1.16)).
Appunti di Statistica
29
Teorema 2.3.1. Se X1 , . . . , Xn è un campione casuale estratto da una popolazione
normale X ∼ N (µ, σ 2 ), allora
X −µ√
n ∼ N (0, 1),
σ
(n − 1)S 2
∼ χ2n−1 ,
σ2
X −µ√
n ∼ tn−1 ,
S
dove tn−1 indica la distribuzione t di Student con ν = n − 1 gradi di libertà.
Dal Teorema 2.3.1 sappiamo dunque che la variabile
T :=
X −µ√
n ∼ tn−1
S
è distribuita come una variabile t di Student con ν = n − 1 gradi di libertà. Fissato un livello di confidenza 1 − α (tipicamente 0.95 oppure 0.99, corrispondenti
rispettivamente ad α = 0.05 e α = 0.01), indichiamo con t∗ := tn−1,1−α/2 il quantile
di ordine 1 − α/2 della distribuzione tn−1 , in modo che P (−t∗ ≤ T ≤ t∗ ) = 1 − α.
Otteniamo dunque
X −µ√
∗
∗
P −t ≤
n ≤ t = 1 − α,
S
che, con qualche manipolazione algebrica, si può riscrivere come
∗ S
∗ S
P X −t √ ≤µ≤X +t √
= 1 − α.
n
n
Se definiamo le variabili aleatorie
S
â := X − t∗ √ ,
n
S
b̂ := X + t∗ √ ,
n
(2.2)
avremo che P (â < µ < b̂) = 1 − α; l’intervallo aleatorio (â, b̂) è dunque detto
intervallo di confidenza per la media al livello di confidenza 1 − α.
Di fatto, lo sperimentatore estrarrà un solo campione x1 , . . . , xn dalla popolazione, per il quale calcolerà l’intervallo di confidenza (a, b) usando le formule
s
a = x − t∗ √ ,
n
s
b = x + t∗ √ .
n
(2.3)
Chiaramente non possiamo avere nessuna garanzia che tale intervallo contenga la
media reale µ della popolazione. Ciò che possiamo dire è che, per un fissato livello di
confidenza (1 − α), se estraiamo un gran numero di campioni x1 , . . . , xn dalla nostra
popolazione e per ciascuno di essi calcoliamo l’intervallo di confidenza (a, b) usando
G. Crasta
0
20
40
60
80
100
30
−10
−5
0
5
10
Figura 2.2: 100 intervalli di confidenza per campioni di ampiezza 10 estratti da una
popolazione N (0, 25)
la formula (2.3), allora circa il 100 · (1 − α)% di questi intervalli conterrà la media
µ (ignota) della popolazione. Per illustrare meglio questo concetto, nella Figura 2.2
sono rappresentati (mediante linee orizzontali) gli intervalli di confidenza per 100
campioni di ampiezza 10 estratti casualmente da una popolazione normale di media
µ = 0 e varianza σ 2 = 25; come si può vedere, 95 di questi intervalli contengono la
media reale µ = 0, mentre 5 di essi non la contengono.
Osservazione 2.3.2. Le quantità â e b̂ definite in (2.2), così come la media X
e la varianza campionaria S 2 , sono ovviamente delle variabili aleatorie. Quando lo
sperimentatore estrae un campione, le quantità calcolate per quel campione vengono
invece indicate con le corrispondenti lettere minuscole (o senza “cappuccio”), vale a
dire a, b, x, s2 .
Riprendiamo l’esempio introduttivo, relativo al campione 20.8, 18.8, 20.7, 20.1,
24.7, 24.8, 22.4 estratto da una popolazione normale. Vogliamo calcolare l’intervallo
di confidenza
per la media al livello di confidenza del 95%. Abbiamo che x = 21.76,
√
s = 5.31 = 2.30; indichiamo con t∗ := t6, 0.975 = 2.47 il quantile di ordine 0.975
della distribuzione t di Student con ν = n − 1 = 6 gradi di libertà (che possiamo
trovare individuare nella Tabella C relativa al test a due code, con α = 0.05 e ν = 6).
Calcoliamo ora gli estremi dell’intervallo di confidenza utilizzando (2.2):
s
a := x − t∗ √ = 19.63,
n
s
b := x + t∗ √ = 28.89,
n
dunque l’intervallo di confidenza richiesto è (a, b) = (19.63, 28.89). Osserviamo
a questo punto che non ha senso dire che µ ∈ (19.63, 28.89) con una probabilità
del 95%, dal momento che µ è un numero ben preciso (sebbene ignoto), dunque
o è contenuto in tale intervallo oppure non lo è! Ribadiamo che l’interpretazione
Appunti di Statistica
31
corretta è la seguente: se estraiamo un gran numero di campioni x1 , . . . , x7 dalla
nostra popolazione e per ciascuno di essi calcoliamo l’intervallo di confidenza (a, b)
usando la procedura indicata, allora circa il 95% di questi intervalli conterrà la
media µ (ignota) della popolazione. Nonostante questo si usa spesso scrivere che
l’intervallo di confidenza è 19.63 < µ < 28.89, attribuendo però a questa scrittura il
significato appena spiegato.
Esercizio 2.3.3. Il seguente campione è stato estratto da una popolazione distribuita normalmente: -2.4, 5.5, 2.0, -2.5, 1.1, 7.4, -1.8, -2.2. Determinare l’intervallo
di confidenza al 95% per la media.
Svolgimento. Indichiamo con t∗ il valore critico della distribuzione t di Student con
ν = n − 1 = 7 gradi di libertà tale che P (|t| < t∗ ) = 0.95. Nella tabella dei quantili
della distribuzione t (Tabella C), per il test a due code e con area delle code α = 0.05,
si trova t∗ = 2.365. Usando la calcolatrice otteniamo
x = 0.8875,
s = 3.855 .
Sostituendo i valori nella formula (2.2) si ottiene che l’intervallo di confidenza per
la media al (livello di confidenza del) 95% è (−2.34, 4.11).
Osservazione 2.3.4 (Grandi campioni). Per n sufficientemente grande (diciamo
n > 30) la distribuzione tn−1 è ben approssimata dalla distribuzione normale standard; in tal caso è possibile utilizzare, per il calcolo dell’intervallo di confidenza, il
quantile di ordine 1 − α/2 della variabile normale standard.
2.3.2
Intervalli di confidenza per la differenza di due medie
Da un punto di vista applicativo capita spesso di dover confrontare le medie di
due popolazioni. Pensiamo, ad esempio, al caso della sperimentazione di un nuovo farmaco contro l’ipertensione: avremo una popolazione non trattata (cioè, non
sottoposta all’azione del farmaco) e una trattata, e saremo interessati a stimare la
differenza della pressione media fra le due popolazioni per valutare l’efficacia del
farmaco. (Su questo torneremo nel Paragrafo 3.2.1.)
Da un punto di vista matematico, supponiamo di avere due popolazioni distribuite normalmente, con la stessa varianza2 ; in altre parole, abbiamo due variabili
aleatorie indipendenti
X ∼ N (µ1 , σ 2 ),
Y ∼ N (µ2 , σ 2 ).
Si vuole stimare la differenza µ1 − µ2 fra le medie delle due popolazioni.
Per fare questo, estraiamo un campione da ciascuna popolazione; siano dunque
X1 , . . . , Xn1 ∼ N (µ1 , σ 2 ),
2
Y1 , . . . , Yn2 ∼ N (µ2 , σ 2 ),
Questa ipotesi può essere rimossa, a scapito però di una maggiore complessità del modello.
32
G. Crasta
variabili aleatorie indipendenti. Indichiamo con X, Y le relative medie campionarie
e con S12 , S22 le relative varianze campionarie:
n1
1 X
X=
Xi ,
n1 i=1
Y =
n2
1 X
Yi ,
n2 i=1
n
S12
1
1 X
=
(Xi − X)2 ,
n1 − 1 i=1
n
S22 =
2
1 X
(Yi − Y )2 .
n2 − 1 i=1
La varianza σ 2 , comune a entrambe le popolazioni, può essere stimata utilizzando
congiuntamente entrambi i campioni; è possibile dimostrare che la variabile aleatoria
S 2 :=
(n1 − 1)S12 + (n2 − 1)S22
,
n1 + n2 − 2
(2.4)
detta stima combinata della varianza, è uno stimatore corretto di σ 2 . Osserviamo che, se i due campioni hanno la stessa numerosità, allora S 2 non è altro che la
media aritmetica delle due varianze campionarie S12 ed S22 .
Si può inoltre dimostrare (si veda il Paragrafo 3.4.1 per i dettagli) che la variabile
aleatoria
(X − Y ) − (µ1 − µ2 )
T = p
(2.5)
S 2 (1/n1 + 1/n2 )
si distribuisce come una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà.
Ragionando in maniera analoga a quanto fatto nel Paragrafo 2.3.1 possiamo
concludere che l’intervallo di confidenza al livello (1 − α) · 100% per la differenza
delle medie è dato da
r
r
1
1
1
1
X − Y − t∗ · S
+
< µ1 − µ2 < X − Y + t∗ · S
+
(2.6)
n1 n2
n1 n2
dove t∗ = tν, 1−α/2 è il quantile (1 − α/2) della distribuzione t di Student con ν =
n1 + n2 − 2 gradi di libertà. (Come già osservato, questo valore va cercato nella
Tabella C relativa al test a due code.)
Ricordiamo quanto già detto nell’Osservazione 2.3.4: se ν è abbastanza grande
(indicativamente, se ν ≥ 30), la distribuzione t di Student con ν gradi di libertà
è praticamente indistinguibile dalla distribuzione normale standard. Per questo
motivo, per grandi campioni (quando cioè ν ≥ 30) si utilizza spesso il test basato
sulla distribuzione normale standard, mentre per piccoli campioni (ν < 30) si usa il
test appena descritto, basato sulla distribuzione t di Student.
Esercizio 2.3.5. Abbiamo i seguenti due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza:
Gruppo 1
Gruppo 2
35.32
18.25
26.87
21.55
18.77
13.97
23.24
21.65
31.30
21.08
33.60
27.33
33.60
11.78
24.83
Appunti di Statistica
33
Si determinino gli intervalli di confidenza al 95% e 99% per la differenza delle medie.
Svolgimento. Abbiamo che n1 = 8, n2 = 7; utilizzando la calcolatrice possiamo
calcolare medie e varianze campionarie, che riassumiamo nella seguente tabella:
nj
xj
s2j
Gruppo 1 (X)
8
28.441
34.973
Gruppo 2 (Y)
7
19.372
27.376
La stima combinata per la varianza è dunque:
s2 =
(n1 − 1)s21 + (n2 − 1)s22
= 31.467.
n1 + n2 − 2
Utilizziamo la formula (2.6) per il calcolo l’intervallo di confidenza. Al livello di
confidenza del 95% dobbiamo utilizzare il quantile t∗ = t13, 0.975 = 2.160 relativo alla
distribuzione t di Student con ν = n1 + n2 − 2 = 13 gradi di libertà; è opportuno
calcolare prima la semiampiezza δ dell’intervallo di confidenza, data da
s
s 1
1 1
1
∗
2
+
= 2.160 · 31.467
+
= 6.271.
δ0.95 := t · s
n1 n2
8 7
Poiché x − y = 9.068, l’intervallo di confidenza per la differenza delle medie sarà
9.068 − 6.271 < µ1 − µ2 < 9.068 + 6.271 cioè 2.797 < µ1 − µ2 < 15.339.
Al livello di confidenza del 99% dobbiamo utilizzare invece il quantile t∗ = t13, 0.995 =
3.012; la semiampiezza δ dell’intervallo di confidenza vale, in questo caso,
s
s 1
1
1 1
∗
2
+
= 3.012 · 31.467
+
= 8.744,
δ0.99 := t · s
n1 n2
8 7
dunque l’intervallo di confidenza per la differenza delle medie sarà
9.068 − 8.744 < µ1 − µ2 < 9.068 + 8.744 cioè 0.324 < µ1 − µ2 < 17.813.
Esercizio 2.3.6. Abbiamo due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella
seguente tabella:
nj
xj
s2j
Gruppo 1
10
7.81
3.57
Gruppo 2
9
9.49
4.67
34
G. Crasta
Determinare l’intervallo di confidenza al 95% e 99% per la differenza delle medie.
Svolgimento. In questo caso i dati sono già in forma aggregata. Iniziamo a calcolare
la stima combinata per la varianza:
s2 =
(n1 − 1)s21 + (n2 − 1)s22
= 4.088.
n1 + n2 − 2
Utilizziamo la formula (2.6) per il calcolo l’intervallo di confidenza. Al livello di
confidenza del 95% dobbiamo utilizzare il quantile t∗ = t17, 0.975 = 2.110 relativo alla
distribuzione t di Student con ν = n1 + n2 − 2 = 17 gradi di libertà; è opportuno
calcolare prima la semiampiezza δ dell’intervallo di confidenza, data da
s s
1
1
1
1
∗
+
= 2.110 · 4.088
+
= 1.960.
δ0.95 := t · s2
n1 n2
10 9
Poiché x − y = −1.68, l’intervallo di confidenza per la differenza delle medie sarà
−1.68 − 1.96 < µ1 − µ2 < −1.68 + 1.96 cioè
− 3.64 < µ1 − µ2 < 0.28.
Al livello di confidenza del 99% dobbiamo utilizzare invece il quantile t∗ = t17, 0.995 =
2.898; la semiampiezza δ dell’intervallo di confidenza vale, in questo caso,
s s
1
1
1
1
∗
δ0.99 := t · s2
+
+
= 2.898 · 4.088
= 2.692,
n1 n2
10 9
dunque l’intervallo di confidenza per la differenza delle medie sarà
−1.68 − 2.692 < µ1 − µ2 < −1.68 + 2.692 cioè
− 4.37 < µ1 − µ2 < 1.01.
2.4
Esercizi
Esercizio 2.1. Il seguente campione è stato estratto da una popolazione distribuita
normalmente: 34.08, 50.08, 48.78, 38.4, 37.09, 39.62, 35.16, 33.55, 44.21, 45.86.
Determinare l’intervallo di confidenza al 95% per la media.
Soluzione. 36.30 < µ < 45.06
Esercizio 2.2. I seguenti due campioni indipendenti sono stati estratti casualmente
da popolazioni normali aventi la stessa varianza:
Gr. 1
Gr. 2
47.43
32.45
48.58
37.14
48.53
31.58
42.90 41.99
32.23 39.30
38.73
41.09
44.07
36.10
44.71
35.37
36.84
32.24
Si determinino gli intervalli di confidenza al 95% e 99% per la differenza delle medie.
Soluzione. 5.81 < µ1 − µ2 < 12.56, 4.53 < µ1 − µ2 < 13.83
CAPITOLO 3
TEST DI IPOTESI
Per illustrare le quantità principali associate ad un test di ipotesi, partiamo da
un esempio relativo ad un caso giuridico. In un’aula di tribunale un imputato
deve essere giudicato da una giuria, sulla base delle prove prodotte dalla difesa e
dall’accusa. Le situazioni possibili sono le quattro riportate in tabella:
Verdetto
Assolto
Condannato
Verità
Innocente
Colpevole
corretto
errore tipo II
errore tipo I
corretto
È chiaro che ci sono due possibilità di errore: condannare un imputato che, in realtà,
è innocente (errore di tipo I), oppure assolvere un imputato che, in realtà, è colpevole
(errore di tipo II).
Dal momento che la giuria non sa la verità, la sua decisione può portare a uno
di questi errori. Si tratta di decidere come procedere per “controllare” queste possibilità di errore. In uno stato di diritto l’errore più grave consiste sicuramente nel
condannare un imputato innocente (errore di tipo I); la giuria, dunque, assumerà
che l’imputato sia innocente a meno che la sua colpevolezza non sia dimostrata oltre
ogni ragionevole dubbio.
Nel caso di un test statistico, lo sperimentatore formula un’ipotesi in termini dei
parametri di una popolazione (nel caso giuridico, l’ipotesi è l’innocenza dell’imputato); poi, utilizzando i dati di un campione (nel caso giuridico, le prove), esegue un
procedimento, detto test di ipotesi, che gli consenta di rifiutare o meno l’ipotesi
statistica (nel caso giuridico, si celebra un processo per stabilire se le prove sono
sufficienti per condannare l’imputato).
Facciamo un esempio per chiarire questi concetti. Si vuole effettuare uno studio
clinico per stabilire se un certo farmaco è efficace nel trattamento dell’ipertensione.
35
36
G. Crasta
Si considerano dunque due gruppi di persone, estratte casualmente da una popolazione di pazienti ipertesi; al primo gruppo (detto di controllo) viene somministrato
un placebo, mentre il secondo gruppo (detto di trattamento) viene trattato col
farmaco. Il parametro oggetto di studio è la pressione arteriosa. L’ipotesi nulla
(usualmente denotata con H0 ) è che la popolazione trattata e quella non trattata
abbiano la stessa media, mentre l’ipotesi alternativa (denotata con H1 ) è che le
medie siano differenti. (In realtà in questo caso siamo interessati a stabilire se il farmaco è efficace, cioè se le media delle pressioni della popolazione trattata è minore
di quella della popolazione non trattata; su questo punto torneremo nel Paragrafo 3.2.1.) Dopo aver misurato la pressione arteriosa negli elementi dei due campioni,
lo sperimentatore effettua un opportuno test di ipotesi per stabilire se H0 possa
essere rifiutata o meno. La situazione è riassunta nella seguente tabella:
Conclusioni tratte
Nessuna differenza
Differenza
Situazione reale
Nessuna differenza (H0 ) Differenza (H1 )
corretto (1 − α)
errore tipo II (β)
errore tipo I (α)
corretto (1 − β)
Ritorniamo al parallelo giudiziario. L’innocenza, che in un test statistico equivale all’ipotesi nulla H0 , viene dunque presunta a meno che le prove non mostrino
il contrario oltre ogni ragionevole dubbio. Il “ragionevole dubbio” è rappresentato,
in statistica, dal livello di significatività del test, usualmente indicato con α;
tipicamente si usa α = 0.01 oppure α = 0.05. In un test statistico, il livello di significatività viene fissato dallo sperimentatore prima di eseguire il test; come abbiamo
detto, esso rappresenta la probabilità massima di commettere un errore di tipo I.
La probabilità massima di commettere un errore di tipo II viene indicata con β,
ed è anche detta rischio del consumatore; si chiama invece potenza di un test
la quantità 1 − β, che in un test statistico rappresenta la probabilità (minima) di
concludere che il trattamento è efficace quando questo è realmente efficace o, equivalentemente, di concludere che esiste una differenza fra le popolazioni quando questa
realmente esiste. Nel parallelo giudiziario la potenza rappresenta la probabilità di
condannare un imputato colpevole.
Riassumendo, ad ogni test statistico sono quindi associati i seguenti parametri:
• Livello di significatività: viene indicato con α (tipicamente α = 0.01 oppure
α = 0.05). È la probabilità (massima) di commettere un errore di tipo I. Viene
fissata a priori prima di eseguire il test.
• Livello di confidenza: è dato da 1 − α. È la probabilità (minima) di concludere che l’ipotesi nulla H0 è vera quando essa è realmente verificata, cioè
di concludere che un determinato trattamento è inefficace quando questo è
realmente inefficace.
• Rischio del consumatore, o errore di tipo II: viene indicato con β. È la
probabilità (massima) di concludere che l’ipotesi nulla H0 è vera quando invece
Appunti di Statistica
37
questa è falsa, cioè di concludere che un trattamento è inefficace quando questo,
in realtà, è efficace.
• Potenza: viene indicata con 1 − β. È la probabilità (minima) di rilevare una
differenza reale di una certa entità. La quantità β rappresenta la dimensione
dell’errore di tipo II.
Abbiamo già detto che il livello di significatività α del test (e quindi anche il
suo livello di confidenza) vengono fissati a priori e dunque sono noti. La determinazione della potenza del test è invece più complicata ed esula dagli scopi di questa
esposizione; in generale essa dipende dai seguenti fattori:
• Il livello di significatività α (cioè il rischio di errore di tipo I); è infatti chiaro che, a parità di design sperimentale, se si riduce l’errore di primo tipo α
automaticamente si aumenta l’errore di secondo tipo β.
• La numerosità campionaria; è chiaro che, per α fissato, aumentando la numerosità campionaria si riduce la probabilità di errore di tipo II. (Nel parallelo
giudiziario questo equivale a raccogliere un maggior numero di prove.)
• La dimensione dell’eventuale differenza che si vuole osservare; è infatti evidente
che, ad esempio a seguito di un trattamento, tanto maggiore è la differenza
che ci si aspetta di osservare, tanto maggiore è la probabilità di rilevare una
differenza a seguito del test statistico.
Nei paragrafi successivi esporremo alcuni semplici test di ipotesi. Si tratta per
lo più di test parametrici basati sull’ipotesi che le popolazioni oggetto di studio
siano distribuite normalmente. Esistono anche numerosi test che non fanno alcuna
richiesta sulla distribuzione della popolazione, ma la loro trattazione esula dai fini
di questa esposizione.
3.1
Test di ipotesi sulla media
Partiamo con un esempio.
Esempio 3.1.1. Una ditta produttrice di mozzarelle dichiara che il contenuto sgocciolato delle confezioni è 500g. Il controllo di qualità preleva un campione casuale
per il quale il contenuto sgocciolato (in grammi) è il seguente:
502, 490, 496, 513, 488, 493, 514, 495, 492, 492.
Possiamo supporre che il campione sia estratto da una popolazione normale di media
µ e varianza σ 2 ; indichiamo invece con µ0 = 500 il contenuto (in grammi) dichiarato
dal produttore. Dall’analisi statistica del campione vogliamo stabilire, con un certo
livello di confidenza, se, ad esempio:
38
G. Crasta
• µ 6= µ0 (in tal caso il produttore potrebbe decidere di modificare il processo
produttivo per allineare le due medie);
• µ < µ0 (in tal caso il produttore potrebbe decidere di aumentare il contenuto
medio, per evitare eventuali cause da parte dell’associazione dei consumatori);
• µ > µ0 (in tal caso il produttore potrebbe decidere di diminuire il contenuto
medio, per aumentare i margini di guadagno).
Nel primo caso illustrato (µ 6= µ0 ) parleremo di test a due code, mentre negli
altri due casi parleremo di test a una coda.
La situazione astratta è dunque la seguente. Da una popolazione distribuita
normalmente X ∼ N (µ, σ 2 ) (con media e varianza incognite allo sperimentatore) si
estrae un campione di ampiezza n; da un punto di vista statistico abbiamo dunque
n variabili aleatorie indipendenti
X1 , . . . , Xn ∼ N (µ, σ 2 ).
Assegnata una media dichiarata µ0 , nel caso di test a due code avremo le seguenti
ipotesi statistiche:
• ipotesi nulla H0 : µ = µ0 ;
• ipotesi alternativa H1 : µ 6= µ0 .
Dal Teorema 2.3.1 sappiamo che la variabile aleatoria
X −µ√
n ∼ tn−1
S
si distribuisce come una variabile t di Student con ν = n − 1 gradi di libertà. Di
conseguenza, se assumiamo che l’ipotesi nulla sia vera, il consuntivo (o statistica
test)
X − µ0 √
T :=
n
(3.1)
S
si distribuisce come una variabile t di Student con ν = n − 1 gradi di libertà.
Fissato il livello di significatività α, indichiamo con t∗ il quantile di ordine 1−α/2
relativo alla distribuzione tn−1 ; in altri termini, t∗ è tale che P (−t∗ < T < t∗ ) = 1−α.
Di conseguenza, se H0 è vera, il consuntivo T calcolato in (3.1) cadrà, con probabilità
(1 − α), nell’intervallo (−t∗ , t∗ ); questo intervallo è detto regione di accettazione
(RA) del test. L’unione delle due code, vale a dire l’insieme (−∞, −t∗ ] ∪ [t∗ , +∞),
è invece detta regione di rifiuto (RR) del test. I valori −t∗ e +t∗ , che separano la
regione di accettazione da quella di rifiuto, sono detti valori critici. In conclusione,
se il consuntivo T cade nella regione di accettazione (−t∗ , t∗ ), allora accettiamo (o
Appunti di Statistica
39
meglio, non rifiutiamo) l’ipotesi nulla H0 , mentre in caso contrario rifiutiamo l’ipotesi
nulla.
Esempio 3.1.1, test a due code. Effettuiamo il test a due code nel caso dell’Esempio 3.1.1, ad un livello di significatività α = 0.05. Usando la calcolatrice otteniamo
x = 497.5, s = 9.24. Cerchiamo, nella Tabella C, il quantile t∗ = t9, 0.975 = 2.262
relativo alla distribuzione t9 (t di Student con ν = n − 1 = 9 gradi di libertà) per il
test a due code con α = 0.05. La regione di accettazione è dunque
RA = (−t∗ , t∗ ) = (−2.262, 2.262).
Il consuntivo T vale
t :=
497.5 − 500 √
x − µ0 √
n=
10 = −0.85
s
9.24
e cade all’interno della regione di accettazione; concludiamo dunque che l’ipotesi
nulla H0 non può essere rifiutata al livello di confidenza del 95%. In altre parole,
a questo livello di confidenza non c’è evidenza che la media sia diversa da quella
dichiarata dal produttore.
Interpretazione in termini di intervalli di confidenza. Nel Paragrafo 2.3.1
abbiamo visto come calcolare l’intervallo di confidenza per la media. Calcoliamo,
sempre nel caso dell’Esempio 3.1.1, gli estremi dell’intervallo di confidenza al 95%
usando la formula (2.3.1):
s
9.24
a := x − t∗ √ = 497.5 − 2.262 √ = 490.9,
n
10
9.24
s
b := x + t∗ √ = 497.5 + 2.262 √ = 504.1.
n
10
L’intervallo di confidenza al 95% per la media per il test a due code è dunque
IC = (490.9, 504.1).
Lasciamo al lettore la semplice verifica del seguente fatto: il consuntivo T cade nella
regione di accettazione se e solo se la media dichiarata µ0 cade nell’intervallo di
confidenza:
T ∈ RA ⇐⇒ µ0 ∈ IC.
Poiché, nel caso in esame, µ0 ∈ IC, concludiamo come prima che l’ipotesi nulla H0
non può essere rifiutata al livello di confidenza del 95%.
Illustriamo infine il caso di test a una coda; per fissare le idee, consideriamo il
test di ipotesi
• ipotesi nulla H0 : µ ≤ µ0 ;
• ipotesi alternativa H1 : µ > µ0 .
40
G. Crasta
(Il caso con ipotesi nulla µ ≥ µ0 si tratta in maniera analoga.) Esattamente come
prima, se assumiamo che l’ipotesi nulla sia vera, il consuntivo T definito in (3.1) si
distribuisce come una variabile t di Student con ν = n − 1 gradi di libertà. Fissato
un certo livello di significatività α, indichiamo con t∗ = tn−1, 1−α il quantile di ordine
1 − α della distribuzione tn−1 , che troviamo sempre nella Tabella C per il test a una
coda. Se l’ipotesi nulla è verificata, con probabilità (1 − α) il consuntivo T dovrà
stare nella regione di accettazione
RA = (−∞, t∗ ).
Di conseguenza, se T < t∗ non rifiutiamo l’ipotesi nulla, mentre se T ≥ t∗ la
rifiutiamo.
Analogamente a prima, possiamo calcolare anche l’intervallo di confidenza per
la media, che in questo caso sarà una semiretta; osservando che
T =
X − µ0 √
n < t∗
S
⇐⇒
S
µ0 > X − t∗ √
n
deduciamo che l’intervallo di confidenza è
∗ S
IC = X − t √ , +∞ .
n
Anche in questo caso, se µ0 ∈ IC concluderemo che l’ipotesi nulla non può essere
rifiutata.
Esempio 3.1.1, test a una coda. Effettuiamo un test a una coda nel caso dell’Esempio 3.1.1, ad un livello di significatività α = 0.05. Consideriamo, ad esempio,
il caso in cui il produttore sia interessato a stabilire se il contenuto medio delle
confezioni è superiore rispetto a quello dichiarato; in tal caso
• H0 : µ ≤ µ0 ;
• H1 : µ > µ0 .
Abbiamo già calcolato x = 497.5, s = 9.24. Questa volta cerchiamo, nella Tabella C,
il quantile t∗ = t9, 0.95 = 1.833 relativo alla distribuzione t9 (t di Student con ν =
n − 1 = 9 gradi di libertà) per il test a una code con α = 0.05. La regione di
accettazione è dunque
RA = (−∞, t∗ ) = (−∞, 1.833).
Il consuntivo T è già stato calcolato e vale t = −0.85. Anche in questo caso, esso
cade all’interno della regione di accettazione; concludiamo dunque che l’ipotesi nulla
H0 non può essere rifiutata al livello di confidenza del 95%. In altre parole, a questo
livello di confidenza non c’è evidenza che la media sia superiore a quella dichiarata
dal produttore.
Appunti di Statistica
41
Possiamo arrivare alla stessa conclusione anche calcolando l’intervallo di confidenza per la media:
∗ s
IC(α = 0.05) = x − t √ , +∞ = (492.1 , +∞)
n
e osservando che µ0 ∈ IC.
Riassumiamo quando detto finora nella seguente tabella; t∗ rappresenta il quantile, per il dato numero ν = n−1 di gradi di libertà e per il dato livello di significatività
α, che si può ricavare
dalla Tabella C per il test a una o due code. Abbiamo inoltre
√
∗
posto δ := t S/ n.
Test
due code
una coda
una coda
3.2
3.2.1
H0
µ = µ0
µ ≤ µ0
µ ≥ µ0
H1
µ 6= µ0
µ > µ0
µ < µ0
Val. crit.
−t∗ , t∗
t∗
−t∗
RA
(−t∗ , t∗ )
(−∞, t∗ )
(−t∗ , +∞)
IC
X − δ, X + δ
X − δ, +∞
−∞, X + δ
Confronto di medie fra gruppi
Confronto fra le medie di due gruppi
In questo paragrafo analizzeremo una situazione simile a quella descritta nel Paragrafo 2.3.2. Supponiamo dunque di avere due popolazioni distribuite normalmente,
con la stessa varianza; come già osservato, le due popolazioni sono distribuite
dunque come due variabili aleatorie indipendenti
X ∼ N (µ1 , σ 2 ),
Y ∼ N (µ2 , σ 2 ).
Vogliamo effettuare un test statistico per vedere se ci sono differenze significative
fra le medie di queste due popolazioni. Le ipotesi statistiche saranno dunque:
• ipotesi nulla H0 : non ci sono differenze fra le medie (vale a dire, le due
popolazioni sono di fatto la stessa popolazione);
• ipotesi alternativa H1 : esistono differenze significative fra le due popolazioni.
In questo caso è conveniente considerare la differenza fra le due medie; in tal modo,
le nostre ipotesi statistiche si possono enunciare come:
• ipotesi nulla H0 : µ1 − µ2 = 0;
• ipotesi alternativa H1 : µ1 − µ2 6= 0.
42
G. Crasta
A questo punto, dopo aver fissato il livello di significatività α, estraiamo un campione
da ciascuna popolazione; siano dunque
X1 , . . . , Xn1 ∼ N (µ1 , σ 2 ),
Y1 , . . . , Yn2 ∼ N (µ2 , σ 2 ),
variabili aleatorie indipendenti. Come abbiamo già detto nel Paragrafo 2.3.2, la
variabile aleatoria
(X 1 − X 2 ) − (µ1 − µ2 )
(3.2)
T = p
S 2 (1/n1 + 1/n2 )
si distribuisce come una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà.
Ricordiamo che, in questa formula, S12 , S22 sono le varianze campionare del primo
e del secondo campione, mentre S 2 è la stima combinata della varianza definita in
(2.4):
(n1 − 1)S12 + (n2 − 1)S22
2
S =
.
n1 + n2 − 2
Supponiamo ora che l’ipotesi nulla H0 sia vera, cioè che µ1 = µ2 . In tal caso
avremo che la variabile aleatoria
X1 − X2
T =p
S 2 (1/n1 + 1/n2 )
(3.3)
si distribuirà come una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà.
Osserviamo che il valore di T sarà “piccolo” se le due medie campionarie sono vicine,
mentre tenderà ad essere grande quando le due medie campionarie sono molto differenti. Indichiamo con t∗ il quantile della distribuzione t di Student con ν gradi di
libertà per il test a due code con area delle code P pari al livello di significatività α.
(Per essere precisi, t∗ è il quantile di ordine 1 − α/2, tale per cui P (tν > t∗ ) = α/2.)
Per quanto detto, P (−t∗ < T < t∗ ) = 1 − α. Ciò significa che, se l’ipotesi H0
è vera, allora il consuntivo T calcolato in (3.3) cadrà, nel (1 − α) · 100% dei casi
nell’intervallo (−t∗ , t∗ ); questo intervallo è detto regione di accettazione (RA) del
test. Le due code, vale a dire (−∞, −t∗ ] ∪ [t∗ , +∞) rappresentano invece la regione
di rifiuto (RR); per questo motivo il test è detto a due code. In conclusione, se il
valore calcolato di T cade nella regione di accettazione (−t∗ , t∗ ), allora accettiamo
(o meglio, non rifiutiamo) l’ipotesi nulla H0 , mentre in caso contrario rifiutiamo
l’ipotesi nulla. Questo tipo di test, basato sulla distribuzione t di Student, è anche
detto test di Student per il confronto delle medie di due popolazioni.
Riassumendo, in questo caso la variabile aleatoria T definita in (3.3) è il nostro
consuntivo, o la nostra statistica test; la regione di accettazione corrisponde
all’insieme dei valori del consuntivo che portano all’accettazione dell’ipotesi nulla
H0 , mentre la regione di rifiuto corrisponde all’insieme dei valori del consuntivo che
portano al rifiuto dell’ipotesi nulla H0 . I valori critici sono quei valori che separano
la regione di accettazione da quella di rifiuto (nel caso in esame ±t∗ ).
Appunti di Statistica
43
Test t a due code
Ipotesi nulla H0
µ1 = µ2
Ipotesi alternativa H1
µ1 6= µ2
Regione di accettazione RA (−t∗ , t∗ )
Regione di rifiuto RR
(−∞, −t∗ ] ∪ [t∗ , +∞)
Esercizio 3.2.1. Abbiamo i seguenti due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza:
xj
yj
42
38
42
26
35
44
45
37
46
31
58
45
33
36
29
44
26
Stabilire se esistono differenze significative fra le medie ai livelli di significatività
dell’1% e del 5%.
Svolgimento. Poiché, per ipotesi, i campioni sono estratti casualmente da popolazioni normali aventi la stessa varianza, possiamo effettuare il test di ipotesi sopra
descritto, con
• ipotesi nulla H0 : µ1 = µ2 ;
• ipotesi alternativa H1 : µ1 6= µ2 .
Iniziamo a calcolare, usando la calcolatrice, medie e varianze campionarie; riassumiamo i dati nella seguente tabella:
nj
xj
s2j
Gruppo 1
8
41.25
82.21
Gruppo 2
9
36.33
54.74
La stima combinata per la varianza è
(n1 − 1)s21 + (n2 − 1)s22
7 · 82.21 + 8 · 54.74
s =
=
= 67.56 .
n1 + n2 − 2
15
2
Calcoliamo ora il consuntivo T :
x1 − x2
41.25 − 36.33
t= p
=p
= 1.23 .
s2 (1/n1 + 1/n2 )
67.56 · (1/8 + 1/9)
Per quanto riguarda i valori critici, dobbiamo cercare, nella Tabella C, i quantili
t∗0.05 e t∗0.01 relativi alla distribuzione t di Student con ν = n1 + n2 − 2 = 15 gradi di
libertà per il test a due code, che sono
t∗0.05 = 2.131,
t∗0.01 = 2.948.
Le regioni di accettazione sono dunque
RA(α = 0.05) = (−2.131, 2.131),
RA(α = 0.01) = (−2.948, 2.948).
In entrambi i casi il consuntivo cade nella regione di accettazione, quindi in entrambi
i casi non si può rifiutare l’ipotesi nulla H0 .
44
G. Crasta
Intervalli di confidenza. Il test di ipotesi sopra descritto può essere interpretato
anche in termini di intervalli di confidenza. Abbiamo infatti detto che la variabile
aleatoria
(X 1 − X 2 ) − (µ1 − µ2 )
T = p
S 2 (1/n1 + 1/n2 )
si distribuisce come una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà.
Chiaramente, la vera differenza fra le medie µ1 − µ2 è ignota allo sperimentatore.
Sappiamo però che, con probabilità 1−α, il valore osservato di T cadrà nell’intervallo
(−t∗ , t∗ ) (dove t∗ è il quantile di ordine 1 − α/2 della distribuzione t di Student con
ν gradi di libertà), cioè
−t∗ <
(X 1 − X 2 ) − (µ1 − µ2 )
p
< t∗ .
S 2 (1/n1 + 1/n2 )
Questo significa che, con probabilità 1 − α, la differenza fra le vere medie sta
nell’intervallo
s s 1
1
1
1
∗
∗
2
2
+
+
(X 1 − X 2 ) − t S
< µ1 − µ2 < (X 1 − X 2 ) + t S
.
n1 n2
n1 n2
Tale intervallo è detto intervallo di confidenza (IC) per la differenza delle medie
al 100(1 − α)% (ad esempio, se α = 0.05 questo sarà l’intervallo di confidenza al
95%). Dal punto di vista del test delle ipotesi, se tale intervallo contiene lo zero,
allora non possiamo rifiutare l’ipotesi nulla; in altri termini, non abbiamo evidenza
(al livello di significatività α) che ci sia una differenza fra le medie. Viceversa, se
0 non appartiene a tale intervallo, allora possiamo rifiutare l’ipotesi nulla (al dato
livello di significatività).
Esercizio 3.2.2. Calcolare gli intervalli di confidenza per la differenza delle medie
nella situazione descritta nell’Esercizio 3.2.1.
Svolgimento. Calcoliamo prima le semiampiezze degli intervalli di confidenza:
s
s 1
1
1 1
2
+
= 2.131 · 67.56
+
= 8.51,
δ0.05 := t15, 0.975 s
n1 n2
8 9
s s
1
1
1 1
2
δ0.01 := t15, 0.995 s
+
= 2.948 · 67.56
+
= 11.77.
n1 n2
8 9
Poiché la differenza fra le medie campionarie vale x − y = 4.92, i relativi intervalli
di confidenza sono:
4.92 − 8.51 < µ1 − µ2 < 4.92 + 8.51 cioè IC(α = 0.05) = (−3.59, 13.43),
4.92 − 11.77 < µ1 − µ2 < 4.92 + 11.77 cioè IC(α = 0.01) = (−6.85, 16.69).
Appunti di Statistica
45
Vediamo che, in entrambi i casi, l’intervallo di confidenza per la differenza delle
medie contiene il valore 0; questa è indicazione del fatto che l’ipotesi nulla non può
essere rifiutata.
Con un software statistico come R l’Esercizio 3.2.1 può essere svolto nel seguente
modo (riportiamo solo il caso α = 0.05).
>
>
>
+
x <- c(42, 42, 35, 45, 46, 58, 33, 29)
y <- c(38, 26, 44, 37, 31, 45, 36, 44, 26)
t.test(x, y, conf.level=0.95, var.equal=TRUE,
alternative="two.sided")
Two Sample t-test
data: x and y
t = 1.231, df = 15, p-value = 0.2373
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.596664 13.429998
sample estimates:
mean of x mean of y
41.25000 36.33333
Come si può notare, le informazioni riportate da R riguardano l’intervallo di confidenza (95 percent confidence interval) e il p–value (valore p in italiano) del test. Il
p–value rappresenta la probabilità di sbagliare affermando che il test ha rilevato una
differenza reale fra i campioni. Quindi, un basso valore del p–value (inferiore, per
esempio, a 0.05 oppure a 0.01, a seconda del livello di significatività che abbiamo
deciso di utilizzare), indica che il test ha rilevato una differenza reale fra i campioni.
Viceversa, un valore alto del p–value (superiore, ad esempio, a 0.01, 0.05, a seconda
del livello di significatività scelto) indica che il test non ha rilevato differenze significative fra i campioni. Il p–value può anche essere interpretato come il più piccolo
livello di significatività α per il quale i dati osservati indicano che l’ipotesi nulla
dovrebbe essere rifiutata.
Finora abbiamo analizzato il caso di test a due code, per i quali la regione di rifiuto RR è costituita dall’unione di due code della distribuzione t di Student. Spesso
succede però che si sia interessati a stabilire se, ad esempio, un certo trattamento
porti ad un aumento (o a una diminuzione) della media.
Esempio 3.2.3. Si vuole stabilire se un certo farmaco è efficace nel trattamento
dell’ipertensione. Si considerano dunque due gruppi di persone, estratte casualmente da una popolazione di pazienti ipertesi; al primo gruppo (detto di controllo)
viene somministrato un placebo, mentre il secondo gruppo (detto di trattamento)
46
G. Crasta
viene trattato col farmaco. I dati relativi alla pressione arteriosa sono raccolti nella
seguente tabella:
controllo
trattamento
118
108
128
108
144
111
126 116 137
98 145 96
134 128 146 163
139 117 111 118
In questo esempio siamo interessati a sapere se la media del primo gruppo è
significativamente maggiore di quella del secondo; in tal caso, infatti, potremmo
dire che il farmaco è efficace. In altri termini, le ipotesi statistiche per questo test
saranno:
• ipotesi nulla H0 : µ1 ≤ µ2 ;
• ipotesi alternativa H1 : µ1 > µ2 .
La variabile aleatoria T definita in (3.2) si distribuisce anche in questo caso come
una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà. Fissiamo il livello di
significatività α e indichiamo con t∗ il quantile di ordine 1 − α (che si puà trovare
nella Tabella C, test a una coda). Se l’ipotesi nulla è vera, allora il consuntivo
X1 − X2
T =p
2
S (1/n1 + 1/n2 )
cadrà, con probabilità (1 − α), nella regione di accettazione (−∞, t∗ ). Di conseguenza, l’ipotesi nulla verrà accettata (o meglio, non verrà rifiutata) se T < t∗ , mentre
verrà rifiutata se T ≥ t∗ .
Un analogo ragionamento vale per il calcolo dell’intervallo di confidenza, che in
questo caso sarà una semiretta; avremo infatti che
s !
1
1
+
, +∞ .
(3.4)
IC = X − Y − t∗ S 2
n1 n2
Simmetricamente, si può trattare il caso in cui
• ipotesi nulla H0 : µ1 ≥ µ2 ;
• ipotesi alternativa H1 : µ1 < µ2 ;
si avrà che la regione di accettazione sarà del tipo (−t∗ , +∞), mentre l’intervallo di
confidenza sarà la semiretta
s !
1
1
+
.
IC = −∞ , X − Y + t∗ S 2
n1 n2
Riassumiamo quando detto finora nella seguente tabella; t∗ rappresenta il quantile, per il dato numero ν di gradi di libertà e per il dato livello di significatività α,
Appunti di Statistica
47
che si può ricavare dalla Tabella C per il test a una o due code. Abbiamo inoltre
posto
s 1
1
∗
2
+
.
D := X − Y ,
δ := t S
n1 n2
Test
due code
una coda
una coda
H0
µ1 = µ2
µ1 ≤ µ2
µ1 ≥ µ2
H1
µ1 6= µ2
µ1 > µ2
µ1 < µ2
Val. crit.
−t∗ , t∗
t∗
−t∗
RA
(−t∗ , t∗ )
(−∞, t∗ )
(−t∗ , +∞)
IC
(D − δ, D + δ)
(D − δ, +∞)
(−∞, D + δ)
Ricordiamo che, in generale, T ∈ RA se e solo se 0 ∈ IC (qui 0 è la differenza delle
medie nel caso in cui si assuma H0 verificata).
Effettuiamo i calcoli nel caso dell’Esempio 3.2.3, ad un livello di significatività
α = 0.01. Iniziamo a calcolare medie e varianze campionarie:
nj
xj
s2j
controllo
10
134.0
201.1
trattamento
10
115.1
252.1
e determiniamo la stima combinata per la varianza, s2 = 226.6. Il consuntivo T vale
dunque
x1 − x2
134.0 − 115.1
t= p
=q
= 2.81.
2
1
1
s (1/n1 + 1/n2 )
226.6 10
+ 10
Individuiamo il valore critico t∗ andando a consultare la Tabella C, con ν = n1 +
n2 − 2 = 18 gradi di libertà, α = 0.01, per il test a una coda; otteniamo t∗ = 2.552.
Le regioni di accettazione e rifiuto sono, in questo caso,
RA = (−∞, t∗ ) = (−∞, 2.552),
RR = [t∗ , +∞) = [2.552, +∞).
Il consuntivo T cade nella regione di rifiuto; possiamo quindi rifiutare l’ipotesi nulla
e concludere, al livello di confidenza del 99%, che il farmaco ha effetto per ridurre
la pressione arteriosa.
Possiamo anche calcolare l’intervallo di confidenza utilizzando la formula (3.4):
IC(α = 0.01) = (134.0 − 115.1 − 17.18, +∞) = (1.72, +∞).
Poiché il valore 0 non appartiene all’intervallo di confidenza, anche in questo modo
possiamo stabilire che l’ipotesi nulla può essere rifiutata al livello di confidenza del
99%.
48
3.2.2
G. Crasta
Test t per dati appaiati
Nel test t per dati appaiati i soggetti di uno stesso gruppo vengono osservati prima
e dopo essere stati sottoposti ad un solo trattamento. Il test riguarda la variazione
media prodotta dal trattamento, anziché la differenza delle risposte medie come
avviene nel test t classico.
Supponiamo dunque di avere un gruppo di n elementi. Misuriamo, per ciascun
elemento, il parametro oggetto di studio. Sottoponiamo poi gli elementi del gruppo
al trattamento e misuriamo nuovamente il parametro in questione. Per ogni elemento
avremo quindi una misura della variazione nel parametro, che sarà la differenza
fra la misura dopo il trattamento e quella prima del trattamento. Dato dunque
questo insieme d1 , . . . , dn di variazioni, possiamo calcolarne la media d e la deviazione
standard Sd :
v
u
n
n
X
u 1 X
1
t
d=
di ,
Sd =
(di − d)2 .
n i=1
n − 1 i=1
Questo ci consente di calcolare l’errore standard per la media delle differenze, che
sarà dato da
Sd
Sd = √ .
n
Se δ è la variazione media dovuta al trattamento della popolazione, allora la statistica
T =
d−δ
Sd
si distribuisce approssimativamente, per n grande, come la variabile aleatoria t di
Student con ν = n − 1 gradi di libertà. Ricordiamo che, come per tutti i test t, si
suppone sempre che la popolazione sia distribuita, almeno approssimativamente, in
maniera normale. Quindi, se vogliamo testare l’ipotesi nulla H0 : δ = 0, calcoleremo
il valore T = d/Sd e lo confronteremo col valore critico per ν = n−1 gradi di libertà.
Esempio 3.2.4. Su un gruppo di n = 11 soggetti è stata misurata la percentuale
di aggregazione piastrinica prima e dopo aver fumato una sigaretta. Si vuole testare
l’ipotesi nulla che il fumo non produca variazioni (test a due code). Le variazioni
misurate di questa percentuale sono 2, 4, 10, 12, 16, 15, 4, 27, 9, -1, 15.
Poiché il valore calcolato t = d/sd è maggiore del quantile t1−α/2 = 3.17, possiamo
rifiutare l’ipotesi nulla al livello di significatività α = 0.01.
3.2.3
Confronto fra le medie di più gruppi
Spesso succede che si debbano confrontare le medie di più di due popolazioni; lo
sperimentatore potrebbe, ad esempio, voler confrontare l’effetto di due farmaci, utilizzando inoltre un gruppo di controllo (trattato con placebo). In questi casi si può
Appunti di Statistica
49
utilizzare il test di Fisher (o F-test), che è un’analisi della varianza (ANOVA – Analysis of Variance) ad una via (one–way layout, vale a dire, consideriamo un singolo
fattore con k ≥ 2 livelli del trattamento).
Da un punto di vista matematico supporremo dunque di avere k ≥ 2 popolazioni
distribuite normalmente e con uguale varianza. Il nostro scopo è di rilevare
eventuali differenze fra le medie delle popolazioni (i livelli del trattamento) e di
quantificare queste differenze; a tale proposito estrarremo campioni indipendenti
da ciascuna di esse. L’ipotesi nulla è che i k fenomeni aleatori siano in realtà un
unico fenomeno normale con media comune. Per ogni j = 1, . . . k, supponiamo
che la j-esima popolazione sia distribuita normalmente con media µj e varianza σ 2 .
Indichiamo con nj la numerosità campionaria del j-esimo gruppo, j = 1, . . . , k; il
j-esimo campione sarà dunque costituito da nj variabili aleatorie indipendenti
X1j , X2j , . . . , Xnj j ∼ N (µj , σ 2 ),
j = 1, . . . , k.
Indichiamo con X j la media campionaria relativa al j-esimo campione (spesso nei
testi di statistica tale media viene indicata con X ·j ), cioè
nj
1 X
Xij
X j ≡ X ·j =
nj i=1
j = 1, . . . , k .
Indichiamo poi con X la media campionaria relativa a tutte le osservazioni (che, in
generale, non coincide con la media delle medie, dal momento che le numerosità
campionarie possono essere diverse):
nj
k
1 XX
X=
Xij ,
N j=1 i=1
N=
k
X
nj
(numero totale di esperimenti).
j=1
Definiamo a questo punto
SStra =
k
X
nj (X j − X)2 ,
j=1
SSentro =
nj
k X
X
(Xij − X j )2 ,
j=1 i=1
2
Stra
=
SStra
,
k−1
2
Sentro
=
SSentro
N −k
2
2
(SS sta per Sum of Squares, somma dei quadrati). Le quantità Stra
ed Sentro
sono dette, rispettivamente, varianza tra gruppi e varianza entro i gruppi. Il
2
2
e Sentro
:
consuntivo F è definito come il rapporto fra le quantità Stra
F =
2
Stra
.
2
Sentro
(3.5)
I risultati dell’analisi della varianza vengono generalmente riassunti in una tabella
dell’analisi della varianza (ANOVA table in inglese) come segue:
50
G. Crasta
Trattamenti
Errore
d.f.
k−1
N −k
SS
SStra
SSentro
S2
2
tra
Stra
= SS
k−1
2
Sentro
= SSNentro
−k
F
F =
2
Stra
2
Sentro
La sigla “d.f.” sta per degrees of freedom (gradi di libertà). I principali software statistici hanno una funzione che permette il calcolo automatico della tabella
dell’ANOVA (ad esempio, con R questa tabella si ottiene col comando ‘anova’).
Vediamo ora come vanno interpretati i dati riportati nella tabella dell’ANOVA
(per maggiori dettagli si veda il Paragrafo 3.4.2). Sappiamo, per ipotesi, che le k
popolazioni sono distribuite normalmente con la stessa varianza σ 2 . Poiché µj la
media della j-esima popolazione, avremo che
Xij = µj + ij ,
ij ∼ N (0, σ 2 ).
(3.6)
P
Detta µ = ( kj=1 µj )/k la media globale, abbiamo inoltre che
k
1X
µj ,
µ=
k j=1
µj = µ + τj ,
k
X
τj = 0.
(3.7)
j=1
La quantità τj = µj − µ è detta effetto del trattamento j-esimo. Complessivamente,
abbiamo che
Xij = µ + τj + ij ,
ij ∼ N (0, σ 2 ).
(3.8)
2
fornisce sempre uno stimatore corretto della varianza σ 2 , indiLa quantità Sentro
pendentemente dal fatto che le popolazioni abbiano la stessa media oppure no (o,
equivalentemente, indipendentemente dal fatto che l’ipotesi nulla sia vera oppure
no). Si ha infatti
2
Sentro
k
SSentro
1 X
=
(nj − 1)Sj2
=
N −k
N − k j=1
(3.9)
e si può dimostrare che
2
E(Sentro
) = σ2,
SSentro
∼ χ2N −k ,
σ2
(3.10)
dove χ2N −k è la distribuzione chi–quadrato con N − k gradi di libertà. Per quanto
2
riguarda Stra
, si può dimostrare che
k
2
E(Stra
) = σ2 +
1 X
nj (τj − τ )2 ,
k − 1 j=1
Distinguiamo ora i due casi:
τ :=
k
1 X
nj τj .
N j=1
(3.11)
Appunti di Statistica
51
a) H0 è vera, cioè µ1 = · · · = µk = µ. In tal caso si ha τ1 = · · · = τk = τ = 0, e
2
) = σ 2 . Inoltre, in questo caso si può dimostrare che
da (3.11) ricaviamo che E(Stra
SStra
∼ χ2k−1
σ2
(se µ1 = µ2 = · · · = µk ).
(3.12)
Di conseguenza, dalla definizione della variabile di Fisher F concludiamo che il
consuntivo
SStra
/(k − 1)
S2
2
σ
F = SSentro
= 2tra ,
Sentro
/(N − k)
σ2
che è esattamente la quantità definita in (3.5), si distribuisce come una variabile di
Fisher con νn = k − 1 gradi di libertà al numeratore e νd = N − k gradi di libertà
al denominatore. (Se i gruppi hanno la stessa numerosità n, si ha νd = k(n − 1)).
2
non è più uno stimatore corretto
b) H0 è falsa. In questo caso, il termine Stra
2
2
tende a sovrastimare σ 2 ; di
della varianza σ . Si vede infatti da (3.11) che Stra
conseguenza, tanto più F è grande, tanto maggiore è l’evidenza a supporto del fatto
che H0 sia da rifiutare.
I quantili delle distribuzioni di Fisher sono tabulati nella Tabella D; indicato con
f il quantile di ordine 1 − α della distribuzione F con νn = k − 1 gradi di libertà a
numeratore e νd = N − k gradi di libertà a denominatore, abbiamo che
∗
• se F < f ∗ , l’ipotesi nulla viene accettata (o meglio, non viene respinta);
• se F > f ∗ , l’ipotesi nulla viene rifiutata.
Esercizio 3.2.5. Quattro gruppi di studenti sono stati sottoposti a quattro differenti
tecniche di insegnamento per un certo periodo di tempo. I risultati ottenuti nei test
dagli studenti sono i seguenti:
- gruppo 1: 65, 87, 73, 79, 81, 69
- gruppo 2: 75, 69, 83, 81, 72, 79, 90
- gruppo 3: 59, 78, 67, 62, 83, 76
- gruppo 4: 94, 89, 80, 88
Si vuole sapere se i dati indicano l’esistenza di differenze significative fra i quattro
metodi d’insegnamento.
Svolgimento. Cominciamo a riassumere i parametri dei k = 4 gruppi in una tabella:
nj
xj
s2j
Gruppo 1
6
75.66
66.66
Abbiamo che
N=
k
X
j=1
Gruppo 2
7
78.43
50.62
nj = 23,
x=
Gruppo 3
6
70.83
91.77
Gruppo 4
4
87.75
33.58
k
1 X
nj xj = 77.35 .
N j=1
52
G. Crasta
Calcoliamo poi
sstra =
k
X
s2tra =
(nj − 1)s2j = 1196.6,
s2entro =
j=1
ssentro =
k
X
sstra
= 237.6,
k−1
nj (xj − x)2 = 713.0,
j=1
ssentro
= 63.0 .
N −k
Il consuntivo F vale quindi
f=
s2tra
= 3.77 .
s2entro
Riassumiamo i calcoli nella tabella dell’analisi della varianza:
Trattamenti
Errore
d.f.
3
19
SS
S2
713.0 237.6
1196.6 63.0
F
3.77
Nella tabella relativa alla distribuzione di Fisher con νn = k − 1 = 3 gradi di libertà
al numeratore e νd = N − k = 19 gradi di libertà al denominatore troviamo i valori
∗
∗
∗
∗
concludiamo che esistono
< f < f0.01
= 5.01. Poiché f0.05
= 3.19, f0.01
critici f0.05
differenze significative fra le medie al livello di confidenza del 95%, mentre non c’è
evidenza per affermare che esistono differenze significative fra le medie al livello di
confidenza del 99%. In particolare questo ci dice che il p–value del test è compreso
fra 0.01 e 0.05 (il calcolo esatto può essere fatto con un software statistico e fornisce
p = 0.028).
Intervalli di confidenza. Gli intervalli di confidenza per la media del trattamento
j-esimo o per la differenza tra il trattamento j-esimo e il trattamento r-esimo hanno
estremi rispettivamente
Sentro
X j ± t∗ √
nj
e
s
(X j − X r ) ± t∗ Sentro
1
1
+
,
nj nr
dove t∗ = tN −k, 1−α/2 è il quantile di ordine 1 − α/2 della distribuzione t di Student
con N − k gradi di libertà.
Tornando all’Esempio 3.2.5, abbiamo che l’intervallo di confidenza al 95% per la
media del gruppo 1 è
√
75.667 ± 2.093
62.980
√
6
cioè 68.885 < µ1 < 82.448.
Appunti di Statistica
53
L’intervallo di confidenza al 95% per la differenza fra le medie del primo e del quarto
gruppo è invece
r
√
1 1
(75.667 − 87.750) ± 2.093 62.980
+
cioè − 22.805 < µ1 − µ4 < −1.361.
6 4
Questo suggerisce che µ4 > µ1 , poiché l’intervallo di confidenza della differenza delle
medie è tutto contenuto nella semiretta x < 0.
L’uso di questi intervalli di confidenza in un test di ipotesi non è tuttavia corretto, in quanto tende a sottostimare l’errore di prima specie. In caso l’ipotesi
nulla venga rifiutata, per identificare quale gruppo (o gruppi) differiscano dagli altri
è necessario utilizzare una procedura per i confronti multipli. Le più note procedure per i confronti multipli sono il test di Bonferroni, il test di Holm e il test
SNK di Student–Newman–Keuls, la cui descrizione esula però dagli scopi di questa
introduzione.
3.3
3.3.1
Verifica di relazione tra variabili
Regressione lineare
Molto spesso ci si aspetta che due variabili numeriche siano in relazione lineare
una con l’altra. Ad esempio, ci si può aspettare (almeno approssimativamente)
che il peso di un individuo dipenda in maniera lineare dalla sua altezza. Dato
quindi un insieme di valori (xi , yi ), i = 1, . . . , n, vogliamo determinare una retta
nel piano xy che approssimi il meglio possibile (nel senso che spiegheremo fra poco)
la distribuzione dei punti (xi , yi ) nel piano. Quantificheremo inoltre la bontà di
questa approssimazione con un numero detto coefficiente di correlazione. Lo studio
di questo problema è detto regressione lineare.
Veniamo ora alla descrizione del problema. In generale avremo una variabile
indipendente x (ad esempio, l’altezza di una popolazione) e una variabile dipendente
y (ad esempio, il peso della popolazione). Ci aspettiamo che fra x e y intercorra una
relazione lineare del tipo
y = α + β x.
Il parametro α è l’ordinata all’origine (o intercetta, in inglese intercept), mentre il
parametro β è il coefficiente angolare della retta (in inglese slope). Nella realtà non
si osserva mai una relazione deterministica fra x e y come quella scritta sopra: ad
esempio, se riportiamo in un grafico i valori (altezza,peso), è praticamente impossibile che questi punti stiano tutti su una stessa retta. Il modello che si adotta dal
punto di vista statistico è il seguente. Per ogni valore della variabile indipendente
x, supponiamo di avere una variabile aleatoria Y = Yx tale che
E[Yx ] = α + β x
54
G. Crasta
o, equivalentemente,
Yx = α + β x + ,
dove è una variabile aleatoria avente media nulla. Per semplificare il modello si
assume che non dipenda da x; come conseguenza, al variare di x le variabili aleatorie
Yx hanno media data da α + β x, ma la loro distribuzione mantiene sempre la stessa
forma e, in particolare, la stessa varianza. Vogliamo ora stimare i due parametri α
e β a partire dai dati osservati. Indicheremo con a e b queste stime; essi saranno
l’intercetta e il coefficiente angolare di una retta, detta retta di regressione o retta
dei minimi quadrati. Supponiamo dunque di avere i punti (xi , yi ), i = 1, . . . , n,
con le xi non tutte coincidenti. Vogliamo calcolare l’equazione della retta che meglio
approssima l’andamento di questi dati, nel senso spiegato di seguito. In generale i
punti (xi , yi ) non staranno su questa retta; possiamo definire le quantità i tramite
la relazione
yi = a + b xi + i ,
i = 1, . . . , n .
In altri termini, i = yi − (a + b xi ) è la differenza fra l’ordinata del punto (xi , yi )
e quella del punto di ascissa xi sulla retta di regressione. Tali quantità sono anche
dette residui (residuals in inglese). Vogliamo ora determinare a e b in modo da
minimizzare l’errore quadratico, cioè la somma dei quadrati degli errori:
n
X
i=1
2i
n
X
=
(yi − a − b xi )2 .
i=1
Sviluppando i quadrati a secondo membro, otteniamo che
n
X
2i = (ΣY 2 ) + n a2 + b2 (ΣX 2 ) − 2a(ΣY ) − 2b(ΣXY ) + 2a b(ΣX),
(3.13)
i=1
dove
ΣX =
n
X
i=1
xi ,
ΣY =
n
X
i=1
yi ,
ΣXY =
n
X
i=1
x i yi ,
ΣX 2 =
n
X
i=1
x2i ,
ΣY 2 =
n
X
yi2 .
i=1
Minimizziamo ora l’errore quadratico. I valori di a e b che minimizzano il secondo
membro di (3.13) sono quelli tali che le derivate rispetto ad a e b di tale quantità
sono nulle1 , cioè
(
2n a − 2(ΣY ) + 2b(ΣX) = 0,
2b(ΣX 2 ) − 2(ΣXY ) + 2a(ΣX) = 0 .
Possiamo risolvere questo sistema, ad esempio, per sostituzione. Dalla prima equazione ricaviamo
1
1
a = ΣY − b · ΣX = y − b x.
n
n
1
Questa affermazione segue dal fatto che l’errore quadratico è una funzione convessa nelle
variabili (a, b).
Appunti di Statistica
55
Sostituendo nella seconda equazione otteniamo
1
ΣXY − n1 (ΣX)(ΣY )
ΣXY − n1 (ΣX)(ΣY )
n−1
.
b=
=
1
2 − 1 (ΣX)2
ΣX 2 − n1 (ΣX)2
ΣX
n−1
n
Nell’ultima riscrittura di b è presente, a denominatore, la varianza campionaria s2x
di x. A numeratore compare invece la covarianza campionaria, definita da
" n
#
X
1
(xi − x)(yi − y)
cov(x, y) :=
n − 1 i=1
(3.14)
1
1
ΣXY − (ΣX)(ΣY ) .
=
n−1
n
Da un punto di vista operativo, utilizzando una calcolatrice scientifica per il calcolo
della retta di regressione può essere conveniente procedere come segue. A partire
dalla tabella dei dati grezzi, si calcolano innanzitutto le quantità ΣX, x, ΣX 2 , sx ,
ΣY , y, ΣY 2 , s2y , ΣXY . (Alcune di queste quantità non servono per il calcolo della
retta di regressione, ma verranno utilizzate in seguito.) Si calcola poi la covarianza cov(X, Y ) utilizzando la formula (3.14); a questo punto possiamo calcolare il
coefficiente angolare b della retta di regressione
b=
cov(x, y)
s2x
(3.15)
e, infine, calcolare l’ordinata all’origine (o intercetta) a:
a = y − b x.
(3.16)
Un indice della “forza dell’associazione” fra le due variabili è dato dal coefficiente
di correlazione di Pearson, definito da
Σ(xi − x)(yi − y)
Σ(xi − x)(yi − y)
,
r := p
=
2
2
(n − 1)sx sy
Σ(xi − x) Σ(yi − y)
(3.17)
che può essere riscritto, ricordando la definizione di covarianza, come
r=
cov(x, y)
.
sx sy
È facile verificare che si ha sempre −1 ≤ r ≤ 1; inoltre r = ±1 quando tutti i
dati osservati (xi , yi ) stanno esattamente sulla retta di regressione y = a + b x (in
particolare, r = 1 se b > 0, mentre r = −1 se b < 0). Si può dimostrare che la
variabile
r
t= p
∼ tn−2
(1 − r2 )/(n − 2)
si distribuisce come la variabile t di Student con n − 2 gradi di libertà.
56
G. Crasta
Esempio 3.3.1. Empiricamente si osserva che il numero massimo di battiti cardiaci
al minuto di una persona sia legato all’età della persona. Supponiamo di avere
effettuato le seguenti osservazioni:
Età
Battiti
18
202
23
186
25
187
35
180
65
156
54
169
34
174
56
172
72
153
19
199
23
193
42
174
18
198
39
183
37
178
Determiniamo la retta di regressione e il coefficiente di correlazione. Abbiamo n = 15
coppie. Utilizzando la calcolatrice, cominciamo a calcolare
ΣX = 560, x = 37.33, sx = 17.49, ΣX 2 = 25188, ΣXY = 97534,
ΣY = 2704, y = 180.37, sy = 14.63, ΣY 2 = 490438.
La covarianza campionaria è
1
1
cov(x, y) =
ΣXY − (ΣX)(ΣY ) = −243.95,
n−1
n
mentre il coefficiente di correlazione di Pearson vale
r=
cov(x, y)
= −0.95.
sx sy
Il valore di r indica che c’è una forte correlazione lineare fra x e y. Ricaviamo i
coefficienti della retta di regressione y = a + bx:
cov(x, y)
= −0.798,
s2x
a = y − b · x = 210.05.
180
160
170
Battiti
190
200
b=
20
30
40
50
60
70
Eta’
Figura 3.1: Retta di regressione dell’Esempio 3.3.1
Appunti di Statistica
57
Per eseguire dei test statistici sui parametri α e β della retta di regressione,
l’ipotesi standard è che gli errori (definiti da = Y − α − β x) siano indipendenti e
si distribuiscano normalmente con media 0 e una certa varianza σ 2 . Uno stimatore
corretto di σ 2 è dato da
n
1 X 2 n−1 2
2
2
i =
SY − b2 SX
.
(3.18)
S =
n − 2 i=1
n−2
Analogamente, si può dimostrare che i coefficienti a e b, calcolati in (3.15) e (3.16),
sono stimatori corretti rispettivamente di α e β. Gli errori standard di a e b sono
dati rispettivamente da
s
s
2
1
X
ΣX 2
S
S
S
√
Sa = S
+
,
S
,
=
=
b = q
n Σ(X − X)2
SX n(n − 1)
S
n
−
1
2
X
Σ(X − X)
dove S è l’errore standard della stima definito in (3.18). Inoltre, le statistiche
t=
a−α
,
Sa
t=
b−β
Sb
si distribuiscono come la variabile aleatoria t di Student con ν = n − 2 gradi di
libertà.
L’ipotesi che più frequentemente si sottopone a verifica riguarda l’esistenza di una
relazione lineare fra le variabili. L’ipotesi nulla H0 è dunque che non ci sia alcuna
relazione lineare fra X e Y (osserviamo che ciò non esclude la possibilità che ci
sia una relazione di altro tipo). Se H0 è vera, dobbiamo avere β = 0. Possiamo
dunque calcolare il valore t = b/Sb e confrontarlo col valore critico t∗ , ottenuto
dalla distribuzione t di Student con ν = n − 2 gradi di libertà al dato livello di
significatività. Come al solito, se |t| < t∗ accettiamo l’ipotesi nulla che non ci sia
una relazione lineare fra le variabili, mentre se |t| > t∗ rifiutiamo l’ipotesi nulla e
concludiamo che esiste una relazione lineare fra le variabili.
Naturalmente il t-test può essere eseguito anche utilizzando gli intervalli di
confidenza. L’intervallo di confidenza per il coefficiente β, al prefissato livello di
significatività, sarà
b − t∗ · Sb < β < b + t∗ · Sb .
Se tale intervallo contiene lo 0 allora accettiamo l’ipotesi nulla, mentre se non contiene lo 0 la rifiutiamo. Per tornare all’Esempio 3.3.1, abbiamo ν = 15 − 2 = 13
gradi di libertà; il valore critico per il test a due code ad un livello di significatività
dell’1% è t∗ = 3.012 (si veda la Tabella C). Poiché b = −0.79773 e Sb = 0.06996,
otteniamo dunque l’intervallo di confidenza
b − t∗ · Sb = −1.008 < β < −0.587 = b + t∗ · Sb ,
quindi rifiutiamo l’ipotesi nulla e concludiamo che esiste una relazione lineare tra le
variabili.
58
3.3.2
G. Crasta
Test del chi-quadrato di adattamento
Il test del chi-quadrato di adattamento (χ2 -test di adattamento, in inglese χ2 goodness of fit test) si utilizza per verificare se i dati sperimentali provengono da una
specifica popolazione. Vediamo subito alcuni esempi, che analizzeremo in seguito.
Esempio 3.3.2. Un dado viene lanciato n = 1000 volte e vengono osservate le
seguenti frequenze:
1
158
2
141
3
183
4
162
5
185
6
171
Vogliamo stabilire se il dado è regolare o truccato.
Esempio 3.3.3. Gregor Mendel, nei suoi studi sulla teoria dell’ereditarietà, ottenne
i seguenti dati nell’incrocio fra semi di piselli rotondi e gialli con semi di piselli
grinzosi e verdi:
rotondi e gialli
grinzosi e gialli
rotondi e verdi
grinzosi e verdi
Freq. osservate
315
101
108
32
Freq. teoriche
312.75
104.25
104.25
34.75
Vogliamo stabilire se le frequenze osservate si adattano bene alle frequenze teoriche calcolate in base alle leggi della teoria mendeliana sui caratteri dominanti (che
prevedono frequenze nelle proporzioni 9, 3, 3, 1).
In entrambi gli esempi conosciamo la popolazione “teorica”: nel primo caso sappiamo che, se il dado è regolare, le frequenze devono essere tutte uguali, mentre nel
secondo caso sappiamo che, se le leggi di Mendel sono corrette, allora le frequenze
sono nelle proporzioni 9, 3, 3, 1.
Più in generale, supponiamo di avere un fenomeno casuale X tale che in ciascun
esperimento Xi gli esiti possibili siano in tutto k (nell’Esempio 3.3.2 abbiamo k =
6, mentre nell’Esempio 3.3.3 si ha k = 4); indicheremo tali esiti con ω1 , . . . , ωk .
Per ogni esito ωi è assegnata una probabilità teorica pi (nell’Esempio 3.3.2 si ha
p1 = · · · = p6 = 1/6, mentre nell’Esempio 3.3.3 si ha p1 = 9/16, p2 = p3 = 3/16,
p4 = 1/16).
Supponiamo ora di effettuare n esperimenti X1 , . . . , Xn e di rilevare le frequenze
osservate n1 , . . . , nk . Calcoliamo ora la statistica test
2
L =
k
X
(ni − n pi )2
i=1
n pi
.
Appunti di Statistica
59
Osserviamo che, per ogni i = 1, . . . , k, la quantità n0i := n pi rappresenta la frequenza
teorica (o attesa) dell’i-esimo evento ωi . Si può dimostrare che, per n sufficientemente grande, la statistica L2 si distribuisce approssimativamente come la variabile
aleatoria χ2k−1 del chi-quadrato con ν = k − 1 gradi di libertà. Da un punto di vista
operativo, si ha una buona approssimazione quando le frequenze teoriche sono tutte
maggiori di 5, cioè se n0i > 5 per ogni i = 1, . . . , k,
Eseguiamo ora l’analisi statistica dei dati forniti negli Esempi 3.3.2 e 3.3.3. Per
quanto riguarda l’Esempio 3.3.2, abbiamo p1 = . . . = p6 = 1/6; poiché n = 1000, le
frequenze teoriche sono
1
n01 = . . . = n06 = 1000 · .
6
Di conseguenza
2 2 2 2
6 h
1000
1000
1000
1000
L =
+ 141 −
+ 183 −
+ 162 −
158 −
1000
6
6
6
6
2 2 i
1000
1000
+ 185 −
+ 171 −
= 8.264 .
6
6
2
D’altra parte, il valore critico della distribuzione χ25 relativo al livello di significatività
α = 0.01 vale circa 15.09 (si veda la Tabella B). Possiamo dunque concludere che il
dado è regolare (o, meglio, che non c’è evidenza statistica per concludere che il dado
è truccato).
Nel caso dell’Esempio 3.3.3 il valore del consuntivo è L2 = 0.47, mentre il valore
critico al livello di significatività α = 0.01, con ν = 3 gradi di libertà, vale circa 11.34.
Salta all’occhio che l’adattamento è fin troppo buono. Gli storici ritengono in effetti
che i dati siano stati “ritoccati” da Mendel per rendere più evidente l’adeguamento
fra le frequenze osservate e quelle teoriche.
Adattamento ad una legge con parametri incogniti. Accade spesso che la distribuzione teorica che lo sperimentatore si attende dipenda da uno o più parametri
incogniti che vanno stimati dai dati osservati. Il problema è chiaramente più complicato di quelli analizzati sopra. La regola generale da seguire è che ogni parametro
stimato toglie un grado di libertà; quindi, se abbiamo k = 10 classi e stimiamo
due parametri incogniti, dovremo utilizzare la distribuzione del chi-quadrato con
ν = 10 − 1 − 2 = 7 gradi di libertà. Discuteremo solo un esempio concreto.
Supponiamo che un ricercatore abbia effettuato le seguenti n = 50 misure:
8.5 8.4 8.8 7.7 9.7 11.0 8.1 7.0 9.4 11.8 8.2 8.5 7.3 11.5 10.3 9.0 8.1
5.3 9.3 9.6 10.0 10.4 11.0 8.3 6.5 8.5 8.6 11.4 5.6 5.6 9.7 10.8 10.9 10.3
9.6 10.4 11.1 8.8 6.4 7.9 11.8 8.1 9.3 11.3 13.5 6.8 12.1 8.2 8.7 12.1
Il ricercatore ipotizza che i dati provengano da una legge normale (di media µ e
varianza σ 2 incognite). Ci chiediamo se questa ipotesi sia ragionevolmente vera o
no.
60
G. Crasta
In questo caso i problemi sono due: prima dobbiamo stimare (a partire dai dati
sperimentali) i parametri incogniti µ e σ, poi dobbiamo vedere se i dati sperimentali
stessi si adattano alla distribuzione teorica (quella normale di media µ e varianza σ 2 ).
La media µ e la varianza σ 2 della popolazione possono essere stimati rispettivamente
dalla media campionaria e dalla varianza campionaria, che valgono rispettivamente
x = 9.22 e s2x = 3.47. Vogliamo ora vedere se i dati si adattano alla distribuzione
teorica X ∼ N (x, s2x ). Per poter eseguire il test del chi-quadrato di adattamento,
dobbiamo prima suddividere i dati in classi e calcolare le frequenze osservate e
teoriche. Ricordiamo che, affinché il test sia attendibile, le frequenze teoriche devono
essere maggiori di 5. Poiché abbiamo complessivamente 50 osservazioni, questo
significa che dovremo avere meno di 10 classi. Ad esempio, possiamo scegliere come
numero di classi k = 8 e richiedere che in ogni classe la frequenza teorica sia almeno 6.
Un modo di procedere è il seguente. Scegliamo k − 1 = 7 valori x1 < x2 < . . . < x7
in modo che
i
i = 1, . . . , 7.
P (X < xi ) = ,
8
In altri termini, xi è il quantile di ordine i/8 della distribuzione X ∼ N (x, s2x ). Se
indichiamo con zi il quantile di ordine i/8 della distribuzione normale standard,
avremo che
i = 1, . . . , 7,
xi = x + zi · sx ,
ottenendo
x1 = 7.08, x2 = 7.96, x3 = 8.63, x4 = 9.22,
x5 = 9.81, x6 = 10.48, x7 = 11.36 .
Definiamo, per comodità, x0 = −∞ e x8 = +∞, e suddividiamo i dati nelle 8 classi
(xi−1 , xi ), i = 1, . . . , 8. Per costruzione, in ciascuna di queste 8 classi le frequenze
teoriche sono n0i = 50/8 = 6.25, in quanto la probabilità che xi−1 < X < xi vale 1/8
per ogni i. Le frequenze osservate nelle classi sono
n1 = 7,
n2 = 3,
n3 = 11,
n4 = 4,
n5 = 7,
n6 = 5,
n7 = 6,
n8 = 7 .
Il calcolo di L2 fornisce L2 = 6.64. Questo valore va confrontato col valore critico
della distribuzione chi-quadrato con ν = 8 − 1 − 2 = 5 gradi di libertà. Al livello
di significatività α = 0.01, tale valore critico è 15.09. Possiamo dunque accettare
l’ipotesi del ricercatore e concludere che i dati provengono da una legge distribuita
normalmente.
3.4
3.4.1
Complementi
Test t di Student
Riprendiamo la situazione descritta nel Paragrafo 3.2.1, che riguarda il confronto
fra le medie di due popolazioni. Siano X1 , X2 , . . . Xn1 e Y1 , Y2 , . . . Yn2 due campioni
Appunti di Statistica
61
indipendenti estratti da due popolazioni normali aventi la stessa varianza σ 2 e medie
rispettivamente µ1 e µ2 .
Dimostriamo che la variabile aleatoria
T =
(X − Y ) − (µ1 − µ2 )
p
,
S 1/n1 + 1/n2
(3.19)
dove S 2 è la stima combinata della varianza definita in (2.4), si distribuisce come la
variabile aleatoria tν di Student con ν = n1 + n2 − 2 gradi di libertà.
Cominciamo con l’osservare che, come conseguenza dei risultati esposti nel Paragrafo 1.4(3), la variabile aleatoria
Z=
(X − Y ) − (µ1 − µ2 )
p
σ 1/n1 + 1/n2
(3.20)
si distribuisce come la normale standard. Inoltre, la variabile aleatoria
W =
n1
n2
(n1 + n2 − 2)S 2
1 X
1 X
2
(X
−
(Yi − Y )2
X)
+
=
i
σ2
σ 2 i=1
σ 2 i=1
è la somma di due variabili aleatorie χ2 indipendenti, con (n1 − 1) ed (n2 − 1) gradi
di libertà rispettivamente. Di conseguenza, W ∼ χ2ν . Inoltre, dalla definizione della
variabile aleatoria di Student, abbiamo che
Z
(X 1 − X 2 ) − (µ1 − µ2 )
p
T =p
=
,
W/ν
S 1/n1 + 1/n2
si distribuisce come la variabile t di Student con ν gradi di libertà.
3.4.2
Test F di Fisher
Riprendiamo quanto discusso nel Paragrafo 3.2.3. In particolare, vogliamo calcolare
2
2
e Stra
, già indicati nelle formule (3.10) e (3.11)
i valori di aspettazione di Sentro
rispettivamente.
Ricordando le quantità definite in (3.6)–(3.8), abbiamo che
X j = µ + τj + j ,
nj
1 X
j :=
ij ,
nj i=1
j = 1, . . . , k.
Inoltre, le variabili ij ∼ N (0, σ 2 ) sono indipendenti per ipotesi, quindi E[j ] =
σ 2 /nj . Analogamente, avremo che
X = µ + τ + ,
nj
k
k
1 X
1 XX
nj τj , =
con τ =
ij .
N j=1
N j=1 i=1
62
G. Crasta
Poiché τj sono costanti, anche τ è una costante. Abbiamo inoltre che E[] = 0,
Var() = σ 2 /N .
2
, cominciamo
Per quanto riguarda il calcolo del valore di aspettazione di Sentro
con l’osservare che
SSentro =
nj
k X
X
2
(Xij − X j ) =
j=1 i=1
=
nj
k X
X
(ij − j )2
j=1 i=1
nj
k X
X
(2ij
− 2ij j +
2j )
=
nj
k X
X
j=1 i=1
2ij
−
j=1 i=1
k
X
nj 2j .
j=1
Poiché E[ij ] = E[j ] = 0, avremo che E[2ij ] = Var(ij ) = σ 2 e E[j ] = Var(j ) =
σ 2 /nj , da cui
k
X
σ2
N σ2 −
nj
nj
j=1
1
1
2
E[Sentro
]=
E[SSentro ] =
N −k
N −k
!
= σ2 .
Infine, dal momento che (nj − 1)Sj2 /σ 2 ∼ χ2nj −1 , avremo che
k
SSentro X (nj − 1)Sj2
=
∼ χ2N −k .
2
σ2
σ
j=1
2
, osserviamo che
Per quanto riguarda il valore di aspettazione di Stra
SStra =
k
X
2
nj (X j − X) =
j=1
=
k
X
nj (τj + j − τ − )2
j=1
k
X
nj (τj − τ )2 +
k
X
nj (j − )2 +
j=1
j=1
k
X
(3.21)
2nj (τj − τ )(j − ) .
j=1
Poiché τj , τ sono costanti e E[j ] = E[] = 0, i termini dell’ultima sommatoria
hanno tutti valore di aspettazione nullo. Abbiamo dunque che
E[SStra ] =
k
X
j=1
"
nj (τj − τ )2 + E
k
X
#
nj (j − )2 .
j=1
Osserviamo ora che
k
X
j=1
nj (j − )2 =
k
k
X
X
(nj 2j − 2nj j + nj 2 ) =
nj 2j − N 2 .
j=1
j=1
(3.22)
Appunti di Statistica
63
Poiché E[j ] = 0, abbiamo che E[2j ] = Var(j ) = σ 2 /nj ; analogamente si ha E[2 ] =
Var(2 ) = σ 2 /N e, di conseguenza,
#
" k
k
X
X
σ2
σ2
nj
−N
= (k − 1)σ 2 .
E
nj (j − )2 =
n
N
j
j=1
j=1
Sostituendo in (3.22) otteniamo che
2
E[SStra ] = (k − 1)σ +
k
X
nj (τj − τ )2 ,
j=1
da cui segue immediatamente (3.11).
Se l’ipotesi nulla è vera, cioè se τ1 = τ2 = · · · = τk = 0, segue in particolare che
2
] = σ 2 . Inoltre, in tal caso, da (3.21) si ha che
E[Stra
SStra =
k
X
nj (j − )2
(se H0 è vera).
j=1
Si può dimostrare, ma la dimostrazione non è semplice, che in questo caso SStra /σ 2 ∼
χ2k−1 .
3.5
Esercizi
Esercizio 3.1. Abbiamo due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente
tabella:
nj
xj
s2j
Gruppo 1
8
38.05
22.52
Gruppo 2
9
43.7
24.24
Stabilire se esistono differenze significative fra le medie ai livelli di significatività dell’1% e del 5%. Determinare l’intervallo di confidenza al 95% e 99% per la
differenza delle medie.
Soluzione. Ipotesi nulla H0 : µ1 = µ2
ν = 15, valori critici (test a due code): t∗0.05 = ±1.753, t∗0.01 = ±2.602.
Calcolo del consuntivo: t = −2.4 (p.value = 0.02962202).
Regioni di accettazione: RA(0.05) = (−1.753, +1.753), RA(0.01) = (−2.602, +2.602).
Intervalli di confidenza: IC(0.05) = (−10.67, −0.64), IC(0.01) = (−12.59, 1.28).
L’ipotesi nulla può essere rifiutata al livello di significatività α = 0.05, mentre non
può essere rifiutata al livello α = 0.01.
64
G. Crasta
Esercizio 3.2. Abbiamo due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente
tabella:
nj
xj
s2j
Gruppo 1
8
46.69
59.06
Gruppo 2
7
54.42
59.99
Stabilire se si può concludere che la media del primo gruppo è inferiore a quella
del secondo, ai livelli di significatività dell’1% e del 5%. Determinare l’intervallo di
confidenza al 95% e 99% per la differenza delle medie.
Soluzione. Ipotesi nulla H0 : µ1 ≥ µ2
ν = 13, valori critici (test a una coda) t∗0.05 = −1.771, t∗0.01 = −2.650.
Calcolo del consuntivo: t = −1.94 (p.value = 0.0374).
Regioni di accettazione: RA(0.05) = (−1.771, +∞), RA(0.01) = (−1.650, +∞).
Intervalli di confidenza: IC(0.05) = (−∞, −0.66), IC(0.01) = (−∞, 2.85).
L’ipotesi nulla può essere rifiutata al livello di significatività α = 0.05, mentre non
può essere rifiutata al livello α = 0.01.
Esercizio 3.3. Abbiamo tre campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente
tabella:
nj
xj
s2j
Gruppo 1
8
51.28
45.96
Gruppo 2
8
48.86
32.54
Gruppo 3
7
59.47
21.07
Stabilire se esistono differenze significative fra le medie ai livelli di significatività
dell’1% e del 5%.
Soluzione. Tabella dell’ANOVA:
d.f.
SS
S2
F
Trattamenti 2 453.93 226.96 6.715
Errore
20 675.96 33.8
∗
∗
Valori critici: f0.05
= 3.493, f0.01
= 5.849.
Consuntivo: f = 6.71 (p-value = 0.0059).
L’ipotesi nulla (cioè che le medie delle tre popolazioni siano uguali) può essere
rifiutata a entrambi i livelli di significatività.
Esercizio 3.4. Sono date le seguenti osservazioni:
x
y
46.0
38.6
58.6
45.6
51.6
43.4
71.7
40.9
52.2
38.3
35.4
36.2
49.1
34.6
32.2
37.4
47.5
36.5
54.1
45.0
Appunti di Statistica
65
Determinare la retta di regressione y = a + b x e il coefficiente di correlazione fra
x e y. Stabilire, ai livelli di significatività dell’1% e del 5%, se esiste una relazione
lineare fra x e y. Calcolare l’intervallo di confidenza per b al 95% e 99%.
Soluzione. Retta di regressione: y = a + b x, con a = 30.31, b = 0.187.
Coefficiente di correlazione: r = 0.54.
Consuntivo: tb = 1.817 (p-value = 0.107).
Intervallo di confidenza per b: IC(0.95) = (−0.05, 0.43), IC(0.99) = (−0.16, 0.53).
L’ipotesi nulla (che non ci sia alcuna relazione lineare fra le due variabili) non può
essere rifiutata né al livello di significatività α = 0.05 né (tantomeno) al livello
α = 0.01.
Esercizio 3.5. Si ha la seguente tabella di frequenze:
nj
19
30
29
22
20
14
30
10
Stabilire, con un test del Chi-quadrato di adattamento, se tali frequenze sono compatibili col fatto che gli eventi siano equiprobabili.
2∗
Soluzione. ν = 7, valori critici: χ2∗
0.05 = 14.07, χ0.01 = 18.48.
Consuntivo: L2 = 18.28 (p-value = 0.011).
L’ipotesi nulla (che gli eventi siano equiprobabili) può essere rifiutata al livello di
significatività α = 0.05, mentre non può essere rifiutata al livello di significatività
α = 0.01.
TABELLE
A – Distribuzione normale standard
Funzione di ripartizione e quantili della normale standard.
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
P (Z < x)
0.500
0.540
0.579
0.618
0.655
0.691
0.726
0.758
0.788
0.816
0.841
0.864
0.885
0.903
0.919
0.933
x
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
P (Z < x)
0.945
0.955
0.964
0.971
0.977
0.982
0.986
0.989
0.992
0.994
0.995
0.997
0.997
0.998
0.999
0.999
P (Z < x)
0.500
0.525
0.550
0.575
0.600
0.625
0.650
0.675
0.700
0.725
0.750
0.775
0.800
0.825
0.850
0.875
66
x
0.000
0.063
0.126
0.189
0.253
0.319
0.385
0.454
0.524
0.598
0.674
0.755
0.842
0.935
1.036
1.150
P (Z < x)
0.900
0.910
0.920
0.930
0.940
0.950
0.955
0.960
0.965
0.970
0.975
0.980
0.985
0.990
0.995
0.999
x
1.282
1.341
1.405
1.476
1.555
1.645
1.695
1.751
1.812
1.881
1.960
2.054
2.170
2.326
2.576
3.090
Appunti di Statistica
67
B – Distribuzione Chi-quadrato
Quantili della distribuzione χ2ν
ν
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
60
70
80
90
100
0.005
0.00
0.01
0.07
0.21
0.41
0.68
0.99
1.34
1.73
2.16
2.60
3.07
3.57
4.07
4.60
5.14
5.70
6.26
6.84
7.43
8.03
8.64
9.26
9.89
10.52
11.16
11.81
12.46
13.12
13.79
14.46
15.13
15.82
16.50
17.19
17.89
18.59
19.29
20.00
20.71
24.31
27.99
35.53
43.28
51.17
59.20
67.33
0.01
0.00
0.02
0.11
0.30
0.55
0.87
1.24
1.65
2.09
2.56
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
8.90
9.54
10.20
10.86
11.52
12.20
12.88
13.56
14.26
14.95
15.66
16.36
17.07
17.79
18.51
19.23
19.96
20.69
21.43
22.16
25.90
29.71
37.48
45.44
53.54
61.75
70.06
0.05
0.00
0.10
0.35
0.71
1.15
1.64
2.17
2.73
3.33
3.94
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71
18.49
19.28
20.07
20.87
21.66
22.47
23.27
24.07
24.88
25.70
26.51
30.61
34.76
43.19
51.74
60.39
69.13
77.93
Probabilità di valori minori
0.1
0.9
0.95
0.975
0.02
2.71
3.84
5.02
0.21
4.61
5.99
7.38
0.58
6.25
7.81
9.35
1.06
7.78
9.49
11.14
1.61
9.24
11.07
12.83
2.20
10.64
12.59
14.45
2.83
12.02
14.07
16.01
3.49
13.36
15.51
17.53
4.17
14.68
16.92
19.02
4.87
15.99
18.31
20.48
5.58
17.28
19.68
21.92
6.30
18.55
21.03
23.34
7.04
19.81
22.36
24.74
7.79
21.06
23.68
26.12
8.55
22.31
25.00
27.49
9.31
23.54
26.30
28.85
10.09
24.77
27.59
30.19
10.86
25.99
28.87
31.53
11.65
27.20
30.14
32.85
12.44
28.41
31.41
34.17
13.24
29.62
32.67
35.48
14.04
30.81
33.92
36.78
14.85
32.01
35.17
38.08
15.66
33.20
36.42
39.36
16.47
34.38
37.65
40.65
17.29
35.56
38.89
41.92
18.11
36.74
40.11
43.19
18.94
37.92
41.34
44.46
19.77
39.09
42.56
45.72
20.60
40.26
43.77
46.98
21.43
41.42
44.99
48.23
22.27
42.58
46.19
49.48
23.11
43.75
47.40
50.73
23.95
44.90
48.60
51.97
24.80
46.06
49.80
53.20
25.64
47.21
51.00
54.44
26.49
48.36
52.19
55.67
27.34
49.51
53.38
56.90
28.20
50.66
54.57
58.12
29.05
51.81
55.76
59.34
33.35
57.51
61.66
65.41
37.69
63.17
67.50
71.42
46.46
74.40
79.08
83.30
55.33
85.53
90.53
95.02
64.28
96.58
101.88
106.63
73.29
107.57
113.15
118.14
82.36
118.50
124.34
129.56
0.99
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
52.19
53.49
54.78
56.06
57.34
58.62
59.89
61.16
62.43
63.69
69.96
76.15
88.38
100.43
112.33
124.12
135.81
0.995
7.88
10.60
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00
41.40
42.80
44.18
45.56
46.93
48.29
49.64
50.99
52.34
53.67
55.00
56.33
57.65
58.96
60.27
61.58
62.88
64.18
65.48
66.77
73.17
79.49
91.95
104.21
116.32
128.30
140.17
68
G. Crasta
C – Distribuzione t di Student
Test a due code: valori critici di t corrispondenti a α = 0.05 (t0.975 ) e α = 0.01
(t0.995 ).
ν
1
2
3
4
5
6
7
8
9
10
t0.975
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
ν
11
12
13
14
15
16
17
18
19
20
t0.975
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
ν
30
40
50
60
70
80
90
100
200
1000
t0.975
2.042
2.021
2.009
2.000
1.994
1.990
1.987
1.984
1.972
1.962
ν
1
2
3
4
5
6
7
8
9
10
t0.995
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
ν
11
12
13
14
15
16
17
18
19
20
t0.995
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
ν
30
40
50
60
70
80
90
100
200
1000
t0.995
2.750
2.704
2.678
2.660
2.648
2.639
2.632
2.626
2.601
2.581
Test a una coda: valori critici di t corrispondenti a α = 0.05 (t0.95 ) e α = 0.01
(t0.99 ).
ν
1
2
3
4
5
6
7
8
9
10
t0.95
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
ν
11
12
13
14
15
16
17
18
19
20
t0.95
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
ν
30
40
50
60
70
80
90
100
200
1000
t0.95
1.697
1.684
1.676
1.671
1.667
1.664
1.662
1.660
1.653
1.646
ν
1
2
3
4
5
6
7
8
9
10
t0.99
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
ν
11
12
13
14
15
16
17
18
19
20
t0.99
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
ν
30
40
50
60
70
80
90
100
200
1000
t0.99
2.457
2.423
2.403
2.390
2.381
2.374
2.368
2.364
2.345
2.330
Appunti di Statistica
69
D – Distribuzione F di Fisher
Valori critici di F corrispondenti a α = 0.05.
νd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
νn =1
161.45
18.51
10.13
7.71
6.61
5.99
5.59
5.32
5.12
4.96
4.84
4.75
4.67
4.60
4.54
4.49
4.45
4.41
4.38
4.35
4.32
4.30
4.28
4.26
4.24
4.23
4.21
4.20
4.18
4.17
2
199.50
19.00
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.10
3.98
3.89
3.81
3.74
3.68
3.63
3.59
3.55
3.52
3.49
3.47
3.44
3.42
3.40
3.39
3.37
3.35
3.34
3.33
3.32
3
215.71
19.16
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
3.59
3.49
3.41
3.34
3.29
3.24
3.20
3.16
3.13
3.10
3.07
3.05
3.03
3.01
2.99
2.98
2.96
2.95
2.93
2.92
4
224.58
19.25
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
3.36
3.26
3.18
3.11
3.06
3.01
2.96
2.93
2.90
2.87
2.84
2.82
2.80
2.78
2.76
2.74
2.73
2.71
2.70
2.69
5
230.16
19.30
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
3.20
3.11
3.03
2.96
2.90
2.85
2.81
2.77
2.74
2.71
2.68
2.66
2.64
2.62
2.60
2.59
2.57
2.56
2.55
2.53
6
233.99
19.33
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
3.09
3.00
2.92
2.85
2.79
2.74
2.70
2.66
2.63
2.60
2.57
2.55
2.53
2.51
2.49
2.47
2.46
2.45
2.43
2.42
7
236.77
19.35
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14
3.01
2.91
2.83
2.76
2.71
2.66
2.61
2.58
2.54
2.51
2.49
2.46
2.44
2.42
2.40
2.39
2.37
2.36
2.35
2.33
8
238.88
19.37
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
2.95
2.85
2.77
2.70
2.64
2.59
2.55
2.51
2.48
2.45
2.42
2.40
2.37
2.36
2.34
2.32
2.31
2.29
2.28
2.27
9
240.54
19.38
8.81
6.00
4.77
4.10
3.68
3.39
3.18
3.02
2.90
2.80
2.71
2.65
2.59
2.54
2.49
2.46
2.42
2.39
2.37
2.34
2.32
2.30
2.28
2.27
2.25
2.24
2.22
2.21
10
241.88
19.40
8.79
5.96
4.74
4.06
3.64
3.35
3.14
2.98
2.85
2.75
2.67
2.60
2.54
2.49
2.45
2.41
2.38
2.35
2.32
2.30
2.27
2.25
2.24
2.22
2.20
2.19
2.18
2.16
15
245.95
19.43
8.70
5.86
4.62
3.94
3.51
3.22
3.01
2.85
2.72
2.62
2.53
2.46
2.40
2.35
2.31
2.27
2.23
2.20
2.18
2.15
2.13
2.11
2.09
2.07
2.06
2.04
2.03
2.01
20
248.01
19.45
8.66
5.80
4.56
3.87
3.44
3.15
2.94
2.77
2.65
2.54
2.46
2.39
2.33
2.28
2.23
2.19
2.16
2.12
2.10
2.07
2.05
2.03
2.01
1.99
1.97
1.96
1.94
1.93
Valori critici di F corrispondenti a α = 0.01.
νd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
νn =1
4052.2
98.50
34.12
21.20
16.26
13.75
12.25
11.26
10.56
10.04
9.65
9.33
9.07
8.86
8.68
8.53
8.40
8.29
8.18
8.10
8.02
7.95
7.88
7.82
7.77
7.72
7.68
7.64
7.60
7.56
2
4999.5
99.00
30.82
18.00
13.27
10.92
9.55
8.65
8.02
7.56
7.21
6.93
6.70
6.51
6.36
6.23
6.11
6.01
5.93
5.85
5.78
5.72
5.66
5.61
5.57
5.53
5.49
5.45
5.42
5.39
3
5403.3
99.17
29.46
16.69
12.06
9.78
8.45
7.59
6.99
6.55
6.22
5.95
5.74
5.56
5.42
5.29
5.18
5.09
5.01
4.94
4.87
4.82
4.76
4.72
4.68
4.64
4.60
4.57
4.54
4.51
4
5624.6
99.25
28.71
15.98
11.39
9.15
7.85
7.01
6.42
5.99
5.67
5.41
5.21
5.04
4.89
4.77
4.67
4.58
4.50
4.43
4.37
4.31
4.26
4.22
4.18
4.14
4.11
4.07
4.04
4.02
5
5763.65
99.30
28.24
15.52
10.97
8.75
7.46
6.63
6.06
5.64
5.32
5.06
4.86
4.69
4.56
4.44
4.34
4.25
4.17
4.10
4.04
3.99
3.94
3.90
3.85
3.82
3.78
3.75
3.73
3.70
6
5859.0
99.33
27.91
15.21
10.67
8.47
7.19
6.37
5.80
5.39
5.07
4.82
4.62
4.46
4.32
4.20
4.10
4.01
3.94
3.87
3.81
3.76
3.71
3.67
3.63
3.59
3.56
3.53
3.50
3.47
7
5928.4
99.36
27.67
14.98
10.46
8.26
6.99
6.18
5.61
5.20
4.89
4.64
4.44
4.28
4.14
4.03
3.93
3.84
3.77
3.70
3.64
3.59
3.54
3.50
3.46
3.42
3.39
3.36
3.33
3.30
8
5981.1
99.37
27.49
14.80
10.29
8.10
6.84
6.03
5.47
5.06
4.74
4.50
4.30
4.14
4.00
3.89
3.79
3.71
3.63
3.56
3.51
3.45
3.41
3.36
3.32
3.29
3.26
3.23
3.20
3.17
9
6022.5
99.39
27.35
14.66
10.16
7.98
6.72
5.91
5.35
4.94
4.63
4.39
4.19
4.03
3.89
3.78
3.68
3.60
3.52
3.46
3.40
3.35
3.30
3.26
3.22
3.18
3.15
3.12
3.09
3.07
10
6055.8
99.40
27.23
14.55
10.05
7.87
6.62
5.81
5.26
4.85
4.54
4.30
4.10
3.94
3.80
3.69
3.59
3.51
3.43
3.37
3.31
3.26
3.21
3.17
3.13
3.09
3.06
3.03
3.00
2.98
15
6157.3
99.43
26.87
14.20
9.72
7.56
6.31
5.52
4.96
4.56
4.25
4.01
3.82
3.66
3.52
3.41
3.31
3.23
3.15
3.09
3.03
2.98
2.93
2.89
2.85
2.81
2.78
2.75
2.73
2.70
20
6208.7
99.45
26.69
14.02
9.55
7.40
6.16
5.36
4.81
4.41
4.10
3.86
3.66
3.51
3.37
3.26
3.16
3.08
3.00
2.94
2.88
2.83
2.78
2.74
2.70
2.66
2.63
2.60
2.57
2.55