APPUNTI DI STATISTICA Graziano Crasta Dipartimento di Matematica, Sapienza Università di Roma Note per il corso di Calcolo e Biostatistica Corso di Laurea in Biotecnologie Agro–Industriali, a.a. 2013/2014 (versione del 2 dicembre 2013) INDICE 1 Probabilità 1.1 Definizione assiomatica di probabilità . . . . 1.2 Variabili aleatorie . . . . . . . . . . . . . . . 1.2.1 Variabili aleatorie discrete . . . . . . 1.2.2 Variabili aleatorie continue . . . . . . 1.3 Legge dei grandi numeri e teorema del limite 1.4 Complementi sulle variabili aleatorie . . . . 1.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . centrale . . . . . . . . . . 2 Statistica descrittiva e inferenziale 2.1 Statistica descrittiva . . . . . . . . . . . . . . 2.1.1 Rappresentazione dei dati . . . . . . . 2.1.2 Indici di posizione e di dispersione . . . 2.2 Popolazioni, campioni, stimatori . . . . . . . . 2.3 Intervalli di confidenza . . . . . . . . . . . . . 2.3.1 Intervalli di confidenza per la media . . 2.3.2 Intervalli di confidenza per la differenza 2.4 Esercizi . . . . . . . . . . . . . . . . . . . . . 3 Test di ipotesi 3.1 Test di ipotesi sulla media . . . . . . . . . . 3.2 Confronto di medie fra gruppi . . . . . . . . 3.2.1 Confronto fra le medie di due gruppi 3.2.2 Test t per dati appaiati . . . . . . . . 3.2.3 Confronto fra le medie di più gruppi 3.3 Verifica di relazione tra variabili . . . . . . . 3.3.1 Regressione lineare . . . . . . . . . . 3.3.2 Test del chi-quadrato di adattamento i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . di due . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 4 10 11 19 21 22 . . . . . . . . . . . . . . . . . . . . . . . . medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 24 24 25 26 28 28 31 34 . . . . . . . . 35 37 41 41 48 48 53 53 58 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3.4 3.5 Complementi . . . . . . 3.4.1 Test t di Student 3.4.2 Test F di Fisher . Esercizi . . . . . . . . . . . . . . . . . . . . . Tabelle A – Distribuzione normale standard B – Distribuzione Chi-quadrato . . C – Distribuzione t di Student . . . D – Distribuzione F di Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 60 61 63 . . . . 66 66 67 68 69 CAPITOLO 1 PROBABILITÀ In questo capitolo introdurremo gli strumenti matematici di base necessari per la modellizzazione di eventi aleatori, vale a dire di fenomeni il cui esito è incerto. Ad esempio, quando lanciamo un dato non sappiamo a priori quale numero uscirà; tutto ciò che possiamo dire è che il risultato del nostro esperimento sarà un numero intero fra 1 e 6. Nonostante questa incertezza sull’esito del singolo evento, l’esperienza mostra però una certa prevedibilità della legge che descrive gli esiti ottenuti ripetendo l’esperimento medesimo un gran numero di volte. Tornando al nostro dado, sappiamo che se lo lanciamo un gran numero di volte e annotiamo i risultati dei lanci, ciascuno dei punteggi da 1 a 6 uscirà circa 1/6 delle volte. Dopo aver brevemente illustrato le nozioni di spazio campionario e di misura di probabilità, introdurremo il concetto di variabile aleatoria, che servirà a rappresentare l’esito di un evento casuale. Descriveremo poi le principali variabili aleatorie utilizzate in statistica. 1.1 Definizione assiomatica di probabilità Si definisce spazio campionario (o spazio dei campioni) l’insieme S contenente tutti i possibili risultati di un esperimento casuale. Si chiama evento un sottoinsieme E di S. Esempio 1.1.1. Supponiamo che il nostro esperimento consista nel lanciare due volte una moneta; lo spazio campionario sarà S = {T T, CC, T C, CT } (1.1) dove, ad esempio, T C indica che al primo lancio è uscita testa e al secondo lancio croce. L’evento “esce una sola testa” è rappresentato dall’insieme E = {T C, CT } ⊆ S. 2 Appunti di Statistica 3 Si parla di evento certo se E = S, evento impossibile se E = ∅; inoltre, due eventi A e B si dicono incompatibili (o mutuamente esclusivi) se A ∩ B = ∅. Lo spazio campionario può essere finito (come nel precedente esempio) oppure infinito. Sia S uno spazio campionario finito, e indichiamo con M l’insieme delle parti di S, vale a dire la famiglia di tutti i sottoinsiemi di S (inclusi l’insieme vuoto e S stesso). Definizione 1.1.2. Si dice probabilità (o misura di probabilità) su S una funzione P : M → R tale che (a) 0 ≤ P (A) ≤ 1 per ogni A ∈ M; (b) P (S) = 1; (c) se A, B ∈ M e A ∩ B = ∅, allora P (A ∪ B) = P (A) + P (B). Da queste proprietà segue che, se A ∈ M e AC = S \ A è il suo complementare, allora 1 = P (S) = P (A ∪ AC ) = P (A) + P (AC ), cioè P (AC ) = 1 − P (A). In particolare P (∅) = 1 − P (S) = 0. Inoltre si verifica facilmente che la proprietà (c) può essere estesa ad una famiglia finita di insiemi A1 , . . . An ∈ M a due a due disgiunti: P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + . . . + P (An ), se Ai ∩ Aj = ∅ ∀i 6= j. Esempio 1.1.3. Riprendiamo l’Esempio 1.1.1. In questo caso abbiamo M = ∅, {T T }, {CC}, {T C}, {CT }, {T T, CC}, {T T, T C}, {T T, CT }, {CC, T C}, {CC, CT }, {T C, CT }, {T T, CC, T C}, {T T, CC, CT }, {CC, T C, CT }, {T T, T C, CT }, {T T, CC, T C, CT } . A ciascuno dei 16 elementi di M è possibile associare una probabilità; se partiamo dall’ipotesi che gli eventi elementari {T T }, {CC}, {T C}, {CT } siano equiprobabili, cioè 1 P ({T T }) = P ({CC}) = P ({T C}) = P ({CT }) = , 4 possiamo calcolare, utilizzando le proprietà (a), (b), (c), la probabilità di qualsiasi evento in M. Ad esempio P ({T T, CC, T C}) = P ({T T }) + P ({CC}) + P ({T C}) = 3 . 4 4 G. Crasta L’estensione del concetto di probabilità a spazi campionari infiniti presenta diverse difficoltà che non possono essere affrontate in questa sede. In generale la funzione P non può essere definita su tutto l’insieme delle parti di S, ma solo su un suo sottoinsieme, che continueremo a denotare con M, avente le seguenti proprietà: (i) S ∈ M; (ii) se A ∈ M, allora anche AC ∈ M; (iii) se (An )n∈N è una famiglia numerabile di elementi di M, allora anche la loro unione appartiene a M. (Una famiglia M avente queste proprietà è detta σ-algebra su S.) Definizione 1.1.4. Data una famiglia M di sottoinsiemi di S soddisfacenti le proprietà (i), (ii) e (iii), si dice misura di probabilità su M una funzione P : M → R tale che (a) 0 ≤ P (A) ≤ 1 per ogni A ∈ M; (b) P (S) = 1; (c) se (An )n∈N è una famiglia numerabile di elementi di M, a due a due disgiunti, allora ! ∞ ∞ X [ P (An ) . P An = n=1 n=1 La terna (S, M, P ) è detta spazio di probabilità. 1.2 Variabili aleatorie Dato un certo spazio campionario S, una variabile aleatoria (o variabile casuale, in inglese random variable) è una funzione X : S → R. Una variabile aleatoria rappresenta, intuitivamente, il risultato numerico attribuito ad un esperimento casuale. Riprendiamo l’Esempio 1.1.1, con lo spazio campionario S definito in (1.1). Consideriamo la variabile aleatoria X = numero di teste. Ad ogni elemento ω ∈ S possiamo associare un numero X(ω) che rappresenta il numero di teste dell’evento ω. Nel nostro caso, X(T T ) = 2, X(T C) = 1, X(CT ) = 1, X(CC) = 0. Parleremo di variabile aleatoria discreta quando X può assumere solo un numero finito (o numerabile) di valori distinti, mentre la variabile aleatoria si dirà continua Appunti di Statistica 5 in caso contrario. Tornando al nostro esempio, X è una variabile aleatoria discreta (può assumere solo i valori 0, 1 o 2). Assumiamo ora che sullo spazio campionario S sia definita una misura di probabilità P . Definizione 1.2.1. Sia X : S → R una variabile aleatoria. La funzione F : R → R definita da F (x) := P (X ≤ x), x ∈ R, è detta funzione di ripartizione o funzione di distribuzione di X. Diremo che due variabili aleatorie X e Y hanno la stessa legge, e scriveremo X ∼ Y , se le rispettive funzione di ripartizione sono uguali. Nel seguito saremo interessati prevalentemente a due classi particolari di variabili aleatorie X : S → R: (D) variabili aleatorie discrete che assumano solo un numero finito di valori distinti x1 , . . . , xn ; in questo caso indicheremo con P (X = xj ) la probabilità che X assuma il valore xj , j = 1, . . . , n; la funzione che a j ∈ {1, . . . , n} associa P (X = xj ) è detta densità di probabilità della variabile aleatoria; (C) variabili aleatorie continue per le quali esista una funzione f : R → R, detta densità di probabilità, tale che Z b f (x) dx, ∀a, b ∈ R, a ≤ b. P (a < X < b) = a Chiaramente, se la variabile aleatoria discreta X è di tipo (D) e assume solo i valori x1 , . . . , xn , si dovrà avere n X 0 ≤ P (X = xi ) ≤ 1, ∀i = 1, . . . , n, P (X = xi ) = 1. i=1 La funzione di ripartizione può essere espressa come X F (x) := P (X ≤ x) = P (X = xi ), x ∈ R. xi ≤x Esempio 1.2.2. Nello spazio di probabilità (S, M, P ) dell’Esempio 1.1.3 consideriamo la variabile aleatoria X = numero di teste. Si verifica immediatamente che 0, se x < 0, 1/4, se 0 ≤ x < 1, F (x) = 3/4, se 1 ≤ x < 2, 1, se 2 ≤ x. 6 G. Crasta Ad esempio, F (1.4) = P (X ≤ 1.4) = P (X = 0) + P (X = 1) = 1 1 3 + = . 4 2 4 In generale la funzione di ripartizione di una variabile aleatoria di tipo (D) che assume valori x1 < x2 < . . . < xn è una funzione monotona non decrescente, costante a tratti, nulla per x < x1 e che vale 1 per x ≥ xn . F(x) = P(X < x) P(a < X < b) a x b Figura 1.1: P (a < X < b) e funzione di ripartizione Nel caso invece di una variabile aleatoria continua di tipo (C), la densità f dovrà essere una funzione non negativa, tale che il suo integrale generalizzato sulla retta reale sia pari a 1, cioè Z +∞ Z a f ≥ 0, f (t) dt = lim f (t)dt = 1. −∞ a→+∞ −a Geometricamente, la probabilità P (a < X < b) è data dunque dall’area della regione ombreggiata in Figura 1.1 a sinistra. Inoltre, la funzione di ripartizione in questo caso è data da Z x F (x) := P (X ≤ x) = f (t) dt , (1.2) −∞ che geometricamente reppresenta dall’area della regione ombreggiata in Figura 1.1 a destra. Poiché f ≥ 0, avremo che la funzione di ripartizione è monotona non decrescente; si ha inoltre lim F (x) = 0, x→−∞ lim F (x) = 1. x→+∞ È chiaro che due variabili aleatorie X e Y di tipo (C) hanno la stessa legge se e solo se hanno la stessa densità di probabilità. Appunti di Statistica 7 Definizione 1.2.3 (quantile). Per ogni p ∈ (0, 1), il numero x ∈ R tale che F (x) = p è detto quantile di ordine p della distribuzione. In altre parole, il quantile di ordine p è quel numero reale x tale che l’area della regione ombreggiata in Figura 1.1 a destra valga p. Definizione 1.2.4 (valore atteso). Se X : S → R è una variabile aleatoria discreta che assume solo i valori x1 , . . . , xn , si definisce valore atteso (o valor medio o speranza matematica) la quantità E[X] := n X xi · P (X = xi ). (1.3) i=1 Se invece X è una variabile aleatoria continua con densità di probabilità f , si definisce valore atteso la quantità Z +∞ xf (x) dx. (1.4) E[X] := −∞ Spesso il valore atteso della variabile aleatoria X viene indicato anche con hXi. Esempio 1.2.5. Nello spazio di probabilità (S, M, P ) dell’Esempio 1.1.3 consideriamo la variabile aleatoria X = numero di teste. Avremo che 1 1 1 E[X] = 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2) = 0 · + 1 · + 2 · = 1. 4 2 2 Ciò è in accordo con l’evidenza sperimentale: se infatti ripetiamo un gran numero di volte l’esperimento di lanciare due volte una moneta, ci aspettiamo che in media esca una volta testa per ogni coppia di lanci. Definiamo ora una quantità che ci fornisce un’indicazione di quanto i risultati dell’esperimento si discostino dal loro valore atteso. Definizione 1.2.6. (varianza e deviazione standard) Si dice varianza di una variabile aleatoria X la quantità Var(X) := E[(X − E[X])2 ] . La radice quadrata della varianza è detta deviazione standard o scarto quadratico medio. 8 G. Crasta Osserviamo che, per una variabile aleatoria discreta di tipo (D) si ha che Var(X) = n X (xi − µ)2 P (X = xi ) (1.5) i=1 mentre, per una variabile aleatoria continua di tipo (C), si ha Z +∞ Var(X) = (x − µ)2 f (x) dx. (1.6) −∞ Esempio 1.2.7. Lo spazio campionario associato al lancio di un dado è S = {1, 2, 3, 4, 5, 6} su cui è definita una misura di probabilità P caratterizzata da P (1) = P (2) = P (3) = P (4) = P (5) = P (6) = 1/6. Consideriamo la variabile aleatoria X = punteggio del dado. Avremo che: E[X] = 6 X k=1 k · P (X = k) = 3.5, Var(X) = 6 X (k − E[X])2 · P (X = k) ' 2.917. k=1 Definizione 1.2.8. Le variabili aleatorie X1 , . . . , Xn si dicono indipendenti se, per ogni scelta di intervalli I1 , . . . , In , si ha P (X1 ∈ I1 , . . . , Xn ∈ In ) = P (X1 ∈ I1 ) · · · P (Xn ∈ In ). (Il termine a primo membro indica la probabilità che si abbia, contemporaneamente, X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In .) In altri termini, gli eventi {X1 ∈ I1 }, . . . , {Xn ∈ In } sono indipendenti se la probabilità che accada uno di essi non dipende dal fatto di sapere qualche cosa legata agli altri eventi (se sono accaduti, se non sono accaduti, o non sapendo nulla). Supponiamo, ad esempio, di ripetere n volte il lancio di un dado e di indicare con Xi il punteggio ottenuto all’i-esimo lancio. È chiaro che il punteggio ottenuto ad ogni lancio è indipendente (cioè non è influenzato) dal punteggio ottenuto negli altri lanci; le variabili aleatorie X1 , . . . , Xn sono dunque indipendenti. Appunti di Statistica 9 Teorema 1.2.9. Siano X1 , . . . , Xn variabili aleatorie e c1 , . . . , cn ∈ R delle costanti. Allora: (i) E[c1 X1 + . . . + cn Xn ] = c1 E[X1 ] + . . . + cn E[Xn ]; (ii) E[X1 + c1 ] = E[X1 ] + c1 , Var(X1 + c1 ) = Var(X1 ); (iii) se, in aggiunta, le variabili sono indipendenti, Var(c1 X1 + . . . + cn Xn ) = c21 Var(X1 ) + . . . + c2n Var(Xn ). Osservazione 1.2.10 (Standardizzazione). Data una variabile aleatoria X, è spesso utile operare una trasformazione per ottenere, a partire da X, una variabile aleatoria di valore atteso 0 e varianza 1. Tale trasformazione è detta di standardizzazione, ed è definita da X − E[X] Y := p . Var(X) Usando infatti le proprietà enunciate nel Teorema 1.2.9 abbiamo che 1 E[Y ] = p (E[X] − E[X]) = 0, Var(X) Var(Y ) = 1 Var(X) = 1. Var(X) Anticipiamo qui la nozione di campione, che vedremo più in dettaglio nel Paragrafo 2.2: un campione (di ampiezza n) per un fenomeno casuale X (o per una popolazione con legge casuale X) è una n-pla X1 , . . . , Xn di osservazioni indipendenti e tutte con la stessa legge: X1 ∼ X, . . . , Xn ∼ X. Si definiscono media campionaria e varianza campionaria le variabili aleatorie X = Mn := S 2 := 1 n−1 X1 + . . . + Xn , n n X 2 Xi − X . (1.7) (1.8) i=1 Se il campione è estratto da una popolazione di media µ e varianza σ 2 , dalle proprietà elencate nel Teorema 1.2.9 segue che n 1X E[X] = E[Xi ] = µ, n i=1 Var(X) = n 1 X σ2 Var(X ) = . i n2 i=1 n (1.9) (1.10) 10 1.2.1 G. Crasta Variabili aleatorie discrete In questo paragrafo descriveremo brevemente le principali variabili aleatorie discrete. Variabile aleatoria di Bernoulli. Assume solo i due valori 1 e 0, con probabilità rispettivamente p e 1 − p, con 0 ≤ p ≤ 1. In genere, il valore X = 1 è detto successo, mentre il valore X = 0 è detto insuccesso. Per indicare che X è una variabile aleatoria di Bernoulli con probabilità di successo p scriveremo X ∼ Ber(p). Usando le formule (1.3) e (1.5) abbiamo che E(X) = 0 · P (X = 0) + 1 · P (X = 1) = p, Var(X) = (0 − p)2 · P (X = 0) + (1 − p)2 · P (X = 1) = p(1 − p) . Variabile aleatoria Binomiale. Si chiama esperimento Bernoulliano un esperimento casuale che consiste in un insieme di prove ripetute, ciascuna delle quali è descritta da una variabile aleatoria di Bernoulli Xi ∈ Ber(p), dove p è lo stesso per tutte le prove, e tali che i risultati delle prove siano indipendenti. Se ripetiamo n volte l’esperimento casuale, vogliamo determinare la probabilità di ottenere k successi. La variabile aleatoria che conta il numero di successi in n prove (la cui probabilità di successo è p) si chiama Binomiale, e si scrive X ∼ Bin(n, p). Si può dimostrare che, se X ∼ Bin(n, p), allora n P (X = k) = pk (1 − p)n−k , k = 0, 1, . . . , n, (1.11) k dove n(n − 1) · · · (n − k + 1) n! n = = k k!(n − k)! k(k − 1) · · · 2 · 1 è chiamato coefficiente binomiale. Si può verificare, direttamente o facendo uso delle proprietà riassunte nel Teorema 1.2.9, che E(X) = n p, Var(X) = n p(1 − p) . Esercizio 1.2.11. Dimostrare la formula (1.11). Svolgimento. Indichiamo con una stringa di n simboli 0 o 1 il risultato degli n esperimenti Bernoulliani. Ciascuna di queste stringhe in cui compaiano esattamente k simboli 1 (e dunque n − k simboli 0) ha probabilità pk (1 − p)n−k di verificarsi. Per dimostrare (1.11) basta dunque osservare che il numero di tali stringhe è dato da n . k Variabile aleatoria di Poisson. Viene utilizzata per descrivere in maniera approssimata processi di Bernoulli con eventi rari, cioè con probabilità di successo Appunti di Statistica 11 molto piccola. Più precisamente, si può dimostrare che se p è vicino a zero e se n p = λ > 0 (con n grande), allora si ha approssimativamente λk e−λ , k = 0, 1, 2, . . . k! Una variabile aleatoria X avente la densità di probabilità data a secondo membro è detta variabile aleatoria di Poisson di parametro λ > 0 e viene indicata con X ∼ Poi(λ). Si può dimostrare che P (X = k) ' E(X) = λ, Var(X) = λ. Esempio 1.2.12. La probabilità di centrare un bersaglio è p = 0.001 per ogni colpo. Trovare la probabilità di centrare un bersaglio con due o più pallottole se il numero di colpi sparati è n = 5000. In questo caso p è molto piccolo ed n è grande. Posto λ = n p = 5, e se X ∼ Poi(λ), la probabilità cercata vale approssimativamente P (X ≥ 2) = 1−P (X < 2) = 1−P (X = 0)−P (X = 1) = 1−e−5 −5 e−5 ' 0.95957 . (Il calcolo esatto facendo uso della distribuzione binomiale fornisce 0.95964.) 1.2.2 Variabili aleatorie continue In questa sezione descriveremo le principali variabili aleatorie continue. Variabile aleatoria uniforme. Se [a, b] è un intervallo limitato, si dice variabile aleatoria uniforme la variabile aleatoria avente densità di probabilità costante in [a, b] e nulla fuori, cioè f (x) = 1/(b − a) se x ∈ [a, b], f (x) = 0 se x 6∈ [a, b]. Variabile aleatoria esponenziale. Ha densità f (x) = λ e−λ x se x ≥ 0, f (x) = 0 se x < 0, dove λ > 0 è un parametro. Si può dimostrare che, se X è una variabile aleatoria esponenziale di parametro λ, allora E(X) = 1/λ, Var(X) = 1/λ2 . Esempio 1.2.13. La variabile aleatoria T che descrive il tempo di decadimento di un isotopo radioattivo è di tipo esponenziale; la probabilità che un atomo decada nell’intervallo di tempo [0, t] è dunque data da Z t λ e−λ x dx = 1 − e−λt . P (0 ≤ T ≤ t) = 0 Se al tempo iniziale t = 0 abbiamo un numero (elevato) N0 di atomi radioattivi, il numero di atomi decaduti al tempo t ≥ 0 sarà dato da N0 · P (0 ≤ T ≤ t), per cui il numero N (t) di atomi non ancora decaduti al tempo t ≥ 0 sarà N (t) = N0 − N0 · P (0 ≤ T ≤ t) = N0 e−λt . D’altra parte, i modelli deterministici (basati su equazioni differenziali) prevedono che N (t) = N0 e−(t log 2)/τ , dove τ è il tempo di dimezzamento. Dal confronto delle due espressioni deduciamo dunque che λ = (log 2)/τ . 12 G. Crasta Variabile aleatoria normale (o Gaussiana). È sicuramente la distribuzione di probabilità più importante in statistica. La variabile aleatoria normale standard, denotata con Z ∼ N (0, 1), ha densità x ∈ R. 0.2 0.0 0.1 dnorm(x, 0, 1) 0.3 0.4 1 2 f (x) = √ e−x /2 , 2π −4 −2 0 2 4 Figura 1.2: Densità della variabile normale standard Z ∼ N (0, 1) Si può dimostrare che E(Z) = 0 e Var(Z) = 1. In generale, si dice variabile aleatoria normale una variabile aleatoria X avente densità del tipo (x−µ)2 1 f (x) = √ e− 2σ2 , σ 2π x ∈ R, (1.12) dove µ ∈ R e σ > 0 sono due parametri. Scriveremo X ∼ N (µ, σ 2 ) per indicare una variabile aleatoria con densità di probabilità data da (1.12). Il significato dei parametri µ e σ è presto detto: si può infatti verificare che E(X) = µ, Var(X) = σ 2 (si veda l’Esercizio 1.2). La dipendenza di f dai parametri µ e σ è mostrata in Figura 1.3. Una variazione di µ (a σ fissata) si traduce in una traslazione del grafico lungo l’asse x. Al crescere di σ, invece, la distribuzione si appiattisce (è più dispersa). I valori della funzione di ripartizione P (Z < x) della variabile normale standard Z ∼ N (0, 1) sono tabulati su qualsiasi testo di statistica (si veda la Tabella 1.1). Per simmetria, è sufficiente tabulare la funzione solo per x ≥ 0, in quanto P (Z < x) = 1 − P (Z < −x). Quando si ha una variabile gaussiana X ∼ N (µ, σ 2 ), per poter utilizzare i valori tabulati ci si riconduce ad una variabile normale standard tramite l’operazione di standardizzazione Z= X −µ ∼ N (0, 1) σ 13 0.4 0.4 Appunti di Statistica 0.2 0.2 σ=1 σ=2 −6 −4 −2 µ=2 0 2 0.0 0.0 µ = −3 4 6 −4 −2 0 2 4 P (Z < x ) 0.3 P (Z < x) 0.945 0.955 0.964 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.997 0.997 0.998 0.999 0.999 0.2 x 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 0.1 P (Z < x) 0.500 0.540 0.579 0.618 0.655 0.691 0.726 0.758 0.788 0.816 0.841 0.864 0.885 0.903 0.919 0.933 x 0.0 x 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 0.4 Figura 1.3: Densità gaussiana al variare di µ e σ −4 −2 0 2 4 Tabella 1.1: Funzione di ripartizione della normale standard (si veda l’Osservazione 1.2.10). È chiaro che, essendo X = µ + σ Z, la probabilità P (a < X < b), con −∞ ≤ a < b ≤ +∞, può essere calcolata dai valori tabulati della funzione di ripartizione di Z osservando che a<X<b ⇐⇒ a < µ+σZ < b ⇐⇒ a−µ b−µ <Z< . σ σ Per determinare le probabilità richieste è posso essere d’aiuto le seguenti identità, che si dimostrano immediatamente tenendo conto della simmetria della distribuzione normale: P (Z < −x) = 1 − P (Z < x), x ∈ R, P (|Z| < x) = P (Z < x) − P (Z < −x) = 2P (Z < x) − 1, x ≥ 0, P (|Z| > x) = 1 − P (|Z| ≤ x) = 2[1 − P (Z ≤ x)], x ≥ 0. (1.13) 14 G. Crasta Analoghe relazioni valgono per qualsiasi variabile aleatoria con densità di probabilità simmetrica (come ad esempio la variabile t di Student che vedremo fra poco). Esercizio 1.2.14. Sia X ∼ N (7, 4) una variabile aleatoria normale di media 7 e varianza 4. Si calcoli P (3 < X < 9). Svolgimento. Abbiamo che X è una variabile aleatoria normale con µ = 7 e σ = √ 4 = 2. Utilizzando la variabile standardizzata Z = (X − 7)/2, dobbiamo calcolare la probabilità P (−2 < Z < 1). Abbiamo che P (−2 < Z < 1) = P (Z < 1) − P (Z < −2) = P (Z < 1) − [1 − P (Z < 2)] = P (Z < 1) + P (Z < 2) − 1. Utilizzando la Tabella 1.1 si ha P (Z < 1) = 0.841, P (Z < 2) = 0.977, quindi P (−2 < Z < 1) = 0.818. Esercizio 1.2.15. Sia X ∼ N (15, 25) una variabile aleatoria normale di media 15 e varianza 25. Calcolare P (X < 7.5). Svolgimento. Utilizzando la variabile standardizzata Z = (X − 15)/5 si ha P (X < 7.5) = P (Z < (7.5 − 15)/5) = P (Z < −1.5) = 1 − P (Z < 1.5) . Sulla tabella della distribuzione normale standard si trova P (Z < 1.5) = 0.933. Di conseguenza, P (X < 7.5) = 0.067. Sia X ∼ N (µ, σ 2 ). In seguito utilizzeremo spesso le probabilità P (µ − σ < X < µ + σ) = P (−1 < Z < 1) = 2 P (Z < 1) − 1 ' 0.683, P (µ − 2σ < X < µ + 2σ) = P (−2 < Z < 2) = 2 P (Z < 2) − 1 ' 0.956, P (µ − 3σ < X < µ + 3σ) = P (−3 < Z < 3) = 2 P (Z < 3) − 1 ' 0.997. È istruttivo osservare che il 95.6% della probabilità che si realizzi un evento gaussiano è compresa entro due deviazioni standard dalla media, mentre la probabilità che l’evento si realizzi ad oltre tre deviazioni standard è praticamente nulla (inferiore allo 0.3%). Il problema inverso rispetto a quello del calcolo delle aree è il seguente. Dato un numero 0 ≤ p ≤ 1, vogliamo determinare un numero z ∈ R tale che P (Z < z) = p. Come abbiamo già detto nella Definizione 1.2.1, un tale valore di z è detto quantile di ordine p della distribuzione normale standard; i principali quantili sono tabulati nella Tabella 1.2. Spesso, dato p ∈ (0, 1), siamo interessati a determinare z > 0 tale che P (|Z| < z) = P (−z < Z < z) = p, oppure P (|Z| > z) = p. Tenendo conto delle identità (1.13), avremo che 1+p , P (|Z| < z) = p ⇐⇒ P (Z < z) = 2 p P (|Z| > z) = p ⇐⇒ P (Z < z) = 1 − . 2 Appunti di Statistica P (Z < x) 0.500 0.600 0.700 0.800 0.900 0.910 0.920 0.930 0.940 0.950 x 0.000 0.253 0.524 0.842 1.282 1.341 1.405 1.476 1.555 1.645 P (Z < x) 0.955 0.960 0.965 0.970 0.975 0.980 0.985 0.990 0.995 0.999 15 x 1.695 1.751 1.812 1.881 1.960 2.054 2.170 2.326 2.576 3.090 Tabella 1.2: Quantili della distribuzione normale standard Esercizio 1.2.16. Calcolare z > 0 tale che P (|Z| < z) = 0.99. Svolgimento. Per quanto detto sopra, abbiamo che P (|Z| < z) = 0.99 se e solo se P (Z < z) = (1 + 0.99)/2 = 0.995. Dalla Tabella 1.2 ricaviamo che z = 2.576. Concludiamo la discussione sulla variabile normale osservando che essa può essere ottenuta come limite della variabile aleatoria binomiale. Più precisamente, se X ∼ Bin(n, p), con 0 < p < 1 ed n sufficientemente grande, allora la variabile X − np p ' N (0, 1) n p (1 − p) (1.14) si distribuisce approssimativamente come la variabile aleatoria normale standard. (Come regola empirica, per avere una buona approssimazione basta che n p > 5 e n(1 − p) > 5.) Esempio 1.2.17. Calcolare la probabilità che in n = 1000 lanci di una moneta si ottengano fra le 470 e le 520 teste. Il processo aleatorio è descritto dalla variabile aleatoria X ∼ Bin(1000, 0.5). La probabilità richiesta è data da 520 1 X 1000 . (1.15) P (470 ≤ X ≤ 520) = 1000 k 2 k=470 È chiaro che eseguire il calcolo esatto (senza l’ausilio di un calcolatore) è un compito improbo. Utilizziamo l’approssimazione (1.14). Abbiamo che X − 500 √ ' Z ∼ N (0, 1) . 250 Di conseguenza 470 − 500 520 − 500 √ P (470 ≤ X ≤ 520) ' P ≤Z≤ √ 250 250 = P (−1.897 < Z < 1.265) = 0.868. 16 G. Crasta Usando un software statistico1 si può calcolare il valore esatto dato da (1.15), che è circa 0.8757779. Osserviamo che c’è una certa discrepanza fra il valore esatto e il valore approssimato 0.868. In realtà questo è dovuto al fatto che è opportuno fare la seguente correzione. Poiché il numero di teste è intero, è più corretta l’approssimazione (nota come correzione di Yates) 469.5 − 500 520.5 − 500 √ √ P (470 ≤ X ≤ 520) ' P ≤Z≤ 250 250 = P (−1.929 < Z < 1.296) = 0.876. Vediamo che in effetti l’accordo col risultato esatto è adesso molto buono. Variabile Chi-quadrato. La variabile Chi-quadrato, denotata con χ2ν , dipende da un parametro intero positivo ν, che ne identifica il numero di gradi di libertà (in inglese degrees of freedom, abbreviato con d.f.). Quindi, per ogni ν, si ha una diversa variabile. La densità di probabilità di χ2ν è f (x) = Cν xν/2−1 e−x/2 , se x > 0, se x ≤ 0, f (x) = 0, dove Cν è una costante positiva determinata dalla condizione dimostrare che E(χ2ν ) = ν, Var(χ2ν ) = 2ν . R R f (x) dx = 1. Si può 0.20 0.25 L’andamento della densità di χ2ν per alcuni valori di ν è rappresentato in Figura 1.4. Nella Tabella B sono tabulati i quantili della distribuzione per diversi valori di ν e di α. Ad esempio, P (χ210 < x) = 0.95 quando x = 18.31. 0.00 0.05 0.10 0.15 df = 3 df = 5 df = 10 0 5 10 15 20 Figura 1.4: Densità della variabile χ2ν con ν = 3, 5, 10 gradi di libertà L’importanza della variabile χ2ν in statistica è dovuta principalmente al seguente risultato. 1 Ad esempio R, http://www.R-project.org Appunti di Statistica 17 Teorema 1.2.18. Siano date n variabili aleatorie indipendenti X1 , . . . , Xn ∼ N (µ, σ 2 ) (o, equivalentemente, un campione di ampiezza n estratto da una popolazione normale di media µ e varianza σ 2 ). Allora: 2 n X Xi − µ ∼ χ2n ; (i) σ i=1 n (n − 1)S 2 X (ii) = σ2 i=1 Xi − Mn σ 2 ∼ χ2n−1 , dove Mn ed S 2 sono rispettivamente la media e la varianza campionaria definite in (1.7) e (1.8). Inoltre, Mn e S 2 sono variabili aleatorie indipendenti. Osserviamo che (i) è equivalente a: (i’) se Z1 , . . . , Zn ∼ N (0, 1) sono variabili aleatorie normali standard indipendenti, allora Z12 + . . . + Zn2 ∼ χ2n . Variabile t di Student. Se Z ∼ N (0, 1) e W ∼ χ2ν sono variabili aleatorie indipendenti, allora la trasformazione T =p Z Z ∼ N (0, 1), W ∼ χ2ν W/ν 0.4 definisce la distribuzione t di Student con ν gradi di libertà. Il suo andamento è simile a quello della distribuzione normale standard, ma ha una maggiore dispersione (le code sono più alte rispetto a quelle della distribuzione normale standard, si veda la Figura 1.5). Abbiamo che E(T ) = 0 mentre Var(T ) = ν/(ν − 2) per ν > 2 (se ν = 1 o 2 la varianza non è definita). 0.0 0.1 0.2 0.3 Z t (df= 1 ) t (df= 2 ) t (df= 3 ) −4 −2 0 2 4 Figura 1.5: Confronto fra la normale standard e la distribuzione t di Student 18 G. Crasta Se X1 , . . . , Xn ∼ N (µ, σ 2 ) sono n variabili aleatorie indipendenti, allora, per il 2 2 2 Teorema 1.2.18, √ W = (n − 1)S /σ ∼ χn−1 . Inoltre la variabile aleatoria Z = (Mn − µ)/(σ/ n) è una normale standard, ed è indipendente da W (dal momento che Mn ed S 2 sono indipendenti). Di conseguenza √ Z (Mn − µ)/(σ/ n) Mn − µ √ T =p =p = n (1.16) S W/(n − 1) [(n − 1)S 2 /σ 2 ]/(n − 1) si distribuisce come la variabile t di Student con ν = n − 1 gradi di libertà. Riepilogando: Z= Mn − µ √ n ∼ N (0, 1), σ Mn − µ √ n ∼ tn−1 . S T = (1.17) Nella definizione di Z compare la deviazione standard σ della popolazione, mentre nella definizione di T compare S (che fornisce una stima di σ). Ciò è in accordo col fatto che la distribuzione di T sia più dispersa di quella di Z. Variabile F di Fisher. Se Xm ∼ χ2m e Yn ∼ χ2n sono indipendenti, il rapporto F = Xm /m Yn /n definisce la distribuzione F di Fisher con m gradi di libertà al numeratore ed n gradi di libertà al denominatore. Si può dimostrare che, se X è una siffatta variabile aleatoria di Fisher, allora E(X) = n n−2 (se n > 2), Var(X) = 2n2 (n + m − 2) m(n − 2)2 (n − 4) (se n > 4). 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 In Figura 1.6 è rappresentata la distribuzione F con m = 6 gradi di libertà al numeratore ed n = 8 gradi di libertà al denominatore. 0 1 2 3 4 Figura 1.6: Distribuzione F di Fisher con m = 6 ed n = 8 gradi di libertà Appunti di Statistica 19 Supponiamo di avere due campioni casuali di ampiezza rispettivamente n1 ed n2 , estratti da due popolazioni normali distinte aventi varianze rispettivamente σ12 e σ22 . Se S12 e S22 indicano le varianze campionarie, per il Teorema 1.2.18, abbiamo che W1 = (n1 − 1)S12 /σ12 ∼ χ2n1 −1 , W2 = (n2 − 1)S22 /σ22 ∼ χ2n2 −1 . Di conseguenza, F = W1 /(n1 − 1) S12 /σ12 [(n1 − 1)S12 /σ12 ]/(n1 − 1) = = W2 /(n2 − 1) [(n2 − 1)S22 /σ22 ]/(n2 − 1) S22 /σ22 si distribuisce come la variabile di Fisher con ν1 = n1 − 1 gradi di libertà al numeratore e ν2 = n2 − 1 gradi di libertà al denominatore. 1.3 Legge dei grandi numeri e teorema del limite centrale Vediamo ora alcuni risultati di notevole importanza in probabilità. Supponiamo di avere una successione X1 , X2 , . . . , di variabili aleatorie indipendenti; indichiamo con X1 + X2 + . . . + Xn (1.18) n la media campionaria delle prime n variabili della successione. Supponiamo che queste variabili aleatorie abbiano tutte la stessa media µ e la stessa varianza σ 2 , cioè E[Xi ] = µ, Var(Xi ) = σ 2 , ∀i ∈ N . Mn = Abbiamo già visto in (1.9) e (1.10) che n 1 X E[Mn ] = E[Xi ] = µ, n i=1 n 1 X σ2 Var(Mn ) = 2 Var(Xi ) = . n i=1 n Vediamo che, mentre il valore atteso di Mn è indipendente da n, la sua varianza tende a 0 per n → +∞. Ricordando che la varianza è una misura della dispersione rispetto al valore atteso, da questa proprietà discende il seguente risultato. Teorema 1.3.1 (Legge dei grandi numeri). Sia Xi , i = 1, 2, . . ., una successione di variabili aleatorie indipendenti, tutte con lo stesso valore atteso µ e la stessa varianza σ 2 , e sia Mn la media campionaria di X1 , . . . , Xn . Allora lim P ({|Mn − µ| > }) = 0 n→∞ ∀ > 0. 20 G. Crasta Consideriamo ora le variabili standardizzate Mn − µ √ Mn − E[Mn ] = Zn := p n. σ Var(Mn ) Abbiamo che √ E[Zn ] = n (E[Mn ] − µ) = 0, σ Var(Zn ) = n Var(Mn ) = 1. σ2 Il seguente teorema asserisce che, per n abbastanza grande, le variabili Zn si distribuiscono approssimativamente come la variabile normale standard (e questo avviene indipendentemente alla distribuzione delle variabili di partenza Xi ). Teorema 1.3.2 (Teorema del Limite Centrale). Siano X1 , X2 , . . . , Xn , . . . , variabili aleatorie indipendenti, tutte con lo stesso valore atteso µ e la stessa varianza σ 2 . Allora Mn − µ √ lim P a ≤ n ≤ b = P (a ≤ Z ≤ b), n→+∞ σ dove Z ∼ N (0, 1). Osserviamo che le variabili aleatorie Xi possono essere distribuite con qualsiasi legge (purché abbiano tutte stessa media e stessa varianza); non è cioè necessario che Mn −µ √ n∼ siano anch’esse variabili aleatorie normali (in tal caso si avrebbe Zn = σ N (0, 1) per ogni n = 1, 2, . . .). In particolare, il Teorema del Limite Centrale dice che, per n abbastanza grande (tipicamente è sufficiente n > 30, purché il fenomeno osservato non sia troppo asimmetrico), la media campionaria Mn di n variabili aleatorie indipendenti X1 , . . . , Xn , aventi stesso valore atteso µ e stessa varianza σ 2 , si distribuisce approssimativamente come una variabile aleatoria normale di media µ e varianza σ 2 /n, cioè Mn ' N (µ, σ 2 /n). Questo risultato riveste notevole importanza nei test statistici. Vedremo infatti, nel prossimo capitolo, che molti test statistici sono basati sull’ipotesi che la media campionaria sia distribuita normalmente. Questa ipotesi è certamente soddisfatta se il campione è estratto da una popolazione anch’essa distribuita normalmente. Il teorema del limite centrale garantisce che, anche se la popolazione di partenza non è distribuita normalmente, per campioni di ampiezza sufficientemente grande la media campionaria è comunque distribuita approssimativamente come una normale. È istruttivo “verificare” la validità del Teorema del Limite Centrale facendo una simulazione numerica. Fissato un intero n ≥ 1, siano X1 , . . . , Xn variabili aleatorie che rappresentano il risultato del lancio di n dadi (Xi = lancio dell’i-esimo dado). In Appunti di Statistica n= 2 n= 3 0.00 0.00 0.10 0.15 0.20 0.30 0.0 0.1 0.2 0.3 0.4 n= 1 1 2 3 4 5 6 1 2 3 4 5 6 5 6 4 5 6 1.0 0.6 0.5 0.0 0.2 0.0 4 3 n = 50 0.4 0.4 0.2 3 2 n = 10 0.0 2 1 1.5 n= 5 1 21 1 2 3 4 5 6 1 2 3 4 5 6 Figura 1.7: Densità di Mn = media del lancio di n dadi Figura 1.7 è rappresentata la densità di Mn , per diversi valori di n, in una simulazione con 5000 ripetizioni del lancio di n dadi. La linea continua rappresenta la densità della variabile aleatoria normale Z ∼ N (µ, σ 2 /n), dove 6 1X µ= k = 3.5, 6 k=1 6 1X σ = (k − µ)2 ' 2.917 6 k=1 2 (1.19) sono rispettivamente la media e la varianza delle Xi . Esempio 1.3.3. Un dado viene lanciato 50 volte. Determinare la probabilità che la media dei punteggi sia compresa fra 3 e 4. Poiché n = 50 è abbastanza grande, la media Mn si distribuisce approssimativamente come una variabile aleatoria normale di media µ e varianza σ 2 /n, con µ e σ 2 calcolati in (1.19). Abbiamo dunque 3−µ√ Mn − µ √ 4−µ√ n≤ n≤ n P (3 ≤ Mn ≤ 4) = P σ σ σ 3−µ√ 4−µ√ 'P n≤Z≤ n σ σ = P (|Z| ≤ 2.07) = 0.96 . 1.4 Complementi sulle variabili aleatorie Riportiamo qui, senza dimostrazione, alcuni risultati sulle variabili aleatorie. 22 G. Crasta 1. Se X è una variabile aleatoria continua con densità di probabilità f , c1 , c2 ∈ R, e g1 , g2 : R → R sono funzioni, allora Z +∞ E[g1 (X)] = g1 (y)f (y) dy, −∞ E[c1 g1 (X) + c2 g2 (X)] = c1 E[g1 (X)] + c2 E[g2 (X)]. 2. Se X1 , . . . , Xn sono variabili aleatorie indipendenti, e se X = c1 X1 +. . .+cn Xn , con c1 , . . . , cn ∈ R, allora E[X] = n X ci E[Xi ], Var(X) = i=1 n X c2i Var(Xi ) . i=1 (L’ipotesi d’indipendenza serve solo per la seconda uguaglianza.) 3. Se X1 , . . . , Xn sono variabili aleatorie indipendenti normalmente distribuite, con Xi ∼ N (µi , σi2 ) per i = 1, . . . , n, e se X = c1 X1 + . . . + cn Xn , con c1 , . . . , cn ∈ R, allora anche X è distribuita normalmente con E[X] = n X ci µ i , Var(X) = i=1 n X c2i σi2 . i=1 4. Se X1 , . . . , Xn sono variabili aleatorie continue indipendenti, con densità di probabilità f1 , . . . , fn rispettivamente, e se g : Rn → R è una funzione, allora Z g(x1 , . . . , xn )f (x1 ) · · · f (xn ) dx1 · · · dxn . E[g(X1 , . . . , Xn )] = Rn 1.5 Esercizi Esercizio 1.1. Dimostrare che Var(X) = E[X 2 ] − (E[X])2 . Soluzione. Indichiamo µ = E[X]. Usando le proprietà elencate nel Teorema 1.2.9, (i) e (ii), abbiamo che Var(X) = E[(X − µ)2 ] = E[X 2 − 2µX + µ2 ] = E[X 2 ] − 2µE[X] + µ2 = E[X 2 ] − µ2 . Esercizio 1.2. Sia X ∼ N (µ, σ 2 ). Sapendo che Z +∞ √ 2 e−x /2 dx = 2π , −∞ dimostrare che E[X] = µ e Var(X) = σ 2 . (1.20) Appunti di Statistica 23 Soluzione. Osserviamo preliminarmente che Z +∞ Z +∞ √ 2 −x2 /2 x2 e−x /2 dx = 2π ; xe dx = 0, −∞ −∞ il valore del primo integrale discende dal fatto che la funzione integranda è dispari (e integrabile in senso generalizzato), mentre il secondo integrale può essere calcolato per parti riconducendosi a (1.20). Usando il cambiamento di variabile y = (x − µ)/σ si ha che Z +∞ Z +∞ 1 1 2 −(x−µ)2 /(2σ 2 ) xe dx = √ (µ + σy) e−y /2 dy = µ E[X] = √ σ 2π −∞ 2π −∞ mentre 1 Var(X) = √ σ 2π Z +∞ 2 −(x−µ)2 /(2σ 2 ) (x − µ) e −∞ σ2 dx = √ 2π Z +∞ y 2 e−y 2 /2 dy = σ 2 . −∞ Esercizio 1.3. Si considerino le seguenti variabili aleatorie normali: X ∼ N (50, 16), Y ∼ N (22, 25), Z ∼ N (−10, 9). Calcolare P (X < 46), P (17 < Y < 32), P (Z > −13). Soluzione. 0.159, 0.818, 0.841 Esercizio 1.4. Si consideri un campione X1 , . . . , X9 estratto da una popolazione normale di media µ = 72 e varianza σ 2 = 16. Indicata con X la media campionaria, si determini P (68 < X < 72). Soluzione. 0.977 CAPITOLO 2 STATISTICA DESCRITTIVA E INFERENZIALE 2.1 2.1.1 Statistica descrittiva Rappresentazione dei dati I dati raccolti su una popolazione o un campione sono detti dati grezzi. Soprattutto se i dati sono in numero elevato, è difficile ottenere informazioni significative su di essi senza prima ordinarli e organizzarli in qualche modo. La seguente tabella, ad esempio, riporta le lunghezze dei principali fiumi americani1 . 735 280 1243 265 291 300 410 696 375 800 1038 246 1 320 315 890 850 710 560 460 605 1270 420 424 360 325 392 524 450 1459 870 906 202 329 290 350 407 286 280 525 210 630 260 230 360 340 217 281 352 259 900 625 332 2348 1171 260 255 431 350 760 250 411 1054 735 233 545 445 1885 380 300 350 360 538 1100 1205 310 300 444 301 268 529 500 720 270 430 135 465 600 1000 600 505 720 390 250 730 600 306 250 470 680 3710 2315 2533 618 338 981 435 490 310 380 377 425 314 237 610 620 215 652 671 1770 330 1450 327 390 570 780 1306 460 276 360 900 336 840 230 420 350 280 500 383 210 540 525 Questo è uno dei dataset presente nel software statistico R, http://www.R-project.org 24 Appunti di Statistica 25 In questo caso abbiamo a che fare con una variabile quantitativa (o numerica); si possono avere anche variabili qualitative (ad esempio, potremmo rilevare le preferenze elettorali in un sondaggio). È evidente come questi dati grezzi non forniscano delle informazioni immediatamente fruibili. Per questo motivo i dati vengono spesso organizzati in istogrammi o boxplot; altri metodi di visualizzazione sono, ad esempio, i diagrammi a torta. In Figura 2.1 abbiamo rappresentato i dati della tabella precedente sotto forma di istogramma e boxplot (sul significato di quest’ultimo torneremo tra breve). 0 1000 2000 3000 4000 0 0 500 20 1000 1500 40 2000 60 2500 3000 80 3500 Istogramma delle lunghezze dei fiumi Figura 2.1: Lunghezza dei principali fiumi americani: istogramma e boxplot 2.1.2 Indici di posizione e di dispersione Alcune informazioni su una distribuzione di dati grezzi si possono ottenere utilizzando gli indici di posizione (che, grosso modo, ci dicono dove si trovano i dati) e gli indici di dispersione (che ci dicono quanto dispersi sono i dati rispetto alla posizione). I principali indici di posizione sono la media e la mediana. Definizione 2.1.1 (media e mediana). Si definisce media aritmetica o media campionaria di n dati x1 , . . . , xn la quantità n x̄ := x1 + . . . + xn 1X = xi . n n i=1 Se i dati sono ordinati, cioè se x1 ≤ x2 ≤ . . . ≤ xn , si definisce mediana il valore centrale dei dati; più precisamente, se n è dispari la mediana è il valore centrale, mentre se n è pari la mediana è la media dei due valori centrali. 26 G. Crasta Altri indici di posizione spesso utilizzati sono i quartili; senza entrare troppo nei dettagli della definizione precisa, il primo ed il terzo quartile (Q1 e Q3) sono quei valori che lasciano, rispettivamente, il 25% e il 75% dei dati ordinati alla propria sinistra. In un boxplot (si veda la Figura 2.1 a destra) questi indicatori vengono rappresentati mediante un rettangolo avente basi alla quota del primo e terzo quartile (Q1 e Q3), più un segmento intermedio che rappresenta la mediana. Sono presenti inoltre due “baffi” che hanno come quota il minimo e il massimo dei dati compresi fra Q1 − 1.5 ∗ (Q3 − Q1) e Q3 + 1.5 ∗ (Q3 − Q1); gli outliers, cioè i punti esterni a questo intervallo, sono invece rappresentati da cerchietti. I principali indici di dispersione sono invece la varianza campionaria (e la sua radice quadrata, la deviazione standard) e lo scarto interquartile Q3 − Q1, che in un boxplot è rappresentato dall’altezza del rettangolo. Definizione 2.1.2 (varianza campionaria). Si definisce varianza campionaria di n dati x1 , . . . , xn , n ≥ 2, la quantità ! n n X X 1 1 (xi − x̄)2 = x2 − nx̄2 . s2 := n − 1 i=1 n − 1 i=1 i Si definisce deviazione standard o scarto quadratico medio la radice quadrata della varianza campionaria. Vediamo subito, dalla definizione, che la varianza fornisce una indicazione di quanto i dati si discostino dalla media; nel caso limite di varianza nulla tutti i dati coincidono con la media. Con un po’ di pazienza (o, più semplicemente, utilizzando un software statistico) possiamo calcolare gli indicatori sopra citati nel caso dei dati relativi alle lunghezze dei fiumi. Abbiamo che x = 591.2, s = 493.9, mediana = 425.0, Q1 = 310.0, Q3 = 680.0. Si tenga presente che, nelle calcolatrici scientifiche, lo scarto quadratico medio è spesso denotato con σn−1 oppure sn−1 . 2.2 Popolazioni, campioni, stimatori Nel capitolo precedente abbiamo visto come, supponendo nota la legge che descrive un fenomeno, si possa calcolare la probabilità di vari eventi. La statistica si occupa invece del problema in un certo senso opposto: si vuole capire la legge che descrive Appunti di Statistica 27 un fenomeno, oppure il legame fra più fenomeni, osservando i fenomeni stessi accadere. A grandi linee, e senza entrare in dettagli, uno studio statistico si compone di diverse fasi: identificazione dello scopo principale, identificazione della popolazione, campionamento, descrizione dei dati, ipotesi, analisi statistica. Noi ci occuperemo solamente di alcune semplici analisi statistiche dei dati. In particolare, vedremo come è possibile stimare i parametri di una popolazione incognita a partire da un campionamento della stessa (di questo si occupa la statistica inferenziale). In statistica, per popolazione si intende l’insieme degli elementi (che possono essere misure, osservazioni, etc.) che sono oggetto di studio, mentre per campione si intende un sottoinsieme della popolazione che viene selezionato per l’analisi statistica. Per quanto ci riguarda, supporremo che la popolazione sia distribuita secondo una legge aleatoria X di parametri tipicamente ignoti allo sperimentatore (ad esempio, una distribuzione normale di media e varianza non conosciuti dallo sperimentatore). Un campione (di ampiezza n) sarà dunque una n-pla X1 , . . . , Xn di osservazioni indipendenti (dunque di variabili aleatorie indipendenti) e tutte con la stessa legge: X1 ∼ X, . . . , Xn ∼ X. Questi n esperimenti casuali possono essere visti come n “copie” dello stesso esperimento astratto X (o equivalentemente della stessa popolazione). Detto in maniera spicciola, le n variabili aleatorie X1 , . . . Xn rappresentano tutti i possibili campionamenti di ampiezza n della popolazione assegnata; è chiaro che, in pratica, lo sperimentatore effettuerà un solo campionamento di questo tipo, ma per poter trarre, da questo singolo campione, informazioni relative all’intera popolazione, abbiamo bisogno di sapere quale sia la distribuzione di tutti i possibili campionamenti di prefissata ampiezza. Definizione 2.2.1. (stimatore) Uno stimatore Tn per un parametro incognito τ della popolazione è una funzione Tn = Tn (X1 , . . . , Xn ) del campione. Diremo che • lo stimatore Tn è corretto, o non distorto (unbiased in inglese) se E[Tn ] = τ ; • lo stimatore Tn è consistente o coerente (consistent in inglese) se la sua varianza tende a zero per n che tende a infinito, cioè se limn Var(Tn ) = 0; • se Tn ed Rn sono entrambi stimatori corretti del parametro τ , diremo che Tn è più efficiente di Rn se Var(Tn ) < Var(Rn ). Ad esempio, abbiamo dimostrato in (1.9) che se µ = E[X], allora la media campionaria Mn definita in (1.18) è uno stimatore corretto del parametro µ della popolazione, in quanto E[Mn ] = µ. La media campionaria è anche uno stimatore 28 G. Crasta consistente della media vera µ, poiché limn Var(Mn ) = limn σ 2 /n = 0, dove σ 2 è la varianza di X. Questo significa che, se pensiamo di effettuare un gran numero di campionamenti di ampiezza n e di calcolare, per ciascuno di essi, la media campionaria, i dati così ottenuti forniranno una distribuzione con valore atteso µ e con varianza pari a σ 2 /n. È possibile dimostrare che la media campionaria è lo stimatore più efficiente della media della popolazione. Si può anche dimostrare che la varianza campionaria, vale a dire la variabile aleatoria definita da n 1 X 2 (Xi − Mn )2 , (2.1) Sn = n − 1 i=1 è uno stimatore corretto e consistente della varianza vera σ 2 . (Questo è il motivo per cui, nella definizione (2.1) di varianza campionaria, compare a denominatore n − 1 anziché n.) Nel seguito indicheremo anche con X la media campionaria e con S 2 la varianza campionaria, senza fare riferimento alla numerosità del campione. 2.3 Intervalli di confidenza Supponiamo di avere uno stimatore per un certo parametro della popolazione oggetto di studio. Per fissare le idee, supponiamo di avere una popolazione normale di media µ e varianza σ 2 (incognite). Dato un campione X1 , . . . , Xn , sappiamo che la media campionaria X è stimatore corretto e coerente della media µ della popolazione. Ad esempio, supponiamo di avere il seguente campione: 20.8, 18.8, 20.7, 20.1, 24.7, 24.8, 22.4. La media campionaria vale 21.76. D’altra parte, questo numero da solo non ci dà nessuna indicazione sulla bontà della stima. Per ovviare a questo problema, spesso si ricorre ai cosiddetti intervalli di confidenza: si fornisce cioè un intervallo (a, b) che, idealmente, contenga il parametro da stimare (µ in questo caso) e che sia relativamente piccolo. Operativamente, si fissa un certo livello di confidenza, ad esempio del 95%, e si determina un intervallo (a, b) che contenga il parametro da stimare nel 95% dei casi. Il significato di questa ultima frase è il seguente: se supponiamo di estrarre un gran numero di campioni indipendenti dalla popolazione assegnata, e se per ciascuno di questi campioni calcoliamo il relativo intervallo di confidenza al 95%, allora il 95% di tali intervalli conterrà il vero valore del parametro da stimare (µ). 2.3.1 Intervalli di confidenza per la media In questo paragrafo tratteremo il problema di stima l’intervallo di confidenza per la media di una popolazione distribuita normalmente. Prima di procedere oltre, ricordiamo il seguente risultato riguardante campioni estratti da una popolazione normale (si vedano il Teorema 1.2.18 e la formula (1.16)). Appunti di Statistica 29 Teorema 2.3.1. Se X1 , . . . , Xn è un campione casuale estratto da una popolazione normale X ∼ N (µ, σ 2 ), allora X −µ√ n ∼ N (0, 1), σ (n − 1)S 2 ∼ χ2n−1 , σ2 X −µ√ n ∼ tn−1 , S dove tn−1 indica la distribuzione t di Student con ν = n − 1 gradi di libertà. Dal Teorema 2.3.1 sappiamo dunque che la variabile T := X −µ√ n ∼ tn−1 S è distribuita come una variabile t di Student con ν = n − 1 gradi di libertà. Fissato un livello di confidenza 1 − α (tipicamente 0.95 oppure 0.99, corrispondenti rispettivamente ad α = 0.05 e α = 0.01), indichiamo con t∗ := tn−1,1−α/2 il quantile di ordine 1 − α/2 della distribuzione tn−1 , in modo che P (−t∗ ≤ T ≤ t∗ ) = 1 − α. Otteniamo dunque X −µ√ ∗ ∗ P −t ≤ n ≤ t = 1 − α, S che, con qualche manipolazione algebrica, si può riscrivere come ∗ S ∗ S P X −t √ ≤µ≤X +t √ = 1 − α. n n Se definiamo le variabili aleatorie S â := X − t∗ √ , n S b̂ := X + t∗ √ , n (2.2) avremo che P (â < µ < b̂) = 1 − α; l’intervallo aleatorio (â, b̂) è dunque detto intervallo di confidenza per la media al livello di confidenza 1 − α. Di fatto, lo sperimentatore estrarrà un solo campione x1 , . . . , xn dalla popolazione, per il quale calcolerà l’intervallo di confidenza (a, b) usando le formule s a = x − t∗ √ , n s b = x + t∗ √ . n (2.3) Chiaramente non possiamo avere nessuna garanzia che tale intervallo contenga la media reale µ della popolazione. Ciò che possiamo dire è che, per un fissato livello di confidenza (1 − α), se estraiamo un gran numero di campioni x1 , . . . , xn dalla nostra popolazione e per ciascuno di essi calcoliamo l’intervallo di confidenza (a, b) usando G. Crasta 0 20 40 60 80 100 30 −10 −5 0 5 10 Figura 2.2: 100 intervalli di confidenza per campioni di ampiezza 10 estratti da una popolazione N (0, 25) la formula (2.3), allora circa il 100 · (1 − α)% di questi intervalli conterrà la media µ (ignota) della popolazione. Per illustrare meglio questo concetto, nella Figura 2.2 sono rappresentati (mediante linee orizzontali) gli intervalli di confidenza per 100 campioni di ampiezza 10 estratti casualmente da una popolazione normale di media µ = 0 e varianza σ 2 = 25; come si può vedere, 95 di questi intervalli contengono la media reale µ = 0, mentre 5 di essi non la contengono. Osservazione 2.3.2. Le quantità â e b̂ definite in (2.2), così come la media X e la varianza campionaria S 2 , sono ovviamente delle variabili aleatorie. Quando lo sperimentatore estrae un campione, le quantità calcolate per quel campione vengono invece indicate con le corrispondenti lettere minuscole (o senza “cappuccio”), vale a dire a, b, x, s2 . Riprendiamo l’esempio introduttivo, relativo al campione 20.8, 18.8, 20.7, 20.1, 24.7, 24.8, 22.4 estratto da una popolazione normale. Vogliamo calcolare l’intervallo di confidenza per la media al livello di confidenza del 95%. Abbiamo che x = 21.76, √ s = 5.31 = 2.30; indichiamo con t∗ := t6, 0.975 = 2.47 il quantile di ordine 0.975 della distribuzione t di Student con ν = n − 1 = 6 gradi di libertà (che possiamo trovare individuare nella Tabella C relativa al test a due code, con α = 0.05 e ν = 6). Calcoliamo ora gli estremi dell’intervallo di confidenza utilizzando (2.2): s a := x − t∗ √ = 19.63, n s b := x + t∗ √ = 28.89, n dunque l’intervallo di confidenza richiesto è (a, b) = (19.63, 28.89). Osserviamo a questo punto che non ha senso dire che µ ∈ (19.63, 28.89) con una probabilità del 95%, dal momento che µ è un numero ben preciso (sebbene ignoto), dunque o è contenuto in tale intervallo oppure non lo è! Ribadiamo che l’interpretazione Appunti di Statistica 31 corretta è la seguente: se estraiamo un gran numero di campioni x1 , . . . , x7 dalla nostra popolazione e per ciascuno di essi calcoliamo l’intervallo di confidenza (a, b) usando la procedura indicata, allora circa il 95% di questi intervalli conterrà la media µ (ignota) della popolazione. Nonostante questo si usa spesso scrivere che l’intervallo di confidenza è 19.63 < µ < 28.89, attribuendo però a questa scrittura il significato appena spiegato. Esercizio 2.3.3. Il seguente campione è stato estratto da una popolazione distribuita normalmente: -2.4, 5.5, 2.0, -2.5, 1.1, 7.4, -1.8, -2.2. Determinare l’intervallo di confidenza al 95% per la media. Svolgimento. Indichiamo con t∗ il valore critico della distribuzione t di Student con ν = n − 1 = 7 gradi di libertà tale che P (|t| < t∗ ) = 0.95. Nella tabella dei quantili della distribuzione t (Tabella C), per il test a due code e con area delle code α = 0.05, si trova t∗ = 2.365. Usando la calcolatrice otteniamo x = 0.8875, s = 3.855 . Sostituendo i valori nella formula (2.2) si ottiene che l’intervallo di confidenza per la media al (livello di confidenza del) 95% è (−2.34, 4.11). Osservazione 2.3.4 (Grandi campioni). Per n sufficientemente grande (diciamo n > 30) la distribuzione tn−1 è ben approssimata dalla distribuzione normale standard; in tal caso è possibile utilizzare, per il calcolo dell’intervallo di confidenza, il quantile di ordine 1 − α/2 della variabile normale standard. 2.3.2 Intervalli di confidenza per la differenza di due medie Da un punto di vista applicativo capita spesso di dover confrontare le medie di due popolazioni. Pensiamo, ad esempio, al caso della sperimentazione di un nuovo farmaco contro l’ipertensione: avremo una popolazione non trattata (cioè, non sottoposta all’azione del farmaco) e una trattata, e saremo interessati a stimare la differenza della pressione media fra le due popolazioni per valutare l’efficacia del farmaco. (Su questo torneremo nel Paragrafo 3.2.1.) Da un punto di vista matematico, supponiamo di avere due popolazioni distribuite normalmente, con la stessa varianza2 ; in altre parole, abbiamo due variabili aleatorie indipendenti X ∼ N (µ1 , σ 2 ), Y ∼ N (µ2 , σ 2 ). Si vuole stimare la differenza µ1 − µ2 fra le medie delle due popolazioni. Per fare questo, estraiamo un campione da ciascuna popolazione; siano dunque X1 , . . . , Xn1 ∼ N (µ1 , σ 2 ), 2 Y1 , . . . , Yn2 ∼ N (µ2 , σ 2 ), Questa ipotesi può essere rimossa, a scapito però di una maggiore complessità del modello. 32 G. Crasta variabili aleatorie indipendenti. Indichiamo con X, Y le relative medie campionarie e con S12 , S22 le relative varianze campionarie: n1 1 X X= Xi , n1 i=1 Y = n2 1 X Yi , n2 i=1 n S12 1 1 X = (Xi − X)2 , n1 − 1 i=1 n S22 = 2 1 X (Yi − Y )2 . n2 − 1 i=1 La varianza σ 2 , comune a entrambe le popolazioni, può essere stimata utilizzando congiuntamente entrambi i campioni; è possibile dimostrare che la variabile aleatoria S 2 := (n1 − 1)S12 + (n2 − 1)S22 , n1 + n2 − 2 (2.4) detta stima combinata della varianza, è uno stimatore corretto di σ 2 . Osserviamo che, se i due campioni hanno la stessa numerosità, allora S 2 non è altro che la media aritmetica delle due varianze campionarie S12 ed S22 . Si può inoltre dimostrare (si veda il Paragrafo 3.4.1 per i dettagli) che la variabile aleatoria (X − Y ) − (µ1 − µ2 ) T = p (2.5) S 2 (1/n1 + 1/n2 ) si distribuisce come una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà. Ragionando in maniera analoga a quanto fatto nel Paragrafo 2.3.1 possiamo concludere che l’intervallo di confidenza al livello (1 − α) · 100% per la differenza delle medie è dato da r r 1 1 1 1 X − Y − t∗ · S + < µ1 − µ2 < X − Y + t∗ · S + (2.6) n1 n2 n1 n2 dove t∗ = tν, 1−α/2 è il quantile (1 − α/2) della distribuzione t di Student con ν = n1 + n2 − 2 gradi di libertà. (Come già osservato, questo valore va cercato nella Tabella C relativa al test a due code.) Ricordiamo quanto già detto nell’Osservazione 2.3.4: se ν è abbastanza grande (indicativamente, se ν ≥ 30), la distribuzione t di Student con ν gradi di libertà è praticamente indistinguibile dalla distribuzione normale standard. Per questo motivo, per grandi campioni (quando cioè ν ≥ 30) si utilizza spesso il test basato sulla distribuzione normale standard, mentre per piccoli campioni (ν < 30) si usa il test appena descritto, basato sulla distribuzione t di Student. Esercizio 2.3.5. Abbiamo i seguenti due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza: Gruppo 1 Gruppo 2 35.32 18.25 26.87 21.55 18.77 13.97 23.24 21.65 31.30 21.08 33.60 27.33 33.60 11.78 24.83 Appunti di Statistica 33 Si determinino gli intervalli di confidenza al 95% e 99% per la differenza delle medie. Svolgimento. Abbiamo che n1 = 8, n2 = 7; utilizzando la calcolatrice possiamo calcolare medie e varianze campionarie, che riassumiamo nella seguente tabella: nj xj s2j Gruppo 1 (X) 8 28.441 34.973 Gruppo 2 (Y) 7 19.372 27.376 La stima combinata per la varianza è dunque: s2 = (n1 − 1)s21 + (n2 − 1)s22 = 31.467. n1 + n2 − 2 Utilizziamo la formula (2.6) per il calcolo l’intervallo di confidenza. Al livello di confidenza del 95% dobbiamo utilizzare il quantile t∗ = t13, 0.975 = 2.160 relativo alla distribuzione t di Student con ν = n1 + n2 − 2 = 13 gradi di libertà; è opportuno calcolare prima la semiampiezza δ dell’intervallo di confidenza, data da s s 1 1 1 1 ∗ 2 + = 2.160 · 31.467 + = 6.271. δ0.95 := t · s n1 n2 8 7 Poiché x − y = 9.068, l’intervallo di confidenza per la differenza delle medie sarà 9.068 − 6.271 < µ1 − µ2 < 9.068 + 6.271 cioè 2.797 < µ1 − µ2 < 15.339. Al livello di confidenza del 99% dobbiamo utilizzare invece il quantile t∗ = t13, 0.995 = 3.012; la semiampiezza δ dell’intervallo di confidenza vale, in questo caso, s s 1 1 1 1 ∗ 2 + = 3.012 · 31.467 + = 8.744, δ0.99 := t · s n1 n2 8 7 dunque l’intervallo di confidenza per la differenza delle medie sarà 9.068 − 8.744 < µ1 − µ2 < 9.068 + 8.744 cioè 0.324 < µ1 − µ2 < 17.813. Esercizio 2.3.6. Abbiamo due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente tabella: nj xj s2j Gruppo 1 10 7.81 3.57 Gruppo 2 9 9.49 4.67 34 G. Crasta Determinare l’intervallo di confidenza al 95% e 99% per la differenza delle medie. Svolgimento. In questo caso i dati sono già in forma aggregata. Iniziamo a calcolare la stima combinata per la varianza: s2 = (n1 − 1)s21 + (n2 − 1)s22 = 4.088. n1 + n2 − 2 Utilizziamo la formula (2.6) per il calcolo l’intervallo di confidenza. Al livello di confidenza del 95% dobbiamo utilizzare il quantile t∗ = t17, 0.975 = 2.110 relativo alla distribuzione t di Student con ν = n1 + n2 − 2 = 17 gradi di libertà; è opportuno calcolare prima la semiampiezza δ dell’intervallo di confidenza, data da s s 1 1 1 1 ∗ + = 2.110 · 4.088 + = 1.960. δ0.95 := t · s2 n1 n2 10 9 Poiché x − y = −1.68, l’intervallo di confidenza per la differenza delle medie sarà −1.68 − 1.96 < µ1 − µ2 < −1.68 + 1.96 cioè − 3.64 < µ1 − µ2 < 0.28. Al livello di confidenza del 99% dobbiamo utilizzare invece il quantile t∗ = t17, 0.995 = 2.898; la semiampiezza δ dell’intervallo di confidenza vale, in questo caso, s s 1 1 1 1 ∗ δ0.99 := t · s2 + + = 2.898 · 4.088 = 2.692, n1 n2 10 9 dunque l’intervallo di confidenza per la differenza delle medie sarà −1.68 − 2.692 < µ1 − µ2 < −1.68 + 2.692 cioè − 4.37 < µ1 − µ2 < 1.01. 2.4 Esercizi Esercizio 2.1. Il seguente campione è stato estratto da una popolazione distribuita normalmente: 34.08, 50.08, 48.78, 38.4, 37.09, 39.62, 35.16, 33.55, 44.21, 45.86. Determinare l’intervallo di confidenza al 95% per la media. Soluzione. 36.30 < µ < 45.06 Esercizio 2.2. I seguenti due campioni indipendenti sono stati estratti casualmente da popolazioni normali aventi la stessa varianza: Gr. 1 Gr. 2 47.43 32.45 48.58 37.14 48.53 31.58 42.90 41.99 32.23 39.30 38.73 41.09 44.07 36.10 44.71 35.37 36.84 32.24 Si determinino gli intervalli di confidenza al 95% e 99% per la differenza delle medie. Soluzione. 5.81 < µ1 − µ2 < 12.56, 4.53 < µ1 − µ2 < 13.83 CAPITOLO 3 TEST DI IPOTESI Per illustrare le quantità principali associate ad un test di ipotesi, partiamo da un esempio relativo ad un caso giuridico. In un’aula di tribunale un imputato deve essere giudicato da una giuria, sulla base delle prove prodotte dalla difesa e dall’accusa. Le situazioni possibili sono le quattro riportate in tabella: Verdetto Assolto Condannato Verità Innocente Colpevole corretto errore tipo II errore tipo I corretto È chiaro che ci sono due possibilità di errore: condannare un imputato che, in realtà, è innocente (errore di tipo I), oppure assolvere un imputato che, in realtà, è colpevole (errore di tipo II). Dal momento che la giuria non sa la verità, la sua decisione può portare a uno di questi errori. Si tratta di decidere come procedere per “controllare” queste possibilità di errore. In uno stato di diritto l’errore più grave consiste sicuramente nel condannare un imputato innocente (errore di tipo I); la giuria, dunque, assumerà che l’imputato sia innocente a meno che la sua colpevolezza non sia dimostrata oltre ogni ragionevole dubbio. Nel caso di un test statistico, lo sperimentatore formula un’ipotesi in termini dei parametri di una popolazione (nel caso giuridico, l’ipotesi è l’innocenza dell’imputato); poi, utilizzando i dati di un campione (nel caso giuridico, le prove), esegue un procedimento, detto test di ipotesi, che gli consenta di rifiutare o meno l’ipotesi statistica (nel caso giuridico, si celebra un processo per stabilire se le prove sono sufficienti per condannare l’imputato). Facciamo un esempio per chiarire questi concetti. Si vuole effettuare uno studio clinico per stabilire se un certo farmaco è efficace nel trattamento dell’ipertensione. 35 36 G. Crasta Si considerano dunque due gruppi di persone, estratte casualmente da una popolazione di pazienti ipertesi; al primo gruppo (detto di controllo) viene somministrato un placebo, mentre il secondo gruppo (detto di trattamento) viene trattato col farmaco. Il parametro oggetto di studio è la pressione arteriosa. L’ipotesi nulla (usualmente denotata con H0 ) è che la popolazione trattata e quella non trattata abbiano la stessa media, mentre l’ipotesi alternativa (denotata con H1 ) è che le medie siano differenti. (In realtà in questo caso siamo interessati a stabilire se il farmaco è efficace, cioè se le media delle pressioni della popolazione trattata è minore di quella della popolazione non trattata; su questo punto torneremo nel Paragrafo 3.2.1.) Dopo aver misurato la pressione arteriosa negli elementi dei due campioni, lo sperimentatore effettua un opportuno test di ipotesi per stabilire se H0 possa essere rifiutata o meno. La situazione è riassunta nella seguente tabella: Conclusioni tratte Nessuna differenza Differenza Situazione reale Nessuna differenza (H0 ) Differenza (H1 ) corretto (1 − α) errore tipo II (β) errore tipo I (α) corretto (1 − β) Ritorniamo al parallelo giudiziario. L’innocenza, che in un test statistico equivale all’ipotesi nulla H0 , viene dunque presunta a meno che le prove non mostrino il contrario oltre ogni ragionevole dubbio. Il “ragionevole dubbio” è rappresentato, in statistica, dal livello di significatività del test, usualmente indicato con α; tipicamente si usa α = 0.01 oppure α = 0.05. In un test statistico, il livello di significatività viene fissato dallo sperimentatore prima di eseguire il test; come abbiamo detto, esso rappresenta la probabilità massima di commettere un errore di tipo I. La probabilità massima di commettere un errore di tipo II viene indicata con β, ed è anche detta rischio del consumatore; si chiama invece potenza di un test la quantità 1 − β, che in un test statistico rappresenta la probabilità (minima) di concludere che il trattamento è efficace quando questo è realmente efficace o, equivalentemente, di concludere che esiste una differenza fra le popolazioni quando questa realmente esiste. Nel parallelo giudiziario la potenza rappresenta la probabilità di condannare un imputato colpevole. Riassumendo, ad ogni test statistico sono quindi associati i seguenti parametri: • Livello di significatività: viene indicato con α (tipicamente α = 0.01 oppure α = 0.05). È la probabilità (massima) di commettere un errore di tipo I. Viene fissata a priori prima di eseguire il test. • Livello di confidenza: è dato da 1 − α. È la probabilità (minima) di concludere che l’ipotesi nulla H0 è vera quando essa è realmente verificata, cioè di concludere che un determinato trattamento è inefficace quando questo è realmente inefficace. • Rischio del consumatore, o errore di tipo II: viene indicato con β. È la probabilità (massima) di concludere che l’ipotesi nulla H0 è vera quando invece Appunti di Statistica 37 questa è falsa, cioè di concludere che un trattamento è inefficace quando questo, in realtà, è efficace. • Potenza: viene indicata con 1 − β. È la probabilità (minima) di rilevare una differenza reale di una certa entità. La quantità β rappresenta la dimensione dell’errore di tipo II. Abbiamo già detto che il livello di significatività α del test (e quindi anche il suo livello di confidenza) vengono fissati a priori e dunque sono noti. La determinazione della potenza del test è invece più complicata ed esula dagli scopi di questa esposizione; in generale essa dipende dai seguenti fattori: • Il livello di significatività α (cioè il rischio di errore di tipo I); è infatti chiaro che, a parità di design sperimentale, se si riduce l’errore di primo tipo α automaticamente si aumenta l’errore di secondo tipo β. • La numerosità campionaria; è chiaro che, per α fissato, aumentando la numerosità campionaria si riduce la probabilità di errore di tipo II. (Nel parallelo giudiziario questo equivale a raccogliere un maggior numero di prove.) • La dimensione dell’eventuale differenza che si vuole osservare; è infatti evidente che, ad esempio a seguito di un trattamento, tanto maggiore è la differenza che ci si aspetta di osservare, tanto maggiore è la probabilità di rilevare una differenza a seguito del test statistico. Nei paragrafi successivi esporremo alcuni semplici test di ipotesi. Si tratta per lo più di test parametrici basati sull’ipotesi che le popolazioni oggetto di studio siano distribuite normalmente. Esistono anche numerosi test che non fanno alcuna richiesta sulla distribuzione della popolazione, ma la loro trattazione esula dai fini di questa esposizione. 3.1 Test di ipotesi sulla media Partiamo con un esempio. Esempio 3.1.1. Una ditta produttrice di mozzarelle dichiara che il contenuto sgocciolato delle confezioni è 500g. Il controllo di qualità preleva un campione casuale per il quale il contenuto sgocciolato (in grammi) è il seguente: 502, 490, 496, 513, 488, 493, 514, 495, 492, 492. Possiamo supporre che il campione sia estratto da una popolazione normale di media µ e varianza σ 2 ; indichiamo invece con µ0 = 500 il contenuto (in grammi) dichiarato dal produttore. Dall’analisi statistica del campione vogliamo stabilire, con un certo livello di confidenza, se, ad esempio: 38 G. Crasta • µ 6= µ0 (in tal caso il produttore potrebbe decidere di modificare il processo produttivo per allineare le due medie); • µ < µ0 (in tal caso il produttore potrebbe decidere di aumentare il contenuto medio, per evitare eventuali cause da parte dell’associazione dei consumatori); • µ > µ0 (in tal caso il produttore potrebbe decidere di diminuire il contenuto medio, per aumentare i margini di guadagno). Nel primo caso illustrato (µ 6= µ0 ) parleremo di test a due code, mentre negli altri due casi parleremo di test a una coda. La situazione astratta è dunque la seguente. Da una popolazione distribuita normalmente X ∼ N (µ, σ 2 ) (con media e varianza incognite allo sperimentatore) si estrae un campione di ampiezza n; da un punto di vista statistico abbiamo dunque n variabili aleatorie indipendenti X1 , . . . , Xn ∼ N (µ, σ 2 ). Assegnata una media dichiarata µ0 , nel caso di test a due code avremo le seguenti ipotesi statistiche: • ipotesi nulla H0 : µ = µ0 ; • ipotesi alternativa H1 : µ 6= µ0 . Dal Teorema 2.3.1 sappiamo che la variabile aleatoria X −µ√ n ∼ tn−1 S si distribuisce come una variabile t di Student con ν = n − 1 gradi di libertà. Di conseguenza, se assumiamo che l’ipotesi nulla sia vera, il consuntivo (o statistica test) X − µ0 √ T := n (3.1) S si distribuisce come una variabile t di Student con ν = n − 1 gradi di libertà. Fissato il livello di significatività α, indichiamo con t∗ il quantile di ordine 1−α/2 relativo alla distribuzione tn−1 ; in altri termini, t∗ è tale che P (−t∗ < T < t∗ ) = 1−α. Di conseguenza, se H0 è vera, il consuntivo T calcolato in (3.1) cadrà, con probabilità (1 − α), nell’intervallo (−t∗ , t∗ ); questo intervallo è detto regione di accettazione (RA) del test. L’unione delle due code, vale a dire l’insieme (−∞, −t∗ ] ∪ [t∗ , +∞), è invece detta regione di rifiuto (RR) del test. I valori −t∗ e +t∗ , che separano la regione di accettazione da quella di rifiuto, sono detti valori critici. In conclusione, se il consuntivo T cade nella regione di accettazione (−t∗ , t∗ ), allora accettiamo (o Appunti di Statistica 39 meglio, non rifiutiamo) l’ipotesi nulla H0 , mentre in caso contrario rifiutiamo l’ipotesi nulla. Esempio 3.1.1, test a due code. Effettuiamo il test a due code nel caso dell’Esempio 3.1.1, ad un livello di significatività α = 0.05. Usando la calcolatrice otteniamo x = 497.5, s = 9.24. Cerchiamo, nella Tabella C, il quantile t∗ = t9, 0.975 = 2.262 relativo alla distribuzione t9 (t di Student con ν = n − 1 = 9 gradi di libertà) per il test a due code con α = 0.05. La regione di accettazione è dunque RA = (−t∗ , t∗ ) = (−2.262, 2.262). Il consuntivo T vale t := 497.5 − 500 √ x − µ0 √ n= 10 = −0.85 s 9.24 e cade all’interno della regione di accettazione; concludiamo dunque che l’ipotesi nulla H0 non può essere rifiutata al livello di confidenza del 95%. In altre parole, a questo livello di confidenza non c’è evidenza che la media sia diversa da quella dichiarata dal produttore. Interpretazione in termini di intervalli di confidenza. Nel Paragrafo 2.3.1 abbiamo visto come calcolare l’intervallo di confidenza per la media. Calcoliamo, sempre nel caso dell’Esempio 3.1.1, gli estremi dell’intervallo di confidenza al 95% usando la formula (2.3.1): s 9.24 a := x − t∗ √ = 497.5 − 2.262 √ = 490.9, n 10 9.24 s b := x + t∗ √ = 497.5 + 2.262 √ = 504.1. n 10 L’intervallo di confidenza al 95% per la media per il test a due code è dunque IC = (490.9, 504.1). Lasciamo al lettore la semplice verifica del seguente fatto: il consuntivo T cade nella regione di accettazione se e solo se la media dichiarata µ0 cade nell’intervallo di confidenza: T ∈ RA ⇐⇒ µ0 ∈ IC. Poiché, nel caso in esame, µ0 ∈ IC, concludiamo come prima che l’ipotesi nulla H0 non può essere rifiutata al livello di confidenza del 95%. Illustriamo infine il caso di test a una coda; per fissare le idee, consideriamo il test di ipotesi • ipotesi nulla H0 : µ ≤ µ0 ; • ipotesi alternativa H1 : µ > µ0 . 40 G. Crasta (Il caso con ipotesi nulla µ ≥ µ0 si tratta in maniera analoga.) Esattamente come prima, se assumiamo che l’ipotesi nulla sia vera, il consuntivo T definito in (3.1) si distribuisce come una variabile t di Student con ν = n − 1 gradi di libertà. Fissato un certo livello di significatività α, indichiamo con t∗ = tn−1, 1−α il quantile di ordine 1 − α della distribuzione tn−1 , che troviamo sempre nella Tabella C per il test a una coda. Se l’ipotesi nulla è verificata, con probabilità (1 − α) il consuntivo T dovrà stare nella regione di accettazione RA = (−∞, t∗ ). Di conseguenza, se T < t∗ non rifiutiamo l’ipotesi nulla, mentre se T ≥ t∗ la rifiutiamo. Analogamente a prima, possiamo calcolare anche l’intervallo di confidenza per la media, che in questo caso sarà una semiretta; osservando che T = X − µ0 √ n < t∗ S ⇐⇒ S µ0 > X − t∗ √ n deduciamo che l’intervallo di confidenza è ∗ S IC = X − t √ , +∞ . n Anche in questo caso, se µ0 ∈ IC concluderemo che l’ipotesi nulla non può essere rifiutata. Esempio 3.1.1, test a una coda. Effettuiamo un test a una coda nel caso dell’Esempio 3.1.1, ad un livello di significatività α = 0.05. Consideriamo, ad esempio, il caso in cui il produttore sia interessato a stabilire se il contenuto medio delle confezioni è superiore rispetto a quello dichiarato; in tal caso • H0 : µ ≤ µ0 ; • H1 : µ > µ0 . Abbiamo già calcolato x = 497.5, s = 9.24. Questa volta cerchiamo, nella Tabella C, il quantile t∗ = t9, 0.95 = 1.833 relativo alla distribuzione t9 (t di Student con ν = n − 1 = 9 gradi di libertà) per il test a una code con α = 0.05. La regione di accettazione è dunque RA = (−∞, t∗ ) = (−∞, 1.833). Il consuntivo T è già stato calcolato e vale t = −0.85. Anche in questo caso, esso cade all’interno della regione di accettazione; concludiamo dunque che l’ipotesi nulla H0 non può essere rifiutata al livello di confidenza del 95%. In altre parole, a questo livello di confidenza non c’è evidenza che la media sia superiore a quella dichiarata dal produttore. Appunti di Statistica 41 Possiamo arrivare alla stessa conclusione anche calcolando l’intervallo di confidenza per la media: ∗ s IC(α = 0.05) = x − t √ , +∞ = (492.1 , +∞) n e osservando che µ0 ∈ IC. Riassumiamo quando detto finora nella seguente tabella; t∗ rappresenta il quantile, per il dato numero ν = n−1 di gradi di libertà e per il dato livello di significatività α, che si può ricavare dalla Tabella C per il test a una o due code. Abbiamo inoltre √ ∗ posto δ := t S/ n. Test due code una coda una coda 3.2 3.2.1 H0 µ = µ0 µ ≤ µ0 µ ≥ µ0 H1 µ 6= µ0 µ > µ0 µ < µ0 Val. crit. −t∗ , t∗ t∗ −t∗ RA (−t∗ , t∗ ) (−∞, t∗ ) (−t∗ , +∞) IC X − δ, X + δ X − δ, +∞ −∞, X + δ Confronto di medie fra gruppi Confronto fra le medie di due gruppi In questo paragrafo analizzeremo una situazione simile a quella descritta nel Paragrafo 2.3.2. Supponiamo dunque di avere due popolazioni distribuite normalmente, con la stessa varianza; come già osservato, le due popolazioni sono distribuite dunque come due variabili aleatorie indipendenti X ∼ N (µ1 , σ 2 ), Y ∼ N (µ2 , σ 2 ). Vogliamo effettuare un test statistico per vedere se ci sono differenze significative fra le medie di queste due popolazioni. Le ipotesi statistiche saranno dunque: • ipotesi nulla H0 : non ci sono differenze fra le medie (vale a dire, le due popolazioni sono di fatto la stessa popolazione); • ipotesi alternativa H1 : esistono differenze significative fra le due popolazioni. In questo caso è conveniente considerare la differenza fra le due medie; in tal modo, le nostre ipotesi statistiche si possono enunciare come: • ipotesi nulla H0 : µ1 − µ2 = 0; • ipotesi alternativa H1 : µ1 − µ2 6= 0. 42 G. Crasta A questo punto, dopo aver fissato il livello di significatività α, estraiamo un campione da ciascuna popolazione; siano dunque X1 , . . . , Xn1 ∼ N (µ1 , σ 2 ), Y1 , . . . , Yn2 ∼ N (µ2 , σ 2 ), variabili aleatorie indipendenti. Come abbiamo già detto nel Paragrafo 2.3.2, la variabile aleatoria (X 1 − X 2 ) − (µ1 − µ2 ) (3.2) T = p S 2 (1/n1 + 1/n2 ) si distribuisce come una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà. Ricordiamo che, in questa formula, S12 , S22 sono le varianze campionare del primo e del secondo campione, mentre S 2 è la stima combinata della varianza definita in (2.4): (n1 − 1)S12 + (n2 − 1)S22 2 S = . n1 + n2 − 2 Supponiamo ora che l’ipotesi nulla H0 sia vera, cioè che µ1 = µ2 . In tal caso avremo che la variabile aleatoria X1 − X2 T =p S 2 (1/n1 + 1/n2 ) (3.3) si distribuirà come una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà. Osserviamo che il valore di T sarà “piccolo” se le due medie campionarie sono vicine, mentre tenderà ad essere grande quando le due medie campionarie sono molto differenti. Indichiamo con t∗ il quantile della distribuzione t di Student con ν gradi di libertà per il test a due code con area delle code P pari al livello di significatività α. (Per essere precisi, t∗ è il quantile di ordine 1 − α/2, tale per cui P (tν > t∗ ) = α/2.) Per quanto detto, P (−t∗ < T < t∗ ) = 1 − α. Ciò significa che, se l’ipotesi H0 è vera, allora il consuntivo T calcolato in (3.3) cadrà, nel (1 − α) · 100% dei casi nell’intervallo (−t∗ , t∗ ); questo intervallo è detto regione di accettazione (RA) del test. Le due code, vale a dire (−∞, −t∗ ] ∪ [t∗ , +∞) rappresentano invece la regione di rifiuto (RR); per questo motivo il test è detto a due code. In conclusione, se il valore calcolato di T cade nella regione di accettazione (−t∗ , t∗ ), allora accettiamo (o meglio, non rifiutiamo) l’ipotesi nulla H0 , mentre in caso contrario rifiutiamo l’ipotesi nulla. Questo tipo di test, basato sulla distribuzione t di Student, è anche detto test di Student per il confronto delle medie di due popolazioni. Riassumendo, in questo caso la variabile aleatoria T definita in (3.3) è il nostro consuntivo, o la nostra statistica test; la regione di accettazione corrisponde all’insieme dei valori del consuntivo che portano all’accettazione dell’ipotesi nulla H0 , mentre la regione di rifiuto corrisponde all’insieme dei valori del consuntivo che portano al rifiuto dell’ipotesi nulla H0 . I valori critici sono quei valori che separano la regione di accettazione da quella di rifiuto (nel caso in esame ±t∗ ). Appunti di Statistica 43 Test t a due code Ipotesi nulla H0 µ1 = µ2 Ipotesi alternativa H1 µ1 6= µ2 Regione di accettazione RA (−t∗ , t∗ ) Regione di rifiuto RR (−∞, −t∗ ] ∪ [t∗ , +∞) Esercizio 3.2.1. Abbiamo i seguenti due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza: xj yj 42 38 42 26 35 44 45 37 46 31 58 45 33 36 29 44 26 Stabilire se esistono differenze significative fra le medie ai livelli di significatività dell’1% e del 5%. Svolgimento. Poiché, per ipotesi, i campioni sono estratti casualmente da popolazioni normali aventi la stessa varianza, possiamo effettuare il test di ipotesi sopra descritto, con • ipotesi nulla H0 : µ1 = µ2 ; • ipotesi alternativa H1 : µ1 6= µ2 . Iniziamo a calcolare, usando la calcolatrice, medie e varianze campionarie; riassumiamo i dati nella seguente tabella: nj xj s2j Gruppo 1 8 41.25 82.21 Gruppo 2 9 36.33 54.74 La stima combinata per la varianza è (n1 − 1)s21 + (n2 − 1)s22 7 · 82.21 + 8 · 54.74 s = = = 67.56 . n1 + n2 − 2 15 2 Calcoliamo ora il consuntivo T : x1 − x2 41.25 − 36.33 t= p =p = 1.23 . s2 (1/n1 + 1/n2 ) 67.56 · (1/8 + 1/9) Per quanto riguarda i valori critici, dobbiamo cercare, nella Tabella C, i quantili t∗0.05 e t∗0.01 relativi alla distribuzione t di Student con ν = n1 + n2 − 2 = 15 gradi di libertà per il test a due code, che sono t∗0.05 = 2.131, t∗0.01 = 2.948. Le regioni di accettazione sono dunque RA(α = 0.05) = (−2.131, 2.131), RA(α = 0.01) = (−2.948, 2.948). In entrambi i casi il consuntivo cade nella regione di accettazione, quindi in entrambi i casi non si può rifiutare l’ipotesi nulla H0 . 44 G. Crasta Intervalli di confidenza. Il test di ipotesi sopra descritto può essere interpretato anche in termini di intervalli di confidenza. Abbiamo infatti detto che la variabile aleatoria (X 1 − X 2 ) − (µ1 − µ2 ) T = p S 2 (1/n1 + 1/n2 ) si distribuisce come una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà. Chiaramente, la vera differenza fra le medie µ1 − µ2 è ignota allo sperimentatore. Sappiamo però che, con probabilità 1−α, il valore osservato di T cadrà nell’intervallo (−t∗ , t∗ ) (dove t∗ è il quantile di ordine 1 − α/2 della distribuzione t di Student con ν gradi di libertà), cioè −t∗ < (X 1 − X 2 ) − (µ1 − µ2 ) p < t∗ . S 2 (1/n1 + 1/n2 ) Questo significa che, con probabilità 1 − α, la differenza fra le vere medie sta nell’intervallo s s 1 1 1 1 ∗ ∗ 2 2 + + (X 1 − X 2 ) − t S < µ1 − µ2 < (X 1 − X 2 ) + t S . n1 n2 n1 n2 Tale intervallo è detto intervallo di confidenza (IC) per la differenza delle medie al 100(1 − α)% (ad esempio, se α = 0.05 questo sarà l’intervallo di confidenza al 95%). Dal punto di vista del test delle ipotesi, se tale intervallo contiene lo zero, allora non possiamo rifiutare l’ipotesi nulla; in altri termini, non abbiamo evidenza (al livello di significatività α) che ci sia una differenza fra le medie. Viceversa, se 0 non appartiene a tale intervallo, allora possiamo rifiutare l’ipotesi nulla (al dato livello di significatività). Esercizio 3.2.2. Calcolare gli intervalli di confidenza per la differenza delle medie nella situazione descritta nell’Esercizio 3.2.1. Svolgimento. Calcoliamo prima le semiampiezze degli intervalli di confidenza: s s 1 1 1 1 2 + = 2.131 · 67.56 + = 8.51, δ0.05 := t15, 0.975 s n1 n2 8 9 s s 1 1 1 1 2 δ0.01 := t15, 0.995 s + = 2.948 · 67.56 + = 11.77. n1 n2 8 9 Poiché la differenza fra le medie campionarie vale x − y = 4.92, i relativi intervalli di confidenza sono: 4.92 − 8.51 < µ1 − µ2 < 4.92 + 8.51 cioè IC(α = 0.05) = (−3.59, 13.43), 4.92 − 11.77 < µ1 − µ2 < 4.92 + 11.77 cioè IC(α = 0.01) = (−6.85, 16.69). Appunti di Statistica 45 Vediamo che, in entrambi i casi, l’intervallo di confidenza per la differenza delle medie contiene il valore 0; questa è indicazione del fatto che l’ipotesi nulla non può essere rifiutata. Con un software statistico come R l’Esercizio 3.2.1 può essere svolto nel seguente modo (riportiamo solo il caso α = 0.05). > > > + x <- c(42, 42, 35, 45, 46, 58, 33, 29) y <- c(38, 26, 44, 37, 31, 45, 36, 44, 26) t.test(x, y, conf.level=0.95, var.equal=TRUE, alternative="two.sided") Two Sample t-test data: x and y t = 1.231, df = 15, p-value = 0.2373 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -3.596664 13.429998 sample estimates: mean of x mean of y 41.25000 36.33333 Come si può notare, le informazioni riportate da R riguardano l’intervallo di confidenza (95 percent confidence interval) e il p–value (valore p in italiano) del test. Il p–value rappresenta la probabilità di sbagliare affermando che il test ha rilevato una differenza reale fra i campioni. Quindi, un basso valore del p–value (inferiore, per esempio, a 0.05 oppure a 0.01, a seconda del livello di significatività che abbiamo deciso di utilizzare), indica che il test ha rilevato una differenza reale fra i campioni. Viceversa, un valore alto del p–value (superiore, ad esempio, a 0.01, 0.05, a seconda del livello di significatività scelto) indica che il test non ha rilevato differenze significative fra i campioni. Il p–value può anche essere interpretato come il più piccolo livello di significatività α per il quale i dati osservati indicano che l’ipotesi nulla dovrebbe essere rifiutata. Finora abbiamo analizzato il caso di test a due code, per i quali la regione di rifiuto RR è costituita dall’unione di due code della distribuzione t di Student. Spesso succede però che si sia interessati a stabilire se, ad esempio, un certo trattamento porti ad un aumento (o a una diminuzione) della media. Esempio 3.2.3. Si vuole stabilire se un certo farmaco è efficace nel trattamento dell’ipertensione. Si considerano dunque due gruppi di persone, estratte casualmente da una popolazione di pazienti ipertesi; al primo gruppo (detto di controllo) viene somministrato un placebo, mentre il secondo gruppo (detto di trattamento) 46 G. Crasta viene trattato col farmaco. I dati relativi alla pressione arteriosa sono raccolti nella seguente tabella: controllo trattamento 118 108 128 108 144 111 126 116 137 98 145 96 134 128 146 163 139 117 111 118 In questo esempio siamo interessati a sapere se la media del primo gruppo è significativamente maggiore di quella del secondo; in tal caso, infatti, potremmo dire che il farmaco è efficace. In altri termini, le ipotesi statistiche per questo test saranno: • ipotesi nulla H0 : µ1 ≤ µ2 ; • ipotesi alternativa H1 : µ1 > µ2 . La variabile aleatoria T definita in (3.2) si distribuisce anche in questo caso come una variabile t di Student con ν = n1 + n2 − 2 gradi di libertà. Fissiamo il livello di significatività α e indichiamo con t∗ il quantile di ordine 1 − α (che si puà trovare nella Tabella C, test a una coda). Se l’ipotesi nulla è vera, allora il consuntivo X1 − X2 T =p 2 S (1/n1 + 1/n2 ) cadrà, con probabilità (1 − α), nella regione di accettazione (−∞, t∗ ). Di conseguenza, l’ipotesi nulla verrà accettata (o meglio, non verrà rifiutata) se T < t∗ , mentre verrà rifiutata se T ≥ t∗ . Un analogo ragionamento vale per il calcolo dell’intervallo di confidenza, che in questo caso sarà una semiretta; avremo infatti che s ! 1 1 + , +∞ . (3.4) IC = X − Y − t∗ S 2 n1 n2 Simmetricamente, si può trattare il caso in cui • ipotesi nulla H0 : µ1 ≥ µ2 ; • ipotesi alternativa H1 : µ1 < µ2 ; si avrà che la regione di accettazione sarà del tipo (−t∗ , +∞), mentre l’intervallo di confidenza sarà la semiretta s ! 1 1 + . IC = −∞ , X − Y + t∗ S 2 n1 n2 Riassumiamo quando detto finora nella seguente tabella; t∗ rappresenta il quantile, per il dato numero ν di gradi di libertà e per il dato livello di significatività α, Appunti di Statistica 47 che si può ricavare dalla Tabella C per il test a una o due code. Abbiamo inoltre posto s 1 1 ∗ 2 + . D := X − Y , δ := t S n1 n2 Test due code una coda una coda H0 µ1 = µ2 µ1 ≤ µ2 µ1 ≥ µ2 H1 µ1 6= µ2 µ1 > µ2 µ1 < µ2 Val. crit. −t∗ , t∗ t∗ −t∗ RA (−t∗ , t∗ ) (−∞, t∗ ) (−t∗ , +∞) IC (D − δ, D + δ) (D − δ, +∞) (−∞, D + δ) Ricordiamo che, in generale, T ∈ RA se e solo se 0 ∈ IC (qui 0 è la differenza delle medie nel caso in cui si assuma H0 verificata). Effettuiamo i calcoli nel caso dell’Esempio 3.2.3, ad un livello di significatività α = 0.01. Iniziamo a calcolare medie e varianze campionarie: nj xj s2j controllo 10 134.0 201.1 trattamento 10 115.1 252.1 e determiniamo la stima combinata per la varianza, s2 = 226.6. Il consuntivo T vale dunque x1 − x2 134.0 − 115.1 t= p =q = 2.81. 2 1 1 s (1/n1 + 1/n2 ) 226.6 10 + 10 Individuiamo il valore critico t∗ andando a consultare la Tabella C, con ν = n1 + n2 − 2 = 18 gradi di libertà, α = 0.01, per il test a una coda; otteniamo t∗ = 2.552. Le regioni di accettazione e rifiuto sono, in questo caso, RA = (−∞, t∗ ) = (−∞, 2.552), RR = [t∗ , +∞) = [2.552, +∞). Il consuntivo T cade nella regione di rifiuto; possiamo quindi rifiutare l’ipotesi nulla e concludere, al livello di confidenza del 99%, che il farmaco ha effetto per ridurre la pressione arteriosa. Possiamo anche calcolare l’intervallo di confidenza utilizzando la formula (3.4): IC(α = 0.01) = (134.0 − 115.1 − 17.18, +∞) = (1.72, +∞). Poiché il valore 0 non appartiene all’intervallo di confidenza, anche in questo modo possiamo stabilire che l’ipotesi nulla può essere rifiutata al livello di confidenza del 99%. 48 3.2.2 G. Crasta Test t per dati appaiati Nel test t per dati appaiati i soggetti di uno stesso gruppo vengono osservati prima e dopo essere stati sottoposti ad un solo trattamento. Il test riguarda la variazione media prodotta dal trattamento, anziché la differenza delle risposte medie come avviene nel test t classico. Supponiamo dunque di avere un gruppo di n elementi. Misuriamo, per ciascun elemento, il parametro oggetto di studio. Sottoponiamo poi gli elementi del gruppo al trattamento e misuriamo nuovamente il parametro in questione. Per ogni elemento avremo quindi una misura della variazione nel parametro, che sarà la differenza fra la misura dopo il trattamento e quella prima del trattamento. Dato dunque questo insieme d1 , . . . , dn di variazioni, possiamo calcolarne la media d e la deviazione standard Sd : v u n n X u 1 X 1 t d= di , Sd = (di − d)2 . n i=1 n − 1 i=1 Questo ci consente di calcolare l’errore standard per la media delle differenze, che sarà dato da Sd Sd = √ . n Se δ è la variazione media dovuta al trattamento della popolazione, allora la statistica T = d−δ Sd si distribuisce approssimativamente, per n grande, come la variabile aleatoria t di Student con ν = n − 1 gradi di libertà. Ricordiamo che, come per tutti i test t, si suppone sempre che la popolazione sia distribuita, almeno approssimativamente, in maniera normale. Quindi, se vogliamo testare l’ipotesi nulla H0 : δ = 0, calcoleremo il valore T = d/Sd e lo confronteremo col valore critico per ν = n−1 gradi di libertà. Esempio 3.2.4. Su un gruppo di n = 11 soggetti è stata misurata la percentuale di aggregazione piastrinica prima e dopo aver fumato una sigaretta. Si vuole testare l’ipotesi nulla che il fumo non produca variazioni (test a due code). Le variazioni misurate di questa percentuale sono 2, 4, 10, 12, 16, 15, 4, 27, 9, -1, 15. Poiché il valore calcolato t = d/sd è maggiore del quantile t1−α/2 = 3.17, possiamo rifiutare l’ipotesi nulla al livello di significatività α = 0.01. 3.2.3 Confronto fra le medie di più gruppi Spesso succede che si debbano confrontare le medie di più di due popolazioni; lo sperimentatore potrebbe, ad esempio, voler confrontare l’effetto di due farmaci, utilizzando inoltre un gruppo di controllo (trattato con placebo). In questi casi si può Appunti di Statistica 49 utilizzare il test di Fisher (o F-test), che è un’analisi della varianza (ANOVA – Analysis of Variance) ad una via (one–way layout, vale a dire, consideriamo un singolo fattore con k ≥ 2 livelli del trattamento). Da un punto di vista matematico supporremo dunque di avere k ≥ 2 popolazioni distribuite normalmente e con uguale varianza. Il nostro scopo è di rilevare eventuali differenze fra le medie delle popolazioni (i livelli del trattamento) e di quantificare queste differenze; a tale proposito estrarremo campioni indipendenti da ciascuna di esse. L’ipotesi nulla è che i k fenomeni aleatori siano in realtà un unico fenomeno normale con media comune. Per ogni j = 1, . . . k, supponiamo che la j-esima popolazione sia distribuita normalmente con media µj e varianza σ 2 . Indichiamo con nj la numerosità campionaria del j-esimo gruppo, j = 1, . . . , k; il j-esimo campione sarà dunque costituito da nj variabili aleatorie indipendenti X1j , X2j , . . . , Xnj j ∼ N (µj , σ 2 ), j = 1, . . . , k. Indichiamo con X j la media campionaria relativa al j-esimo campione (spesso nei testi di statistica tale media viene indicata con X ·j ), cioè nj 1 X Xij X j ≡ X ·j = nj i=1 j = 1, . . . , k . Indichiamo poi con X la media campionaria relativa a tutte le osservazioni (che, in generale, non coincide con la media delle medie, dal momento che le numerosità campionarie possono essere diverse): nj k 1 XX X= Xij , N j=1 i=1 N= k X nj (numero totale di esperimenti). j=1 Definiamo a questo punto SStra = k X nj (X j − X)2 , j=1 SSentro = nj k X X (Xij − X j )2 , j=1 i=1 2 Stra = SStra , k−1 2 Sentro = SSentro N −k 2 2 (SS sta per Sum of Squares, somma dei quadrati). Le quantità Stra ed Sentro sono dette, rispettivamente, varianza tra gruppi e varianza entro i gruppi. Il 2 2 e Sentro : consuntivo F è definito come il rapporto fra le quantità Stra F = 2 Stra . 2 Sentro (3.5) I risultati dell’analisi della varianza vengono generalmente riassunti in una tabella dell’analisi della varianza (ANOVA table in inglese) come segue: 50 G. Crasta Trattamenti Errore d.f. k−1 N −k SS SStra SSentro S2 2 tra Stra = SS k−1 2 Sentro = SSNentro −k F F = 2 Stra 2 Sentro La sigla “d.f.” sta per degrees of freedom (gradi di libertà). I principali software statistici hanno una funzione che permette il calcolo automatico della tabella dell’ANOVA (ad esempio, con R questa tabella si ottiene col comando ‘anova’). Vediamo ora come vanno interpretati i dati riportati nella tabella dell’ANOVA (per maggiori dettagli si veda il Paragrafo 3.4.2). Sappiamo, per ipotesi, che le k popolazioni sono distribuite normalmente con la stessa varianza σ 2 . Poiché µj la media della j-esima popolazione, avremo che Xij = µj + ij , ij ∼ N (0, σ 2 ). (3.6) P Detta µ = ( kj=1 µj )/k la media globale, abbiamo inoltre che k 1X µj , µ= k j=1 µj = µ + τj , k X τj = 0. (3.7) j=1 La quantità τj = µj − µ è detta effetto del trattamento j-esimo. Complessivamente, abbiamo che Xij = µ + τj + ij , ij ∼ N (0, σ 2 ). (3.8) 2 fornisce sempre uno stimatore corretto della varianza σ 2 , indiLa quantità Sentro pendentemente dal fatto che le popolazioni abbiano la stessa media oppure no (o, equivalentemente, indipendentemente dal fatto che l’ipotesi nulla sia vera oppure no). Si ha infatti 2 Sentro k SSentro 1 X = (nj − 1)Sj2 = N −k N − k j=1 (3.9) e si può dimostrare che 2 E(Sentro ) = σ2, SSentro ∼ χ2N −k , σ2 (3.10) dove χ2N −k è la distribuzione chi–quadrato con N − k gradi di libertà. Per quanto 2 riguarda Stra , si può dimostrare che k 2 E(Stra ) = σ2 + 1 X nj (τj − τ )2 , k − 1 j=1 Distinguiamo ora i due casi: τ := k 1 X nj τj . N j=1 (3.11) Appunti di Statistica 51 a) H0 è vera, cioè µ1 = · · · = µk = µ. In tal caso si ha τ1 = · · · = τk = τ = 0, e 2 ) = σ 2 . Inoltre, in questo caso si può dimostrare che da (3.11) ricaviamo che E(Stra SStra ∼ χ2k−1 σ2 (se µ1 = µ2 = · · · = µk ). (3.12) Di conseguenza, dalla definizione della variabile di Fisher F concludiamo che il consuntivo SStra /(k − 1) S2 2 σ F = SSentro = 2tra , Sentro /(N − k) σ2 che è esattamente la quantità definita in (3.5), si distribuisce come una variabile di Fisher con νn = k − 1 gradi di libertà al numeratore e νd = N − k gradi di libertà al denominatore. (Se i gruppi hanno la stessa numerosità n, si ha νd = k(n − 1)). 2 non è più uno stimatore corretto b) H0 è falsa. In questo caso, il termine Stra 2 2 tende a sovrastimare σ 2 ; di della varianza σ . Si vede infatti da (3.11) che Stra conseguenza, tanto più F è grande, tanto maggiore è l’evidenza a supporto del fatto che H0 sia da rifiutare. I quantili delle distribuzioni di Fisher sono tabulati nella Tabella D; indicato con f il quantile di ordine 1 − α della distribuzione F con νn = k − 1 gradi di libertà a numeratore e νd = N − k gradi di libertà a denominatore, abbiamo che ∗ • se F < f ∗ , l’ipotesi nulla viene accettata (o meglio, non viene respinta); • se F > f ∗ , l’ipotesi nulla viene rifiutata. Esercizio 3.2.5. Quattro gruppi di studenti sono stati sottoposti a quattro differenti tecniche di insegnamento per un certo periodo di tempo. I risultati ottenuti nei test dagli studenti sono i seguenti: - gruppo 1: 65, 87, 73, 79, 81, 69 - gruppo 2: 75, 69, 83, 81, 72, 79, 90 - gruppo 3: 59, 78, 67, 62, 83, 76 - gruppo 4: 94, 89, 80, 88 Si vuole sapere se i dati indicano l’esistenza di differenze significative fra i quattro metodi d’insegnamento. Svolgimento. Cominciamo a riassumere i parametri dei k = 4 gruppi in una tabella: nj xj s2j Gruppo 1 6 75.66 66.66 Abbiamo che N= k X j=1 Gruppo 2 7 78.43 50.62 nj = 23, x= Gruppo 3 6 70.83 91.77 Gruppo 4 4 87.75 33.58 k 1 X nj xj = 77.35 . N j=1 52 G. Crasta Calcoliamo poi sstra = k X s2tra = (nj − 1)s2j = 1196.6, s2entro = j=1 ssentro = k X sstra = 237.6, k−1 nj (xj − x)2 = 713.0, j=1 ssentro = 63.0 . N −k Il consuntivo F vale quindi f= s2tra = 3.77 . s2entro Riassumiamo i calcoli nella tabella dell’analisi della varianza: Trattamenti Errore d.f. 3 19 SS S2 713.0 237.6 1196.6 63.0 F 3.77 Nella tabella relativa alla distribuzione di Fisher con νn = k − 1 = 3 gradi di libertà al numeratore e νd = N − k = 19 gradi di libertà al denominatore troviamo i valori ∗ ∗ ∗ ∗ concludiamo che esistono < f < f0.01 = 5.01. Poiché f0.05 = 3.19, f0.01 critici f0.05 differenze significative fra le medie al livello di confidenza del 95%, mentre non c’è evidenza per affermare che esistono differenze significative fra le medie al livello di confidenza del 99%. In particolare questo ci dice che il p–value del test è compreso fra 0.01 e 0.05 (il calcolo esatto può essere fatto con un software statistico e fornisce p = 0.028). Intervalli di confidenza. Gli intervalli di confidenza per la media del trattamento j-esimo o per la differenza tra il trattamento j-esimo e il trattamento r-esimo hanno estremi rispettivamente Sentro X j ± t∗ √ nj e s (X j − X r ) ± t∗ Sentro 1 1 + , nj nr dove t∗ = tN −k, 1−α/2 è il quantile di ordine 1 − α/2 della distribuzione t di Student con N − k gradi di libertà. Tornando all’Esempio 3.2.5, abbiamo che l’intervallo di confidenza al 95% per la media del gruppo 1 è √ 75.667 ± 2.093 62.980 √ 6 cioè 68.885 < µ1 < 82.448. Appunti di Statistica 53 L’intervallo di confidenza al 95% per la differenza fra le medie del primo e del quarto gruppo è invece r √ 1 1 (75.667 − 87.750) ± 2.093 62.980 + cioè − 22.805 < µ1 − µ4 < −1.361. 6 4 Questo suggerisce che µ4 > µ1 , poiché l’intervallo di confidenza della differenza delle medie è tutto contenuto nella semiretta x < 0. L’uso di questi intervalli di confidenza in un test di ipotesi non è tuttavia corretto, in quanto tende a sottostimare l’errore di prima specie. In caso l’ipotesi nulla venga rifiutata, per identificare quale gruppo (o gruppi) differiscano dagli altri è necessario utilizzare una procedura per i confronti multipli. Le più note procedure per i confronti multipli sono il test di Bonferroni, il test di Holm e il test SNK di Student–Newman–Keuls, la cui descrizione esula però dagli scopi di questa introduzione. 3.3 3.3.1 Verifica di relazione tra variabili Regressione lineare Molto spesso ci si aspetta che due variabili numeriche siano in relazione lineare una con l’altra. Ad esempio, ci si può aspettare (almeno approssimativamente) che il peso di un individuo dipenda in maniera lineare dalla sua altezza. Dato quindi un insieme di valori (xi , yi ), i = 1, . . . , n, vogliamo determinare una retta nel piano xy che approssimi il meglio possibile (nel senso che spiegheremo fra poco) la distribuzione dei punti (xi , yi ) nel piano. Quantificheremo inoltre la bontà di questa approssimazione con un numero detto coefficiente di correlazione. Lo studio di questo problema è detto regressione lineare. Veniamo ora alla descrizione del problema. In generale avremo una variabile indipendente x (ad esempio, l’altezza di una popolazione) e una variabile dipendente y (ad esempio, il peso della popolazione). Ci aspettiamo che fra x e y intercorra una relazione lineare del tipo y = α + β x. Il parametro α è l’ordinata all’origine (o intercetta, in inglese intercept), mentre il parametro β è il coefficiente angolare della retta (in inglese slope). Nella realtà non si osserva mai una relazione deterministica fra x e y come quella scritta sopra: ad esempio, se riportiamo in un grafico i valori (altezza,peso), è praticamente impossibile che questi punti stiano tutti su una stessa retta. Il modello che si adotta dal punto di vista statistico è il seguente. Per ogni valore della variabile indipendente x, supponiamo di avere una variabile aleatoria Y = Yx tale che E[Yx ] = α + β x 54 G. Crasta o, equivalentemente, Yx = α + β x + , dove è una variabile aleatoria avente media nulla. Per semplificare il modello si assume che non dipenda da x; come conseguenza, al variare di x le variabili aleatorie Yx hanno media data da α + β x, ma la loro distribuzione mantiene sempre la stessa forma e, in particolare, la stessa varianza. Vogliamo ora stimare i due parametri α e β a partire dai dati osservati. Indicheremo con a e b queste stime; essi saranno l’intercetta e il coefficiente angolare di una retta, detta retta di regressione o retta dei minimi quadrati. Supponiamo dunque di avere i punti (xi , yi ), i = 1, . . . , n, con le xi non tutte coincidenti. Vogliamo calcolare l’equazione della retta che meglio approssima l’andamento di questi dati, nel senso spiegato di seguito. In generale i punti (xi , yi ) non staranno su questa retta; possiamo definire le quantità i tramite la relazione yi = a + b xi + i , i = 1, . . . , n . In altri termini, i = yi − (a + b xi ) è la differenza fra l’ordinata del punto (xi , yi ) e quella del punto di ascissa xi sulla retta di regressione. Tali quantità sono anche dette residui (residuals in inglese). Vogliamo ora determinare a e b in modo da minimizzare l’errore quadratico, cioè la somma dei quadrati degli errori: n X i=1 2i n X = (yi − a − b xi )2 . i=1 Sviluppando i quadrati a secondo membro, otteniamo che n X 2i = (ΣY 2 ) + n a2 + b2 (ΣX 2 ) − 2a(ΣY ) − 2b(ΣXY ) + 2a b(ΣX), (3.13) i=1 dove ΣX = n X i=1 xi , ΣY = n X i=1 yi , ΣXY = n X i=1 x i yi , ΣX 2 = n X i=1 x2i , ΣY 2 = n X yi2 . i=1 Minimizziamo ora l’errore quadratico. I valori di a e b che minimizzano il secondo membro di (3.13) sono quelli tali che le derivate rispetto ad a e b di tale quantità sono nulle1 , cioè ( 2n a − 2(ΣY ) + 2b(ΣX) = 0, 2b(ΣX 2 ) − 2(ΣXY ) + 2a(ΣX) = 0 . Possiamo risolvere questo sistema, ad esempio, per sostituzione. Dalla prima equazione ricaviamo 1 1 a = ΣY − b · ΣX = y − b x. n n 1 Questa affermazione segue dal fatto che l’errore quadratico è una funzione convessa nelle variabili (a, b). Appunti di Statistica 55 Sostituendo nella seconda equazione otteniamo 1 ΣXY − n1 (ΣX)(ΣY ) ΣXY − n1 (ΣX)(ΣY ) n−1 . b= = 1 2 − 1 (ΣX)2 ΣX 2 − n1 (ΣX)2 ΣX n−1 n Nell’ultima riscrittura di b è presente, a denominatore, la varianza campionaria s2x di x. A numeratore compare invece la covarianza campionaria, definita da " n # X 1 (xi − x)(yi − y) cov(x, y) := n − 1 i=1 (3.14) 1 1 ΣXY − (ΣX)(ΣY ) . = n−1 n Da un punto di vista operativo, utilizzando una calcolatrice scientifica per il calcolo della retta di regressione può essere conveniente procedere come segue. A partire dalla tabella dei dati grezzi, si calcolano innanzitutto le quantità ΣX, x, ΣX 2 , sx , ΣY , y, ΣY 2 , s2y , ΣXY . (Alcune di queste quantità non servono per il calcolo della retta di regressione, ma verranno utilizzate in seguito.) Si calcola poi la covarianza cov(X, Y ) utilizzando la formula (3.14); a questo punto possiamo calcolare il coefficiente angolare b della retta di regressione b= cov(x, y) s2x (3.15) e, infine, calcolare l’ordinata all’origine (o intercetta) a: a = y − b x. (3.16) Un indice della “forza dell’associazione” fra le due variabili è dato dal coefficiente di correlazione di Pearson, definito da Σ(xi − x)(yi − y) Σ(xi − x)(yi − y) , r := p = 2 2 (n − 1)sx sy Σ(xi − x) Σ(yi − y) (3.17) che può essere riscritto, ricordando la definizione di covarianza, come r= cov(x, y) . sx sy È facile verificare che si ha sempre −1 ≤ r ≤ 1; inoltre r = ±1 quando tutti i dati osservati (xi , yi ) stanno esattamente sulla retta di regressione y = a + b x (in particolare, r = 1 se b > 0, mentre r = −1 se b < 0). Si può dimostrare che la variabile r t= p ∼ tn−2 (1 − r2 )/(n − 2) si distribuisce come la variabile t di Student con n − 2 gradi di libertà. 56 G. Crasta Esempio 3.3.1. Empiricamente si osserva che il numero massimo di battiti cardiaci al minuto di una persona sia legato all’età della persona. Supponiamo di avere effettuato le seguenti osservazioni: Età Battiti 18 202 23 186 25 187 35 180 65 156 54 169 34 174 56 172 72 153 19 199 23 193 42 174 18 198 39 183 37 178 Determiniamo la retta di regressione e il coefficiente di correlazione. Abbiamo n = 15 coppie. Utilizzando la calcolatrice, cominciamo a calcolare ΣX = 560, x = 37.33, sx = 17.49, ΣX 2 = 25188, ΣXY = 97534, ΣY = 2704, y = 180.37, sy = 14.63, ΣY 2 = 490438. La covarianza campionaria è 1 1 cov(x, y) = ΣXY − (ΣX)(ΣY ) = −243.95, n−1 n mentre il coefficiente di correlazione di Pearson vale r= cov(x, y) = −0.95. sx sy Il valore di r indica che c’è una forte correlazione lineare fra x e y. Ricaviamo i coefficienti della retta di regressione y = a + bx: cov(x, y) = −0.798, s2x a = y − b · x = 210.05. 180 160 170 Battiti 190 200 b= 20 30 40 50 60 70 Eta’ Figura 3.1: Retta di regressione dell’Esempio 3.3.1 Appunti di Statistica 57 Per eseguire dei test statistici sui parametri α e β della retta di regressione, l’ipotesi standard è che gli errori (definiti da = Y − α − β x) siano indipendenti e si distribuiscano normalmente con media 0 e una certa varianza σ 2 . Uno stimatore corretto di σ 2 è dato da n 1 X 2 n−1 2 2 2 i = SY − b2 SX . (3.18) S = n − 2 i=1 n−2 Analogamente, si può dimostrare che i coefficienti a e b, calcolati in (3.15) e (3.16), sono stimatori corretti rispettivamente di α e β. Gli errori standard di a e b sono dati rispettivamente da s s 2 1 X ΣX 2 S S S √ Sa = S + , S , = = b = q n Σ(X − X)2 SX n(n − 1) S n − 1 2 X Σ(X − X) dove S è l’errore standard della stima definito in (3.18). Inoltre, le statistiche t= a−α , Sa t= b−β Sb si distribuiscono come la variabile aleatoria t di Student con ν = n − 2 gradi di libertà. L’ipotesi che più frequentemente si sottopone a verifica riguarda l’esistenza di una relazione lineare fra le variabili. L’ipotesi nulla H0 è dunque che non ci sia alcuna relazione lineare fra X e Y (osserviamo che ciò non esclude la possibilità che ci sia una relazione di altro tipo). Se H0 è vera, dobbiamo avere β = 0. Possiamo dunque calcolare il valore t = b/Sb e confrontarlo col valore critico t∗ , ottenuto dalla distribuzione t di Student con ν = n − 2 gradi di libertà al dato livello di significatività. Come al solito, se |t| < t∗ accettiamo l’ipotesi nulla che non ci sia una relazione lineare fra le variabili, mentre se |t| > t∗ rifiutiamo l’ipotesi nulla e concludiamo che esiste una relazione lineare fra le variabili. Naturalmente il t-test può essere eseguito anche utilizzando gli intervalli di confidenza. L’intervallo di confidenza per il coefficiente β, al prefissato livello di significatività, sarà b − t∗ · Sb < β < b + t∗ · Sb . Se tale intervallo contiene lo 0 allora accettiamo l’ipotesi nulla, mentre se non contiene lo 0 la rifiutiamo. Per tornare all’Esempio 3.3.1, abbiamo ν = 15 − 2 = 13 gradi di libertà; il valore critico per il test a due code ad un livello di significatività dell’1% è t∗ = 3.012 (si veda la Tabella C). Poiché b = −0.79773 e Sb = 0.06996, otteniamo dunque l’intervallo di confidenza b − t∗ · Sb = −1.008 < β < −0.587 = b + t∗ · Sb , quindi rifiutiamo l’ipotesi nulla e concludiamo che esiste una relazione lineare tra le variabili. 58 3.3.2 G. Crasta Test del chi-quadrato di adattamento Il test del chi-quadrato di adattamento (χ2 -test di adattamento, in inglese χ2 goodness of fit test) si utilizza per verificare se i dati sperimentali provengono da una specifica popolazione. Vediamo subito alcuni esempi, che analizzeremo in seguito. Esempio 3.3.2. Un dado viene lanciato n = 1000 volte e vengono osservate le seguenti frequenze: 1 158 2 141 3 183 4 162 5 185 6 171 Vogliamo stabilire se il dado è regolare o truccato. Esempio 3.3.3. Gregor Mendel, nei suoi studi sulla teoria dell’ereditarietà, ottenne i seguenti dati nell’incrocio fra semi di piselli rotondi e gialli con semi di piselli grinzosi e verdi: rotondi e gialli grinzosi e gialli rotondi e verdi grinzosi e verdi Freq. osservate 315 101 108 32 Freq. teoriche 312.75 104.25 104.25 34.75 Vogliamo stabilire se le frequenze osservate si adattano bene alle frequenze teoriche calcolate in base alle leggi della teoria mendeliana sui caratteri dominanti (che prevedono frequenze nelle proporzioni 9, 3, 3, 1). In entrambi gli esempi conosciamo la popolazione “teorica”: nel primo caso sappiamo che, se il dado è regolare, le frequenze devono essere tutte uguali, mentre nel secondo caso sappiamo che, se le leggi di Mendel sono corrette, allora le frequenze sono nelle proporzioni 9, 3, 3, 1. Più in generale, supponiamo di avere un fenomeno casuale X tale che in ciascun esperimento Xi gli esiti possibili siano in tutto k (nell’Esempio 3.3.2 abbiamo k = 6, mentre nell’Esempio 3.3.3 si ha k = 4); indicheremo tali esiti con ω1 , . . . , ωk . Per ogni esito ωi è assegnata una probabilità teorica pi (nell’Esempio 3.3.2 si ha p1 = · · · = p6 = 1/6, mentre nell’Esempio 3.3.3 si ha p1 = 9/16, p2 = p3 = 3/16, p4 = 1/16). Supponiamo ora di effettuare n esperimenti X1 , . . . , Xn e di rilevare le frequenze osservate n1 , . . . , nk . Calcoliamo ora la statistica test 2 L = k X (ni − n pi )2 i=1 n pi . Appunti di Statistica 59 Osserviamo che, per ogni i = 1, . . . , k, la quantità n0i := n pi rappresenta la frequenza teorica (o attesa) dell’i-esimo evento ωi . Si può dimostrare che, per n sufficientemente grande, la statistica L2 si distribuisce approssimativamente come la variabile aleatoria χ2k−1 del chi-quadrato con ν = k − 1 gradi di libertà. Da un punto di vista operativo, si ha una buona approssimazione quando le frequenze teoriche sono tutte maggiori di 5, cioè se n0i > 5 per ogni i = 1, . . . , k, Eseguiamo ora l’analisi statistica dei dati forniti negli Esempi 3.3.2 e 3.3.3. Per quanto riguarda l’Esempio 3.3.2, abbiamo p1 = . . . = p6 = 1/6; poiché n = 1000, le frequenze teoriche sono 1 n01 = . . . = n06 = 1000 · . 6 Di conseguenza 2 2 2 2 6 h 1000 1000 1000 1000 L = + 141 − + 183 − + 162 − 158 − 1000 6 6 6 6 2 2 i 1000 1000 + 185 − + 171 − = 8.264 . 6 6 2 D’altra parte, il valore critico della distribuzione χ25 relativo al livello di significatività α = 0.01 vale circa 15.09 (si veda la Tabella B). Possiamo dunque concludere che il dado è regolare (o, meglio, che non c’è evidenza statistica per concludere che il dado è truccato). Nel caso dell’Esempio 3.3.3 il valore del consuntivo è L2 = 0.47, mentre il valore critico al livello di significatività α = 0.01, con ν = 3 gradi di libertà, vale circa 11.34. Salta all’occhio che l’adattamento è fin troppo buono. Gli storici ritengono in effetti che i dati siano stati “ritoccati” da Mendel per rendere più evidente l’adeguamento fra le frequenze osservate e quelle teoriche. Adattamento ad una legge con parametri incogniti. Accade spesso che la distribuzione teorica che lo sperimentatore si attende dipenda da uno o più parametri incogniti che vanno stimati dai dati osservati. Il problema è chiaramente più complicato di quelli analizzati sopra. La regola generale da seguire è che ogni parametro stimato toglie un grado di libertà; quindi, se abbiamo k = 10 classi e stimiamo due parametri incogniti, dovremo utilizzare la distribuzione del chi-quadrato con ν = 10 − 1 − 2 = 7 gradi di libertà. Discuteremo solo un esempio concreto. Supponiamo che un ricercatore abbia effettuato le seguenti n = 50 misure: 8.5 8.4 8.8 7.7 9.7 11.0 8.1 7.0 9.4 11.8 8.2 8.5 7.3 11.5 10.3 9.0 8.1 5.3 9.3 9.6 10.0 10.4 11.0 8.3 6.5 8.5 8.6 11.4 5.6 5.6 9.7 10.8 10.9 10.3 9.6 10.4 11.1 8.8 6.4 7.9 11.8 8.1 9.3 11.3 13.5 6.8 12.1 8.2 8.7 12.1 Il ricercatore ipotizza che i dati provengano da una legge normale (di media µ e varianza σ 2 incognite). Ci chiediamo se questa ipotesi sia ragionevolmente vera o no. 60 G. Crasta In questo caso i problemi sono due: prima dobbiamo stimare (a partire dai dati sperimentali) i parametri incogniti µ e σ, poi dobbiamo vedere se i dati sperimentali stessi si adattano alla distribuzione teorica (quella normale di media µ e varianza σ 2 ). La media µ e la varianza σ 2 della popolazione possono essere stimati rispettivamente dalla media campionaria e dalla varianza campionaria, che valgono rispettivamente x = 9.22 e s2x = 3.47. Vogliamo ora vedere se i dati si adattano alla distribuzione teorica X ∼ N (x, s2x ). Per poter eseguire il test del chi-quadrato di adattamento, dobbiamo prima suddividere i dati in classi e calcolare le frequenze osservate e teoriche. Ricordiamo che, affinché il test sia attendibile, le frequenze teoriche devono essere maggiori di 5. Poiché abbiamo complessivamente 50 osservazioni, questo significa che dovremo avere meno di 10 classi. Ad esempio, possiamo scegliere come numero di classi k = 8 e richiedere che in ogni classe la frequenza teorica sia almeno 6. Un modo di procedere è il seguente. Scegliamo k − 1 = 7 valori x1 < x2 < . . . < x7 in modo che i i = 1, . . . , 7. P (X < xi ) = , 8 In altri termini, xi è il quantile di ordine i/8 della distribuzione X ∼ N (x, s2x ). Se indichiamo con zi il quantile di ordine i/8 della distribuzione normale standard, avremo che i = 1, . . . , 7, xi = x + zi · sx , ottenendo x1 = 7.08, x2 = 7.96, x3 = 8.63, x4 = 9.22, x5 = 9.81, x6 = 10.48, x7 = 11.36 . Definiamo, per comodità, x0 = −∞ e x8 = +∞, e suddividiamo i dati nelle 8 classi (xi−1 , xi ), i = 1, . . . , 8. Per costruzione, in ciascuna di queste 8 classi le frequenze teoriche sono n0i = 50/8 = 6.25, in quanto la probabilità che xi−1 < X < xi vale 1/8 per ogni i. Le frequenze osservate nelle classi sono n1 = 7, n2 = 3, n3 = 11, n4 = 4, n5 = 7, n6 = 5, n7 = 6, n8 = 7 . Il calcolo di L2 fornisce L2 = 6.64. Questo valore va confrontato col valore critico della distribuzione chi-quadrato con ν = 8 − 1 − 2 = 5 gradi di libertà. Al livello di significatività α = 0.01, tale valore critico è 15.09. Possiamo dunque accettare l’ipotesi del ricercatore e concludere che i dati provengono da una legge distribuita normalmente. 3.4 3.4.1 Complementi Test t di Student Riprendiamo la situazione descritta nel Paragrafo 3.2.1, che riguarda il confronto fra le medie di due popolazioni. Siano X1 , X2 , . . . Xn1 e Y1 , Y2 , . . . Yn2 due campioni Appunti di Statistica 61 indipendenti estratti da due popolazioni normali aventi la stessa varianza σ 2 e medie rispettivamente µ1 e µ2 . Dimostriamo che la variabile aleatoria T = (X − Y ) − (µ1 − µ2 ) p , S 1/n1 + 1/n2 (3.19) dove S 2 è la stima combinata della varianza definita in (2.4), si distribuisce come la variabile aleatoria tν di Student con ν = n1 + n2 − 2 gradi di libertà. Cominciamo con l’osservare che, come conseguenza dei risultati esposti nel Paragrafo 1.4(3), la variabile aleatoria Z= (X − Y ) − (µ1 − µ2 ) p σ 1/n1 + 1/n2 (3.20) si distribuisce come la normale standard. Inoltre, la variabile aleatoria W = n1 n2 (n1 + n2 − 2)S 2 1 X 1 X 2 (X − (Yi − Y )2 X) + = i σ2 σ 2 i=1 σ 2 i=1 è la somma di due variabili aleatorie χ2 indipendenti, con (n1 − 1) ed (n2 − 1) gradi di libertà rispettivamente. Di conseguenza, W ∼ χ2ν . Inoltre, dalla definizione della variabile aleatoria di Student, abbiamo che Z (X 1 − X 2 ) − (µ1 − µ2 ) p T =p = , W/ν S 1/n1 + 1/n2 si distribuisce come la variabile t di Student con ν gradi di libertà. 3.4.2 Test F di Fisher Riprendiamo quanto discusso nel Paragrafo 3.2.3. In particolare, vogliamo calcolare 2 2 e Stra , già indicati nelle formule (3.10) e (3.11) i valori di aspettazione di Sentro rispettivamente. Ricordando le quantità definite in (3.6)–(3.8), abbiamo che X j = µ + τj + j , nj 1 X j := ij , nj i=1 j = 1, . . . , k. Inoltre, le variabili ij ∼ N (0, σ 2 ) sono indipendenti per ipotesi, quindi E[j ] = σ 2 /nj . Analogamente, avremo che X = µ + τ + , nj k k 1 X 1 XX nj τj , = con τ = ij . N j=1 N j=1 i=1 62 G. Crasta Poiché τj sono costanti, anche τ è una costante. Abbiamo inoltre che E[] = 0, Var() = σ 2 /N . 2 , cominciamo Per quanto riguarda il calcolo del valore di aspettazione di Sentro con l’osservare che SSentro = nj k X X 2 (Xij − X j ) = j=1 i=1 = nj k X X (ij − j )2 j=1 i=1 nj k X X (2ij − 2ij j + 2j ) = nj k X X j=1 i=1 2ij − j=1 i=1 k X nj 2j . j=1 Poiché E[ij ] = E[j ] = 0, avremo che E[2ij ] = Var(ij ) = σ 2 e E[j ] = Var(j ) = σ 2 /nj , da cui k X σ2 N σ2 − nj nj j=1 1 1 2 E[Sentro ]= E[SSentro ] = N −k N −k ! = σ2 . Infine, dal momento che (nj − 1)Sj2 /σ 2 ∼ χ2nj −1 , avremo che k SSentro X (nj − 1)Sj2 = ∼ χ2N −k . 2 σ2 σ j=1 2 , osserviamo che Per quanto riguarda il valore di aspettazione di Stra SStra = k X 2 nj (X j − X) = j=1 = k X nj (τj + j − τ − )2 j=1 k X nj (τj − τ )2 + k X nj (j − )2 + j=1 j=1 k X (3.21) 2nj (τj − τ )(j − ) . j=1 Poiché τj , τ sono costanti e E[j ] = E[] = 0, i termini dell’ultima sommatoria hanno tutti valore di aspettazione nullo. Abbiamo dunque che E[SStra ] = k X j=1 " nj (τj − τ )2 + E k X # nj (j − )2 . j=1 Osserviamo ora che k X j=1 nj (j − )2 = k k X X (nj 2j − 2nj j + nj 2 ) = nj 2j − N 2 . j=1 j=1 (3.22) Appunti di Statistica 63 Poiché E[j ] = 0, abbiamo che E[2j ] = Var(j ) = σ 2 /nj ; analogamente si ha E[2 ] = Var(2 ) = σ 2 /N e, di conseguenza, # " k k X X σ2 σ2 nj −N = (k − 1)σ 2 . E nj (j − )2 = n N j j=1 j=1 Sostituendo in (3.22) otteniamo che 2 E[SStra ] = (k − 1)σ + k X nj (τj − τ )2 , j=1 da cui segue immediatamente (3.11). Se l’ipotesi nulla è vera, cioè se τ1 = τ2 = · · · = τk = 0, segue in particolare che 2 ] = σ 2 . Inoltre, in tal caso, da (3.21) si ha che E[Stra SStra = k X nj (j − )2 (se H0 è vera). j=1 Si può dimostrare, ma la dimostrazione non è semplice, che in questo caso SStra /σ 2 ∼ χ2k−1 . 3.5 Esercizi Esercizio 3.1. Abbiamo due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente tabella: nj xj s2j Gruppo 1 8 38.05 22.52 Gruppo 2 9 43.7 24.24 Stabilire se esistono differenze significative fra le medie ai livelli di significatività dell’1% e del 5%. Determinare l’intervallo di confidenza al 95% e 99% per la differenza delle medie. Soluzione. Ipotesi nulla H0 : µ1 = µ2 ν = 15, valori critici (test a due code): t∗0.05 = ±1.753, t∗0.01 = ±2.602. Calcolo del consuntivo: t = −2.4 (p.value = 0.02962202). Regioni di accettazione: RA(0.05) = (−1.753, +1.753), RA(0.01) = (−2.602, +2.602). Intervalli di confidenza: IC(0.05) = (−10.67, −0.64), IC(0.01) = (−12.59, 1.28). L’ipotesi nulla può essere rifiutata al livello di significatività α = 0.05, mentre non può essere rifiutata al livello α = 0.01. 64 G. Crasta Esercizio 3.2. Abbiamo due campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente tabella: nj xj s2j Gruppo 1 8 46.69 59.06 Gruppo 2 7 54.42 59.99 Stabilire se si può concludere che la media del primo gruppo è inferiore a quella del secondo, ai livelli di significatività dell’1% e del 5%. Determinare l’intervallo di confidenza al 95% e 99% per la differenza delle medie. Soluzione. Ipotesi nulla H0 : µ1 ≥ µ2 ν = 13, valori critici (test a una coda) t∗0.05 = −1.771, t∗0.01 = −2.650. Calcolo del consuntivo: t = −1.94 (p.value = 0.0374). Regioni di accettazione: RA(0.05) = (−1.771, +∞), RA(0.01) = (−1.650, +∞). Intervalli di confidenza: IC(0.05) = (−∞, −0.66), IC(0.01) = (−∞, 2.85). L’ipotesi nulla può essere rifiutata al livello di significatività α = 0.05, mentre non può essere rifiutata al livello α = 0.01. Esercizio 3.3. Abbiamo tre campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente tabella: nj xj s2j Gruppo 1 8 51.28 45.96 Gruppo 2 8 48.86 32.54 Gruppo 3 7 59.47 21.07 Stabilire se esistono differenze significative fra le medie ai livelli di significatività dell’1% e del 5%. Soluzione. Tabella dell’ANOVA: d.f. SS S2 F Trattamenti 2 453.93 226.96 6.715 Errore 20 675.96 33.8 ∗ ∗ Valori critici: f0.05 = 3.493, f0.01 = 5.849. Consuntivo: f = 6.71 (p-value = 0.0059). L’ipotesi nulla (cioè che le medie delle tre popolazioni siano uguali) può essere rifiutata a entrambi i livelli di significatività. Esercizio 3.4. Sono date le seguenti osservazioni: x y 46.0 38.6 58.6 45.6 51.6 43.4 71.7 40.9 52.2 38.3 35.4 36.2 49.1 34.6 32.2 37.4 47.5 36.5 54.1 45.0 Appunti di Statistica 65 Determinare la retta di regressione y = a + b x e il coefficiente di correlazione fra x e y. Stabilire, ai livelli di significatività dell’1% e del 5%, se esiste una relazione lineare fra x e y. Calcolare l’intervallo di confidenza per b al 95% e 99%. Soluzione. Retta di regressione: y = a + b x, con a = 30.31, b = 0.187. Coefficiente di correlazione: r = 0.54. Consuntivo: tb = 1.817 (p-value = 0.107). Intervallo di confidenza per b: IC(0.95) = (−0.05, 0.43), IC(0.99) = (−0.16, 0.53). L’ipotesi nulla (che non ci sia alcuna relazione lineare fra le due variabili) non può essere rifiutata né al livello di significatività α = 0.05 né (tantomeno) al livello α = 0.01. Esercizio 3.5. Si ha la seguente tabella di frequenze: nj 19 30 29 22 20 14 30 10 Stabilire, con un test del Chi-quadrato di adattamento, se tali frequenze sono compatibili col fatto che gli eventi siano equiprobabili. 2∗ Soluzione. ν = 7, valori critici: χ2∗ 0.05 = 14.07, χ0.01 = 18.48. Consuntivo: L2 = 18.28 (p-value = 0.011). L’ipotesi nulla (che gli eventi siano equiprobabili) può essere rifiutata al livello di significatività α = 0.05, mentre non può essere rifiutata al livello di significatività α = 0.01. TABELLE A – Distribuzione normale standard Funzione di ripartizione e quantili della normale standard. x 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 P (Z < x) 0.500 0.540 0.579 0.618 0.655 0.691 0.726 0.758 0.788 0.816 0.841 0.864 0.885 0.903 0.919 0.933 x 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 P (Z < x) 0.945 0.955 0.964 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.997 0.997 0.998 0.999 0.999 P (Z < x) 0.500 0.525 0.550 0.575 0.600 0.625 0.650 0.675 0.700 0.725 0.750 0.775 0.800 0.825 0.850 0.875 66 x 0.000 0.063 0.126 0.189 0.253 0.319 0.385 0.454 0.524 0.598 0.674 0.755 0.842 0.935 1.036 1.150 P (Z < x) 0.900 0.910 0.920 0.930 0.940 0.950 0.955 0.960 0.965 0.970 0.975 0.980 0.985 0.990 0.995 0.999 x 1.282 1.341 1.405 1.476 1.555 1.645 1.695 1.751 1.812 1.881 1.960 2.054 2.170 2.326 2.576 3.090 Appunti di Statistica 67 B – Distribuzione Chi-quadrato Quantili della distribuzione χ2ν ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 60 70 80 90 100 0.005 0.00 0.01 0.07 0.21 0.41 0.68 0.99 1.34 1.73 2.16 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 8.03 8.64 9.26 9.89 10.52 11.16 11.81 12.46 13.12 13.79 14.46 15.13 15.82 16.50 17.19 17.89 18.59 19.29 20.00 20.71 24.31 27.99 35.53 43.28 51.17 59.20 67.33 0.01 0.00 0.02 0.11 0.30 0.55 0.87 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 8.90 9.54 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95 15.66 16.36 17.07 17.79 18.51 19.23 19.96 20.69 21.43 22.16 25.90 29.71 37.48 45.44 53.54 61.75 70.06 0.05 0.00 0.10 0.35 0.71 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 19.28 20.07 20.87 21.66 22.47 23.27 24.07 24.88 25.70 26.51 30.61 34.76 43.19 51.74 60.39 69.13 77.93 Probabilità di valori minori 0.1 0.9 0.95 0.975 0.02 2.71 3.84 5.02 0.21 4.61 5.99 7.38 0.58 6.25 7.81 9.35 1.06 7.78 9.49 11.14 1.61 9.24 11.07 12.83 2.20 10.64 12.59 14.45 2.83 12.02 14.07 16.01 3.49 13.36 15.51 17.53 4.17 14.68 16.92 19.02 4.87 15.99 18.31 20.48 5.58 17.28 19.68 21.92 6.30 18.55 21.03 23.34 7.04 19.81 22.36 24.74 7.79 21.06 23.68 26.12 8.55 22.31 25.00 27.49 9.31 23.54 26.30 28.85 10.09 24.77 27.59 30.19 10.86 25.99 28.87 31.53 11.65 27.20 30.14 32.85 12.44 28.41 31.41 34.17 13.24 29.62 32.67 35.48 14.04 30.81 33.92 36.78 14.85 32.01 35.17 38.08 15.66 33.20 36.42 39.36 16.47 34.38 37.65 40.65 17.29 35.56 38.89 41.92 18.11 36.74 40.11 43.19 18.94 37.92 41.34 44.46 19.77 39.09 42.56 45.72 20.60 40.26 43.77 46.98 21.43 41.42 44.99 48.23 22.27 42.58 46.19 49.48 23.11 43.75 47.40 50.73 23.95 44.90 48.60 51.97 24.80 46.06 49.80 53.20 25.64 47.21 51.00 54.44 26.49 48.36 52.19 55.67 27.34 49.51 53.38 56.90 28.20 50.66 54.57 58.12 29.05 51.81 55.76 59.34 33.35 57.51 61.66 65.41 37.69 63.17 67.50 71.42 46.46 74.40 79.08 83.30 55.33 85.53 90.53 95.02 64.28 96.58 101.88 106.63 73.29 107.57 113.15 118.14 82.36 118.50 124.34 129.56 0.99 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 52.19 53.49 54.78 56.06 57.34 58.62 59.89 61.16 62.43 63.69 69.96 76.15 88.38 100.43 112.33 124.12 135.81 0.995 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 41.40 42.80 44.18 45.56 46.93 48.29 49.64 50.99 52.34 53.67 55.00 56.33 57.65 58.96 60.27 61.58 62.88 64.18 65.48 66.77 73.17 79.49 91.95 104.21 116.32 128.30 140.17 68 G. Crasta C – Distribuzione t di Student Test a due code: valori critici di t corrispondenti a α = 0.05 (t0.975 ) e α = 0.01 (t0.995 ). ν 1 2 3 4 5 6 7 8 9 10 t0.975 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 ν 11 12 13 14 15 16 17 18 19 20 t0.975 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 ν 30 40 50 60 70 80 90 100 200 1000 t0.975 2.042 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.972 1.962 ν 1 2 3 4 5 6 7 8 9 10 t0.995 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 ν 11 12 13 14 15 16 17 18 19 20 t0.995 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 ν 30 40 50 60 70 80 90 100 200 1000 t0.995 2.750 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.601 2.581 Test a una coda: valori critici di t corrispondenti a α = 0.05 (t0.95 ) e α = 0.01 (t0.99 ). ν 1 2 3 4 5 6 7 8 9 10 t0.95 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 ν 11 12 13 14 15 16 17 18 19 20 t0.95 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 ν 30 40 50 60 70 80 90 100 200 1000 t0.95 1.697 1.684 1.676 1.671 1.667 1.664 1.662 1.660 1.653 1.646 ν 1 2 3 4 5 6 7 8 9 10 t0.99 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 ν 11 12 13 14 15 16 17 18 19 20 t0.99 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 ν 30 40 50 60 70 80 90 100 200 1000 t0.99 2.457 2.423 2.403 2.390 2.381 2.374 2.368 2.364 2.345 2.330 Appunti di Statistica 69 D – Distribuzione F di Fisher Valori critici di F corrispondenti a α = 0.05. νd 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 νn =1 161.45 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38 4.35 4.32 4.30 4.28 4.26 4.24 4.23 4.21 4.20 4.18 4.17 2 199.50 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3 215.71 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13 3.10 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 4 224.58 19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.73 2.71 2.70 2.69 5 230.16 19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74 2.71 2.68 2.66 2.64 2.62 2.60 2.59 2.57 2.56 2.55 2.53 6 233.99 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 7 236.77 19.35 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.49 2.46 2.44 2.42 2.40 2.39 2.37 2.36 2.35 2.33 8 238.88 19.37 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.42 2.40 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 9 240.54 19.38 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.37 2.34 2.32 2.30 2.28 2.27 2.25 2.24 2.22 2.21 10 241.88 19.40 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38 2.35 2.32 2.30 2.27 2.25 2.24 2.22 2.20 2.19 2.18 2.16 15 245.95 19.43 8.70 5.86 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.40 2.35 2.31 2.27 2.23 2.20 2.18 2.15 2.13 2.11 2.09 2.07 2.06 2.04 2.03 2.01 20 248.01 19.45 8.66 5.80 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.28 2.23 2.19 2.16 2.12 2.10 2.07 2.05 2.03 2.01 1.99 1.97 1.96 1.94 1.93 Valori critici di F corrispondenti a α = 0.01. νd 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 νn =1 4052.2 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56 10.04 9.65 9.33 9.07 8.86 8.68 8.53 8.40 8.29 8.18 8.10 8.02 7.95 7.88 7.82 7.77 7.72 7.68 7.64 7.60 7.56 2 4999.5 99.00 30.82 18.00 13.27 10.92 9.55 8.65 8.02 7.56 7.21 6.93 6.70 6.51 6.36 6.23 6.11 6.01 5.93 5.85 5.78 5.72 5.66 5.61 5.57 5.53 5.49 5.45 5.42 5.39 3 5403.3 99.17 29.46 16.69 12.06 9.78 8.45 7.59 6.99 6.55 6.22 5.95 5.74 5.56 5.42 5.29 5.18 5.09 5.01 4.94 4.87 4.82 4.76 4.72 4.68 4.64 4.60 4.57 4.54 4.51 4 5624.6 99.25 28.71 15.98 11.39 9.15 7.85 7.01 6.42 5.99 5.67 5.41 5.21 5.04 4.89 4.77 4.67 4.58 4.50 4.43 4.37 4.31 4.26 4.22 4.18 4.14 4.11 4.07 4.04 4.02 5 5763.65 99.30 28.24 15.52 10.97 8.75 7.46 6.63 6.06 5.64 5.32 5.06 4.86 4.69 4.56 4.44 4.34 4.25 4.17 4.10 4.04 3.99 3.94 3.90 3.85 3.82 3.78 3.75 3.73 3.70 6 5859.0 99.33 27.91 15.21 10.67 8.47 7.19 6.37 5.80 5.39 5.07 4.82 4.62 4.46 4.32 4.20 4.10 4.01 3.94 3.87 3.81 3.76 3.71 3.67 3.63 3.59 3.56 3.53 3.50 3.47 7 5928.4 99.36 27.67 14.98 10.46 8.26 6.99 6.18 5.61 5.20 4.89 4.64 4.44 4.28 4.14 4.03 3.93 3.84 3.77 3.70 3.64 3.59 3.54 3.50 3.46 3.42 3.39 3.36 3.33 3.30 8 5981.1 99.37 27.49 14.80 10.29 8.10 6.84 6.03 5.47 5.06 4.74 4.50 4.30 4.14 4.00 3.89 3.79 3.71 3.63 3.56 3.51 3.45 3.41 3.36 3.32 3.29 3.26 3.23 3.20 3.17 9 6022.5 99.39 27.35 14.66 10.16 7.98 6.72 5.91 5.35 4.94 4.63 4.39 4.19 4.03 3.89 3.78 3.68 3.60 3.52 3.46 3.40 3.35 3.30 3.26 3.22 3.18 3.15 3.12 3.09 3.07 10 6055.8 99.40 27.23 14.55 10.05 7.87 6.62 5.81 5.26 4.85 4.54 4.30 4.10 3.94 3.80 3.69 3.59 3.51 3.43 3.37 3.31 3.26 3.21 3.17 3.13 3.09 3.06 3.03 3.00 2.98 15 6157.3 99.43 26.87 14.20 9.72 7.56 6.31 5.52 4.96 4.56 4.25 4.01 3.82 3.66 3.52 3.41 3.31 3.23 3.15 3.09 3.03 2.98 2.93 2.89 2.85 2.81 2.78 2.75 2.73 2.70 20 6208.7 99.45 26.69 14.02 9.55 7.40 6.16 5.36 4.81 4.41 4.10 3.86 3.66 3.51 3.37 3.26 3.16 3.08 3.00 2.94 2.88 2.83 2.78 2.74 2.70 2.66 2.63 2.60 2.57 2.55