1 SPA STIME DI PARAMETRI 1. Il principio fondamentale della Statistica Supponiamo di dover misurare una grandezza sconosciuta mediante n misure successive x1, x2, L , xn eseguite con uno strumento imperfetto. ESEMPIO 1 Ad un esame sono iscritti 500 studenti. Se i voti vanno da 0 a 100 e sono stati esaminati 160 studenti, qual è la migliore previsione dei voti dei rimanenti 340 ? Per rispondere a questa domanda, ricorriamo al principio fondamentale della statistica che si enuncia co me segue: Eseguite n misure indipendenti x1, x2, L , xn di una stessa grandezza, si calcoli la media campionaria: n 1 ⋅ ∑ x x = n k def (1) k =1 e la varianza campionaria: s 2 n 2 1 = n−1 ⋅ ∑ ( x i − x ) def (2) i=1 Per n sufficientemente grande (n ≥ 30), la migliore previsione di ogni ulteriore misura indipendente X si ottiene considerando X come una variabile aleatoria normale con µ = x e σ = s. Torniamo all'esempio e supponiamo che i voti dei primi 160 studenti esaminati diano media campionaria x = 72 e deviazione standard campionaria s = 6. In virtù di questi dati numerici, possiamo prevedere che il prossimo studente esaminato prenderà un voto tra 70 e 74 con probabilità 0,3256. Diciamo subito che negli esami veri e propri la distribuzione di probabilità di un singolo voto è più complicata di quella normale; tuttavia, in assenza di una migliore osservazione, ci affidiamo al principio fondamentale della statistica. Così, se indichiamo con X il voto di un qualsiasi studente non ancora esaminato e applichia mo la correzione di continuità (essendo X una v. a. discreta che assume valori interi), si ha: P(69,5 < X ≤ 74,5) = P( 69,5−72 74,5−72 <Z≤ ) = P(−0, 42 < Z ≤ 0,42) = 2 ⋅ Φ(0,42) − 1 = 0,3256. 6 6 Implicitamente, si suppone che le misure x1, x2, L , xn siano i valori assunti da n variabili aleatorie indipenden ti e somiglianti. In statistica, questa n.upla prende il nome di campione casuale. DEF Si chiama campione casuale di dimensione n ogni n.upla (X1, X2, L , Xn) di variabili aleatorie indipendenti e somiglianti. Se nel processo di campionamento si verificano gli eventi (X1 = x1), (X2 = x2), L , (Xn = xn), la n.upla di numeri reali (x1, x2, L , xn) si dice campione osservato. Compito della Statistica induttiva è quello di fornire metodi che consentano di generalizzare all'universo Ω degli elementi oggetto di studio le informazioni ottenute analizzando un campione osservato. Come sappiamo, l'universo Ω si dice popolazione; i suoi elementi si dicono unità statistiche. Sappiano an che che in molti casi d'interesse pratico a ciascuna unità statistica è associato un carattere numerico, de scritto dai valori di una v. a. X. La funzione di probabilità (o la densità si probabilità) di X, si dice distribuzione 2 della popolazione; il valor medio µ e la varianza σ di X si dicono, rispettivamente, valor medio e varianza 2 della popolazione. Le v. a. X1, X2, L , Xn che formano il campione casuale hanno la stessa distribuzione di X. Allora: E(Xk) = µ , var(Xk) = σ 2X , (k = 1, 2, L, n). (3) X Nell'esempio, Ω è l'insieme dei 500 studenti; il carattere numerico che interessa analizzare è il voto. Abbiamo fatto l'ipotesi che il voto sia descritto da una variabile normale X con valor medio x e deviazione standard s. In mancanza di informazioni migliori, si suppone infatti che ogni misura limitata sia distribuita nor malmente. In altre parole, se sono teoricamente possibili più modelli per fare una previsione, la scelta cadrà sempre sul modello normale a meno che non vi siano ragioni precise per rifiutarlo. 2. Modelli statistici Spesso la distribuzione della popolazione non è completamente incognita, ma piuttosto è di un tipo noto e ha dei parametri incogniti. Quindi il problema diventa quello di stimare il valore dei parametri a partire dal cam pione osservato. ESEMPIO 2 Si vuole conoscere l'orientamento degli elettori un mese prima di un referendum. A tal fine, si intervistano 5000 elettori, chiedendo a ciascuno se voterà sì o no. Se supponiamo che tutti gli intervistati abbiano già deciso come votare e che tutti dicano la verità, la v. a. X che descrive il comportamento di ciascun elettore (X assume il valore 1 se l'elettore vota sì, il valo re 0 se vota no) è una variabile di Bernoulli. Quindi l'incognita è il parametro p della distribuzione: 1 0 , con p ∈ [ 0, 1]. f : X 1− p p p si dice proporzione degli elettori che votano sì; 100 ⋅ p è la percentuale dei sì. ESEMPIO 3 Una ditta che produce apparecchiature elettroniche vuole studiare il tempo di funzionamento di un cer to componente per poter garantire agli acquirenti le prestazioni dei suoi prodotti. A tal fine, vengono effettuate prove di laboratorio su 1000 componenti simili e registrate le durate di vita. In generale, la distribuzione della v. a. X : < Durata di vita di un componente scelto a caso > è scono sciuta. Tuttavia, per certi componenti elettronici semplici per i quali anche teoricamente si giustifica, en tro limiti accettabili, la mancanza di usura, X è una variabile esponenziale. Quindi l'incognita è il para metro λ della densità di probabilità: λ ⋅ e −λt , per t ≥ 0 + f (t; λ) = , con λ ∈ IR . X 0 , per t < 0 ESEMPIO 4 Una gruppo di ricercatori vuole studiare come varia nel tempo la statura degli stambecchi adulti del Parco Nazionale del Gran Paradiso. A tal fine, vengono catturati 100 esemplari e misurate le loro al tezze al garrese. Ora, è ragionevole supporre che la v. a. X : < Statura degli stambecchi del Parco > sia normale. Quindi le incognite sono i parametri µ e σ della densità di probabilità: x−µ + f (x; µ, σ) = 1 ⋅ ϕ , con (µ, σ) ∈ IR× IR . X σ σ 3 Astraendo dagli esempi 2, 3 e 4, diamo la seguente definizione: DEF Si chiama modello statistico una famiglia di distribuzioni dipendenti da uno o più parametri incogniti. In simboli: { fX (x; θ) / θ ∈ ℑ } (1) dove θ indica il parametro o il vettore di parametri che variano in un insieme ℑ. Ad esempio, se X è una variabile di Bernoulli, è θ = p e quindi ℑ = [0,1]; se X è una variabile esponenziale, + + è θ = λ e quindi ℑ = IR ; se X è una variabile normale, è θ = (µ, σ) e quindi ℑ = IR× IR . Con l'espressione < popolazione di distribuzione fX (x; θ) > indicheremo una popolazione Ω in cui la v. a. X og getto d'indagine sia distribuita secondo il modello (1). In particolare, parleremo di popolazioni bernoulliane, di popolazioni esponenziali e di popolazioni normali. 3. Stimatori e stime Sia (X1, X2, L , Xn) un campione casuale estratto da una popolazione di distribuzione fX (x; θ). 2 I numeri reali x e s che figurano nel principio fondamentale della statistica, sono i valori osservati delle varia bili aleatorie X (media campionaria) e S 2 (varianza campionaria), definite da: X = X1 + X 2 + L + Xn , n S2 = n 1 ⋅ ∑ (X − X)2 . i n −1 (1) − (2) i=1 Ogni funzione T = g(X1, X2, L , Xn) si dice una statistica campionaria. Dunque X e S 2 sono particolari statistiche campionarie. Se il campione osservato è (x1, x2, L , xn), g fornisce il numero t = g(x1, x2, L , xn), che costituisce il valore osservato di T. Di solito, la scelta di una statistica T viene fatta in modo che t risulti un'approssimazione del "valore vero" di un parametro θ della popolazione o, più in generale, di una funzione h(θ) del parametro. In questo caso T si dice uno stimatore e t una stima puntuale di h(θ). DEF Uno stimatore T di h(θ) si dice: corretto, se: E(T) = h(θ). (3) In caso contrario si dice distorto. consistente, se è corretto e risulta: lim var(T) = 0 n → +∞ (4) dove n è la dimensione del campione. La correttezza di T significa, intuitivamente, che, considerando numerosi campioni e per ciascuno di essi de terminando il corrispondente valore di T, i valori osservati di T si addensano attorno a h(θ). Ma, in realtà, noi estraiamo un singolo campione in corrispondenza del quale T può assumere un valore anche assai discosto da h(θ); da qui la necessità che la varianza di T sia piccola. Per questo è necessario che lo stimatore T sia consistente, cioè abbia una "dispersione" trascurabile quando la dimensione n del campione è abbastanza elevata. Diciamo subito che la ricerca di uno stimatore con le caratteristiche indicate è, in generale, un problema mol to complesso, che richiede una conoscenza approfondita della Teoria della Probabilità. Per noi, è sufficiente fare riferimento agli esempi del paragrafo 2. 4 Anzitutto dimostriamo che: σ2 E( X ) = µ (5) − (6) , var( X ) = nX . X Dim. Sia (X1, X2, L , Xn) un campione casuale estratto da una popolazione di distribuzione fX (x; θ), 2 con valor medio µ e varianza σ . Per in teorema fondamentale del valor medio, si ha: X X n n E( X ) = E( 1 ⋅ ∑ X ) = 1 ⋅ ∑ E(X ) = 1 ⋅ nµ = µ . k X X n k =1 k n k =1 n Si ha poi: 2 n n σ 2 var( X ) = var( 1 ⋅ ∑ X ) = 1 ⋅ ∑ var(X ) = 1 ⋅ nσ = nX . i X n k =1 k n2 k = 1 n2 Quindi la media campionaria X è uno stimatore corretto e consistente di µ . X p⋅q Per una popolazione bernoulliana (esempio 2), si ha E( X ) = p, var( X ) = n . Quindi X è uno stimatore corretto e consistente del parametro p. Per una popolazione esponenziale (esempio 3), si ha E( X ) = 1 , var( X ) = 21 λn λ Quindi X è uno stimatore corretto e consistente di h(λ) = λ1 . Come stimatore di λ sembrerebbe naturale assumere 1 . Tuttavia si dimostra che questo è uno stima X tore distorto di λ. Per ottenere uno stimatore corretto di λ occorre considerare invece: T = n −1⋅ 1 . n X (omettiamo la dimostrazione). 2 Per una popolazione normale (esempio 4), si ha E( X ) = µ., var( X ) = σn . Quindi X è uno stimatore corretto e consistente del parametro µ . Per stimare il parametro σ si ricorre alla deviazione standard campionaria S, che però è uno stimato re distorto (la stima ottenuta è mediamente troppo piccola). Tuttavia si dimostra che la varianza cam pionaria S è uno stimatore corretto e consistente di σ . 2 2 EP SPA / 1,2,3 1 Sia (5, 2, 4, 4, 8, 4, 5, 3, 3, 7) un campione estratto da una popolazione di Poisson. Stima il parametro λ della popolazione. 2 Sia (0,96; 0,76; 1,92; 3,48; 5,51; 1,84; 14,21; 3,54; 2,1; 0,33; 3,06; 1,93) un campione estratto da una popolazione esponenziale. Stima il parametro λ della popolazione. 3 Sia (5,3; 7,8; 3,8; 4,4; 1,5; 4,6; 5,6; 5; 4,9) un campione estratto da una popolazione normale. Stima i parametri µ e σ della popolazione. 4 Il modello di Pareto è definito dalla seguente famiglia di densità di probabilità, dipendenti da un para metro α > 1: α ⋅ x −( α +1) , per x > 1 f (x; α) = X , per x ≤ 1 0 (1) verifica che f è una funzione normalizzata; (2) calcola µ in funzione di α; X (3) costruisci uno stimatore T del parametro α, in base a un campione casuale di dimensione n (usa la media campionaria come stimatore di µ , che è funzione di α, ed esprimi poi T in funzione di X ); X (4) stima α, utilizzando T, nell'ipotesi che un campione casuale abbia fornito x = 2,35. 5 5 Si consideri il modello statistico di parametro α > 0 definito da: k ⋅ x α −1 ⋅ (1 − x ) f (x; α) = X 0 , per x ∈ ]0,1[ , per x ∈ C ]0, 1[ (1) determina la costante k per cui f è la densità di probabilità di una v. a. X; (2) come in 4 (2); (3) come in 4 (3); (4) come in 4 (4) ma con x = 0,52. 6 Sia (X1, X2) un campione casuale estratto da una popolazione di distribuzione f (x;θ). X 1 1 1 2 (1) dimostra che le statistiche campionarie X = /2 X1 + /2 X2 e W = /3 X1 + /3 X2 sono, entrambe, stimatori corretti di µ ; X (2) stabilisci quale dei due stimatori X , W è preferibile (è senz'altro da preferire lo stimatore che ha la varianza più piccola o, come si usa anche dire, lo stimatore più efficiente). SOLUZIONI t = 11 = 0,302 . 3 t = x = 4,7 6 ; t = s = 1,6477 . 12x 4 (2) µ X = α ; (3) t = x ; (4) t = 1,74 . α −1 x −1 5 (1) k = α⋅(α + 1); (2) µ X = α ; (3) t = 2x ; (4) t = 2,1 6 . 1− x α+2 1 t = x = 4,5 . 2 6 (2) Poiché var( X ) < var(W), è preferibile X . 4. Distribuzioni di probabilità di alcune statistiche campionarie 2 Sia Ω una popolazione di distribuzione fX (x; θ), con valor medio µ e varianza σ , e sia (X1, X2, L , Xn) un X X campione casuale estratto da Ω. Vogliamo studiare le distribuzioni di probabilità delle statistiche campionarie definite nella seguente tabella. Statistica campionaria Somma campionaria S Media campionaria X T di Student T n Valor medio = X1 + X2 + L + Xn def = def X1 + X 2 + ... + Xn n X − µX S ⋅ n nσ nµ X def = Varianza 2 X σ2X n µ X n − 1 (per n>3) n−3 0 (per n>2) Se Ω è una popolazione normale, il Teorema di stabilità assicura che S è una variabile normale. n Quindi è a sua volta normale la variabile standardizzata corrispondente a S : n S n2 = S Sn − n⋅µ X σX⋅ n (1) Ora si può scrivere X = nn , da cui segue S = n X = X + X + L + X . n Ma S è una variabile normale. Quindi, per il Teorema di Levy−Cramer, anche X è normale e, di conse n 6 guenza, è normale la variabile standardizzata corrispondente a X : X* = X − µX σX ⋅ n (2) Come sappiamo, se non si conosce la deviazione standard della popolazione, la si può approssimare ricorrendo alla deviazione standard campionaria. Sfortunatamente, se n è piccolo (n < 30), porre σ = s nella (2) può far si che X * abbia una distribuzione considerevolmente diversa da quella della normale standardizzata. Questo fatto fu notato per la prima volta nel 1908 dal chimico inglese William S. Gosset, più noto sot to lo pseudonimo di Student, che propose di sostituire a X * la v. a. T con densità di probabilità: f (t) = T Γ( n ) ⋅ 1 + (n − 1)π ⋅ Γ( n − 1) 2 2 −n t2 2 n − 1 (3) chiamata distribuzione di Student con n−1 gradi di libertà. Si noti che la T di Student non è definita per n = 1 ed è somigliante alla variabile di Cauchy per n = 2. Y Il grafico di f (fig.1) ha forma campanulare, in tutto T 0.42 simile alla curva di Gauss standard, ma più bassa e dispersa attorno allo 0 (valor medio). All'aumenta re di ν = n − 1 ( numero dei gradi di libertà), le due f( x ) curve tendono a sovrapporsi. Infatti, si può dimostra g( x ) re che: f ( t ) = ϕ( t ), lim T ν → +∞ ∀t ∈ IR. O Per ν > 30 le funzioni f e ϕ diventano pratica X 0.1 T mente indistinguibili. (fig.1) 3 x La tavola di Student, per ν ≤ 30 e per particolari valori di p ∈ [ 0, 1 ], fornisce il numero 3 t soluzione νp dell'equazione: F (t) = p T (4) dove F è la funzione di ripartizione di T (la tavola di Student è a pag. 17)). T Se Ω è una popolazione non normale, per il Teorema limite centrale, le variabili aleatorie S n* e X * hanno distribuzioni che si approssimano a quella della normale standardizzata per n "sufficientemente grande". 5. Intervalli di confidenza DEF Data una variabile aleatoria X e un numero reale α ∈ [ 0, 1], si chiama intervallo di confidenza al livello 1−α per X, ogni intervallo ]a, b[ tale che: P(a < X < b) = 1−α (1) Molto spesso si prende 1−α = 0,95 e si parla di intervallo di confidenza al 95% per X. Chiaramente, esistono più intervalli di confidenza per uno stesso livello 1−α. I più comuni sono gli intervalli centrali, ossia tali che: P(X ≤ a) = P(X ≥ b) = α2 Nella (2) figurano gli eventi (X ≤ a) e (X ≥ b), chiamati code della distribuzione di X. (2) 7 Vediamo due esempi d'importanza fondamentale. Intervallo centrale di confidenza al livello 1− α per la variabile Z (normale standardizzata). Si ha l'equazione P(−z < Z < z) = 1−α nell'incognita z, che si può anche scrivere 2 ⋅ Φ(z) − 1 = 1−α, ovvero: Φ(z) = 1 − α2 (3) La soluzione della (3) viene indicata con z 1− α . I numeri ± z 1− α si dicono valori critici di Z al livello 1−α. 2 2 Così, per 1−α = 0,95, si ha z0,975 = 1,96. Quindi i valori critici sono ±1,96. Intervallo centrale di confidenza al livello 1 − α per la variabile T di Student con ν gradi di libertà. Si ha l'equazione P(−t < T < t) = 1− α nell'incognita t, che si può anche scrivere 2 ⋅ F (t) − 1 = 1−α, ovvero: T F ( t ) = 1 − α2 (4) T La soluzione della (4) viene indicata con ν t 1− α . I numeri ± ν t 1− α si dicono valori critici di T per ν gradi 2 2 di libertà al livello 1−α. Così, per ν = 6 e 1−α = 0,99, si ha 6t0,995 = 3,707. Quindi i valori critici sono ±3,707. 6. Stima intervallare di µX Il principio fondamentale della statistica richiede di stimare i parametri µ e σ mediante i valori numerici x e s. Una stima del genere si dice puntuale. Con una stima intervallare si vuole invece valutare un parametro θ della popolazione o, più in generale, una funzione h(θ) del parametro, cercando un intervallo ]a, b[ che, con probabilità molto elevata, contenga θ. In questo paragrafo, ci occupiamo della stima intervallare di µ sotto alcune ipotesi. X Stima intervallare di µ nell'ipotesi di popolazione normale con varianza nota. X Sia (X1, X2, L , Xn) un campione casuale estratto da una popolazione normale di parametri µ e σ. Sappiamo che in questa ipotesi lo stimatore X del valor medio µ è una variabile normale con E( X ) = µ e 2 var( X ) = σn . Sappiamo pure che la v. a. standardizzata X * è a sua volta normale. Fissato il livello di confidenza 1−α, è allora: P( − z 1− α < 2 X − µ σ ⋅ n < z 1− α ) = 1−α (1) 2 da cui si ricava: P( X − z 1− α ⋅ σ < µ < X + z 1− α ⋅ σ ) = 1−α. 2 n 2 n (2) Quindi: µ ∈ ] x − z1− α ⋅ 2 σ n , x + z 1− α ⋅ σ n 2 [ (3) Con una notazione e un linguaggio caro ai fisici, la (3) si esprime dicendo che: µ = x ± z 1− α ⋅ σ con fiducia 1− α. n 2 (4) Ribadiamo che stiamo supponendo noto il parametro σ: in caso contrario la (3) non sarebbe una stima in tervallare, contenendo l'intervallo una grandezza incognita. Si noti che la stima intervallare di µ ha la forma x ± ε, dove x è la stima puntuale del parametro µ e ε è l'errore massimo commesso stimando µ con x : ε = z 1− α ⋅ 2 (ammesso che µ appartenga all'intervallo di stima!). σ n (5) 8 ESEMPIO 5 Vogliamo stimare la statura media dei giocatori di pallacanestro, italiani, maschi, di età compresa fra 21 e 35 anni. A tal fine, facciamo l'ipotesi, ragionevole, che la v.a. X : < Statura di un giocatore di palla canestro scelto a caso >, sia normale, di parametri µ e σ. La misura di 100 giocatori ha fornito la media campionaria x = 184,65 cm, che costituisce la stima puntuale di µ. Ora, fissato il livello di confidenza 1− α = 0,95, per ottenere la stima intervallare di µ pos siamo ritenere che σ sia uguale alla deviazione standard delle stature della popolazione complessiva degli italiani, maschi, della stessa fascia di età: σ = 5,8 cm (valore noto da precedenti statistiche). Applicando la (4), è allora: µ = 184,65 ± 1,96 ⋅ Quindi µ ∈ 5,8 . 100 ] 183,51 ; 185,79 [ con fiducia 0,95. E' interessante notare che la "bontà" della stima dipende da due fattori: il livello di confidenza 1− α: più grande è 1− α più affidabile è la stima; l'ampiezza dell'intervallo di stima: più piccolo è ε, più precisa è la stima. Osserviamo anzitutto che al crescere di 1− α cresce anche z 1− α . 2 Di conseguenza, fissato n, all'aumentare del livello di confidenza 1− α, ε aumenta. Quindi precisione della stima ed elevato livello di confidenza sono obiettivi tra loro antagonisti. Se si vuole aumentare la precisione senza diminuire il livello di confidenza, bisogna aumentare la dimensio ne n del campione. Infatti, fissato 1− α, all'aumentare di n, diminuisce ε. Ora, dalla (5), si deduce: 2 n = ( z 1− α ⋅ σ ) ε 2 (6) Allora, fissato l'errore massimo che si è disposti a commettere, è sempre possibile determinare la dimensio ne n del campione da estrarre. Nel caso dell'esempio 5, se volessimo una stima intervallare al livello 1 − α = = 0,95 con un errore massimo ε = 0,25 cm, avremmo 2 ,8 n = ( 1,96 ⋅ 05,25 ) ≈ 2068. Quindi produrre stime di grande precisione può essere assai oneroso in termini di quantità di dati da raccogliere. Stima intervallare di µ nell'ipotesi di popolazione normale con varianza incognita. X Se la varianza della popolazione è incognita, la v. a. X * deve essere sostituita dalla variabile T di Student. Fissato il livello di confidenza 1−α, è allora: P( − ν t 1− α < 2 X − µ S ⋅ n < ν t 1− α ) = 1−α (7) 2 da cui si ricava: P( X − ν t 1− α ⋅ S < µ < X + ν t 1− α ⋅ S ) = 1−α. 2 n 2 n (8) Quindi: µ ∈ ] x − ν t 1− α ⋅ s , x + ν t 1− α ⋅ s 2 2 n n [ (9) che si può anche scrivere: µ = x ± ν t 1− α ⋅ 2 s con fiducia 1 − α. n (10) 9 ESEMPIO 6 Vogliamo stimare il peso medio dei camosci maschi adulti del Parco Nazionale dello Stelvio. A tal fine, facciamo l'ipotesi che la v. a. X : < Peso di un camoscio scelto a caso >, sia normale, di para metri, incogniti, µ e σ. Un campione di 10 esemplari ha fornito i seguenti pesi in kg: xk xk − x (xk − x ) ----------------------------- 2 k (60, 63, 60, 68, 70, 72, 65, 61, 69, 67) da cui si ottiene facilmente (vedi tabella a lato): x = 655 = 65,5 kg, 10 170,5 = 4,35 kg. 9 s = Applicando la (10), al livello di confidenza 1− α = 0,95, è allora: 4,35 µ = 65,5 ± 2,262 ⋅ Quindi µ ∈ . (*) 10 ] 167,38 ; 173,62 [ con fiducia 0,95 1 60 63 60 68 70 72 65 61 69 67 ------655 −5,5 −2,5 −5,5 2,5 4,5 6,5 −0,5 −4,5 3,5 1,5 ===== 30,25 6,25 30,25 6,25 20,25 42,25 0,25 20,25 12,25 2,25 -------------170,5 Cosa accadrebbe se supponessimo σ noto e uguale a s? Nella ( * ) il valore critico 9t0,975 = 2,262 andrebbe sostituito con z0,975 = 1,96, più piccolo, e la stima intervallare risulterebbe più precisa. Possiamo commentare questo fatto dicendo che, in generale, maggiori sono le informazioni di cui disponiamo, più precisa è la stima: supporre σ nota, anziché stimarla dal campione, significa avere più informazioni. Stima intervallare di µ nell'ipotesi di popolazione non normale con varianza incognita. X Se la popolazione non è normale, il problema si complica, perché la determinazione dell'intervallo di confi denza dipende dal tipo di distribuzione della popolazione medesima. In presenza di grandi campioni (n ≥ 30), tuttavia, tale inconveniente viene praticamente a cadere. Infatti, il teorema limite centrale assicura che la v. a. X * è asintoticamente normale, cioè ha una distribuzione che si approssima a quella della normale (standardizzata) quando n tende all'infinito. Inoltre, al crescere di n, la varianza campionaria S assume valori sempre più prossimi a σ . Quindi anche la variabile T di Student è asintoticamente normale. 2 2 Fissato il livello 1− α, se σ è incognita, allora: 2 P( − z 1− α < 2 X − µ S ⋅ n < z 1− α ) = 1−α (11) 2 da cui si ricava: µ = x ± z 1− α ⋅ s con fiducia 1 − α. 2 n (12) ESEMPIO 7 Una fabbrica produce corde metalliche per ascensori. I dati ricavati da 100 prove, hanno fornito i se guenti valori numerici per la media e la deviazione standard campionaria del carico di rottura delle cor de: x = 851 kg, s = 7,5 kg. Vogliamo stimare al livello di confidenza 0,98 il carico di rottura medio di tutta la popolazione delle corde prodotte. 1 Si noti che, contrariamente alle usuali regole dell'arrotondamento, abbiamo approssimato per difetto l'estre mo inferiore dell'intervallo di stima, e per eccesso l'estremo superiore. 10 Applicando la (12), si ha subito: µ = 851 ± 2,33 ⋅ 7,5 . 100 Quindi µ ∈ ] 849,25 ; 852,75 [ con fiducia 0,98. Se n < 30, si può procedere comunque alla determinazione della stima intervallare di µ utilizzando la 2 disuguaglianza di Chebyshev nella forma P( | X − µ | < ε ) ≥ 1 − σ2 che, per la v. a. X , diventa: ε 2 P( X − ε < µ < X + ε) ≥ 1 − σ 2 . nε (13) Infatti, se esprimiamo ε in termini di deviazione standard, ponendo ε = t ⋅ σ con t > 0, dalla (13) segue: n P( X − t ⋅ σ n <µ< X+t⋅ σ n ) ≥1− 1 t2 (14) Fissato ora il livello di confidenza 1 − α, l'equazione 1 − 12 = 1 − α fornisce to = 1 . α t Quindi: µ = x ± to ⋅ σ con fiducia 1− α. (15) n Nel caso la deviazione standard della popolazione risulti ignota, σ viene approssimata con s. Ritorniamo all'esempio 7 e supponiamo di poter effettuare soltanto 25 prove. Se queste danno x = 851 kg e s = 7,5 kg, applicando la (15) al livello di confidenza 0,98, si ottiene: µ = 851 ± 7,07 ⋅ 7,5 . 25 Quindi µ ∈ ] 840,4 ; 861,61 [ con fiducia 0,98. EP SPA / 4,5,6 1 La popolazione degli impiegati di un certo ufficio di grandi dimensioni, ha i pesi distribuiti intorno a µ = 74 kg con σ = 9,8 kg. Un campione casuale di 25 impiegati prende l'ascensore ogni mattina. Calcola il valor medio e la deviazione standard delle variabili aleatorie: (1) peso totale del campione; (2) peso medio del campione. 2 Un'urna è piena di palline. Un terzo di queste è segnato con il numero 2, un altro terzo è segnato con il numero 4 e un altro terzo con il numero 6. (1) Estratta una pallina a caso e indicato con X il suo numero, calcola µX e σX. (2) Estratto un campione casuale di due palline, determina la distribuzione di X . (3) Calcola µ X e σ X . 3 Il livello di scolarità degli adulti di un certo paese, ha valor medio 11,1 anni e varianza 9. Calcolare la probabilità che in una ricerca campionaria su 100 adulti, scelti a caso, si trovi un livello medio di scolarità compreso fra 10,2 e 11,5. 4 Un ascensore ha una portata massima di 900 kg e una capacità di 10 persone. Se i pesi di tutte le persone che usano l'ascensore sono distribuiti normalmente con µ = 84 kg e σ = 8,9 kg, qual è la probabilità che un campione casuale di 10 persone ecceda il limite di portata dell'ascensore? 5 Gli anelli di una catena di bicicletta hanno lunghezze interne distribuite normalmente con µ = 0,50 cm e σ = 0,04 cm. Gli standard di produzione richiedono che la catena sia fra 49 e 50 cm di lunghezza. (1) Se le catene sono composte da 100 anelli, quale percentuale di esse rispetterà gli standard? (2) Se le catene sono composte da 99 anelli, quale percentuale sarà ora secondo gli standard? Quanti anelli dovranno essere messi in una catena? 11 (3) Usando 99 anelli, a quale valore deve essere ridotto σ (cioè di quanto deve essere migliorato il controllo della qualità degli anelli) affinché il 90% delle catene rispettino gli standard? 6 Risolvi le seguenti equazioni nell'incognita t, relative alla variabile T di Student. (1) P(T ≥ t) = 0,05 per ν = 9; (2) P[(T < −t) ∪ (T > t)] = 0,05 per ν = 12; (3) P(T < t ) = 0,9 per ν = 16; 2 (4) P(−t < T ≤ t) = 0,98 per ν = 25. 7 Sono stati raccolti i seguenti dati relativi al peso, in kg, di 10 bambini di 1 anno di vita, nati in una città: (10,5; 10,7; 9,8; 8,1; 10,1; 12,7; 11,9; 10,8; 7,6; 10,2). (1) Assumendo che la popolazione dei pesi dei bambini di un anno sia normale e abbia deviazione standard σ = 1,8 kg, determina una stima intervallare del valor medio µ al livello di confidenza del 95%. (2) Se la stessa media campionaria si fosse riscontrata su un campione casuale di 100 bambini, quale sarebbe la stima intervallare? (3) Supponiamo che il campione casuale non sia stato ancora selezionato. Quale deve essere la di mensione del campione, affinché l'intervallo di stima abbia ampiezza uguale a 0,2 kg? 8 In uno studio sull'inquinamento atmosferico effettuato da una stazione sperimentale, si sono registrati, su otto diversi campioni d'aria, i seguenti valori di una certa sostanza tossica, in µg / m (microgrammi per metro cubo): (2,2; 1,8; 3,1; 2; 2,4; 2; 2,1; 1,2). 3 Nell'ipotesi di popolazione normale, determina una stima intervallare del valor medio al livello di confi denza del 95%. 9 Lo zafferano di una certa marca è venduto in bustine dal contenuto nominale di 150 mg (milligrammi) ciascuna. Il peso netto di una bustina scelta a caso, si può pensare come una variabile normale di para metri µ e σ. Se il produttore è onesto e le macchine che riempiono le bustine sono accurate, dovrebbe essere µ = 150 mg e σ molto piccola. Per controllare questi fatti, un comitato per la difesa dei consuma tori esamina un campione casuale di 100 bustine e, di ciascuna, misura il peso netto del contenuto. 2 2 Supponiamo che le osservazioni abbiano fornito x = 149,1 mg e s = 25 mg . Determina una stima intervallare di µ al livello di confidenza del 99%. 10 Per stimare il tempo medio richiesto per assemblare un certo componente di computer, 40 tecnici di una ditta vengono cronometrati mentre svolgono questa operazione, ottenendo x = 12,73 min. e s = 2,06 min. (1) Determina una stima intervallare al livello del 95% per il tempo medio di assemblaggio. (2) Calcola l'errore massimo che si commette stimando il tempo medio con x al livello del 99% (nell'ipotesi che il valore vero di µ appartenga all'intervallo di stima). 11 Il numero di spettatori a ogni spettacolo di un cinema è stato registrato per 51 spettacoli relativi a orari 2 giorni diversi. Si è osservata una media campionaria x = 85,12 e una varianza campionaria s = 176,78. Determina una stima intervallare al livello del 95%: (1) del numero medio di spettatori per spettacolo; (2) dell'incasso medio per spettacolo, se il biglietto d'ingresso è di € 5,5. Dati raggruppati in classi Se i dati del campione osservato si presentano raggruppati in classi, ricordiamo che la media e la varianza campionaria si calcolano identificando tutti i dati contenuti in una stessa classe con il suo valore centrale. 12 ESEMPIO − Da una popolazione di 2000 persone adulte si è estratto un campione di 100 persone che sono state Pressione sistolica (in mmHg) sottoposte ad un esame della pressione arteriosa. I dati relativi, raggruppati in classi, sono riportati nella ta Valore centrale Freq. ----------------------------------100 − 120 110 20 bella a lato. 120 − 140 130 25 Si trova: 140 − 160 150 30 160 − 180 170 15 180 − 200 190 10 x = 14400 = 144, 100 s = 60400 = 24,7 99 12 Con riferimento all'esempio, determina la stima intervallare della pressione arteriosa media della popo lazione al livello del 90%. Calcola poi a quale livello di confidenza risulta µ ∈ ]141,2 ; 146,8[. 13 Da una popolazione di 5000 famiglie è stato estratto un campione casuale di dimensione 150 per stima re la spesa media mensile per l'alimentazione. I dati relativi, raggruppati in classi, sono riportati nella se guente tabella. Spesa mensile (in euro) 200 − 250 250 − 300 300 − 350 350 − 400 400 − 450 450 − 500 Numero famiglie 10 52 36 34 10 8 Determina la stima intervallare della spesa media µ al livello di confidenza del 98%. 14 In un campione di 16 automobili dello stesso tipo e cilindrata prodotte dalla Toyota, si è rilevato il nu mero dei km percorsi in prefissate condizioni di utilizzo e antecedenti il primo intervento straordinario sul motore. Si è trovato x = 82300 km e s = 7500 km. Determina la stima intervallare della media µ dei km percorribili antecedenti la prima manutenzione straordinaria, al livello del 90%, in due ipotesi: (1) la distribuzione della popolazione è del tutto sconosciuta; (2) la distribuzione della popolazione è normale. Stima intervallare di una proporzione campionaria Nel caso di una popolazione bernoulliana di parametro p, sappiamo che X è uno stimatore corretto e con S sistente di p (proporzione campionaria). Essendo poi, per definizione, X = nn (frequenza relativa dei successi in n prove di Bernoulli), X è una variabile binomiale con valor medio p e deviazione standard p⋅(1 − p) n . La stima intervallare di p per grandi campioni, è allora: p = x ± z 1− α ⋅ 2 x ⋅ (1 − x ) n con fiducia 1−α. E' interessante notare che, essendo 0 ≤ x ≤ 1, è necessariamente x ⋅ (1 − x ) ≤ 1 4 , come si deduce dal grafico della funzione quadratica x a x ⋅ (1−x) = −x + x per x ∈ [0, 1]. 2 1 4 − 0 Pertanto l'errore della stima non può superare εo = z 1− α ⋅ 1 . 2 n 2 1 2 1 E' possibile allora fissare a priori 1−α e l'errore massimo εo che siamo disposti a commettere e determi nare, di conseguenza, la dimensione n necessaria per ottenere la precisione voluta: n = ( z 1− α ⋅ 2 1 2ε0 ) 2. 13 Si noti che la quantità 2εo è esattamente l'ampiezza dell'intervallo di stima. Ricordiamo che l'uso di una distribuzione normale per approssimare una distribuzione binomiale è am missibile solo nel caso in cui np > 5 se p ≤ /2 e nq > 5 se p > /2. Poiché non conosciamo il valore vero di p, nelle disuguaglianze precedenti dobbiamo sostituire p con la 1 1 sua stima puntuale x . Ma questa verifica si può fare soltanto dopo aver estratto il campione. Se le condi zioni precedenti non sono soddisfatte il risultato trovato è privo di valore. 15 Si vuole stimare la proporzione di elettori che approvano l'operato del governo in carica. Su un primo campione di 130 persone intervistate nel mese di maggio, 75 erano favorevoli. Su un secondo campio ne di 1056 persone intervistate a settembre, 642 erano favorevoli. (1) Per ciascuno dei due campioni, determina una stima intervallare al 95% della proporzione degli elettori favorevoli al governo in carica. (2) Confronta la precisione delle due stime (cioè confronta le ampiezze degli intervalli di stima). (3) Insoddisfatti della precisione delle due stime precedenti, si decide di procedere a un nuovo cam pionamento. Come si deve scegliere, a priori, la dimensione n del campione, se l'obiettivo è quel lo di ottenere un intervallo di stima di ampiezza non superiore a un punto percentuale? 16 Due dadi vengono lanciati 600 volte e si osserva che per ben 123 volte la somma dei punti è stata 7. (1) Determina una stima intervallare al 90% della frequenza relativa del risultato 7. (2) La stima ottenuta offre una forte evidenza statistica del fatto che i dadi siano truccati oppure no? 17 I controlli effettuati in una birreria suggeriscono di intervenire sulle macchine quando la proporzione p di lattine sottopeso raggiunga o superi 0,015. Poiché non c'è modo di conoscere il valore esatto di p, si estrae periodicamente un campione di 100 lattine e se ne misura il contenuto. (1) Su un campione sono state trovate 6 lattine sottopeso. Determina una stima intervallare al livello del 95% del valore vero di p. (2) Il risultato ottenuto suggerisce che è necessario intervenire sulle macchine oppure no? (3) Sia X il numero delle lattine sottopeso. Calcola la probabilità dell'evento (X ≥ 6) in un campione di 100 lattine sapendo che p = 0,01 (per velocizzare il calcolo usa un'approssimazione della bi nomiale; è applicabile l'approssimazione normale o quella di Poisson?). 18 Un giornale riporta la seguente notizia: " Un'indagine campionaria ha mostrato che il 70% degli italiani preferisce il mare alla montagna." Si tratta naturalmente di una notizia data in modo impreciso: sulla ba se di un'indagine campionaria non si può concludere nulla di certo sulla percentuale degli italiani (cioè della popolazione complessiva) che preferiscono il mare. Quello che il giornale intende dire è che una frazione pari a 0,7 delle persone del campione considerato è di quest'opinione. (1) Determina, in funzione della dimensione n del campione (di cui il giornale non riferisce il valore), una stima intervallare, al 90%, per la proporzione degli italiani che preferiscono il mare. (2) Calcola la dimensione minima del campione considerato affinché si possa affermare, con fiducia del 90%, che la percentuale degli italiani che preferiscono il mare è compresa fra il 69% e il 71% 19 In un campione casuale di 500 abbonati al telefono, si è accertato che il 20% utilizza il servizio di filo diffusione. Sia p la proporzione di coloro che usano la filodiffusione nella popolazione costituita dalla totalità degli abbonati. (1) Determina una stima intervallare al 95% del parametro p. (2) Supponiamo ora che l'indagine campionaria non sia stata ancora effettuata. Come si deve sce gliere la dimensione n del campione per essere certi che, qualunque sia l'esito del campionamen to, l'intervallo di stima di p, al 95%, abbia ampiezza non superiore a 0,01 ? 14 SOLUZIONI 2 8 ; (2) f : 1 X 3 9 5 (1) 49,38%; (2) 79,24%, 99; (3) 0,03 kg. 1 (1) 1850 kg, 49 kg; (2) 74 kg, 1,96 kg. 2 (1) 4, 3 0,91. 4 0,0166. 3 2 9 4 3 9 5 2 9 6 1 ; (3) 4 , 9 4. 3 6 (1) 1,833; (2) 2,179; (3) 2,674; (4) 2,485. 7 (1) µ ∈ ]9,12 ; 11,34[ c. f. 0,95 ; (2) µ ∈ ]9,88 ; 11,6[ c. f. 0,95; (3) n = 1245. 8 µ ∈ ]1,72 ; 2,48[ c. f. 0,95. 9 µ ∈ ]147,812 ; 150,388[ c. f. 0,99. 10 (1) µ ∈ ]12,07; 13,39[ c. f. 0,95; (2) ≈ 0,89. 11 (1) µ ∈ ]81,38; 88,86[ c. f. 0,95; (2) µ ∈ ]447,59 ; 488,73[ c. f. 0,95. 12 µ ∈ ]139,94; 148,05[ c. f. 0,90; 81,64%. 13 µ ∈ ]323,62 ; 330,38[ c. f. 0,98. 14 (1) µ ∈ ]76370; 88230[ c. f. 0,90; (2) µ ∈ ]79013 ; 85587[ c. f. 0,90. 15 (1) p ∈ ]0,491; 0,662[ c. f. 0,95 , p ∈ ]0,578 ; 0,637[ c. f. 0,95; (2) La seconda stima è molto più precisa della prima, perché la differenza fra le due ampiezze è di 2 1,96 ben 17 punti percentuali. (3) n = = 38416. Quindi, per avere una stima intervallare della preci 0,01 sione voluta, occorre intervistare (almeno) 38416 elettori. 16 (1) p∈]0,2321; 1,1779[ c. f. 0,90; (2) Se i dadi fossero regolari, la frequenza relativa dell'evento {7} sa rebbe ≈ 1 = 0,1667. Poiché questo valore non appartiene all'intervallo di stima di p, possiamo afferma 6 re, c. f. 0,90, che i dadi sono truccati. 17 (1) p∈]0,013 ; 0,107[ c. f. 0,95; (2) L'estremo superiore dell'intervallo di stima è » (molto maggiore) del la soglia critica. Allora è necessario intervenire sulle macchine; (3) P(X ≥ 6) = 1− e −1 ⋅ 5 ∑ 0 18 (1) p = 0,7 ± 0,7515 n 1 = 0,000594 x! ; (2) ≈ 5649. 19 (1) p ∈ ]0,1649 ; 0,2351[ c. f. 0,95; (2) n ≥ 38416. 7. Stima intervallare di σ X Sia (X1, X2, L , Xn) un campione casuale estratto da una popolazione normale di parametri µ e σ. Per determinare la stima intervallare di σ dobbiamo introdurre la v. a. continua chi−quadrato di Pearson: (n−1)⋅S2 . σ2 def χ2 = (1) La densità di probabilità di χ2 è definita da: f (x) = χ2 1 n −1 2 2 ⋅ Γ( n − 1) 2 ⋅x n −3 2 ⋅e −x 2 , per x > 0 (2) 0 , per x ≤ 0 chiamata distribuzione di Pearson con n−1 gradi di libertà. Quando ν > 2, il grafico di fχ2 ha forma campanulare asimmetrica obliqua a sinistra (il tratto ascendente è più ripido del tratto discendente). La curva esce dall'origine degli assi, raggiunge rapidamente il massimo in x = ν − 2 e discende poi lentamente. Per ogni ν, il grafico di fχ2 ha andamento asintotico rispetto al semiasse positivo di X ma, all'aumentare di ν, 15 la curva perde progressivamente la sua asimmetria, fino a confondersi con una gaussiana per ν > 30. In fig.2 si può vedere il grafico di fχ2 per alcuni valori di ν = n − 1 (numero dei gradi di libertà). 1 2 Quando ν ≤ 2, la funzione è strettamente decrescente nell'intervallo ]0, +∞[. In particolare: se ν = 1, fχ2 ha un punto d'infinito in x = 0; se ν = 2, il grafico di fχ2 esce dal 1 4 (fig.2) 1 punto di coordinate (0, /2). Infine, si può dimostrare che E(χ χ2) = ν e var(χ χ2) = 2ν. O Gr(fχ2) per ν = 1, 2, 4, 6 La tavola di Pearson, per ν ≤ 30 e per particolari valori di p ∈ [ 0, 1 ], fornisce il numero ν χ p2 soluzione dell'equazione: Fχ2 ( x ) = p (3) dove Fχ2 è la funzione di ripartizione di χ2 (la tavola di Pearson è a pag.18 ). Quando ν > 30, si ricorre all'approssimazione di Fisher. Fu, infatti, lo statistico inglese Ronald A. Fisher a dimostrare che la v. a. 2χ 2 è asintoticamente normale con valor medio Dunque, per grandi campioni, la v. a. 2 χ 2 − 2ν − 1 e deviazione standard 1. 2ν − 1 è, con buona approssimazione, una variabile normale standardizzata. Intervallo centrale di confidenza al livello 1− α per la variabile χ2. Si ha l'equazione P(x1 < χ2 < x2) = 1− α nelle incognite α 2 x1 e x2. Come si vede dalla fig.3, i numeri reali x1 e x2 non sono opposti fra loro perché la densità di probabilità di χ2 non 1− α α 2 è una funzione pari. Cerchiamo pertanto i valori x1 e x2 che soddisfano le equazioni P(χ2 ≤ x1) = P(χ2 ≥ x2) = α , ovvero: 0 x1 x2 (fig.3) 2 Fχ2 (x1) = α 2 , Fχ2 (x2) = 1 − α 2 (4) Le soluzioni delle (4), rispettivamente ν χ 2α e ν χ 2 α , si dicono valori critici di χ2 per ν gradi di libertà 1− 2 2 al livello 1− α. Così, per ν = 15 e 1− α = 0,95, si ha 15 χ 02,025 = 6,26 e 15 χ 02,975 = 27,5. Stima intervallare di σ nell'ipotesi di popolazione normale. Fissato il livello di confidenza 1− α, si ha: (n−1) ⋅ S2 < ν χ2 α ) = 1 − α 1− σ2 2 (5) 2 (n−1) ⋅ S2 (n−1) ⋅ S2 < σ < ) = 1 − α. χ2 α χ2 ν ν α (6) P( ν χ 2α < 2 da cui si ricava: P( 1− 2 2 16 Allora: σ∈ ν ] s⋅ νχ , s⋅ 2 1− α 2 ν 2 νχ [ con fiducia 1 − α. (7) α 2 ESEMPIO 8 Vogliamo stimare la deviazione standard dei diametri delle sferette di acciaio prodotte in serie da una macchina. A tal fine, facciamo l'ipotesi che la v. a. X : <Diametro di una sferetta scelta a caso>, sia nor male, di parametri µ e σ. La misura dei diametri di 30 sferette ha fornito s = 24,5 µm (24,5 milionesimi di metro). Fissato il livello di confidenza 1 − α = 0,95, i valori critici di χ2 per ν = 29 sono 29 χ 02,025 = 16 e χ2 29 0,975 ] = 45,7. Sostituendo questi valori nella (7), si ottiene σ ∈ 19,55 ; 32,99 [ con fiducia 0,95. Supponiamo ora che un campione di 200 misure abbia fornito s = 24,5 µm. Essendo n > 30, applichiamo l'approssimazione di Fisher, impostando le equazioni: Φ( 2x 1 − 2ν − 1 ) = α 2 , Φ( 2x 2 − 2ν − 1 ) = 1 − α . 2 Φ( 2x 2 − 397 ) = 0,975. Queste, per ν = 199 e α = 0,05, diventano: Φ( 2x 1 − 397 ) = 0,025 , Allora: 2x 1 − 397 = −1,96 , 2x 2 − 397 = 1,96 da cui si ricavano i valori critici di χ2 per 199 gradi di libertà: 2 199 χ 0,025 2 2 = 1 ⋅ ( 397 − 1,96) = 161,37 , 199 χ 02,975 = 1 ⋅ ( 397 + 1,96) = 239,47. 2 2 ] Sostituendo questi valori nella (7), si ottiene σ ∈ 22,33 ; 27,21 [ con fiducia 0,95. EP SPA / 7 1 Con riferimento all'EP14 a pag.12 determina una stima intervallare della deviazione standard σ dei chilo metri percorribili antecedenti la prima manutenzione straordinaria, al livello del 95%, nell'ipotesi (2). 2 Con riferimento all'EP8 a pag.11, determina una stima intervallare della deviazione standard σ al 99%. 3 Determina una stima intervallare, al 99%, della deviazione standard dei pesi dei barattoli di olive farcite confezionati da una macchina, nell'ipotesi che la distribuzione dei pesi sia normale. Un campione casuale di 800 barattoli ha fornito s = 8,43 g. 4 E' stato estratto un campione casuale di 100 automobilisti da una popolazione di 25000. Dal campione è risultata una spesa media annua per la manutenzione dell'automobile di € 181,60 , con una deviazione , standard di € 82,25. Nell'ipotesi che tali spese siano distribuite normalmente, determina, al livello del 95%, le stime intervallari della spesa media annua e della varianza della popolazione. 5 Da una popolazione di 1400 impiegati, si è estratto un campione di 250 persone e si sono registrati i loro stipendi mensili. Questi, rag gruppati in classi, sono riportati nella tabella a lato. Nell'ipotesi che i redditi siano distribuiti normalmente, calcola, al li vello del 95%, le stime intervallari dello stipendio medio mensile e della varianza della popolazione. (i risultati di questi esercizi si trovano a pag.19) Classi di reddito Numero (in euro) impiegati ----------------------------------------900 − 1000 15 1000 − 1100 41 1100 − 1200 87 1200 − 1300 52 32 1300 − 1400 1400 − 1500 15 1500 − 1600 8 17 TAVOLA DI STUDENT La tavola fornisce, per ν ≤ 30, il numero t , soluzione νp dell'equazione: −n Γ( n ) t 2 2 2 x ⋅ ∫ 1 + dx = p n − 1 (n − 1)π ⋅ Γ( n − 1) − ∞ 2 dove p è l'area ombreggiata in figura. νtp p ν 0,900 0,950 0,975 0,990 0,995 1 2 3 4 5 3,078 1,886 1,638 1,533 1,476 6,314 2,920 2,353 2,132 2,015 12,706 4,303 3,182 2,776 2,571 31,821 6,965 4,541 3,747 3,365 63,657 9,925 5,841 4,604 4,032 6 7 8 9 10 1,440 1,415 1,397 1,383 1,372 1,943 1,895 1,860 1,833 1,812 2,447 2,365 2,306 2,262 2,228 3,143 2,998 2,896 2,821 2,764 3,707 3,499 3,355 3,250 3,169 11 12 13 14 15 1,363 1,356 1,350 1,345 1,341 1,796 1,782 1,771 1,761 1,753 2,201 2,179 2,160 2,145 2,131 2,718 2,681 2,650 2,624 2,602 3,106 3,055 3,012 2,977 2,947 16 17 18 19 20 1,337 1,333 1,330 1,328 1,325 1,746 1,740 1,734 1,729 1,725 2,120 2,110 2,101 2,093 2,086 2,583 2,567 2,552 2,539 2,528 2,921 2,898 2,878 2,861 2,845 21 22 23 24 25 1,323 1,321 1,319 1,318 1,316 1,721 1,717 1,714 1,711 1,708 2,080 2,074 2,069 2,064 2,060 2,518 2,508 2,500 2,492 2,485 2,831 2,819 2,807 2,797 2,787 26 27 28 29 30 1,315 1,314 1,313 1,311 1,310 1,706 1,703 1,701 1,699 1,697 2,056 2,052 2,048 2,045 2,042 2,479 2,473 2,467 2,462 2,457 2,779 2,771 2,763 2,756 2,750 40 50 60 120 ∞ 1,303 1,299 1,296 1,289 1,282 1,684 1,676 1,671 1,658 1,645 2,021 2,008 2,000 1,980 1,960 2,423 2,403 2,390 2,358 2,326 2,704 2,678 2,660 2,617 2,576 18 TAVOLA DI PEARSON La tavola fornisce, per ν ≤ 30 il numero ν χ P2 soluzione dell'equazione: x n−3 − ⋅ ∫ t 2 ⋅e 0 ⋅ Γ( n − 1) 2 1 n−1 2 2 t 2 ⋅ dt = p 0 dove p è l'area ombreggiata in figura. ν χp 2 p ν 0,005 0,025 1 2 3 4 5 0,000039 0,0100 0,0717 0,207 0,412 0,000982 0,0506 0,216 0,484 0,831 3,84 5,99 7,81 9,49 11,1 5,02 7,38 9,35 11,1 12,8 6,63 9,21 11,3 13,3 15,1 7,88 10,6 12,8 14,9 16,7 6 7 8 9 10 0,676 0,989 1,34 1,73 2,16 1,24 1,69 2,18 2,70 3,25 12,6 14,1 15,5 16,9 18,3 14,4 16,0 17,5 19,0 20,5 16,8 18,5 20,1 21,7 23,2 18,5 20,3 22,0 23,6 25,2 11 12 13 14 15 2,60 3,07 3,57 4,07 4,60 3,82 4,40 5,01 5,63 6,26 19,7 21,0 22,4 23,7 25,0 21,9 23,3 24,7 26,1 27,5 24,7 26,2 27,7 29,1 30,6 26,8 28,3 29,8 31,3 32,8 16 17 18 19 20 5,14 5,70 6,26 6,84 7,43 6,91 7,56 8,23 8,91 9,59 26,3 27,6 28,9 30,1 31,4 28,8 30,2 31,5 32,9 34,2 32,0 33,4 34,8 36,2 37,6 34,3 35,7 37,2 38,6 40,0 21 22 23 24 25 8,03 8,64 9,26 9,89 10,5 10,3 11,0 11,7 12,4 13,1 32,7 33,9 35,2 36,4 37,7 35,5 36,8 38,1 39,4 40,6 38,9 40,3 41,6 43,0 44,3 41,4 42,8 44,2 45,6 46,9 26 27 28 29 30 11,2 11,8 12,5 13,1 13,8 13,8 14,6 15,3 16,0 16,8 38,9 40,1 41,3 42,6 43,8 41,9 43,2 44,5 45,7 47,0 45,6 47,0 48,3 49,6 50,9 48,3 49,6 51,0 52,3 53,7 40 50 60 70 80 20,7 28,0 35,5 43,3 51,2 24,4 32,4 40,5 48,8 57,2 55,8 67,5 79,1 90,5 101,9 59,3 71,4 83,3 95,0 106,6 63,7 76,2 88,4 100,4 112,3 66,8 79,5 92,0 104,2 116,3 0,950 0,975 0,990 0,995 19 SOLUZIONI 1 σ ∈ ]5539 ; 11610[ c. f. 0,95. 2 σ ∈ ]0,32 ; 1,43[ c. f. 0,99. 3 σ ∈ ]7,93 ; 9,01[ c. f. 0,99. 4 µ ∈ ]165,47 ; 197,73[ e σ ∈ ]5282,25 ; 9185,75[ c. f. 0,95. 2 5 ( x = 1198,8 ; s = 19456,38554) µ ∈ ]1181,50 ; 1216,10[ e σ ∈ ]16471,86 ; 23435,13[ c. f. 0,95. 2 2