STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene descritto attraverso una funzione parametrica di probabilità pX (x | θ) o di densità fX (x | θ) di cui non si conosce θ. Non si conosco i dati relativi a tutta la popolazione, ma solo quelli relativi ad un campione rappresentativo di n unità: X1 = x1 , . . . , Xn = xn . Attraverso la conoscenza del campione si cerca di stimare o di verificare la validità di alcune congetture per θ. Quindi l’inferenza è un processo attraverso il quale dal campione si deducono informazioni sulla popolazione ed è necessario valutare la qualità e la veridicità di tali informazioni. Statistica, CLEM – p. 1/88 Problema inferenziale (1) Un’azienda produce dei bulloni di ferro. Durante la produzione, capita che dei bulloni prodotti siano difettosi e quindi vanno eliminati. L’azienda, per capire la qualità del suo processo produttivo, vuole conoscere la proporzione p di prodotti difettosi in un mese. L’azienda inoltre valuta che il processo produttivo è buono se tale proporzione in un mese è p < 15% Problema inferenziale: stimare un valore per p stimare un intervallo di valori per p valutare se il processo produttivo è buono o necessita di interventi per migliorie Statistica, CLEM – p. 2/88 Interpretazione del problema inferenziale (1) C’è una variabile casuale binaria X = numero di pezzi difettosi in un mese (1: difettoso; 0: non difettoso) per conoscere la vera proporzione p di pezzi difettosi, basterrebbe osservare tutta la POPOLAZIONE = tutti i pezzi prodotti in un mese classificandoli come 1 (difettosi) o 0 (non difettosi) e si calcola la proporzione, cioè il PARAMETRO p della popolazione per vari motivi, non si può osservare tutta la popolazione, ma un CAMPIONE (x1 , . . . , xn ) di n bulloni prodotti in un mese Dato il campione, si cerca di conoscere la popolazione: STIMA PUNTUALE: stimare un valore per p INTERVALLI DI CONFIDENZA: stimare un intervallo di valori per p TEST DI IPOTESI: verificare che p < 0.15 per sincerarsi che il processo produttivo è buono Statistica, CLEM – p. 3/88 Problema inferenziale (2) Consideriamo gli iscritti al primo anno del CLEM. Siamo interessati a conoscere l’altezza media dei maschi µM e l’altezza media delle femmine µF . Inoltre vogliamo verificare che in media i maschi sono più alti delle femmine. Problema inferenziale: stimare due valori per µF e µM stimare due intervalli di valori per µF e µM verificare l’ipotesi che i maschi sono in media più alti delle femmine Statistica, CLEM – p. 4/88 Interpretazione del problema inferenziale (2) Ci sono due variabili casuali continue M = altezza dei maschi e F = altezza delle femmine per conoscere le vere altezze medie µF e µM , basterrebbe osservare la POPOLAZIONE dei MASCHI = altezza di tutti i maschi iscritti al primo anno e la POPOLAZIONE delle FEMMINE = altezza di tutte le femmine iscritte al primo anno. Facendo le medie dei dati osservati, si ottengono i PARAMETRI µ F e µM delle due popolazioni per vari motivi, non si possono osservare entrambe le popolazioni, ma due CAMPIONI (m1 , . . . , mn ) e (f1 , . . . , fm ) rispettivamente di n e m dimensioni Dati i due campioni, si cerca di conoscere i parametri di entrambe le popolazioni: STIMA PUNTUALE: stimare due valori per µM e µF INTERVALLI DI CONFIDENZA: stimare due intervalli di valori per µ M e µF TEST DI IPOTESI: verificare che µM − µF > 0 per attestare che effettivamente i maschi in media sono più altri delle femmine Statistica, CLEM – p. 5/88 Perché il campione Le indagini svolte sull’intera popolazione sono dette censuarie poiché svolte attraverso dei CENSIMENTI. Ma spesso può convenire osservare solo un sottoinsieme della popolazione, cioé un CAMPIONE costi elevati di un censimento tempi lunghi di un censimento la popolazione può essere infinita Statistica, CLEM – p. 6/88 Campione probabilistico Un campione (X1 , . . . , Xn ) è probabilistico quando è nota la probabilità di ogni singola unità di entrare a far parte del campione PRIMA dell’estrazione delle n unità il campione (X1 , . . . , Xn ) è una variabile casuale perché non sappiamo esattamente le unità che faranno parte del campione DOPO l’estrazione delle n unità il campione (x1 , . . . , xn ) contiente delle osservazioni e non è più una variabile casuale (X1 = x1 , . . . , Xn = xn ) Statistica, CLEM – p. 7/88 Campionamento casuale semplice Un CAMPIONE (X1 , . . . , Xn ) è detto CASUALE SEMPLICE quando ogni unità della popolazione ha la stessa probabilità di entrare a far parte del campione. Consideriamo due tecniche di campionamento estrazione con reinserimento estrazione senza reinserimento Nel primo caso si ha un campione casuale semplice perché ogni unità mantiene la stessa probabilità di entrare a far parte del campione. Nel secondo caso non si ha un campione casuale semplice perché, a seguito di ogni estrazione, varia la probabilità delle singole unità di entrare a far parte del campione. Le differenze fra le due tecniche sono minime quando si hanno popolazioni molto grandi. In generale consideriamo sempre CCS (campioni casuali semplici) ottenuti con estrazione con reinserimento estrazione senza reinserimento in grandi popolazioni Statistica, CLEM – p. 8/88 Struttura probabilistica del CCS Data una popolazione per una variabile casuale X con distribuzione di probabilità pX (x), un CCS, PRIMA dell’estrazione, è una successione di variabili casuali X1 , . . . , X i , . . . , X n , i = 1, . . . , n X1 , . . . , Xn sono i.i.d. ogni Xi ha la stessa distribuzione di probabilità della popolazione p Xi (xi ) per l’indipendenza, la distribuzione di probabilità del campione è pX1 ,...,Xn (x1 , . . . , xn ) = n Y pXi (xi ) i=1 DOPO l’estrazione, il campione non è più una variabile casuale, ma una successione di osservazioni con cui fare inferenza sulla popolazione x1 , . . . , x i , . . . , x n , i = 1, . . . , n Statistica, CLEM – p. 9/88 Come fare inferenza Supponiamo di considerare una variabile casuale X= altezza ed ipotizziamo X ∼ N (µ, σ 2 ). effettuiamo un CCS {X1 , . . . , Xn } osserviamo n unità {x1 , . . . , xn } Cerchiamo un criterio per utilizzare i dati del CAMPIONE per fare inferenza sui PARAMETRI media µ e varianza σ 2 della POPOLAZIONE ⇓ Cerchiamo degli indicatori sintetici da calcolare nel campione che possono darci informazioni sui parametri ⇓ STATISTICHE CAMPIONARIE Statistica, CLEM – p. 10/88 Statistica campionaria Una statistica campionaria T (X1 , . . . , Xn ) è una funzione che dipende solo dai dati del campione e non da variabili incognite. Dato un CCS {X 1 , . . . , Xn } 1 P2 la media campionaria: X = n i=1 Xi 1 Pn 2 la varianza campionaria: S 2 = n−1 i=1 (Xi − X) oppure 1 Pn 2 S̃ = n i=1 (Xi − X)2 la mediana campionaria semisomma dei valori estremi: (Xmax − Xmin )/2 ... Struttura probabilistica della statistica campionaria PRIMA dell’estrazione del campione T (X1 , . . . , Xn ) è una variabile casuale ottenuta come combinazioni di variabili casuali Xi la cui funzione di distribuzione è quella della popolazione DOPO l’estrazione del campione, T (x1 , . . . , xn ) = t non è una variabile casuale, ma è il valore t che la statistica campionaria assume nel campione estratto. Statistica, CLEM – p. 11/88 Stimatore di un parametro Lo stimatore è una statistica campionaria T (X1 , . . . , Xn ) che viene utilizzata per stimare (dedurre informazioni) il parametro della popolazione. Esempio. Sia X ∼ Be(p). Sia {x1 , . . . , xn } un CCS osservato del tipo {1, 0, 0 . . . , 1}. Si vuole trovare uno stimatore per p, parametro che rappresenta la proporzione di successi nella popolazione. Un possibile stimatore è la statistica campionaria n 1X p̂ = xi n i=1 Esempio. Sia X ∼ N (0, σ 2 ). Sia {x1 , . . . , xn } un CCS osservato. Si vuole trovare uno stimatore per σ 2 , parametro che rappresenta la variabilità nella popolazione. Possibili stimatori sono n 1X (xi − 0)2 , S̃ = n i=1 2 n 1 X S = (xi − 0)2 , n − 1 i=1 2 T = (Xmax − Xmin )/2 Statistica, CLEM – p. 12/88 Come si sceglie lo stimatore? si devono studiare le proprietà degli stimatori e scegliere quello con le proprietà più desiderabili per conoscere le proprietà degli stimatori è necessario conoscere la loro struttura probabilistica, cioè la loro distribuzione di probabilità dato che è nota la distribuzione di probabilità della popolazione, si può dedurre anche la distribuzione di probabilità di una statistica campionaria, poiché questa è funzione del CCS {X1 , . . . , Xn } composto di var. casuali i.i.d. Alcune proprietà di uno stimatore correttezza efficienza consistenza Statistica, CLEM – p. 13/88 Correttezza di uno stimatore (1) Sia X una variabile casuale con distribuzione di probabilità p X (x | θ) con parametro θ. Sia T una funzione del campione {X1 , . . . , Xn } usata come stimatore di θ. Se pT (t | θ) è la distribuzione di probabilità dello stimatore T , questo è corretto o non distorto se E(T ) = θ Esempio. Sia T = X la media campionaria usata come stimatore di θ. Se T è corretto, significa che in media riproduce il valore di θ: si estraggono m = 1000 campioni {x1 , . . . , xn } in ogni campione si calcola la media campionaria x1 , . . . , xm la media di tutte le medie è uguale a θ m 1 X xj = θ m j=1 Statistica, CLEM – p. 14/88 Correttezza di uno stimatore (2) 4 T1 T2 densità theta = 1.6 3 T 1 è corretto T 2 non è corretto 2 1 0 1 1.2 1.4 1.6 T 1.8 2 2.2 Statistica, CLEM – p. 15/88 Efficienza di uno stimatore (1) Sia X una variabile casuale con distribuzione di probabilità p X (x | θ) con parametro θ. Siano T1 e T2 due possibili stimatori di θ. Se pT1 (t1 | θ) pT2 (t2 | θ) sono le distribuzioni di probabilità dei due stimatori, T1 è più efficiente di T2 V(T1 ) < V(T2 ) Esempio. Siano T1 = X la media campionaria e T2 = M e la mediana campionaria, due stimatori di θ. X è più efficiente di M e se è meno variabile: si estraggono m = 1000 campioni {x1 , . . . , xn } in ogni campione si calcolano i due stimatori x1 , . . . , xm , me1 , . . . , mem 2 e σ 2 per entrambe le successioni di stimatori si calcolano la varianze σT T2 1 la media campionaria è più efficiente delle mediana campionaria se 2 2 σT < σ T 1 2 N.B. L’efficienza di uno stimatore è definita in termini relativi (rispetto ad altri stimatori) e non in termini assoluti. Statistica, CLEM – p. 16/88 Efficienza di uno stimatore (2) 8 densità 6 T1 VAR(T1) < VAR(T2) 4 2 0 1 T2 1.2 1.4 1.6 T 1.8 2 2.2 Statistica, CLEM – p. 17/88 Errore quadratico medio (1) L’errore quandratico medio di uno stimatore T di un parametro θ considera congiuntamente sia l’efficienza sia la distorsione dello stimatore M SE(T ) = E(T − θ)2 = V(T ) + D(T )2 dove D(T ) = E(T ) − θ. Se uno stimatore è corretto, D(T ) = 0, quindi l’errore quadratico medio coincide con la varianza M SE(T ) = V(T ), per stimatori non distorti Siano T1 e T2 due possibili stimatori di θ. Lo stimatore T1 è migliore di T2 se M SE(T1 ) < M SE(T2 ) Se T1 e T2 sono due stimatori corretti di θ, si ritorna alla definizione di efficienza, per cui lo stimatore T1 è migliore di T2 se V(T1 ) < V(T2 ) Statistica, CLEM – p. 18/88 Errore quadratico medio (2) Anche se T1 è distorto, è comunque migliore di T2 perché ha una maggiore efficienza. 8 T1 densità theta = 1.60 E(T1) = 1.70 E(T2) = 1.60 6 V(T1) < V(T2) MSE(T1) < MSE(T2) 4 2 T2 0 1 1.2 1.4 1.6 T 1.8 2 2.2 Statistica, CLEM – p. 19/88 Consistenza (1) La consistenza è una proprietà asintotica, nel senso che vale per campioni molto grandi, cioè quando n → ∞. Indichiamo con Tn lo stimatore calcolato su campioni di dimensioni n. Uno stimatore T n di un parametro θ è consistente quando lim P (| Tn − θ |< ) = 1, n→∞ è un numero piccolissimo positivo Questo significa che quando il campione è molto grande tende ad 1 la probabilità che la stima Tn = t cade in un intervallo molto piccolo del parametro θ la stima Tn = t ottenuta attraverso uno stimatore consistente è molto vicina al valore vero del parametro θ. Statistica, CLEM – p. 20/88 Consistenza (2) 40 35 30 densità 25 theta = 1.60 n = 50 n = 100 n = 200 20 15 10 5 0 1.3 1.4 1.5 1.6 T 1.7 1.8 1.9 2 Statistica, CLEM – p. 21/88 La distribuzione degli stimatori Dato uno stimatore Tn , per conoscere le sue proprietà è necessario conoscere la sua distribuzione di probabilità. Studiamo la distribuzione di probabilità e le proprietà dei seguenti stimatori 1 Pn X= n i=1 Xi 1 Pn 2 S 2 = n−1 i=1 (Xi − X) 1 Pn 2 S̃ 2 = n i=1 (Xi − X) P p̂ = n i=1 Xi , quando X è una variabile binaria discreta (0, 1) Statistica, CLEM – p. 22/88 La distrib. della media campionaria X (1) Sia X una variabile casuale con E(X) = µ e V(X) = σ 2 e sia {X1 , . . . , Xn } un CCS con variabili i.i.d. Consideriamo la variabile casuale media campionaria n 1X X= Xi n i=1 dato che il campione CS è costituito di variabili i.i.d. nµ 1 Pn E(X) = n E(X ) = = µ: X è uno stimatore CORRETTO di µ i i=1 n Pn nσ 2 σ2 V(X) = n12 V(X ) = = i i=1 n n2 N.B. Notare che la media campionaria X ha una variabilità inferiore alla variabile X σ2 V(X) = n < V(X) = σ 2 Statistica, CLEM – p. 23/88 La distrib. della media campionaria X (2) Se X una variabile casuale normale, X ∼ N (µ, σ 2 ) e se {X1 , . . . , Xn } è un CCS, la media campionaria n 1X X= Xi n i=1 è una combinazione di variabili casuali i.i.d. Per le proprietà della normale X ∼ N (µ, σ 2 /n) Se X è variabile casuale qualsiasi con E(X) = µ e V(X) = σ 2 , la media campionaria è sempre una combinazione di variabili i.i.d., ma potremmo non conoscere la distribuzione esatta di X ⇓ ma se il campione è abbastanza grande, per il TLC (teorema del limite centrale), la distribuzione di X si approssima con una distribuzione normale X → N (µ, σ 2 /n) Statistica, CLEM – p. 24/88 La media campionaria per una pop. normale 20 T = media campionaria 18 16 14 densità 12 T = N(1.60, 0.2/10) 10 X = N(1.60, 0.2) 8 6 4 X 2 0 1 1.5 2 2.5 Statistica, CLEM – p. 25/88 La distribuzione della stat. campionaria S̃ 2 Sia X una variabile casuale normale N (µ, σ 2 ) e sia {X1 , . . . , Xn } un CCS con variabili i.i.d.. Consideriamo la statistica campionaria n 1X S̃ = (Xi − X)2 n i=1 2 dato che il campione CS è costituito da variabili i.i.d., si dimostra che nS̃ 2 ∼ χ2(n−1) , 2 σ N.B. solo se X ∼ N da cui si può facilmente verificare che S̃ 2 è uno stimatore DISTORTO di σ 2 nS̃ 2 E( 2 ) = n − 1, σ E(S̃ 2 ) = n−1 2 σ < σ2 n Quindi lo stimatore distorto S̃ 2 tende a sottostimare σ 2 . Statistica, CLEM – p. 26/88 La distribuzione della stat. campionaria S 2 Sia X una variabile casuale normale N (µ, σ 2 ) e sia {X1 , . . . , Xn } un CCS con variabili i.i.d.. Consideriamo la statistica campionaria n 1 X S = (Xi − X)2 n − 1 i=1 2 dato che il campione CS è costituito da variabili i.i.d., si dimostra che (n − 1)S 2 2 ∼ χ (n−1) , σ2 N.B. solo se X ∼ N da cui si può facilmente verificare che S 2 è uno stimatore CORRETTO di σ 2 (n − 1)S 2 E( ) = n − 1, σ2 E(S 2 ) = n−1 2 σ = σ2 n−1 Quindi si predilige S 2 come stimatore della varianza σ 2 . Statistica, CLEM – p. 27/88 La distrib. di (n − 1)S 2 /σ 2 per pop. normali Distribuzione della varianza campionaria 0.12 0.1 chi−quadrato n−1 gradi di libertà densità 0.08 0.06 0.04 0.02 0 0 5 10 15 20 25 30 Statistica, CLEM – p. 28/88 La distrib. della proporzione campionaria p̂ Sia X una variabile casuale binaria X ∼ Be(p) con E(X) = p e V(X) = p(1 − p) e sia {X1 , . . . , Xn } un CCS con variabili i.i.d. Consideriamo la variabile casuale p̂ = proporzione campionaria di successo n 1X p̂ = Xi n i=1 dato che il campione CS è fatto variabili i.i.d. Xi ∼ Be(p), p̂ ∼ Bin(n, p) Pn E(p̂) = 1 n V(p̂) = 1 n2 np E(X ) = = p: p̂ è uno stimatore CORRETTO di p i i=1 n Pn np(1−p) p(1−p) = 2 i=1 V(Xi ) = n n N.B. Se il campione è molto grande, per il TLC p̂ si approssima con una normale p̂ → N (p, p(1 − p) ) n Statistica, CLEM – p. 29/88 La distrib. approssimata di p̂ per vari n Densità approssimata della proporzione camp. 160 p = 0.4 p(1−p) = 0.24 140 n = 100 densità 120 N(0.4, 0.24/100) n = 50 N(0.4, 0.24/50) n = 30 N(0.4, 0.24/30) 100 80 60 40 20 0 0.35 0.4 Statistica, CLEM – p. 30/88 Stima puntuale Sia X distribuita con una legge di probabilità pX (x | θ) o funzione di densità fX (x | θ). Sia T (X) uno stimatore di θ e {X1 , . . . , Xn } un CCS. Una volta estratto il campione X1 = x1 , . . . , X n = xn la stima puntuale è il valore assunto dallo stimatore nel campione T (x1 , . . . , xn ) = t Si assume t come stima per θ. L’accuratezza della stima puntuale dipende dall’errore standard della stima SE(T ) = p V(T ) Statistica, CLEM – p. 31/88 Stima puntuale della media Sia X ∼ N (µ, σ 2 ). Supponiamo che σ 2 sia noto e l’unico parametro è µ. Una volta estratto il campione X1 = x1 , . . . , X n = xn la stima puntuale è n 1X x= xi n i=1 e l’accuratezza della stima di µ è σ SE(x) = √ n dato che V(X) = σ2 n Statistica, CLEM – p. 32/88 Stima puntuale di una proporzione Sia X ∼ Be(p) di parametro p. Una volta estratto il campione X1 = x1 , . . . , X n = xn la stima puntuale di p è e l’accuratezza della stima è n 1X pb = xi n i=1 SE(b p) = dato che V(b p) = p(1−p) n r pb(1 − pb) n Statistica, CLEM – p. 33/88 Stima per intervallo (1) A volte, piuttosto che stimare il parametro con un unico valore (stima puntuale), si preferisce stimare un intervallo di valori plausibili per il parametro: un intervallo di confidenza (o fiduciario). La stima per intervallo si basa su: uno stimatore T per il parametro θ la distribuzione di probabilità pT (t | θ) dello stimatore T un livello di confidenza α = una probabilità che indica l’affidabilità della stima un intervallo di confidenza: un insieme di valori per θ Statistica, CLEM – p. 34/88 Stima per intervallo (2) Sia X una variabile casuale per la popolazione con parametro θ non noto. Sia T uno stimatore corretto di θ, E(T ) = θ, e {X1 , . . . , Xn } un CCS. PRIMA dell’estrazione del campione, T è una variabile casuale che consideriamo standardizzata e per la quale possiamo definire un intervallo (a, b) tale che P (a ≤ T −θ ≤ b) = 1 − α, SE(T ) con α abbastanza piccolo P (T − a × SE(T ) ≤ θ ≤ T + b × SE(T )) = P (a0 ≤ θ ≤ b0 ) = 1 − α Gli estremi dell’intervallo (a0 , b0 ) dipendono da T e sono anche loro variabili casuali. α = P [θ ∈ / (a0 , b0 )], 1 − α = P [θ ∈ (a0 , b0 )] α = probabilità di estrarre un certo campione in cui T = t da cui deriva un intervallo [t − a × SE(t), t + b × SE(T )] che non contiene il parametro θ, quindi produce una stima per intervallo errata Statistica, CLEM – p. 35/88 Intervallo di confidenza PRIMA dell’estrazione del campione, P (T − v ≤ θ ≤ T + k) = 1 − α, v = a × SE(T ), k = b × SE(T ) (T − v, T + k) è un intervallo i cui estremi sono variabili casuali 1 − α = probabilità si estrarre un certo campione in cui T = t da cui deriva una stima per intervallo intervallo (t − v, t + k) che contiene il parametro θ. DOPO l’estrazione del campione CS {x1 , . . . , xn } (t − v, t + k) è l’intervallo di confidenza i cui estremi sono valori certi, non più variabili casuali per un α molto piccolo {0.10, 0.05, 0.01}, abbiamo che la probabilità a priori di estrarre un campione che genera un intervallo che non contiene θ è bassissma, perciò ’confidiamo’ nel fatto che θ ∈ (t − v, t + k) Statistica, CLEM – p. 36/88 Intervallo di confidenza (2) Consideriamo una variabile casuale X ∼ N (µ, 1) con varianza nota. Sia {X 1 , . . . , Xn } un CCS e sia T ∼ N (µ, 1/n) lo stimatore media campionaria per il parametro µ. Se α = 0.05 = 5%, p p T −µ P (a ≤ p ≤ b) = P (T − a × 1/n ≤ µ ≤ T + b × 1/n) = 0.95 = 95% 1/n In pratica, supponiamo di estrarre 1000 campioni: 950 di questi campioni generano una stima T = t tale che la stima per intervallo è corretta p p θ ∈ (t − a × 1/n, t + b × 1/n) 50 di questi campioni generano una stima T = t tale che la stima per intervallo è errata p p θ∈ / (t − a × 1/n, t + b × 1/n) Statistica, CLEM – p. 37/88 Come si scelgono a e b? Consideriamo α = 0.10 T −µ P (a ≤ p ≤ b) = P (a ≤ Z ≤ b) = 90% 1/n Ci sono tantissimi intervalli (a, b) che soddisfano quella condizione P (−2.05 ≤ Z ≤ 1.41) = P (−1.48 ≤ Z ≤ 1.88) = P (−1.64 ≤ Z ≤ 1.64) = 90% L’intervallo di confidenza ’migliore’ di solito è quello simmetrico, cioè quello per cui la probabilità α = 10% si divide a metà P (−1.64 ≤ Z ≤ 1.64) = 90% P (Z ≤ −1.64) = α/2 = 5%, P (Z <≥ −1.64) = α/2 = 5% Statistica, CLEM – p. 38/88 Alcuni intervalli per α = 0.10 Quello in rosso è l’intervallo simmetrico (−1.64, 1.64) Int. Confidenza, alpha = 10% 0.4 IC = (−2.05, 1,41) alpha = 2% + 8% 0.35 alpha = 5%+ 5% 0.3 IC = (−1.64, 1,64) alpha = 7% + 3% IC = (−1.48, 1,88) densità 0.25 0.2 0.15 0.1 0.05 0 −4 −3 −2 −1 0 Z 1 2 3 4 Statistica, CLEM – p. 39/88 Intervallo di confidenza simmetrico Consideriamo una variabile casuale X ∼ N (µ, 1) con varianza nota. Sia {X 1 , . . . , Xn } un CCS e sia T ∼ N (µ, 1/n) lo stimatore media campionaria per il parametro µ. L’intervallo di confidenza simmetrico si ottiene P (−zα/2 p p T −µ ≤ p ≤ zα/2 ) = P (T − zα/2 × 1/n ≤ µ ≤ T + zα/2 × 1/n) = 1 − α 1/n Se α = 0.05, z0.025 = 1.96 e −z0.025 = −1.96. L’intervallo di confidenza casuale è (T − 1.96 × poiché p p 1/n, T + 1.96 × 1/n) T −µ P (−1.96 ≤ p ≤ 1.96) = 1 − 5% = 95% 1/n Una volta estratto un campione {x1 , . . . , xn } in cui T = t, la stima per intervallo del parametro µ è data dall’intervallo di confidenza µ ∈ (t − 1.96 × p 1/n, t + 1.96 × p 1/n) Statistica, CLEM – p. 40/88 Alcuni valori zα/2 per una normale standard 0.4 0.4 0.35 Normale Standard 0.35 0.3 0.3 0.25 0.25 0.2 0.2 90% 0.15 0.1 0.05 0.05 5% 5% −2 −1.64 −1 95% 0.15 0.1 0 −3 Normale Standard 0 1 2 0 −3 3 1.64 2.5% 2.5% −2 −1 0 −1.96 1 2 3 1.96 0.4 Normale Standard 0.35 0.3 0.25 0.2 99% 0.15 0.1 0.05 0.5% 0.5% 0 −3 −2 −2.57 −1 0 1 2 3 2.57 Statistica, CLEM – p. 41/88 IC per la media µ in caso di varianza nota IC per µ di pop. normale con varianza nota Sia X ∼ N (µ, σ 2 ) con varianza σ 2 nota Sia X ∼ N (µ, σ 2 /n) lo stimatore per il parametro µ Sia {x1 , . . . , xn } un CCS estratto in cui X = x L’intervallo di confidenza simmetrico è √ √ (x − 1.64 × σ/ n, x + 1.64 × σ/ n), per α = 10% √ √ (x − 1.96 × σ/ n, x + 1.96 × σ/ n), per α = 5% √ √ (x − 2.57 × σ/ n, x + 2.57 × σ/ n), per α = 1% IC per µ di pop. non normale con varianza nota e grandi campioni Gli stessi intervalli si possono usare per ottenere IC asintotici per il parametro E(X) = µ anche per variabili casuali X NON NORMALI, ma solo nel caso di GRANDI CAMPIONI (n abbastanza grande). Poiché, per il teorema del limite centrale n 1X X= Xi si approssima con N (µ, σ 2 /n) per n grande n i=1 Statistica, CLEM – p. 42/88 Stima giusta o errata? IC rossi sono stime errate di µ generate da campioni in cui t = x è poco probabile 2 Stime per intervallo corrette ed errate T 1.8 1.6 t = 0.90 1.4 t = 2.10 1.2 1 t = 1.40 0.8 0.6 t = 1.80 0.4 0.2 0 0.5 1 1.5 mu = 1.60 2 2.5 Statistica, CLEM – p. 43/88 IC per la media µ con varianza non nota (1) IC per µ di pop. normale con varianza non nota Sia X ∼ N (µ, σ 2 ) con varianza σ 2 non nota 1 Pn 2 2 usiamo S 2 = n−1 i=1 (Xi − X) come stimatore di σ Sia X lo stimatore per il parametro µ, se X ∼ N , si dimostra che X −µ √ ∼ tn−1 , S/ n t − Student con n − 1 g.l. Sia {x1 , . . . , xn } un CCS estratto in cui X = x e S 2 = s2 L’intervallo di confidenza simmetrico è √ (x − t(n−1),α/2 × s/ n, x + t(n−1),α/2 √ × s/ n) √ √ (x − 1.83 × s n, x + 1.83 × s/ n), per α = 10% e n = 10 √ √ (x − 2.26 × s/ n, x + 2.26 × s/ n), per α = 5% e n = 10 √ √ (x − 3.25 × s/ n, x + 3.25 × s/ n), per α = 1% e n = 10 Statistica, CLEM – p. 44/88 IC per la media µ con varianza non nota (2) IC per µ di pop. non normale con varianza non nota e grandi campioni Nel caso di grandi campioni, sia che X sia normale sia che X sia non normale, per il teorema del limite centrale X −µ √ S/ n si approssima con N (0, 1) L’intervallo di confidenza asintotico e simmetrico per µ è quindi √ √ (x − zα/2 × s/ n, x + zα/2 × s/ n) Ad esempio, con n = 10 con α = 5%, IC per µ è √ √ (x − 1.96 × s/ n, x + 1.96 × s/ n) Statistica, CLEM – p. 45/88 IC per la proporzione p in grandi campioni Sia X ∼ Be(p) una variabile binaria (0, 1) e sia {X1 , . . . , Xn } un CCS 1 Pn Sia pb = n i=1 Xi lo stimatore per il parametro p. Per il teorema del limite centrale pb − p q si approssima con N (0, 1) p b(1−b p) n Sia {x1 , . . . , xn } un GRANDE CAMPIONE estratto in cui si calcola pb L’intervallo di confidenza asintotico e simmetrico è (b p − zα/2 × (b p − 1.64 × (b p − 1.96 × (b p − 2.57 × q p b(1−b p) , n q p b(1−b p) , n q p b(1−b p) , n r pb(1 − pb) , pb + zα/2 × n pb + 1.64 × pb + 1.96 × pb + 2.57 × r pb(1 − pb) ) n q p b(1−b p) ), n per α = 10% q p b(1−b p) ), n per α = 1% q p b(1−b p) ), n per α = 5% Statistica, CLEM – p. 46/88 IC per la varianza σ 2 in pop. normali (1) IC per σ 2 di pop. normale con µ non nota Sia X ∼ N (µ, σ 2 ) con µ non nota 1 Pn 2 2 usiamo S 2 = n−1 i=1 (Xi − X) come stimatore di σ . Si ha che (n − 1)S 2 2 ∼ χ n−1 , σ2 chi-quadrato con n − 1 g.l. per un certo α P [χ2(n−1),1−α/2 (n − 1)S 2 ≤ ≤ χ2(n−1),α/2 ] = 1 − α 2 σ P [(n − 1)S 2 /χ2(n−1),α/2 ≤ σ 2 ≤ (n − 1)S 2 /χ2(n−1),1−α/2 ] = 1 − α Sia {x1 , . . . , xn } un CCS estratto in cui S 2 = s2 L’intervallo di confidenza simmetrico è [(n − 1)s2 /χ2(n−1),α/2 , (n − 1)s2 /χ2(n−1),1−α/2 ] Statistica, CLEM – p. 47/88 IC per la varianza σ 2 in pop. normali (2) (9s2 /16.92, 9s2 /3.33), per α = 10% e n = 10 (9s2 /19.02, 9s2 /2.70), per α = 5% e n = 10 (9s2 /23.59, 9s2 /1.73), per α = 1% e n = 10 IC per σ 2 di pop. normale con µ nota Se X ∼ N (µ, σ 2 ) dove µ è nota, la differenza è che (n − 1)S 2 2 ∼ χ n, σ2 chi-quadrato con n g.l. quindi, per un certo valore s2 ed un certo α, IC simmetrico per σ 2 è [(n − 1)s2 /χ2n,α/2 , (n − 1)s2 /χ2n,1−α/2 ] Statistica, CLEM – p. 48/88 Quantili χ29,α/2 e χ29,1−α/2 Chi−quadro con 9 gradi di libertà 0.12 IC 90% 0.1 IC 95% IC 99% 0.08 0.06 0.04 0.02 0 0 5 10 15 20 25 30 Statistica, CLEM – p. 49/88 IC per µX − µY : pop. normali, var. note 2 ) e Y ∼ N (µ , σ 2 ), con X⊥ IC per µX − µY con X ∼ N (µX , σX ⊥Y Y Y 2 e σ 2 note Siano le varianze σX Y 2 /n) e Y ∼ N (µ , σ 2 /m) gli stimatori di µ Siano X ∼ N (µX , σX Y X e µY Y Siano {x1 , . . . , xn } e {y1 , . . . , ym } due CCS indipendenti in cui X = x e Y = y Per l’indipendenza si ha che (X − Y ) − (µX − µY ) q 2 ∼ N (0, 1) 2 σX σY + m n L’intervallo di confidenza simmetrico è q 2 q 2 2 σX σY σX [(x − y) − 1.64 × + , (x − y) + 1.64 × + n m n q 2 q 2 2 σX σY σX [(x − y) − 1.96 × + , (x − y) + 1.96 × + n m n q 2 q 2 2 σX σY σX [(x − y) − 2.57 × + , (x − y) + 2.57 × + n m n 2 σY m ], per α = 10% 2 σY m ], per α = 5% 2 σY m ], per α = 1% Statistica, CLEM – p. 50/88 IC per µX − µY : pop. normali, var. non note 2 ) e Y ∼ N (µ , σ 2 ), con X⊥ IC per µX − µY con X ∼ N (µX , σX ⊥Y Y Y 2 = σ 2 (omoschedasticità) Siano le varianze non note ma uguali σ 2 = σX Y Assumiamo come stimatore per la varianza comune Sp2 2 + (m − 1)S 2 (n − 1)SX Y = n+m−2 2 /n) e Y ∼ N (µ , σ 2 /m) gli stimatori di µ Siano X ∼ N (µX , σX Y X e µY Y Siano {x1 , . . . , xn } e {y1 , . . . , ym } due CCS indipendenti in cui X = x e Y = y Se X ed Y sono normali ed indipendenti si ha che (X − Y ) − (µX − µY ) q ∼ tk , 1 1 2 Sp ( n + m ) k =n+m−2 L’intervallo di confidenza simmetrico è [(x − y) − tk,α/2 × r 1 1 s2p ( + ), (x − y) + tk,α/2 × n m r s2p ( 1 1 + )] n m Statistica, CLEM – p. 51/88 IC per µX − µY per grandi campioni (1) IC per µX − µY per popolazioni non normali con varianze note e grandi campioni Anche se X ed Y sono NON NORMALI, ma INDIPENDENTI, per costruire intervalli di confidenza per il parametro µX − µY si può comunque utilizzare la distribuzione Normale, ma solo nel caso di GRANDI CAMPIONI, poiché, per il teorema del limite centrale (X − Y ) − (µX − µY ) q 2 2 σX σY + m n si approssima con N (0, 1) per n ed m grandi L’intervallo di confidenza asintotico e simmetrico è [(x − y) − zα/2 × s 2 σX n + 2 σY m , (x − y) + zα/2 × s 2 σX n + 2 σY m ] Statistica, CLEM – p. 52/88 IC per µX − µY per grandi campioni (2) IC per µX − µY per popolazioni non normali con varianze non note e grandi campioni 2 ed S 2 come stimatori corretti per σ 2 e σ 2 Consideriamo SX Y X Y Anche se X ed Y sono NON NORMALI, ma INDIPENDENTI, per costruire intervalli di confidenza per il parametro µX − µY si può comunque utilizzare la distribuzione Normale, ma solo nel caso di GRANDI CAMPIONI, poiché, per il teorema del limite centrale (X − Y ) − (µX − µY ) q 2 2 SX SY + m n si approssima con N (0, 1) per n ed m grandi L’intervallo di confidenza asintotico e simmetrico è [(x − y) − zα/2 × s s2X n + s2Y m , (x − y) + zα/2 × s s2X n + s2Y m ] Statistica, CLEM – p. 53/88 Decisioni in condizioni di incertezza Un’azienda che produce pezzi di ricambio per auto ha acquistato un nuovo macchinario per realizzare tali pezzi in una lega più leggera di alluminio. Vuole testare e valutare il nuovo processo produttivo sulla base dei pezzi prodotti. Valuta che in media i pezzi dovrebbero pesare µ = 1.5 kg se i pezzi pesano in media più o meno di 1.5 kg, il processo produttivo va fermato e revisionato. La decisione si basa su un campione scelto casualmente di n = 50 pezzi prodotti: come si fa a prendere una decisione? 1. si osserva il peso dei 16 pezzi x1 , . . . , x16 , si calcola la media e, se x 6= 1.5, allora si decide di fermare il processo produttivo 2. dato che non si conosce l’intera popolazione, la decisione deve tenere conto dell’incertezza dovuta alla stima campionaria: x può essere diverso da 1.5 nel campione, ma la media nella popolazione µ potrebbe comunque essere 1.5 3. per decidere se fermare o no la produzione sulla base del campione, è necessario definire una regola che tiene conto dell’errore campionario x − µ Statistica, CLEM – p. 54/88 Verifica di ipotesi Sia X un certo fenomeno casuale oggetto di interesse (peso dei pezzi prodotti) di cui si conosce la famiglia di distribuzione di probabilità pX (x | θ) o fX (x | θ), ma non si conosce il valore del parametro θ. Si vuole verificare una certa ipotesi su θ sulla base di un campione di osservaioni. La verifica di ipotesi si basa su: uno stimatore T per θ la distribuzione fT (t | θ) dello stimatore T l’ipotesi nulla H0 : θ = θ0 l’ipotesi alternativa H1 semplice: H1 : θ = θ1 unidirezionale: H1 : θ > θ0 o H1 : θ < θ0 bi-direzionale: H1 : θ 6= θ0 una regola per prendere una decisione sulla base del campione estratto: accettare H0 o rifiutare H0 la probabilità α di commettere un errore nel prendere una decisione: rifiutare H 0 anche se è vera. Statistica, CLEM – p. 55/88 Sistema di ipotesi L’ipotesi nulla H0 : θ = θ0 esprime ciò che ci interessa verificare. Nell’esempio precedente: H0 : µ = 15 L’ipotesi alternativa H1 smentisce l’ipotesi nulla ed indica altri possibili valori per θ diversi da θ0 . Nell’esempio precedente: H1 : µ = 30 o H1 : µ > 15 o H1 < 15 o H1 6= 15 Esempio: Sia X = il peso dei pezzi prodotti e sia x1 , . . . , x16 un campione di 50 pezzi osservati. Assumiamo che X ∼ N (µ, 4) con µ non nota. Prendiamo X come stimatore di µ: X ∼ N (µ, 4/16) Dato che nel campione osservato x = 14, serve una REGOLA per decidere se accettare H0 : µ = 15 e non fermare il processo produttivo rifiutare H0 poiché µ 6= 15 e fermare il processo produttivo Statistica, CLEM – p. 56/88 Regola decisionale (1) Sia Ω lo spazio campionario, cioè l’insieme di tutti i possibili campioni x 1 , . . . , xn che si possono estrarre La regola va definita sullo spazio Ω il quale viene diviso in due parti disgiunte ed esaustive, Ω = A ∪ R, A ∩ R = ∅ A: l’insieme dei campioni per cui si accetta H0 R: l’insieme dei campioni per cui si rifiuta H0 Consideriamo il sistema di ipotesi H0 : θ = θ0 , H1 : θ 6= θ0 . e lo stimatore T di θ che in ogni campione x1 , . . . , xn assume un certo valore t. La regola dovrebbe essere definita in modo tale che per ogni campione contenuto in A, t deve essere abbastanza vicino a θ 0 per ogni campione contenuto in R, t deve essere abbastanza diverso da θ 0 Statistica, CLEM – p. 57/88 Regola decisionale (2) La regola deve essere definita in modo tale che campioni che producono stime T = t per il parametro θ molto vicine (diverse) a θ0 portano ad accettare (rifiutare) l’ipotesi nulla H0 ⇓ Si considera la distribuzione di probabilità fT (t | θ0 ) dello stimatore T quando è vera H0 sulla base di fT (t | θ0 ), la regola definisce A: zona di accettazione, cioè i valori di T per cui si accetta H 0 R: zona di rifiuto o zona critica, cioè i valori di T per cui si rifiuta H 0 se H0 è vera, A è un insieme di valori di T molto probabili secondo la funzione fT (t | θ0 ) se H0 è vera, R è un insieme di valori di T poco probabili secondo la funzione fT (t | θ0 ) Statistica, CLEM – p. 58/88 Zona R di rifiuto e zona di A accettazione Sia X ∼ N (µ, 4) e X ∼ N (µ, 4/16) lo stimatore di µ. Vogliamo verificare l’ipotesi H0 : µ = 15, contro H1 : µ 6= 15 1.6 Distribuzione della media camp. sotto l’ipotesi nulla 1.4 1.2 densità 1 0.8 0.6 0.4 R R A 0.2 0 13 13.5 14 14.5 15 15.5 media campionaria 16 16.5 17 A: insieme di molto probabili e R: insieme di poco probabili se è vera H0 Statistica, CLEM – p. 59/88 Livello di significatività α e valori critici Il livello di significatività α è una probabilità da cui derivano i valori critici x α/2 che delimitano la zona di rifiuto (zona critica) R e di accettazione A Distribuzione della media camp. sotto H0 1.6 H0 1.4 alpha = 10% 14.5 = valore critico 1.2 15.5 = valore critico densità 1 0.8 0.6 0.4 0.2 0 13 13.5 5% 90% R A 14 14.5 15 15.5 media campionaria 5% R 16 16.5 17 xα/2 = (14.5, 15.5) R : (−∞, 14.5) ∪ (15.5, +∞) ⇒ P (X ∈ R) = 0.10 = α: prob. di rifiutare H0 A : (14.5, 15.5) ⇒ P (X ∈ A) = 0.90 = 1 − α: prob. di accettare H0 Statistica, CLEM – p. 60/88 Errori di I e II tipo R : (−∞, 14.5) ∪ (15.5, +∞), A : (14.5, 15.5) Se estraggo un campione x1 , . . . , x16 in cui = 14.8, ACCETTO H0 perché x ∈ A. Se se H0 è vera prendo una decisione corretta se H0 è falsa prendo una decisione errata Se estraggo un campione x1 , . . . , x16 in cui x = 15.9, RIFIUTO H0 perché x ∈ R. Se se H0 è vera prendo una decisione errata se H0 è falsa prendo una decisione corretta Nel prendere queste decisioni si possono commettere due errori: ERRORE di I tipo: rifiuto H0 ma è vera ERRORE di II tipo: accetto H0 ma è falsa Statistica, CLEM – p. 61/88 Errore di I tipo Se estraggo un campione con x = 15.9 o con x = 13.9, questi valori sotto H 0 sono poco plausibili, mentre sono più plausibili sotto H1 : RIFIUTO H0 1.6 Distribuzione della media camp. sotto H0 e H1 H0 H1 H1 1.4 1.2 densità 1 0.8 0.6 0.4 0.2 0 13 13.5 R A R 14 14.5 15 15.5 media campionaria 16 16.5 17 se H0 è falsa ho preso una giusta decisione se H0 è vera ho commesso un ERRORE DI I TIPO Statistica, CLEM – p. 62/88 Errore di II tipo Se estraggo un campione con x = 14.8, questo valore sotto H 0 è molto plausibile, mentre è poco plausibile sotto H1 : ACCETTO H0 1.6 Distribuzione della media camp. sotto H0 e H1 H0 H1 H1 1.4 1.2 densità 1 0.8 0.6 0.4 0.2 0 13 13.5 R A R 14 14.5 15 15.5 media campionaria 16 16.5 17 se H0 è falsa ho commesso un ERRORE DI II TIPO se H0 è vera ho preso una giusta decisione Statistica, CLEM – p. 63/88 Test unidirezionale semplice (1) Verifica di ipotesi unidirezionale semplice con α = 10% H0 : µ = 15 H1 : µ = 15.6 Il valore critico è xα = 15.3 e la zona di rifiuto o critica è x > 15.3 1.6 H1 H0 1.4 alpha = 10% 1.2 densità 1 0.8 0.6 0.4 0.2 0 14 R A 14.5 15 15.3 15.5 16 Statistica, CLEM – p. 64/88 Test unidirezionale semplice (2) Verifica di ipotesi unidirezionale semplice con α = 5% H0 : µ = 15 H1 : µ = 14.3 Il valore critico è xα = 14.5 e la zona di rifiuto o critica è x < 14.5 1.6 H1 H0 1.4 alpha = 5% 1.2 densità 1 0.8 0.6 0.4 R A 0.2 0 14 14.5 15 15.5 16 Statistica, CLEM – p. 65/88 Probabilità dell’ errore di I e II tipo PRIMA di estrarre il campione posso calcolare la probabilità di decisioni errate. P (Errore I tipo) = P (X ∈ R | H0 è vera) = α P (Errore II tipo) = P (X ∈ A | H0 è falsa) = P (X ∈ A | H1 è vera) = β PRIMA di estrarre il campione posso calcolare la probabilità di decisioni corrette P (X ∈ A | H0 è vera) = 1 − α P (X ∈ R | H1 è vera) = 1 − β: potenza del test DOPO l’estrazione del campione, si ha un valore preciso X = x per il quale si confida nella decisione presa ACCETTO H0 se x ∈ A o RIFIUTO H0 se x ∈ R sulla base della zona di rifiuto o critica stabilita secondo un livello di significatività α Statistica, CLEM – p. 66/88 H0 : µ = 15 H1 : µ = 15.6 xα = 15.3 1.6 1.4 H0 alpha = 10% H1 beta = 32% 1.2 1 0.8 0.6 0.4 A 0.2 0 13.5 14 R 14.5 15 15.3 15.5 16 P (X ∈ R | H0 ) = P (X > 15.3 | µ = 15) = α = 0.10: prob. errore I tipo P (X ∈ A | H1 ) = P (X < 15.3 | µ = 15.6) = β = 0.32: prob. errore II tipo P (X ∈ A | H0 ) = P (X < 15.3 | µ = 15) = 1 − α = 0.90: P (X ∈ R | H1 ) = P (X > 15.3 | µ = 15.6) = 1 − β = 0.78: potenza del test Statistica, CLEM – p. 67/88 Test unidirezionale composto (1) Verifica di ipotesi unidirezionale semplice con α = 5% H0 : µ = 15 H1 : µ > 15 (l’ipotesi H1 non è semplice, è definita per ogni µ > 15) Il valore critico è xα = 15.3 e la zona di rifiuto o critica è x > 15.3 1.6 H1 H0 1.4 alpha = 10% 1.2 1 0.8 0.6 0.4 R A 0.2 0 14 15 15.3 16 17 Statistica, CLEM – p. 68/88 Test unidirezionale composto (2) Verifica di ipotesi unidirezionale semplice con α = 5% H0 : µ = 15 H1 : µ < 15 (l’ipotesi H1 non è semplice, è definita per ogni µ < 15) Il valore critico è xα = 14.5 e la zona di rifiuto o critica è x < 14.5 1.6 H0 H1 1.4 alpha = 5% 1.2 1 0.8 0.6 0.4 R A 0.2 0 13 14 14.5 15 16 Statistica, CLEM – p. 69/88 H0 : µ = 15 H1 : µ = µ1 < 15 1.6 H0 H1 1.4 alpha = 5% 1.2 1 0.8 0.6 0.4 R A 0.2 0 13 14 14.5 15 16 P (X ∈ R | H0 ) = P (X < 14.5 | µ = 15) = α = 0.5: prob. errore I tipo P (X ∈ A | H1 ) = P (X > 14.5 | µ1 ) = β(µ1 ): prob. errore II tipo P (X ∈ A | H0 ) = P (X > 14.5 | µ = 15) = 1 − α = 0.95: P (X ∈ R | H1 ) = P (X < 14.5 | µ1 ) = 1 − β(µ1 ): potenza del test Statistica, CLEM – p. 70/88 Test bi-direzionale Verifica di ipotesi bi-direzionale con α = 10%, H0 : µ = 15 H1 : µ 6= 15 (l’ipotesi H1 non è semplice, è definita per ogni µ 6= 15) Abbiamo due valori critici che si ottengono convenzionalmente usando α/2: xα/2 = (14.5, 15.5) e la zona di rifiuto o critica è x < 14.5 ∪ x > 15.5 Test bi−direzionale con alpha = 10% 1.6 H1 H1 H0 1.4 1.2 1 0.8 0.6 0.4 R A R 0.2 0 13 13.5 14 14.5 15 15.5 16 16.5 17 Statistica, CLEM – p. 71/88 H0 : µ = 15 H1 : µ = µ1 6= 15 Test bi−direzionale con alpha = 10% 1.6 H1 H1 H0 1.4 1.2 1 0.8 0.6 0.4 R A R 0.2 0 13 13.5 14 14.5 15 15.5 16 16.5 17 P (X ∈ R | H0 ) = P (X > 15.5 ∪ X < 14.5 | µ = 15) = α = 0.10: prob. errore I tipo P (X ∈ A | H1 ) = P (14.5 < X < 15.5 | µ1 ) = β(µ1 ): prob. errore II tipo P (X ∈ A | H0 ) = P (14.5 < X < 15.5 | µ = 15) = 1 − α = 0.90 P (X ∈ R | H1 ) = P (X > 15.5 ∪ X < 14.5 | µ1 ) = 1 − β(µ1 ): potenza del test Statistica, CLEM – p. 72/88 Considerazioni sulla verifica di ipotesi (1) Data una variabile casuale X con distribuzione di probabilità f X (x | θ), attraverso un test statistico si vuole verificare una certa ipotesi sul parametro θ. Il test di ipotesi di basa su un’ipotesi nulla H0 ed un’ipotesi alternativa H1 che sono fra loro incompatibili uno stimatore T di θ, detto anche statistica test che ha una certa distribuzione di probabilità fT (t | θ) un livello di significatività α che, sulla base della distribuzione di probabilità fT (t | θ0 ) sotto H0 definisce: dei valori critici tα oppure tα/2 una zona critica R di rifiuto e una zona di accettazione A per verificare l’ipotesi H0 dato un campione CS x1 , . . . , xn in cui T = t se t ∈ A, si accetta H0 se t ∈ R si rifiuta H0 Statistica, CLEM – p. 73/88 Considerazioni sulla verifica di ipotesi (2) La regola decisionale del test che porta ad accettare/rifiutare l’ipotesi nulla, dipende solo dal livello di significatività α dalla distribuzione fT (t | θ0 ) sotto H0 L’ipotesi alternativa H1 consente di valutare l’errore di II tipo β e la potenza del test 1 − β di capire la direzione del test (unidirezionale o bi-direzionale) Si possono commettere due errori, le cui probabilità PRIMA di estrarre il campione sono: P (T ∈ R | H0 ) = α: prob. errore di I tipo P (T ∈ A | H1 ) = β: prob. errore di II tipo DOPO l’estrazione del campione, dato il valore della statistica test T = t, si valuta se accettare H0 : il test non è significativo al livelllo α rifiutare H0 : il test è significativo al livello α N.B. Al variare di α, varia la regione critica R e con lo stesso campione si possono prendere decisioni diverse Statistica, CLEM – p. 74/88 H0 : µ = 15 H1 : µ = 15.6 Dato un campione CS in cui x = 15.4, il test è significativo (rifiuto H0 ) al livello α = 10% il test è non significativo (accetto H0 ) al livello α = 1% 1.6 H0 alpha = 10% 1.4 valore critico = 15.64 beta = 53% 1.2 alpha = 1% 1 valore critico = 15.6 beta = 87% 0.8 H1 0.6 0.4 0.2 0 13 14 15 15.64 16 16.16 17 Statistica, CLEM – p. 75/88 Test per la media µ con varianza nota (1) Test per H0 : µ = µ0 in pop. normale con varianza nota Sia X ∼ N (µ, σ 2 ) con varianza σ 2 nota Sia X ∼ N (µ, σ 2 /n) la statistica test per µ e α il livello di significatività del test Sia {x1 , . . . , xn } in cui X = x Il valore standardizato di x sotto H0 è z= Media campionaria, N(5,4) 0.2 0.18 x − µ0 √ , σ/ n P(T > 5.5)= 0.4 P(T > 3.3) = 0.80 Media campionaria standardizzata, N(0,1) 0.4 0.35 z = (5.5 − 5)/2) = 0.25 P(Z > 0.25)= = 0.4 z = (3−3 − 5)/2) = − 0.85 P(Z > − 0.85)= = 0.80 0.16 0.3 0.14 0.12 0.25 0.1 0.2 0.08 0.15 0.06 0.1 0.04 0.05 0.02 0 0 1 2 3 3.3 4 5 6 5.5 7 8 9 10 0 −3 −2 −1 −0.85 0 1 2 3 0.25 Statistica, CLEM – p. 76/88 Test per la media µ con varianza nota (2) H0 : µ = 5 H 1 : µ > 5 Per α = 5%, i valori critici sono zα sulla N (0, 1), √ xα = µ0 + zα σ/ n = 5 + 1.64 ∗ 2 = 8.3 sulla N (5, 2) Media camp. standardizzata, N(0,1) e Media campionaria, N(5,4) 0.4 alpha = 5% N(0,1) 0.35 valore critico: 1.64 R: z > 1.64 0.3 N(5,4) 0.25 valore critico: 8.3 R: t > 8.3 = 1.64*2 + 5 0.2 0.15 0.1 0.05 0 −3 −2 −1 0 1 2 3 1.64 4 5 6 7 8 9 10 8.3 Statistica, CLEM – p. 77/88 Test per la media µ con varianza nota (3) se H1 : µ = µ1 > µ0 , o H1 : µ ≥ µ0 , il valore critico per un certo α è zα :A = (−∞, zα ), R = (zα , +∞) rifiuto H0 se z > zα se H1 : µ = µ1 < µ0 , o H1 : µ ≤ µ0 , il valore critico per un certo α è −zα :A = (zα , +∞), R = (−∞, −zα ) rifiuto H0 se z < −zα se H1 : µ 6= µ0 , i valori critici per un certo α sono ±zα/2 : A = (−zα/2 , zα/2 ), R = (−∞, −zα/2 ) ∪ (zα/2 , +∞) rifiuto H0 se z < −zα/2 o z > zα/2 Test per µ di pop. non normale con varianza nota e grandi campioni Per il TLC si può usare lo stesso test asintotico per la verifica di ipotesi del parametro E(X) = µ anche per variabili NON NORMALI in GRANDI CAMPIONI. Statistica, CLEM – p. 78/88 Alcuni valori critici zα Test unidirezionali 0.4 Test inidirezionale a sinistra 0.4 alpha = 10% 0.35 0.35 alpha = 5% alpha = 1% 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 −3 −2 −1 −2.32 −1.64 −1.28 0 1 Test unidirezionale a destra 2 3 0 −3 alpha = 10% alpha = 5% alpha = 1% −2 −1 0 1 2 3 1.28 1.64 2.32 Statistica, CLEM – p. 79/88 Alcuni valori critici zα/2 Test bi-direzionali 0.4 Test bi−direzionali alpha = 10% 0.35 alpha = 5% alpha = 1% 0.3 0.25 0.2 0.15 0.1 0.05 0 −3 −2 −1 −1.64 −2.57 −1.96 0 1 2 3 1.96 2.57 1.64 Statistica, CLEM – p. 80/88 Test per la media µ con varianza non nota (1) Test per H0 : µ = µ0 in pop. normale con varianza non nota Sia X ∼ N (µ, σ 2 ) con varianza σ 2 non nota con S 2 come stimatore di σ 2 e X come stimatore di µ, sotto H0 t= X − µ0 √ ∼ tn−1 , S/ n t − Student con n − 1 g.l. Dato un campione CS in cui X = x, per un certo α fissato se H1 : µ = µ1 > µ0 , o H1 : µ ≥ µ0 , rifiuto H0 se t > tα se H1 : µ = µ1 < µ0 , o H1 : µ ≤ µ0 , rifiuto H0 se t < −tα se H1 : µ 6= µ0 , rifiuto H0 se t < −tα/2 o t > tα/2 Statistica, CLEM – p. 81/88 Test per la media µ con varianza non nota (2) Test per µ di pop. non normale con varianza non nota e grandi campioni Nel caso di grandi campioni, sia che X sia normale sia che X sia non normale, per il TLC, sotto H0 z= X − µ0 √ S/ n si approssima con N (0, 1) Il test asintotico per µ si può fare utilizzando la distribuzione normale. Per un certo α se H1 : µ = µ1 > µ0 , o H1 : µ ≥ µ0 , rifiuto H0 se z > zα se H1 : µ = µ1 < µ0 , o H1 : µ ≤ µ0 , rifiuto H0 se z < −zα se H1 : µ 6= µ0 , rifiuto H0 se z < −zα/2 o z > zα/2 Statistica, CLEM – p. 82/88 Test per la proporzione p in grandi campioni Sia X ∼ Be(p) una variabile binaria (0, 1) e sia {X1 , . . . , Xn } un CCS 1 Pn Sia pb = n i=1 Xi lo stimatore per il parametro p. Per il TLC, sotto H 0 : p = p0 z= q pb − p0 p0 (1−p0 ) n si approssima con N (0, 1) Sia {x1 , . . . , xn } un GRANDE CAMPIONE estratto in cui si calcola pb e z Il test asintotico per un certo α fissato è se H1 : p = p1 > p0 , o H1 : p ≥ p0 , rifiuto H0 se z > zα se H1 : p = p1 < p0 , o H1 : p ≤ p0 , rifiuto H0 se z < −zα se H1 : p 6= p0 , rifiuto H0 se z < −zα/2 o z > zα/2 Statistica, CLEM – p. 83/88 Test per µX − µY : pop. normali, var. note 2 ) e Y ∼ N (µ , σ 2 ), con X⊥ Test per H0 : µX − µY = 0 con X ∼ N (µX , σX ⊥Y Y Y 2 e σ 2 note Siano le varianze σX Y 2 /n) e Y ∼ N (µ , σ 2 /m) gli stimatori di µ Siano X ∼ N (µX , σX Y X e µY Y Siano {x1 , . . . , xn } e {y1 , . . . , ym } due CCS indipendenti in cui X = x e Y = y Per l’indipendenza si ha che, sotto H0 z= q Il test per un certo α fissato è se H1 : µX − µY > 0, se H1 : µX − µY < 0, X −Y 2 σX n + 2 σY m ∼ N (0, 1) rifiuto H0 se z > zα rifiuto H0 se z < −zα se H1 : µX − µY 6= 0, rifiuto H0 se z < −zα/2 o z > zα/2 Statistica, CLEM – p. 84/88 Test per µX − µY : pop. normali, var. non note 2 ) e Y ∼ N (µ , σ 2 ), con X⊥ Test per H0 : µX − µY = 0 con X ∼ N (µX , σX ⊥Y Y Y 2 = σ 2 (omoschedasticità) Siano le varianze non note ma uguali σ 2 = σX Y Assumiamo come stimatore per la varianza comune Sp2 2 + (m − 1)S 2 (n − 1)SX Y = n+m−2 2 /n) e Y ∼ N (µ , σ 2 /m) gli stimatori di µ Siano X ∼ N (µX , σX Y X e µY Y Siano {x1 , . . . , xn } e {y1 , . . . , ym } due CCS indipendenti in cui X = x e Y = y Se X ed Y sono normali ed indipendenti si ha che, sotto H 0 t= q X −Y 1 Sp2 ( n + 1 ) m ∼ tk , k =n+m−2 Statistica, CLEM – p. 85/88 Test per µX − µY : pop. normali, var. non note Il test per un certo α fissato è se H1 : µX − µY > 0, se H1 : µX − µY < 0, rifiuto H0 se t > tα rifiuto H0 se t < −tα se H1 : µX − µY 6= 0, rifiuto H0 se t < −tα/2 o t > tα/2 Statistica, CLEM – p. 86/88 Test per µX − µY per grandi campioni (1) Test per H0 : µX − µY = 0 per popolazioni non normali con varianze note e grandi campioni Anche se X ed Y sono NON NORMALI, ma INDIPENDENTI, per costruire intervalli di confidenza per il parametro µX − µY si può utilizzare la distribuzione Normale, perché per il TLC, nel caso di GRANDI CAMPIONI, sotto H 0 z= q X −Y 2 σX n + 2 σY m si approssima con N (0, 1) per n ed m grandi Il test per un certo α fissato è se H1 : µX − µY > 0, se H1 : µX − µY < 0, rifiuto H0 se z > zα rifiuto H0 se z < −zα se H1 : µX − µY 6= 0, rifiuto H0 se z < −zα/2 o z > zα/2 Statistica, CLEM – p. 87/88 Test per µX − µY per grandi campioni (2) Test per H0 : µX − µY = 0 per popolazioni non normali con varianze non note e grandi campioni 2 ed S 2 come stimatori corretti per σ 2 e σ 2 Consideriamo SX Y X Y Anche se X ed Y sono NON NORMALI, ma INDIPENDENTI, il test asintotico per µX − µY si può fare usando la distribuzione Normale, perché per il TLC, nel caso di GRANDI CAMPIONI, sotto H0 z= q X −Y 2 SX n + 2 SY m si approssima con N (0, 1) per n ed m grandi Il test asintotico per un certo α fissato è se H1 : µX − µY > 0, se H1 : µX − µY < 0, rifiuto H0 se z > zα rifiuto H0 se z < −zα se H1 : µX − µY 6= 0, rifiuto H0 se z < −zα/2 o z > zα/2 Statistica, CLEM – p. 88/88