Infe 01 - 1 / 71 Lezione 6 Inferenza statistica Infe 01 - 2 / 71 parte 1 Stime per punti e per intervalli della media Infe 01 - 3 / 71 la media campionaria come strumento di inferenza • Si definiscono “stimatori” quelle statistiche che vengono usate per stimare un parametro o una sua funzione. – I valori ottenuti mediante gli stimatori si dicono “stime” del parametro. • La media campionaria X n può essere usata come stimatore della media m dell’intera popolazione essendo uno stimatore corretto e consistente. Infe 01 - 4 / 71 media campionaria e stima puntuale di m • estraendo da una popolazione per cui è definita la variabile casuale X avente densità f (x) qualsiasi con media m e varianza s2 un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la media campionaria per stimare il valore del parametro m relativo all’intera popolazione. 1 m Xn n X n j j 1 • il valore ottenuto viene indicato come “stima puntuale di m ” Infe 01 - 5 / 71 Strumenti di misura e strumenti di inferenza 1 m Xn n X n j 1 j Infe 01 - 6 / 71 incertezza dello stimatore campionario • estraendo da una popolazione per cui è definita la variabile casuale X avente densità f (x) qualsiasi con media m e varianza s2 un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn } si può usare la media campionaria per stimare il valore del parametro m relativo all’intera popolazione. • come tutti gli strumenti di misura, anche gli stimatori n sono imperfetti 1e la loro stima del parametro presenta m X n che deveXessere j un’incertezza quantificata. n j 1 1 n m X j m n j 1 Vx Vindicato V Infe 01 - 7 / 71 incertezza dello strumento di misura Vx Vindicato V Vind V Vx Vind V Vx Vind V , Vind V Fascia di valore (a meno di 60 ppm) Infe 01 - 8 / 71 incertezza dello strumento di misura Vx Vind V , Vind V Infe 01 - 9 / 71 incertezza dello strumento di misura Vx Vindicato V Vind V Vx Vind V Vx Vind V Vx Vind V Infe 01 - 10 / 71 incertezza dello stimatore campionario 1 n m X j m n j 1 • Qual è la probabilità che, estraendo a caso un campione di n elementi dalla popolazione, il valore della media m della variabile X per la intera popolazione sia compreso nell’intervallo X P X n n εm , X n εm εm μ X n εm Infe 01 - 11 / 71 incertezza dello stimatore campionario 1 n m X j m n j 1 • Qual è la probabilità che, estraendo a caso un campione di n elementi dalla popolazione, l’intervallo casuale X n εm , X n εm contenga il valore della media m della variabile X per la intera popolazione? Infe 01 - 12 / 71 incertezza dello stimatore campionario • Con quale “confidenza”, dopo aver estratto a caso un campione di n elementi dalla popolazione e calcolato il valore della corrispondente media campionaria, si può affermare che il valore della media m della variabile X per la intera popolazione è compreso nell’intervallo X n εm , X n εm X n μ εm P P Xμ εε n mm μ nXμn εεmm X Infe 01 - 13 / 71 incertezza dello stimatore campionario • La “probabilità” dell’evento: P μ ε m X n μ εm è uguale alla “confidenza” con cui posso affermare: μ X n ε m , X n ε m “ Intervallo di confidenza ” Infe 01 - 14 / 71 incertezza dello stimatore campionario P μ ε m X n μ εm • La determinazione dell’incertezza degli stimatori campionari si conduce tramite lo studio della distribuzione di probabilità della variabile casuale costituita dallo stimatore. Infe 01 - 15 / 71 Distribuzione della media campionaria 1 Xn n n X j 1 j Infe 01 - 16 / 71 distribuzione della media campionaria • estraendo da una popolazione per cui è definita la variabile casuale X avente densità f (x) qualsiasi, media m e varianza s2, un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn }, se n è sufficientemente grande la media campionaria 1 n Xn X j n j 1 fornisce una variabile casuale distribuita in modo normale, con media m e varianza s2 / n Infe 01 - 17 / 71 distribuzione della media campionaria • Avendo una popolazione per cui è definita la variabile casuale X con densità f (x) qualsiasi, media m e varianza s2 ed estraendo da essa un campione di n elementi a cui corrisponde l’insieme di vc. { X1, X2, …, Xn }, qual è la probabilità che la media campionaria n 1 Xn X j n j 1 differisca da m per una quantità minore di s n? Infe 01 - 18 / 71 distribuzione della media campionaria • La risposta al quesito si ottiene individuando la probabilità dell’evento: s s m Xn m n n • Tale probabilità è rappresentata dall’area della regione evidenziata in verde nel grafico sopra riportato. Infe 01 - 19 / 71 distribuzione della media campionaria • il valore ricercato si ottiene da: P a X in cui: n b b f Xn d Xn a s s am ; bm n n Infe 01 - 20 / 71 distribuzione della media campionaria f Xn 1 exp 2 1 2 s n Xn m s n • il valore ricercato si ottiene da: P a X in cui: n b b f Xn d Xn a s s am ; bm n n 2 Infe 01 - 21 / 71 distribuzione della media campionaria f Xn 1 exp 2 1 s n 2 Xn m s n • sviluppando i calcoli si ottiene: P a X con: am s n n b 0,6826 0,68 ; bm s n 2 Infe 01 - 22 / 71 distribuzione della media campionaria • esplicitando l’espressione dell’evento si ottiene: P s s Xn m m 0,68 n n • è quindi possibile fare la seguente affermazione: Infe 01 - 23 / 71 distribuzione della media campionaria estraendo a caso un campione con n sufficientemente elevato da una popolazione per cui è definita una variabile casuale X con densità f (x) qualsiasi, media m e varianza s2, c’è una probabilità pari a 0,68 che la media campionaria 1 n Xn X j n j 1 appartenga all’intervallo s s m n , m n Infe 01 - 24 / 71 distribuzione della media campionaria • Ricordiamo che: la “probabilità” dell’evento: P s s Xn m m 0,68 n n è uguale alla “confidenza” con cui posso affermare: σ σ μ Xn , Xn n n Infe 01 - 25 / 71 distribuzione della media campionaria che può essere tradotta nelle seguenti affermazioni: • estraendo a caso un campione con n sufficientemente elevato da una popolazione per cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza s2, c’è una probabilità pari a 0,68 che un intervallo di ampiezza s n centrato sul valore della variabile casuale “media campionaria” 1 n Xn X j n j 1 contenga il valore della media m della popolazione. Infe 01 - 26 / 71 intervallo di confidenza per la media • estraendo a caso un campione con n sufficientemente elevato da una popolazione per cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza s2, c’è una probabilità pari a 0,68 che l’intervallo casuale s s s I X n , Xn Xn n n n contenga il valore della media m . • questo intervallo viene chiamato: intervallo di confidenza allo 0,68 per la media Infe 01 - 27 / 71 intervallo di confidenza allo ( 1 – a ) per la media in generale, se a xn α 2 ; b xn 1 α 2 sono i quantili a/2 e 1 – a/2 per la media campionaria P a X n b b f X n d X n 1 α a Infe 01 - 28 / 71 intervallo di confidenza allo ( 1 – a ) per la media con una confidenza pari a 1 – a possiamo affermare che μ I xn a 2 , xn 1 a 2 Infe 01 - 29 / 71 Proprietà della media campionaria teorema 4.4: • dato un campione di n elementi prelevato senza ripetizione da una popolazione composta da N elementi per cui è deifinita la variabile casuale X, posto : • si ha: 1 Xn n n X j j 1 s2 N n var X n n N 1 N 10000 N n 0,99 n 100 N 1 ; N 500 N n 0,80 n 100 N 1 Infe 01 - 30 / 71 Distribuzione della media campionaria se n ≈ N P a X am s n n b b f X n d X n 0,68 a N n s ; bm N 1 n N n N 1 se il numero n degli elementi del campione non è molto minore della numerosità N (finita) della popolazione. Infe 01 - 31 / 71 Attenzione alla numerosità del campione !!! Infe 01 - 32 / 71 Dalla lezione 4: Distribuzione della media campionaria Infe 01 - 33 / 71 Dalla lezione 4: Distribuzione della media campionaria teorema 4.3: • Sia data una popolazione su cui è definita una variabile causale X con densità f (x) ed avente media m e varianza s 2 finite. • Detta: X n la media campionaria di un campione casuale di dimensione n estratto da essa, • allora, al tendere di n ad infinito, la media campionaria 1 Xn n - segue una distribuzione normale n X j j 1 - con media m e varianza s 2 / n - qualunque sia la distribuzione della popolazione Infe 01 - 34 / 71 Dalla lezione 4: Distribuzione della media campionaria • La possibilità di costruire un campione di dimensione n che tende all’infinito è ovviamente solo teorica, ma l’enunciato del teorema deve essere inteso nel senso che: – quanto più il campione è numeroso, – tanto meglio la distribuzione della media campionaria approssima una distribuzione normale con media m e con varianza s 2 / n – in pratica si può ritenere che un valore di n non inferiore a 30 sia già sufficiente per approssimare la distribuzione della media campionaria con quella normale con media m e con varianza s 2 / n. Infe 01 - 36 / 71 la caratteristica comune di una popolazione e il suo modello probabilistico: la distribuzione “normale” Infe 01 - 37 / 71 la caratteristica comune di una popolazione e il suo modello probabilistico: la distribuzione “normale” • Il modello basato sulla distribuzione “normale” può essere usato per descrivere l’andamento della caratteristica comune di una popolazione quando i valori assunti da tale caratteristica sono determinati dalla azione di molteplici cause che agiscono indipendentemente le une dalle altre Infe 01 - 38 / 71 Distribuzione della media campionaria • Sia data una popolazione su cui è definita una variabile causale X con distribuzione normale, media m e varianza s 2 finite. • Detta: X n la media campionaria di un campione casuale di dimensione n estratto da essa, • allora, per qualsiasi n, la media campionaria 1 Xn n - segue una distribuzione normale - con media m e varianza s 2 / n n X j 1 j Infe 01 - 39 / 71 dalla media campionaria alla media campionaria standardizzata Infe 01 - 40 / 71 intervallo di confidenza per la media • Ricordiamo che: la “probabilità” dell’evento: P a X n b b f X n d X n 1 α a è uguale alla “confidenza” con cui posso affermare: μI a ,b Infe 01 - 41 / 71 Dalla media campionaria alla media campionaria standardizzata nota: • La determinazione del valore della probabilità di un evento analogo a quelli studiati richiede il calcolo di un integrale definito in cui figurano, oltre agli estremi di integrazione, tre parametri variabili in funzione della popolazione e del campione che ne viene estratto: i valori della media m e della varianza s2 della popolazione e la numerosità n del campione estratto. • Ciò rende di fatto impossibile fornire in forma tabulare i valori di probabilità degli eventi. • Per questi motivi si introduce la versione standardizzata della media campionaria. Infe 01 - 43 / 71 Dalla media campionaria alla media campionaria standardizzata • Considerazioni già fatte ci permettono di affermare che la media campionaria, sotto determinate ipotesi, segue una distribuzione normale con media m e varianza s2 / n • è quindi facile costruire una variabile casuale con distribuzione normale standard, cioè con media nulla e varianza unitaria. Xn m Z s n Infe 01 - 44 / 71 Dalla media campionaria alla media campionaria standardizzata • La probabilità che il valore della variabile Z sia compreso fra gli estremi a e b: P a Z b f Z d Z b a si può facilmente ricavare dalle tabelle che ogni libro di probabilità e statistica riporta. Infe 01 - 45 / 71 Intervallo di confidenza a (1 – a ) : media campionaria standardizzata • se indichiamo con z1-a/2 il quantile 1 - a/2 della variabile Z : P pertanto : P α Z z1α / 2 1 2 α Z z1α / 2 2 Infe 01 - 46 / 71 Intervallo di confidenza a (1 – a ) : media campionaria standardizzata • Per la simmetria della distribuzione della variabile Z : P z 1α / 2 da cui : Z z1α / 2 1 2P Z z1α / 2 P z 1α / 2 Z z1α / 2 1 α Infe 01 - 47 / 71 Intervalli di confidenza a (1 – a ) : media campionaria standardizzata P z 1α / 2 Z z1α / 2 1 α • se esplicitiamo la variabile Z: P z1α / 2 X n m z1α / 2 1 α s n Infe 01 - 48 / 71 Intervalli di confidenza a (1 – a ) : media campionaria standardizzata P • da cui: P z1α / 2 X n m z1α / 2 1 α s n s s z1α / 2 X n μ z1α / 2 1 α μ n n Infe 01 - 49 / 71 Intervalli di confidenza a (1 – a ) : media campionaria standardizzata P s s z1α / 2 X n μ z1α / 2 1 α μ n n • Esaminiamo l’evento di cui abbiamo determinato la probabilità: μ s n z1α / 2 X n μ s n z1α / 2 Infe 01 - 50 / 71 Intervalli di confidenza a (1 – a ) : media campionaria standardizzata μ s n z1α / 2 X n μ s n z1α / 2 • da cui, con passaggi algebrici: Xn s n z1α / 2 μ X n s n z1α / 2 Infe 01 - 51 / 71 Intervalli di confidenza a (1 – a ) : media campionaria standardizzata • La probabilità: P s s m z X m z n 1 a / 2 1 a / 2 1 a n n • è uguale alla confidenza con cui possiamo affermare che: Xn s n z1α / 2 μ X n s n z1α / 2 Infe 01 - 52 / 71 Intervalli di confidenza a (1 – a ) : media campionaria standardizzata possiamo quindi sostenere che: estraendo a caso un campione di n elementi da una popolazione per cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza s2, c’è una probabilità pari a 1 - a che l’intervallo casuale I1a s s X n z1a / 2 , X n z1a / 2 n n con Z variabile normale standard e con z1-a/2 il valore del suo quantile (1 - a/2) contenga il valore della media m per l’intera popolazione. I1-a è l’intervallo di confidenza allo 1 - a per la media Infe 01 - 57 / 71 Campioni con bassa numerosità n < 30 W.S.Gosset – “ Student ” Infe 01 - 58 / 71 Distribuzione t di Student con n-1 g.d.l. • La variabile casuale • in cui: – – – T Z c2 n 1 Z è una variabile casuale normale standardizzata, c2 è una variabile chi-quadro con n-1 gradi di libertà, Z e c2 sono indipendenti l’una dall’altra, • segue una distribuzione t di Student con n-1 gradi di libertà Infe 01 - 59 / 71 Distribuzione t di Student con n-1 g.d.l. Z Xn μ σ n 2 S V (n 1) σ T 2 n 2 Z c2 n 1 Xn μ σ n 2 T S (n 1) σ n 1 2 n 2 Infe 01 - 60 / 71 Distribuzione t di Student con n-1 g.d.l. T Xn μ Xn μ σ2 n σ2 n S n2 2 σ S n2 (n 1) 2 σ n 1 Xn μ σ2 n S n2 2 σ Xn μ S n2 n Infe 01 - 61 / 71 Distribuzione t di Student con n-1 g.d.l. T Xn μ 2 n S n segue una distribuzione t di Student con n-1 gradi di libertà Infe 01 - 62 / 71 Distribuzione t di Student con n g.d.l. Infe 01 - 63 / 71 Distribuzione della media campionaria standardizzata per n finito teorema 5.1: • estraendo a caso un campione di numerosità n finita da una popolazione su cui è definita una variabile casuale X con distribuzione normale e media m, la variabile casuale Xn m T Sn n segue una distribuzione t di Student con n-1 gradi di libertà Infe 01 - 64 / 71 Intervalli di confidenza: media campionaria standardizzata con n finito • La distribuzione t di Student è simmetrica rispetto allo 0, pertanto gli intervalli di confidenza sono centrati sul valore dello stimatore Infe 01 - 65 / 71 Intervalli di confidenza: media campionaria standardizzata con n finito • se indichiamo con t1-a/2 il quantile 1-a/2 della variabile T : P α T t1α / 2 1 2 P t 1α / 2 P α T t1α / 2 2 T t1α / 2 1 α Infe 01 - 66 / 71 Intervalli di confidenza: media campionaria standardizzata con n finito P t 1α / 2 T t1α / 2 1 α • se esplicitiamo la variabile T: P Xn m t 1 α t 1 α / 2 Sn 1α / 2 n Infe 01 - 67 / 71 Intervalli di confidenza: media campionaria standardizzata con n finito P • da cui: P X m n t t1α / 2 1 α 1 α / 2 Sn n Sn Sn t1α / 2 X n μ t1α / 2 1 α μ n n Infe 01 - 68 / 71 Intervalli di confidenza: media campionaria standardizzata con n finito P Sn Sn t1α / 2 X n μ t1α / 2 1 α μ n n • dall’evento sopra riportato, con passaggi algebrici, si ricava: Sn Sn Xn t1α / 2 μ X n t1α / 2 n n Infe 01 - 69 / 71 Intervalli di confidenza: media campionaria standardizzata con n finito • La probabilità: P Sn Sn t1α / 2 X n μ t1α / 2 1 α μ n n • è uguale alla confidenza con cui possiamo affermare che: μ I1α Sn Sn X n t1α / 2 ; X n t1α / 2 n n Infe 01 - 70 / 71 Intervalli di confidenza: media campionaria standardizzata con n finito possiamo quindi sostenere che: estraendo a caso un campione con n finito da una popolazione per cui è definita una variabile casuale X con distribuzione normale c’è una probabilità pari a 1 - a che l’intervallo casuale I1a Sn Xn t1a / 2 n in cui t1-a/2 è il valore del quantile (1 - a/2) di una variabile T distribuita secondo la t di Student con n -1 g.d.l contenga il valore della media m della popolazione. Infe 01 - 71 / 71 Intervalli di confidenza: media campionaria standardizzata con n finito I1a Sn Xn t1a / 2 n è l’intervallo di confidenza allo 1 - a per la media m nel caso di campioni di ridotta numerosità estratti da popolazioni con distribuzione normale! Infe 01 - 72 / 71 Distribuzione t di Student con n-1 g.d.l. • La variabile casuale • in cui: – – – T Z c2 n 1 Z è una variabile casuale normale standardizzata, c2 è una variabile chi-quadro con n-1 gradi di libertà, Z e c2 sono indipendenti l’una dall’altra, • segue una distribuzione t di Student con n-1 gradi di libertà Infe 01 - 73 / 71 La prossima puntata… Stime per punti e per intervalli della varianza