Stat 03 - 1 / 43 Lezione 5 Strumenti statistici: campioni e stimatori Stat 03 - 2 / 43 dalla caratteristica comune di una popolazione al suo modello probabilistico … una popolazione (distribuita in modo) normale su1,61m cui <viene definita una variabile casuale continua X h < 1,63m X = 162 m s2 può essere modellata mediante una di probabilità fX ( x ) espressa nella forma: 1,57m < funzione h < 1,59m di X =densità 158 con 1,59m < h media < 1,61m Xe= varianza 160 fX 2 1 1 x m x exp 2 s 2 s Stat 03 - 3 / 43 dalla caratteristica comune di una popolazione al suo modello probabilistico … Stat 03 - 4 / 43 le strategie di campionamento: - sistematico, - stratificato, - per quote, - a grappolo Nella parte 1 ... gli stimatori campionari V = v ( X1, X2, …, Xn ) correttezza: consistenza: lim P n efficienza: V -E V E V 1 E V -E V E V -E V 2 Eff V1 / V2 2 2 2 1 1 Stat 03 - 5 / 43 Nella parte 2 ... La media campionaria: corretto: consistente: f (x) lim P n 1 n Xn X j n j 1 E Xn m X n -E X n 1 Stat 03 - 6 / 43 Nella parte 2 ... La varianza campionaria: La varianza campionaria corretta: corretto: Consistente: ? lim P n S 2 n n 1 2 S 2 X j X n n j 1 n 1 2 2 2 2 E S σ X j X n Sn n 1 j 1 E Sn2 σ 2 ? -E S n2 1 Stat 03 - 7 / 43 parte 3 gli stimatori: “varianza campionaria corretta” Stat 03 - 8 / 43 Principali stimatori: varianza campionaria corretta Sn 2 definizione 5.8: • estraendo da una popolazione per cui è definita la variabile casuale X un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn } si definisce “varianza campionaria corretta” la quantità: 1 2 Sn n 1 X n j Xn 2 j 1 con numerosità n del campione maggiore di 1. Stat 03 - 9 / 43 Principali stimatori: varianza campionaria corretta Sn 2 la “varianza campionaria corretta” 1 2 Sn n 1 X n j Xn 2 j 1 di un campione proveniente da una popolazione su cui è stata definita la variabile casuale X è uno stimatore corretto della varianza s2 della X per l’intera popolazione dato che: E S E 2 n 1 n 2 2 X X s j n n 1 j 1 Stat 03 - 10 / 43 Principali stimatori: varianza campionaria corretta Sn 2 Per verificare se la varianza campionaria corretta 1 2 Sn n 1 X n j Xn 2 n 1 j 1 possa essere considerata uno stimatore consistente della varianza della X relativa all’intera popolazione si dovrà individuare la sua distribuzione, in modo da poter individuare il limite per n che tende all’infinito della sua varianza. Ricordiamo infatti che si era scritto: consistenza degli stimatori campionari lim P n V -E V 1 Stat 03 - 11 / 43 Principali stimatori: varianza campionaria corretta Sn 2 Per ricavare la distribuzione della varianza campionaria corretta 1 2 Sn n 1 X n j Xn 2 j 1 si dovranno introdurre tre nuove distribuzioni: - la distribuzione “Gamma”, - la distribuzione “Chi - quadro”, - la distribuzione “C2 modificata”. n 1 Stat 03 - 13 / 43 la distribuzione Gamma ( G ) Stat 03 - 14 / 43 Distribuzione Gamma ( G ) Costruiamo una funzione della variabile X in cui compaiono due parametri p e l a cui è possibile assegnare arbitrariamente valori reali positivi: fX x fX lp p 1 x exp l x se x 0 G p x, p , l se x 0 0 con p, l R in cui è stata indicata con G( p) la funzione: G p x p 1 exp x dx 0 Stat 03 - 15 / 43 Distribuzione Gamma ( G ) Stat 03 - 16 / 43 Distribuzione Gamma ( G ) Stat 03 - 17 / 43 Distribuzione Gamma ( G ) La funzione : fX x fX lp p 1 x exp l x se x 0 G p x, p , l se x 0 0 con p, l R può essere presa come funzione di densità di probabilità dato che: – ha dominio in R e codominio in R + ; – il suo integrale è unitario; – rispetta gli assiomi di Kolmogoroff. 0 lp p 1 f X x, p , l d x 0 d x x exp l x d x 1 G p 0 Stat 03 - 18 / 43 Distribuzione Gamma ( G ) Una distribuzione per cui si possa adottare la fX x fX lp p 1 x exp l x se x 0 G p x, p , l se x 0 0 con p, l R come funzione di densità di probabilità viene chiamata “distribuzione Gamma con parametri p e l ” G p x p 1 exp x dx 0 Stat 03 - 19 / 43 Media e varianza della distribuzione Gamma Se X è una variabile casuale che ha distribuzione Gamma con parametri p e l : fX x fX lp p 1 x exp l x x, p , l G p 0 se x 0 con p, l R si ha : E se x 0 p X l e p var X 2 l Stat 03 - 20 / 43 la distribuzione “chi-quadro” o “distribuzione di Pearson” Karl Pearson (1857-1936) Stat 03 - 21 / 43 Distribuzione chi-quadro La distribuzione Gamma con parametri p = n / 2 e l = 1 / 2 assume un particolare interesse: 1l2p n 2 p 1n 1 l xx x x 2exp exp ff XX xx f x , p , l G p f XX x, p, l G n 2 2 0 0 se x 0 se x 0 con p, l R avendo indicato con G( n / 2 ) la funzione definita da: Gn 2 x 0 n 1 2 exp x dx Stat 03 - 22 / 43 Distribuzione chi-quadro Una distribuzione per cui si possa adottare la fX 1 2 n 2 n2 1 x x exp x, n Gn 2 2 0 se x 0 se x 0 come funzione di densità di probabilità viene chiamata: distribuzione chi - quadro con n gradi di libertà Gn 2 x 0 n 1 2 exp x dx Stat 03 - 23 / 43 Distribuzione chi-quadro 1 2 f X x, n Gn 2 n 2 x n 1 2 x exp 2 se x 0 Stat 03 - 24 / 43 Media e varianza della distribuzione chi-quadro Dato che la distribuzione chi-quadro con n gradi di libertà è un caso particolare della distribuzione Gamma con parametri p = n / 2 e l = 1 / 2 la sua media e la sua varianza possono essere dedotte introducendo tali valori nella espressione di media e varianza della generica Gamma : E p X l e p var X 2 l ottenendo: E n2 X n 12 e n2 var X 2n 2 1 2 Stat 03 - 25 / 43 Proprietà della distribuzione chi-quadro teorema 5.5: Se le variabili casuali X1, X2 … , Xn, sono indipendenti e ciascuna ha distribuzione normale con media m j e varianza s2j con j = 1, 2, … , n, allora la variabile casuale: X j mj s j 1 j n 2 2 segue una distribuzione chi-quadro con n gradi di libertà Stat 03 - 26 / 43 Proprietà della distribuzione chi-quadro corollario al teorema 5.5: Se le variabili casuali X1, X2 … , Xn, sono indipendenti e ciascuna ha una distribuzione normale con media mj e varianza s2j con j = 1, 2, … , n, allora le variabili casuali Z1, Z2 … , Zn definite come : Zj X j mj sj sono indipendenti e seguono una distribuzione normale standard. Ma allora si può anche affermare che: 2 la somma dei quadrati di nXvariabili casuali indipendenti, 2 j mj normale standard, ciascuna distribuita Z j in modo 2 segue una s distribuzione chi-quadro j 1 j 1 con n jgradi di libertà ! n n Stat 03 - 27 / 43 la distribuzione della variabile C2 modificata Stat 03 - 28 / 43 Distribuzione chi-quadro Stat 03 - 29 / 43 Media e varianza della distribuzione chi-quadro Dato che la distribuzione chi-quadro con n gradi di libertà è un caso particolare della distribuzione Gamma con parametri p = n / 2 e l = 1 / 2 la sua media e la sua varianza possono essere dedotte introducendo tali valori nella espressione di media e varianza della generica Gamma : E p X l e ottenendo: E n2 X n 12 e p var X 2 l n2 var X 2n 2 1 2 La distribuzione chi-quadro ha media e varianza che aumentano all’aumentare di n Stat 03 - 30 / 43 La variabile C 2 Partendo da una variabile casuale 2 che segue una distribuzione chi-quadro con n gradi di libertà, definiamo una nuova variabile che indichiamo C 2 : C2 χ2 n che prende il nome di “variabile modificata di chi-quadro con n g.d.l.” La “variabile modificata di chi-quadro” è quindi una variabile casuale che si ottiene dividendo una variabile casuale distribuita secondo una chi-quadro per il numero dei suoi gradi di libertà. Stat 03 - 31 / 43 La distribuzione della variabile C 2 Dato che la C 2, “variabile modificata di chi-quadro”, si ottiene dividendo una variabile distribuita secondo una chi-quadro per il numero dei suoi gradi di libertà, il suo valore medio e la sua varianza si possono facilmente ricavare da quelli della corrispondente 2 : E χ 2 n ottenendo: var C var χ 2 n 2 χ2 1 E E n n χ χ2 1 var 2 var n n χ E C 2 e 2 2 2 1 n 1 n 1 2 2 2n n n Stat 03 - 32 / 43 La distribuzione della variabile C 2 Stat 03 - 33 / 43 La distribuzione della variabile C 2 La distribuzione della varianza campionaria corretta Stat 03 - 34 / 43 Distribuzione della varianza campionaria corretta Estraendo casualmente da una popolazione per cui è definita la variabile casuale X, distribuita in modo normale con media m e varianza s2 , un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn } è facile vedere che la variabile casuale: X j Xn segue una distribuzione normale con media nulla. Se definiamo una nuova variabile Z : Zj X j Xn s possiamo affermare che essa segue una distribuzione normale standard. Stat 03 - 35 / 43 Distribuzione della varianza campionaria corretta Se ora sommiamo i quadrati delle Z1 , Z2 , … , Zn : X j Xn W Z j s j 1 j 1 n 2 n 2 possiamo affermare che W segue una distribuzione chi-quadro con n - 1 gradi di libertà in quanto somma dei quadrati di n -1 variabili indipendenti normali standard ( la media introduce un vincolo fra le n variabili Xi ) Stat 03 - 36 / 43 Distribuzione della varianza campionaria corretta Definiamo ora una nuova variabile V : 2 Sn V n 1 2 s che, esplicitando Sn2, possiamo anche scrivere come: 1 n 2 X j X n n X X 2 n 1 j 1 j n V n 1 2 s s j 1 Stat 03 - 37 / 43 Distribuzione della varianza campionaria corretta Se ricordiamo che : X j Xn W Z j s j 1 j 1 n 2 n 2 possiamo notare che : 2 Sn V n 1 2 s 2 X j Xn W s j 1 n e, ricordando che W segue una distribuzione chi-quadro possiamo affermare che anche V segue una distribuzione chi-quadro con n - 1 gradi di libertà. Stat 03 - 38 / 43 Distribuzione della varianza campionaria corretta Definiamo infine una nuova variabile che indichiamo C 2 : V C n 1 2 che risulta essere una “variabile modificata di chi-quadro con n - 1 gradi di libertà” 2 Sn V n 1 2 s V C n 1 2 2 Sn n 1 2 2 S s n C2 n 1 s2 Stat 03 - 39 / 43 La varianza campionaria corretta e la C 2 E C2 E Sn 2 2 1 s E Sn 2 s2 Stat 03 - 40 / 43 La varianza campionaria corretta e la C 2 2 S 2 2 n var C var 2 s n 1 2 2 var S n s4 n 1 2 lim var S n 0 n Stat 03 - 41 / 43 Lo stimatore varianza campionaria corretta • Estraendo casualmente da una popolazione per cui è definita la variabile casuale X, distribuita in modo normale con media m e varianza s2 , un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn } posto: n 1 S n 1 2 n X j Xn 2 n 1 j 1 si ha che la varianza campionaria corretta: – è uno stimatore corretto in quanto – è uno stimatore consistente in quanto : E Sn 2 s2 0 lim var S n n n 1 2 Stat 03 - 42 / 43 Lo stimatore varianza campionaria corretta • Estraendo casualmente da una popolazione per cui è definita la variabile casuale X, distribuita in modo normale con media m e varianza s2 , un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn } posto: n 1 S n 1 2 n X j Xn 2 n 1 j 1 si ha che : X j Xn S 1 s n 1 j 1 s 2 n 2 n 2 n 1 – segue una distribuzione C 2 con n-1 gradi di libertà. Stat 03 - 43 / 43 Lo stimatore varianza campionaria corretta • Il rapporto fra la varianza campionaria corretta dei campioni estratti casualmente da una popolazione per cui è definita la variabile casuale X, distribuita in modo normale con media m e varianza s2 , e la stessa varianza s2 della X è una variabile casuale che segue una distribuzione C 2 con n-1 gradi di libertà. E C 2 E Sn 2 1 s 2 E Sn 2 s2 2 Sn 2 2 var C var 2 s n 1 2 2 var S n s4 n 1