Stat 02 - 1 / 40 Lezione 5 Strumenti statistici: campioni e stimatori Stat 02 - 2 / 40 le strategie di campionamento: - sistematico, - stratificato, - per quote, - a grappolo Nella parte 1 ... gli stimatori campionari V = v ( X1, X2, …, Xn ) correttezza: consistenza: lim P n efficienza: V -E V E V 1 E V -E V E V -E V 2 Eff V1 / V2 2 2 2 1 1 Stat 02 - 3 / 40 parte 2 gli stimatori: - “media campionaria” Stat 02 - 4 / 40 Richiami: statistiche e stimatori • Si definisce “statistica” g ( X1, X2, X3, …, Xn ) una funzione di variabili casuali che non contiene parametri. – Una statistica è a sua volta una variabile casuale. • Si definiscono “stimatori” quelle statistiche che vengono usate per stimare un parametro o una sua funzione. – I valori ottenuti mediante gli stimatori si dicono “stime” del parametro. Stat 02 - 5 / 40 Principali statistiche: momento campionario di ordine 1 • Fra i momenti campionari riveste particolare interesse quello di ordine 1 ( p = 1 ). E’ chiamato “media campionaria” e coincide con la media della X per il campione: per questo motivo lo indicheremo con Xn per richiamare il suo significato. Xj 1 j 1 M 1 n p 1 1 M p n n p n X j 1 j Xn Stat 02 - 6 / 40 Proprietà della media campionaria teorema 5.1: • estraendo da una popolazione per cui è definita la variabile casuale X diversi campioni di n elementi a ciascuno dei quali corrisponde un insieme di variabili casuali { X1, X2, …, Xn } • posto: si ha: 1 Xn n n X j j 1 2 E X n ; var X n n qualunque sia l’andamento della f (x) e qualunque sia la distribuzione della media campionaria Xn Stat 02 - 7 / 40 Teorema limite centrale teorema 5.2: • Siano X1, X2, …, Xn variabili casuali indipendenti con la medesima distribuzione con media e varianza 2 finite. • Detta Sn = X1 + X2 + … + Xn la variabile casuale costituita dalla loro somma, • allora la corrispondente variabile standardizzata S n n n • è asintoticamente normale dato che: lim P n Sn n b a n b a u2 1 exp du 2 2 Stat 02 - 8 / 40 Variabile standardizzata • da una variabile casuale X con media e varianza 2 finita si ricava la corrispondente variabile standardizzata Xstandardizzata – sottraendo ad X la sua media – dividendo la differenza X - per il valore della “deviazione standard” ( radice quadrata positiva della varianza ) X standardizzata X Stat 02 - 9 / 40 Teorema limite centrale teorema 5.2: • Siano X1, X2, …, Xn variabili casuali indipendenti con la medesima distribuzione con media e varianza 2 finite. • Detta Sn = X1 + X2 + … + Xn la variabile casuale costituita dalla loro somma, • allora la corrispondente variabile standardizzata S n n n • è asintoticamente normale dato che: lim P n Sn n b a n b a u2 1 exp du 2 2 Stat 02 - 10 / 40 Proprietà della media campionaria • Se dividiamo sia il numeratore sia il denominatore della S n n n per n otteniamo: Sn S n n n n n n ricordando poi che: Sn = X1 + X2 + … + Xn otteniamo: Stat 02 - 11 / 40 Proprietà della media campionaria Sn = X1 + X2 + … + Xn Sn S n n n n n n Con cui si può affermare che X 1 n Xj n j 1 è asintoticamente normale. 1 n n n j j 1 n Stat 02 - 12 / 40 Proprietà della media campionaria • se X1, X2, …, Xn anziché variabili casuali indipendenti definite per popolazioni diverse, ancorché con la medesima distribuzione e con media e varianza 2 finite, sono variabili casuali indipendenti definite per la stessa popolazione (con media e varianza 2 finita) che corrispondono ad un campione di n elementi • allora possiamo scrivere anche: S n n n 1 n X n j j 1 n Xn n Stat 02 - 13 / 40 Proprietà della media campionaria • questo ci permette di affermare che anche la variabile (standardizzata) Xn n è asintoticamente normale dato che è possibile scrivere: Xn n P nlim S n n n S n n b a n b a u2 1 exp du 2 2 Stat 02 - 14 / 40 Proprietà della media campionaria Variabile standardizzata: si era scritto che: • da una variabile casuale X con media e varianza 2 finita si ricava la corrispondente variabile standardizzata Xstandardizzata – sottraendo ad X la media – dividendo la differenza X - per il valore della “deviazione standard” , ( radice quadrata positiva della varianza ) X standardizzata X Stat 02 - 15 / 40 Proprietà della media campionaria X standardizzata X dato che la variabile standardizzata Xn n è asintoticamente normale si può affermare che, per n che tende all’infinito, la variabile casuale 1 Xn n n j 1 Xj ha distribuzione normale, 2 E X n ; var X n n Stat 02 - 16 / 40 Distribuzione della media campionaria teorema 5.3: • Sia data una popolazione infinita per cui è stata definita la variabile casuale X avente densità f (x) , media finita e varianza 2 finita. • Detta: Xn la media della X per un campione casuale di dimensione n estratto da essa, • allora, al tendere di n ad infinito, la media campionaria 1 Xn n - segue una distribuzione normale - con media e varianza 2 / n . n X j 1 j Stat 02 - 17 / 40 considerazioni • Il teorema 5.3 non fa alcuna considerazione sulla distribuzione della X, ma richiede solamente che media e varianza 2 siano finite. • La possibilità di costruire un campione di dimensione n che tende all’infinito è ovviamente solo teorica, ma l’enunciato del teorema deve essere inteso nel senso che: – quanto più il campione è numeroso, – tanto meglio la distribuzione della media campionaria approssima una distribuzione normale con media e varianza 2 / n. Stat 02 - 18 / 40 Distribuzione della media campionaria f (x) 1 Xn n n X j 1 j Stat 02 - 19 / 40 Proprietà della media campionaria conseguenze 1) e 2) del teorema 5.3 enunciato: 1) la distribuzione della media campionaria ha media coincidente con la media della X relativa alla popolazione da cui proviene il campione E Xn pertanto la media campionaria è uno stimatore corretto della media della X per l’intera popolazione. Stat 02 - 20 / 40 Proprietà della media campionaria conseguenze 1) e 2) del teorema 5.3 enunciato: 2) nel caso di popolazioni infinite o di campionamento con ripetizione la distribuzione della media campionaria ha una varianza che, risultando inversamente proporzionale al numero degli elementi che costituiscono il campione, tende a 0 per n che tende all’infinito pertanto 2 var X n n la media campionaria è uno stimatore consistente della media della X per l’intera popolazione. Stat 02 - 21 / 40 Proprietà della media campionaria 2 var X n n corollario: la distribuzione della media campionaria presenta una dispersione attorno al proprio valore medio che, espressa in termini di “deviazione standard ”, risulta inversamente proporzionale alla radice quadrata del numero degli elementi che costituiscono il campione. Possiamo anche notare che ad un aumento di quattro volte della dimensione del campione corrisponde solamente un dimezzamento della deviazione standard della nuova distribuzione della media campionaria. Stat 02 - 22 / 40 Proprietà della media campionaria teorema 5.4: • dato un campione di n elementi prelevato senza ripetizione da una popolazione composta da N elementi per cui è definita la variabile casuale X, posto: 1 Xn n n X • si ha: j j 1 2 N n var X n n N 1 N 10000 N n 0,99 n 100 N 1 ; N 500 N n 0,80 n 100 N 1 Stat 02 - 23 / 40 Distribuzione della media campionaria Avevamo affermato che: • estraendo da una popolazione per cui è definita la variabile casuale X diversi campioni di n elementi a ciascuno dei quali corrisponde un insieme di variabili casuali { X1, X2, …, Xn } posto: 1 Xn n n X j j 1 al tendere di n ad infinito si ha: 2 E X n ; var X n n qualunque sia l’andamento della f (x) e qualunque sia la distribuzione della media campionaria • Ma qual è la distribuzione della media campionaria ? Xn . Stat 02 - 24 / 40 Distribuzione della media campionaria distribuzione normale fX 1 x 2π σ X 1 exp 2 x μX σX 2 “… allora, al tendere di n ad infinito, la media campionaria segue una distribuzione normale con media e varianza 2 / n …” : f X n 1 2 n 1 exp 2 Xn n 2 Stat 02 - 25 / 40 gli stimatori: - “varianza campionaria” Stat 02 - 26 / 40 Principali statistiche: momento campionario rispetto a X n . definizione 5.3: • estraendo da una popolazione per cui è definita la variabile casuale X un campione di n elementi a cui corrisponde l’insieme di variabili casuali { X1, X2, …, Xn } si chiama “momento campionario di ordine p rispetto a X n ” la statistica: 1 Mp n X n j Xn p j 1 • Il momento campionario di ordine 2 rispetto a X n definisce la varianza campionaria S 2, il cui valore coincide con la varianza della X nel campione: 1 M2 n X n j 1 Xn S2 2 j Stat 02 - 27 / 40 Varianza campionaria S 2 La varianza campionaria S 2 può essere usata come stimatore della varianza 2 della X relativa all’intera popolazione? 1 S n 2 X n j Xn 2 ? 1 N x V -E V 1 2 j 1 correttezza degli stimatori campionari consistenza degli stimatori campionari N j j 1 E V lim P n X 2 Stat 02 - 28 / 40 Varianza campionaria S 2 E’ possibile dimostrare che E S 2 2 pertanto la varianza campionaria S 2 non è uno stimatore corretto della varianza della X relativa all’intera popolazione!!! La dimostrazione di tale affermazione ci consentirà di individuare uno stimatore campionario corretto della varianza 2. Stat 02 - 29 / 40 Varianza campionaria S 2 E S 2 2 dimostrazione: 1 n 2 S X j X n n j 1 2 se scriviamo: X j X n X j μ μ X n X j μ X n μ allora: X X n X j 2 X nj X nj X n 2 j 2 2 Stat 02 - 30 / 40 Varianza campionaria S 2 X X n X j 2 X n X j X n 2 j 2 2 da cui si ricava, passando alle sommatorie: X n j 1 Xn 2 j X n 2 j j 1 2 X n X n j 1 j n X j 1 n 2 Stat 02 - 31 / 40 Varianza campionaria S 2 X n j 1 X n X j n 2 j 2 j 1 2 X n X j X n notiamo che: n n j 1 j 1 2 X n X n j n j 1 X n da cui: j 1 X n X j 2 j n 2 j 1 2 n X n X n 2 n j 1 2 Stat 02 - 32 / 40 Varianza campionaria S 2 X n j 1 j Xn X n 2 j 1 j 2 2 n X n X n n 2 j 1 notiamo poi che: X n j 1 n X n 2 n 2 da cui: X n j 1 Xn 2 j X n j 1 n X n 2 j 2 2 Stat 02 - 33 / 40 Varianza campionaria S 2 X Xn n 2 j j 1 X n n X n 2 j 2 j 1 Dividendo ambo i membri per n si può scrivere: 1 n X n j 1 j Xn 2 1 n X n j 1 j 2 n 2 X n n e, passando ai valori medi in ambo i membri: E 1 n 2 X j X n E n j 1 1 n 2 X j E n j 1 X n 2 Stat 02 - 34 / 40 Varianza campionaria S 2 E 1 n 2 X j X n E n j 1 1 n 2 X j E n j 1 X n 2 la variabile casuale X ha media e varianza 2 pertanto, per n che tende all’infinito, si può scrivere: 1 n 2 2 X var X j n j 1 da cui: E 1 n 1 n 2 2 22 2 X j Xn X j E X n E n j 1 n j 1 Stat 02 - 35 / 40 Varianza campionaria S 2 E 1 n 2 2 X X j n n j 1 E X n 2 per n che tende all’infinito, la variabile casuale media campionaria 1 Xn n pertanto: X n j 1 j ha distribuzione normale, 2 E X n ; var X n n 2 2 1 n 2 1 2n 2 E X n j X n Xn2 E X n j 1 n n n j 1 Stat 02 - 36 / 40 Varianza campionaria S 2 E 2 1 n 2 2 X j X n n n j 1 raccogliendo al secondo membro, si ottiene: E 1 n n 1 2 2 X j Xn n n j 1 da cui si conclude che: E 1 n 2 2 X X j n n j 1 Stat 02 - 37 / 40 Varianza campionaria S 2 E’ stato possibile dimostrare che E S 2 2 pertanto la varianza campionaria S 2 non è uno stimatore corretto della varianza 2 !!! Come stimatore della varianza 2 si può usare la “varianza campionaria corretta” Sn2 n n 2 S M2 S n 1 n 1 2 n che, come ora è facile mostrare, è uno stimatore corretto. Stat 02 - 38 / 40 Varianza campionaria corretta Sn 2 Nel caso della varianza campionaria S 2 si era concluso che: 1 n n 1 2 X j X n E n j 1 è sufficiente moltiplicare ambo i membri per n / ( n -1 ) per ottenere: n E n 1 da cui: E 1 n n X 1 n 1 2 Xn n j 2 j 1 X n j 1 j Xn n n 1 2 n 1 n 2 2 2 E Sn Stat 02 - 39 / 40 La prossima volta… Lo stimatore “varianza campionaria corretta” e la sua distribuzione