Anno accademico 2007/08 L’indagine campionaria Lezione 3 Docente: prof. Maurizio Pisati Variabile casuale • Una variabile casuale è una quantità – discreta o continua – il cui valore è determinato dal risultato di un esperimento • Il termine esperimento è qui usato in senso lato per indicare qualsiasi processo che può produrre due o più risultati diversi 1 Variabile casuale • In quest’ottica, possiamo chiamare esperimento cose diverse come il lancio di una moneta, l’estrazione di un numero del lotto, la scelta del sindaco di una città, il conseguimento del reddito da lavoro, un’operazione chirurgica, e così via Variabile casuale • Come è facile vedere, ognuno di questi «esperimenti» può produrre due o più risultati diversi: – il lancio di una moneta può dare testa o croce – l’estrazione di un numero del lotto può generare qualsiasi numero intero compreso fra 1 e 90 – la scelta del sindaco di una città può manifestarsi nell’elezione del candidato A, nell’elezione del candidato B o nell’elezione del candidato C 2 Variabile casuale • Se assegniamo un valore numerico a ogni risultato possibile di un dato esperimento otteniamo una variabile casuale Variabile casuale • In questo contesto l’aggettivo «casuale» esprime l’incertezza fondamentale che circonda l’esito di ogni esperimento • Tale incertezza può essere espressa come segue: prima che un esperimento si concluda noi sappiamo quali sono i suoi possibili risultati, ma non siamo in grado di dire quale specifico risultato si verificherà 3 Variabile casuale • Spesso l’incertezza che circonda l’esito di un esperimento può essere quantificata assegnando a ciascun risultato possibile dell’esperimento stesso – e, quindi, a ciascun valore possibile della variabile casuale a esso corrispondente – una data probabilità di verificarsi Variabile casuale • In generale, l’insieme dei valori possibili della variabile casuale Y e delle probabilità con cui ciascuno di questi valori si può verificare in ogni dato esperimento rappresenta la distribuzione di probabilità della variabile casuale Y, che indichiamo con il simbolo p(Y) 4 Variabile casuale • Di ogni variabile casuale di cui sia stata definita la distribuzione di probabilità è possibile calcolare due misure riassuntive importanti: – il valore atteso – la varianza Variabile casuale • Il valore atteso di una variabile casuale Y, che indichiamo con il simbolo E(Y), equivale alla somma di tutti i possibili valori di Y moltiplicati per le rispettive probabilità • Il valore atteso di una variabile casuale è noto anche come valore medio o media 5 Variabile casuale • Il valore atteso di una variabile casuale può essere interpretato come segue: se l’esperimento da cui trae origine la variabile casuale Y venisse ripetuto un numero molto elevato di volte (diciamo M), la somma di tutti i valori ottenuti (detti realizzazioni di Y), divisa per M, approssimerebbe E(Y) • In altri termini, il valore atteso di Y esprime il risultato medio che si otterrebbe ripetendo l’esperimento corrispondente un numero molto elevato di volte Variabile casuale • La varianza di una variabile casuale Y, che indichiamo con il simbolo V(Y), esprime la dispersione di tutte le possibili realizzazioni di Y intorno al suo valore atteso • Spesso la dispersione di una variabile casuale viene espressa mediante la radice quadrata di V(Y), denominata deviazione standard e indicata con il simbolo σ(Y) 6 Distribuzione normale • Le distribuzioni di probabilità delle variabili casuali possono assumere molte forme diverse • Ai fini della nostra discussione, la forma più rilevante è quella «normale» Distribuzione normale • La distribuzione di probabilità normale (o gaussiana) si applica alle variabili casuali continue e la sua forma – la classica campana simmetrica – è definita da due parametri: il valore atteso, generalmente indicato con il simbolo µ, e la varianza, generalmente indicata con il simbolo σ2 7 Distribuzione normale • Le variabili casuali con distribuzione normale possono essere rappresentate formalmente come segue: Y ~ N ( µ ,σ 2 ) che si legge: «la variabile casuale Y si distribuisce normalmente con valore atteso pari a µ e varianza pari a σ2» Distribuzione normale µ 8 Distribuzione campionaria • Da ogni popolazione di riferimento è possibile estrarre un certo numero di campioni diversi di ampiezza n • In linea di principio, ognuno di questi campioni può essere usato per stimare la quantità di interesse θ Distribuzione campionaria • Ne consegue che, per ogni data quantità di interesse θ e ogni data ampiezza campionaria n, è possibile calcolare un certo numero di stime θˆ 9 Distribuzione campionaria • Se concepiamo il «calcolo della stima di θ su un campione di ampiezza n» come un esperimento che può dare luogo a un certo numero di risultati diversi, ognuno caratterizzato da una data probabilità di realizzarsi, allora la distribuzione di tutte le possibili stime di θ può essere vista come la distribuzione di probabilità della variabile casuale θˆ Distribuzione campionaria • Questa distribuzione è detta distribuzione campionaria di θˆ e, nella maggior parte dei casi, ha una forma ben definita, cioè si configura come una curva approssimativamente normale. Formalmente: θˆ ~ − N ( E (θˆ), V (θˆ)) 10 Accuratezza dello stimatore • Tecnicamente la variabile casuale θˆ è detta stimatore del parametro θ • L’accuratezza di un dato stimatore è funzione di due elementi analiticamente distinti: – correttezza – precisione Correttezza dello stimatore • La correttezza di uno stimatore ha a che fare con il suo valore atteso • Uno stimatore è corretto se è esente da errore sistematico • Si definisce errore sistematico – o bias – la differenza fra il valore atteso della distribuzione campionaria di θˆ e il vero valore di θ. Formalmente: B(θˆ) = E (θˆ ) − θ 11 Correttezza dello stimatore • Se E (θˆ ) = θ , allora B (θˆ ) = 0 e lo stimatore di θ può essere definito corretto • In questo caso: θˆ ~ − N (θ , V (θˆ)) Precisione dello stimatore • La precisione di uno stimatore ha a che fare con la sua varianza • Uno stimatore è tanto più preciso quanto più piccola è la sua varianza • La radice quadrata della varianza, detta errore standard e indicata con il simbolo σ (θˆ ) , esprime l’ampiezza dell’oscillazione casuale delle stime attribuibile al processo di campionamento 12 Precisione dello stimatore • Quando lo stimatore di θ si distribuisce in modo approssimativamente normale: – circa il 68% delle possibili stime di θ assumono valori compresi nell’intervallo E (θˆ ) ± σ (θˆ ) – circa il 95% delle possibili stime di θ assumono valori compresi nell’intervallo E (θˆ ) ± 2σ (θˆ ) Precisione dello stimatore • L’errore standard di uno stimatore è tanto minore quanto maggiore è l’ampiezza del campione n e quanto più efficiente è il disegno di campionamento adottato 13 Precisione dello stimatore n=10.000 n=1.000 n=100 150 200 250 300 350 400 450 ^ θ Accuratezza dello stimatore • Formalmente, l’accuratezza di uno stimatore può essere espressa in termini di errore quadratico medio (mean square error): MSE (θˆ ) = E (ε 2 ) = V (θˆ ) + B (θˆ ) 2 • Tanto minore è l’errore quadratico medio, tanto maggiore è l’accuratezza dello stimatore 14 Accuratezza dello stimatore Caso A: bias assente, varianza elevata Accuratezza dello stimatore Caso B: bias presente, varianza limitata 15 Accuratezza dello stimatore Caso C: bias assente, varianza limitata 16