L`indagine campionaria Variabile casuale

Anno accademico 2007/08
L’indagine campionaria
Lezione 3
Docente: prof. Maurizio Pisati
Variabile casuale
• Una variabile casuale è una quantità –
discreta o continua – il cui valore è
determinato dal risultato di un
esperimento
• Il termine esperimento è qui usato in
senso lato per indicare qualsiasi
processo che può produrre due o più
risultati diversi
1
Variabile casuale
• In quest’ottica, possiamo chiamare
esperimento cose diverse come il lancio
di una moneta, l’estrazione di un
numero del lotto, la scelta del sindaco di
una città, il conseguimento del reddito
da lavoro, un’operazione chirurgica, e
così via
Variabile casuale
• Come è facile vedere, ognuno di questi
«esperimenti» può produrre due o più risultati
diversi:
– il lancio di una moneta può dare testa o croce
– l’estrazione di un numero del lotto può generare
qualsiasi numero intero compreso fra 1 e 90
– la scelta del sindaco di una città può manifestarsi
nell’elezione del candidato A, nell’elezione del
candidato B o nell’elezione del candidato C
2
Variabile casuale
• Se assegniamo un valore numerico a
ogni risultato possibile di un dato
esperimento otteniamo una variabile
casuale
Variabile casuale
• In questo contesto l’aggettivo «casuale»
esprime l’incertezza fondamentale
che circonda l’esito di ogni esperimento
• Tale incertezza può essere espressa
come segue: prima che un esperimento
si concluda noi sappiamo quali sono i
suoi possibili risultati, ma non siamo in
grado di dire quale specifico risultato si
verificherà
3
Variabile casuale
• Spesso l’incertezza che circonda l’esito
di un esperimento può essere
quantificata assegnando a ciascun
risultato possibile dell’esperimento
stesso – e, quindi, a ciascun valore
possibile della variabile casuale a esso
corrispondente – una data probabilità
di verificarsi
Variabile casuale
• In generale, l’insieme dei valori possibili
della variabile casuale Y e delle
probabilità con cui ciascuno di questi
valori si può verificare in ogni dato
esperimento rappresenta la
distribuzione di probabilità della
variabile casuale Y, che indichiamo con
il simbolo p(Y)
4
Variabile casuale
• Di ogni variabile casuale di cui sia stata
definita la distribuzione di probabilità è
possibile calcolare due misure
riassuntive importanti:
– il valore atteso
– la varianza
Variabile casuale
• Il valore atteso di una variabile casuale
Y, che indichiamo con il simbolo E(Y),
equivale alla somma di tutti i possibili
valori di Y moltiplicati per le rispettive
probabilità
• Il valore atteso di una variabile casuale
è noto anche come valore medio o
media
5
Variabile casuale
• Il valore atteso di una variabile casuale può
essere interpretato come segue: se
l’esperimento da cui trae origine la variabile
casuale Y venisse ripetuto un numero molto
elevato di volte (diciamo M), la somma di tutti
i valori ottenuti (detti realizzazioni di Y),
divisa per M, approssimerebbe E(Y)
• In altri termini, il valore atteso di Y esprime il
risultato medio che si otterrebbe ripetendo
l’esperimento corrispondente un numero
molto elevato di volte
Variabile casuale
• La varianza di una variabile casuale Y, che
indichiamo con il simbolo V(Y), esprime la
dispersione di tutte le possibili realizzazioni di
Y intorno al suo valore atteso
• Spesso la dispersione di una variabile
casuale viene espressa mediante la radice
quadrata di V(Y), denominata deviazione
standard e indicata con il simbolo σ(Y)
6
Distribuzione normale
• Le distribuzioni di probabilità delle
variabili casuali possono assumere
molte forme diverse
• Ai fini della nostra discussione, la forma
più rilevante è quella «normale»
Distribuzione normale
• La distribuzione di probabilità
normale (o gaussiana) si applica alle
variabili casuali continue e la sua forma
– la classica campana simmetrica – è
definita da due parametri: il valore
atteso, generalmente indicato con il
simbolo µ, e la varianza, generalmente
indicata con il simbolo σ2
7
Distribuzione normale
• Le variabili casuali con distribuzione
normale possono essere rappresentate
formalmente come segue:
Y ~ N ( µ ,σ 2 )
che si legge: «la variabile casuale Y si
distribuisce normalmente con valore
atteso pari a µ e varianza pari a σ2»
Distribuzione normale
µ
8
Distribuzione campionaria
• Da ogni popolazione di riferimento è
possibile estrarre un certo numero di
campioni diversi di ampiezza n
• In linea di principio, ognuno di questi
campioni può essere usato per stimare
la quantità di interesse θ
Distribuzione campionaria
• Ne consegue che, per ogni data
quantità di interesse θ e ogni data
ampiezza campionaria n, è possibile
calcolare un certo numero di stime θˆ
9
Distribuzione campionaria
• Se concepiamo il «calcolo della stima di
θ su un campione di ampiezza n» come
un esperimento che può dare luogo a
un certo numero di risultati diversi,
ognuno caratterizzato da una data
probabilità di realizzarsi, allora la
distribuzione di tutte le possibili stime di
θ può essere vista come la distribuzione
di probabilità della variabile casuale θˆ
Distribuzione campionaria
• Questa distribuzione è detta
distribuzione campionaria di θˆ e,
nella maggior parte dei casi, ha una
forma ben definita, cioè si configura
come una curva approssimativamente
normale. Formalmente:
θˆ ~
− N ( E (θˆ), V (θˆ))
10
Accuratezza dello stimatore
• Tecnicamente la variabile casuale θˆ è
detta stimatore del parametro θ
• L’accuratezza di un dato stimatore è
funzione di due elementi analiticamente
distinti:
– correttezza
– precisione
Correttezza dello stimatore
• La correttezza di uno stimatore ha a che fare
con il suo valore atteso
• Uno stimatore è corretto se è esente da
errore sistematico
• Si definisce errore sistematico – o bias – la
differenza fra il valore atteso della distribuzione campionaria di θˆ e il vero valore di θ.
Formalmente:
B(θˆ) = E (θˆ ) − θ
11
Correttezza dello stimatore
• Se E (θˆ ) = θ , allora B (θˆ ) = 0 e lo
stimatore di θ può essere definito
corretto
• In questo caso:
θˆ ~
− N (θ , V (θˆ))
Precisione dello stimatore
• La precisione di uno stimatore ha a che fare
con la sua varianza
• Uno stimatore è tanto più preciso quanto più
piccola è la sua varianza
• La radice quadrata della varianza, detta
errore standard e indicata con il simbolo
σ (θˆ ) , esprime l’ampiezza dell’oscillazione
casuale delle stime attribuibile al processo di
campionamento
12
Precisione dello stimatore
• Quando lo stimatore di θ si distribuisce
in modo approssimativamente normale:
– circa il 68% delle possibili stime di θ
assumono valori compresi nell’intervallo
E (θˆ ) ± σ (θˆ )
– circa il 95% delle possibili stime di θ
assumono valori compresi nell’intervallo
E (θˆ ) ± 2σ (θˆ )
Precisione dello stimatore
• L’errore standard di uno stimatore è
tanto minore quanto maggiore è
l’ampiezza del campione n e quanto più
efficiente è il disegno di campionamento
adottato
13
Precisione dello stimatore
n=10.000
n=1.000
n=100
150
200
250
300
350
400
450
^
θ
Accuratezza dello stimatore
• Formalmente, l’accuratezza di uno stimatore
può essere espressa in termini di errore
quadratico medio (mean square error):
MSE (θˆ ) = E (ε 2 ) = V (θˆ ) + B (θˆ ) 2
• Tanto minore è l’errore quadratico medio,
tanto maggiore è l’accuratezza dello
stimatore
14
Accuratezza dello stimatore
Caso A: bias assente, varianza elevata
Accuratezza dello stimatore
Caso B: bias presente, varianza limitata
15
Accuratezza dello stimatore
Caso C: bias assente, varianza limitata
16