Corso di laurea in Economia e Commercio
Anno accademico 2016-’17
Corso di
Statistica (clec, cleif A-K)
Marco Gherghi
Lezione:
L14
Argomento:
www.docenti.unina.it/marco.gherghi
[email protected]
Le variabili casuali
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Le variabili casuali
• Il concetto di variabile casuale è strettamente legato a quello di esperimento, a quello,
cioè, di una prova il cui risultato è incerto.
• E diverso, dunque, dal concetto di variabile definita su una popolazione, di cui io posso
conoscere o meno il valore che questa assume sulle singole unità, ma rispetto alla quale
non c è nulla di incerto.
• E lo stesso concetto che possiamo associare al lancio di una moneta. Prima di lanciare la
moneta, la probabilità che esca testa può essere posta pari a p, quella che esca croce pari a
(1-p). Ma una volta lanciata la moneta, una volta realizzato l evento, questo può essere
noto o meno (immaginiamo di avere la moneta nel pugno stretto), ma non c è più
incertezza: la probabilità che il risultato sia testa è 1 (se effettivamente è uscito testa) o 0
(se è uscito croce).
• Una variabile casuale X è dunque associata ai possibili risultati x1, x2, …, xn di un
esperimento o, più esattamente, alla possibilità di associare ad ognuno di questi risultati
la corrispondente probabilità:
P (X = x )
• In alcuni casi la cosa è abbastanza semplice (es., lancio di un dado), in altri meno.
2
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Le variabili casuali
• Quando è possibile, invece di specificare le singole probabilità P(X) per i valori che la
variabile X può assumere, si preferisce esprimere la relazione funzionale che lega queste
probabilità e che viene sintetizzata attraverso la funzione f(x):
f (x ) = P (X = x )
• L impiego della funzione di probabilità f(x) è indispensabile quando si ha a che fare con v.c.
di tipo continuo o con v.c. di tipo discreto con un numero elevato di possibili modalità.
3
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Le variabili casuali discrete
• Nel caso discreto, la funzione f(x) definisce la funzione di probabilità della v.c. X. Se X è
discreta, anche f(x) sarà discreta, nel senso che concentrerà la probabilità in un insieme
finito di valori di X. La funzione di probabilità f(x) di tipo discreto soddisfa le condizioni:
1. f ( xi ) ³ 0
2.
å f (x ) = 1
i
i
• In molti casi, può essere necessario trovare la probabilità che la v.c. X assuma un valore
inferiore o uguale ad un dato valore xk. Tale probabilità viene definita probabilità cumulata
ed è descritta dalla funzione di ripartizione, che viene indicata con F(xk).
• Quindi, se x1, x2, …, xn sono i valori possibili di X ordinati in senso crescente, la
probabilità cumulata sarà:
( ) ( ) ( )
( )
F xk = f x1 + f x2 + … + f xk
4
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Le variabili casuali discrete
Esempio
Esperimento: Lancio di tre monete (oppure tre lanci di una moneta)
Variabile casuale associata: Numero di teste uscite
f ( x 0 ) = P ( X = 0 ) = P (C ∩C ∩C ) =
1 1 1 1
× × =
2 2 2 8
f ( x 1 ) = P ( X = 1) = P ⎡⎣(T ∩C ∩C ) ∪ (C ∩T ∩C ) ∪ (C ∩C ∩T ) ⎤⎦ =
3
8
f ( x 2 ) = P ( X = 2 ) = P ⎡⎣(T ∩T ∩C ) ∪ (C ∩T ∩T ) ∪ (T ∩C ∩T ) ⎤⎦ =
3
8
f ( x 3 ) = P ( X = 3) = P (T ∩T ∩T ) =
1 1 1 1
× × =
2 2 2 8
5
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Le variabili casuali continue
• Una variabile casuale continua è una v.c. che può assumere un numero infinito di valori
compresi in un intervallo di ampiezza finita o infinita.
• Una v.c. continua è, concettualmente, un astrazione mentale, ma un astrazione che risulta
molto utile in quanto consente di semplificare l analisi senza un eccessiva perdita di realismo.
• A differenza di quanto accade nel caso discreto, non è possibile ottenere la probabilità che la
variabile assuma un qualsiasi valore interno all intervallo sommando le probabilità dei singoli
punti che lo compongono, in quanto i punti sono infiniti e una somma infinita di valori finiti non
può dare l unità.
• Il c.d. paradosso della continuità viene risolto ricorrendo al concetto di area, assegnando
probabilità a singoli intervalli piuttosto che a singoli punti e rappresentando le probabilità come
delle aree su degli intervalli.
• Una variabile casuale X è, allora, continua se esiste una funzione f(x) tale che:
P (a ≤ X ≤ b ) = ∫ f ( x ) dx
b
a
dove a e b sono numeri reali qualsiasi, con a<b.
6
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Le variabili casuali continue
• La funzione f(x) viene definita funzione di densità di probabilità (f.d.p.) o densità di probabilità
di X. In questo caso, tuttavia, la funzione non può essere interpretata come la P(X=x), in quanto
tale probabilità, per v.c. di tipo continuo, sarà sempre nulla. Si può però determinare la probabilità di
osservare un valore compreso nell’intervallo (x, x+Δx), cioè:
P ( x ≤ X ≤ x + Δx )
• E invece possibile definire la funzione di ripartizione:
F ( x ) = P ( X ≤ x ) = ∫ f ( x ) dx
x
−∞
che conserva il suo significato.
7
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Speranza matematica (o valore atteso)
• Una variabile casuale può essere interamente descritta dalla sua funzione di densità.
E possibile, d altra parte, definire dei parametri, o grandezze caratteristiche, di una
distribuzione di probabilità, che hanno la capacità di riassumere in modo immediato e
sintetico l informazione relativa alla distribuzione. Questi parametri vengono definiti in
termini di valori attesi, o speranze matematiche, e rappresentano una sintesi dei
diversi risultati dell’esperimento.
8
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Esempio 1 (da Orsi, 1995, pagg. 90-91):
Un amico ci propone un gioco i cui risultati possono essere A, B o C con probabilità
di realizzarsi pari, rispettivamente, a 0,1, 0,2 e 0,7. Se esce A, si vincono 20 euro,
se esce B se ne vincono 10 mentre se esce C se ne perdono 10.
Ci si chiede quale sarà il guadagno, o la perdita, che ci si deve attendere per un
numero elevato di giocate.
E chiaro che il risultato del gioco sarà dato dall’ammontare che si vince quando si presenta A o B, ognuno
moltiplicato per le rispettive probabilità, sommato all’ammontare che si perde quando si presenta C,
ponderato con la corrispondente probabilità.
Avremo dunque:
(20 × 0,1) + (10 × 0,2 ) − (10 × 0,7 )
= -3
Il gioco ha, cioè, un valore atteso negativo, e più precisamente una perdita di 3€ a partita. I 3 euro non
rappresentano l ammontare che si perde in una singola giocata ma ciò che si perderebbe in media, per
partita, se si giocasse un numero elevato di volte (infatti, nella singola giocata o si vincono 10 o 20 euro o se
ne perdono 10, ma non se ne potranno mai perdere 3). Questa somma, tuttavia, rappresenta una sintesi dei
diversi risultati del gioco, i quali portano a perdere, in media, 3 euro ogni giocata, e quindi non si avrà
interesse a giocare perché il gioco non è equo. Il valore atteso, o speranza matematica, di una v.c. X discreta
sarà quindi dato da:
n
E ( X ) = ∑ x i ⋅f ( x i )
i =1
Analogamente, il valore atteso di una v.c. continua è dato da: E
∞
( X ) = ∫ x ⋅f ( x ) dx
−∞
9
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Esempio 2 (da Orsi, 1995, pagg. 92-93):
Una slot machine dispone di due quadranti: in ogni quadrante possono
comparire 3 diversi tipi di figure: mele, campane e ciliegie. La macchina
è strutturata in modo che i due quadranti girino in modo indipendente.
Dopo aver osservato attentamente il gioco, si stabilisce che le probabilità di uscita di ogni
figura sono le seguenti:
P(Mele)=0,1 ; P(Campane)=0,4 ; P(Ciliegie)=0,5
Ogni giocata costa 1 euro. Il risultato sarà una delle 9 possibili coppie di figure, coppie che si
verificano con probabilità diverse. La macchina paga i seguenti premi:
•
•
•
•
10 euro per (mele,mele);
2 euro per (campane, campane);
1 euro per (ciliegie, ciliegie);
0 euro per ogni altro risultato.
Qual è il guadagno atteso per ogni euro giocato?
10
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Esempio 2 (da Orsi, 1995, pagg. 92-93):
Una slot machine dispone di due quadranti: in ogni quadrante possono comparire 3 diversi tipi di figure: mele,
campane e ciliegie. La macchina è strutturata in modo che i due quadranti girino in modo indipendente.
Dopo aver osservato attentamente il gioco, si stabilisce che le probabilità di uscita di ogni figura sono le seguenti:
P(Mele)=0,1 ; P(Campane)=0,4 ; P(Ciliegie)=0,5
Ogni giocata costa 1 euro. Il risultato sarà una delle 9 possibili coppie di figure, coppie che si verificano con probabilità diverse. La macchina paga i
seguenti premi:
•
•
•
•
Y
10 euro per (mele,mele);
2 euro per (campane, campane);
1 euro per (ciliegie, ciliegie);
0 euro per ogni altro risultato.
Guadagno associato
ad ogni risultato
Qual è il guadagno atteso per ogni euro giocato?
Ω
Spazio campionario
f(x)
Funzione di densità
11
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Esempio 2 (da Orsi, 1995, pagg. 92-93):
Una slot machine dispone di due quadranti: in ogni quadrante possono comparire 3 diversi tipi di figure: mele,
campane e ciliegie. La macchina è strutturata in modo che i due quadranti girino in modo indipendente.
Dopo aver osservato attentamente il gioco, si stabilisce che le probabilità di uscita di ogni figura sono le seguenti:
P(Mele)=0,1 ; P(Campane)=0,4 ; P(Ciliegie)=0,5
Ogni giocata costa 1 euro. Il risultato sarà una delle 9 possibili coppie di figure, coppie che si verificano con probabilità diverse. La macchina paga i
seguenti premi:
10 euro per (mele,mele);
2 euro per (campane, campane);
1 euro per (ciliegie, ciliegie);
0 euro per ogni altro risultato.
•
•
•
•
Y
Guadagno associato
ad ogni risultato
Risultato
(mele,mele)
Qual è il guadagno atteso per ogni euro giocato?
Ω
Spazio campionario
(camp.,camp.)
(cil.,cil.)
f(x)
Funzione di densità
(altro)
Guadagno
+9€
+1€
0€
-1€
Probabilità
0,01
0,16
0,25
0,58
Il guadagno atteso per ogni giocata sarà dunque:
E (Y ) = ( 9 × 0,01) + (1× 0,16 ) + ( 0 × 0,25 ) − (1× 0,58 ) = 0,09 + 0,16 + 0 − 0,58 = -0,33€
12
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Esempio 2 (da Orsi, 1995, pagg. 92-93):
Una slot machine dispone di due quadranti: in ogni quadrante possono comparire 3 diversi tipi di figure: mele,
campane e ciliegie. La macchina è strutturata in modo che i due quadranti girino in modo indipendente.
Dopo aver osservato attentamente il gioco, si stabilisce che le probabilità di uscita di ogni figura sono le seguenti:
P(Mele)=0,1 ; P(Campane)=0,4 ; P(Ciliegie)=0,5
Ogni giocata costa 1 euro. Il risultato sarà una delle 9 possibili coppie di figure, coppie che si verificano con probabilità diverse. La macchina paga i
seguenti premi:
•
•
•
•
Y!
10 euro per (mele,mele);
2 euro per (campane, campane);
1 euro per (ciliegie, ciliegie);
0 euro per ogni altro risultato.
Guadagno associato
ad ogni risultato!
Risultato
(mele,mele)
Ω!
(camp.,camp.)
Qual è il guadagno atteso per ogni euro giocato?
Spazio campionario!
(cil.,cil.)
(altro)
Guadagno
+9€
+1€
0€
-1€
Probabilità
0,01
0,16
0,25
0,58
f(x)!
Funzione di densità!
Il guadagno atteso per ogni giocata sarà dunque:
E (Y ) = ( 9 × 0,01) + (1× 0,16 ) + ( 0 × 0,25 ) − (1× 0,58 )
= 0,09 + 0,16 + 0 − 0,58 = -0,33€
Il guadagno atteso è un valore negativo, quindi una perdita: per ogni euro giocato si perdono, in media,
33 centesimi, per cui per 100 giocate ci aspettiamo di perdere 33 euro.
Commento: Ancora una volta va precisato che la perdita di 0,33 euro per ogni euro giocato è quello che ci si
attende in media per un numero elevato di prove. Questo valore dà, cioè, una indicazione sul meccanismo del
gioco, in questo caso un gioco non equo poiché tende a produrre un guadagno sistematico per la macchina,
pagando un premio non proporzionale alla posta pagata ma inferiore. Questo non vuol dire che non si possa
vincere! Se ciò accade, però, è da considerarsi un evento fortuito, e si ha interesse ad abbandonare il gioco,
13
poiché tale gioco, alla lunga, tende a causare una perdita pari a 1/3 della somma pagata.
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Esempio 3
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede
l assegnazione di 1 punto per ogni risposta esatta, di –0,2 punti per ogni
risposta sbagliata e di 0 punti in caso di mancata risposta.
1. Nel caso di una domanda di cui si ignori la risposta, conviene rischiare nel rispondere in modo
casuale oppure no?
2. Qual è il punteggio atteso di un candidato che risponda a tutte le 80 domande in modo casuale?
3. Come dovrebbe essere strutturato il test affinché fosse perfettamente equo (e cioè tale da
non favorire né danneggiare lo studente)?
14
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Esempio 3
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede
l assegnazione di 1 punto per ogni risposta esatta, di –0,2 punti per ogni
risposta sbagliata e di 0 punti in caso di mancata risposta.
1. Nel caso di una domanda di cui si ignori la risposta, conviene rischiare nel rispondere in
modo casuale oppure no?
2. Qual è il punteggio atteso di un candidato che risponda a tutte le 80 domande in modo casuale?
3. Come dovrebbe essere strutturato il test affinché fosse perfettamente equo (e cioè tale da
non favorire né danneggiare lo studente)?
Soluzione
1. Conviene rischiare se il valore atteso del punteggio alla domanda è positivo, non conviene
se è negativo, è indifferente se è nullo.
E (Y ) = (1× 0,2 ) + ( −0,2 × 0,8 ) = 0,2 − 0,16 = 0,04
In questo caso,
conviene rischiare!
15
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Esempio 3
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede
l assegnazione di 1 punto per ogni risposta esatta, di –0,2 punti per ogni
risposta sbagliata e di 0 punti in caso di mancata risposta.
1. Nel caso di una domanda di cui si ignori la risposta, conviene rischiare nel rispondere in modo
casuale oppure no?
2. Qual è il punteggio atteso di un candidato che risponda a tutte le 80 domande in modo casuale?
3. Come dovrebbe essere strutturato il test affinché fosse perfettamente equo (e cioè tale da
non favorire né danneggiare lo studente)?
Soluzione
2. Poiché a tutte le domande si applica lo stesso criterio, il punteggio è dato dal
valore atteso del punteggio alla singola domanda moltiplicato per il numero di
domande.
E (Y ) = 0,04 × 80 = 3,2
16
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Esempio 3
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede
l assegnazione di 1 punto per ogni risposta esatta, di –0,2 punti per ogni
risposta sbagliata e di 0 punti in caso di mancata risposta.
1. Nel caso di una domanda di cui si ignori la risposta, conviene rischiare nel rispondere in modo
casuale oppure no?
2. Qual è il punteggio atteso di un candidato che risponda a tutte le 80 domande in modo casuale?
3. Come dovrebbe essere strutturato il test affinché fosse perfettamente equo (e cioè tale
da non favorire né danneggiare lo studente)?
Soluzione
3. Il test dovrebbe essere strutturato in modo che il valore atteso del punteggio
alla singola risposta risulti pari a zero. Questo avviene se, nel nostro esempio, ad
ogni risposta sbagliata viene assegnato un punteggio negativo pari a -0,25.
E (Y ) = (1× 0,2 ) + ( −0,25 × 0,8 ) = 0,2 − 0,2 = 0,0
17
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
A proposito di giochi equi…
Rosso e Nero alla Roulette
P (Rosso ) = P (Nero ) =
18
37
C è anche lo zero che è verde!
Il valore atteso della vincita (V) su uno dei due colori (R/N), per una puntata di 1 euro
è dunque:
⎛ 18 ⎞ ⎛ 18 + 1⎞ = 0,486 − 0,514 = -0,028
E (V ) = ⎜ 1× ⎟ − ⎜ 1×
⎟
⎝ 37 ⎠ ⎝
37 ⎠
18
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
A proposito di giochi equi…
L ambo (e il terno, la quaterna…) al gioco del lotto
5
4
×
= 0,00250 (su una singola ruota)
P ( Ambo ) =
90 89
Quindi, su diecimila giocate, ci si aspetta di vincere 25 volte, cioè 1 volta su 400.
In caso di vincita sulla singola ruota, il banco paga (al netto delle ritenute del 3%)
circa 243 volte la posta, quindi se ho puntato un euro ne vinco 243 (compreso quello
che ho puntato).
Il valore atteso della vincita (V) per una puntata di 1 euro è dunque:
1 ⎞ ⎛ 399 ⎞
⎛
= 0,6050 − 0,9975 = −0,3925
E (V ) = ⎜ 242 ×
− ⎜ 1×
⎟
⎟
⎝
400 ⎠ ⎝ 400 ⎠
In pratica, se centomila persone giocano sull ambo, puntando ciascuno 1 euro, il
guadagno previsto dal banco è di oltre 39mila euro.
19
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
A proposito di giochi equi…
Lotto
Probabilità (1)
1
Ambo
Vincita
(€)
Valore
atteso
0.002500000
1
242
-0.3925
11.748
0.000085121
1
4,123
-0.6490
511.038
0.000001957
1
77,600
-0.8482
43.949.268
0.000000023
1
970,000
-0.9779
Probabilità (2)
Puntata
(€)
Vincita media
(€) (vedi Nota)
1
1
Quaterna
1
Puntata
(€)
400
Terno
Cinquina
Probabilità (2)
Superenalotto
Probabilità (1)
1
3 punti
Valore
atteso
327
0,003058104
1
40
-0,8746
11.907
0,000083984
1
700
-0,9411
1.250.230
0,000000800
1
110.000
-0,9120
103.769.105
0,000000010
1
1.600.000
-0,9846
622.614.630
0,000000002
1
150.000.000
-0,7591
1
4
1
5
5+1
1
6
1
20
N.B. – La puntata minima al superenalotto è di 1 euro, che consente, però, di giocare due quadri di numeri. L importo medio delle
vincite delle varie categorie è stato dunque moltiplicato per 2.
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Le variabili casuali
Esercizio
Un’organizzazione caritatevole indice una lotteria con i seguenti premi:
• Un premio da 500 €
• Cinque premi da 100€
• Cinquanta premi da 50€
Si stabilisce di vendere 5.000 biglietti e che il profitto, da destinare ad azioni benefiche, sarà ottenuto
ponendo il prezzo del biglietto pari a tre volte il prezzo equo.
Quale sarà il prezzo del biglietto?
21
U niversità di N apoli Federico II,
DISES, A.a. 2016- 17, Corso di Statistica (clec, cleif A-K)
Lezione L14 – Le variabili casuali
m. gherghi
Le variabili casuali
Esercizio
Un agente assicurativo vende ad una donna di 35 anni una polizza sulla vita
di 10.000€, con un premio annuo di 130€.
Sapendo che il tasso di mortalità delle donne tra i 35 e i 36 anni è di 3/1.000,
quanto si aspetta di guadagnare la Compagnia nel primo anno di contratto di questa polizza?
22