13/04/2015
Calcolo delle probabilità
Il problema di Monty Hill nel film 21
Elementare!! Statistiche, cambio di variabili….
1
13/04/2015
Probabilità
Il coefficiente di correlazione tra Indice e Stipendio vale 0,94. E’ possibile asserire che la
relazione tra X e Y è lineare, ad esempio, al 100%? Oppure c’è un margine di errore del 5%?
X
1,6
2
3,5
3
3,2
4
Y
1000
1500
2000
2100
2400
3000
La probabilità è il grado di fiducia che si ripone in un evento che può accadere
nel futuro.
Definizioni di probabilità:
Classica: la probabilità di un evento è il rapporto tra il numero di
casi favorevoli e il numero di casi possibili (equiprobabili –
tautologia) .
Soggettiva: la probabilità è il grado di fiducia che una persona
ripone in un certo evento.
Empirica: la probabilità di un evento è il rapporto tra il numero di
volte in cui l’evento si è verificato, nelle prove effettuate, e il numero
delle prove effettuate.
Sostenitori della definizione frequentista
Buffon (1707-1788)
Lanciò una moneta 4040
volte= 2.048 C e 1.992 T
Pearson (1857-1936)
Lanciò una moneta 24000
volte= 12.012 T e 11.998C
Perci Diaconis (1945)
2
13/04/2015
Sulla definizione frequentista
% di volte in cui si verifica testa
nel lancio n volte di una moneta
equa (frequenza relativa).
TCTTCCTTTC
n=10
n=100
n=1000
Simulazione al computer
del lancio di una moneta
Esperimento casuale
Ogni singola esecuzione dell’esperimento dà luogo ad un risultato non prevedibile.
Selezionare una persona da un collettivo per misurare una sua
caratteristica
Effettuare la misurazione di una grandezza fisica
Esito: un particolare risultato dell’esperimento
Lancio del dado
Lancio moneta
Estrazioni del lotto
Evento: un insieme di risultati dell’esperimento.
«Numeri pari estrazioni del lotto»
«Persone di altezza tra 1,5 e 2,0 metri»
«Reddito tra 10.000 e 20.000 euro»
«Almeno due teste nel lancio di una moneta tre volte»
3
13/04/2015
Come si calcola la probabilità di un evento?
Esperimento casuale: lancio di un dado.
Evento: uscita di un numero pari
| |
| |
1,2,3,4,5,6
Casi possibili:
2,4,6
Casi favorevoli:
3
6
Esperimento casuale: selezione di una persona con peso tra (50;60]
da un collettivo così suddiviso:
Peso
Freq.
15
| | 15
Ass.
68
| | 68
[40;50]
10
Esperimento casuale: all’indagine effettuata presso il
(50;60]
15
Liceo Galilei, hanno partecipato 163 studenti di cui 91 Maschi.
Scelto a caso un questionario, qual è la probabilità che sia stato
compilato da un maschio?
(60;70]
23
(70;80]
12
(80;90]
8
| |
| |
91
163
91
163
Regole del calcolo delle probabilità
Unione di eventi disgiunti:
Complementare di eventi:
A
A
B
Esempio: Una macchina per la produzione di buste di vegetali contiene un mix di fagioli,
broccoli e altri vegetali. La maggior parte dei prodotti è imbustata correttamente, ma a
causa della variazione della taglia dei vegetali la busta può essere sovrappeso o sottopeso.
Un controllo su 4000 buste ha riportato le seguenti valutazioni:
Peso
No. Di pacchi
100
A
3.600
B
300
C
Sottopeso
Soddisfacente
Peso
Sovrappeso
Qual è la probabilità che una busta scelta a
caso tra le 4000 non soddisfi le specifiche richieste?
100 300
4000
Qual è la probabilità che
selezionata non sia sottopeso?
1
1
la
busta
100
4000
4
13/04/2015
Il problema di Monty Hill nel film 21
Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre
valutazioni probabilistiche?
Il testardo:
:
Vuoi cambiare?
nodo
decisionale
Il problema di Monty Hill nel film 21
Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre
valutazioni probabilistiche?
Il testardo:
:
1 33%=perdi
nodo
decisionale
Primo scenario
5
13/04/2015
Il problema di Monty Hill nel film 21
Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre
valutazioni probabilistiche?
Il testardo:
:
1 33%=perdi
3
nodo
decisionale
33%=perdi
Secondo scenario
Il problema di Monty Hill nel film 21
Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre
valutazioni probabilistiche?
Il testardo:
:
1 33%=perdi
nodo
decisionale
3
33%=perdi
33%=vinci
Terzo scenario
6
13/04/2015
Il problema di Monty Hill nel film 21
Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre
valutazioni probabilistiche?
Non sei testardo:
:
1! 2 33%=Vinci
nodo
decisionale
Primo scenario
Il problema di Monty Hill nel film 21
Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre
valutazioni probabilistiche?
Non sei testardo:
:
1! 2 33%=Vinci
3! 2 33%=Vinci
nodo
decisionale
Secondo scenario
7
13/04/2015
Il problema di Monty Hill nel film 21
Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre
valutazioni probabilistiche?
:
Non sei testardo:
1! 2 33%=Vinci
3! 2 33%=Vinci
2! 1
nodo
decisionale
Terzo scenario
33%=Perdi
1! 2
Regole del calcolo delle probabilità
Unione di eventi:
A
B
Probabilità congiunta
Esempio: Riprendendo l’esempio del questionario degli studenti del liceo Galilei , scelto un
questionario a caso determinare la probabilità che lo studente che ha risposto sia maschio
oppure porta gli occhiali.
Occhiali
*
"#$%&
"#$%&
91
163
Genere
Occhiali NO
Occhiali SI
Maschi
62
29
Femmine
31
41
%&
è&
%&
*
è&
70
163
∩*
!(
!(
$ $
& ) "
!% &
)%!
+( ) ("
29
163
8
13/04/2015
Probabilità condizionata
Si lancino due dadi distinguibili.
!! % Casi possibili:
Evento: «uscita di una coppia di
risultati la cui somma è 8»
Casi favorevoli:
A= 2,6 ; 3,5 ; 4,4 ; 5,3 ; 6,2
| |
| |
5
36
Se un dado, ad esempio quello bianco, si ferma prima di quello rosso e mostra la faccia 5,
qual è ora la probabilità di totalizzare 8?
6
L’insieme dei casi possibili è ora cambiato.
1
6
=1
Anche l’insieme dei casi favorevoli è cambiato.
L’evento «il dado bianco mostra la faccia 5» condiziona l’evento «uscita di una coppia di risultati
la cui somma è 8».
Si definisce probabilità condizionata di un evento A dato l’evento B il seguente
rapporto:
Regola della moltiplicazione:
∩*
*
∩*
|* /*0
/*0
Quando si verifica l’evento B,
l’insieme dei casi possibili si riduce
→*
*∩
L’evento A si riduce
→
*
*
∩*
A
B
∩*
/*0
∩*
1
36
6
36
* = nuovo spazio campione
9
13/04/2015
Esempio: Una azienda decide di effettuare un sondaggio circa la fedeltà dei propri dipendenti.
Ad un campione casuale viene chiesto cosa sceglierebbe se un’altra compagnia proponesse
un impiego di pari guadagno o leggermente superiore. L’intento della azienda è capire se la
risposta dipende dal numero di anni di servizio maturati.
< 1 anno
Da 1 a 5 anni
Da 6 a 10 anni
> 10 anni
Totale
Rimangono
10
30
5
75
120
Vanno via
25
15
10
30
80
Totale
35
45
15
105
200
102
120
Meno di 1 anno
Da 1 a 5 anni
Rimangono
1202
200
802
200
Vanno via
302
120
Da 6 a 10 anni
Più di 10 anni
=P(«1 a 5 anni»| «Rimangono»)
52
120
752
120
Meno di 1 anno
Da 1 a 5 anni
=P(«< 1anno»| «Rimangono»)
=P(«6 a 10 anni»| «Rimangono»)
=P(« >10 anni»| «Rimangono»)
252
80
152
80
Da 6 a 10 anni
Più di 10 anni
102
80
302
80
Regola della moltiplicazione
∩*
|*
/*0
Meno di 1 anno P(«< 1anno»| «Rimangono»)
P(«Rimangono»)
Da 1 a 5 anni P(«1 a 5 anni»| «Rimangono»)
Da 6 a 10 anni
P(«6 a 10 anni»| «Rimangono»)
Più di 10 anni P(« >10 anni»| «Rimangono»)
Meno di 1 anno
Da 1 a 5 anni
P(«Vanno via»)
Da 6 a 10 anni
Più di 10 anni
P(« >10 anni»| «Rimangono») 3 P(«Rimangono») = P(«> 10 anni»∩ «Rimangono»)
P(«Rimangono»|« >10 anni») 3 P(«> 10 anni») = P(«Rimangono» ∩ «> 10 anni»)
Verifica:
10
13/04/2015
∩*
|*
Da 6 a 10 anni
> 10 anni
Totale
Regola della moltiplicazione
< 1 anno
Da 1 a 5 anni
Rimangono
10
30
5
75
120
Vanno via
25
15
10
30
80
Totale
35
45
15
105
200
/*0
P(« >10 anni»| «Rimangono») 3 P(«Rimangono») = P(«> 10 anni»∩ «Rimangono»)
P(«Rimangono»|« >10 anni») 3 P(«> 10 anni») = P(«Rimangono» ∩ «> 10 anni»)
Verifica:
P(« >10 anni»| «Rimangono»)
P(«Rimangono») =
4
44
102
120
Da 1 a 5 anni
302
120
Da 6 a 10 anni
1202
200
52
120
> 10 anni
752
120
< 1 anno
252
80
Da 1 a 5 anni
Vanno via
802
200
Da 6 a 10 anni
> 10 anni
152
80
102
80
302
80
Fedeltà all'azienda
Restano
45
44
P(«> 10 anni») =
P(«Rimangono»|« >10 anni») =
<1 anno
Rimangono
75
120
4
4
3
=
4
44
?4
3
4
5
3
4
65
3
4
4
=
44
4
=
44
4
=
44
65
45
/"rimangono" ∩ ">1anno"0
/"rimangono" ∩ "da1a5"0
/"rimangono" ∩ "da6a10"0
/"rimangono" ∩ "A10anni"0
0,05
0,15
0,03
Vanno via
0,375
0,125
0,05
< 1 anno
0,15
0,075
1 - 5 anni
0,15
0,38
0,05
0,025
6 - 10 anni
> 10 anni
0,6
0,4
11
13/04/2015
Il problema inverso
Se si conoscono le probabilità sui singoli rami…
Rimangono 0,286
<1 anno
Vanno via 0,714
0,175
Rimangono 0,667
0,225
Da 1 a 5 anni
0,075
Vanno via 0,333
Rimangono 0,333
Da 6 a 10 anni
0,525
> 10 anni
Vanno via 0,667
Rimangono 0,71
0,05
Vanno via 0,29
0,15
… calcolare la probabilità che un impiegato scelto a caso, abbia risposto che rimane nell’
azienda.
0,333
<1 anno
Da 6 a 10 anni
0,286
Prob. che avrebbre
questo evento se
0,71
lo spazio campione
fosse
0,667
> 10 anni
Da 1 a 5 anni
l’insieme rosso
Il problema inverso
Se si conoscono le probabilità sui singoli rami…
Rimangono 0,286
<1 anno
Vanno via 0,714
0,175
Rimangono 0,667
0,225
Da 1 a 5 anni
0,075
Vanno via 0,333
Rimangono 0,333
Da 6 a 10 anni
0,525
> 10 anni
Vanno via 0,667
Rimangono 0,71
0,05
Vanno via 0,29
0,15
… calcolare la probabilità che un impiegato scelto a caso, abbia risposto che rimane nell’
azienda.
"rimangono"
0,286 3 0,175
"rimangono" >"1anno" 3 /">1anno"0 +
"rimangono" >" 1 5
" 3 /" 1 5
"0 +
"rimangono" >" 6 10
" 3 /" 6 10
"0 +
"rimangono" >"A10anni" 3 /" A 10
"0
0,667 3 0,225
0,333 3 0,075
0,71 3 0,525= 0,59 12
13/04/2015
Teorema delle alternative
Assegnati n eventi * , * , … , *C tali che ∪E *E
e *E ∩ *F
H
|*E
E
∅ risulta
*E
Media pesata delle0,15
probabilità condizionate
*
*
*?
∩ *E
|*E
*E
*I
"rimangono"
0,286 3 0,175
"rimangono" >"1anno" 3 /">1anno"0 +
"rimangono" >" 1 5
" 3 /" 1 5
"0 +
"rimangono" >" 6 10
" 3 /" 6 10
"0 +
"rimangono" >"A10anni" 3 /" A 10
"0
0,667 3 0,225
0,333 3 0,075
0,71 3 0,525= 0,59 Eventi indipendenti
|*
Due eventi A e B si dicono indipendenti se
Esempio: Da una scatola di 10 pellicole fotografiche vengono estratte 2 pellicole a caso.
Qual è la probabilità che entrambe siano difettose, sapendo che nella scatola ci sono 3
pellicole difettose?
J
"!
!%((
J
( %&
L%
"&%
!%((
& "
( %&
J ∩J
L%
J |J
J
& "
= ×
K
?
4
Esempio: Da una scatola di 100 pellicole fotografiche vengono estratte 2 pellicole a caso.
Qual è la probabilità che entrambe siano difettose, sapendo che nella scatola ci sono 3 pellicole difettose?
Cosa cambia nella risposta rispetto al caso precedente?
J ∩J
J |J
J
0,03 3 0,03
Indipendenza stocastica: lancio di due monete,
lancio di due dadi, etc…
Indipendenza statistica: quando si effettuano
estrazioni da un collettivo molto numeroso
13
13/04/2015
Se ad ogni estrazione, la pallina viene rimessa nell’urna la
composizione dell’urna non cambia
Popolazione infinita
Eventi indipendenti
Se ad ogni estrazione, la pallina non viene rimessa nell’urna la composizione dell’urna
cambia e dopo 90 estrazioni, il procedimento termina.
Popolazione finita
L’esito di ogni estrazione dipende da quelli precedenti.
Eventi dipendenti
M
M
1
M
+( %(( ! ! ( N
+( %(
!
%
%
Fattore di correzione da una popolazione finita.
Se il fattore di correzione è circa 1, allora le due estrazioni possono ritenersi equivalenti e
l’indipendenza è spesso usata per calcolare probabilità congiunte.
Esempio: Da un’urna contenente 10 palline rosse e 5 blue, si estraggono tre palline.
Qual è la probabilità che tutte e tre le palline estratte siano rosse?
/J ∩ J ∩ J? )
Estrazione con reimmissione
= /J ) /J )
J? =0,5×0,5×0,5
J ∩ J ∩ J?
*
42
14
52
15
102
15
*
J
102
14
52
14
92
14
J
*
J
Estrazione senza reimmissione
3 4 5
J? |J ∩ J
J |J (J )
3 3
8 9 10
*?
*?
J?
*?
J?
J?
42
13
92
13
32
13
102
13
*?
92
13
J?
42
13
52
13
Qual è la probabilità che
alla terza estrazione, la
pallina sia rossa?
82
13
14
13/04/2015
Teorema di Bayes
«A partire da una serie di dati già in nostro
possesso possiamo formulare un’ipotesi;
collezionando sempre nuovi dati possiamo
continuamente aumentare (o rivedere) il
grado di bontà delle nostre ipotesi»
Reverendo Thomas Bayes (1750)
Logico e teologo
Teorema di Bayes
La percentuale di studenti iscritti al secondo anno di economia che frequenta il corso di statistica è 90%. Tra questi, il 90% supera l’esame. Supponendo inoltre che la percentuale di studenti che non supera l’esame tra quelli che non frequentano è del 12% si calcoli:
a) qual è la % di studenti che non supera l’esame tra quelli che frequentano il corso;
b) qual è la % di studenti che non frequentano, tra quelli che si ipotizza non superanno l’esame.
90% Supera l’esame
0 *
0,10
90%
10% Non supera l’esame
Frequenta
*
88% Supera l’esame
∩*
10%
/*0
Non
12% Non supera l’esame
frequenta
P Q R P/R0
?
*
*
& $ % %& %( & & $ % %& %( *
&$!%
& L %#$%
*
(O %&
(
&
=
%
∪
*
*
*
∩
/ 0
*
P/Q0
∅
4, 434,K4
4, 434,K4S4, 34, 4
=
15
13/04/2015
Un po’ di terminologia
Il teorema di Bayes noto l’effetto B, valuta la probabilità che la causa sia stata A.
/ 0
*
probabilità a priori (o verosimiglianza)
La probabilità dell’evento A senza conoscere l’effetto B
probabilità aposteriori
La probabilità dell’evento A avendo riconosciuto l’effetto B
/*0
Costante di normalizzazione
Applicazioni di metodi bayesiani:
filtri anti-spamming
medicina e biologia
ingegneria
finanza
scienza forense
intelligenza artificiale: reti bayesiane (presenti in Windows dalla versione 98)
motori di ricerca: Google «We can’t hire smart people fast enough»
Il punto di vista frequentista
Il punto di vista bayesiano
La probabilità si calcola sul lungo periodo
La probabilità è un grado di fiducia
C’è un modello vero che genera i dati e i
dati ne sono una rappresentazione
I dati sono veri/fissati.
I modelli hanno delle probabilità.
E’ possibile calcolare la probabilità che i
dati si verifichino in base al modello che si
ritiene vero
E’ possibile calcolare la probabilità di un
modello (ipotesi) in base ai dati osservati
Ogni esperimento va fatto in condizioni di
non conoscenza del modello vero
Le probabilità possono essere aggiornate
via via che si acquisiscono i dati
16
13/04/2015
Teorema di Bayes
Si assuma di aver selezionato un impiegato a caso, e che questo impiegato ha risposto che
rimarrebbe comunque in azienda. Qual è la probabilità che lavori in quella azienda da 6 a
10 anni?
0,286
0,175
0,333
<1 anno
Da 6 a 10 anni
0,075
0,71
0,667
> 10 anni
Da 1 a 5 anni
0,225
Bisogna calcolare
0,525
"da6a10anni" "rimangono"
?
"rimangono" "da6a10anni" = 0,333
Si conosce
"da6a10anni"
0,286
P "TUVU 4UCCE"∩"WEXUCYZCZ"
"da6a10anni" "rimangono" =
P/"WEXUCYZCZ"0
Calcolata
precedentemente
P "rimangono" "da6a10anni" P("da6a10anni") 4,???34, [V
=
=
P/"rimangono"0
4,5K
Teorema di Bayes
Si ha la seguente situazione:
- l'1% della popolazione ha una certa malattia rara;
- un test diagnostico rivela la presenza della malattia all'80% (sensibilità);
- il test diagnostico ha il 90,4% di specificità (negativo su pazienti sani).
Supponiamo di essere risultati positivi al test. Qual è la probabilità che siamo malati?
Test positivo 0,80
M
S
(
%& ! &
%& ! &
\
0,01
Test negativo 0,20
Test positivo 0,096
0,99
Test negativo 0,904
%& ! &
\ 0
%& ! &
\ (
0
\
(
/
/ %& ! & \ 0
(
(
%& ! &
0
\ &
0
&
= 0,80×0,01+ 0,096×0,99 = 0,008 + 0,09504
(
%& ! &
\ 0
4,[434,4
4, 4?4I
=0,07764
17
13/04/2015
Più in generale, indicata con ! la percentuale di malati (prevalenza), si ottiene:
(
%& ! &
\ 0
0,80 3 !
0,80 3 !
0,096 3 /1
(
0,8
0,7
!0
%& ! &
\ 0
A volte è sufficiente stabilire
delle semplici disuguaglianze.
0,6
0,5
0,4
0,3
Per quale livello di prevalenza della malattia
la probabilità finale
0,2
0,1
(
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,1
0,11
0,12
0,13
0,14
0,15
0,16
0,17
0,18
0,19
0,2
0,21
0,22
0,23
0,24
0,25
0
0,80 3 !
0,096 3 /1
!0
\ 0
risulterà maggiore di una certa soglia?
!
0,80 3 !
%& ! &
A 0,5
!A
0,048
0,448
0,11
Il problema di Monty Hill nel film 21
M
Cambi
Non Cambi
Vinci
2
1
3
Non Vinci
1
2
3
Totale
3
3
6
Porta 1 = Non vinci
Porta 2 = Vinci
Porta 3 = Non vinci
nodo
decisionale
]
Porta 1 = Vinci
^
Porta 2 = Non vinci
C
\
Porta 3 = Vinci
Cambi
Non cambi
^⋂]
^
Non Vinci
^ ⋂]
^ ⋂]
^
]
]
^]
]
^]
Cambi
Non cambi
Totale
Vinci
33%
17%
50%
Non Vinci
17%
33%
50%
Totale
50%
50%
100%
Totale
^⋂]
^
\
Distribuzione congiunta
Vinci
Totale
^
]
Totale
Distribuzione condizionata
/] 0
Cambi
Non cambi
Vinci
0,33/0,5×100=66%
0,17/0,5×100=34%
0,17/0,5×100=34%
0,33/0,5×100=66%
100%
100%
Cambi
Non Cambi
Vinci
^|]
^|]
Non Vinci
Non Vinci
^ |]
^ |]
Totale
18
13/04/2015
^
^]
]
^]
Distribuzione condizionata
/] 0
Cambi
Non cambi
Se decidi di cambiare lanciando una
moneta (onesta)…
Vinci
0,33/0,5×100=66%
0,17/0,5×100=34%
Non Vinci
0,17/0,5×100=34%
0,33/0,5×100=66%
Posto !
Totale
100%
100%
/]0 e `
`
/^0 si ha
0,66 3 !
0,34 3 1
!
0,32 3 !
0,34
0,7
`
/^0
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,1
0,2
0,3
0,4
!
0,5
0,6
0,7
0,8
0,9
1
/]0
Il problema di Monty Hill(Altro punto di vista)
M1=
)
%
!
1
M2=
)
%
!
2
)
M3=
a1
*
& %+( ( !
1% (! %&%
%
a2
% ! %!
!
a3
3
3
1/3
*
0,5
Può aprire una delle due porte
non scelte da te
* a1
0,5
* a2
1
* a3
/a1|*0
/a2|*0
* a1 /a10
/*0
4,534,???
4,5
P Q c P/c 0
34,???
=
P/Q0
4,5
0,66
0
0,34
Conviene cambiare….
19