13/04/2015 Calcolo delle probabilità Il problema di Monty Hill nel film 21 Elementare!! Statistiche, cambio di variabili…. 1 13/04/2015 Probabilità Il coefficiente di correlazione tra Indice e Stipendio vale 0,94. E’ possibile asserire che la relazione tra X e Y è lineare, ad esempio, al 100%? Oppure c’è un margine di errore del 5%? X 1,6 2 3,5 3 3,2 4 Y 1000 1500 2000 2100 2400 3000 La probabilità è il grado di fiducia che si ripone in un evento che può accadere nel futuro. Definizioni di probabilità: Classica: la probabilità di un evento è il rapporto tra il numero di casi favorevoli e il numero di casi possibili (equiprobabili – tautologia) . Soggettiva: la probabilità è il grado di fiducia che una persona ripone in un certo evento. Empirica: la probabilità di un evento è il rapporto tra il numero di volte in cui l’evento si è verificato, nelle prove effettuate, e il numero delle prove effettuate. Sostenitori della definizione frequentista Buffon (1707-1788) Lanciò una moneta 4040 volte= 2.048 C e 1.992 T Pearson (1857-1936) Lanciò una moneta 24000 volte= 12.012 T e 11.998C Perci Diaconis (1945) 2 13/04/2015 Sulla definizione frequentista % di volte in cui si verifica testa nel lancio n volte di una moneta equa (frequenza relativa). TCTTCCTTTC n=10 n=100 n=1000 Simulazione al computer del lancio di una moneta Esperimento casuale Ogni singola esecuzione dell’esperimento dà luogo ad un risultato non prevedibile. Selezionare una persona da un collettivo per misurare una sua caratteristica Effettuare la misurazione di una grandezza fisica Esito: un particolare risultato dell’esperimento Lancio del dado Lancio moneta Estrazioni del lotto Evento: un insieme di risultati dell’esperimento. «Numeri pari estrazioni del lotto» «Persone di altezza tra 1,5 e 2,0 metri» «Reddito tra 10.000 e 20.000 euro» «Almeno due teste nel lancio di una moneta tre volte» 3 13/04/2015 Come si calcola la probabilità di un evento? Esperimento casuale: lancio di un dado. Evento: uscita di un numero pari | | | | 1,2,3,4,5,6 Casi possibili: 2,4,6 Casi favorevoli: 3 6 Esperimento casuale: selezione di una persona con peso tra (50;60] da un collettivo così suddiviso: Peso Freq. 15 | | 15 Ass. 68 | | 68 [40;50] 10 Esperimento casuale: all’indagine effettuata presso il (50;60] 15 Liceo Galilei, hanno partecipato 163 studenti di cui 91 Maschi. Scelto a caso un questionario, qual è la probabilità che sia stato compilato da un maschio? (60;70] 23 (70;80] 12 (80;90] 8 | | | | 91 163 91 163 Regole del calcolo delle probabilità Unione di eventi disgiunti: Complementare di eventi: A A B Esempio: Una macchina per la produzione di buste di vegetali contiene un mix di fagioli, broccoli e altri vegetali. La maggior parte dei prodotti è imbustata correttamente, ma a causa della variazione della taglia dei vegetali la busta può essere sovrappeso o sottopeso. Un controllo su 4000 buste ha riportato le seguenti valutazioni: Peso No. Di pacchi 100 A 3.600 B 300 C Sottopeso Soddisfacente Peso Sovrappeso Qual è la probabilità che una busta scelta a caso tra le 4000 non soddisfi le specifiche richieste? 100 300 4000 Qual è la probabilità che selezionata non sia sottopeso? 1 1 la busta 100 4000 4 13/04/2015 Il problema di Monty Hill nel film 21 Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre valutazioni probabilistiche? Il testardo: : Vuoi cambiare? nodo decisionale Il problema di Monty Hill nel film 21 Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre valutazioni probabilistiche? Il testardo: : 1 33%=perdi nodo decisionale Primo scenario 5 13/04/2015 Il problema di Monty Hill nel film 21 Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre valutazioni probabilistiche? Il testardo: : 1 33%=perdi 3 nodo decisionale 33%=perdi Secondo scenario Il problema di Monty Hill nel film 21 Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre valutazioni probabilistiche? Il testardo: : 1 33%=perdi nodo decisionale 3 33%=perdi 33%=vinci Terzo scenario 6 13/04/2015 Il problema di Monty Hill nel film 21 Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre valutazioni probabilistiche? Non sei testardo: : 1! 2 33%=Vinci nodo decisionale Primo scenario Il problema di Monty Hill nel film 21 Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre valutazioni probabilistiche? Non sei testardo: : 1! 2 33%=Vinci 3! 2 33%=Vinci nodo decisionale Secondo scenario 7 13/04/2015 Il problema di Monty Hill nel film 21 Se e quanto l’acquisizione di informazioni sull’esperimento modifica le nostre valutazioni probabilistiche? : Non sei testardo: 1! 2 33%=Vinci 3! 2 33%=Vinci 2! 1 nodo decisionale Terzo scenario 33%=Perdi 1! 2 Regole del calcolo delle probabilità Unione di eventi: A B Probabilità congiunta Esempio: Riprendendo l’esempio del questionario degli studenti del liceo Galilei , scelto un questionario a caso determinare la probabilità che lo studente che ha risposto sia maschio oppure porta gli occhiali. Occhiali * "#$%& "#$%& 91 163 Genere Occhiali NO Occhiali SI Maschi 62 29 Femmine 31 41 %& è& %& * è& 70 163 ∩* !( !( $ $ & ) " !% & )%! +( ) (" 29 163 8 13/04/2015 Probabilità condizionata Si lancino due dadi distinguibili. !! % Casi possibili: Evento: «uscita di una coppia di risultati la cui somma è 8» Casi favorevoli: A= 2,6 ; 3,5 ; 4,4 ; 5,3 ; 6,2 | | | | 5 36 Se un dado, ad esempio quello bianco, si ferma prima di quello rosso e mostra la faccia 5, qual è ora la probabilità di totalizzare 8? 6 L’insieme dei casi possibili è ora cambiato. 1 6 =1 Anche l’insieme dei casi favorevoli è cambiato. L’evento «il dado bianco mostra la faccia 5» condiziona l’evento «uscita di una coppia di risultati la cui somma è 8». Si definisce probabilità condizionata di un evento A dato l’evento B il seguente rapporto: Regola della moltiplicazione: ∩* * ∩* |* /*0 /*0 Quando si verifica l’evento B, l’insieme dei casi possibili si riduce →* *∩ L’evento A si riduce → * * ∩* A B ∩* /*0 ∩* 1 36 6 36 * = nuovo spazio campione 9 13/04/2015 Esempio: Una azienda decide di effettuare un sondaggio circa la fedeltà dei propri dipendenti. Ad un campione casuale viene chiesto cosa sceglierebbe se un’altra compagnia proponesse un impiego di pari guadagno o leggermente superiore. L’intento della azienda è capire se la risposta dipende dal numero di anni di servizio maturati. < 1 anno Da 1 a 5 anni Da 6 a 10 anni > 10 anni Totale Rimangono 10 30 5 75 120 Vanno via 25 15 10 30 80 Totale 35 45 15 105 200 102 120 Meno di 1 anno Da 1 a 5 anni Rimangono 1202 200 802 200 Vanno via 302 120 Da 6 a 10 anni Più di 10 anni =P(«1 a 5 anni»| «Rimangono») 52 120 752 120 Meno di 1 anno Da 1 a 5 anni =P(«< 1anno»| «Rimangono») =P(«6 a 10 anni»| «Rimangono») =P(« >10 anni»| «Rimangono») 252 80 152 80 Da 6 a 10 anni Più di 10 anni 102 80 302 80 Regola della moltiplicazione ∩* |* /*0 Meno di 1 anno P(«< 1anno»| «Rimangono») P(«Rimangono») Da 1 a 5 anni P(«1 a 5 anni»| «Rimangono») Da 6 a 10 anni P(«6 a 10 anni»| «Rimangono») Più di 10 anni P(« >10 anni»| «Rimangono») Meno di 1 anno Da 1 a 5 anni P(«Vanno via») Da 6 a 10 anni Più di 10 anni P(« >10 anni»| «Rimangono») 3 P(«Rimangono») = P(«> 10 anni»∩ «Rimangono») P(«Rimangono»|« >10 anni») 3 P(«> 10 anni») = P(«Rimangono» ∩ «> 10 anni») Verifica: 10 13/04/2015 ∩* |* Da 6 a 10 anni > 10 anni Totale Regola della moltiplicazione < 1 anno Da 1 a 5 anni Rimangono 10 30 5 75 120 Vanno via 25 15 10 30 80 Totale 35 45 15 105 200 /*0 P(« >10 anni»| «Rimangono») 3 P(«Rimangono») = P(«> 10 anni»∩ «Rimangono») P(«Rimangono»|« >10 anni») 3 P(«> 10 anni») = P(«Rimangono» ∩ «> 10 anni») Verifica: P(« >10 anni»| «Rimangono») P(«Rimangono») = 4 44 102 120 Da 1 a 5 anni 302 120 Da 6 a 10 anni 1202 200 52 120 > 10 anni 752 120 < 1 anno 252 80 Da 1 a 5 anni Vanno via 802 200 Da 6 a 10 anni > 10 anni 152 80 102 80 302 80 Fedeltà all'azienda Restano 45 44 P(«> 10 anni») = P(«Rimangono»|« >10 anni») = <1 anno Rimangono 75 120 4 4 3 = 4 44 ?4 3 4 5 3 4 65 3 4 4 = 44 4 = 44 4 = 44 65 45 /"rimangono" ∩ ">1anno"0 /"rimangono" ∩ "da1a5"0 /"rimangono" ∩ "da6a10"0 /"rimangono" ∩ "A10anni"0 0,05 0,15 0,03 Vanno via 0,375 0,125 0,05 < 1 anno 0,15 0,075 1 - 5 anni 0,15 0,38 0,05 0,025 6 - 10 anni > 10 anni 0,6 0,4 11 13/04/2015 Il problema inverso Se si conoscono le probabilità sui singoli rami… Rimangono 0,286 <1 anno Vanno via 0,714 0,175 Rimangono 0,667 0,225 Da 1 a 5 anni 0,075 Vanno via 0,333 Rimangono 0,333 Da 6 a 10 anni 0,525 > 10 anni Vanno via 0,667 Rimangono 0,71 0,05 Vanno via 0,29 0,15 … calcolare la probabilità che un impiegato scelto a caso, abbia risposto che rimane nell’ azienda. 0,333 <1 anno Da 6 a 10 anni 0,286 Prob. che avrebbre questo evento se 0,71 lo spazio campione fosse 0,667 > 10 anni Da 1 a 5 anni l’insieme rosso Il problema inverso Se si conoscono le probabilità sui singoli rami… Rimangono 0,286 <1 anno Vanno via 0,714 0,175 Rimangono 0,667 0,225 Da 1 a 5 anni 0,075 Vanno via 0,333 Rimangono 0,333 Da 6 a 10 anni 0,525 > 10 anni Vanno via 0,667 Rimangono 0,71 0,05 Vanno via 0,29 0,15 … calcolare la probabilità che un impiegato scelto a caso, abbia risposto che rimane nell’ azienda. "rimangono" 0,286 3 0,175 "rimangono" >"1anno" 3 /">1anno"0 + "rimangono" >" 1 5 " 3 /" 1 5 "0 + "rimangono" >" 6 10 " 3 /" 6 10 "0 + "rimangono" >"A10anni" 3 /" A 10 "0 0,667 3 0,225 0,333 3 0,075 0,71 3 0,525= 0,59 12 13/04/2015 Teorema delle alternative Assegnati n eventi * , * , … , *C tali che ∪E *E e *E ∩ *F H |*E E ∅ risulta *E Media pesata delle0,15 probabilità condizionate * * *? ∩ *E |*E *E *I "rimangono" 0,286 3 0,175 "rimangono" >"1anno" 3 /">1anno"0 + "rimangono" >" 1 5 " 3 /" 1 5 "0 + "rimangono" >" 6 10 " 3 /" 6 10 "0 + "rimangono" >"A10anni" 3 /" A 10 "0 0,667 3 0,225 0,333 3 0,075 0,71 3 0,525= 0,59 Eventi indipendenti |* Due eventi A e B si dicono indipendenti se Esempio: Da una scatola di 10 pellicole fotografiche vengono estratte 2 pellicole a caso. Qual è la probabilità che entrambe siano difettose, sapendo che nella scatola ci sono 3 pellicole difettose? J "! !%(( J ( %& L% "&% !%(( & " ( %& J ∩J L% J |J J & " = × K ? 4 Esempio: Da una scatola di 100 pellicole fotografiche vengono estratte 2 pellicole a caso. Qual è la probabilità che entrambe siano difettose, sapendo che nella scatola ci sono 3 pellicole difettose? Cosa cambia nella risposta rispetto al caso precedente? J ∩J J |J J 0,03 3 0,03 Indipendenza stocastica: lancio di due monete, lancio di due dadi, etc… Indipendenza statistica: quando si effettuano estrazioni da un collettivo molto numeroso 13 13/04/2015 Se ad ogni estrazione, la pallina viene rimessa nell’urna la composizione dell’urna non cambia Popolazione infinita Eventi indipendenti Se ad ogni estrazione, la pallina non viene rimessa nell’urna la composizione dell’urna cambia e dopo 90 estrazioni, il procedimento termina. Popolazione finita L’esito di ogni estrazione dipende da quelli precedenti. Eventi dipendenti M M 1 M +( %(( ! ! ( N +( %( ! % % Fattore di correzione da una popolazione finita. Se il fattore di correzione è circa 1, allora le due estrazioni possono ritenersi equivalenti e l’indipendenza è spesso usata per calcolare probabilità congiunte. Esempio: Da un’urna contenente 10 palline rosse e 5 blue, si estraggono tre palline. Qual è la probabilità che tutte e tre le palline estratte siano rosse? /J ∩ J ∩ J? ) Estrazione con reimmissione = /J ) /J ) J? =0,5×0,5×0,5 J ∩ J ∩ J? * 42 14 52 15 102 15 * J 102 14 52 14 92 14 J * J Estrazione senza reimmissione 3 4 5 J? |J ∩ J J |J (J ) 3 3 8 9 10 *? *? J? *? J? J? 42 13 92 13 32 13 102 13 *? 92 13 J? 42 13 52 13 Qual è la probabilità che alla terza estrazione, la pallina sia rossa? 82 13 14 13/04/2015 Teorema di Bayes «A partire da una serie di dati già in nostro possesso possiamo formulare un’ipotesi; collezionando sempre nuovi dati possiamo continuamente aumentare (o rivedere) il grado di bontà delle nostre ipotesi» Reverendo Thomas Bayes (1750) Logico e teologo Teorema di Bayes La percentuale di studenti iscritti al secondo anno di economia che frequenta il corso di statistica è 90%. Tra questi, il 90% supera l’esame. Supponendo inoltre che la percentuale di studenti che non supera l’esame tra quelli che non frequentano è del 12% si calcoli: a) qual è la % di studenti che non supera l’esame tra quelli che frequentano il corso; b) qual è la % di studenti che non frequentano, tra quelli che si ipotizza non superanno l’esame. 90% Supera l’esame 0 * 0,10 90% 10% Non supera l’esame Frequenta * 88% Supera l’esame ∩* 10% /*0 Non 12% Non supera l’esame frequenta P Q R P/R0 ? * * & $ % %& %( & & $ % %& %( * &$!% & L %#$% * (O %& ( & = % ∪ * * * ∩ / 0 * P/Q0 ∅ 4, 434,K4 4, 434,K4S4, 34, 4 = 15 13/04/2015 Un po’ di terminologia Il teorema di Bayes noto l’effetto B, valuta la probabilità che la causa sia stata A. / 0 * probabilità a priori (o verosimiglianza) La probabilità dell’evento A senza conoscere l’effetto B probabilità aposteriori La probabilità dell’evento A avendo riconosciuto l’effetto B /*0 Costante di normalizzazione Applicazioni di metodi bayesiani: filtri anti-spamming medicina e biologia ingegneria finanza scienza forense intelligenza artificiale: reti bayesiane (presenti in Windows dalla versione 98) motori di ricerca: Google «We can’t hire smart people fast enough» Il punto di vista frequentista Il punto di vista bayesiano La probabilità si calcola sul lungo periodo La probabilità è un grado di fiducia C’è un modello vero che genera i dati e i dati ne sono una rappresentazione I dati sono veri/fissati. I modelli hanno delle probabilità. E’ possibile calcolare la probabilità che i dati si verifichino in base al modello che si ritiene vero E’ possibile calcolare la probabilità di un modello (ipotesi) in base ai dati osservati Ogni esperimento va fatto in condizioni di non conoscenza del modello vero Le probabilità possono essere aggiornate via via che si acquisiscono i dati 16 13/04/2015 Teorema di Bayes Si assuma di aver selezionato un impiegato a caso, e che questo impiegato ha risposto che rimarrebbe comunque in azienda. Qual è la probabilità che lavori in quella azienda da 6 a 10 anni? 0,286 0,175 0,333 <1 anno Da 6 a 10 anni 0,075 0,71 0,667 > 10 anni Da 1 a 5 anni 0,225 Bisogna calcolare 0,525 "da6a10anni" "rimangono" ? "rimangono" "da6a10anni" = 0,333 Si conosce "da6a10anni" 0,286 P "TUVU 4UCCE"∩"WEXUCYZCZ" "da6a10anni" "rimangono" = P/"WEXUCYZCZ"0 Calcolata precedentemente P "rimangono" "da6a10anni" P("da6a10anni") 4,???34, [V = = P/"rimangono"0 4,5K Teorema di Bayes Si ha la seguente situazione: - l'1% della popolazione ha una certa malattia rara; - un test diagnostico rivela la presenza della malattia all'80% (sensibilità); - il test diagnostico ha il 90,4% di specificità (negativo su pazienti sani). Supponiamo di essere risultati positivi al test. Qual è la probabilità che siamo malati? Test positivo 0,80 M S ( %& ! & %& ! & \ 0,01 Test negativo 0,20 Test positivo 0,096 0,99 Test negativo 0,904 %& ! & \ 0 %& ! & \ ( 0 \ ( / / %& ! & \ 0 ( ( %& ! & 0 \ & 0 & = 0,80×0,01+ 0,096×0,99 = 0,008 + 0,09504 ( %& ! & \ 0 4,[434,4 4, 4?4I =0,07764 17 13/04/2015 Più in generale, indicata con ! la percentuale di malati (prevalenza), si ottiene: ( %& ! & \ 0 0,80 3 ! 0,80 3 ! 0,096 3 /1 ( 0,8 0,7 !0 %& ! & \ 0 A volte è sufficiente stabilire delle semplici disuguaglianze. 0,6 0,5 0,4 0,3 Per quale livello di prevalenza della malattia la probabilità finale 0,2 0,1 ( 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,1 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,2 0,21 0,22 0,23 0,24 0,25 0 0,80 3 ! 0,096 3 /1 !0 \ 0 risulterà maggiore di una certa soglia? ! 0,80 3 ! %& ! & A 0,5 !A 0,048 0,448 0,11 Il problema di Monty Hill nel film 21 M Cambi Non Cambi Vinci 2 1 3 Non Vinci 1 2 3 Totale 3 3 6 Porta 1 = Non vinci Porta 2 = Vinci Porta 3 = Non vinci nodo decisionale ] Porta 1 = Vinci ^ Porta 2 = Non vinci C \ Porta 3 = Vinci Cambi Non cambi ^⋂] ^ Non Vinci ^ ⋂] ^ ⋂] ^ ] ] ^] ] ^] Cambi Non cambi Totale Vinci 33% 17% 50% Non Vinci 17% 33% 50% Totale 50% 50% 100% Totale ^⋂] ^ \ Distribuzione congiunta Vinci Totale ^ ] Totale Distribuzione condizionata /] 0 Cambi Non cambi Vinci 0,33/0,5×100=66% 0,17/0,5×100=34% 0,17/0,5×100=34% 0,33/0,5×100=66% 100% 100% Cambi Non Cambi Vinci ^|] ^|] Non Vinci Non Vinci ^ |] ^ |] Totale 18 13/04/2015 ^ ^] ] ^] Distribuzione condizionata /] 0 Cambi Non cambi Se decidi di cambiare lanciando una moneta (onesta)… Vinci 0,33/0,5×100=66% 0,17/0,5×100=34% Non Vinci 0,17/0,5×100=34% 0,33/0,5×100=66% Posto ! Totale 100% 100% /]0 e ` ` /^0 si ha 0,66 3 ! 0,34 3 1 ! 0,32 3 ! 0,34 0,7 ` /^0 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,1 0,2 0,3 0,4 ! 0,5 0,6 0,7 0,8 0,9 1 /]0 Il problema di Monty Hill(Altro punto di vista) M1= ) % ! 1 M2= ) % ! 2 ) M3= a1 * & %+( ( ! 1% (! %&% % a2 % ! %! ! a3 3 3 1/3 * 0,5 Può aprire una delle due porte non scelte da te * a1 0,5 * a2 1 * a3 /a1|*0 /a2|*0 * a1 /a10 /*0 4,534,??? 4,5 P Q c P/c 0 34,??? = P/Q0 4,5 0,66 0 0,34 Conviene cambiare…. 19