Analisi di situazioni casuali: apparenti paradossi e auto-inganni Fabio Spizzichino Associazione Civica XIX Libreria Passaparola, Roma Roma, 11 Aprile 2014 1 “Ci sono tre tipi di bugie: le bugie normali, le bugie spudorate e le statistiche” Leader politico inglese del XIX secolo 2 Tre livelli di errore statistico Escludendo vere e proprie bugie, possiamo parlare di errori o distorsioni (“bias”) Tre livelli di errore Esempi: A) Secchielli e palette? B) Tempi d'attesa autobus C) Paradosso di Simpson 3 A1) Ovvi errori di campionamento Dobbiamo stimare la proporzione di persone nate e viventi in Italia che, d’estate, si dedicano a costruire castelli di sabbia sulla spiaggia Andrebbe bene fare un censimento raccogliendo i dati presso gli stabilimenti balneari della riviera romagnola? Andrebbe bene fare un censimento fra i clienti dei night-club della Versilia? 4 A2) Servirebbe un campionamento casuale Servirebbe piuttosto un campionamento casuale: •Ciascun elemento della popolazione (nati e viventi in Italia) dovrebbe avere la stessa probabilità di essere selezionato per il campione •La probabilità per un elemento di essere selezionato per il campione non dovrebbe essere influenzata dalla proprietà da rilevare 5 A3) Campionamento casuale e equiprobabilità La nozione di campione casuale ci porta al concetto di equiprobabilità su una popolazione La condizione di equiprobabilità è (o sembra) chiara. Può non essere semplice metterla in pratica 6 B1) Un secondo livello di errore: tempi di attesa autobus Vogliamo fare una statistica sui ritardi della linea 913, nella fascia oraria 16-19 7 In giorni diversi, e in orari scelti a caso, andiamo alla fermata di V.le Medaglie D’Oro e prendiamo nota del tempo d’attesa fra l’ultimo passaggio del 913 riscontrato e il successivo 8 B2) Non dobbiamo essere così malevoli Il 913 fa già abbastanza ritardo per conto suo! Non c’è bisogno di dare un quadro ancora più pessimistico! 9 B3) Perché più pessimistico? Il campionamento dei ritardi non è casuale! Gli intervalli “lunghi” pesano di più 10 Scegliamo un giorno a caso 0 ___①______② ___③ ___④______⑥ ___⑦______⑧ ___ ⑨ 180 min ___ = 15 min ______ = 30 min P(___ ) ∙15 min + P(______) ∙30 min = 1/2 ∙15 min + 1/2 ∙30 min = 22.5 min > 180 min : 9 = 20 min 11 C1) Un terzo livello: il Paradosso di Simpson • Vengono confrontati due nuovi medicinali A e B, studiati per la cura di una stessa patologia • Viene svolta una sperimentazione su 200 pazienti, suddivisi fra 150 gravi e 50 lievi • A viene somministrato a 90 pazienti gravi e a 10 pazienti lievi • B viene somministrato a 60 pazienti gravi e a 40 pazienti lievi 12 Quale farmaco è migliore? Le proporzioni di guarigione sono A: 50% e 100% B: 40% e 90% Dunque A dà risultati migliori di B 13 Ma se considerassimo i dati aggregati … … fra lievi e gravi A guarisce il 55% dei pazienti e B guarisce il 60% dei pazienti Niente di sorprendente: la distribuzione fra A e B dei lievi e gravi non è stata casuale 14 Ma se non ci accorgessimo della non-casualità? Ad esempio quando i pazienti si suddividono fra due categorie non riconoscibili? 15 Fraintendimenti nella probabilità Prima di analizzare in quali modi i dati statistici possano essere letti in modo ingannevole …. … dovremmo evitare tranelli logici insiti nell’analisi dei fenomeni casuali 1. Equivoci circa l'indipendenza stocastica 2. Equivoci circa l'equiprobabilità 16 1. Equivoci circa l'indipendenza stocastica Il concetto di indipendenza ha un ruolo basilare nella probabilità Ma si possono creare diversi fraintendimenti …. 17 1A. Ritardi nel lotto Su ciascuna ruota, si presenta, ad ogni turno, una cinquina indipendente da quelle dei turni precedenti La probabilità che il numero 48 si presenti al prossimo turno resta sempre la stessa (p= 1- 89∕90 ∙ 88∕89 ∙ 87∕88∙ 86∕87∙ 85∕86 = 1∕18) indipendentemente dalla “storia” precedente 18 Quindi “puntare” sul 48, ritenendo che il forte “ritardo” accumulato faccia aumentare le probabilità di una sua uscita, equivale a contraddire l’ipotesi di indipendenza dalla “storia” precedente 19 1B. lanci di una moneta Una moneta viene lanciata 99 volte e 95 volte ha dato risultato testa. Supponiamo che ciò ci porti a scommettere su testa al prossimo lancio più di quanto fatto per il primo lancio 20 Tale atteggiamento potrebbe essere ragionevole! Ma dobbiamo riconoscere che sarebbe in contraddizione con un iniziale giudizio di indipendenza fra i risultati dei lanci 21 1C. Indipendenza condizionata Effettuiamo due estrazioni (casuali e con reinserimento) da un’urna che contiene 5 palline: tre blu e due rosse 22 In ciascuna estrazione la probabilità di estrarre una pallina rossa è uguale a 2/5 (le due estrazioni sono indipendenti) Ma se non sappiamo quante siano le palline rosse allora P(rossa all’estraz. 2| rossa all’estraz. 1) > P(rossa all’estraz. 1) 23 2. Equivoci circa l'equiprobabilità Anche il concetto di equiprobabilità (“distribuzione uniforme”) è fondamentale nell’analisi di fenomeni aleatori. Ma anche esso è passibile di vari errori logici e fraintendimenti 24 2A. Gioco del Lotto: Osservazione di cinquine Su ogni “ruota” i risultati elementari possibili sono le cinquine di numeri compresi fra 1 e 90 (tutti diversi fra loro) Esempio: 18- 25- 49 - 54 - 82 E sono tutte equiprobabili 25 Gioco del Lotto: Osservazione di cinquine “speciali” Alcune cinquine potrebbero sembrare “speciali” Esempio: 5-6-7-8-9 Qual è la probabilità di questo evento? 26 Ma tante cinquine … possono essere speciali Per un matematico 5- 7- 11 - 13- 17 può essere “speciale” tanto quanto 5-6-7-8-9 (serie numerica +2, +4 o 5 numeri primi consecutivi) Per un chimico 9- 17- 35 - 53- 85 può essere “speciale” tanto quanto 5-6-7-8-9 (tutti e solo gli elementi del VII gruppo, gli alogeni) 27 E tutte le cinquine … possono essere speciali ! … 18- 25- 49 - 54 - 82 sulla ruota di Venezia per chi può essere speciale? Comunque sono tutte equiprobabili! 28 Una parentesi Ma ci occupiamo soltanto di Lotto, Lanci di dadi, Testa o Croce, Totocalcio, Corse dei Cavalli, etc...? Problematiche più “serie” ? 29 Che cos’è la probabilità? Analizzare casi favorevoli e casi possibili è comunque fondamentale 30 Ω={ω₁,ω₂,...,ω} Spazio dei risultati elementari La probabilità è una misura che si attribuisce ai possibili sottoinsiemi di Ω P(E), E⊂Ω con P(Ω) = 1, P(∅) = 0 31 P(E₁ oppure E₂) = P(E₁) + P(E₂) se E₁, E₂ "incompatibili“ Si deve anche avere: P(ω₁)+P(ω₂)+...+ P(ωN)=1 P(E) = ΣiP(ωi), dove ωi è un costituente di E 32 La formula ben nota Spesso è ragionevole assegnare P(ω₁) = P(ω₂) =... = P(ωN) e allora deve essere P( ω₁) = P(ω₂) =... = P(ωN) = 1/N e P(E) = |E|/N = ( # casi favorevoli ) / (# casi possibili) 33 Accezioni più generali della “Probabilità”? La formula P(E) = |E|/N • non fornisce una “definizione” di probabilità • non è applicabile a tutte le situazioni (assicurazioni, finanza, scommesse su eventi sportivi…) Comunque è importante e utilissima 34 Ma dove è messa l'equiprobabilità? 52 puntate su una roulette Risultati elementari: RRNNNRRNRNRNRRR …. NRN Tutte le stringhe di 52 simboli sono possibili (e tutte equiprobabili) 35 52 successive estrazioni delle carte di un mazzo Risultati elementari : … Ancora: RRNNNRRNRNRNRRR …. NRN Ma sono possibili soltanto le stringhe di 52 simboli contenenti 26 R e 26 N (e sono tutte equiprobabili) 36 Torniamo al tema dell’indipendenza e della dipendenza… Confrontiamo le tre diverse situazioni: a) Puntate su Rosso o Nero alla Roulette b) Puntate su Rosso o Nero sfogliando le carte da un mazzo c) Estrazioni casuali con reinserimento da un’urna contenenti palle Rosse e Nere (con proporzioni incognite) 37 Abbiamo osservato la sequenza RRNNRRNRNRNRRRNRNRRRNRRRRRNRR La probabilità del risultato R è maggiore o minore rispetto alla valutazione iniziale? Risposta: uguale in a), minore in b), maggiore in c) 38 Un equivoco frequente Nelle puntate alla roulette: È più probabile la stringa RRRRRRRRRRRRR Oppure RRNRNNNRRNNRN ? Sono equiprobabili! Ma … 39 Dove sta la differenza? Poniamo Q(R) = # R nella stringa Cosicchè Q(N) = # N nella stringa = 13 - Q(R) Nella prima stringa : Q(R) = 13 Nella seconda stringa : Q(R) = 6 40 P(Q(R) = 13) = 18/37 ∙ 18/37∙ … ∙ 18/37 Mentre P(Q(R) = 6) = (13!/6!7!) ∙ 18/37 ∙ 18/37∙ … ∙ 18/37 Ma al Casinò non possiamo scommettere sul risultato {Q(R) = 6}! 41 Il giudizio dipende da che cosa “notiamo” Nel caso RRRRRRRRRRRRR “notiamo” che si è verificato un fatto particolarmente improbabile Nel caso RRNRNNNRRNNRN potremmo non notare niente di speciale 42 Un tale meccanismo (con quale livello di precisione “notiamo”?) può essere alla base dell’osservazione di coincidenze “significative” (sincronicità) 43 Modelli di occupazione Modelli probabilistici interessanti e connessi con il tema della “scala di osservazione” 44 Modelli di occupazione Punto di partenza: n siti (celle, cassetti, posizioni, tipi di risultati) e r oggetti (particelle, soggetti, prove) Gli oggetti si dispongono “in modo aleatorio" nei cassetti 45 Modelli di occupazione 12 11 9 10 7 1 2 6 4 8 3 5 13 46 Esempi 1 Partite di calcio nella schedina (r=14) Risultati (n = 3) Elettroni di un atomo (r = ?) Livelli di energia (n = ?) Persone in attesa di un ascensore in un grattacielo (r =??) Piani del grattacielo (n = ?) 47 Esempi 2 Domande ad un formulario (r = ?) Risposte alle domande (n = ?) Carte di cuori (r = 13) Giocatori in una partita di Bridge (n = 4) Persone in un gruppo (r = ?? ) Giorni di compleanno (n = 365) 48 Le modalità di casualità con cui gli oggetti si dispongono nelle celle si traduce nel tipo di distribuzione di probabilità dei numeri di occupazione: X₁ = oggetti nella cella 1 X₂ = oggetti nella cella 2 …… P{X₁ = x₁,..., XN= xN} = ??? 49 P{X₁ = x₁,..., XN= xN} può dipendere dal livello di osservazione! Confrontiamo due situazione: Simmetria tra i siti, particelle distinguibili Simmetria tra i siti, particelle non distinguibili 50 Modello di Maxwell-Boltzmann Simmetria tra i siti, particelle distinguibili: le particelle sono “numerate” e ognuna sceglie un sito in modo casuale e indipendentemente dalle altre Quale evento elementare osserviamo? 51 12 11 9 10 7 1 2 6 4 8 3 5 13 52 Ciascuna particella sceglie il “suo” sito in modo casuale e indipendentemente dalle altre L’evento elementare descrive non solo quante ma anche quali particelle occupino ciascun sito 53 54 Modello di Bose-Einstein Non si vede più quali ma soltanto quante particelle occupano ciascun sito Tutti gli eventi elementari (del modello M.-B.), con stessi numeri di occupazione, portano ad uno stesso eventi elementari nel modello B.-E. Modello di Bose-Einstein Nel nuovo modello l’equiprobabilità viene messa sui “nuovi” eventi elementari (descrizione più grossolana) … Ma allora cambiano tutte le valutazioni di probabilità In base a stessi eventi osservati, potremmo essere portati a valutazioni diverse a seconda del “dettaglio” con cui osserviamo M.-B. oppure B.-E.? La valutazione basata sul modello M.-B. potrebbe sembrare molto più naturale … … e questo portò a diversi equivoci e apparenti paradossi nella Fisica delle particelle… … in quanto spesso è valido il modello B.-E. Analoghi equivoci potrebbero crearsi nei fenomeni della vita di tutti i giorni? Anche gli esperti possono cadere nei tranelli In una sequenza di lettere casuali si presenta prima ABRACADABRA o PASSAPAROLA? Il rilevamento di errori, i conseguenti dibattiti e tentativi di superare gli errori stessi si rivelano fondamentali nel progresso scientifico In caso di conclusioni inesatte … … non dobbiamo colpevolizzare o colpevolizzarci… … ma dobbiamo cercare di avere un atteggiamento critico 60