Analisi di situazioni casuali: apparenti paradossi e auto

Analisi di situazioni casuali:
apparenti paradossi e auto-inganni
Fabio Spizzichino
Associazione Civica XIX
Libreria Passaparola, Roma
Roma, 11 Aprile 2014
1
“Ci sono tre tipi di bugie: le bugie normali, le
bugie spudorate e le statistiche”
Leader politico inglese del XIX secolo
2
Tre livelli di errore statistico
Escludendo vere e proprie bugie,
possiamo parlare di errori o distorsioni (“bias”)
Tre livelli di errore
Esempi:
A) Secchielli e palette?
B) Tempi d'attesa autobus
C) Paradosso di Simpson
3
A1) Ovvi errori di campionamento
Dobbiamo stimare la proporzione di persone nate e
viventi in Italia che, d’estate, si dedicano a
costruire castelli di sabbia sulla spiaggia
Andrebbe bene fare un censimento
raccogliendo i dati presso gli stabilimenti
balneari della riviera romagnola?
Andrebbe bene fare un censimento fra i
clienti dei night-club della Versilia?
4
A2) Servirebbe un campionamento casuale
Servirebbe piuttosto un
campionamento casuale:
•Ciascun elemento della popolazione (nati e viventi
in Italia) dovrebbe avere la stessa probabilità di
essere selezionato per il campione
•La probabilità per un elemento di essere
selezionato per il campione non dovrebbe essere
influenzata dalla proprietà da rilevare
5
A3) Campionamento casuale e equiprobabilità
La nozione di campione casuale ci porta al
concetto di equiprobabilità su una popolazione
La condizione di equiprobabilità è (o sembra) chiara.
Può non essere semplice metterla in pratica
6
B1) Un secondo livello di errore: tempi di
attesa autobus
Vogliamo fare una statistica sui ritardi della
linea 913, nella fascia oraria 16-19
7
In giorni diversi, e in orari scelti a caso, andiamo alla
fermata di V.le Medaglie D’Oro e prendiamo nota del
tempo d’attesa fra l’ultimo passaggio del 913 riscontrato
e il successivo
8
B2) Non dobbiamo essere così malevoli
Il 913 fa già abbastanza ritardo per conto suo!
Non c’è bisogno di dare un quadro ancora più
pessimistico!
9
B3) Perché più pessimistico?
Il campionamento dei ritardi non è casuale!
Gli intervalli “lunghi” pesano di più
10
Scegliamo un giorno a caso
0 ___①______② ___③ ___④______⑥ ___⑦______⑧ ___ ⑨ 180 min
___ = 15 min ______ = 30 min
P(___ ) ∙15 min + P(______) ∙30 min =
1/2 ∙15 min + 1/2 ∙30 min = 22.5 min
>
180 min : 9 = 20 min
11
C1) Un terzo livello:
il Paradosso di Simpson
• Vengono confrontati due nuovi medicinali A e B,
studiati per la cura di una stessa patologia
• Viene svolta una sperimentazione su 200 pazienti,
suddivisi fra 150 gravi e 50 lievi
• A viene somministrato a 90 pazienti gravi e a 10
pazienti lievi
• B viene somministrato a 60 pazienti gravi e a 40
pazienti lievi
12
Quale farmaco è migliore?
Le proporzioni di guarigione sono
A: 50% e 100%
B: 40% e 90%
Dunque A dà risultati migliori di B
13
Ma se considerassimo i dati aggregati …
… fra lievi e gravi
A guarisce il 55% dei pazienti
e
B guarisce il 60% dei pazienti
Niente di sorprendente: la distribuzione fra A
e B dei lievi e gravi non è stata casuale
14
Ma se non ci accorgessimo della non-casualità?
Ad esempio quando i pazienti si suddividono fra due
categorie non riconoscibili?
15
Fraintendimenti nella probabilità
Prima di analizzare in quali modi i dati statistici
possano essere letti in modo ingannevole ….
… dovremmo evitare tranelli logici insiti
nell’analisi dei fenomeni casuali
1. Equivoci circa l'indipendenza stocastica
2. Equivoci circa l'equiprobabilità
16
1. Equivoci circa l'indipendenza stocastica
Il concetto di indipendenza ha un ruolo basilare nella
probabilità
Ma si possono creare diversi fraintendimenti ….
17
1A. Ritardi nel lotto
Su ciascuna ruota, si presenta, ad ogni turno, una
cinquina indipendente da quelle dei turni
precedenti
La probabilità che il numero 48 si presenti al
prossimo turno resta sempre la stessa
(p= 1- 89∕90 ∙ 88∕89 ∙ 87∕88∙ 86∕87∙ 85∕86 = 1∕18)
indipendentemente dalla “storia” precedente 18
Quindi “puntare” sul 48,
ritenendo che il forte “ritardo” accumulato faccia
aumentare le probabilità di una sua uscita,
equivale a contraddire l’ipotesi di indipendenza
dalla “storia” precedente
19
1B. lanci di una moneta
Una moneta viene lanciata 99 volte e 95 volte
ha dato risultato testa.
Supponiamo che ciò ci porti a scommettere su
testa al prossimo lancio
più di quanto fatto per il primo lancio
20
Tale atteggiamento potrebbe essere ragionevole!
Ma dobbiamo riconoscere che sarebbe in
contraddizione con un iniziale giudizio di
indipendenza
fra i risultati dei lanci
21
1C. Indipendenza condizionata
Effettuiamo due estrazioni
(casuali e con reinserimento)
da un’urna che contiene
5 palline:
tre blu e due rosse
22
In ciascuna estrazione la probabilità di estrarre una
pallina rossa è uguale a 2/5
(le due estrazioni sono indipendenti)
Ma se non sappiamo quante siano le palline rosse
allora
P(rossa all’estraz. 2| rossa all’estraz. 1) >
P(rossa all’estraz. 1)
23
2. Equivoci circa l'equiprobabilità
Anche il concetto di equiprobabilità
(“distribuzione uniforme”)
è fondamentale nell’analisi
di fenomeni aleatori.
Ma anche esso è passibile di vari
errori logici e fraintendimenti
24
2A. Gioco del Lotto:
Osservazione di cinquine
Su ogni “ruota” i risultati elementari possibili sono
le cinquine di numeri
compresi fra 1 e 90
(tutti diversi fra loro)
Esempio:
18- 25- 49 - 54 - 82
E sono tutte equiprobabili
25
Gioco del Lotto:
Osservazione di cinquine “speciali”
Alcune cinquine potrebbero sembrare
“speciali”
Esempio:
5-6-7-8-9
Qual è la probabilità di questo evento?
26
Ma tante cinquine …
possono essere speciali
Per un matematico
5- 7- 11 - 13- 17
può essere “speciale” tanto quanto 5-6-7-8-9
(serie numerica +2, +4 o 5 numeri primi consecutivi)
Per un chimico
9- 17- 35 - 53- 85
può essere “speciale” tanto quanto 5-6-7-8-9
(tutti e solo gli elementi del VII gruppo, gli alogeni)
27
E tutte le cinquine …
possono essere speciali !
… 18- 25- 49 - 54 - 82 sulla ruota di Venezia per
chi può essere speciale?
Comunque sono tutte equiprobabili!
28
Una parentesi
Ma ci occupiamo soltanto di Lotto, Lanci di dadi,
Testa o Croce, Totocalcio, Corse dei Cavalli, etc...?
Problematiche più “serie” ?
29
Che cos’è la probabilità?
Analizzare
casi favorevoli e casi possibili
è comunque fondamentale
30
Ω={ω₁,ω₂,...,ω}
Spazio dei risultati elementari
La probabilità è una misura che si attribuisce ai
possibili sottoinsiemi di Ω
P(E), E⊂Ω
con
P(Ω) = 1, P(∅) = 0
31
P(E₁ oppure E₂) = P(E₁) + P(E₂)
se E₁, E₂ "incompatibili“
Si deve anche avere:
P(ω₁)+P(ω₂)+...+ P(ωN)=1
P(E) = ΣiP(ωi),
dove ωi è un costituente di E
32
La formula ben nota
Spesso è ragionevole assegnare
P(ω₁) = P(ω₂) =... = P(ωN)
e allora deve essere
P( ω₁) = P(ω₂) =... = P(ωN) = 1/N
e
P(E) = |E|/N
= ( # casi favorevoli ) / (# casi possibili)
33
Accezioni più generali della “Probabilità”?
La formula P(E) = |E|/N
• non fornisce una “definizione” di
probabilità
• non è applicabile a tutte le situazioni
(assicurazioni, finanza, scommesse su
eventi sportivi…)
Comunque è importante e utilissima
34
Ma dove è messa l'equiprobabilità?
52 puntate su una roulette
Risultati elementari:
RRNNNRRNRNRNRRR …. NRN
Tutte le stringhe di 52 simboli sono possibili
(e tutte equiprobabili)
35
52 successive estrazioni
delle carte di un mazzo
Risultati elementari : … Ancora:
RRNNNRRNRNRNRRR …. NRN
Ma sono possibili soltanto le stringhe di 52
simboli contenenti 26 R e 26 N
(e sono tutte equiprobabili)
36
Torniamo al tema dell’indipendenza e della
dipendenza…
Confrontiamo le tre diverse situazioni:
a) Puntate su Rosso o Nero alla Roulette
b) Puntate su Rosso o Nero sfogliando le carte da un
mazzo
c) Estrazioni casuali con reinserimento da un’urna
contenenti palle Rosse e Nere (con proporzioni
incognite)
37
Abbiamo osservato la sequenza
RRNNRRNRNRNRRRNRNRRRNRRRRRNRR
La probabilità del risultato R
è maggiore o minore
rispetto alla valutazione iniziale?
Risposta:
uguale in a), minore in b), maggiore in c)
38
Un equivoco frequente
Nelle puntate alla roulette:
È più probabile la stringa
RRRRRRRRRRRRR
Oppure
RRNRNNNRRNNRN ?
Sono equiprobabili! Ma …
39
Dove sta la differenza?
Poniamo
Q(R) = # R nella stringa
Cosicchè
Q(N) = # N nella stringa = 13 - Q(R)
Nella prima stringa : Q(R) = 13
Nella seconda stringa : Q(R) = 6
40
P(Q(R) = 13) = 18/37 ∙ 18/37∙ … ∙ 18/37
Mentre
P(Q(R) = 6) = (13!/6!7!) ∙ 18/37 ∙ 18/37∙ … ∙ 18/37
Ma al Casinò non possiamo
scommettere sul risultato
{Q(R) = 6}!
41
Il giudizio dipende da che cosa “notiamo”
Nel caso
RRRRRRRRRRRRR
“notiamo” che si è verificato un fatto
particolarmente improbabile
Nel caso
RRNRNNNRRNNRN
potremmo non notare niente di speciale
42
Un tale meccanismo
(con quale livello di precisione “notiamo”?)
può essere alla base
dell’osservazione di coincidenze “significative”
(sincronicità)
43
Modelli di occupazione
Modelli probabilistici interessanti e connessi
con il tema della “scala di osservazione”
44
Modelli di occupazione
Punto di partenza:
n siti (celle, cassetti, posizioni, tipi di risultati)
e
r oggetti (particelle, soggetti, prove)
Gli oggetti si dispongono
“in modo aleatorio"
nei cassetti
45
Modelli di occupazione
12
11
9
10
7
1
2
6
4
8
3
5
13
46
Esempi 1
Partite di calcio nella schedina (r=14)
Risultati (n = 3)
Elettroni di un atomo (r = ?)
Livelli di energia (n = ?)
Persone in attesa di un ascensore in un grattacielo (r =??)
Piani del grattacielo (n = ?)
47
Esempi 2
Domande ad un formulario (r = ?)
Risposte alle domande (n = ?)
Carte di cuori (r = 13)
Giocatori in una partita di Bridge (n = 4)
Persone in un gruppo (r = ?? )
Giorni di compleanno (n = 365)
48
Le modalità di casualità con cui gli oggetti si
dispongono nelle celle si traduce nel tipo di
distribuzione di probabilità dei
numeri di occupazione:
X₁ = oggetti nella cella 1
X₂ = oggetti nella cella 2
……
P{X₁ = x₁,..., XN= xN} = ???
49
P{X₁ = x₁,..., XN= xN}
può dipendere dal livello di osservazione!
Confrontiamo due situazione:
Simmetria tra i siti, particelle distinguibili
Simmetria tra i siti, particelle non distinguibili
50
Modello di Maxwell-Boltzmann
Simmetria tra i siti, particelle distinguibili:
le particelle sono “numerate” e ognuna sceglie
un sito in modo casuale e indipendentemente
dalle altre
Quale evento elementare osserviamo?
51
12
11
9
10
7
1
2
6
4
8
3
5
13
52
Ciascuna particella sceglie il “suo” sito in modo
casuale e indipendentemente dalle altre
L’evento elementare descrive non solo quante ma
anche quali particelle occupino ciascun sito
53
54
Modello di Bose-Einstein
Non si vede più quali ma soltanto quante particelle
occupano ciascun sito
Tutti gli eventi elementari
(del modello M.-B.),
con stessi numeri di occupazione,
portano ad uno stesso eventi elementari nel modello B.-E.
Modello di Bose-Einstein
Nel nuovo modello l’equiprobabilità viene messa sui
“nuovi” eventi elementari
(descrizione più grossolana)
… Ma allora cambiano tutte le valutazioni di probabilità
In base a stessi eventi osservati, potremmo essere portati
a valutazioni diverse a seconda del “dettaglio”
con cui osserviamo
M.-B. oppure B.-E.?
La valutazione basata sul modello M.-B. potrebbe
sembrare molto più naturale …
… e questo portò a diversi equivoci e apparenti
paradossi nella Fisica delle particelle…
… in quanto spesso è valido il modello B.-E.
Analoghi equivoci potrebbero crearsi nei fenomeni
della vita di tutti i giorni?
Anche gli esperti possono cadere nei tranelli
In una sequenza di lettere casuali si presenta prima
ABRACADABRA
o
PASSAPAROLA?
Il rilevamento di errori, i conseguenti dibattiti e tentativi
di superare gli errori stessi si rivelano fondamentali nel
progresso scientifico
In caso di conclusioni inesatte …
… non dobbiamo colpevolizzare o colpevolizzarci…
… ma dobbiamo cercare di avere un atteggiamento critico
60