probabilismo - Dipartimento di Filosofia Comunicazione e Spettacolo

1
FILOSOFIA DELLE SCIENZE
NATURALI
2014-2015
Secondo modulo
2
 Mar-Mer10-12,
aula 6
 Giov 10-12, aula 24 (15/1 in aula 6)
 [email protected]
 Logica
induttiva e probabilità
 Testi:
 I.M.
Copi/C.M. Cohen ‘Introduzione alla
Logica’, Il Mulino – capitoli 15-16
 I. Hacking ‘Introduzione alla probabilità e alla
logica induttiva’, Il Saggiatore - tutto
3
 Piano
generale:
 Ragionamento
induttiva
scientifico e logica
 Probabilità
 Teorie
 Nozioni
di base
 Applicazioni
 Probabilità,
utilità, incertezza e decisione
 (Ritorno al problema dell’induzione)
4
 Copi/Cohen,
cap. 15. Scienza e ipotesi
 La
scienza ha valore pratico e valore
teoretico
 Come risposta al desiderio di conoscere,
essa mira a verità generali e leggi
 Sulla base di queste, si definiscono
spiegazioni
 Spiegazione:
gruppo di proposizioni da cui può
essere inferito un fatto, eliminando o
diminuendo il carattere problematico di
quest’ultimo
5
 Stretta
relazione fra spiegazione e
inferenza induttiva
 Vari
modelli filosofici della spiegazione
scientifica (e della predizione)
 Hempel
e il ‘modello della legge di
copertura’ (o ‘nomologico-deduttivo’)
Leggi generali
Fatti particolari
 Fenomeno da spiegare
.
6
 Stretta
relazione fra spiegazione e
inferenza induttiva
 Vari
modelli filosofici della spiegazione
scientifica (e della predizione)
 Hempel
e il ‘modello della legge di
copertura’ (o ‘nomologico-deduttivo’)
Leggi generali
Fatti particolari
.

explanans
 Fenomeno da spiegare explanandum
7
 Versioni
probabilistiche/statistiche
 Modello
statistico-deduttivo – deduzione
di conseguenze da leggi probabilistiche
Leggi generali probabilistiche
Fatti particolari
 Fenomeno da spiegare
.
8
 Modello
statistico-deduttivo – deduzione
di conseguenze da leggi probabilistiche
La penicillina cura lo streptococco al 95%
L’infezione è stata trattata con penicillina
L’infezione era da streptococco .
 Il 95% dei pazienti è guarito
9
 Modello
statistico-induttivo – sussunzione
di eventi specifici sotto leggi
probabilistiche
La penicillina cura lo streptococco al 95%
L’infezione è stata trattata con penicillina
L’infezione era da streptococco .
 Jones è guarito
10
 Spiegazioni
scientifiche e non scientifiche
 Solo
le spiegazioni scientifiche sono non
dogmatiche e aperte alla revisione sulla
base dell’evidenza
 La verifica empirica (almeno indiretta)
deve essere sempre disponibile
 Modello
popperiano:
 H E  test empirico  …
11
 Criteri
di scientificità delle ipotesi
 (Copi/Cohen, pp. 534-538)
 Rilevanza
 Controllabilità
 Compatibilità
 Potere
con ipotesi precedenti
esplicativo/predittivo
 Semplicità
12
 Stadi
dell’indagine scientifica
 (Copi/Cohen, pp. 538-542)
 Identificazione
del problema
 Selezione delle ipotesi preliminari
 Raccolta di fatti addizionali
 Formulazione di un’ipotesi esplicativa
 Deduzione di ulteriori conseguenze
 Verifica delle conseguenze
 Applicazione della teoria
13
 Esempio:
Watson&Crick e il DNA
 Esperimenti
cruciali
 Esempio:
Michelson&Morley 1887,
passaggio dalla teoria dell’etere alla
relatività
 Ma
cosa ci dicono veramente gli
esperimenti?
 Teorie e ipotesi (ausiliarie e ad hoc)
14
 La
dinamica dei controlli sperimentali:
 HE
 Ipotesi
ausiliarie
 H(+A1+A2+…)E
 Ipotesi
 EH
ad hoc
è falsa
 EH+Aad hoc è
 Vari
ok
sensi di ‘ad hoc’
15
 Esempio
 Teoria
‘buono’: Urano e Nettuno.
di Newton  Orbita A per Urano
 Osservazione
 Orbita B per Urano
 Osservazione
Teoria di Newton è falsa
 Ma:
 Teoria
di Newton + Esistenza di un
pianeta ignoto  Orbita B per Urano
16
 Le
caratteristiche di Nettuno possono
essere dedotte dalla teoria di Newton +
l’orbita di Urano effettivamente
osservata
 1687:
Philosophiae Naturalis Principia
Mathematica di Newton
 Agosto-Settembre
Leverrier
 23
1846: Calcoli di Adams e
Settembre 1846: Osservazione di Nettuno e
conferma della ipotesi aggiuntiva (e della
teoria di Newton)
17
 Esempio
‘cattivo’:
 Osservazioni
di Galileo, messa in dubbio
della perfezione delle sfere celesti
 Ipotesi che le irregolarità della luna
fossero solo apparenti, e in realtà piene
di sostanza cristallina
 Ulteriore
lavoro di Galileo, e
confutazione dell’ipotesi ad hoc
I
satelliti di Galileo
18
 Sommario:
 Apprendimento
dai dati empirici e
spiegazione
 Ipotesi
 Dinamica della ricerca scientifica e
della valutazione delle ipotesi
 Esperimenti, ipotesi ausiliarie e ipotesi ad
hoc
 Il metodo scientifico si basa in modo
essenziale sulla logica induttiva
19
 Hacking,
 Logica
 Da
capp. 1-2:
deduttiva vs. Logica induttiva
Mill a Carnap e Reichenbach
 Logica
deduttiva:
 Validità
 Verità
 Logica
induttiva:
 Argomenti
‘rischiosi’ legati alla probabilità
20
 Il
ragionamento deduttivo non è
ampliativo, quello induttivo sì
 Niente
di nuovo alla fine del
ragionamento
 Se il ragionamento è valido, la verità è
trasmessa dalle premesse alla
conclusione
 Attenzione:
differenti!
validità e verità sono due cose
21
 Gli
argomenti validi possono solo
avere conclusioni vere se le premesse
sono vere
 Tutti
i numeri sono o pari o dispari
 7 è un numero
 Quindi, 7 è o pari o dispari
 Tutti
i numeri sono pari
 7 è un numero
 Quindi, 7 è pari
22
 Se
le premesse sono false, la conclusione
può essere sia vera sia falsa
 Tutti
le creature con dieci zampe hanno le ali
 Tutti i ragni hanno dieci zampe
 Quindi, tutti i ragni hanno le ali
 Tutti
i pesci sono mammiferi
 Tutte le balene sono pesci
 Quindi, tutte le balene sono mammiferi
23
 Per
gli argomenti non validi, qualsiasi
combinazione di premesse e conclusioni
è possibile
 Invalido
V-V
 Invalido V-F
 Invalido F-V
 Invalido F-F
24
 La
logica induttiva non dà nessun tipo di
certezza
 Non è valida deduttivamente
 Campioni
e popolazioni
 Proporzioni e probabilità
 Collegamento
con un’altra forma di
ragionamento:
 Inferenza alla migliore spiegazione
25
 Induzione
e inferenza alla migliore
spiegazione
 Charles
S. Peirce (1839-1914):
 Deduzione
 Regola
 Caso  Risultato
 Induzione
 Caso
 Risultato  Regola
 Abduzione
 Risultato
 Regola  Caso
26
 Induzione
e inferenza alla migliore
spiegazione
 Charles
S. Peirce (1839-1914):
 Deduzione
 Tutti
gli A sono B, x è A, x è B
 Induzione
x
è A, x è B (ripetuto), tutti gli A sono B
 Abduzione
x
è B, Tutti gli A sono B, x è A
27
 Induzione
e inferenza alla migliore
spiegazione
 Esempio:
 Il
formaggio nella dispensa è scomparso
 La
notte scorsa ho sentito rumori raschianti
provenienti dalla dispensa
 Quindi,
topo
il formaggio è stato mangiato da un
28
 Non
 Ma
deduttivo
neanche frutto di generalizzazione
 Eliminazione
di ipotesi alternative ed
identificazione dell’ipotesi migliore?
 Abduzione
migliore
 Ma:
- Inferenza alla spiegazione
viene prima l’induzione o l’inferenza
alla spiegazione migliore ?
29
 Peirce,
Harman etc.:
 ‘Prima
l’inferenza alla spiegazione
migliore!’
 Quando
generalizziamo induttivamente, non
facciamo che affermare ciò che ci sembra
costituire la migliore spiegazione
dell’evidenza
 Hume:
 ‘Prima
È
l’induzione!’
comunque sulla base di induzioni passate
che giudichiamo il potere esplicativo
30
 Due
definizioni generali:
 La
logica induttiva analizza gli
argomenti rischiosi usando idee
probabilistiche
 La
teoria della decisione analizza le
decisioni rischiose usando le idee di
probabilità e utilità
31
32
33
34
 Teorie
della probabilità
 Che
cos’è la probabilità?
 Teorie:
 Classica, statistica/frequentista,
soggettivistica/della credenza…
 1)
Teoria classica:
 Jacob
Bernoulli (1654-1705)
 Pierre-Simon de Laplace (1784-1829)
35
 Le
probabilità corrispondono a fatti
numerici relativi alle possibilità disponibili
 Per
esempio:
 Che
esca il 4 quando lancio un dado ha
probabilità 1/6
 Che esca un 7 totale con due dadi ha
probabilità 1/6 (6/36)
 Che esca un 6 totale con due dadi ha
probabilità 5/36
 Che esca lo 0 in un giro di roulette ha
probabilità 1/39
36
 Ma
le possibilità disponibili devono
essere viste come equiprobabili
 Circolarità?
 In generale, è difficile individuare le
possibilità e i loro pesi
 2)
Da qui, si è passati alle probabilità
come frequenze
 Frequenze
relative e frequenze al limite
 Esempi: lanci di monete, controlli su dadi
truccati…
 Problema con gli eventi unici?
37
 3)
Probabilità logica:
 John Maynard Keynes (1883-1946) e
Harold Jeffreys (1891-1989): la teoria
frequentista è sbagliata, la probabilità è
una relazione logica
 Carnap (1891-1970):
 ‘Io
concepisco la probabilità logica come
una relazione in qualche modo analoga
all’implicazione logica; infatti ritengo che la
probabilità possa essere considerata come
un’implicazione parziale’ (p. 50)
38
 Esempio:
 1)
La probabilità per un uomo di essere più
alto di 1,60 è 0,8
 2) x è un uomo
 C) x è più alto di 1,60
 1)
esprime una frequenza, è una
probabilità statistica
 C) ha probabilità (logica) 0,8 dati 1) e
2)
39
 4)
Probabilità personale/come
credenza:
 La
probabilità esprime una opinione
 Un’affermazione probabilistica esprime
il grado soggettiva di credenza nella
verità di una certa proposizione
 Essa
corrisponde a quanto
intuitivamente siamo disposti a rischiare
su qualcosa
40
 Teorie
della probabilità - addendum:
 Secondo
la teoria delle propensioni, si
danno fatti probabilistici oggettivi nel
mondo, anche singolarmente
 Esempio:
‘la probabilità per l’elettrone di
avere spin su quando lo si misura’
41
 Hacking:
 Il
focus sarà su probabilità come
credenza e probabilità come frequenza
 Possibilità
di un approccio dogmatico e
di un approccio eclettico
 Esempi:
monete, dinosauri, paraurti etc.
 Elementi soggettivi e oggettivi (aventi a che
fare col mondo o con relazioni logiche fra
enunciati)
42
 Quiz:
 Serie
 Si
di eventi riguardanti una roulette
assume che la roulette non sia truccata
 Esce
nero 12 volte di fila
 Tizio
osserva e conclude che gli conviene
puntare sul rosso
 Il
ragionamento di Tizio è giusto?
43
 Gli
assiomi e le regole della probabilità
 Proposizioni
 Nozioni
 1)
ed eventi
di base
Bilanciamento
 Nei
tempi lunghi ogni esito ha una frequenza
relativa uguale agli altri
44
 2)
Dipendenza e indipendenza degli esiti
 Gli
esiti precedenti (non) influiscono sulle
probabilità dei successivi
 3)
Onestà
 Lo
scenario non è sbilanciato, gli eventi
sono indipendenti
 Esempi
 Come
di disonestà (pp. 50-51)
valutare eventi reali?
45
 Risposta
al quiz. No!
 Se
si assume il bilanciamento tutti gli eventi
hanno la stessa probabilità, ma questo non ha
alcuna conseguenza sugli eventi singoli
 Se
si raggiunge la conclusione a favore del
rosso in base all’osservazione, si sta assumendo
la non indipendenza degli eventi
 Ma
Tizio sta invece raggiungendo la
conclusione sulla base dell’assunzione di
bilanciamento!
46
 Fallacia
del giocatore
 Se
lo scenario è onesto, gli esiti sono
indipendenti, e nessun evento osservato
può guidare predizioni su eventi futuri
 Rimane
aperta la questione se l’assunzione
di onestà è giusta o sbagliata
 Forse
si deve apprendere dall’esperienza che la
roulette è sbilanciata? O che gli eventi sono
dipendenti? (P. 56)
47
 Esempio
57)
 Ci
degli aerei e del rischio (pp. 56-
sono vari modi di ragionare in senso lato
 Premesse
diverse conducono a conclusioni
diverse - La logica induttiva non aiuta a
scegliere fra questi modi
 Però
c’è solo un modo di ragionare in
senso stretto - La logica induttiva permette
di evitare le fallacie
 Errore
nel modello e errore nel
ragionamento sul modello
48

49
 Se
A e B sono reciprocamente esclusivi,
Pr(A oppure B)=Pr(A)+Pr(B)
 Se
sono esaustivi, il totale è 1
 Es.:
 Se
lancio di una moneta: Pr(cr)+Pr(te)=1
A e B sono indipendenti, Pr(A e
B)=Pr(A)xPr(B)
50
 Si
può calcolare la probabilità
‘condizionale’ Pr(A|B)
 Se
Pr(B)>0, allora Pr(A|B)=Pr(A e B)/Pr(B)
 Da
cui segue Pr(A e B)=Pr(A|B)xPr(B)
 Esempi
pp. 79-81 e 82-86
 Possibilità
di visualizzare le possibilità e le
loro relazioni in forma di ‘albero’
 Di
nuovo la fallacia del giocatore
51
 Altre
regole:
 Probabilità
totale: se 0<Pr(B)<1,
Pr(A)=Pr(B)xPr(A|B)+Pr(non-B)xPr(A|non-B)
 Conseguenza
Pr(A)Pr(B)
 Indipendenza
logica: se B implica A,
statistica: se 0<Pr(A) e
0<Pr(B), A e B sono statisticamente
indipendenti se e solo se Pr(A|B)=Pr(A)
52
 Altre
regole:
 Sovrapposizione:
se A e B non sono
reciprocamente esclusivi,
Pr(A o B)=Pr(A)+Pr(B)-Pr(A e B)
 Tutte
le regole possono essere
‘condizionalizzate’, cioè estese ai casi in
cui abbiamo probabilità del tipo Pr(A dato
B) (Pp. 92-93)
53
 Riassunto
regole/assiomi:
 Normalità
 Certezza
 Additività
 Moltiplicazione
 Probabilità
totale
 Indipendenza
statistica
 Sovrapposizione
 Conseguenza
logica e condizionalizzazione
54
 Diagrammi
di Venn e rappresentazione
grafica delle relazioni probabilistiche
 (Pp.
95-97)
 La
domanda strana numero 2 e la
questione relativa alla (ir)razionalità delle
persone
 Relazione
 Nota
fra verità e informatività
storica: assiomi, Huygens e Kolmogorov
55
 La
regola di Bayes
 Thomas
Bayes (1702-1761)
 Pierre-Simon
 Nicholas
 Richard
 Harold
de Laplace (1749-1827)
Saunderson (1682-1739)
Price (1723-1791)
Jeffreys (1891-1989):
 “Bayes’
theorem is to the theory of probability
what Pythagoras's theorem is to geometry”
56
 La
regola di Bayes
Pr(H ) Pr(E / H )
Pr(H | E ) 
Pr(E )
57
 La
regola di Bayes
Pr(H ) Pr(E / H )
Pr(H | E ) 
Pr(E )
Pr(H ) Pr(E / H )
Pr(H | E ) 
Pr(H ) Pr(E / H )  Pr(nonH ) Pr(E | nonH )
 Dimostrazione
 Generalizzazione
 Applicazione
(pp. 105-106)
58
 Attendibilità
e tassi di base
 L’utilizzo
della regola di Bayes rende
evidente che occorre ragionare bene e
considerare tutti i dati rilevanti
 Per
 Ne
es., la proporzione totale di taxi verdi
segue una distinzione fra:
 Attendibilità1(di
 Attendibilità2
 Esempio
una fonte d’informazione)
(di una fonte dati i tassi di base)
della tonsillite (pp. 108-111)
59
 Importante:
 L’evidenza
permette di apprendere
anche a partire dall’assoluta ignoranza
 Le
probabilità saranno diverse, ma il modo
in cui sono aggiornate è lo stesso e porta
nella stessa direzione
 Addendum:
Pr(H 1 | E ) Pr(H 1) Pr(E | H 1)

Pr(H 2 | E ) Pr(H 2) Pr(E | H 2)
60
 Un’altra
 Falsi
distinzione fondamentale:
positivi e falsi negativi
 Se
il tasso di base è basso, un resoconto di una
fonte affidabile può essere sbagliato in un
numero non trascurabile di casi
 Se
il tasso di base non è basso e la fonte non
affidabilissima, il risultato negativo può essere
sbagliato in un numero non trascurabile di casi
61
Ipotesi vera
Ipotesi falsa
Risposta del test ‘no’
Falso negativo
OK
Risposta del test ‘sì’
OK
Falso positivo
62
Ipotesi vera
Ipotesi falsa
Risposta del test ‘no’
Falso negativo
OK
Risposta del test ‘sì’
OK
Falso positivo
 Esempio
1: tasso di base 1/10000,
attendibilità del test 99/100 – probabilità di
un falso positivo - Pr(V|S) - 99%
 Esempio
2: tasso di base ½, attendibilità
del test 60/100 – probabilità di un falso
negativo – Pr(V|S) - 40%! (t.b. 1/3 – 25%)
63
 Ancora
sul teorema di Bayes:
 Centrale
scienza
in statistica e filosofia della
I
teorici soggettivisti della probabilità e
dell’evidenza lo considerano essenziale
 Teoria
bayesiana della conferma
 Assunzioni
di base: Relatività dell’evidenza,
proporzionismo e conferma incrementale
64
 Ancora
sul teorema di Bayes:
 Centrale
scienza
in statistica e filosofia della
I
teorici soggettivisti della probabilità e
dell’evidenza lo considerano essenziale
 Epistemologia
 Uso
bayesiana
del teorema + regole di coerenza
 Obiezioni:
onniscienza, incertezza, problema
delle probabilità a priori… problema della
vecchia evidenza
65
 Esempio:
evidenza
Il problema della vecchia
 Se
H implica E ma E è già nota, la presunta
crescita nella fiducia in H a causa di E non si
dà
Pr(H ) Pr(E / H )
Pr(H | E ) 
Pr(E )
 Pr(E|H)=Pr(E)=1
 Quindi
Pr(H|E)=Pr(H) (??)
 Risposte:
novità nelle relazioni fra E e H,diverse
misure di conoscenza di E…
66
 Applicazione
 Come
 Atti,
 Il
all’azione e alla decisione
combinare probabilità e utilità?
conseguenze e utilità
valore atteso
 Att(A)=(Pr(C1)xU(C1)+Pr(C2)xU(C2)+…)
 Calcolare
il valore atteso di un atto
permette di sapere il ‘prezzo onesto’, il
rischio accettabile data la situazione
67
 Valutazione
di casi specifici (pp. 118-127)
 Riffe,
venditori ambulanti, viaggi, roulette,
lotterie…
 Martingale
 (P.
128): Metodo sicuro per vincere o rischio
eccessivo?
 Gioco
di San Pietroburgo e utilità
marginale
 (Pp.
129-132)
68
 Lancio
di una moneta bilanciata
 Se
esce testa si vincono 2 euro, se esce
croce si rilancia
 Se
esce testa al secondo lancio si
vincono 4 euro, altrimenti si rilancia
…
 Si
finisce quando esce testa
 Valore
atteso?
69
 Per
N =Il gioco finisce dopo n lanci:
 U(N)=2n
 Pr(N)=1/2n
 Valore
 Ma
atteso=((1/2)n(2n))
tale valore è infinito (1+1+1+…)
 Eppure
non considereremmo come
prezzo onesto per giocare una somma
infinita!
70
 Risposte:
 1)
Accetta la conclusione
 2)
Il gioco è fisicamente irrealizzabile
 3)
Non esiste un valore atteso ben
definito
 4)
Rimane improbabile vincere molto
 5)
Occorre considerare l’utilità marginale
 Cioè,
quella costituita dall’aggiunta di
qualcosa a risorse già esistenti
 Tale
utilità decresce, ed elimina il paradosso
71
 Probabilità,
utilità e valore atteso
 Prezzo
onesto, controesempi (martingale,
gioco di San Pietroburgo)
 Utilità
marginale
 Massimizzazione
nozione di ‘utile’
del valore atteso,
72
 Come
scegliere fra atti possibili?
 Massimizzazione
 Credenze
 La
del valore atteso
e desideri
nozione di ‘utile’
 Rischio,
incertezza e preferenze
 Utilitarismo
 Kantismo
 Avversione
 Esempi
al rischio
pp. 143-147
73
 Possibilità
di ‘incommensurabilità’
 Possibilità
di dissenso sia su probabilità
che su utilità
 Ruolo
della teoria della decisione in
questi casi:
 Analisi
dei dati rilevanti
 Indicazione
dei fattori oggettivi e condivisi e di
quelli su cui c’è reale disaccordo
 Esempio
pp. 147-150
74
 Relazione
fra modello e decisioni reali Paradosso di Allais
 100
carte numerate
 Se
ne pesca 1
 Gli
esiti sono distinti in 3 classi
 B:
carta inferiore a 90 (Pr(B)=0.89)
 N:
carta 90 (Pr(N)=0.01)
 A:
carta superiore a 90 (Pr(A)=0.1)
75
 Gioco
1:
 a):
500 euro se si verificano A o N, niente
se si verifica B
 b):
2500 euro sei si verifica A, niente se si
verificano B o N
È
preferibile a) o b)?
76
 Gioco
 c):
2:
500 euro regalati
 d):
2500 euro se si verifica A, 500 se si
verifica B, niente se si verifica N
È
preferibile c) o d)?
77
 Solo
la scelta congiunta b)+d) è
giustificata in termini di massimizzazione
dell’utilità!
 b)
2500 euro sei si verifica B, niente se si
verificano A o N
 d)
2500 euro sei si verifica A, 500 se si verifica B,
niente se si verifica N
 Si
osserva invece una prevalenza di b)+c)
 Avversione
al rischio? Irrazionalità?...?
78
 Decisione
in condizioni di incertezza
 La
scommessa di Pascal sull’esistenza di
Dio (pp. 158-168)
 Idee
guida e aspetti principali:
 Scelta
fra due opzioni definite, con
conseguenze precise
 Partizioni,
 Utilità
scommesse
infinite e utilità nulle
79
 Valore
atteso e regola del valore atteso

Dominanza e regola della dominanza
 Applicabile
a scenari indipendenti

 Controesempi
(pp. 164-165)
 Necessità
con scenari dipendenti
di considerare nuovamente in
modo esplicito le probabilità
80
 Considerazione
di probabilità anche nel
caso degli scenari indipendenti

 Probabilità
arbitraria oppure continuum di
assegnazioni di probabilità

 Valore
atteso dominante e regola del
valore atteso dominante
 Pascal
sembra avere ragione appena si
concede che Pr(Dio esiste)>0
81
 Probabilità,
 Valore
utilità, utili
atteso
 Applicazione
a scenari pratici:
 Disaccordo
sulla quantificabilità delle scelte
 Disaccordo
sulle quantificazioni di probabilità
e/o utilità
 Relazione
fra teoria e scelte reali
 Massimizzazione
del valore atteso,
dominanza e valore atteso dominante
82
 Le
probabilità personali
 Probabilità
come rappresentazione dei
gradi di credenza personali
 Valutazione
delle probabilità sulla base di
scenari immaginari
 Scommesse
e quotazioni:
 Quotazione=(puntata)/(posta
in gioco)
83
 Q=(puntata)/(posta
 Rappresentazione
dei pay-off
 Quotazioni
in gioco)
dei risultati – matrice
eque
 Non
c’è margine, è indifferente scommetere
su E alla quotazione p o contro E alla
quotazione (1-p)
 Probabilità
 Le
e scommesse condizionali
quotazioni includono il risultato nullo
84
 Risultato
fondamentale:
 Ci
sono (insiemi di) quotazioni che
conducono a perdita certa
 Esse
non sono coerenti
 L’incoerenza
si evita soddisfacendo le
regole di base della probabilità
 (Inaspettata)
 Hacking
conferma ‘pratica’ degli assiomi
pp. 216-221
85
 Più
precisamente:
 Se
si hanno credenze incompatibili, si è
soggetti a contratti a perdita certa
 Si
hanno tali credenze solo se si è soggetti
a contratti a perdita certa
 Si
hanno credenze compatibili e che non
portano a perdita certa se e solo se tali
credenze soddisfano le regole di base
della probabilità
86
 ‘Dutch-book
arguments’
 http://plato.stanford.edu/entries/dutch-book/
 F.P.
Ramsey, Truth and Probability (1926)
 Anche
le probabilità soggettive, cioè
intese come credenze, devono
soddisfare gli assiomi (‘probabilismo’)
 Assunzione
fondamentale: le nostre
quotazioni rispecchiano le nostre
preferenze e le nostre assegnazioni di
probabilità
87
 Argomento:
se le assegnazioni di
probabilità sono incoerenti, si incorre in
perdita certa
 Coerenza
probabilistica come condizione
necessaria per evitare la perdita certa
 Argomento
inverso: se si soddisfano gli
assiomi della probabilità, non si incorre in
perdita certa
 Coerenza
probabilistica come condizione
sufficiente per evitare la perdita certa
88
probabilistica  evitabilità
della perdita certa
 Coerenza
 Domande:
 Quale
senso di irrazionalità si presuppone?
 Scollamento
fra assegnazioni, preferenze e utili
 contraddittorietà logica: Possibilità di ‘Czech
book arguments’ - l’apparente irrazionalità
porta in pratica a vincite sicure!
 Estendibilità?
89
probabilistica  evitabilità
della perdita certa
 Coerenza
 Domande:
 Additività
con infiniti termini
 Condizionalizzazione:
 Principio
Prpost(A)=Prprec(A|E)
di riflessione: Pr(A|Prpost(A)=r)=r
…
 Dutch
books sincronici e diacronici
90
 In
generale, gli argomenti in questione
non indicano una incoerenza logica,
quanto una tensione fra obiettivi pratici
(teoria della decisione) e credenze
teoriche (assegnazioni di probabilità)
 Importanza
nell’epistemologia bayesiana,
e per i soggettivisti in genere
 Applicazioni
molteplici: per es., ‘sleeping
beauty’ problem

http://www.princeton.edu/~adame/papers/sleeping/sleeping.html
91
 Imparare
 Ancora
dall’esperienza (cap. 15)
il teorema di Bayes
Pr(H ) Pr(E / H )
Pr(H | E ) 
Pr(E )
Pr(H ) Pr(E / H )
Pr(H | E ) 
 Pr(Hi) Pr(E / Hi)
92
 Importanza
della ‘verosimiglianza’ Pr(E/H)
 Probabilità
a posteriori proporzionale a
probabilità a priori x verosimiglianza
 Il
denominatore si può considerare una
costante di proporzionalità
 Applicazioni
ripetute del teorema di
Bayes  uniformità nel modo di
aggiornare le proprie credenze
93
 Differenze
marginali
in probabilità a priori diventano
 Verosimiglianze
come indicatori del
‘peso’ della nuova informazione, modo
‘oggettivo’ di aggiornare le proprie
credenze
 Esempi
 Quindi:
pp. 227-233
credenze e quotazioni+Dutch book
arguments+regola di Bayes  Il teorema di
Bayes costituisce un (il?) modello
dell’apprendimento dall’esperienza
94
 Regola
di Jeffrey
 Pr*(A)=Pr(A|B)Pr*(B)+Pr(A|non-B)Pr*(nonB)
 Con
Pr* uguale alla probabilità dopo che
nuova evidenza è stata raccolta
 Cfr. Probabilità totale (p. 90)
 Vale
anche per i bayesiani logicisti
 Jeffreys
- L’update riguarda relazioni fra ipotesi
e dati
 Carnap - Requisito dell’evidenza totale e
continuum dei metodi induttivi
95
 In
conclusione, le probabilità come
credenze (o come relazioni logiche)
possono e devono essere modellate sulla
base delle regole di base della
probabilità
 Di
conseguenza, anche il teorema di
Bayes gioca un ruolo centrale
 Rimane
il fatto che il ragionamento
formalmente corretto può essere
fuorviante
 Esempio
dell’argomento di Leslie (pp. 243-245)
96
 Probabilità,
frequenza e statistica
 Per
i frequentisti, la regola di Bayes non è
essenziale
 Piuttosto,
è cruciale l’idea che le
probabilità si stabilizzino con l’aumentare
del numero delle prove
 Stabilità
 Media
statistica
campione e frequenza k/n
 Deviazione
standard DS=√((Xj-X)2/n)
97
 Prove
bernoulliane
 Eventi
indipendenti, esito possibile E con
probabilità costante p
 La
frequenza relativa di E si avvicina alla
probabilità p in proporzione alla lunghezza della
successione di prove
 Per
ogni margine di errore , all’aumentare
del numero delle prove la differenza fra
frequenza relativa e p può rimanerne al di
sotto
 La
‘probabilità della precisione’ si avvicina a 1
98
 Per
n eventi con probabilità p, il numero
più probabile di esiti E è
approssimativamente uguale a pn
È
il numero compreso fra pn-(1-p) e pn+p
 La
frequenza relativa più probabile è
quindi:
(p-((1-p)/n)) ≤ k0/n ≤ (p+p/n)
 Teorema.
Per un numero molto grande di
prove, la frequenza relativa più probabile
k0/n coincide con p
 Pp.
252-254
99
 La
convergenza della frequenza relativa
verso la probabilità (frequenza relative
attesa) e del margine di errore verso 0
(probabilità della precisione1) si possono
riassumere nel
 Teorema
di Bernoulli:
ogni piccolo errore  e piccola
differenza x, esiste un numero di prove N tale
che per ogni n>N:
 Per
Pr[(p-)≤k/n≤(p+)]>(1-x)
100
 Approssimazioni
 Curve
normali
di Gauss, medie e deviazioni
e : i valori a cui la media del campione
k/n e la deviazione standard DS=√((Xj-X)2/n) si
approssimano


come misura standard di approssimazione
 Fatto
normale I a p. 262
101
 Distribuzione
binomiale
b(k; n, p)
 Probabilità
di ottenere k volte l’evento E
in n prove quando la probabilità è
Pr(E)=p
 Per
p non molto vicina a 0 o 1, tale
distribuzione è approssimata da una
distribuzione normale con
 =pn
 =√((1-p)pn))
102
 Dato
tutto questo, si deriva che
 Per
ogni probabilità p, numero totale di
eventi n, e numero favorevole di eventi k:
 La
probabilità che k diverga da pn non più di
 è circa 0.68
 La
probabilità che k diverga da pn non più di
2 è circa 0.95
 La
probabilità che k diverga da pn non più di
3 è circa 0.99
 dove
=√((1-p)pn))
103
Significatività e potenza

 La
significatività esprime la rilevanza di un
certo dato rispetto alle frequenze e alle
approssimazioni definite in precedenza
I
test di significatività mettono alla prova
una certa ipotesi, evidenziando risultati
che in base all’ipotesi hanno probabilità
più bassa (cfr. la verosimiglianza – p. 276)
 Significativo
al livello p vuol dire che i
risultati in questione hanno probabilità p
(date certe assunzioni)
104
I
test statistici sono allora progettati per
individuare eventuali dati significativi
rispetto ad una ipotesi data
 Idea
di ipotesi nulla
 Considerando
varie ipotesi si può allora
comprendere quanto i dati osservati sono
‘naturali’ nel contesto di ciascuna di esse
 Rimane
però possibile che nessuna delle
ipotesi considerate sia corretta
 Possibilità
di correlazioni con cause comuni
(pp. 281-285)
105
 Un
risultato significativo può portare a
scartare l’ipotesi nulla in favore di
qualche altra congettura
 Ma si può anche sostenere che occorra
accettare le ipotesi se i risultati non sono
significativi
 Più importante il primo o il secondo
elemento?
 Significatività
 ‘Dogmatici
o accettazione/rifiuto?
della significatività’ e
‘dogmatici dell’accettazione’
106
 Possibilità
di un approccio eclettico che integri
gli aspetti positivi delle due posizioni
 Come
definire criteri per l’accettazione e
il rifiuto di una ipotesi?
 Aggiunta dell’idea di potenza
 Neyman e Pearson
 Due
tipi di errore possibile:
 Respingere
H quando è vera
 Accettare H quando è falsa
107
 La
significatività di fatto conduce alla
 Minimizzazione
un’ipotesi vera
della probabilità di respingere
 Ma
i test dovrebbero anche massimizzare
la potenza, cioè
 Minimizzare
la probabilità di accettare
un’ipotesi falsa
I
test di Neyman-Pearson mirano quindi a
minimizzare sia Pr(R|H) che Pr(A|non-H)
 Pp.
287-289
108
 Fiducia
e comportamento induttivo
popolazione  campione (frequenze
ideali e relative, teorema di Bernoulli e
test statistici) a
 Da
 Campione
 popolazione: come usare
un campione per formulare stime più
generali?
 Esempio
opinione
 Modelli
paradigmatico: i sondaggi di
e dati
109
 Stime
puntuali e stime per intervalli
 Come
 Idea
valutarne l’attendibilità?
di fiducia e intervalli di fiducia
 Strategia
argomentativa (pp. 300-2):
 Assunzione
del caso peggiore (p=1/2) (e
aggiunta di ‘almeno’)
 ‘Inversione’:
da i) un’assunzione sulla
popolazione per parlare del campione a
ii) dati sul campione e conclusioni sulla
popolazione (deduzione  induzione)
110
 Fiducia
e errore sono inversamente
proporzionali
 Vari
tipi di evidenza, campioni stratificati
 Relazione
con i test di Neyman-Pearson:
in molti casi ragionare in termini di
intervalli di fiducia e cercare di
massimizzare significatività e potenza è
equivalente (p. 308)
 Neyman
induttivo
 Pp.
e l’idea di comportamento
310-312
111
 Applicazione
al problema filosofico
dell’induzione:
 Hume
(cap. 19)  Goodman
 Soluzioni
anti-induttive (Popper)
 La
logica induttiva aggira il problema
riconoscendo la non necessità delle
conclusioni, ma definendo comunque
regole preferibili
 Giustificazione
razionale (deduttiva) no,
ragionevolezza pratica sì
112
 Aggiramento
 Hume
bayesiano
ha ragione: nessuna giustificazione
 Ma
la regola di Bayes ci mostra il modo
‘razionale’ per imparare dall’esperienza
 Se
due soggetti concordano su ciò che è
possibile/impossibile, l’apprendimento
bayesiano porta sempre alla
convergenza e all’accordo
113
 Obiezione:
 L’elemento
fondato
 Perché
diacronico non è ben
pensare che le mie credenze a
un tempo successivo debbano essere
uguali a quelle che ora potrei calcolare
come probabilità a posteriori?
114
Pr(H ) Pr(E / H )
Pr(H | E ) 
Pr(E )
 Condizionalizzazione:
Prpost(A)=Prprec(A|E)
 Argomenti
bayesiani basati su coerenza e
contratti a perdita certa?
 Fedeltà
al ‘vecchio io’ come ‘imperativo
morale’?
115
 Aggiramento
frequentista:
 Dall’abitudine
di Hume alla abitudine
saggia del ‘comportamento induttivo’
 Date
certe conoscenze e credenze di
sfondo, possiamo provare che certe
abitudini e modi di procedere sono
preferibili
 Essi
ci conducono nella maggior parte
dei casi ad essere nel giusto
116
 Più
in particolare:
 i)
Noi possiamo interagire attivamente
con la natura attraverso test ed
esperimenti
 ii)
Ci sono risultati deduttivi che implicano
l’alta probabilità di successo del
comportamento induttivo nel senso
frequentista
 Obiezione
1 - basata sull’uso di modelli in cui
l’uniformità della natura è presupposto
 Obiezione
2 - del caso singolo
117
 Risposte
frequentiste?
 Uniformità
ok - Dissoluzione e non
soluzione (Mill?)
 Insistenza
sulla rilevanza dei risultati formali
e la potenziale rivedibilità
 Reinterpretazione
degli scenari a caso
singolo come idealmente connessi alla
probabilità reale
 Peirce
sull’elemento intrinsecamente sociale
del ragionamento
118
 Argomenti
 Base
aggiuntivi:
metafisica - Armstrong:
 Induzione
basata su leggi come
connessioni necessarie fra universali
 Le leggi di natura sono una necessità
metafisica
 Sono spiegate nel modo migliore in termini
di universali
 E a loro volta costituiscono la migliore
spiegazione delle regolarità che
osserviamo intorno a noi
119
 Base
matematica - Williams (1947):
 “Given
a fair sized sample, then, from any
[large, finite] population, with no further material
information, we know logically that it very
probably is one of those which [approximately]
match the population, and hence that very
probably the population has a composition
similar to that which we discern in the sample.
This is the logical justification of induction”.
 Cfr.
posizione di Neyman
 Rielaborazione
da parte di Stove (1986),
ulteriore discussione
120
 Williams
concepisce il problema
dell’induzione in termini di:
 i) Inferenza campione  popolazione
 ‘Inversione’
 ii)
dei risultati di Bernoulli etc.
Sillogismo statistico
 Sillogismo
 Tutti
gli S sono P, questo è un S, questo è P
 Sillogismo
 La
standard:
statistico:
maggioranza degli S sono P, questo è un S,
questo è probabilmente P
121
 Quindi:
 Data
la popolazione, la maggioranza dei
campioni sufficientemente grandi non si
discosta troppo da essa
 Analogamente, la maggioranza dei
campioni sufficientemente grandi è
rappresentativa della popolazione
 Di
conseguenza, è razionale pensare che
il campione grande che abbiamo è
rappresentativo, e che la popolazione è
molto simile al campione
122
 L’argomento
in versione più formale:
1) S è un campione sufficientemente grande da
P - (ass.)
2) La frequenza di un certo tratto R in S è r - (ass.)
3) La frequenza relativa di campioni come S è
alta - (principio di frequenza – fatto sui grandi numeri)
4) Prob(S simile a P) alta - (1), 3), prob. come freq.)
5) Prob(f(R|P)r|S simile a P) alta - (2), somiglianza)
6) Prob(f(R|P)r) alta - (4), 5))
123
 Sommario:
Scienza: ipotesi, spiegazioni e probabilità
Probabilità e logica induttiva, definizioni e
posizioni filosofiche
Assiomi della probabilità, teorema di Bayes
Utilità, valore atteso, dominanza; decisioni
Probabilità personali, centralità del teorema di
Bayes, argomenti basati sull’idea di perdita
certa; regola di Jeffrey
124
 Sommario:
Probabilità come frequenze; stabilità, medie e
deviazioni; distribuzioni
Prove bernoulliane e risultati matematici;
significatività, potenza e fiducia
Comportamento induttivo e applicazione della
logica induttiva al problema dell’induzione
Aggiramento bayesiano e aggiramento
frequentista, risultati (anche formali) e loro
significato filosofico, discussione aperta…