Claudio Pizzi
LEZIONI DI LOGICA DELLA PROVA (a.a.2013-2014)
LEZIONE 1. Il calcolo delle probabilità
LEZIONE 2. Concezioni della probabilità
LEZIONE 3. Il bayesianesimo
LEZIONE 4 Bayesiani e antibayesiani
LEZIONE 5 Alternative al bayesianesimo giudiziario
LEZIONE 6. Fallacie statistiche
LEZIONE 7. L’abduzione
LEZIONE 8. Il ragionamento controfattuale e la nozione di inferenza razionale.
LEZIONE 9. La teoria controfattuale della causa e l’accertamento delle cause.
LEZIONE 10. Problemi della teoria dellaconditio sine qua non.
LEZIONE 11. Il relativismo e il problema della ricostruzione dei fatti.
LEZIONE 12. La scientificità come oggetto di prova.
LEZIONE 1.Il calcolo delle probabilità
Ci sono motivi per credere che la nascita del calcolo delle probabilità sia stata in qualche misura favorita
dalla cosiddetta “piccola glaciazione”, un mutamento climatico verificatosi in un arco di tempo che va
dall'inizio del XIV secolo alla metà del XIX secolo. In questo periodo venne registrato un raffreddamento del
clima che raggiunse il suo acme intorno al 1600 e cominciò a decrescere verso il 1800. Non stupisce
constatare che, nel periodo in cui grandi filosofi come Cartesio e Bacone morivano per un’infreddatura, i
pittori davano la preferenza a ritratti e situazioni ambientate in interni. I nobili limitavano il tempo destinato
alla caccia e alle attività all’aria aperta, dedicando una buona parte del loro tempo alle letture e ai giochi di
società. Questi ultimi erano frequentemente giochi d’azzardo con uso dei dadi, come il gioco della barca o
quello del tric-trac (antenato delbackgammon). Di solito si fa risalire la prima trattazione della probabilità a
un libro di Girolamo Cardano dedicato al gioco d’azzardo, ilLiber de ludo aleae (scritto nel 1560, ma
pubblicato solo nel 1663) che contiene tra l’altro una sezione dedicata a metodi per barare con successo.
Ma l’aneddotica vuole che il primo progresso memorabile in questi studi sia stato originato da una serie di
quesiti che il cavaliere de Méré pose all’austero giansenista Blaise Pascal. Per esempio: “se lanciamo due
dadi, quanti lanci sono necessari per avere almeno il 50% di probabilità di ottenere due sei almeno una
volta”? Le risposte di Pascal, da lui discusse anche con Fermat, si trovano pubblicate alla fine dellaLogique
de Port Royal (1662). Il salto di qualità rispetto a trattazioni precedenti come quella di Cardano fu che per la
prima volta Pascal cercava di trattare la nozione di probabilità in modo astratto, cioè svincolato dalla
discussione di esempi specifici. È anche degno di nota che Pascal considerasse la probabilità applicabile alla
valutazione delle prove giudiziarie, idea che venne sviluppata da Leibniz nel suoNova methodus discendae
docendaeque jurisprudentiae (1667).
Nel 1655 il sommo fisico Christian Huygens, dopo aver conosciuto il cavaliere de Méré a una cena, venne
a sapere di questi studi e se ne interessò al punto tale da pubblicare nel 1657 il primo trattato conosciuto di
calcolo delle probabilità,“De ratiociniis in ludo aleae”. Per la prima volta veniva introdotta una nozione che
avrebbe avuto fortuna, quella di speranza matematica. Lasperanza matematica o utilità attesa di un evento
singolare è il prodotto del guadagno che ci si attende di conseguire grazie al verificarsi di un certo evento
per la probabilità che tale evento si verifichi. In molti campi di applicazione gli eventi singolari si possono
vedere come esiti diesperimenti casuali, di esperimenti cioè che invece di produrre un esito univoco possono
produrre diversi esiti alternativi tra loro. Il lancio dei dadi può essere considerato un esperimento casuale di
particolare tipo.
Per un' ovvia estensione del concetto di speranza matematica, la speranza matematica o utilità attesa di una
pluralità di esiti alternativi di esperimenti casuali è la somma dei valori della speranza matematica dei singoli
esiti alternativi. Per esempio, supponiamo di fare una partita a Testa e Croce con un altro giocatore, che
possiamo anche identificare con “il banco” o “l’allibratore”. Il gioco prevede un solo lancio di moneta: si
stipula con il banco che se esce Testa riceverò da lui€50 e se esce Croce riceverò€0, cioè non vincerò nulla.
Se presupponiamo che la probabilità di entrambi gli esiti sia la stessa (1/2, cioè 0,5), questo è un gioco per
me molto vantaggioso perchè nel peggiore dei casi non perderò niente! In assenza totale di rischio, si dice che
la posta in gioco è nulla. In questo gioco si può calcolare la speranza matematica, outilità attesa, per me
dell’insieme di esiti nel modo seguente:
(*) 50 • 0,5 + 0 • 0,5
(cioè il guadagno di "Testa" per la sua probabilità più il guadagno di "Croce" per la sua probabilità) dà come
valore €25 + 0, cioè €25.
Il gioco sopra esemplificato può esistere solo nell'immaginazione. E' chiaro che nessun allibratore dotato di
ragione accetterebbe di giocare con me alle condizioni viste.
Un allibratore razionale mi chiederà di
stipulare con lui un contratto che gli dia qualchechance di guadagno. Per esempio mi chiederà di fare una
puntata di €50 a queste condizioni: in caso di vincita io guadagnerò, come prima, €50, mentre in caso
contrario dovrò dare all'allibratore €50, cioè quanto ho scommesso. Se esce Testa ora avrò un guadagno
netto di €50 e se esce Croce invece perderò€50, che costituiscono il guadagno dell' allibratore. In tal caso,
sempre presupponendo che le due alternative abbiano lo stesso grado di probabilità, il calcolo della speranza
matematica del gioco prende questa forma:
(**) 50 • 0,5 + (-50) • 0,5 = 25 + (-25) = 0
La speranza matematica complessiva del gioco quindi è zero, sia per me che per l'allibratore. Quando ciò si
verifica un gioco si dice equo.
Quando un gioco è equo, chi puntasse la stessa somma su due alternative equiprobabili avrebbe un
guadagno pari a zero, qualunque sia l'esito del gioco: nel caso dell'esempio, guadagnerebbe €50 e
simultanemante perderebbe €50. Come chiunque sa, i giochi d'azzardo gestiti dallo Stato (lotto e roulette in
primo luogo) non sono affatto equi nel senso ora definito.
Nel caso precedente il calcolo è stato fatto in base alla stima che i due eventi fossero indifferenti o
equiprobabili. Ma le cose sarebbero diverse, per esempio, venissimo a sapere che la moneta è sbilanciata a
favore di Testa in modo tale che la probabilità di Testa si può stimare a 0,6 e la probabilità di Croce a 0,4. In
tal caso, nelle condizioni in cui si scommette una somma di denaro pari a quella di (**), il calcolo darebbe
un risultato diverso, cioè
(°) 50 • 0,6 + (-50) • 0,4 = 30 + (-20) = 10
Si noti che il rapporto tra probabilità matematica e speranza matematica è bidirezionale, nel senso che
conoscendo la speranza matematica del gioco e i guadagni attesi dell’evento e dell'evento complementare
possiamo derivare la probabilità degli stessi. Per esempio, se partiamo dalla eguaglianza (°), ponendo come
valore incognito x la probabilità di Testa e quindi 1-x quella di Croce avremmo
(1)
50 • x + (-50) • (1-x) = 10
(2)
50 • x + (-50) + 50 • x = 10
(3)
100 • x = 10 + 50 = 60
(4)
x = 60/100 = 30/50= 0,6
In (4) dunque la probabilità dell’uscita di Testa viene espressa come un quoziente tra due somme di denaro,
30 e 50: intuitivamente, il rapporto tra l'utilità attesa o sperata dell'uscita di Testa (€30) e quanto si incassa
nel caso di uscita di Testa (€50). La conclusione suggerisce fortemente la possibilità di definire la nozione di
probabilità in termini di rapporti tra somme di danaro, idea che è diventata quasi un luogo comune nella
corrente novecentesca nota come “soggettivista”(per cui v. La lezione 2).
Naturalmente è lecito chiedersi da dove provenga l'assegnazione di un valore come 0,6 all' uscita di Testa
come nell'esempio (°). Il calcolo delle probabilità non può dare una risposta a questa domanda, a cui si può
rispondere solo applicando considerazioni extracalcolistiche. Siamo di fronte al cosiddetoo "problema delle
probabilità iniziali". L' assegnazione del valore 0,6 può derivare
da valutazioni aprioristiche o
semplicemente soggettive, ma può anche derivare dalla conoscenza di fatti oggettivi determinati dalle
proprietà della moneta, per esempio dall’osservazione delle frequenze statistiche dell’uscita di Testa in un
grande numero di lanci. Si noti che quando Huygens inaugurava queste ricerche la statistica muoveva i suoi
primi passi sull’onda degli interessi delle compagnie di assicurazione, alle quali premeva conoscere con
esattezza la speranza di vita dell’assicurato al momento della stipula della polizza.
È degno di nota, comunque, come ha osservato Ian Hacking in “The Emergence of Probability”, che la
probabilità fin dall’inizio reca il marchio di una “dualità” concettuale di fondo che è il suo peccato originale:
da un lato appare definibile in termini di gradi di credenza soggettiva, dall’altro si lascia rappresentare come
una misura di frequenze statistiche oggettive c( hances). Lo stesso Pascal mostrava una certa ambivalenza nel
momento in cui da un lato studiava statisticamente le distribuzioni di risultati nei giochi di azzardo, dall’altro
usava il celebre argomento della scommessa per mostrare la superiore razionalità di chi sceglie di credere in
Dio. L’ argomento è ben noto ma si può ricostruire così.
Possiamo visualizzare le alternative di guadagno positivo o negativo in dipendenza dell’atteggiamento verso
la religione in modo combinatorio (ponendo: PO = piaceri e onori di questo mondo , R = rinuncia ai piaceri
e onori di questo mondo, Par = Paradiso, Inf= Inferno).
L’anima è immortale
L’anima è mortale
Vivere da ateo
PO + Inf
PO
Vivere da credente
R + Par
R
Possiamo assegnare alle due alternative circa la mortalità dell'anima diversi valori di probabilità in dipendenza
dall'atteggiamento del soggetto verso l'immortalità dell' anima. Semplificando, si possono impiegare solo i
valori probabilistici estremi 1 (cioè 100%) e 0. Le valutazioni comparative delle utilità, anche se difficili da
esprimere in termini monetari, sono però oggettive: non c’è dubbio che per tutti gli umani PO è migliore di R;
ma d’altro canto PO+Inf è l'alternativa peggiore di PO, R, R+Par (c'è qualcosa di peggio che soggiornare
all’inferno per un tempo infinito? Questo è ciò che attende l'ateo nel caso che le sue credenze siano errate,
nonostante effimeri piaceri e onori). Inoltre R+Par è certo migliore di PO, perchè la vita in Paradiso dura un
tempo infinito. In base al principio c.d. delminimax (grosso modo la “logica del meno peggio”) bisogna
scegliere quella condotta che offre complessivamente la maggiore utilità attesa: e per Pascal si può solo
concludere che la condotta dotata di una maggiore utilità attesa è quella che consiste nel vivere da credente.
Per capire l' argomento bisogna assegnare Probabilità 1 o 0 alle due alternative circa la mortalità dell'anima
secondo la prospettiva, atea o religiosa, che si suppone di adottare, moltiplicarle per il valore di utilità,
calcolare la somma dei valori alternativi e fare un confronto delle utilità attese. Si vedrà che l'utilità attesa del
vivere da ateo si riduce a 0+( PO • 1) (=PO), mentre quella del vivere da credente si riduce a (R+ Par) • 1 + 0
(= R + Par), dopo di che l'esito della confronto appare ovvio.
Questo argomento ha fatto considerare Pascal il padre di quel ramo delle scienze formali oggi nota come
teoria delle decisioni, che recentemente ha conosciuto uno sviluppo paragonabile a quello della statistica tra
800 e 900, agganciandosi anche alla c.d. teoria dei giochi.
Nella statistica, in linea di principio, non dovrebbero entrare né decisioni nè valutazioni di tipo soggettivo. In
tema di probabilità statistica o “oggettiva” di un evento, va però subito detto che questa va distinta dalla
probabilità teorica dell’evento stesso. Il modo in cui va determinata tale probabilità teorica, come vedremo, è
un problema filosofico: per ora possiamo dire che è quella che si può stabilirea priori in base a una
considerazione idealizzata delle proprietà dell’oggetto che entra negli esperimenti. Se la probabilità teorica
p
dell’uscita di testa è, poniamo, 0,5, le percentuali di testam che vengono effettivamente osservate dopo un
certo numero di lanci n, espresse dalla frazione m/n, possono essere inferiori, superiori o uguali a 0,5.
La differenza in valore assoluto tra frequenza osservatam/n e la probabilità teorica p, che si rappresenta
come |m/n - p|, è detta scarto e le sue proprietà sono stata oggetto di uno studio matematico rigoroso. Il
famoso teorema di Bernoulli, detto anchelegge debole dei grandi numeri, asserisce che con l’aumentare del
numero n di esperimenti aumenta la probabilità che lo scarto diventi più piccolo di un qualsiasi numero
positivo ε preso piccolo a piacere. In parole povere, con l’aumentare degli esperimenti è sempre più probabile
che lo scarto diventi sempre più piccolo.
Si noti che il teorema consiste in un asserto probabilistico circa i rapporti tra probabilità teoriche e
frequenze. Contrariamente a quanto molti sono inclini a pensare, la proposizionenon asserisce che nella
realtà dei fatti le frequenze a lungo andare tendono a coincidere con le probabilità teoriche. Questo secondo
asserto non è una proposizione matematica - viene a volte chiamatoPostulato empirico del caso- e descrive
una proprietà innegabile del mondo reale, che è quella di presentare una persistente uniformità spaziotemporale delle manifestazioni fenomeniche. Grazie a questa caratteristica del mondo, chiamata dai filosofi
Uniformità della Natura, di fatto le frequenze osservate tendono immancabilmente a convergere verso la
probabilità teorica. Ma, ripetiamo, questa è una verità di fatto, non una verità matematica.
I nomi più importanti da ricordare negli sviluppi del calcolo delle probabilità tra il 600 e l’ 800 sono oltre a
quelli già menzionati, quelli di De Moivre, di Bernoulli e di Laplace. Altri nomi sono quelli di Thomas
Simpson e Carl Friedrich Gauss, che nell’800 posero le basi della cosiddetta teoria degli errori.
Già agli inizi del 700 era chiaro che il calcolo comunque si appoggiava a due regole di calcolo fondamentali,
che vennero considerate veri e propri principi basilari fino a raggiungere la loro forma definitiva nell’
assiomatizzazione insiemistica formulata da A. Kolmogorov (1932). Ne parleremo come di Principio delle
Probabilità Totali e delle Probabilità Composte: il primo utilizzabile per sommare probabilità, il secondo per
moltiplicare probabilità.
Siano E1 ed E2 due eventi (es. E1:piove, E2:tira vento) , E1 ∪ E2 la loro unione (piove oppure tira vento),
E1 ∩ E2 la loro intersezione (piove e tira vento) –E1 il complemento di E1 (non piove). Queste entità sono da
intendere tecnicamente comeinsiemi, e precisamente come insiemi dei casi possibili in cui si verifica un dato
evento. Volendo intendere queste grandezze come proposizioni e non come eventi, si preferisce di solito usare
un’altra notazione, cioè E1 v E2, E1 & E2, ¬E1.
Pr sia una funzione che associa ad ogni evento un numero razionale o irrazionale tra 0 e 1 (funzione di
probabilità). Questo si esprime dicendo che, per ogni evento E
i,
(Pr) Per ogni Ei , 0 < Pr(Ei) < 1
Dato che –Ei indica il complemento di Ei (per esempio “non piove” rispetto a “piove”) nessun evento può
avere probabilità maggiore dell’ evento totale Ei ∪ -Ei (es. piove o non piove), e questo perchè tale evento
complesso ha lo stesso grado di certezza delle verità logico-matematiche. Quindi integreremo (Pr) con questo
secondo principio, detto di "Normazione a 1":
(N) Per ogni Ei, Pr (Ei ∪ -Ei ) =1.
Fatte queste premesse, il principio delle probabilità totali asserisce questo:
(PT)
Pr (E 1 ∪ E2) = Pr E1 + Pr E2 – Pr(E1 ∩ E2)
Per calcolare il valore della probabilità dell’evento composto sulla sinistra bisogna conoscere i valori di
input che si trovano sulla destra, che sono le c.d. “probabilità iniziali”. Nel caso del nostro esempio è
difficile determinare la probabilità che piova, che tiri vento o che piova e tiri vento insieme, a meno di
ricorrere a qualche statistica metoreologica. Ma altri esempi sono meno difficoltosi perché possiamo ricorrere
a valutazioni “a priori” : per esempio, pochi troveranno da ridire sul fatto che in un mazzo di 52 carte non
truccato la probabilità di sorteggiare un asso è 1/13 e quella di sorteggiare una carta di picche è 1/4. In base a
queste premesse possiamo tentare di risolvere un problema come questo: qual è la probabilità di sorteggiare un
asso o una carta di picche? La risposta è questa: la probabilità richiesta è la probabilità di sorteggiare un asso
(1/13) più la probabilità di sorteggiare una carta di picche (1/4) meno la probabilità di sorteggiare un asso di
picche (1/52). Quindi abbiamo (1/13 +1/4) – 1/52 = (4/52+ 13/52) – 1/52 = 16/52=0,3076923.
Se gli eventi E1 ed E2 sono incompatibili il calcolo delle probabilità totali viene semplificato perché
Pr(E1 ∩ E2)= 0. In particolare, se E2 è –E1, avremo
(°)Pr (E1 ∪ -E1) = Pr (E1) + Pr(-E1)
Quindi, stante che, per (N), Pr (E1 ∪ -E1) =1, avremo
(°°) 1 = Pr(E1) + Pr(-E1).
Da ciò naturalmente segue
(°°°) Pr(-E1) = 1 – Pr(E1)
Se il Principio delle Probabilità Totali consente di calcolare la probabilità di eventi disgiunti, il Principio delle
Probabilità Composte invece consente di calcolare le probabilità di eventi congiunti. Per cominciare
indicheremo con Pr(E2| E1) la probabilità di E2 dato E1 (detta probabilità subordinata o condizionata): per
esempio la probabilità che piova sapendo che tira vento. Allora il Principio delle Probabilità Composte
asserisce questo:
(PC)
Pr(E 1 ∩ E2) = Pr(E1) • Pr(E2| E1)
Dato che E1 ∩ E2 = E2 ∩ E1, vale però anche a pari titolo
(PC*)
Pr(E 1 ∩ E2) = Pr(E2) • Pr(E1| E2)
L'eguaglianza Pr(E2| E1) = Pr(E2) significa che i due eventi E1 ed E2 sono indipendenti, o in altre parole
che E1 non influenza E2 e E2 non influenza E1. Se vale l’indipendenza tra E1 e E2, però, la formula (PC) si
riduce a
(PC**) Pr(E1 ∩ E2) = Pr(E1) • Pr(E2)
Esempio1: Qual è la probabilità che in un lancio di due dadi non truccati escano due 3? Pr E
1= 1/6, Pr(E2) =
1/6, Pr(E2| E1)=1/6 (perché i due eventi sono indipendenti): quindi Pr( 1E ∩ E2) = 1/6 • 1/6 = 1/36
Esempio 2: La probabilità che c’è maltempo (M) e la probabilità che piova (P) non sono indipendenti, anzi la
pioggia implica il maltempo! Quindi Pr(M|P) =1. Quindi per (PC) la probabilità che piova e ci sia maltempo
(Pr(P ∩ M) è uguale a Pr(P) • Pr(M|P) = Pr(P) • 1 =Pr(P).
Dal principio delle probabilità composte seguono alcune conseguenze interessanti. La prima è che la
nozione di probabilità condizionata o subordinata risulta definibile in termini di probabilità assoluta. Infatti, se
A e B sono eventi qualsiasi, come ripetiamo,
(PC)
Pr(A ∩ B) = Pr(A) • Pr(B|A)
Ma da ciò abbiamo (se Pr(A) ≠ 0)
(ProbC)
Pr(B|A) =
Pr(A ∩ B)
Pr (A)
Sostituendo A con B e viceversa abbiamo
(ProbC*)
Pr(A|B) = Pr(A ∩ B)
Pr (B)
(se Pr(B) ≠ 0)
da cui abbiamo a pari titolo
(PC*) Pr(A ∩ B) = Pr(B ∩ Α)= Pr(B) • Pr(A|B)
Facendo in (ProbC) una semplice sostituzione utilizzando l'eguaglianza PC* deriviamo il cosiddetto
Teorema
di Bayes:
(TB) Pr(B|A) = Pr(B) • Pr(A|B)
(se Pr(A) ≠ 0)
Pr(A)
Volendo eliminare la frazione sulla destra la stessa formula si può riscrivere così:
(TB-) Pr(B|A) = Pr(B) • Pr(A|B) • Pr 1/A
(se Pr(A) ≠0)
Questa formula si può trasformare in formule equivalenti più complesse. Se -B è un’ipotesi alternativa
incompatibile con B (p.es. “pari” e “dispari”), abbiamo ovviamente per il principio delle probabilità composte
Pr(A ∩ -B) = Pr(-B) • Pr(A|-B)
Osserviamo poi che, per la teoria degli insiemi, A = (A∩B) ∪ (A ∩ -B), come si vede da una semplice
diagrammazione. Si noti ora che grazie a questa identità il denominatore della frazione in (TB) è equivalente,
per PC*, a Pr ((A ∩ B) ∪ (A ∩ -B)). Per il teorema delle probabilità totali, essendo incompatibili i due
eventi A ∩ B e A∩ -B, questo equivale alla somma Pr( B) • Pr(A|B) + Pr(-B) • Pr(A|-B) . Allora la
formula TB prende la seguente forma più complessa:
(TB*) Pr(B|A) = ____Pr(B) • Pr(A|B)
(se Pr(A) ≠ 0)
Pr( B) • Pr(A|B) + Pr(-B) • Pr(A|-B)
Ovviamente, se le ipotesi incompatibili sono non solo due man (B1...Bn), la formula TB* si può
generalizzare a n ipotesi.
Il teorema di Bayes TB (insieme alle sue varianti come TB*) è considerato un pilastro del calcolo delle
probabilità, anche se in realtà si può vedere che è semplicemente una forma più complessa del principio delle
probabilità composte. Il suo nome deriva a dal matematico che ne diede la prima formulazione in un saggio
pubblicato postumo nel 1763 (in realtà, Bayes non era un matematico ma un reverendo presbiteriano nato nel
1702 e morto nel 1761). Secondo un luogo comune, Il Teorema di Bayes ha per il calcolo della probabilità la
stessa importanza che ha il teorema di Pitagora per la geometria. Conoscendo o assumendo i valori di Pr(B) e
Pr(A), infatti, è possibile calcolare la probabilità di B dato A in termini della probabilità inversa di A dato B,
grandezza che viene talvolta chiamata verosimiglianza likelyhood).
(
È quindi possibile calcolare, per esempio,
la probabilità della causa dato l’effetto, o dell’ipotesi esplicativa explanans)
(
dato un certo fatto da spiegare (l’
explanandum) una volta che sia nota la probabilità dell’effetto data la causa o dell’explanandum dato
l’explanans.
Alcune considerazioni sul calcolo delle probabilità sono a questo punto opportune. La funzione di
probabilità in effetti è solo una speciale funzione di misura. Le grandezze misurate si possono pensare nella
fattispecie come le dimensioni di classi di punti dello spazio-tempo: la classe totale dei punti (quella in cui
sono vere le tautologie) ha probabilità 1, la classe vuota (in cui sono vere le contraddizioni) ha probabilità 0.
Un’ interpretazione più restrittiva ma più efficace sta nel vedere le classi corrispondenti agli eventi come classi
di mondi possibili in cui tali eventi potrebbero verficarsi. Gli eventi contingenti (non necessari e nonimpossibili) hanno probabilità intermedie tra 0 e 1.
Dovrebbe essere chiaro che il calcolo delle probabilità non è altro che un insieme di metodi per calcolare le
misure di eventi complessi (uniti o congiunti) partendo dalle misure di eventi più semplici. Si tratta dunque
semplicemente di un meccanismoinput-output che, dati certi valori in ingresso, produce altri valori in uscita.
Questo ci pone di fronte a un problema che il calcolo in quanto tale non è in grado di risolvere. Per quanti
calcoli si possano fare, dobbiamo sempre prendere le mosse da uninput costituito da certi valori
probabilistici iniziali, i quali non si possono a loro volta calcolare partendo da altri valori probabilistici.
Riprendendo uno spunto già accennato all'inizio, il problema di stabilire le probabilità iniziali, cioè i valori
in input, in quanto tale non ha risposte di tipo matematico. La sua soluzione dipende da assunzioni filosofiche
ben precise circa la nozione stessa di probabilità. A seconda della risposta che viene data cambiano i critieri
di assegnazione dei valori diinput, il che può avere conseguenze considerevoli anche sulle applicazioni del
calcolo. È inevitabile quindi esaminare le alternative elaborate dai filosofi per rispondere a questa basilare e
difficile domanda: che cosa è la probabilità?
Vedremo anche che il calcolo delle probabilità classico (che è quello che è stato qui presentato) ha dato adito
a critiche proprio nella sua applicazione al diritto. Sono state proposte altre assiomatizzazioni delle funzioni
di probabilità e quindi, dato che gli assiomi definiscono implicitamente il loro oggetto, altre nozioni di
probabilità. Le seguenti curiosità probabilistiche, alcune delle quali hanno aspetti sicuramente paradossali,
hanno sicuramente offerto spunti per l’elaborazione di costruzioni alternative a quella classica.
Curiosità probabilistiche.
A)
Se la probabilità di avere un figlio maschio dato che si hanno già avuti due figli maschi è ½, qual è la
probabilità di avere tre figli maschi in fila? La risposta è 1/2 • 1/2•1/2, cioè 1/8. Si noti che qualunque
successione di maschi e femmine in un qualsiasi ordine dà sempre come probabilità 1/8. A parità di
ragionamento, qualunque successione di uscite di numeri rossi e neri alla roulette (ignorando lo zero, che è
verde) ha sempre la stessa probabilità di qualsiasi altra sequenza ordinata di uscite della stessa lunghezza.
Attenzione però. Dato che gli eventi sopra esemplificati sono indipendenti, la domanda “qual è la probabilità
di avere un figlio maschiodato che si sono già avuti due figli maschi” non è 1/8 ma 1/ 2. Analogamente, la
probabilità che esca un numero rosso alla roulette dato che sono usciti 10 numeri neri è sempre
invariabilmente 1/ 2. Va anche considerato che la probabilità di avere tre figli maschi in fila, già calcolata
come 1/8, è la stessa di avere tre figli in uno degli ordini possibili: MMF,MFF,MFM,FFF.FFM.FMM,FMF.
Se si astrae dall'ordine invece le cose cambiano: la probabilità di avere tre maschi è sicuraente più bassa di
quella di avere, poniamo, due maschi e una femmina in un ordine non specificato.
B) L'autorevole ginecologo Robert Winston, esperto nei problemi della fertilità, ha immaginato che un medico
senza scrupoli potrebbe pubblicare su un quotidiano la seguente inserzione, rivolta ai coniugi desiderosi di
avere un figlio maschio :«Dietro invio di 500 euro, riceverete da me la ricetta infallibile per avere un maschio.
Soddisfatti o rimborsati». Il rimborso, naturalmente, ha lo scopo di garantire l'affidabilità del metodo. La
ricetta sarà una bella pillola di zucchero colorata. In tal modo il furfante potrà incassare su, poniamo, 1000
adesioni, 500.000 euro. Poiché il 50% dei neonati saranno in ogni caso maschi, egli dovrà rimborsare agli
altri 500 aspiranti un totale di 500 • 500 =250.000 euro, con un incasso differenziale di 250.000 euro. Anche
sottraendo il risibile costo delle pillole di zucchero, il suo guadagno sarà molto alto. Anzi, per ogni femmina
nata egli potrà tranquillamente aggiungere ai 500 rimborsati altri 250 euro di consolazione e guadagnare
comunque, nel lungo periodo, una somma di tutto rispetto.
3). Per dimostrare l’esistenza di doti paranormali in qualche soggetto presente nel pubblico potete procedere
come racconta Richard Dawkins. «Prima di tutto vediamo se il sensitivo si trova nella metà destra o nella
metà sinistra della sala» esordii. Quindi invitai la gente ad alzarsi e pregai il mio assistente di lanciare una
moneta. A tutte le persone sul lato sinistro della sala fu chiesto di «volere» che venisse fuori testa, a tutte
quelle sul lato destro di «volere» che venisse fuori croce. Ovviamente uno dei due schieramenti perse, e venne
invitato a sedersi. Quelli che erano rimasti in piedi furono divisi in due: metà che «volevano» che uscisse testa
e metà che «volevano» che uscisse croce. Ancora una volta i perdenti furono fatti sedere e ancora una volta si
procedette a dividere i vincenti; finché, dopo sette o otto lanci di monetina, com'era inevitabile, rimase in piedi
una sola persona. «Un grande applauso per il nostro sensitivo!» esclamai. Non era forse un sensitivo uno che
era riuscito a «influenzare» la moneta otto volte di seguito?
4) La probabilità che due persone scelte a caso abbiano lo stesso compleanno, sulla base di considerazioni sia
a priori che a posteriori, è 1/365.
Ora prendiamo una stanza in cui siano presenti solo 23 individui: i
matematici possono dimostrare che vi sono più di 50 probabilità su cento che almeno due di essi siano nati lo
stesso giorno. La dimostrazione è questa. Lasciamo perdere gli anni bisestili, che complicano inutilmente le
cose, e supponiamo che io scommetta con voi che delle 23 persone presenti, come minimo, due siano nate lo
stesso giorno. Tanto per stare al gioco, voi scommettete, contro di me, chenon ci siano compleanni comuni.
Faremo il calcolo in modo da arrivare ai 23 individui gradualmente: cominceremo da uno solo e aggiungeremo
gli altri uno alla volta. Se a un certo punto troveremo un «gemello», io avrò vinto la scommessa, smetteremo di
giocare e non staremo a curarci dei rimanenti individui. Se invece arriveremo al ventitreesimo senza avere
trovato il «gemello», il vincitore sarete voi.
Quando nella stanza c'è solo il primo soggetto, che chiameremo A, le probabilità che non vi sia alcun
«gemello» sono, banalmente, pari a 1 (365 probabilità su 365). Aggiungiamo adesso il soggetto B: le
probabilità diventano che vi siano due gemelli sono 1 su 365, quindi la probabilità chenon vi siano «gemelli»cioè l’evento complementare - è data da 364/365. Facciamo entrare ora una terza persona, C: c’è 1 una
probabilità su 365 che C sia nato lo stesso giorno di A e una su 365 che sia nato lo stesso giorno di B, sicché
le probabilità che non sia «gemello» né di A né di B sono 363/365 (non può essere «gemello» di entrambi,
perché sappiamo già che A e B non sono nati lo stesso giorno). Per sapere quali siano complessivamente,
finora, le probabilità che non si verifichi un «gemellaggio», dobbiamo prendere 363/365 e moltiplicarlo per le
probabilità che non si sia verificato un gemellaggio nei casi precedenti, ovvero, nell'esempio specifico,
moltiplicarlo per 364/365. Lo stesso ragionamento vale quando aggiungiamo la quarta persona, D. Le
probabilità totali che non vi siano «gemelli» a questo punto diventano 364/365 • 363/365 • 362/365. E così
via, fino a quando nella stanza non avremo 23 persone. Ogni nuova persona ci porta un nuovo termine da
aggiungere alle moltiplicazioni da fare per calcolare le probabilità che il «gemello» non si presenti. Se si
procede con tali moltiplicazioni fino raggiungere 23 termini (l'ultimo dei quali sarà 343/365), l'esito sarà 0,49:
ed è questa la probabilità che non vi siano nella stanza individui nati lo stesso giorno. Vi sono quindi
probabilità lievemente superiori al 50 per cento (0,51) dell’evento complementare, cioè che almeno due
persone in una compagnia di 23 siano «gemelle».
Basandosi sull'intuizione, la maggior parte delle persone scommetterebbe contro il «gemellaggio», ma
sbaglierebbe. È proprio questo il tipo di errore intuitivo che ci induce a considerare arcane alcune coincidenze
che sono normalissime.
4) Paradosso della lotteria (H.Kyburg, 1961). Supponiamo ci sia una lotteria con un milione di biglietti, uno
solo dei quali sarà estratto. Comprando un biglietto si ha la certezza pratica di perdere (stabilendo che la
certezza pratica è data da 0,999999). Così chiunque compri un biglietto ha la stessa certezza pratica di
perdere. Appare dunque razionale accettare la conclusione che nessun biglietto vincerà, mentre si sa che
certezza che qualche biglietto vincerà, e questa è una contraddizione. Questo paradosso, evidenziato da
Henry Kyburg, mira a evidenziare le difficoltà del concetto di accettazione razionale. Infatti appaiono
consistenti tra loro questi tre principi:
i) è razionale accettare una proposizione che è molto probabilmente vera
ii) non è razionale accettare una coppia di proposizioni contraddittorie
iii) se è razionale accettare A e accettare A’, è razionale accettare la congiunzione ( A & A’). (Nel caso
dell’esempio: se è razionale accettare la perdita di Tizio alla lotteria perchè praticamente certa e anche la
perdita di Caio perchè praticamente certa, allora è razionale accettare la perdita di Tizio e di Caio).
Di questi tre principi, è il terzo ad essere più critico, ed infatti è stato lo stesso Kyburg a proporre la sua
eliminazione.
Il paradosso mette sotto accusa la nozione di certezza pratica, che può essere identificata con la nozione di
certezza oltre ogni ragionevole dubbio. Questa nozione, come è noto, è di uso corrente nei processi penali
quando si tratta di valutare il peso delle prove. D’ora in avanti rappresenteremo la certezza pratica di un
evento E come Pr(E)= 1 - ε, dove ε è per definizione un valore trascurabile, che in alcuni casi speciali può
essere posto uguale a 0.
LEZIONE 2. Concezioni della probabilità
La più semplice e intuitiva definizione di probabilità è ancor oggi quella chiamata “classica”, la cui
formulazione si deve al grande astronomo Pierre Simon de Laplace (1742-1826), detto il “Newton francese”.
Secondo la concezione laplaceana, laprobabilità di un evento E è il rapporto tra il numero dei casi favorevoli
al verificarsi di E e il numero dei casi possibili,purchè egualmente possibili.
Se, per esempio, mi chiedo qual è la probabilità di estrarre un numero pari al lotto sulla ruota di Milano con
una sola estrazione, i passi da fare per determinare questo valore sono i seguenti: (a) osservare che i casi
possibili sono 90; (b) osservare che tali casi sono equipossibili; (c) osservare che le possibilità di estrarre un
numero pari entro le 90 possibilità sono 45, quindi i casi favorevoli sono 45. La risposta è data dunque dal
rapporto tra 45 e 90, ossia 0,5.
Se i casi non sono equipossibili la risposta non si può dare. Se, per esempio, mi chiedo qual è la probabilità
che un certo aereo cada nella prossima settimana, i casi possibili sono due (cade/non cade), ma
fortunatamente in condizioni normali non c‘è motivo di ritenere che i due casi sono equipossibili.
La clausola della equipossibilità è una fonte di dubbi filosofici. Se “equipossibile” vuol dire “equiprobabile”
la definizione complessiva diventa circolare perché si definisce la probabilità in termini di probabilità. La
soluzione per Laplace è offerta dal cosiddetto “principio di indifferenza” o di “ragione insufficiente”: sono
equipossibili quelle alternative per le quali non abbiamo motivo di attenderci il verificarsi dell’una piuttosto
che dell’altra.
È degno di nota che Laplace intendesse estendere l’impiego del calcolo delle probabilità dal dominio dei fatti
naturali a quello dei fatti umano-sociali, compresa la probabilità delle testimonianze nei processi e delle
sentenze nei tribunali. Da questo punto di vista seguiva una linea di ricerca già avviata da Leibniz, che prima
di darsi alla filosofia aveva praticato studi di giurisprudenza.
La fiducia di Laplace nel meccanicismo newtoniano e nell’infallibile determinismo che lui riteneva ad esso
connaturato è espresso dalla brillante metafora del “demone di Laplace”: un demone onnisciente che conosca
con esattezza al momento attuale la posizione e la velocità di ogni particella è in grado di predire con
precisione assoluta tutti gli eventi futuri e retrodire tutti gli eventi passati. Nella mente del demone onnisciente
esistono solo certezze. La probabilità è in effetti un prodotto della nostra ignoranza, che è ciò che distingue la
condizione umana dalla condizione divina : “parlando rigorosamente, quasi tutte le nostre conoscenze non
sono che probabili: e anche quelle pochissime che stimiamo certe, persino nelle scienze matematiche, ci sono
date dall’induzione e dall’analogia che, strumenti principali per giungere alla verità, si fondano sulle
probabilità “. Così Laplace scrive nella prima pagina del celebre “Saggio filosofico sulle probabilità”.
Come è noto, la possibilità dell’esistenza di un demone di Laplace è negata dal c.d. Principio di
Indeterminazione di Heisenberg (1925) e più generalmente dalla meccanica quantistica, che esclude che sia
possibile misurare con precisione illimitata posizione e velocità di ogni particella (per tacere di altre coppie di
proprietà dette “coniugate”). A prescindere dall’indeterminismo quantistico, comunque risulta che di fatto,
anche se non in linea di principio, gli eventi singoli sono imprevedibili anche in fenomeni caotici con alto grado
di complessità. L’urto di milioni di molecole in un millimetro cubo di gas rende di fatto imprevedibile la loro
posizione un secondo dopo che la posizione di tutte fosse accertata, per assurda ipotesi, con totale esattezza.
Quindi, anche se in teoria un demone laplaceano potrebbe in teoria prevedere la posizione futura di tutte le
molecole, da un punto di vista pratico non c’è differenza tra l’indeterminazione dei fenomeni quantistici e dei
fenomeni prodotti dal caos deterministico.
Secondo la concezione classica, dunque, la determinazione delle probabilità è una proceduraaprioristica, o
in altri termini non dipende da informazioni derivate dall’esperienza ma dallo stato di conoscenza del soggetto.
In quanto tale la concezione classica ha tutti i numeri per essere mal vista dagli empiristi, secondo i quali ogni
conoscenza genuina deve provenire dall’esperienza stessa. Bisogna comunque ammettere che, senza
considerare i pregiudizi filosofici, l’ idea di basare la conoscenza non sull’esperienza di qualcosa ma
sull’ignoranza di qualcosa è una fonte di difficoltà e di paradossi.
Supponiamo per esempio che una persona che estrae una pallina da un’urnaa sappia che l’urna a contiene
un numero uguale di palline bianche e nere, mentre tutto ciò che sa circa l’urnab è che contiene palline
bianche e nere, senza sapere se sono in numero uguale o diverso. Secondo il principio di indifferenza, questa
persona in ambedue i casi deve assegnare ½ all’estrazione di una pallina bianca (o nera), mentre è chiaro che
nei due casi il grado di incertezza è diverso.
Nell'esempio che precede si rimane nel contesto dei giochi d'azzardo, ma bisogna riconoscere che è proprio
fuori da questo ambito che l’applicazione della teoria laplaceana è problematica.
Alcune difficoltà dipendono dal fatto che è arduo enumerare tutte le alternative possibili entro un dato
esperimento, ed è ancora più difficile dire se esse sono equipossibili nel senso descritto dal principio di
indifferenza. Fa capolino qui il fastidioso germe del soggettivismo: soggetti diversi possono avere informazioni
diverse circa le varie alternative, cosicchè le alternative che appaiono indifferenti ad uno possono apparire
differenti a qualcun altro.
A ciò vanno aggiunte difficoltà di natura squisitamente matematica, come i c.d. “paradossi di Bertrand”.
Esempio. Supponiamo di sapere che un’auto ha impiegato un tempo compreso tra 1 e 2 minuti (quindi tra 60
e 120 secondi) per percorrere 1 Km. Diremo che per noi è indifferente stimare il tempo di percorrenza tra i
60-90 secondi e tra i 90-120 secondi: quindi la probabilità che la lunghezza del viaggio appartenga al primo
intervallo è uguale a quella che appartenga al secondo. Il valor medio di questa stima del tempo impiegato è
quindi di 90 secondi per 1Km. Basta un breve calcolo per vedere che in 3600 secondi (cioè un'ora) l'auto
percorrerebbe 40 Km: quindi secondo la stima delle probabilità sopra enunciata l'auto ha in media una
velocità di 40 Km all'ora.
Supponiamo di venire poi a sapere da altra fonte che la velocità della macchina era compresa tra i 30 Km/h
e i 60 Km/h. Applicando il principio di indifferenza, quindi, per noi la probabilità che viaggiasse tra 30 km/h e
45 km/h è la stessa che viaggiasse tra 45 km/h e 60 km/h. Secondo questa stima però il valor medio della
velocità dell'auto è di 45 Km all'ora, non di 40.
John Maynard Keynes nel suoTreatise of Probabilities (1921) ha individuato un’ampia classe di problemi
inerenti al principio di indifferenza, evidenziando che molte difficoltà sono prodotte non solo da aspetti
matematici del problema, ma anche da aspetti linguistici. Se, per esempio, entro in una libreria buia e mi
chiedo qual è la probabilità di toccare un libro nero, posso dire che in condizioni di ignoranza le alternative che
mi sono indifferenti sono due (nero/non nero), e in questo caso la probabilità verrà posta uguale a 1/2. Me se
tengo conto del fatto che i colori dell’iride sono 7, dovrei dire allora che tale probabilità è 1/7. Per cui
dovremmo avere 1/2=1/7, il che è assurdo.
A queste difficoltà concettuali si aggiungono difficoltà di applicazione pratica. Come già accennato, nel
quadro classico l’applicazione del calcolo della probabilità è giustificata solo nei casi in cui si danno
alternative equipossibili, o presunte tali. Per un laplaceano ortodosso non avrebbe senso chiedersi, poniamo,
qual è la probabilità di restare avvelenati mangiando un fungo o quella di morire sotto i ferri di una certa
operazione chirurgica, perché le alternative da esaminare non sono equipossibili. Secondo Keynes ed altri che
hanno tentato di modernizzare la concezione classica, nei casi in cui i calcoli numerici non sono applicabili
possiamo sempre ricorrere a valutazioni di tipo qualitativo in modo da poter dire, poniamo, che un’alternativa
è più probabile di un’altra e ambedue sono più probabili di una terza (probabilità comparativa).
Ma la nascita della statistica alla fine del ‘700 e il diffondersi della mentalità empirista, per la quale non
esistono conoscenzea priori (e nemmeno sintetiche a priori, con buona pace dei kantiani), spingeva verso
una definizione oggettiva o statistica della probabilità. Per l’800 vanno ricordati i nomi di R.L. Ellis e J.Venn,
per il ‘900 quelli di R.von Mises e H.Reichenbach, che vengono spesso accomunati sotto la denominazione di
frequentisti.
Da un punto di vista strettamente empirista l’affermazione che le varie alternative - per esempio nel lancio
di un dado - sono equipossibili, ha un senso solo se si può provare sperimentalmente che il dado in questione
non è stato truccato e che non presenta asimmetrie tali da favorire qualcuna delle facce a scapito delle altre. In
realtà, l’unico modo per raggiungere la certezza dell’equipossibilità sta nel lanciare il dado in questione un
numero “molto grande” di volte e verificare poi che le percentuali di uscite di tutte le facce “tendono”, a lungo
andare, a pareggiarsi. Ciò ci autorizza a dire che se la sequenza di lanci si prolungasse per un tempo infinito,
le varie alternative sarebbero equipossibili. Con ciò però si compie un salto da un campione finito di dati a un
insieme ipotetico infinitamente grande di dati – e siccome nessun comune mortale può avere esperienza di un
insieme infinito, questo mal si concilia con l’oggettività sperimentale richiesta dagli empiristi. Secondo R.
Ellis questo ricorso al concetto di una serie infinita di esperimenti, cioè a qualcosa di non sperimentabile in
linea di principio, doveva intendersi come un’ idealizzazione non diversa da tutte le altre idalizzazioni
impiegate nella scienza (p.es. quando si parla del movimento di un corpo su un piano con attrito pari a zero).
John Venn chiamavaserie queste successioni in cui le fluttuazioni di frequenze registrate ad ogni esperimento
si stabilizzano così da convergere verso un valore che si può chiamare illimite della serie stessa. Il passo
compiuto da Richard von Mises è stato per l’appunto quello di identificare questo limite con la probabilità
del tipo di evento in questione (non, si badi, del singolo evento, dato che la probabilità può essere calcolata
solo considerando delle percentuali entro classi di eventi dello stesso tipo). Si noti che, ovviamente, il limite di
cui si parla qui è diverso da ciò che in matematica si chiama limite delle successioni numeriche convergenti,
dato che quest’ ultimo si può calcolare rigorosamente con metodi matematici.
Nelle successioni empiriche
un calcolo matematico di questo genere è impossibile. A rigore non c'è neppure modo di dimostrare che tale
limite esiste, perché non c’è contraddizione nel ritenere che la parte sconosciuta della serie, infinitamente
grande, della serie abbia proprietà diverse da quella conosciuta. Più generalmente, estraendo un campione da
un universo di dimensioni illimitate, non abbiamo nessuna garanzia che le proprietà riscontrate nel campione
siano le stesse presenti nell’universo. Ma questo è il vecchio problema dell’Uniformità della Natura. Non c’è
una garanzia logica che il futuro di una successione di eventi sarà uguale al passato o che una certa
convergenza registrata entro una successione si conservi anche nel seguito della successione (come assserisce
il Postulato Empirico del Caso), anche se è perfettamente irragionevole supporre il contrario.
Von Mises divenne un esponente di spicco del circolo di Berlino, sorto alla fine degli anni 20 per
gemmazione dal circolo di Vienna. L’idea basilare di von Mises è che si può parlare di probabilità di un
evento E quando si ha ragione di pensare che entro un certo “collettivo” (insieme di eventi o dati
dello stesso
tipo) le frequenze osservate di E, se protratte illimitatamente, tendano verso un limite. Von Mises non tardava
tuttavia a rendersi conto che, perché si possa calcolare la probabilità, non tutti i collettivi si prestano al
calcolo del limite. Una successione di pietre miliari che presenti delle pietre bianche ogni cento metri e una
pietra rossa ogni chilometro rende facile calcolare che la probabilità di trovare una pietra rossa è 1/10, ma non
ha molto senso parlare di probabilità di un risultato che è prevedibile, e quindi necessario, in quanto la
sequenza è costruita esattamente con lo scopo di alternare pietre bianche e rosse in quel modo. Se, per ipotesi,
si togliessero dalla successione tutte le pietre che si trovano al 10° posto, la probabilità di incontrare pietre
rosse scenderebbe dal 10% a 0. In realtà la successione in oggetto è priva di una qualità essenziale per
stabilire il limite delle frequenze osservate, quella di essereirregolare o casuale. Von Mises ha cercato di
definire con grande accuratezza la nozione di collettivo irregolare, puntando sull’idea che un collettivo è
irregolare quando il limite stimato è insensibile alle c.d. “scelte di posto” effettuate secondo qualche regola
prefissata (per esempio, il limite risulta uguale entro una sottosuccessione determinata dalla scelta dei posti
pari).
Nonostante questo importante contributo matematico, che lo ha portato a definire anche operazioni su
collettivi, von Mises non ha potuto evitare che la sua teoria andasse incontro a banalizzazioni. La nozione di
irregolarità, come quella di regolarità, dipende da quella diregola. A meno che non si definisca rigorosamente
il concetto di regola, si può trovare sempre una regola stramba che genera un sottosuccessione tale da
modificare il valore del limite. Più in generale, come avevano già osservato Schlick e Wittgenstein, data
qualsiasi successione finita di numeri, per quanto bislacca, (p.es. 1, 177, 176) troviamo sempre una regola
altrettanto bislacca che possiamo considerare generatrice della successione (si tratta di un paradosso a volta
indicato come “paradosso di Wittgenstein”).
Lo stesso discorso che si fa per le regole si fa anche per predicati qualsiasi. Il ragionamento induttivo,
come è noto, consiste nel riscontrare nel campione una certa proprietà e proiettarla sull’universo: per esempio,
dopo aver osservato un campione di smeraldi che sono solo solo verdi, inferiamo che tutti gli smeraldi sono
verdi. Ma allo stesso modo in cui ci regole abnormi ci sono anche predicati abnormi, come ravvisato da
N.Goodman nel c.d. “paradosso delgrue-bleen”. Il predicato “verde ed esaminato prima del 3000” implica un
predicato bizzarro ma perfettamente legittimo come “verde ed esaminato prima del 3000 oppure blu ed
esaminato dopo il 3000”(grue o verdlù) . Si noti però che se è vero che tutti gli smeraldi sonoverdlù, questa è
una disgiunzione in cui il primo disgiunto risulta falso dopo il 3000, per cui dopo tale data il secondo disgiunto
risulta necessariamente vero. Dunque dopo aver osservato milioni di smeraldi verdi concludiamo che dopo il
3000 tutti gli smeraldi saranno blu.
Con ciò non si fa altro che ribadire un’idea già brillantemente argomentata da Hume, e cioè che l’uniformità
della natura non è giustificata né da ragionamenti deduttivi né da ragionamenti induttivi. Infatti il paradosso di
Goodman evidenzia che non c’è nessuna contraddizione logica nel pensare che gli smeraldi nel 3000 si
trasformino da verdi in blu (anzi si fa vedere con un argomento logico che ci sarà questa mutazione).
Von Mises vedeva nella meccanica quantistica lo sbocco naturale della sua teoria dei collettivi, ma
trascurava il fatto che in meccanica quantistica si parla di probabilità di eventi singoli (p.es. la probabilità che
un atomo isolato si trovi in una certa condizione) e non ditipi di eventi, come richiesto dalla sua versione del
frequentismo.
Hans Reichenbach ha fatto progredire la scuola frequentista mostrando che si può, comunque, definire la
probabilità come limite delle frequenze senza ricorrere all’idea di collettivo di von Mises. Abbandonando la
nozione di collettivo, Reichenbach chiedeva, in primo luogo, che quella che lui chiamaclasse di riferimento
(quella, cioè, entro cui vengono rilevate le frequenze) oltre ad essere il più possibile estesa sia formata da
elementi che sonosimili per aspetti rilevanti a quelli dell’elemento dotato del predicato di cui intendiamo
calcolare la probabilità. Tale classe di riferimento può essere finita (come quando si vuole determinare la
probabilità che a Milano nel 2013 nasca un bambino maschio) oppure infinita, come nel caso già visto dei
lanci di moneta.
In questa prospettiva non ha senso parlare di probabilità se non si specifica una classe di riferimento
prefissata. Questa classe di riferimento è quello che gli statistici chiamano l’
universo rispetto al quale
vengono prelevaticampioni via via crescenti. Per fare un esempio, se voglio sapere qual è la probabilità che il
Sig. Rossi abbia un incidente automobilistico, sceglierò una classe di riferimento costituita da oggetti "dello
stesso tipo" di Rossi. Includerò in questa classe, in primo luogo, elementi che siano esposti al rischio di avere
un incidente automobilistico. Escluderò quindi pietre, macachi, pappagalli e mi atterrò a soggetti umani, anzi a
soggetti umani simili a Rossi per aspetti importanti: escluderò pertanto soggetti a lui simili per avere calzini
blu (perché l’avere calzini blu piuttosto che di altro colore è irrilevante per l’attributo) oppure per il fatto
che come lui leggono libri gialli. Viceversa la classe di riferimento dovrà contenere soggetti, per esempio, che
siano simili a lui per il sesso, per l’età e per il tipo di macchina che possiedono.
Nella terminologia di Reichenbach la classe di riferimento ideale deve essere
omogenea, cioè deve essere
insensibile, nel rilevamento delle frequenze, rispetto a partizioni operate secondo attributi che influenzano la
frequenza dell’attributo in questione. Non compariranno, quindi, nella classe dell’ esempio precedente, soggetti
che sono proprietari di macchine che, pur essendo della stessa marca di quella di Rossi, abbiano un difetto ai
freni: infatti nella sottoclasse costituita da questi soggetti si potrebbe riscontrare una frequenza diversa negli
incidenti automobilistici rispetto alla classe complementare.
Una volta individuata una classe di riferimento che sia il più possibile estesa e omogenea di entidel tipo di
Rossi, si calcola il limite a cui tendono le frequenze osservate di incidenti automobilistici subiti da tali
soggetti entro campioni via via più estesi tratte dalla classe di riferimento. Si identifica poi questo limite con
la probabilità richiesta. Si noti che questo non è esattamente la stessa cosa che calcolare la probabilità che il
Sig. Rossi nella sua singolarità abbia un incidente, ma possiamo identificare la probabilità di questo evento
singolare (event- token) con quella dell'evento tipico e( vent- type) di cui l’evento singolo si può considerare
rappresentativo: ciò mediante un artificio concettuale che Reichenbach chiamaposit (“asserzione che noi
consideriamo come vera anche se il suo valore di verità è sconosciuto”). Questa distinzione tra eventi singolari
specifici e tipi di evento ricorrerà più volte nelle pagine seguenti.
Ogni campione prelevato dalla classe di riferimento deve avere le proprietà di quello che gli statistici
chiamato "campione non-tarato" (non-biased) o “campione randomizzato”, che ha un ruolo essenziale nella
pratica statistica. La scelta del campione è essenziale in quanto la presenza di una taratura del campione può
dare origine a distorsioni gravi nel rilevamento delle frequenze. E' chiaro comunque che se la classe di
riferimento è disposta in modo da risultare irregolare, saranno tali anche i campioni estrati da questa. Con ciò
si torna al requisito della casualità, o irregolarità, richiesto da von Mises.
Il requisito della casualità sembra dare una riposta anche a un'obiezione talvolta sollevata contro la teoria
frequentista. Si può sostenere, infatti, che l’ordine in cui si distribuiscono i dati nella classe infinita, infatti.
può determinare limiti diversi. Per esempio, se la classe dei numeri naturali si presenta nell’ordine standard la
probabilità di incontrare un numero primo diventa sempre più bassa con l’aumento del segmento inziale
considerato: ma tale limite potrebbe essere completamente diverso disponendo i numeri naturali in blocchi
crescenti in cui l’ordine viene invertito. In realtà non esiste un ordine unico associato a una determinata classe
di riferimento. Qual è, per esempio, l’ordine in cui “oggettivamente” sono disposte tutte le automobili rosse
fabbricate in Italia?
Un secondo problema attiene la probabilità di eventi singoli, dato che in questa concezione appare privo di
senso chiedersi, poniamo, qual è la probabilità dell'uscita di testa al 40° lancio. Queste domande sono però
di uso corrente, soprattutto nella meccanica quantistica. Questo problema è stato sottolineato in particolare da
Karl Popper, che si è fatto portabandiera di una particolare versione del frequentismo dettapropensionismo.
Secondo questa concezione la probabilità è la propensione di un dispositivo a manifestare certe proprietà in
condizioni specifiche date.
Una terza difficoltà riguarda l'impossibilità di costruire classi di riferimento dotate delle proprietà richieste
quando si vuole conoscere la probabilità di eventi rari o addirittura unici. Basta pensare che quando si inviò
per la prima volta una spedizione sulla Luna si assegnava un'alta probabilità al successo dell'impresa, ma
questa non poteva sicuramente essere calcolata sulla base della frequenza statistica dell'evento, che non
essendosi mai verificato prima avrebbe dovuto ricevere probabilità pari a 0 (e quindi essere ritenuto
impossibile).
Una quarta difficoltà, spesso trascurata dagli stessi matematici, riguarda il fatto che per dimostrare che i
limiti delle frequenze sono valori di probabilità, e non grandezze di altro genere, bisogna dimostrare che tali
limiti soddisfano gli assiomi di Kolmogorov, e in particolare i due principi delle probabilità totali e delle
probabilità composte. È stato provato tuttavia che questa dimostrazione non è banale, anzi che a rigore non è
possibile. Se è così, avrebbero ragione quanti distinguono, come più volte enfatizzato da Keynes o da Carnap,
tra due nozioni diverse di probabilità - una epistemica e una statistica- che sarebbero ditinte anche per il fatto
di avere probabilità matematiche diverse.
Arriviamo dunque alla necessità di esaminare in dettaglio la concezione detta “epistemica” della
probabilità, di cui la concezione classica di Laplace è stata la prima anticipazione. Qualcuno, come Popper, ha
voluto raggruppare tutte le varie articolazioni della concezione epistemica sotto l’etichetta di “concezione
soggettivista”, con l’intento di sottolineare l’opposizione tra il concep,ire la probabilità come proprietà
oggettiva del mondo e il concepirla come qualcosa dipendente dalla coscienza di uno o più soggetti.
Nella concezione epistemica tuttavia sono riconoscibili almeno due orientamenti diversi, incompatibili per il
diverso atteggiamento che comportano verso le proprietà degli enunciati probabilistici. Secondo i cosiddetti
logicisti (Boole, Jevons, Johnson, Keynes, Heffreys, Carnap) gli enunciati probabilistici, se veri, sono
logicamente veri. In essi viene enunciato un certo rapporto tra un’ ipotesi H (p.es. il prossimo corvo sarà nero)
e un certo stock di evidenza E disponibile a suo favore (p.es. il fatto che 100.000 corvi osservati sono neri e
nessun corvo osservato è di colore diverso). Keynes parla per esempio del suddetto rapporto come grado di
credenza razionale, e la logica del probabile diventa quindi una logica della ragionevolezza. Se è vero che la
scelta dell’ informazione da inglobare nell’evidenza Evaria da soggetto a soggetto, la relazione in sè è
puramente logica e in quanto tale non soggettiva.
Carnap ha sviluppato da queste idee di fondo dei metodi per calcolare gradi di probabilità condizionale di H
dato E, che lui fa coincidere con la conferma induttiva di H data da E. A differenza di Keynes e altri logicisti,
tuttavia, Carnap introduceva due coefficienti parametrici,λ ed η, esprimenti diverse valutazioni possibili del
fattore logico-linguistico (λ) e del fattore costituito dal peso dell’esperienza η).
(
Se, per restare
nell`esempio dei corvi, svalutiamo l`evidenza sperimentale ponendo uguale a 0 il coefficiente
η , allora la
probabilità che il prossimo corvo sia nero dipende unicamente dai predicati esprimibili nel linguaggio
presupposto. Se il linguaggio, per esempio, contiene nomi per i soli 7 colori dell’iride, tale probabilità è di
1/7, mentre se si ammette un numero piu` ampio di nomi per le sfumature dei vari colori (scarlatto,
porpora,...) allora il valore di tale probabilità sarà molto più basso. Comunque sia, indipendentemente da
come vien fissato il valore parametrico, la conclusione avrà sempre la forma Pr(H|E) =x ; questa esprime un
partial entailment, cioè un`implicazione parziale di cui l`implicazione logica è solo il caso speciale in cui
Pr(H|E) = 1.
Come si è detto, Carnap identifica le funzioni di probabilità con le funzioni di conferma: in questo modo la
logica della probabilità viene a coincidere con la logica della conferma induttiva. Sfortunatamente, dato che
ciò che viene confermato di solito è una legge, cioè una generalizzazione infinitaria (p.es. “Tutti i corvi sono
neri”), per ragioni puramente matematiche tale grado di conferma per le leggi tende ad essere molto basso se il
numero di individui dell’universo è molto grande, ed è addirittura uguale a 0 se si assume che il numero di
individui dell’universo è infinito. (Per capire questo apparente paradosso, si rifletta sulla domanda: “sapendo
che un’ urna infinita contiene palline di sette colori, qual è la probabilità di estrarre un numero infinito di
palline rosse e nessuna di colore diverso?”). Questo difetto è stato corretto da J. Hintikka e dalla sua scuola
introducendo nuovi coefficienti parametrici, ma ottenendo sempre valori bassi per le generalizzazioni
infinitarie: cosa che, del resto, appare in linea con concezioni epistemologiche come quella popperiana, per la
quale, come è noto, le leggi sono solo ipotesi destinate ad incappare prima o poi in qualche falsificazione.
Essenziale per capire la linea Johnson-Keynes-Carnap è il fatto che, nonostante si ammetta la variabilità dei
risultati delle conclusioni probabilistiche con conseguente abbandono dell’univocità, le credenze di cui si
postula la misura sono credenze razionali, cioè credenze proprie di un soggetto idealizzato in grado di fare
inferenze. La variabilità, come già detto, dipende dall’arbitrarietà dei valori diλ ed η, cioè del parametro
logico e quello empirico. La valutazione di questi parametri (espressi da numeri reali tra 0 e 1) può variare a
seconda degli scopi e del contesto scientifico. Se è così, però, non c’è da stupirsi se negli ultimi anni Carnap
fosse incline a considerare il logicismo compatibile con un orientamento a cui abbiamo già accennato – il
soggettivismo.
Nella corrente detta soggettivista (Ramsey, de Finetti, Savage) il requisito di razionalità dettato da Keynes e
Carnap viene abbandonato, così come l'idea che gli asserti probabilistici veri siano verità logiche. I valori
probabilistici esprimono solo gradi di credenza di soggetti umani concreti, che possono tener conto
dell`evidenza disponibile nel modo che preferiscono. I gradi di credenza sono misurati considerando ogni
soggetto alla stregua di un giocatore, razionale o irrazionale, che sia impegnato in un gioco di scommesse
contro un secondo giocatore (allibratore). Se un giocatore è convinto, per esempio, che la probabilità di
sorteggiare un certo numero al lotto sia di 1/50 anzichè di 1/90, non c'è nessun argomento che possa impedirgli
di fare questa valutazione. Come abbiamo notato all’inizio, l’idea di definire la probabilità in termini di
rapporti tra somme di denaro non è una novità, dato già nel ‘700 era chiaro che la nozione di probabilità si
poteva defnire il termini di speranza matematica.
L’ unico criterio di razionalità che si richiede a un giocatore è lacoerenza interna del suo sistema di
credenze, dove la nozione di coerenza esprime il fatto che il giocatore coerente evita di andare incontro ad
una perdita certa. Per dare una veste matematica a questa intuizione sono praticabili metodi diversi, anche
se i soggettivisti non sono concordi sul fatto che le probabilità siano da esprimere invariabilmente mediante
valori numerici. In ogni caso, il metodo più semplice per misurare il grado di credenza è dato dalla misura del
quoziente di scommessa, cioè dal rapporto tra quanto si scommette (posta) e quanto si incassa in caso di
vincita. Un'altra misura è data dalla ragione di scommessa (odds), che è il rapporto tra il guadagno netto che
si ottiene in caso di vincita e la posta. Chi scommette su un certo cavallo, magari alla sua prima corsa, 10 euro
per averne 100 in caso di vincita (quoziente di scommessa 1 / 10, o ragione di 1 a 9) mostra una bassa
propensione a rischiare denaro su questo cavallo, quindi un basso grado di credenza nella sua vittoria; mentre
il contrario vale per chi scommette 90 euro per incassarne 100 in caso di vincita (quoziente 9/10, o ragione di
1
9 a 1 ). La coerenza di un sistema di scommesse consiste nell’escludere che nel bilancio finale si vada
incontro a una perdita certa, come sarebbe il caso dello sprovveduto che facesse due scommesse: una
scommessa di 100 euro su testa per averne 200 e anche una seconda scommessa di 150 euro su croce per
averne 200. In complesso, costui affronterebbe una spesa complessiva di 250 euro per incassare al massimo
200 euro. Un sistema di scommesse incoerente viene nel gergo chiamatoDutch Book (allibramento olandese).
Ramsey e de Finetti hanno fatto vedere che il requisito della coerenza delle scommesse implica il
soddisfacimento degli assiomi di Kolmogorov, anzi equivale ad esso.
Un indubbio vantaggio del soggettivismo, che spiega in parte il suo recente successo, è dovuto al fatto che
risolve in modo indolore il problema della probabilità iniziali, dato che in questa prospettiva queste
rispecchiano solo le convinzioni iniziali di un soggetto dato. Può naturalmente destare sconcerto il fatto che
un soggettivista radicale ammetta anche valutazioni di probabilità che il senso comune tenderebbe a
considerare forsennate, come per esempio assegnare probabilità 0,5 all’idea che la terra è piatta. Ma dal suo
punto di vista esistono due principi importanti che, oltre alla coerenza, possono riconciliare il soggettivismo
con il senso comune. Il primo è il già ricordato teorema di Bayes. Tale teorema ci garantisce un modo per
calcolare il passaggio da una certa assegnazione di probabilità, poniamo H, alla probabilità revisionata
(updated) di H data una certa evidenza E. Possiamo calcolare, per esempio, la probabilità che tutti i corvi
siano neri dato che 100 corvi sono neri (Pr H|E ) una volta che si conosca, oltre alla probabilità di H e quella
di E, la probabilità inversa che 100 corvi siano neri dato che tutti i corvi sono neri (Pr E
|H, che ovviamente è 1
per ragioni logiche). In tal modo il teorema di Bayes, a volte impropriamente chiamato teorema della
probabilità delle cause, ci consente di rappresentare molte forme – secondo i soggettivisti tutte – di
ragionamento ampliativo, con ciò intendendo il ragionamento plausibile in cui le premesse non implicano
deduttivamente la conclusione.
Oltre alla coerenza, che è un criterio minimale di razionalità, secondo i soggettivisti c’è da tenere conto di
un secondo principio, valorizzato specialmente da de Finetti. E’ il cosiddetto principio discambiabilità,
formulato per la prima volta in modo esplicito da W.E. Johnson con il nome di “principio di simmetria”. In
esso si dice che l`ordine in cui si presentano gli elementi che costituiscono l’ evidenza positiva a favore di
una certa ipotesi è indifferente, nel senso che non influenza la suddetta valutazione. Supponiamo di lanciare
per dieci volte una moneta che sappiamo essere truccata. I lanci non saranno indipendenti in quanto gli esiti
di ogni lancio forniranno indicazioni sulla probabilità che esca testa nel lancio successivo. D’altro canto,
stabilito il numero di volte in cui esce testa in dieci lanci della moneta, sapere inquali lanci sia uscito
testa non è rilevante per la probabilità che l'undicesimo lancio dia ancora testa. In altri termini, si verifica una
invarianza permutazionale nel senso che la probabilità si abbia testa dopo una sequenza di 10 esiti con un
certo numero di teste è sempre la stessa a prescindere daquali siano esattamente le volte in cui è uscita
testa. Pertanto, se per esempio è uscita testa per 3 volte su 10, non importa se ciò si è verificato nei primi
tre tentativi, oppure nel primo, settimo, decimo. De Finetti ha fatto vedere che l’impiego contestuale del
teorema di Bayes e del principio di scambiabilita`è sufficiente ad assicurare la ricostruzione del ragionamento
statistico con risultati identici a quelli cercati dai frequentisti.
1 Come si dirà più avanti, se x/y è il quoziente di scommessa, la ragione di scommessa è espressa da x/y
/ -x/y
Il soggettivismo è diventato il paradigma dominante nelle ricerche probabilistiche degli ultimi trent’anni. Le
critiche a cui va incontro sono state oggetto di un ampio dibattito che non ha minato le sue radici ma sembra
aver contribuito al suo raffinamento.
Alcune difficoltà del soggettivismo riguardano l’impiego del rapporto tra somme di denaro come misura
della probabilità. E’ ovvio che, anche per un nababbo con un ricco conto in banca, rischiare 50 euro per
averne 100 non è la stessa cosa che rischiare 50.000 euro per averne 100.000. Eppure nei due casi il rapporto
tra le due quantità è sempre invariabilmente ½ : dovrebbe quindi misurare lo stesso grado di credenza. A
questo problema si può ovviare con strategie diverse. Una è quella, proposta già da Ramsey negli anni ‘30, che
consiste nel parlare non di scommesse ma di preferenze tra beni dotati di un certo valore di utilità. In tal modo
si è stabilito uno stretto rapporto tra la teoria della probabilità e la già ricordata teoria delle decisioni.
La seconda strategia, sottoscritta dallo stesso de Finetti, consiste nel rinunciare all’assegnazione di valori
numerici in tutti i casi. In questa prospettiva sarebbe sufficiente avere una relazione “è più probabile di”,
definita su proposizioni, le cui proprietà siano descritte da un certo numero di assiomi, che in ogni caso
risultano tali da rendere derivabili gli assiomi di Kolmogorov.
Si noti che la probabilità comparativa ha una rilevanza dal punto di vista giudiziario, perché una comune
obiezione all’impiego del calcolo delle probabilità è che nelle aule dei tribunali non ha molto senso impiegare
valori numerici esatti, per esempio dicendo che l’imputato ha avvelenato la vittima con il 93% di probabilità.
Come vedremo, questo è soltanto una dei molti problemi sollevati dall’impiego del linguaggio probabilistico e
del calcolo delle probabilità in ambito giudiziario.
Sempre sul terreno giudiziario, si è fatta spesso sentire contro il soggettivismo un’obiezione che è stata
condivisa da autorevoli filosofi del diritto (in Italia da M.Taruffo, che propende per una visione logicista della
probabilità): se si aderisce al soggettivismo, le valutazioni probabilistiche diventano soggettive, con il rischio
che un tribunale assolva un imputato che un altro può condannare in base a una diversa valutazione
soggettiva delle prove. Questa obiezione è importante perché non è rivolta contro l’impiego del calcolo delle
probabilità nei tribunali ma contro la filosofia soggettivista. Vediamo come potrebbe rispondere un
soggettivista a questa obiezione. Paolo Garbolino ha dato una dettagliata analisi di come dovrebbe procedere
una corte di giustizia che volesse applicare la concezione soggettivista.
1) accusa e difesa dovrebbero esporre le rispettive ricostruzioni dei fatti, intese come insiemi di credenze
soggettive, evidenziando la loro coerenza interna.
2) il giudice sceglierà poi la versione dei fatti che gli sembra più probabile, in base al principio del libero
convincimento del giudice.
Garbolino sottolinea che, piaccia o meno, questo è ciò che “di fatto accade”, anche se i soggetti
coinvolti potrebbero in buona fede sentirsi guidati da obiettivi più elevati, come la nobile aspirazione ad
“accertare la verità”. Di qui una possibile obiezione antisoggettivista: è meglio, uno potrebbe dire, una
ricostruzione probabilisticamente incoerente che risulta vera piuttosto che una coerente ma falsa. Il
soggettivista risponde che nessuno può garantire che una certa ricostruzione sia vera, anche se si può dire
che è più o meno approssimata al vero (Popper parla di verisimilitudine, che è cosa diversa dalla
verosimiglianza). Molti soggettivisti rifiutano di usare la nozione stessa di verità associandosi
polemicamente alla domanda di Ponzio Pilato Quid
(
est veritas?). Quanto alla verisimilitudine, il
soggettivista si chiede però che vuol dire “verisimile”. Se si intende con ciò “credibile” si ricade nel
soggettivismo. Se si intende “approvabile” (quindi in accordo con il parere di esperti qualificati), che è il
senso antico che aveva la parola “probabile” nel Medio Evo, si regredisce a una concezione prepascaliana
della probabilità. Sembra che non resti che la probabilità in termini di frequenze relative, ma il
soggettivista si oppone al frequentismo non solo evidenziando le difficoltà interne che abbiamo già
discusso, ma osservando che tanto Carnap che Reichenbach hanno introdotto dei parametri per ponderare
le conclusioni dei ragionamenti induttivi, introducendo quindi surrettiziamente delle variabili la cui
determinazione può essere solo soggettiva.
Negli ultimi anni i contrasti che hanno diviso gli epistemologi sul significato della nozione di probabilità
hanno lasciato posto a un atteggiamento più flessibile e pluralista. Si ammette, in altre parole, che in
alcuni contesti potrebbe essere utile applicare la nozione classica, in altri quella statistica, in altri ancora
quella soggettivista, fermo restando che la sintassi impiegata e le regole del calcolo sono fuori discussione
e devono restare tali.
LEZIONE 3. Il bayesianesimo
Si è visto nelle lezioni precedenti che il teorema di Bayes è per il soggettivista l’unico strumento disponibile
per effettuare inferenze non-deduttive. Tali inferenze, che si chiamano a volteampliative, nella tradizione
logica venivano classificate in due sottocategorie: quella delle inferenzeinduttive e quella delle inferenze
abduttive. L’induzione e l’abduzione vengono spesso presentate come processi inferenziali conversi tra loro.
Si guardi a questi due esempi :
(1) Se il fiammifero è stato sfregato, si è acceso
(2) Se il fiammifero si è acceso, (vuol dire che) è stato sfregato .
Nella (1) si passa da un evento ipotetico ad un altro, che può dirsi spiegato in termini del primo, in base ad
una legge stabilita induttivamente. Dato che tra i due eventi sussiste ungap temporale e che la legge in
questione ("tutti i fiammiferi sfregati si accendono") appare descrivere un nesso causale, si può anche dire che
il rapporto tra i due venti ipotizzati è una rapporto causale. Nella proposizione (2) l’inferenza procede invece
nella direzione inversa. L’antecedente enuncia un evento del quale il conseguente descrive una spiegazione
causale attendibile.
In ambedue i casi la conclusione non segue dalla premessa con necessità ma solo con un certo grado di
probabilità: grado la cui esatta determinazione può certo essere problematica. L'intuizione comunque
suggerisce che nel secondo esempio il grado di probabilità della conclusione è più basso di quello della
conclusione citata nel primo esempio. La conclusione di (2) è in effetti lecita una volta che si possa escludere
che esistono spiegazioni del fatto in oggetto migliori di quella citata: è infatti una inferenza “alla miglior
spiegazione” (IBE: Inference to the Best Explanation).
Si noti che in esempi diversi da quello precedente il rapporto tra i gradi di probabilità associabili ai due tipi
di conclusione è completamente diverso o addirittura opposto : si pensi per esempio alla differenza tra “se ha
avuto un figlio in questi giorni ha avuto un rapporto sessuale circa nove mesi fa” (probabilissimo) e “se ha
avuto un rapporto sessuale nove mesi fa ha avuto un figlio in questi giorni” (poco probabile). L’importanza del
teorema di Bayes è comunque evidente in base al fatto che ci dà una regola- la chiameremoregola di Bayes –
che consente di calcolare, una volta fissate certe assegnazioni di valori, la probabilità della conclusione di un
condizionale induttivo (di forma Pr(B|A)) in base alla probabilità della conclusione di un condizionale
abduttivo (di forma Pr(A|B)), e viceversa.
Come vedremo in seguito, la classificazione delle inferenze ampliative in induttive e abduttive appare
insufficiente se si tiene conto di un terzo tipo di inferenza- l’inferenza controfattuale - che era ignorato nella
tradizione aristotelica e postaristotelica ma che ha un’importanza che la logica contemporanea ha messo
adeguatamente in luce.
È giunto il momento di vedere come si applica il teorema di Bayes nella trattazione dell’inferenza
ampliativa, sottolineando fin dall’inizio che insistere sulla centralità del teorema di Bayes non è solo
prerogativa dei soggettivisti, ma di una categoria di metodologi che vengono genericamente raggruppati
sotto l’etichetta di bayesiani. Per i bayesiani la probabilità è sempre un grado di credenza calcolabile che
dipende dal grado di probabilità, esprimibile numericamente, delle prove disponibili. Data questa definizione
ampia di “bayesiano”, anche epistemologi non soggettivisti come il logicista Carnap o il frequentista
Reichenbach si possono chiamare bayesiani.
Il bayesianesimo giuridico (“nuova dottrina delle prove”) è quella corrente di pensiero che ritiene che ogni
inferenza mirante a stabilire delle prove nell'indagine giudiziaria vada ricostruita razionalmente come
un’applicazione del teorema di Bayes . Una premessa necessaria è che, come è noto, c’è una differenza
sostanziale tra indizio e prova. In un processo penale la prova è l’insieme di evidenze in grado di stabilire che
una certa ipotesi (in particolare, una ipotesi di reato) è valida oltre ogni ragionevole dubbio, mentre un
indizio è ciò che aumenta in qualche misura la probabilità dell’ipotesi in questione. Nei processi civili si ha
invece un diverso standard di certezza probatoria, nel senso che la soglia per ritenere accettabile un'ipotesi è
collocata a un livello più basso, richiedendosi semplicemente che la probabilità dell'ipotesi superi lo 0,5.
La procedura proposta dai bayesiani si può descrivere così. Per fare un esempio, supponiamo si debba la
stabilire la probabilità che Rossi abbia avvelenato il caffè alla luce di certe evidenze disponibili.
Il detective comincia assegnando un certo valore a priori alla probabilità di H (Rossi ha avvelenato il
caffè) prima di esaminare le evidenze E1, E2, E3… En - dove E1 , supporremo, è il fatto che Rossi ha comprato
una dose di veleno. Egli assegna anche un valorea priori a Pr(E 1| H), cioè alla probabilità che Rossi abbia
comprato il veleno se ha, per ipotesi, avvelenato il caffè (verosimiglianza olikelyhood). Naturalmente questo
valore sarà molto alto. Si assegna poi anche un valore a Pr(E1) e quindi, grazie al teorema di Bayes, si può
calcolare Pr(H | E1). Dunque con questo metodo si passa dalla probabilità di Ha quella revisionata (updated)
di H |E1. Chiamiamo Pr(H’) questa probabilità revisionata. Si passa poi con lo stesso procedimento a calcolare
Pr (H’|E2), dove E2 è il secondo elemento di evidenza, ripetendo poi la procedura per ogni evidenza 3E
…En.
Questa iterazione di revisioni porta alla fine a calcolare un certo valore Pr(H’’’’| En). Se questo valore
terminale ha superato la soglia richiesta dalla natura del processo, la conclusione va accettata come valida.Se
non soi riesce a raggiungere tale soglia si parla, come è noto, diinsufficienza di prove.
Si può anche dimostrare che più aumenta il numero delle condizionalizzazioni (revisioni) effettuate più le
valutazioni soggettive tendono a convergere verso un valore unico, ridimensionando quindi l’ arbitrarietà delle
iniziali valutazioni a priori. Un importante teorema noto come teorema di DeFinetti è stato considerato
dai bayesiani la carta vincente per ridurre il peso dell’ arbitrarietà delle valutazioni iniziali e rispondere alle
più ovvie critiche provenienti da altre scuole di pensiero. De Finetti ha dimostrato che, se la sequenza delle
prove è scambiabile e se le credenze di un ricercatore sono coerenti, allora il valore che viene assegnato
all’ipotesi dopo un numero alto di esperimenti dello stesso tipo (p.es. lanci della stessa moneta) si approssima
progressivamente a quello della frequenza statistica relativa. Più in generale, il soggettivista può appoggiarsi
al fatto che quanto più aumentano le prove a favore di una certa ipotesi tanto più diminuisce il peso delle
assegnazioni a priori.
Sulla scambiabilità, tuttavia, come osserva Jonathan Cohen, c’è un problema. Due eventi E1 e E2 che
siano evidenze per H sono scambiabili purchè siano nella stessa misurairrilevanti per H: ma la rilevanza è
una nozione probabilistica e quindi la stessa nozione di scambiabilità risulta essere una nozione probabilistica
– e quindi, per i soggettivisti, sempre dipendente da assegnazioni soggettive di probabilità.
Le applicazioni del teorema di Bayes sono ad ampio raggio.
In primo luogo questo teorema, che può essere usato come regola, può essere riformulato in diverse varianti
semplici e complesse, che qui presentiamo in una tabella sinottica.
-----------------------------------------------------------------------------------------------------REGOLE DI BAYES:
(se Pr(E) ≠0)
(TB) Pr(H|E) = Pr(H) • Pr(E|H)
Pr(E)
(TB) Pr(H|E) = Pr(H) • Pr(E|H) • 1/Pr(E)
(TB*) Pr(H|E) =
(se Pr(E) ≠0)
____Pr(H) • Pr(E|H)
Pr( H) • Pr(E|H) + Pr(-H) • Pr(E|-H)
(se Pr(E) ≠0)
(OB)
Pr(H|E)
=
Pr H • Pr(E| H)
• 1/Pr E
Pr(-H |E)
Pr-H • Pr(E|-H) • 1/Pr E
(si ottiene da TB dividendo i due membri dell'eguaglianza per due valori identici)
Pr(H |E)
=
Pr H • Pr(E| H)
Pr(-H |E)
Pr( - H) • Pr(E|- H)
(si ottiene semplificando OB)
(OB’)
(OBK)
Pr(H|E ∩ K)
Pr(-H |E ∩K)
(K è la conoscenza di sfondo)
=
PrH • Pr(E ∩ K|H)
Pr (-H ) • Pr(E ∩ K|-H)
La frazione O(H|E) = Pr(H |E) indica la ragione di scommessa (odds)
Pr(-H |E)
.
Per esempio
9/10 / 1/10 = 9:1 (9 a 1). 2
Un esempio di come si applica il teorema di Bayes in medicina è offerto dallo studio statistico dei falsi
positivi, dei falsi negativi e delle loro conseguenze per i pazienti. I falsi positivi si verificano quando un test
medico dà esito positivo in modo falso o scorretto o, in altre parole, iltest indica che il paziente soffre di
una malattia che in effetti non ha. Per cominciare, possiamo usare il teorema di Bayes per determinare la
probabilità di essere malati a fronte di un risultato positivo deltest, vero o falso che sia. Supponiamo che un
test per una certa malattia produca, statisticamente, i risultati seguenti:
1) Se un paziente sottoposto a test ha la malattia, il test produce un risultato positivo il 99% delle volte,
cioè con probabilità 0,99 (produce al 99% un vero positivo)
2) Se un paziente sottoposto a test non ha la malattia, il test produce un risultato positivo il 5% delle
volte, cioè con probabilità 0,05 (produce al 5% un falso positivo).
Ingenuamente qualcuno potrebbe pensare che ciò significa che solo il 5% dei risultati sono sbagliati, ma
questo è un errore. Supponiamo che la malattia sia rarissima, per esempio che colpisca solo lo 0,1% della
popolazione, cosicchè un paziente scelto a caso ha una probabilitàa priori pari a a 0,001 di avere la malattia.
Possiamo usare la regola di Bayes per calcolare sia la probabilità di essere veramente malati a fronte di un
test positivo (vero o falso) sia la probabilità di essere veramente sani a fronte di un test positivo (vero o falso).
Sia
M = il paziente è malato (quindi –M = il paziente è sano)
P = il test è positivo
(quindi –P = il test è negaitvo)
Schematizzando, possiamo descrivere così le probabilità di malattia o non-malattia a fronte dei risultati dei
tests:
Pr (M|P) : probabilità di essere malati a fronte di in un test positivo
Pr(-M|P): probabilità di essere sani a fronte di un test positivo
Pr (M|-P): probabilità di essere malati a fronte di un test negativo
Pr (-M|-P): probabilità di essere sani a fronte di un test negativo
Allora, per quanto detto, valgono questi dati che descrivono le c.d.verosimiglianze:
1) Pr (P|M) = 0,99 (positivo se malato : vero positivo) (vero positivo)
2) Pr (P|-M) = 0,05 (positivo se sano: falso positivo)) (falso positivo)
3) Pr (M) = 0,001 (rarità della malattia)
2 N.B.Si può dimostrare che il quoziente si può definire in termini di odds in base a Pr(H|E) = O(H|E)/O(H|E) + 1
P.es. 9/1 / 9/1 + 1/1 = 9/1 / 10/1 = 9/10
La dimostrazione è la seguente, impiegando per semplicità probabilità non condizionate.
1) Pr(H) = O(H) • (1- Pr(H))
2) Pr(H) = O(H) - (O(H) • Pr(H))
3) Pr(H)/Pr(H) = O(H)/Pr(H) - (O(H) • Pr(H))/Pr(H)
4) 1= O(H)/Pr(H) - O(H)
5)1 + O(H) = O(H)/Pr(H)
6)Pr(H) (1 + O(H)) = O(H)
7) Pr(H) = O(H) /1 + O(H)
Prima di procedere ricordiamo ora la particolare versione della regola di Bayes che è
(TB*) Pr(M|P) =
____Pr(M) • Pr(P|M)
Pr( M) • Pr(P|BM + Pr(-M) • Pr(P|-M)
(se Pr(A) ≠ 0)
La probabilità che il paziente abbia effettivamente la malattia nelle condizioni sopra esposte, a fronte di un
test positivo (vero o falso che sia), per la regola di Bayes è
(TB*) Pr(M| P) = ___ _Pr(M) • Pr(P| M)
(se Pr(M) ≠ 0)
Pr(M) • Pr(P | M) + Pr(-M) • Pr(P|- M)
0.99 • 0.001
0.001 • 0.99 + 0.999 • 0.05
=
0.019
In base al principio delle probabilità totali, che si applica anche a probabilità condizionali, la probabilità
che il paziente sia sano (-M) alla luce di un test positivo è il complemento della probabilità appena calcolata.
In altre parole Pr (-M|P) = 1- Pr (M| P).
Nel caso dell’esempio tale probabilità, ossia Pr(-M |P), è circa
1-0,019 = 0.98 (98%). Quindi la probabilità di essere sani nonostante iltest dica il contrario risulta altissima,
quale che sia l’apparente accuratezza del test. Se l’incidenza della malattia è rara, quindi, la grande
maggioranza dei pazienti che risultano positivi al test sono in realtà sani!
Restando sempre nell’esempio di una malattia che sia rara nella stessa misura di cui sopra, se il test è
accurato e produce
quasi sempre un risultato negativo in pazienti sani, diciamo con probabilità 0,999,
avremmo Pr(P| -M) = 0,999, cioè un valore prossimo a 1: molto diverso dal precedente 0,05. In tal caso,
avremo, per “malato se positivo”
Pr(M | P) =
≈ 0,5
0,99 • 0,001
0,99 •0,001 + 0.001 • 0,999
(e si noti che Pr (-M |P) sarebbe la stessa di “malato se positivo” in quanto 1- 0,5 = 0,5).
Vediamo che cosa succede se la malattia non è rara ma frequente, per esempio si abbia che Pr M = 0,6.
Allora
0.99 • 0.6
=
0.9224
0,6 • 0.99 + 0.999 • 0.05
La probabilità di essere malati a fronte di un test positivo è in tal caso alta in modo soddisfacente.
E’ ovvio che, quando il paziente è sano, untest adeguato dovrebbe mirare a dare esito non positivo ma
negativo. Sono da evitare dunque i falsi negativi, cioè i casi in cui il test è negativo (-P) ma il paziente è
veramente malato (M). Si noti che i falsi negativi sono più pericolosi dei falsi positivi. La ragione è che con il
falso positivo si rischia di curare qualcuno per una malattia che non ha, mentre con i falsi negativi si rischia di
omettere le cure a qualcuno che è seriamente malato.
Il teorema di Bayes ci aiuta naturalmente anche a calcolare la probabilità di essere malati in presenza di
un test negativo, vero o falso che sia ( Pr (M|- P)), date le stesse informazioni sulla rarità della malattia e
sull'acccuratezza del test. Fatte le debite sostituzioni con gli stessiinputs precedenti e stante che, se Pr (P | M)
= 0.99, Pr(- P | M) = 0.01, avremo
Pr(M| -P) = Pr(M) • Pr(-P|M)
Pr(-P|M) •Pr(M) + Pr(-P|-M) •Pr(-M)
≈ 0,0000105
=
0,01• 0,001
0,01 • 0,001 + 0,95 • 0,999
Quindi, se una malattia è rara, la probabilità di incappare in un falso negativo è fortunatamente bassa. Ma
se, per ipotesi, il 60% della popolazione fosse esposto alla malattia, la probabilità di essere vittima di un falso
negativo sarebbe più elevata. In questo caso avremmo Pr(M) = 0,6 , donde
Pr(M| -P) = Pr(M) • Pr(-P|M)
=
0,01•0,6_______
Pr(-P|M) •Pr(M) + Pr(-P|-M) •Pr(-M)
0,01 • 0,6 + 0,95 • 0,4
≈ 0,0155
In caso di malattia diffusa o epidemica, quindi, la probabilità di essere vittima di un falso negativo, pur
essendo sempre abbastanza bassa, sale a 0,0155, cioè a 1,55%. Si noti che tutti i valori probabilistici inseriti
come inputs nella regola di Bayes sono derivati da statistiche, non da stime soggettive.
Passiamo ora dalla medicina al diritto. Qui ritorniamo alla distinzione già tracciata traindizi e prove, dove,
in termini probabilistici, per “prova” si intende nei processi penali qualcosa che attribuisce all’ipotesi un grado
di probabilità prossimo alla certezza, mentre si intende di solito per “indizio” ogni elemento di informazione
che rende più probabile l’ipotesi.
Cominciamo con il discutere una regola giudiziaria basata su quello che si potrebbe dire bayesianesimo
ingenuo. In quasi tutti i paesi occidentali nel diritto penale si chiede normalmente che le conclusioni vengano
raggiunte “oltre ogni ragionevole dubbio” (BARD: Beyond Any Reasonable Doubt) che si potrebbe
parafrasare dicendo che la probabilità deve essere sopra una soglia di 1-ε , per qualche ε prefissato
inteso come grandezza "trascurabile".
Questa soglia, in prima approssimazione, fissa la differenza tra ciò che si può ritenere provato con certezza e
ciò che non lo è. La regola che si può formulare è allora questa:
(R) Il giudice al termine del processo decide nel merito sulla sola base del valore di probabilità dell’ipotesi: in
altre parole accetta il thema probandum se la sua probabilità è superiore alla soglia di 1- ε e lo respinge
altrimenti.
La convinzione di tutti i bayesiani è che, potendosi sempre assegnare dei valori di probabilità alle
conclusioni di tutte le inferenze ampliative, si possa anche calcolare con esattezza se gli asserti che interessano
il giudice superano o meno la soglia dell’ “oltre ogni ragionevole dubbio”, sopra fissata a 1-ε. Sull’ esatta
determinazione del valore diε bisogna osservare che ci sono state diverse controversie. Il valore di certezza
pratica in molti contesti è fissato convenzionalmente in 0,999999, per cui ε sarebbe uguale a 0,000001.
Adottare la condotta (R) con questo valore diε è quello che diremmo un comportamento razionale. Ma non
c`è dubbio che un livello così alto di certezza, se è giustamente richiesto, poniamo, per la sicurezza aerea, non
è quasi mai raggiungibile in un processo penale. Il dilemma, naturalmente, è il seguente: se punire un numero
troppo alto di innocenti ( introducendo soglie più basse di probabilità) o lasciare in libertà un numero troppo
alto di malfattori (introducendo una soglia eccessivamente alta di probabilità).
Come afferma Richard Eggleston, il diritto inglese assegna alla giuria l`onere di stabilire cosa sia una
misura "ragionevole" di probabilità in quel particolare contesto. Si parla infatti non di indubitabilità ma di
"convinzione oltre ogniragionevole dubbio" : ma che cosa è un dubbio ragionevole? Il dubbio cartesiano è
razionale ma non ragionevole. In ogni caso della scomparsa di qualche persona, per esempio, potremmo
considerare tra le varie ipotesi quella per cui lo scomparso sia stato rapito dagli extraterrestri. Infatti, in tali
casi prendiamo in considerazione un’ ipotesi che è una possibilità logica ma è certo una possibilità fisica,
stante che non disponiamo di leggi fisiche che riguardano soggetti extraterrestri.
Ipotesi diverse, come quella di una rocambolesca sostituzione di persone o di una diabolica messinscena (su
cui torneremo), rientrano nel repertorio giornalistico e anche giudiziario, ma è dubbio se siano da considerare
ragionevoli.
Riteniamo sia utile continuare a usare la formula R lasciando nel vago il valore diε come quello di un
valore trascurabile non specificato. Si tratta di una procedura di idealizzazione che nonè l`eccezione ma la
regola anche nella scienza. Il valore di 0,999999 potrà essere tenuto presente, ma come valore su cui
converge la convinzione di una giuria ideale formata da soggetti perfettamente raziocinanti e dotati di
informazione completa, una volta che non sia influenzata da fattori di qualche genere.
Lord Dennig scrisse :"Nei processi penali l`accusa deve essere provata oltre ogni ragionevole dubbio, ma
possono esserci dei gradi all`interno di questo standard" . La solidità della prova dovrebbe essere
proporzionata alla gravità del reato. Sono state anche fatte delle ricerche sui valori di probabilità che vari
soggetti chiamati a giudicare stimano sufficienti in rapporto a diversi reati. Per la prova di omicidio, per
esempio, i giudici richiederebbero 0,92 mentre i giurati si acconterebbero di 0,86.
Un'altra idea a volte sostenuta è che quando il grado di prova è "oltre ogni ragionevole dubbio" ciascun
elemento di prova deve a sua volta risultare tale oltre ogni ragionevole dubbio. Questo è veramente eccessivo,
perché le singole prove potrebbero non essere certe mentre la loro combinazione complessiva potrebbe portare
l’ipotesi al livello di credibilità richiesto.
Nei processi civili, come già detto, ci si conforma a uno standard diverso da quello di "oltre ogni
ragionevole dubbio" richiesto per i processi penali, ma le opinioni sul grado di probabilità richiesto sono
divergenti. Il minimo che si chiede è che la probabilità di A superi la probabilità di -A, cioè il 50%., anche se
si tende a usare la locuzione più vaga "preponderanza della probabilità". Sempre Lord Denning sossteneva
che, allo stesso modo in cui c'è una variabilità del concetto di ragionevole dubbio, c`è una variabilità anche nel
concetto di “preponderanza di probabilità”. Una regola pratica condivisa è per esempio questa: il tribunale
può accontentarsi di un minor grado di probabilità quando ritiene che la reputazione dell`imputato sia talmente
cattiva che una condanna in più non potrebbe peggiorarla. Come si vede, le soglie per l’ accettazione delle
prove non possono essere fissate in modo rigido, dovendosi tener conto dei danni e dei vantaggi derivanti dal
comminare o meno una certa sanzione.
Una complicazione è che i processi penali e civili possono essere intrecciati: può capitare per esempio che un
tribunale civile impedisca la trasmissione del patrimonio a un soggetto che si sospetta abbia assassinato la
donna che ha steso il testamento. Qui si dovrebbero usare contestualmente due criteri diversi, quello richiesto
per i processi civili e quello richiesto per i processi penali, ma è arduo stabilire come deve essere realizzata
questa combinazione.
Una classe importanti di problemi nell’impiego del calcolo delle probabilità è posta dalla credibilità dei
testimoni. Una volta stabilito che i testi sono indipendenti, la credibilità della testimonianze dovrebbe essere
ottenuta moltiplicando le varie probabilità applicando il principio delle Probabilità Composte. Come vedremo
in seguito, questa applicazione del calcolo è problematica, ma il problema primario è che comunque
presuppone che si sappia come valutare probabilisticamente l’attendibilità delle singole testimonianze.
Si noti che non si tratta solo di stabilire la probabilità che il teste stia dicendo qualcosa di falso in buona
fede o mala fede. Bisogna considerare anche la probabilita`
che abbia visto bene, che sia intimidito o
ricattato da altri, che si ricordi esattamente ciò che ha visto, che non venga frainteso e che non sia ostacolato
nel raccontare ciò che intende raccontare.
La sociologia dei mass-media ha reso familiare questo fenomeno: che quando un presunto fatto viene
trasmesso reiteratamente e a tutto campo dai media, si trova quasi sempre qualcuno che è disposto a
testimoniare della veridicità del fatto stesso – e si noti che costui non è necessariamente subornato o in mala
fede. Lo scrittore Norman Mailer ha inventato la parola “fattoide” per indicare qualche informazione che
non esisteva prima di comparire su un giornale o in TV. Lo spazio concettuale dell’uomo medio, che è
quotidianamente condizionato dai media, è saturo di fattoidi, che sono in grado di orientare i suoi
comportamenti anche sul piano politico. Vale certamente il principio per cui una falsità più volte ripetuta tende
a diventare inerzialmente una “verità”. Come diceva Goebbels: “ripetete una falsità 10, 100, 1000 volte e
quella diventerà la verità”. Tali verità costruite socialmente influenzano, anche a livello inconscio, soggetti che
in prima apparenza non si direbbero suggestionabili. Basti pensare al caso di due testimoni indipendenti che
vedono in cielo due aerei militari in successione; ma il primo dei due dichiara di aver visto un aereo
seguito da
un altro, mentre il secondo dichiara di aver visto un aereoinseguito da un altro. Il secondo, sia pure in buona
fede, potrebbe essere condizionato dal fattoide diffuso daimedia secondo il quale in quello stesso giorno si
sarebbe svolta poco tempo prima una battaglia aerea in una zona limitrofa.
Quanto detto diminuisce l’interesse per le testimonianze di testimoni isolati, le cui testimonianze cioè non
siano convergenti con quelle di altri testimoni indipendenti. In ogni caso, comunque, ci sono dei criteri per
valutare la versione di un testimone singolo:
1) coerenza interna della versione
2) coerenza con le versioni di altri testimoni
3) coerenza con fatti non controversi
4) "credito " del testimone (che esclude, per esempio, soggetti condannati per falsa testimonianza o soggetti
con disturbi psicofisici)
5) accuratezza dell’osservazione del testimone (che, per esempio, potrebbe fingere un difetto fisico alla vista o
all'udito).
Il requisito della coerenza non va inteso solo in senso logico-formale ma in un senso più ampio che chiama
in causa le possibilità fisiche e tecniche. Sfortunatamente queste possibilità variano in funzione della
collocazione geografica e dell’epoca storica. Dire "Andò e tornò da Roma in un giorno" un secolo fa sarebbe
stato considerato incoerente con le leggi fisiche, oggi sicuramente no.
I testimoni a volte mentono quando è in gioco la loro reputazione o la loro dignità personale. Si noti che il
testimone giura di dire "la verita`, tutta la verita`, niente altro che la verita`". Questo implica che l'omissione
nell' esposizione di fatti rilevanti comporti lo spergiuro, ma di fatto tale omissione non è considerata reato a
meno che non comporti la falsità di una parte della testimonianza. In realtà molti testimoni non si sentono in
colpa se pensano di mentire o di nascondere la verità a fin di bene.
Un errore comune, in ogni caso, è pensare che i testimoni siano completamente veridici o completamente
mendaci. Si tende a sottovalutare la facilità con cui molta gente dimentica le cose più banali, anche la stessa
lingua madre. E si tende anche a trascurare il fatto che i mentitori più astuti conoscono l’arte di mescolare
verità e menzogne, o dire “mezze verità”, in modo da risultare il più possibile credibili.
Che dire quando un testimone enuncia un fatto eccezionale o improbabile? Secondo Hume e Laplace anche
la veridicità del testimone in questo caso deve essere giudicata improbabile. Esempio tratto dalla cronaca:
quello di un testimone che ha dichiarato di aver preso un candelotto di dinamite da suo fratello e di esserselo
dimenticato in tasca. La probabilità che costui dica il vero è risibile. Ma a volte i testimoni raccontano in
modo veridico dei fatti assurdi, e l`assurdità di quello che raccontano si potrebbe usare per provare la loro
buona fede, dato che chi mente di solito non ha interesse a raccontare qualcosa che si stenta a credere.
Un problema importante connesso a quello appena menzionato riguarda ciò che si intende esattamente per
improbabile. Nel linguaggio corrente è improbabile ciò che è sorprendente, e probabile ciò che non lo è. Ma
se in una mano di bridge mi vengono servite 13 carte di picche questo è sorprendente, anche se a rigore ha la
stessa probabilità di qualsiasi altra distribuzione. Dunque ci vuole cautela nell'usare concetti come quello di
sorpresa reale o potenziale (di cui parleremo ancora ) o di "indice di sorpresa" , dato che sembrano sganciati
dalla nozione matematica di probabilità.
L'idea di Eggleston è che la probabilità, anche nei giochi d’azzardo, deve essere stabilita a fronte di tutte le
alternative possibili. Se, per esempio, le carte dell’esempio sopra esposto sono state distribuite ieri e il fatto
viene raccontato oggi a gioco finito, dobbiamo considerare anche l'alternativa che le carte siano state truccate
oppure che il teste che riporta il fatto a distanza di un giorno sia menzognero: alternative che non sono affatto
trascurabili. Si pensi al famoso argomento di Hume sui miracoli. Che cosa è più probabile, si chiede Hume?
Che ci sia una violazione di una legge di natura o che qualcuno dica il falso perchè ha avuto le traveggole o
perchè è un mitomane?
Ora, in tema di testimonianze, il teorema di Bayes si rivela uno strumento prezioso. Nel caso più semplice,
abbiamo due testimoni per valutare l’attendibilità di un certo enunciato S. Supponiamo di porre
As = Il teste A afferma che si è verificato S
Bs = Il teste B afferma che si è verificato S
S = la dichiarazione S è vera
-S = la dichiarazione S è falsa.
Utilizziamo qui la nozione diragione di scommessa (in inglese odds: da non confondere con il quoziente
di scommessa) su B dato A. Come già visto, questa grandezza è interdefinibile con quella di probabilità
condizionata e si può esprimere come il rapporto matematico tra Pr(B|A) e Pr(–B|A), cioè come il rapporto tra
due quozienti di scommessa :
Pr(B|A)
–––––––
Pr(–B|A)
(per
esempio
10/100
–––––––- = 1/9 (ragione di 1 a 9 )
90/100
Più in generale, sarà utile definire gliodds semplicemente così:
O(B|A) = Pr(B|A)/ 1-Pr(B|A)
Utilizziamo ora questa variante del teorema di Bayes,
in cui la formula di Bayes compare sia al
numeratore che al denominatore in due esemplificazioni diverse, una con H e l’altra con –H:
(OB)
Pr(H|E)
=
Pr H • Pr(E| H)
• 1/Pr E
Pr(-H |E)
Pr- H • Pr(E|- H) • 1/Pr E
Sulla sinistra compare la ragione di scommessa (odds) anzichè la semplice probabilità condizionata di H
rispetto ad E. La formula equivale naturalmente per semplificazione algebrica a
Pr(H |E)
=
Pr H • Pr(E| H)
Pr(-H |E)
Pr( - H) • Pr(E|- H)
Chiameremo Pr H /Pr –H rapporto a priori, e Pr(E|H)/ Pr(E|-H) valore probatorio dell’evidenza E orapporto
di Bayes. Quanto alla probabilità a posteriori Pr (H|E), a volte viene chiamata credibilità. Quindi la
probabilità di un’ipotesi espressa dalla ragione di scommessa si riduce sostanzialmente a un prodotto tra il
rapporto a priori e il valore probatorio dell’evidenza.
Tornando all’esempio, avremo quindi come caso speciale, ponendo H=S e E= As∩ Bs, quanto segue :
(*) Pr(S|As ∩ Bs) =
Pr(S)
•
Pr(As ∩ Bs| S)
Pr(-S|As ∩Bs)
Pr(-S) •
Pr(As ∩ Bs| -S).
Viene così espressa in termini di ragioni di scommessa la risposta a questa domanda:qual è la probabilità
che S sia vera se viene riferita dai testi ?
La frazione
Pr(S)/Pr(-S) entro la formula indica la ragione iniziale di scommessa su S prima che si
sentano i testi, cioè sostanzialmente il valorea priori della probabilità di S. Circa As e Bs bisogna stabilire se
si considerano i testi indipendenti oppure no. Nel primo caso Pr(As∩ Bs|S) si riduce, applicando il teorema
delle probabilità composte, a Pr(As|S) • Pr(Bs|S). Altrimenti bisogna ricorrere ad una espressione più lunga
che il lettore puo` calcolare da sè.
Al proposito valgono alcune osservazioni.
Come sappiamo, per applicare il teorema di Bayes bisogna fare qualche assunzione circa l’assegnazione
delle probabilità iniziali. In casi di incertezza tra due alternative si assume spesso convenzionalmente,
ispirandoci al principio di indifferenza, che la probabilità iniziale sia 0,5. Ma potrebbero esserci più di due
versioni possibili dei fatti, poniamo cinque. In questo caso, quindi, i due testimoni sarebbero due tra cinque
testimoni possibili e dovremmo porre Pr (As|S) = Pr(Bs|S) = 1/5.
Altri problemi di rilievo matematico riguardano non le premesse ma la conclusione, e in particolare il
requisito dell’alta probabilità della conclusione. È importante osservare che la richiesta di alta probabilità
della conclusione è stata proposta anche nell’ambito della metodologia delle scienze fisiche. Il cosiddetto
modello hempeliano di spiegazione SI (ossia Statistico-Induttiva) esige che’explanandum
l
venga derivato
dall’explanans con un alto grado di probabilità. Accade quindi che le difficoltà che sono state riscontrate nella
teoria hempeliana si applicano immediatamente alla regola R di pagina 00. Infatti, mentre nella logica
deduttiva l’aggiunta di altre informazioni alle premesse non altera la conclusione, questo non si verifica nella
logica probabilistico-induttiva. Nel linguaggio dei logici, questa inferenza ènon-monotòna. Se, per esempio
Pr(H| E) = 1- ε, per valori non banali di E e E’ può accadere che Pr (H|E ∩ E' ) < (1 – ε). In altri termini,
nuova informazione indipendente può abbassare il livello di probabilità della conclusione. Supponendo che la
probabilità che un verdetto raggiunto sia molto alta, questo significa che il risultato però rischia di essere
revocato in dubbio alla luce di nuova informazione sconosciuta: ma questa instabilità è imbarazzante, perché
sembra che non ci consenta di dire che la conclusione valga oltre ogni ragionevole dubbio. Come si può
considerare indubitabile una conclusione se si ammette che altre informazioni potrebbero renderla incerta?
A ciò si aggiunge che non è in genere transitiva la relazione implicativa che possiamo definire così:
(Def. =>) A => B =Df Pr(B|A) = 1- ε.
Non abbiamo infatti nessuna garanzia che, se è vero A =>B, ossia Pr(B|A) = 1-ε, ed è vero B => C, ossia
Pr(C|B) = 1- ε, allora è vero A => C , cioè (Pr(C|A)=1- ε. Quindi una catena di ragionamenti ciascuno dei
quali è ragionevolmente certo potrebbe avere una conclusione che non è ragionevolmente certa. Questo
problema è strettamente connesso a quello evidenziato da Kyburg nel c.d. “paradosso della lotteria”.
La difficoltà di raggiungere una conclusione stabile naturalmente risulta più grave nella visione
soggettivista del bayesianesimo. Infatti i soggettivisti negano che ci debba essere necessariamente un consenso
intersoggettivo (a fortiori “oggettivo”) sulla assegnazioni iniziali.
I soggettivisti più radicali (in genere
seguaci di De Finetti) respingono per ragioni di principio anche la possibilità di distinguere tra valutazioni
ragionevoli e valutazioni che dipendono dai gusti o dalle preferenze individuali, introducendo un elemento
supplementare di incertezza. Per i soggettivisti non si giustifica il fatto che le assegnazioni iniziali in caso di
ignoranza siano 0.5 per ogni soggetto, e non c’è garanzia che ci sia uniformità nel giudizio collettivo. Il
soggettivista ha gioco facile nel rilevare che il bayesianesimo di stampo logicista è naufragato insieme al
sogno di Carnap di creare una teoria formale espressa nel linguaggio della logica matematica. La visione di
Carnap inoltre presuppone la neutralità dei dati su cui si valutano le ipotesi, idea notoriamente respinta
dall’epistemologia c.d. postpositivista, secondo cui i fatti sono sempre condizionati da teorie o pregiudizi
presupposti.
Un ulteriore punto debole del soggettivismo starebbe nel fatto che ignora il momento della dialettica
probatoria, cioè il fatto che la ricostruzione del fatto avviene attraverso la discussione e la controversia.
Mettendo l’accento sulla della dialettica probatoria, recentemente Alberto Mura ha proposta una terza via,
oltre al logicismo e al soggettivismo bayesiano, che ha chiamatobayesianesimo critico. Per capire la
differenza, riprendiamo l’idea già accennata secondo cui è normale definire probabilisticamente la nozione di
rilevanza (dipendenza) in questo modo:
1) A è positivamente rilevante per B quando Pr(B|A) > Pr (B)
2) A è negativamente rilevante per B quando Pr(B|A) < Pr(B)
3) A è irrilevante per B quando Pr (B|A)=PrB
Su queste idee si basano tutte le teorie probabilistiche della causa come quella di Suppes e Salmon, a cui
si accennerà in seguito. Ma, se le probabilità iniziali sono soggettive, ne segue anche che anche i nessi di
rilevanza risultano tali. Essi quindi non sarebbero oggetto di conoscenza ma diventerebbero materia di
opinione. In tal modo si perde la speranza di costruire un consenso razionale nella ricostruzione dei fatti e di
adempiere, come osserva Mura, lo stesso obbligo di motivazione della sentenza, che deve basarsi su ragioni
universalmente condivisibili. Inoltre, come già anticipato, si può mostrare che in tal modo si rende impossibile
addirittura applicare lo stesso principio di indifferenza. Viceversa, bisogna ammettere che le valutazioni di
rilevanza possono essere in molti casi antecedenti a quelle di probabilità e tali da condizionare la revisione
delle probabilità richiesta dal teorema di Bayes. Una critica di questo tenore era già stata menzionata a
proposito della critica di Cohen al principio di scambiabilità di de Finetti.
Sempre in tema di dialettica probatoria, va osservato che nel ragionamento giudiziario è a volte essenziale
far leva sulle cosiddette “massime d’esperienza”, che non sono leggi di natura ma sono però generalizzazioni
affidabili. Per esempio la massima “un teste disinteressato normalmente dice la verità” in termini probabilistici
si potrebbe tradurre con
(ME) Pr (x dice la verità| x è disinteressato) > 1/2
E’ dubbio infatti che si possa rendere con
(ME’) Pr (x dice la verità| x è disinteressato) = 1- ε
dato che diverse cause possono influire sulla veracità dei testi.
Una variante della stessa massima sarebbe forse meglio resa da
(ME’’) Pr (x dice la verità| x è disinteressato) > Pr (x dice la verità| x è interessato)
Tali probabilità si possono discutere, ma in ogni caso non possono essere considerate prodotti di valutazioni
soggettive. Il bayesianesimo critico asserisce che i giudizi di probabilità sono opinioni non definitive ma
aperta all’altrui critica, sostenute con l’obiettivo di convincere gli altri a raggiungere il consenso. Ciò
presuppone che nel dialogo vengano date per scontate assunzioni e informazioni condivise.
Di fatto le
applicazioni del teorema di Bayes, come già osservato, sono di solito appoggiate a dati la cui origine non è
necessariamente soggettiva: potrebbero essere, per esempio, dati accettati con solide basi statistiche (questo è
quanto accade, come si è visto, nelle ricerche mediche) o provenienti da testimonianze di cui solo nessuno
potrebbe ragionevolmente dubitare.
Parlando dei vari usi che si possono fare del teorema di Bayes, cominciamo con il ricordare che la formula
di Bayes introdotta nella prima lezione è solo la più semplice di varie formulazioni equivalenti o estese. Due
di queste sono già state impiegate.
Un’altra si ottiene tenendo conto dell’ informazione disponibile K
(Background Knowledge) nella valutazione di probabilità. Abbiamo già visto che se Pr(A) è molto alta, Pr( A
∩ K) potrebbe essere più bassa dato che l' informazione accessoria può avere un suo peso non trascurabile. C'
è una differenza tra valutare la probabilità di un evento astratto o generico (p.es. la probabilità che un
qualsiasi fiammifero si accenda quando è sfregato) e la probabilità di un evento spcificorebus sic stantibus,
cioè in circostanze note e ben determinate (che possono essere anche inibitorie: per esempio presenza di
umidità sulla capocchia del fiammifero). Questa distinzione è sostanzialmente la distinzione, a cui già si è
accennato, tra tipo di evento ed evento singolo e( vent-type vs. even-token).
Si è sostenuto che se ci si riferisce atoken-eventi la valutazione delle probabilità dovrebbe essere sempre fatta
tenendo conto della conoscenza di sfondo K che varia da situazione a situazione, quindi tenendo conto che il
valore probabilistico di K si può eventualmente annullare in contesti adeguati.
In effetti quindi una formulazione più generale della precedente formula di Bayes in termini di
ragioni di
scommessa sarebbe
Pr(H|E ∩ K)
Pr(-H |E ∩K)
=
PrH
• Pr(E ∩ K|H)
Pr (-H ) • Pr(E ∩ K|-H)
Questa probabilità è la probabilità a posteriori di H (credibilità) alla luce dell’informazione E∩
∩ K. Se K
non trasmette informazione, lo si può porre uguale a x=x o a qualsiasi verità logica equivalente (donde
Pr(K)=1) . In tal caso il suo peso si annulla e si ritorna alla formula originaria.
Quello che viene chiamatorapporto di Bayes o valore probatorio dell’evidenza E per H, cioè il rapporto
tra verosimiglianze, ora prende questa forma:
Pr(E ∩ K|H)
(RB) V = –––––––––––Pr(E ∩ K| -H)
Intuitivamente V esprime la forza con cui, nella situazione K, E sostiene H piuttosto che la sua negazione –
H. Nella formula RB, V può avere valori maggiori di 1, minori di 1 o uguali a 1(quindi non è una funzione di
probabilità, perchè questa ha come massimo valore 1). Per esempio un rapporto come 0.9 / 0.1 , ossia 9,
esprime un alto grado di forza della prova per l’ipotesi Halla luce di E, mentre un rapporto inverso 0.1/ 0.9 =
1/9, rappresenta un basso grado di forza dell’ipotesi alla luce di E.
Supponiamo che l’evidenza che si ritiene importante per la colpevolezza sia data dall’impronta digitale
dell’imputato su un coltello. Allora valutiamo la probabilità che il rilascio dell’ impronta si verifichi se
l’imputato è colpevole ( Pr(E ∩K|H) ) confrontandola con la probabilità che ciò si verifichi se l imputato è
innocente, ossia Pr(E∩
∩K|-H). Il rapporto tra questi due valori esprime il valore probatorio dell evidenza E in
quelle particolari circostanze.
Si noti che tale valore probatorio potrebbe derivare da statistiche ben precise, come avviene spesso in
medicina. Per esempio, nel caso in cui Pr(E|K∩
∩ H) esprime il vero positivo (p.es. se Tizio ha la sifilide la
Wassermann mostra certi valori a e b) e Pr(E|K ∩ -H) il falso positivo (p.es. se Tizio non ha la sifilide la
reazione Wassermann mostra certi valoria e b ), V esprime il rapporto tra le verosimiglianze dei due tipi di
evento. Il valore probatorio della Wasserman per l’ipotesi che Tizio abbia la sifilide è dunque il rapporto tra
veri positivi e falsi positivi.
Certo il valore di Pr (H|E) e Pr(E|H) dipende sempre dalla probabilitàa priori Pr(H). Se, per esempio, tale
probabilità a priori è molto bassa, anche il valore di Pr(H|E) tende ad essere molto basso anche a fronte di
prove sostanziose. Questa proprietà ha un rilievo soprattutto in campo giudiziario. La c.d. “presunzione di
innocenza” per esempio dovrebbe indurre ad assegnare probabilità 0 all’ipotesi della colpevolezza (C), con il
risultato che Pr(C|E) =0 , il che vuol dire che nessuna prova può dimostrare la colpevolezza dell’imputato!!
Naturalmente l’argomento si potrebbe discutere. Riflettendo bene sulla precedente formula, assegnare
probabilità 0 all’ipotesi di colpevolezza significare affermare che èimpossibile che l’imputato sia colpevole.
Questo non è quanto si intende con la presunzione di innocenza. Ciò che si intende dire semmai è che vale
Pr(C) < Pr( -C), cioè che è più probabile sia innocente che colpevole, che è quanto basta per ritenere chea
priori non sia meritevole di nessuna condanna. D’altro canto questa valutazione comparativa non fissa un
valore determinato e di per sè rende inapplicabile il teorema di Bayes.
Il modo di procedere potrebbe essere diverso. Come abbiamo già suggerito, applicando intuitivamente il
principio di indifferenza, è più trasparente partire da un'opinione iniziale (antecedente alla considerazione degli
indizi disponibili) che assegni uguale probabilità a colpevolezza C e innocenza I:
Pr (C) = Pr (I) = 0.5
e ciò in base all’idea chea priori non v'è alcuna ragione per privilegiare l'una o l'altra delle due possibilità.
L'evidenza indiziaria E conduce a revisionare tali probabilità iniziali non perché esse siano errate, ma perché
siamo in presenza d'uno stato d'informazione di cui prima non si disponeva.
Le probabilità finali prodotte dal Teorema di Bayes sono quindi:
Pr(I|E) = Pr(I)Pr(E|I)/ Pr(E) = 0.5 • Pr(E|I)/Pr(E)
Pr(C|E) = Pr(C)Pr(E|C)/ Pr(E) = 0.5 • Pr(E|C)/Pr(E)
Ritornando alla distinzione iniziale tra inferenza induttiva e abduttiva, uno dei meriti del teorema di Bayes è
che ci consente, come già detto, di calcolare la probabilità della causa dato l’effetto conoscendo la probabilità
inversa, quella dell’effetto data la causa. Ma al proposito è interessante notare che il teorema di Bayes rende
trasparente una comune fallacia del ragionamento formale ma anche induttivo: la c.d. fallacia
“
consequentis”
o fallacia dell’affermare il conseguente. Per tornare all’ esempio del fiammifero, dalla legge che tutti i
fiammiferi sfregati si accendono possiamo inferire che sea è un fiammifero ed è sfregatomolto probabilmente
si accende. Ma è illecito operare l’inferenza dal fatto che il fiammiferoa si è acceso alla conclusione che
molto probabilmente è stato sfregato. Idem per l’inferenza dal fatto che il fiammifero non è stato sfregato al
fatto che probabilmente non si è acceso. Se vogliamo usare il simbolo >, che poi useremo largamente in
seguito, un conto è S > F, altro è F > S, e altro ancora ¬S > ¬F.
Osserviamo ora questo ragionamento, che purtroppo si può sentire nelle corti di giustizia:
“Se Rossi fosse colpevole, allora l’evento E sarebbe molto probabile; se Rossi fosse innocente, allora E
sarebbe molto improbabile. Ma E si è verificato; perciò è molto improbabile che Rossi sia innocente, quindi è
molto probabile che sia colpevole”. Lo schema del ragionamento è questo. Ammettendo (solo per comodità) di
voler rappresentare il fatto che E si verificato come Pr(E)=1, i passi del ragionamento sarebbbero
1)Pr(E|C) = 1- ε
2) Pr(-E|-C) = 1- ε
ergo
3)Pr(-C|E) = ε
4)Pr(C|E)= 1- ε
e, ponendo Pr(E)=1
5)Pr (C) = 1 - ε
Come si può vedere il ragionamento poggia sulla illecita transizione dalla verosimiglianza (o valore probatorio
dell’evidenza) Pr(E|C) - passo 1 - alla credibilità Pr(C|E) (passo 4, equivalente al passo 3). Ricordando la
definizione di =>, si passa da 1) C => E a 4) E => C.
Nelle discussioni in ordine al caso Dreyfus ci si imbattè in una fallacia di questo tipo. L’accusa sostenne che
un certo documento trovato dal controspionaggio francese in un cestino della carta straccia dell’ambasciata
tedesca, e scritto dallo stesso Dreyfus per sua ammissione, contenesse dei messaggi in codice. Questo perché
in quel documento le lettere dell’alfabeto comparivano, apparentemente, con una frequenza diversa da quella
con cui comparirebbero nella prosa francese “normale”. Nel processo del 1894 il celebre scienziato forense
Alphonse Bertillon cercò di calcolare la probabilità che quella particolare combinazione di lettere si fosse
prodotta per caso, vale a dire supponendo che Dreyfus fosse innocente e non avesse scritto alcun messaggio
cifrato. Poichè nei calcoli di Bertillon tale probabilità Pr(E|-C) (valore probatorio) risultò estremamente
bassa, si concluse che era anche estremamente bassa la probabilità che Dreyfus fosse innocente, cioè che era
basso il valore di credibilità o probabilitàa posteriori Pr(-C|E). Ma questo significa confondere Pr(E|-C)
con Pr(-C|E). Nel secondo processo di appello, nel 1904, una memoria scritta da tre “saggi”, fra i quali
Henri Poincaré, faceva giustizia di questa fallacia e dei calcoli di Bertillon, con il che ristabiliva il corretto
rapporto tra valore probatorio e credibilità ai fini della valutazione della colpevolezza dell’ imputato.
LEZIONE 4 Bayesiani e antibayesiani
Abbiamo visto che si può essere bayesiani oggettivisti e soggettivisti. In comune tutti i bayesiani hanno in
primo luogo la convizione che il teorema di Bayes sia l’unico strumento per la rappresentazione delle inferenze
ampliative, che certo costituiscono un problema per chi vede nell’inferenza logico-matematica il paradigma di
ogni tipo di ragionamento. Secondariamente, hanno in comune la convinzione che l’applicazione del teorema
di Bayes consenta sempre di assegnare un valore numerico tra 0 e 1 a qualsiasi rapporto tra premesse e
conclusioni di un ragionamento ampliativo, per quanto complesso.
Il bayesianesimo ha guadagnato un crescente consenso in vari settori della scienza soprattutto nella seconda
metà del XX secolo. Ma proprio nell’ambito dell’epistemologia si sono levate anche voci di dissenso.
Ricorderemo solo al proposito i nomi di Clark Glymour e di Jonathan Cohen e (altri nomi: Tverski e
Kahnemann). Clark Glymour in “Why I am not a Bayesian” sottolinea il divario tra l’effettiva pratica
scientifica e l’idealizzazione del ragionamento offerta dai bayesiani. Glymour osserva che pochi scienziati in
effetti nella storia della scienza hanno fatto ricorso a ragionamenti probabilistici e , in questo caso, non ne
hanno fatto uso partendo da assegnazioni di probabilità che erano arbitrarie, come i soggettivisti ritengono
lecito. La risposta soggettivista alla difficoltà, come già sappiamo, è che i teoremi di convergenza,e in
particolare il teorema di De Finetti, assicurano in una certa misura l’intersoggettività, purchè si effettui una
reiterazione della procedura di revisione delle credenze.
Altre difficoltà evidenziate da Glymour tuttavia sono più specifiche.
(1) Supponiamo di considerare un dato dì evidenza già noto E che sia assolutamente certo, quindi tale che (per
semplificare) valga Pr(E)=1. Se Pr(E)=1, Pr(E|H)= Pr(E): ne segue, per il teorema di Bayes, Pr(H|E) = Pr (H )
• Pr (E|H)/ Pr (E) = Pr (H ) • 1/ 1 = Pr (H). Quindi, nel caso in cui si conosca con certezza un’ evidenza E
prima di formulare una qualsiasi ipotesi , l’evidenza E non conferma né questa ipotesi né qualsiasi altra
ipotesi. Questo è strano perché la “vecchia evidenza” è sempre servita a confermare nuove teorie. Si pensi al
fenomeno della precessione del perielio di Mercurio, che era già noto prima che Einstein formulasse la teoria
della relatività e che fu poi usata per confermare la teoria stessa.
Una risposta possibile alla difficoltà potrebbe essere che la probabilità 1 si assegna solo alle verità logico –
matematiche e la probabilità 0 alle contraddizioni logico-matematiche. Se vedo, o penso di vedere, una gallina
blu, rivedrò le mie credenze circa il mio stato fisico e magari scoprirò di essere sotto l’azione di una droga, ma
non tratterò questo dato come una contraddizione logica. Ma l’ obiezione non è decisiva: purtroppo il
problema segnalato da Glymour si ripropone con il valore della certezza pratica 1-ε , o con valori molto
approssimati a 1.
(2) Semplicità. Gli scienziati hanno sempre la propensione a scegliere le ipotesi più semplici rispetto alle altre.
Le ipotesi più semplici sono intuitivamente più informative delle ipotesi meno semplici. Nessuna applicazione
del teorema di Bayes può rendere conto di questa ragionevole preferenza per ipotesi semplici o informative.
Si può pensare che il ragionamento in ambito giudiziario possa trascurare le difficoltà in questione, che sono
state evidenziate in ambito epistemologico. Ma così non è, come è stato convincentemente provato da Jonathan
Cohen. La critica di Cohen al bayesianesimo è più radicale di quella di altri, in quanto investe gli stessi
assiomi di Kolmogorov e l’utilità del loro impiego in ambito giudiziario. Cohen chiama "pascaliana" la
trattazione classica della probabilità`, a cui contrappone una sua diversa concezione, che chiama
"neobaconiana".
Secondo Cohen le leggi del calcolo pascaliano applicate al diritto sono una fonte di preoccupanti paradossi.
Basti pensare a questi tre problemi:
a) Per il principio delle probabilità totali, dato che il valore massimo di probabilità è 1, come sappiamo, Pr(A)= 1 - Pr (A). Ma ci sono casi in cui tanto A che -A ci paiono ambedue scarsamente credibili prima
dell’acquisizione di nuova informazione. In tali casi, se la probabilità misura il grado di credibilità, allora la
probabilità di A e quella di -A sono ambedue più basse di 0.5. Per esempi di questo fenomeno tratti dalla
casistica giudiziaria c’è solo l’imbarazzo della scelta.
Si noti, tra l’altro, che se il principio-guida nei processi civili deve essere quello della preponderanza della
probabilità, l’applicazione rigida dei teoremi del calcolo delle probabilità porta a risultati che appaiono
contrari alle intuizioni etiche.
Se la probabilità che Tizio sia un evasore fiscale in una città in cui la
percentuale di evasori è del 51%, quella che sia un onesto contribuente è del 49%. In base al principio della
preponderanza quindi dovrebbe essere condannato, ma così c’è un’alta probabilità che la condanna sia
ingiusta. L’esempio è solo un caso speciale di un paradosso a volte come paradosso “dello spettatore
abusivo”. Un organizzatore di rodei ha venduto 499 biglietti, ma sugli spalti ci sono 1000 spettatori. Quindi
501 sono entrati abusivamente. In base al principio della maggiore probabilità si potrebbe intentare causa
contro uno spettatore qualsiasi in base al fatto che la probabilità che sia un abusivo è superiore a quello che
non lo sia.
b) Una seconda difficoltà è generata dal principio delle probabilità composte. La probabilità di A∩ B è
normalmente piu` bassa di quella di A e quella di B, per il principio delle probabilità composte. Ma se due
periti indipendentemente danno un giudizio convergente - per esempio sulla natura di una certa sostanza
chimica - la probabilità che ambedue dicano la verità e superiore a quella che ciascuno singolarmente dica la
verità: infatti la loro convergenza rafforza, anzichè diminuire, tale probabilita`. Lo stesso grave problema
riguarda le testimonianze. Supponiamo che ogni teste abbia la scelta tra due asserti, S e -S. Se due testimoni
indipendenti, magari non molto credibili, concordano nell affermare S, la probabilita`che ambedue dicano il
vero si abbassa per il teorema delle probabilità composte (p. es. 0.3 ° 0.4 = 0.12) mentre dovrebbe
intuitivamente aumentare.
Mettere in dubbio il principio delle probabilità composte è esiziale per il bayesianesimo, dato che il teorema
di Bayes è derivato immediatamente da tale principio, anzi risulta ad esso equivalente.
c) Le testimonianze di secondo grado - cioè le testimonianze su testimonianze - sono intuitivamente più deboli
di quelle dirette ai fini dell’ accertamento dei fatti. Ma questo non è rappresentabile entro la probabilità
pascaliana. In effetti non esiste una logica per trattare le probabilità di ordine superiore. (Questa lacuna,
incidentalmente, non è registrata da Cohen). Tutto ciò che si può dire è tutt'al più quanto segue:
(i) se a dice il vero, b è un testimone credibile
(ii) se b è credibile, allora l’imputato ha commesso il fatto
implicano per la c.d. transitività del sillogismo
(iii) se a dice il vero, l’imputato ha commesso il fatto.
Ma per la logica deduttiva (iii) dovrebbe avere lo stesso grado di certezza di (i) e (ii), mentre intuitivamente
è più debole perché basato su due livelli di testimonianze.
Il problema in effetti riguarda ogni tipo di inferenza ottenuto per transitività. La giurisprudenza esige che
ogni passo della catena inferenziale sia vero oltre ogni ragionevole dubbio, ma ciò non implica che si debba
accettare oltre ogni ragionevole dubbio ogni conclusione ottenuta per transitività. La transitività in effetti vale
se si pone ε=0 (cioè per implicazioni dotate di certezza matematica) ma non è affatto garantito, come già
visto, che la transitività valga per altri valori diε. Un problema analogo in effetti è già stato affrontato nella
prima lezione quando si è introdotto il cosiddetto paradosso della lotteria . In quel caso abbiamo visto che l
accettabilità basata sulla quasi-certezza non si conserva passando da un singolo A e un singolo B alla
congiunzione A & B: ora dobbiamo aggiungere che lo stesso fenomeno si registra purtroppo per
l’accettazione rispetto alla transitività.
Cohen inoltre osserva che alcuni giudizi probabilistici, a differenza di altri, dipendono da premesse
controfattuali. Volendo identificare le probabilità con le frequenze, un conto infatti sono le frequenze in una
classe chiusa (p.es. gli attuali ospiti dell’Hotel Excelsior, di cui possiamo dire il 30% sono italiani, per cui la
probabilità che uno degli ospiti sia italiano è del 30%), altre le frequenze virtuali in una classe aperta. Come è
noto, i frequentisti propongono in questi casi di trattare le probabilità come limiti di frequenze; ma è difficile
dire quali dovrebbero essere questi limiti quando le proprietà da esaminare dipendono da condizionali
controfattuali: p.es. la probabilità di Tizio di morire in un incidentese fosse un paracadutista.
Cohen insiste baconianamente sul fatto che lavarietà del campione è tanto importante quanto lanumerosità
dello stesso. Questo è un requisito che i frequentisti tendono a sottovalutare (in quanto si pensa spesso che la
numerosità assicuri automaticamente la varietà) anche se Reichenbach insiste su quella che abbiamo chiamato
“omogeneità” della classe di riferimento (l’universo da cui sono tratti i campioni). Un campione variato
(randomizzato) è un campione che si presume non sia sbilanciato (tarato obiased) in modo tale da favorire o
pregiudicare l’ ipotesi sottotest.
Keynes si è ispirato a Bacone introducendo il principio della “varietà limitata indipendente”. Con ciò si
presuppone -in parole povere - che c’è un numero finito e fisso di generi o specie naturali a cui si riferiscono i
predicati e all’interno dei quali hanno delle connessioni stabili.
Un caso nuovo osservato quindi non ha
nessun valore a meno che non mostri una combinazione di caratteristiche nuove (variate) rispetto ad altri
osservati. Tale sarebbe, per esempio, un orso bianco rispetto a un campione di orsi bruni. La persistenza di
questi gruppi di caratteristiche dipende sostanzialmente dall’ Uniformità della Natura: si tratta dell’idea che la
collocazione spazio-temporale dei fenomeni non ha nessuna rilevanza per le altre proprietà stabili dei fenomeni
stessi o, altrimenti detto, che le proprietà stabili riscontrate nei fenomeni sono spazio-temporalmente
invarianti.
Cohen ha avuto sicuramente il merito di evidenziare che le intuizioni psicologiche circa le probabilità
discordano dai risultati delle procedure matematiche richieste dalla teoria classica della probabilità. Questa
divergenza, che abbiamo già notato nella prima lezione, vale anche per le applicazioni del teorema di Bayes.
Abbiamo già visto che per applicare il teorema di Bayes occorre fornire uninput costituito dalle probabilitàa
priori, e già qui nei tribunali, oltre che nella scienza, emergono dei problemi. Il bayesiano soggettivista avrà
buon gioco a dire che il problema non esiste perchè ciascuno può assegnare il valore che gli pare. Ma il
problema è ovviamente quello già osservato: nei tribunali la giuria deve raggiungere, se non l`unanimita`,
almeno un ampio consenso nelle conclusioni. L`oggettivista insisterà su due fatti: 1) ci vogliono delle
convenzioni condivise per fissare le probabilitàa priori (per esempio 1/2 in caso di incertezza) e 2) altri valori
che entrano nella formula di Bayes dovrebbero essere derivati da fonti inoppugnabili (p.es. statistiche
mediche).
E’ stato osservato che il modo intuitivo in cui il teorema di Bayes viene applicato dagli utenti in effetti non
è quello auspicato dai bayesiani.
Torniamo alla regola di di Bayes nella forma più articolata in termini diodds che, come abbiamo visto, è :
Pr (H|E ∩ K)
Pr(-H | E ∩ K)
=
Pr (H)
Pr (-H)
•
•
Pr(E ∩ K |H)
Pr(E ∩ K |-H)
Questa variante connette la probabilitàa posteriori (credibilità) con il rapportoa priori e il valore probatorio.
Come già osservato, un merito della nozione di ragione di scommessa su H (O(H)) è che la probabilità si può
esprimere in termini di Odds semplicemente così:
Pr(H) = O(H)/O(H) +1
Ora anche se V (il valore probatorio) è alto, nel caso in cui il rapportoa priori è basso, la probabilità Pr(H|
E) resta bassa. Orbene, chi applica la “versione psicologica” della regola di Bayes tende sistematicamente a
ignorare il valore a priori. Un esempio è offerto dal seguente problema (cito da un articolo di P.Cherubini ):
In una città ci sono due compagnie di taxi, i blu e i verdi. L’85% dei taxi circolanti sono blu, il 15% verdi.
Una notte un taxi è coinvolto in un incidente, e fugge. Un testimone asserisce che si trattava di un taxi
verde. Una prova di acuità visiva dimostra che con quella luminosità e a quella distanza, il testimone è in
grado di riconoscere correttamente quei toni di blu e verde nell’80% dei casi. Qual è la probabilità che il
taxi visto dal testimone fosse effettivamente verde?
La risposta corretta è 41%. Infatti poniamo Pr(K)=1(in quanto K qui non interessa), poniamo Pr(taxi
verde) =0.15 e Pr(-taxi verde)= 0.85; inoltre poniamo Pr(testimonianza | taxi verde) =0.8 e Pr(testimonianza |
- taxi verde) = 0.2. Applicando la regola di Bayes abbiamo, se O è la ragione di scommessa:
O(taxi verde | testimonianza) (cioè Pr( taxi verde| testimonianza) / Pr(taxi blu|testimonianza)) = 0.15/0.85 •
0.8/0.2 = 0.71
quindi, alla luce della relazione stabilita per cui Pr(Q) = O(Q)/ O(Q) + 1, si ha che Pr(taxi verde |
testimonianza) = 0.71/1.71 = 0.41.
La probabilità che il taxi fosse effettivamente verde alla luce della testimonianza quindi è piuttosto bassa.
Ma molte persone, stando agli esperimenti, rispondono “80%”: usano la forza dell’evidenza testimoniale, ma
non la modificano in base alla probabilitàa priori che il taxi fosse verde (15%). Altre aggiustano un poco la
loro stima: i taxi verdi sono rari, e a questi soggetti sembra allora ragionevole concludere che la probabilità
che il taxi fosse verde è un po’ più bassa rispetto all’acuità visiva del teste (con risposte tra il 60% e l’80%).
Quindi la maggior parte ritiene che sia più probabile che il taxi sia verde, mentre secondo una corretta
applicazione del teorema è più probabile che sia blu.
La tendenza a ignorare le probabilità a priori è stata molto discussa in giurisprudenza, tanto da meritarsi un
nome specifico: fallacia dell’accusatore (Thompson e Schumann, 1987). Il problema è stato però discusso
quasi esclusivamente in relazione al test del DNA. La maggior parte dei saggi di statistica Bayesiana applicata
al diritto dedica ampio spazio a questo test. Quando fu introdotto, alcuni esperti asserirono che il test del DNA
non poteva generare falsi positivi, ma ormai da più di vent’anni è noto che non solo li può produrre, ma li ha
effettivamente prodotti (Thompson, 1997).
La possibilità di sbagliare è così elevata che il risultato deltest del DNA deve essere accompagnato in aula
dalla stima della “probabilità di corrispondenza nella popolazione” : cioè la probabilità a priori che una
persona innocente scelta a caso nella popolazione di riferimento abbia un profilo DNA che coincide con quello
del test .
Supponiamo che un certo Signor Rossi risulti avere un profilo DNA corrispondente a quello del presunto
criminale. Bisogna premettere che il test può essere usato in due modi diversi, a seconda che ci sia già un
sospettato oppure no.
(1) quando già esiste un sospettato per un certo crimine (per esempio Rossi) si può confrontare il profilo DNA
del campione trovato sulla scena del crimine con quello del sospettato. Un’ eventuale corrispondenza aumenta
di molto le probabilità di colpevolezza del sospettato, perché il valore probatorio del test del DNA, pur
variando da situazione a situazione e in base al tipo di profilo DNA usato, è spesso molto alto e la probabilità
a priori di colpevolezza non è irrisoria (assumendo, naturalmente, che gli indizi che hanno reso “sospetto” il
sospettato siano fondati).
Se poniamo per semplicità Pr (corrispondenza | colpevole) = 1 e se fissiamo una “probabilità di
corrispondenza nella popolazione” (cioè Pr(corrispondenza | innocente), pari a 1 / 1.000.000, il valore
probatorio del test (rapporto di Bayes : 1/ [1/1.000.000]) ha valore 1.000.000, quindi è decisamente alto.
Ora, se un indagato ha probabilità di colpevolezzaa priori di 0.001 (1 / 1000), si può provare che sulla base
di questi dati la corrispondenza del profilo fa crescere la sua probabilità di colpevolezza da 0.001 fino a circa
0.999.(Infatti, definendo gliodds (ragione di scommessa) come già visto, O(H|E) = 1000000/999 = 1001 . Poi
come sappiamo, calcoliamo Pr(H|E) in base all’eguaglianza Pr(H|E) = O(H|E)/O(H|E) +1
Il risultato che si ottiene è quindi la quasi-certezza.
(2) Il secondo modo di usare il test si ha in mancanza di un sospettato: consiste nel confrontare il profilo
DNA del campione rilevato con i campioni archiviati in una banca-dati data-base).
(
In questo caso, la
scoperta di una corrispondenza del profilo DNA rende “sospetta” una persona, Rossi, che prima non era stata
messa in relazione con il crimine.
Questo secondo modo di usare iltest suscita vari problemi filosofici e statistici. Per capire la difficoltà si
osservi che quando il sospettato è identificato esclusivamente nel modo suddetto, le suechances di
colpevolezza a priori, cioè prima che iniziasse la ricerca,sono irrisorie, quindi le sue probabilità di innocenza
altissime. Per fare un esempio, in un territorio con 10.000.000 di abitanti fisicamente in grado di commettere
un certo crimine, la probabilità di colpevolezzaa priori di ciascuno di loro, compreso Rossi, è 1 / 10.000.000
(mentre nell'esempio precedente per il sospettato era fissata a 1/1000). In queste circostanze, a parità di altri
dati, dopo il riscontro con il data-base la probabilità a posteriori della colpevolezza di Rossi, lungi
dall’essere la “quasi-certezza” come nel caso precedente, è inferiore al 10%.
Ora anche se giudici, giurati e
accusatori vengono informati da un perito della scarsa probabilità di corrispondenza nella popolazione,
tendono ad accettare il valore fornito dal perito senza revisionarlo in base alla probabilitàa priori della
colpevolezza. Per esempio, se la probabilità di corrispondenza nella popolazione per un dato profilo è 1/
1.000.000 (la stessa del caso descritto in 1)) e Rossi corrisponde a quel profilo, ritengono erroneamente che la
probabilità che Rossi sia innocente
sia di circa 1 su 1.000.000 e quindi che sia colpevole con altissima
probabilità, mentre abbiamo visto che la probabilità della sua colpevolezza non supera il 10%.
Come si noterà, l’errore che si commette dipende dallo stesso fenomeno che abbiamo evidenziato
discutendo le probabilità di essere vittima di un falso positivo: le probabilità apriori dell’ incidenza della
malattia influenzano enormemente il calcolo del valore finale.
Nei paesi anglofoni si è discusso dettagliatamente sull'utilità del teorema di Bayes applicato a certi
problemi di identificazione. Esempio. Un tale, accusato di omicidio, era già noto per vessazioni e violenze nei
contronti della vittima. C’ era una sua impronta digitale sull`arma del delitto. L`impronta era incompleta,
ma l`esperto assicurò che solo una persona su 1000 aveva quel tipo di impronta. Si valuta abitualmente pari
a 0 la probabilità a priori di trovare un’impronta del genere di un soggetto, se questi è innocente. Si assume
inoltre che tutti coloro che usano il coltello lasciano un’impronta. I precedenti penali del sospettato portavano
la sua probabilità di colpevolezza a un valore pari a 0.25. In base a quanto già detto circa la presunzione di
innocenza, la probabilità a priori di colpevolezza si poteva ragionevolmente stabilire come pari a 0.5. Il
valore a posteriori della colpevolezza risultava però completamente diverso: 0.999.
Ma i dubbi erano in agguato. La conclusione seguiva ineccepilmente dalle premesse, ma queste erano, come
spesso accade, tutt’altro che scontate. Per quanto sia quasi incredibile, per esempio, si è effettivamente
verificato il caso di un poliziotto che aveva piazzato le impronte di un innocente sullo sportello di una banca:
quindi è falso che la probabilità che un innocente lasci un impronta è pari a 0.
Di fronte a queste difficoltà nell’applicazione dell’ inferenza bayesiana è stata più volte avanzata la
proposta di “rieducare” l’intuizione degli operatori giudiziari insegnando loro ad usare correttamente il
teorema di Bayes. Il Prof. L.H.Tribe nel corso delle discussioni su questo tema si disse contrario a questa
proposta, ritenendo che il concentrarsi sul raggiungimento delle soglie di certezza “oltre ogni ragionevole
dubbio” faccia perdere di vista tutti gli elementi imponderabili che invece sono rilevanti per la conclusione e
che potrebbero portare a una conclusione con valore diverso da quello della quasi-certezza.
Tribe non mancava di richiamare inoltre l`attenzione sul fatto, più volte sottolineato in precedenza, che la
difficoltà di pervenire ad una stima adeguata delle probabilità iniziali rende spesso inapplicabile il teorema di
Bayes. Ma a ciò aggiungiamo qui una considerazione peggiorativa. Infatti risulta che anche quando viene
applicato correttamente e con assegnazioni iniziali non dovute al capriccio soggettivo, il teorema di Bayes può
portare a risultati controintuitivi. Valga per tutti questo esempio, che è centrato sull’attendibilità di una certa
evidenza testimoniale. Sia
H: C’ è stata ieri una sparatoria alla Bicocca
E: un amico mi racconta che c’è stata ieri una sparatoria alla Bicocca.
Vogliamo sapere qual è la probabilità che la sparatoria ci sia stata realmente, supponendo che mi sia stata
riferita dall’amico.
Il valore di Pr (H|E) si può calcolare in due modi, uno statistico e uno bayesiano.
Primo metodo:
Pr(H|E) = N|narrazioni vere del mio amico|
N| narrazioni del mio amico|
dove N|…| indica il numero di casi. Si tratta quindi solo di rilevare la percentuale di casi in cui il mio amico ha
raccontato il vero rispetto alla totalità casi in cui ha fatto il racconto di qualche avvenimento, vero o falso
che sia. Il mio amico è uno abbastanza sincero: sappiamo che per ogni 8 racconti veri ce ne sono 2 falsi o, in
altri termini, che 8 su 10 sono veri. Quindi
Pr(H|E) = 0,8
Secondo metodo.
Stabiliamo i seguenti ragionevoli valori diinput per la formula di Bayes.
1)Pr(H) = 0,01 e Pr(-H) = 0,99 (infatti è poco probabile che un fatto come quello narrato si verifichi,
soprattutto alla Bicocca)
2) Pr(E|H)= 0,008 (infatti è molto improbabile che si verifichi un fatto simile e ancora più improbabile che un
amico assista al fatto e me lo racconti)
3) P(E/-H) = 0,002. (la probabilità che l'amico mi racconti un fatto simile nel casonon si sia verificato è molto
bassa: so che è un tipo abbastanza sincero)
Naturalmente Pr(-H) = 1-P(H) = 0,99.
Inseriamo ora questi valori nella formula di Bayes nella variante
Pr(H|E) = (Pr(E|H)Pr(H)) / (Pr(E|H)P(H)+Pr(E|-H)P(-H))
Pr(H|E) = (0,008 0,01) / (0,0080,01 + 0,002 0,99) = 0,038835
Dunque la probabilità che ieri ci sia stata una sparatoria alla Bicocca dato che un testimone affidabile mi
riferisce questo fatto non arriva nemmeno al 4%, semplicemente perchè il fatto aè priori sorprendente. Questo
non è intuitivo, perchè non c'è motivo di dubitare del verificarsi di fatti sorprendenti che siano oggetto di
testimonianze degne di fede.
LEZIONE 5 –Alternative al bayesianesimo giudiziario
Il bayesianesimo è diventato l’ortodossia nella letteratura giudiziaria, ma non ha lasciato un segno tangibile
nella pratica. Il successo di questo orientamento è dovuto all’affermarsi della convinzione che la conoscenza
vada di pari passo con la possibilità di misurare quantitativamente i fenomeni e che le credenze siano
assoggettabili a misure quantitative.
Una prima difficoltà, come abbiamo visto, è che l’uomo della strada ordinariamente non tende a ragionare
nel modo richiesto dal teorema. L’idea, a volte suggerita , di sanare questa discrepanza rieducando l’intuizione
del personale interessato, non è di facile attuazione. Dobbiamo sottoporre le giurie a corsi accelerati di calcolo
delle probabilità con esercizi? Il teorema di Bayes in effetti offre un modello ideale, cioè normativo di
ragionamento, così come lo propone la logica deduttiva formalizzata, e quindi non ha la pretesa di descrivere il
modo in cui ordinariamente si ragiona.
Ammettiamo pure, comunque, che sia possibile familiarizzare la mente umana, o almeno quella degli addetti
ai lavori, con le procedure richieste dal rigore matematico. L’ applicazione delle regole di Bayes ai casi
specifici appare comunque problematica. Il problema dell’input per l’applicazione del calcolo, cioè delle
assegnazioni a priori, è quello indicato concordemente come la difficoltà maggiore. Torniamo all’esempio
posto dalla rappresentazione probabilistica della presunzione di innocenza.
Abbiamo già visto che una
soluzione plausibile potrebbe essere quella di porre il valore della colpevolezza o innocenza dell’imputato pari
a ½. Questo è ragionevole, ma si potrebbe anche risolvere il problema con una convenzione come quella
proposta dal celebre antropologo-filosofo David Lempert. Lempert suggerisce che in tutti i casi, civili e penali,
la probabilità iniziale dell’ipotesi di colpevolezza H sia stabilita da un quoziente 1/
n , dove n è il numero di
possibili colpevoli nel mondo per quel reato. P.es. supponiamo che il numero di possibili colpevoli al mondo
per un certo specifico reato sia 1000. Allora la probabilità iniziale a( priori) di colpevolezza non è 0,5 ma
1/1000 (odds 1: 999). Le informazioni successive restringono il numero dei possibili attori.
Ecco come partendo da quesa base si potrebbe applicare un meccanismo bayesiano. In primo luogo
stabiliamo il valore probatorio V dell’evidenza E che, come si ricorderà, è dato dalla frazione Pr (E|H) / Pr (E|
-H).
Poi alla luce di successivi elementi di informazione F,G, ecc. avremo
Pr (E ∩ F)|H / Pr (E ∩ F)| -H
Pr (E ∩ F ∩ G)|H / Pr (E ∩ F ∩ G) | -H
.......
Il valore probatorio dell’evidenza quindi si modifica con l’aumento dell’informazione, e consequenzialmente
si modifica, applicando il teorema di Bayes, la probabilitàa posteriori di H data l’evidenza disponibile
(credibilità). Per esempio, se dopo aver fissato il valore di V acquisiamo l’informazione che il colpevole aveva
una macchina rossa, il numero dei possibili colpevoli si restringe da 1000 a un valore più basso, cosicchè il
valore di Pr (H) condizionato alla nuova evidenza probatoria varia proporzionalmente.
Tutto questo è ragionevole, ma è applicabile solo se H è un’ipotesi di colpevolezza i cui colpevoli
costituiscono un dominio finito e misurabile. Se, per esempio, H è l’ipotesi che un certo delitto sia stato
compiuto da un animale, questa probabilità a priori non può essere calcolata perché non sappiamo quanti
animali avrebbero potuto compierlo. In caso di ignoranza, potremmo fissare questo valore come uguale allo
stesso valore che si dà nel caso degli uomini. Ma questo ci porta già a una difficoltà perché sappiamo anche
che i delitti compiuti da animali sono molto più rari di quelli compiuti da uomini.
Il bilancio della discussione dunque è che nell’assegnazione delle probabilità iniziali non si riescono a
definire criteri inoppugnabili nemmeno nei casi in cui sarebbe lecito affidarsi al principio di indifferenza.
A prescindere dal problema appena considerato, comunque, abbiamo visto che di fatto il ragionamento
probatorio presenta aspetti che non sono facilmente inquadrabili nello schema bayesiano. L’esempio riportato
ala fine della precedente lezione mostra che non solo c’è una discrepanza tra il ragionamento bayesiano e
quello ordinario, ma che c’è una discrepanza tra i risultati del modo di ragionare bayesiano e quelli raggiunti
su base statistica. Le critiche di Cohen e Glymour, già ricordate, fanno pensare che il teorema di Bayes sia
insufficiente per un motivo ancora più radicale, e cioè che lo stesso calcolo delle probabilità
nell’assiomatizzazione classica (di Kolmogorov) sia alla radice dei problemi. Dunque, allo stesso modo in cui
la logica deduttiva ha abbandonato il rigido monismo predicato dai neopositivisti per offrire una pluralità di
logiche (modali, polivalenti, fuzzy) in grado di cogliere certi aspetti del ragionamento ordinario, bisogna
valutare la possibilità che si diano modelli alternativi di ragionamento più o meno- conformi al modo intuitivo
di ragionare.
Il problema da discutere è il seguente: ci sono alternative effettivamente praticabili, in campo scientifico e
giudiziario, alla teoria matematica classica della probabilità? La risposta può essere data solo in via ipotetica
perché il pluralismo logico e matematico affermatosi nella seconda metà del '900 non ha portato
all’affermazione di un modello alternativo dominante. E’ doveroso comunque citare almeno le proposte di tre
studiosi, Cohen, Shackle e Shafer, che si presentano interessanti perchè hanno parecchi punti in comune.
Questa convergenza fa pensare che questa direzione di ricerca meriti il massimo approfondimento.
Sulla base delle critiche già prospettate nelle precedenti lezioni, Cohen ha elaborato una logica del sostegno
induttivo in cui non valgono i principi della probabilità che lui chiama pascaliana .
Cohen non è stato l’unico ad abbandonare la logica classica della probabilità.. Al proposito si rifletta sul
“paradosso della lotteria” esposto nella Lezione 1, che suggerisce che l’accettazione di A e l’accettazione di B
non implichi l’accettazione di A & B, per A e B qualsiasi non specificati.
L`alternativa neobaconiana di Cohen non può essere illustrata qui nei dettagli. Si è già osservato che per
Bacone l`inferenza ampliativa non fa leva sull’ induzione per enumerazione semplice (che Bacone trova
puerile) ma sulla ricerca di campioni variati. Dato che per Bacone (come per Keynes) esiste solo un numero
finito di forme (generi), un controesempio è molto piu` utile alla ricerca che non l’accumulazione di molteplici
esempi a favore. Quella che è volte chiamata induzione eliminatoria consiste nel rafforzare un’ ipotesi
eliminando tutte le ipotesi alternative. E’ sufficiente ricordare che la presunta legge di natura per cui tutti i
cigni sono bianchi venne eliminata quando si scoprì che in Australia esisteva una tribù di cigni neri: l’errore
era dovuto al fatto che il campione era numeroso ma non era sufficientemente variato. Questo aspetto del suo
pensiero metodologico fa di Bacone (come è stato detto) un Popperianoante litteram, con ciò intendendo che il
momento della falsificazione nel suo pensiero ha un ruolo più importante di quello della conferma o delle
verifica.
L’idea base è che le generalizzazioni raggiunte con i ragionamenti ampliativi hanno dei gradi di certezza
diversi, a seconda della solidità del ragionamento con cui vengono raggiunte. John Stuart Mill riprese questa
idea con i c.d. “metodi induttivi”, che in realtà non sono metodi per la scoperta delle cause ignote, ma metodi
per provare o refutare l’esistenza di relazioni causali ipotizzate. Come Bacone, Mill insisteva sull’importanza
della varietà degli esperimenti, mentre altri filosofi precarnapiani come B. Bolzano insistevano sulla
numerosità degli stessi. Mill ammetteva che nell’applicazione dei canoni induttivi si dava sempre un certo
margine di incertezza, che egli però proponeva di calcolare nei termini della probabilità classica, cioè quella
che Cohen chiama pascaliana.
Cohen sostiene che c’è una nozione di forza probatoria -il concetto di peso”
“
di Keynes - che va aggiunto
come correttivo all’apparato pascaliano . Il requisito carnapiano dell’Evidenza Totale, così come il requisito
della specificità massimale di Hempel, a suo giudizio sono sacrosanti in linea di principio, ma di fatto
inapplicabili. L’idea di Keynes è che bisogna tener conto non solo della differenza tra conferme positive e
negative per un’ ipotesi H (e ciò dà la misura della probabilità di H), ma anche del volume complessivo
dell’evidenza positiva o negativa, che lui chiamapeso dell’evidenza. Per fare un esempio, l’aver estratto 20
biglie rosse e 80 verdi, quindi in totale 100 biglie, consente di dire che la probabilità di estrarre una biglia
rossa è di ¼. La stessa conclusione si deriva estraendo 200 biglie rosse e 800 verdi, ma il peso complessivo di
questa somma di evidenze favorevoli e contrarie è ovviamente superiore. Secondo Keynes il “peso” non è
quantificabile, anche se niente impedisce di definire un ordinamento comparativo di pesi. Peso e probabilità
quindi sono concetti relativamente indipendenti.
Secondo Cohen uno dei limiti dell’approccio bayesiano è la mancata attenzione alla esaustività delle
conferme. Applicando il teorema di Bayes si può arrivare a un valore molto alto, o molto basso, di probabilità
anche dopo aver considerato solo una o poche conferme: ma l’aver considerato poche conferme implica che
molte altre ne possono esistere, magari al momento irreperibili, in grado di ribaltare il giudizio (si veda nelle
pagine precedenti la critica del Prof. Tribe al metodo bayesiano). Se allo stesso giudizio invece si arriva dopo
aver esaminato molte e variate conferme, per quanto non sia mai possibile ritenere che l’analisi sia esaustiva, il
giudizio è meno esposto al rischio di oscillazione, e quindi più solido.
Per sviluppare la sua analisi Cohen deve però rinunciare al concetto classico, da lui detto “pascaliano”, di
probabilità, ed introdurre il concetto di probabilità “baconiana”. Il metodo baconiano è basato, come già detto,
sull’ induzione eliminatoria: un asserto è considerato tanto più probabile quante più ipotesi alternative ad esso
sono state considerate e poi eliminate per falsificazione.
Come vedremo, questo tra l’altro è il tipico schema di procedimento verso la migliore spiegazione, che
abbiamo già chiamato abduttivo.
Se non abbiamo considerato e falsificato nessuna ipotesi alternativa, la probabilità baconiana è minima (0):
ciò implica, per esempio, che per la presunzione di innocenza la probabilità di colpevolezza è inizialmente
posta uguale a 0. Ma, a differenza che nel sistema pascaliano, tale probabilità può crescere con l’accumularsi
delle conferme, che derivano dall’ eliminazione delle ipotesi alternative. In tal modo, tenendo conto
dell’ammontare di evidenza favorevole, Cohen intende tener conto della nozione keynesiana di “peso”. Il
concetto chiave in questa operazione è quello dilegisimilitudine, con ciò intendendo l’approssimazione allo
status di necessità che è proprio delle leggi. Secondo Cohen il peso keynesiano di E in Pr(H|E), se Pr(H|E)=
n,
dovrebbe risultare uguale alla legisimilitudine baconiana di E --> (Pr(H)=n), dove la freccia sta per la
relazione implicativa.
Nella logica neo-baconiana di Cohen vengono meno molti principi pascaliani, tra cui il principio delle
probabilità composte, che viene sostituito con una sua variante in cui la probabilità di una congiunzione è
maggiore o uguale a quello del congiunto più improbabile (v. Appendice).
Glenn Shafer (A Mathematical Theory of Evidence, 1976) si pone pure sulla stessa linea antipascaliana
chiedendo la rinuncia al principio delle probabilità totali, da cui segue, come sappiamo, che Pr(-A)= 1-Pr(A).
Il suo sistema cerca di catturare l’idea di “sospensione del giudizio”. Se abbiamo pochi elementi per ritenere
vera l’ipotesi H, possiamo attribuire ad H una probabilità bassa, ad esempio 0.1: ma nel sistema di Shafer
questo non significa attribuire probabilità 0,9 a -H. Anche a -H possiamo attribuire probabilità bassa, ad
esempio sempre 0,1, in quanto possiamo avere tanto pochi elementi per ritenere che -H sia vera quanto pochi
ne avevamo per ritenere che H fosse vera. La restante probabilità, 0,8 nel nostro esempio, quantifica la
propensione a non impegnarsi né su H né su -H, permanendo nel dubbio sulla stessa disgiunzione “H o non
H”.
La legge del terzo escluso sembra quindi messa in discussione in chiave probabilistica. Le anomalie che
l'accompagnano si possono ricostruire anche senza invocare la sospensione di giudizio, che chiama in causa un
atteggiamento psicologico del soggetto. Se H è un’alternativa con bassa probabilità, ciò che risulta con alta
probabilità potrebbe essere non la la negazione di H, cioè non-H, ma una terza alternativa sconosciuta H’ che
appare , allo stato dei fatti, l’unica alternativa ad H. E’ questo quanto accadde nel famoso delitto della penna a
sfera, in cui le uniche due alternative ragionevoli sembravano avere bassa probabilità a priori. Ma queste non
esaurivano la campo logico delle alternative possibili. Si poteva ritenere che ci fosse quindi un terzo evento
sconosciuto B tale che Pr(H1 ∩ H2 ∩ B)=1. Le informazioni acquisite in seguito poi furono tali da falsificare
H1 e avvalorare H2, abbassando significativamente il valore del terzo incognito B.
Dal punto di vista tecnico la costruzione neobaconiana di Cohen si può considerare omologa di una teoria
molto originale introdotta dell’economista R.S. Shackle. Shackle ha introdotto un sistema di misura dei “gradi
di sorpresa potenziale” o “gradi didisbelief” (cioè di “incredulità” o “sfiducia”) .
Dice Shackle: il grado di sorpresa potenziale “is the degree of surprise to which we expose ourselves, when
we examine an imagined happening as to its possibility, in general or in the prevailing circumstances, and
assess the obstacles, tensions and difficulties which arise in our minds when we try to imagine it occurring,
that provides the indicator of degree of possibility. This is the surprise we should feel, if the given thing did
happen; it is potential surprise”.
(Shackle, 1961, p. 68)
Per capire la differenza tra questa nozione e quella di grado di credenza o grado di probabilità, basta notare
che, se B è il grado di sorpresa, tale grado non si distribuisce uniformemente su una congiunzione di ipotesi. Il
grado di sfiducia (sorpresa), per esempio, nel fatto che domani piovae che domani un cinese passeggi sulla
luna, intuitivamente è pari o superiore al grado di sfiducia (sorpresa) che un cinese domani cammini sulla
luna, Se il grado di sopresa fosse identico al grado di probabilità, il principio delle probabilità composte ci
obbligherebbe a dire che il grado di sopresa delle congiunzione è uguale o minore al grado di sorpresa dei
singoli asserti.
Shafer ha avuto il merito di operare la formalizzazione delle idee esposte informalmente da Shackle, che poi
ha applicato anche a sistemi esperti. La logica di Shafer viene chiamata “teoria della possibilità”(v.Appendice
a questo capitolo).
C’è un aspetto interessante della concezione di Shackle – Shafer, non analizzato da Cohen .
Secondo Shackle credere (to believe) in h ad un certo grado significa avere sfiducia (disbelief) in ¬h allo
stesso grado. Sia dK(h) il grado di sorpresa potenziale dih rispetto a K. IntuitivamentedK(h) indica il grado di
sfiducia o di non- credenza o di informatività di h rispetto a K. Il grado di credenza, rappresentato
dall’operatore di credenza(belief) b è il grado di d (disbelief) nel complemento di h: bK(h) = dK (¬h)
Il grado di sorpresa si può considerare un’ interessante misura dell’informatività di un enunciato. Va detto
che Popper ha svolto, con obiettivi e metodi inquadrabili nella sua teoria, un programma che ha certe analogie
con quello di Shackle-Cohen. Come si sa, secondo Popper le teorie interessanti sono quelle falsificabili. Il
numero di falsificatori potenziali dih è per lui il contenuto informativo dell’ipotesi stessa h.
La probabilità e il contenuto informativo sono grandezze inversamente proporzionali: nella proposta più
semplice, sottoscritta da Popper,
cont(h) = 1- Pr(h).
In questa prospettiva tautologie pertanto hanno contenuto informativo nullo, mentre le contraddizioni sono
massimamente informative, dato che implicano tutto. Se c’è un numero di ipotesi esaustive e digiunte
h1…hn,
il metodo popperiano ci impone di scegliere la più informativa (cioè la più improbabile) e tentare di
falsificarla. Popper ha proposto delle misure (non numeriche) dicorroborazione, che non è la conferma
probabilistica ma è il grado di resistenza dell’ipotesi alla falsificazione mediante test severi. Entrando in gioco
la nozione di “severità” o “rigore dei test” non è possibile dare dei valori numerici ai gradi corroborazione,
anche se è possibile stabilire dei confronti .
Altri autori come Levi e Hintikka invece chiedono un obiettivo leggermente diverso, che è la massimizzazione
dell’utilità epistemica, che dipende dal prodotto della probabilità per il contenuto informativo. La analogia tra
il concetto di speranza matematica (utilità attesa) e quello di utilità epistemica dovrebbe essere ovvia. La
grandezza così definita risulta avere proprietà intermedie tra quelle della probabilità e dell’improbabilità e la
logica di questa nozione presenta forti affinità con
quella di Shackle .
APPENDICE . La teoria della possibilità è stata introdotta da Lofti Zadeh come integrazione della c.d.fuzzy
logic, ideata dallo stesso Zadeh (1958). Per semplicità si assuma che l’universo del discorso W sia un insieme
finito e che tutti i suoi sottoinsiemi siano misurabili. Un evento si può trattare come un insieme –cioè l’insieme
dei punti dello spazio-tempo in cui si verifica l’evento stesso.
Una distribuzione di possibilità è una funzionepos da W all’intervallo reale [0, 1] tale che:
Axiom 1: pos(∅)=0
Axiom 2: pos (W)=1
Axiom 3: pos(U ∪ V) = max (pos(U), pos(V)) per sottoinsiemi disgiuntiU e V.
Si noti la differenza tra l’assioma 3 e il principio delle probabilità totali nella teoria della probabilità.
Supponiamo che U sia, in un gioco di carte l’evento “estrazione di una regina”e V “estrazione di un re di
picche”. I due eventi sono disgiunti, la probabilità di U è 1/13 , quella di V è 1/52, quindi la probabilità di
estrarre uno o l’altro dei due è 5/52. Ma per la teoria di della possibilità, il grado di possibilità è fissato a 1/13,
cioè dal grado di possibilità più alto tra i due eventi.
La possibilità si dice dunque composizionale rispetto all’operatore di unione insiemistica. Ma non è tale
rispetto all’operatore di intersezione. In generale, infatti,
Nec (U ∩ V ) < min(nec (U), nec(V))
Come nella cosiddetta logica modale, la necessità è il duale della possibilità.
Esempio: “È necessario che 2+2+=4 sia vero” è lo stesso di ”È impossibile che 2+2 =4 sia falso”.
Rappresentiamo in simboli il grado di necessità così:
nec(U) = 1 – pos(-U)
Contrariamente alla teoria della probabilità, per ogni evento U, abbiamo la diseguaglianza: pos(U) + pos(-U)
>1
Vale inoltre la seguente disgiunzione.
Per qualsiasi evento U, o pos(U)=1 , o nec(U) =0
Ci sono 4 casi:
nec(U) =1 significa cheU è necessaria, cioè certamente vera. Essa implica pos(U)=1
pos(U)=0 significa che U is impossibile, cioè certamente falsa. Ciò implica nec(U) =0
pos(U)=1 significa che U è possibile, cioè che non sarei affatto sorpreso dell’occorrenza di U- . nec(U) viene
lasciato impregiudicato
nec(U) =0 significa che U è non-necessario (contingente) cioè che non sarei affatto sorpreso del mancato
verificarsi di U . pos(U) viene lasciato impregiudicato.
La congiunzione di nec(U) =0 e pos(U)=1 corrisponde alla contingenza in senso proprio ("possibile che " e
"possibile che non"), col significato che U mi è indfferente, cioè che io non credo niente circa
U. Stante che
consente l’indeterminatezza in questo modo, la teoria della possibilità è più vicina alla logica polivalente o alla
logica intuizionista piuttosto che alla logica classica bivalente.
Si può dimostrare in questo sistema:
per ogni U, nec(U) < pos(U)
e anche :
nec(U ∩ V) = min (nec(U), nec(V)
Recentemente il successo teoretico e applicativo della cosiddettafuzzy logic suggerisce di ricercare in
quest’area strumenti utili al ragionamento probatorio. Per cominciare è bene sottolineare, comunque, le
differenze tra la teoria della possibilità e lafuzzy logic.
Teoria della possibilità: La bottiglia è sempre tutta piena o tutta vuota. “La possibilità che la bottiglia sia
piena è 0.5” descrive un certo grado di credenza e si lascia interpretare così: sono pronto a scommettere che è
vuota nella misura in cui le ragioni di scommessa pro e contro(odds) sono uguali (scommetto 1 contro 1), ma
non scommetterei mai che è piena.
Fuzzy logic: Dire che “la bottiglia è piena” ha un livello di verità 0.5 indica che la bottiglia è, come dato reale,
mezza piena!! La parola “piena” è un predicato sfumato con cui si descrive la quantità di liquido nella
bottiglia.
La fuzzy logic si appoggia su una fuzzy set theory , cioè a una teoria degli insiemi sfumati, il che fa pensare
che da queste premesse si ottenga solo unfuzzy reasoning, quindi una classe di argomenti che non possiede
canoni di validità precisi. Questo sembra molto lontano di quanto ci si attende nelle corti di giustizia.
Si noti che della teoria della possibilità si può dare una trascrizione proposizionale in questo modo:
<>i(p &q) invece di Pos (P& Q) =i
<>i(p v q) invece di Pos (P v Q) =i
[]i ( p &q) invece di Nec(P&Q) =i
[] i(p v q) invece di Nec (P v Q ) =i
Questa notazione è usata da Cohen in “The probable and the Provable” e in altri saggi. I gradi di necessità
vanno letti nella sua teoria in questo modo:[]ip si legge “p ha almeno un grado i-esimo di legisimilitudine”.
In questa logica <>i p e <>jq implica «<>i(p & q) quando i < j” : questo è un principio non-pascaliano, e
risolve secondo Cohen le difficoltà della trattazione pascaliana della congiunzione, cioè del problema delle
probabilità composte, a cui abbiamo accennato a suo tempo.
LEZIONE 6.
Fallacie statistiche.
Le considerazioni sviluppate nei paragrafi precedenti non devono indurre a minimizzare l’importanza del
ragionamento probabilistico nelle procedure giudiziare. Negli ultimi anni, infatti, proprio nei tribunali c’è stato
un uso crescente delle prove statistiche. Tests come quelli del DNA, per tacere di quelli già noti delle impronte
digitali, dell’ identificazione di appartenenza di tessuti organici ecc. sono soggetti ad argomentazioni di tipo
statistico.
I bayesiani dicono che siamo sempre in grado di calcolare la probabilità della conclusione una volta date le
premesse. Riflettiamo però su quanto segue. Quando si esemplifica l’applicazione del teorema di Bayes per
calcolare la probabilità di un’ipotesi H rispetto a un’evidenza E, di solito si tende a pensare ad H come un
enunciato di tipo fattuale (p.es. “l’imputato ha commesso il fatto”) oppure a un enunciato quantificato di
forma universale o esistenziale (“tutti gli elementi della banda hanno commesso il fatto” o “qualche elemento
della banda ha commesso il fatto”).
Ma che dire quando H è un enunciato di forma statistica (“il 70% dei cigni sono bianchi”) o descrive una
relazione causale tra fatti specifici(“i vapori nocivi hanno causato il decesso del Sig. Rossi”) ? In tal caso il
teorema di Bayes dovrebbe consentire di calcolare con metodi probabilistici il valore a posteriori di Pr(H) dove
H però è a sua volta un enunciato statistico o (nel caso causale) è un asserto che, anche se non ha
esplicitamente forma statistica, in qualche misura dipende da leggi di forma statistica. Sembra dunque di
essere di fronte alla necessità di calcolare una probabilità di secondo grado, per la quale non disponiamo di
regole o principi adeguati nell’ambito del calcolo classico della probabilità.
C'è quindi una difficoltà nel raggiungere con metodi bayesiani una valore statistico corretto. La disponibilità
di correlazioni statistiche corrette è in ogni caso una fonte di problemi etici e giuridici non indifferenti.
L'importanza di questo tema non può essere sopravvalutata sia dal punto di vista sociale che da quello
giuridico. Per fare un solo esempio, si discute molto sul ruolo che possono averer i media nell'influenzare i
comportamenti del pubblico. Questo problema è molto più vecchio di quanto si possa pensare.Il sociologo
David Phillips parla di “effetto Werther” con riferimento a “I Dolori del Giovane Werther” di Goethe, in cui si
narra il suicidio del giovane protagonista in seguito ad una delusione amorosa. Questo romanzo ebbe un
grande successo e la sua divulgazione fu seguita da un incredibile numero di suicidi in tutta l’Europa. La
correlazione statistica registrata allora (in un'epoca in cui le statistiche non erano analizzate con metodi
quantitativi sofisticati di oggigiorno) risultò talmente evidente che alcuni Paesi proibirono la diffusione del
testo. Un effetto analogo lo si osservò in Italia dopo la pubblicazione -nel 1802 - del romanzo diUgo Foscolo
“Le Ultime Lettere di Jacopo Ortis”. Qualcosa di analogo si è verificato negli ultimi anni con il diffondersi,
molto più preoccupante, degli omicidi-suicidi, in cui spesso vittima dell'omicidio è una donna (femminicidio).
Questo crea il problema di appurare le eventuali responsabilità morali e penali di direttori di giornali
sensazionalistici che danno ampio spazio a questo tipo di delitto sapendo che la pubblicazione sarà seguita, per
ragioni semplicemente statistiche, da un certo numero di episodi imitativi. Si noti che tale responsabilità
sussiste anche a prescindere dal fatto che la correlazione in oggetto venga qualificata come una correlazione
causale compiendo a un passaggio che, come vedremo, è altamente problematico.
L'esempio precedente fa riferimento alla disponibilità di correlazioni statistiche corrette. Ma la difficoltà
maggiore è offerta dal fatto che nessun campo offre una maggiore possibilità di errore, e quindi di
manipolazione, di quello statistico. Basta dare una scorsa a due libri apparsi in epoche diverse ma con titoli
analoghi: “Mentire con le statistiche” di Darrell Huff e „Wie man lügt mit Statistik“ [Come si mente con la
statistica] di Walter Krämer ( Piper, München-Zürich, 2000). I due libri sembrano ispirarsi a una famosa
battuta di Mark Twain attribuita anche a Disraeli: “Esistono tre tipi di bugie: le bugie, le maledette bugie e le
statistiche”. Questo tra l’altro prova l’interesse giudiziario dell’argomento, in quanto l’inganno operato con le
statistiche risulta un tipo particolare di frode estremamente insidiosa, che si può smascherare solo con
argomenti di tipo metodologico. In questi casi, infatti, ciò il giudice per sanzionare la frode mira a stabilire non
è evento più o meno certo ma una coppia di fatti distinti: (i) il fatto che un dato ragionamento è scorretto (ii) il
fatto che il vizio di ragionamento è risultato di un’ azione intenzionale e non di un errore involontario di
ragionamento.
Tutti sanno che i sondaggi di opinione hanno un ruolo importante nelle campagne elettorali non tanto per
tastare il polso agli elettori ma per influenzare l’elettorato stesso. La causa dell’inganno è abbastanza chiara:
ai questionari e ai sondaggi risponde solo chi vuole, con il che si deroga al requisito della randomizzazione del
campione. Anche il sondaggio telefonico - che appare più coercitivo e quindi in apparenza più attendibile - ha
creato clamorosi errrori previsionali, e ciò indipendentemente dal fatto che il metodo del sondaggio telefonico
esclude chi non possiede un telefono, il che in un paese molto arretrato vorrebbe dire escludere una parte
rilevante della popolazione. Ricordiamo anche che gliexit polls, i quali nelle intenzioni avrebbero dovuto
anticipare con proiezioni adeguate i risultati elettorali, hanno prodotto risultati inattendibili, al punto che sono
stati aboliti nelle ultime tornate elettorali.
Altri errori derivano dalla vaghezza dei concetti impiegati nei confronti statistici. Per esempio, il concetto di
disoccupazione è diverso da paese a paese, per cui le statistiche sulla disoccupazione fatte in Germania danno
risultati diversi da quelli italiani senza che ciò implichi una significativa differenza nella realtà
dell’occupazione. Idem per le nozioni di ricchezza e povertà, per le quali si stabiliscono soglie diverse da paese
a paese. La soglia della povertà in Italia è stata fissata convenzionalmente (anno 2010) in un reddito che
consenta una spesa mensile pari a 582,20 euro per unsingle, 970,34 euro per una famiglia di due persone e
1581,65 euro per una famiglia di quattro persone. Nel 2010 in Italia risultavano al di sotto di tale soglia 6
milioni di persone, che è sicuramente un dato preoccupante. Nonostante questo, una capacità di spesa di 582
euro verrebbe considerata più che ragguardevole nella maggior parte dei paesi africani, asiatici e in alcuni
paesi del centro America.
Non vale neppure la pena di parlare delle inchieste sulla vita privata o sessuale della popolazione. In questi
sondaggi non solo risponde solo chi vuole, ma risponde anche chi è in cerca di qualche occasione per vantarsi
delle proprie performances, per sfogare le proprie frustrazioni con la mitomania, o semplicemente per il
piacere di beffare l’intervistatore. Per citare un altro tipo di distorsione, basti al proposito ricordare l'esempio
del famoso rapporto Kinsey sul comportamento sessuale degli americani che, com' è noto, fece scalpore dando
un'immagine dei comportamenti sessuali americani piuttosto diversa da quella immaginata dai benpensanti. Al
proposito vennero fatte osservare due cose : (1) che, non essendo obbligatorio per gli intervistati rispondere al
sondaggio, il fatto stesso di scegliere di rispondere piuttosto che di non rispondere potrebbe essere spia di
qualche atteggiamento verso la sessualità che non è quello della media dei soggetti (2) per semplificare il
lavoro, i Kinsey avevano incluso nella classe dei soggetti intervistati un numero piuttosto elevato di carcerati, i
cui comportamenti sessuali sono di solito più trasgressivi di quelli praticati dalla media della popolazione.
Questi due fattori evidentemente non permettono di dire che in questa indagine veniva soddisfatto il requisito
dell’ omogeneità del campione, che si cerca di raggiungere di solito o con la randomizzazione o con una scelta
oculata degli elementi tale da non sbilanciare il campione a favore di qualche componente.
Lo stesso discorso vale per qualsiasi tema su cui gli intervistati hanno qualche motivo di vergognarsi delle
inclinazioni che sono chiamati a manifestare. Quando, per esempio, si fanno dei sondaggi per stabilire la
proporzione tra quanti amano la musica classica piuttosto che il rock, la risposta risulta lusinghiera per la
musica classica, ma è purtroppo incompatibile con quanto risulta dal consumo di dischi e di partiture di rock
rapportato al consumo di dischi e partiture di musica classica. Incidentalmente, questi sondaggi non tengono
conto dal fatto che c’è una quota consistente di persone che detestano la musica in qualsiasi forma, anche se
tali soggetti nei sondaggi tendono mascherare la loro antimusicalità dichiarandosi appassionati di musica
classica.
Altri inganni statistici sono dovuti al disinvolto impiego del concetto di valor medio e di costruzioni teoriche
come “l’italiano medio”, l”’operaio medio” ecc. Non parliamo del fatto che il lessico ormai di comune impiego
nei giornali ha reso di uso corrente frasi inappropriate come “ogni italiana ha in media 1,5 figli”, suggerendo
l’idea che oltre al primo figlio si possa avere anche mezzo figlio. In effetti la parola “media” ha diversi
significati. Si dice spesso, per esempio, che Milano è la più ricca città d’Italia. Cosa vuol dire? Chiaramente
non si intende dire che tutti i milanesi sono più ricchi degli altri abitanti delle città d’Italia. Si intende dire, a
quanto pare, che il reddito medio pro capite dei milanesi è superiore a quello medio delle altre città italiane.
Ma il concetto di reddito medio deve essere chiarito. Un conto è dire che la media aritmetica è x, altro che la
mediana è x. La differenza è percepita dagli statistici professionali ma non dal grande pubblico.
Per restare nell’esempio, la ricchezza media dei milanesi si ottiene sommando i redditi di tutte le famiglie di
Milano e dividendo per il numero di queste. La mediana invece è il valore di una grandezza x che separa una
metà della popolazione dall’altra metà; nella fattispecie dell’esempio, è il valore di reddito x del quale si può
dire che il 50% delle famiglie si trova al di sotto di x, mentre il restante 50% si trova al di sopra di x. Media e
mediana non coincidono affatto. Basti pensare che ci sono paesi del terzo mondo in cui il 10% della
popolazione è ricchissima: questo porta in alto il valore medio del reddito, anche se il 90% della popolazione è
in alcuni casi drammaticamente povera. Succede dunque che c’è un 50% della popolazione che ha un reddito
bassissimo, il che significa che la mediana si colloca molto al di sotto della media.
Nel caso delle cosiddette distribuzioni normali, rappresentate dalle famose curve a campana (per esempio la
distribuzione dei ritardi del lotto) media e mediana spesso coincidono, ma questo non accade nelle
statistiche dei fenomeni non casuali. Aggiungiamo che nelle misurazioni di grandezze (anche fisiche come i
tavoli) si riscontra sempre un certo margine di errore possibile, anzi probabile. Se si fissa a 100, per esempio,
il QI medio e risulta che nostro figlio ha un punteggio di 99, si dovrebbe concludere che la sua intelligenza è al
di sotto della media; ma dato che è probabile che ci sia un errore nel rilevamento, la cosa più probabile è che
abbia un valore diverso da 99.
Il modo in cui si usano le statistiche per influenzare in modo più o meno fraudolento le vendite dei prodotti è
ben noto ed è stato analizzato a lungo anche dagli psicologi. È certo più grave il fatto che le statistiche si
usano anche con finalità politiche ed economiche importanti. Esempio. La percentuale di morti tra i soldati
durante la guerra ispano-americana fu del 9 per mille. Nello stesso periodo i civili a new York ebbero un tasso
di mortalità del 16 per mille. Il dato venne usato dai militari per sostenere che arruolarsi in marina rendeva
quanto mai sicuri anche in tempo di guerra. Ma il confronto non aveva senso. I giovani marinai dovevano
essere confrontati con i giovani della stessa fascia di età non militanti nella marina, non certo con una
popolazione che comprendeva vecchi e malati.
Ma veniamo al sofisma statistico più comune e più insidioso, che consiste nello scambiare correlazioni
statistiche con correlazioni causali. Se ne parla come di “fallacia della correlazione” o “fallacia causale”.
Inutile dire che stabilita una correlazione causale, è facile fare un ulteriore salto alle attribuzioni di
responabilità morale e penale. (Per tornare ai suicidi, è capitato di leggere affermazioni comela dichiarazione
dell'On. Di Pietro :“Monti ha sulla coscienza i suicidi di chi non ce la fa ad arrivare a fine mese” ).
Per una comprensione del problema si dovrebbe disporre di una definizione precisa del concetto di causa,
su cui torneremo in seguito. Ma questo concetto ha un nocciolo abbastanza intuitivo da rendere comprensibile
la fallacia. Si osservi al proposito che nel suo scetticismo circa le cause Hume aveva ridotto le relazioni
causali a relazioni tra fenomeni costantemente congiunti nell’esperienza. Il collante che unisce cause ed effetti
secondo Hume non sta nel mondo esterno ma solo nella capacità associativa della mente. È singolare però che
Hume non si rendesse conto che in base a questa teoria dovremmo classificare come causali relazioni che
chiaramente non sono tali. Per esempio, è chiaro che si dà una correlazione statistica e anche associativa (nel
senso psicologico) tra il cantare del gallo e il sorgere del sole, ma chiunque può convenire sul fatto che questo
nesso non è causale.
Per fare un esempio più moderno, si pensi che il barometro è stato costruito in modo tale da segnalare
anticipatamente il verificarsi dei temporali. Possiamo assumere senza problemi che ci sia una comprovata
correlazione statistica tra i due tipi di fenomeni. Ma, chiaramente, l’abbassamento del barometro non ha mai
causato nessuna tempesta: diciamo infatti che non è una causa ma unindizio del futuro temporale.
Come già detto, la parola “indizio” è usata con significati leggermente diversi in vari contesti ma il suo senso è
chiaro: A è indizio di B quando la conoscenza di A aumenta la probabilità che B sia vero. Un indizio di
colpevolezza non è una prova di colpevolezza, così come un’ alta pressione sanguigna è un indizio di un
possibile futuro incidente cardiovascolare ma non ne è la prova e non è detto che ne sia la causa. Nel gergo
della medicina si usa al proposito il termine “sintomo” e anche “fattore di rischio”, da non confondersi con la
causa.
L’elenco di correlazioni statistiche spacciate in buona fede o mala fede per correlazioni causali è
impressionante. Dal fatto che i figli del Sol Levante mangiano pesce crudo e sono particolarmente longevi si è
voluto trarre la convinzione che l’ingerire pesce crudo allunghi la vita; quando a parità di ragionamento si
potrebbe anche concludere, considerando che il tumore allo stomaco è molto più diffuso in Giappone che in
Occidente, che l’ingerire pesce crudo accorcia la vita in quanto è causa di questa gravissima malattia. A
prescindere da questo, le statistiche rilevano che il consumo di carne è aumentato in Giappone
progressivamente negli ultimi decenni, a scapito del consumo di pesce, parallelamente a un progressivo
aumento della vita media; per cui si potrebbe anche concludere, a parità di ragionamento, che il consumo di
pesce riduce la longevità anziché aumentarla.
Un esempio degno di nota, sempre nel campo alimentare, è quello recentemente studiato da una rivista
inglese di medicina: è provato che c'è una correlazione statistica tra consumo di cioccolato in una nazione e
numero di premi Nobel vinti da quella nazione, fatto da cui i produttori di cioccolato hanno riportato la
convinzione che il cioccolato sviluppa l'intelligenzia o addirittura la genialità.
La diffusione di errori analoghi nella filosofia politica ha avuto conseguenze di enorme portata psicologica e
pratica. L’osservazione secondo cui la presenza di diseguaglianze sociali è sempre stata concomitante alla
presenza della proprietà privata dei mezzi di produzione ha condotto Marx a elaborare una teoria per cui il
primo fenomeno fosse causato dal secondo, traendo poi la conclusione che l’eliminazione del secondo avrebbe
condotto infallibilmente all’eliminazione del primo. In base a un ragionamento analogo, alcuni gruppi
anarchici dell’800 rilevavano che le ingiustizie sociali erano riscontrabili in tutte le società in cui era presente
l’istituto della famiglia, fatto da cui traevano la conclusione che l’abolizione della famiglia (ritenuta causa
dei mali sociali) avrebbe portato automaticamente all’eliminazione delle ingiustizie.
L’illusione causale è creata normalmente dall’esistenza da quella che gli epistemologi chiamano biforcazione
causale: nel caso dell’ esempio del barometro c’è una causa comune D (una depressione atmosferica
anteriore) che produce tanto B (l’abbassamento del barometro) che T (la tempesta). Nella grande maggioranza
dei casi il rilevamento di una biforcazione causale consente di spiegare correlazioni statistiche anche bizzarre
evitando di trarre conclusioni causali ingiustificate. Per esempio una vecchia indagine compiuta negli USA
sulla popolazione femminile riscontrò una correlazione statistica significativa tra cancro polmonare e il portare
calze di seta. Ipotizzare un rapporto causale tra le calze di seta e il cancro polmonare, in una direzione o
nell'altra, appariva poco sensato. Ma la correlazione si spiegava molto bene osservando che tanto il portare
calze di seta quando il fumare sigarette erano comportamenti delle signore della classe medio – alta,e che era
nota una correlazione statistica tra fumo di sigarette e cancro polmonare.
La confusione tra correlazione statistica e correlazione causale è fonte di veri e propri paradossi, il più citato
tra i quali è il c.d. “paradosso di Simpson”. Può accadere che A sia correlato con B, ma simultaneamente
anche con C, che però normalmente inibisce B, Si sa, per esempio, che la gravidanza aumenta il rischio di
trombosi. La pillola anticoncezionale aumenta pure il rischio di trombosi, ma diminuisce la probabilità di una
gravidanza , quindi dovrebbe diminuire il rischio di trombosi. Da una stessa premessa dovrebbe quindi trarre
sia una conclusione che la conclusione opposta.
Si noti che nelle correlazioni statistiche può essere difficile o inutile cercare un ordinamento temporale degli
eventi. Di fatto, come sappiamo, ciò che viene correlato nelle analisi non è mai un evento specifico (eventtoken) ma un tipo di evento o evento generico (p.es. quantità di sigarette consumate, incidenza di una malattia
ecc.) e non ha senso attribuire un indice temporale a un tipo di evento. Tecnicamente, peraltro, le correlazioni
statistiche intercorrono tra variabili, per cui la ricerca della causa comune della variabile x e y si risolve di
fatto nella ricerca di una terza variabile z il cui variare è associato alla covariazione tra x e y.
In molti casi di correlazioni statistica accettata oltre ogni ragionevole dubbio non si riscontra nessuna terza
variabile rappresentabile come causa comune. Ma questo non significa che si sia autorizzati a concludere che
l’antecedente statistico è anche un antecedente causale. Si Danno infatti diverse possibilità:
a) La covariazione rilevata è prodotta da una coincidenza. Con campioni molto piccoli questo è senz’altro
possibile, anzi abbastanza comune.
b) La covariazione tra x e y è in effetti causale, ma non è chiaro quale sia la direzione causale, cioè quale sia
la causa e quale l’effetto. Per esempio c’è una correlazione tra ricchezza e possesso di titoli obbligazionari, e si
può sostenere sia che la prima è causa della seconda sia che vale il converso. Se si crede che abbia senso
parlare di interazione causale, si possono anche sostenere ambedue le cose,e cioè che c’è un’interdipendenza
causale tra i due tipi di fenomeni.
c) La covarazione non è causale in nessuna delle due direzioni. Risulta per esempio una correlazione tra
longevità e status matrimoniale, ma è falso sia dire che la longevità è causa di matrimoni sia dire che il
matrimonio allunga la vita (ipotesi falsificata guardando alla longevità di sacerdoti cattolici o buddisti,
sottomessi a regole che vietano il matrimonio). In questi casi può accadere che si scopra con il progresso della
ricerca una terza variabile che appare “nascosta” in fasi precedenti dell’indagine.
Quando è applicata a macrofenomeni, la fallacia causale può portare a errori di valutazione che possono
avere enormi conseguenze. Basta citare che la correlazione osservata tra sottosviluppo e sovrapopolazione in
molti paesi ha diffuso per anni la convinzione che un’alta pressione demografica fosse il principale ostacolo
allo sviluppo economico. Questa presunta causazione negli ultimi anni è risultata smentita dal fatto che i paesi
più densamente popolati del mondo, Cina e India, hanno da qualche anno (siamo nel 2012) il tasso più alto di
crescita del Prodotto Interno Lordo pro capite.
Purtroppo sembra che la mente umana abbia una tendenza invincibile a trasformare le correlazioni
statistiche in correlazioni causali, dando ragione, almeno sul piano psicologico, alla tesi sostenuta da Hume.
Questa inclinazione è all’origine di ciò che comunemente si chiama
superstizione.
Gli esempi sono innumerevoli. Tra i più curiosi si può citare il fatto che nella popolazione delle Nuove
Ebridi era diffusa la convinzione che i pidocchi facevano bene alla salute. Il motivo di questa singolare
pregiudizio venne scoperto facilmente. Quasi tutti in quelle isole avevano i pidocchi. Ma nel momento in cui a
qualcuno saliva la febbre per qualche tipo di patologia, i pidocchi abbandonavano rapidamente il corpo
divenuto troppo caldo e inospitale. Ciò che di vero si può dire di fronte a questo fenomeno, dunque, è semmai
che la malattia è causa dell’assenza di pidocchi, ma non che i pidocchi sono causa di buona salute.
Usando una simbologia in cuiV sta per una qualsivoglia relazione causale, “non-SV non-P” è diverso da “P
V S”. Vediamo dunque che la relazione causale non gode della proprietà che i logici
chiamano contrappositiva.
Le correlazioni causali spurie sono purtroppo non solo errate ma perniciose quando vengono usate
spregiudicatamente nell’ambito della medicina. Da una statistica di qualche anno fa risultava, per esempio, che
esiste una correlazione negativa tra check up e longevità, che suggerisce la conclusione che ilcheck up
accorcia l’esistenza. Ammesso che la statistica sia stata condotta correttamente, il presunto motivo della
correlazione è presumibilmente che chi decide di sottoporsi acheck up di solito non scoppia di salute, mentre
chi non intende sottoporsi acheck up è in condizioni di salute molto buone, per cui è più probabile che rientri
nella classe dei longevi piuttosto che dei non-longevi.
Molte statistiche sul cancro o sulle malattie cardiovascolari sono spesso viziate dall’omissione di un’
informazione importante: che con il progredire dell’età, qualunque siano le condizioni date, aumenta la
probabilità di ammalarsi di malattie di questi due tipi. Ne consegue che tutto ciò che può essere casualmente
rilevante per allungare la vita, quindi sostanzialmente salutare, risulta statisticamente correlato con una
maggiore incidenza di cancro o malattie cardiovascolari. Viceversa, tutto ciò che ha una significativa
probabilità di ridurre la speranza di vita (p.es. sport pericolosi, malnutrizione ecc.) abbasserà anche la
probabilità di incorrere in queste patologie.
In particolare, ci si può attendere che in popolazioni con bassa speranza di vita queste malattie risulteranno
meno frequenti o addirittura assenti. Questo tipo di errore è comune in quella disciplina dal dubbio carattere
scientifico, che dilaga su giornali e riviste più o meno specializzate con il nome di
dietologia.
Intorno al nutrizionismo e alla dietologia gravitano interessi enormi, che spaziano dal campo medicofarmaceutico a quello alimentare.
Sembra che in particolare negli ultimi decenni il colesterolo sia diventato, grazie a una martellante campagna
di stampa, il nemico numero uno delle salute per i suoi presunti effetti nocivi sulle arterie. Ciò che è passato
nell’ immaginario popolare è la c.d. “teoria lipidica” e in particolare la seguente la catena causale : aumento di
consumo di grassi animali - aumento di colesterolo - aumento di placche aterosclerotiche - maggiore rischio di
ictus e infarti.
Da ciò si è indotti a pensare che valga una seconda catena causale che a rigore non è logicamente
equivalente alla prima: diminuzione del consumo grassi animali - diminuzione di colesterolo - diminuzione del
rischio di aterosclerosi - diminuzione del rischio di ictus e malattie coronariche. Per cogliere la differenza basta
osservare che dalle statistiche risulta che il maggior rischio di ictus e infarti è correlato non solo a un livello
molto alto di colesterolo nel sangue (ipercolesterolemia) ma anche a un livello molto basso dello stesso
(ipocolesterolemia), cosicchè anche un eccessivo abbassamento del livello di colesterolo potrebbe essere
additato come causa dello stesso tipo di malattie, anziché come rimedio.
A partire dagli anni 90 si è scatenata una campagna di demonizzazione dei grassi animali, che è andata di
pari passo alla promozione dell’ alimentazione fat-free e della cosiddetta dieta mediterranea, ricca di
carboidrati e povera di grassi animali. Il fatto che a partire dagli anni 90 il numero di obesi, anzichè diminuire,
sia aumentato, soprattutto negli USA, in modo tale da preoccupare i governi dei paesi occidentali, fa pensare
che la campagna anti-grassi abbia fondamenti dubbi.
Uno dei punti deboli della prima catena di sui sopra è la correlazione statistica tra consumo alimentare di
grassi animali e formazione del colesterolo. Ciò che risulta in realtà è che circa l’80% del colesterolo è
prodotto dal fegato, mentre solo il 20% sarebbe introdotto con l’alimentazione. In realtà l’eliminazione
completa dei grassi animali dagli alimenti, a quanto risulta da alcuni studi, di fatto stimola l’attività produttiva
del fegato annullando una parte dei benefici della riduzione dei lipidi alimentari. E' abbastanza chiaro
comunque che tale sovraproduzione è proporzionale allaquantità di cibo ingerito quotidianamente e non
necessariamente alla qualità dello stesso. La confusione tra quantità e qualità è un esempio abbastanza
comune della fallacia della correlazione, anche se sembra non avere attirato l'attenzione dei metodologi.
Il colesterolo è stato scoperto nel 1812; prima fu ritrovato nel sangue e poi, dopo diversi anni, nelle placche
coronariche: da ciò l’ardita conclusione per cui il colesterolo sarebbe causa delle placche coronariche. A
partire dalla fine dell’800 si è continuato a registrare statisticamente un incremento della mortalità da infarto,
al punto di configurarsi come una vera e propria epidemia. Su questo fenomeno vale la pena di prendere atto
dell’enorme importanza ai fini statistici che ha la tassonomia - cioè il modo di classificare i fenomeni sotto
indagine. Tra il 1900 e il 1920 si elencavano quattro tipi di malattie cardiache:
1) angina pectoris
2) pericardite
3) endocardite acuta
4) malattie cardiache organiche
Nel 1949 venne introdotta una nuova tipologia, la "malattia
arteriosclerotica con incluse le coronarie". Con la nuova tassonomia aumentarono a dismisura i casi registrati
di malattie coronariche. Nel 1968 si ebbe una nuova revisione tassonomica e l'ipertensione arteriosa Fu
classificata tra le malattie coronariche (mentre prima era considerata indipendente). Questo fece innalzare
ancora le percentuali di malattie coronariche riscontrate, ma nel 1979 l'ennesima revisione separò di nuovo
l'ipertensione dalle malattie coroniche e la mortalità per queste malattie diminuì vistosamente. Dunque, stando
alle apparenze, ciò che ha fatto aumentare la mortalità per malattie cardiovascolari in determinati periodi è
stato la modificazione della tassonomia, mentre la diminuzione della mortalità per infarto registrata dal 64 all'
86 (-45%) potrebbe essere attribuibile al progresso farmacologico e soprattutto chirurgico (bypass,
angioplastica). La spiegazione di questa riduzione con la riduzione dei fattori di rischio (dieta, fumo,
ipertensione) è plausibile ma non è giustificata.
Gli studi fatti sul rapporto tra ipercolesteromia e mortalità cardiovascolare hanno prodotto dati che
potrebbero suffragare l'ipotesi della correlazione causale: a patto però di ignorare i numerosissimi risultati che,
se venissero considerati, darebbero una risposta opposta. In particolare, le nazioni esaminate da Ancel Keys (il
padre della c.d. "dieta mediterranea") sono le seguenti: Italia, Grecia, Yugoslavia, USA, Giappone, Finlandia.
Se Keys avesse esaminato, invece di questi, paesi come Israele, Olanda, Germania, Svizzera, Francia, Svezia
avrebbe riscontrato che quanto più alto era il consumo di grassi saturi tanto inferiore risultava il rischio di
infarto.
E’ stato violato dunque il vecchio principio caro ai neopositivisti dell’Evidenza Totale, cioè del fatto che per
fornire una spiegazione corretta non si può selezionare arbitrariamente una parte dell’evidenza rilevante per il
fenomeno.
Del resto, di recente ha fatto scalpore il c.d. "paradosso francese": la Francia ha notoriamente una cucina
ricca di grassi animali e tuttavia l'incidenza di malattie cardiovascolari è più bassa che in Italia. Questo
sarebbe sufficiente a refutare popperianamente la tesi lipidica, ma invece venne lanciata un 'ipotesi di
salvataggio della tesi consistente nel dire che in Francia è alto il consumo di vino rosso, che sarebbe in grado
di neutralizzare - grazie a una sostanza chiamata resveratrolo - i nocivi effetti dei lipidi. Ma, a parte il fatto
che è stato dimostrato che per raggiungere la quota di resveratrololo giudicata acconcia bisognerebbe ingollare
quotidianamente almeno 25 litri di vino, resta da spiegare perchè gli italiani hanno pure un alto consumo di
vino rosso ma una maggiore incidenza di malattie cardiache. Resta parimenti da spiegare come mai gli
Esquimesi, che non consumano nè vino né vegetali avendo una dieta esclusivamente carnivora, sembra non
essere affetti da aterosclerosi.
Altra ipotesi di salvataggio è stata la distinzione tra colesterolo buono e cattivo, ora parte integrante del
lnguaggio usato nella pratica medica.
Secondo un commento pubblicato sull’Herald Tribune e firmato da Gary Taubes, corrispondente della rivista
Science, così si è introdotto un equivoco. E cioè: si è sempre confuso il colesterolo con le proteine che lo
trasportano nel sangue, le lipoproteine, che è un po’ come confondere il carico con il mezzo di trasporto. E il
colesterolo è diventato “buono”o “cattivo” a seconda che sia veicolato da lipoproteine ad alta densità (Hdl) o a
bassa densità (Ldl). Potrebbe, dunque, non essere il colesterolo in sé il vero nemico (l’infarto colpisce anche
persone con colesterolo normale) bensì un’anomalia delle lipoproteine. E per completare il quadro delle ipotesi
si dovrebbe anche tener conto dell’ipotesi secondo cui la formazione di placche potrebbe essere dovuta non al
colesterolo ma a un difetto genetico delle pareti delle arterie.
Il bilancio di questa discussione non intende creare scetticismo sulla statistica ma solo evidenziare che se si
vuole usare un dato statistico come elemento di prova o di refutazione, bisogna acclarare che il dato sia stato
ricavato applicando procedure che rispettino i canoni metodologici elaborati dalla stessa scienza statistica.
La metodologia corretta impone in primo luogo di seguire il criterio per cui, oltre al campione sperimentale
estratto da un certo universo in cui la proprietà indagata è presente, si proceda adesaminare un secondo
campione (detto campione di controllo) in cui le proprietà indagata è assente. Il campione, come è ovvio, deve
essere costruito con accorgimenti che eliminino ogni rischio di inquinamento. L’esempio appropriato è quello
delle ricerche sui farmaci eseguite in “doppio cieco”. La particolarità sta nel fatto che né il paziente né il
medico devono conoscere la natura del farmaco effettivamente somministrato. Si differenzia quindi dallo
studio "in cieco semplice", dove solo il paziente è all'oscuro del procedimento che sta seguendo. Per illustrare il
punto, è noto che si vuole valutare l'efficacia di un farmaco occorre tenere conto dell'inevitabile effetto
placebo. Per fare questo occorre prendere in considerazione due campioni omogenei di pazienti. A uno di essi
si somministra il farmaco oggetto di studio (campione sperimentale) mentre all'altro si somministra un placebo
(campione di controllo).
Ovviamente (e in ciò consiste il "cieco semplice") nessun paziente a cui sono somministrati entrambi i
campioni deve sapere se sta assumendo il farmaco o il placebo. La procedura del "cieco semplice", tuttavia, si
è dimostrata in alcuni casi insufficiente per il motivo che i risultati possono essere falsati dall'atteggiamento
psicologico degli stessi sperimentatori. Se il medico sperimentatore sa di somministrare il farmaco piuttosto
che il placebo potrebbe involontariamente suggestionare il paziente. Per questo motivo, al fine di ottenere
risultati attendibili, è necessario che neppure gli sperimentatori conoscano informazioni rilevanti circa il
farmaco. In campo medico il doppio cieco è l'unica metodologia possibile e soltanto i farmaci e le terapie che
superano tale procedura possono essere definiti efficaci.
Il nucleo metodologico di queste procedure è quello di stabilire un raffronto tra la percentuale di U che hanno
la propretà A (probabilità che, se x è U, x è A, cioè Pr (A|U)) e la percentuale di non-U che hanno A (Pr
A|-U). Bisogna confrontare, per esempio, la percentuale di fumatori (F) tra gli ammalati di cancro (C) (Pr(C|
F) con la percentuale di non- fumatori (-F) tra gli ammalati di cancro (Pr(C|-F). Se Pr(C|F) > Pr(C|-F),
significa che F “fa una differenza”, cioè è statisticamente rilevante per C. Ricordando che Pr (C|F) significa
Pr(C ∩ F)/Pr(F) , mentre Pr(C|-F) significa Pr(C ∩ -F)/Pr(- F), la forza di questa correlazione è data dalla
differenza Pr(C|F) - Pr(C|- F) , cioè dalla differenza tra la quantità di fumatori ammalati di cancro e
nonfumatori ammalati di cancro.
In astratto, la differenza Pr(C|F) - Pr(C|- F) costituisce quindi una misura della correlazione statistica tra F
e C. Ovviamente non ogni valore di questa grandezza si può considerare significativo. Per questo gli statistici
hanno introdotto dei test di significatività anche molto sofisticati, come il c.d. “metodo del chi-quadrato”.
E' importante comunque ribadire che, una volta stabilito che la misura della correlazione è significativa, non
è ancora detto che il rapporto di rilevanza così stabilito sia causale. Un’idea sviluppata da Ronald Giere e da
altri metodologi, molto discussa negli ultimi decenni per giustificare il passaggio dalla correlazione statistica a
quella causale è quella di non concentrasi sulle frequenze attuali entro un singolo campione ma sulle frequenze
entro popolazioni ipotetiche; più esattamente, sulle frequenze entro due popolazioni ipotetiche o controfattuali
in cui la proprietà che si suppone rilevante sia posseduta datutti o da nessuno. Per restare nell’esempio,
bisogna immaginare una popolazione in cui tutti fumano e una in cui nessuno fuma. Se siamo in grado di
stabilire che la percentuale di ammalati nella prima è maggiore che nella seconda allora secondo Giere siamo
autorizzati a parlare di nesso causale, altrimenti no.
Per poter dire che c’è un nesso causale tra fumo e cancro vogliamo poter dire con verità quanto segue: “se
tutti fumassero ci sarebbe una frequenza di casi di cancro superiore a quella che si avrebbe se nessuno
fumasse”. Un primo problema è che l’alternativa “tutti-nessuno” può produrre risultati non intesi. Per fare un
esempio, in un campione non ipotetico ma attuale chi ha un livello di reddito superiore alla media ha anche un
livello di salute superiore alla media. Per stabilire un nesso causale dovremmo fare una verifica facendo due
ipotesi controfattuali distinte:1) che tutti abbiano un reddito superiore alla media e 2) nessuno abbia un reddito
superiore alla media . Ma questo è impossibile per ragioni logiche data la definizione stessa di media: è
impossibile infatti che tutti abbiano un reddito superiore alla media! Ci sono anche ragioni non -logiche per
dubitare delle ipotesi del tipo “tutti-nessuno”. Su qualcuno di noi ritira i propri risparmi da una certa banca
questo può far abbassare i tassi di interesse di una banca, ma certo la banca non fallisce per questo. Ma se
tutti ritirano simultaneamente i risparmi da una banca la banca semplicemente fallisce perché non è in grado di
pagare i suoi debiti.
Quindi i nessi causali non vengono universalmente conservati passando da campioni con pochi esemplari a
campioni con tutti gli esemplari. Per essere più precisi, la tesi di Giere si può parafrasare dicendo che c’è
un rapporto causale fumo-cancro quando si è in grado di dire quanto segue: c’è un valore numerico z tale che
se nessuno fumasse, Pr (C) = z, e se tutti fumassero Pr(C) > z . La verità di questa proposizione si accerta in
due passi: a) esaminando varie popolazioni in cui nessuno fuma ed estraendo da esse campioni diversi così da
fissare il valore di z.
b) esaminando popolazioni in cui tutti fumano ed estraendo campioni per vedere se la percentuale degli
ammalati di cancro supera o non supera z. E chiaro che, campionamenti a parte, l’accertamento dei nessi
causali viene così a dipendere dall’ accertamento della verità di condizionali controfattuali. E offrire una
semantica per i controfattuali è stato un problema che i logici hanno cominciato ad affrontare verso il 1970
con risultati interessanti ma non perfettamente univoci.
Una cosa comunque è della massima importanza. I giuristi dovrebbero essere i primi ad apprezzare
l’importanza del ragionamento controfattuale o contrario ai fatti , dato che per secoli si è proposta nei
tribunali come metodo di accertamento delle connessioni causali la c.d. Formula della
conditio sine qua non ,
che consiste nel chiedersi cosa sarebbe successo del presunto effetto se immaginiamo rimossa o assente la
presunta causa.
Prima di toccare questo argomento è però opportuno discutere una forma di inferenza ampliativa che riveste
pari importanza nell’ambito sia scientifico che giudiziario, l’inferenzaabduttiva.