Claudio Pizzi
LEZIONI DI LOGICA DELLA PROVA
LEZIONE 1.
Il calcolo delle probabilità
Sembra che la nascita del calcolo delle probabilità sia stata in qualche misura
favorita dalla cosiddetta “piccola glaciazione”, un mutamento climatico
verificatosi in un arco di tempo che va dall'inizio del XIV secolo alla metà del
XIX secolo. In questo periodo venne registrato un raffreddamento del clima che
raggiunse il suo acme intorno al 1600 e cominciò a decrescere verso il 1800.
Non stupisce constatare che, nel periodo in cui grandi filosofi come Cartesio e
Bacone morivano per un’infreddatura, i pittori davano la preferenza a ritratti e
situazioni ambientate in interni. I nobili limitavano il tempo destinato alla
caccia e alle attività all’aria aperta, dedicando una buona parte del loro tempo
alle letture e ai giochi di società. Questi ultimi erano frequentemente giochi
d’azzardo con uso dei dadi, come il gioco della barca o quello del tric-trac. Di
solito si fa risalire la prima trattazione della probabilità a un libro di Girolamo
Cardano dedicato al gioco d’azzardo, il Liber de ludo aleae (scritto nel 1560, ma
pubblicato solo nel 1663) che contiene tra l’altro una sezione dedicata a metodi
per barare efficacemente.
Ma l’aneddotica vuole che il primo progresso memorabile in questi studi sia
stato originato da una serie di quesiti che il cavaliere de Méré pose all’austero
giansenista Blaise Pascal. Per esempio: “se lanciamo due dadi, quanti lanci sono
necessari per avere almeno il 50% di probabilità di ottenere due sei almeno una
volta”? Le risposte di Pascal, da lui discusse anche con Fermat, si trovano
pubblicate alla fine della Logique de Port Royal (1662). Il salto di qualità rispetto a
trattazioni precedenti fu che per la prima volta si cercava di trattare la nozione
di probabilità in modo astratto, cioè svincolato dal riferimento all soluzione di
specifici problemi. È anche degno di nota che Pascal considerasse la probabilità
applicabile alla valutazione delle prove giudiziarie, idea che venne sviluppata
da Leibniz nel suo Nova methodus discendae docendaeque jurisprudentiae (1667).
Nel 1655 Christian Huygens, dopo aver conosciuto il cavaliere de Méré a una
cena, venne a sapere di questi studi e se ne interessò al punto tale da pubblicare
nel 1657 il primo trattato conosciuto di calcolo delle probabilità, “De ratiociniis in
ludo aleae”. Per la prima volta viene introdotta una nozione che avrebbe avuto
fortuna, quella di speranza matematica. La speranza matematica o utilità attesa di
un singolo evento è il prodotto del guadagno sperato con il verificarsi
dell’evento per la probabilità che tale evento si verifichi. Nel caso di una
pluralità di esiti di un certo tipo di evento, la speranza matematica è la media
ponderata dei valori che si ottengono moltiplicando le probabilità dei vari esiti
per il guadagno sperato da ciascuno di essi. Per esempio, supponiamo di fare
una partita a testa e croce con un solo lancio di moneta, stipulando che se esce
testa si vincono €100 e se esce croce si vincono €0, cioè non si vince nulla.
L’utilità attesa del gioco è €50, ovvero la media tra vincite e perdite se
ponderate con le probabilità di queste . Infatti, stimando come 50% la
probabilità di entrambi gli esiti, la somma
100 • 0,5 + 0 • 0,5 =50
(cioè il guadagno di "testa" per la sua probabilità più il guadagno di "croce" per
la sua probabilità) dà come valore 50. Questo valore costituisce quello che
potremmo dire il costo del gioco: potremmo pensarlo anche come quanto si
deve rischiare per partecipare al gioco senza avere una perdita sicura in un
numero illimitatamente grande di lanci. (Si pensi che una serie di vincite e
perdite potrebbe essere 110,0,0, 100,100,0 ,100,0,0 ……)
Se la moneta fosse sbilanciata a valore di teste potremmo avere risultati
diversi,per esempio
( °)100 • 0,6 + 0 • 0,4 = 60
Si noti che il rapporto tra probabilità matematica e speranza matematica è
simmetrico, nel senso che conoscendo la speranza matematica di un singolo
evento e dell’evento opposto e anche il costo del gioco potremmo derivare la
probabilità. Per esempio dalla relazione (°) ponendo come valore incognito x la
probabilità di Teste e 1-x quello di Croce avremmo
(1) 100 • x + 0 • (1-x) = 60
(2) 100 • x + 0 = 60
(3) 100 • x = 60
(4) x= 60/100 = 0.6
La probabilità dell’uscita di testa quindi viene espressa come un rapporto tra il
costo del gioco (quanto si spende per partecipare) e il guadagno sperato dal
verificarsi di quello specifico evento. La conclusione suggerisce fortemente la
possibilità di definire la nozione di probabilità in termini di rapporti tra somme
di danaro, idea che è diventata quasi un luogo comune nella corrente
novecentesca nota come “soggettivista”. Se, per esempio, scommettendo sulla
vittoria di un cavallo rischio €50 con la prospettiva di vincerne 100, il rapporto
tra 50 e 100,ossia 50%, dà la misura del mio grado di fiducia nel verificarsi
dell’evento in questione; altrimenti detto, dà la misura del grado di probabilità
che soggettivamente associo a siffatto evento.
Per un altro verso, il concetto di media usato pure da Huygens non ha niente di
soggettivo in quanto viene impiegato in nozioni tipicamente statistiche come
quelle di “lunghezza di vita media”, “consumo medio di frutta”, “statura
media” ecc. Quando Huygens inaugurava queste ricerche la statistica muoveva i
suoi primi passi sull’onda degli interessi delle compagnie di assicurazione, alle
quali premeva conoscere con esattezza la speranza di vita dell’assicurato al
momento della stipula della polizza.
È degno di nota, come ha osservato Ian Hacking in “The Emergence of
Probability”, che la probabilità fin dall’inizio reca il marchio di una “dualità”
concettuale di fondo: da un lato è interpretabile come di grado di credenza
soggettiva, dall’altro si lasci rappresentare come una misura di frequenze
statistiche oggettive (chance). Lo stesso Pascal mostrava una certa ambivalenza
nel momento in cui da un lato studiava statisticamente le distribuzioni di
risultati nei giochi di azzardo, ma dall’altro usava il celebre argomento della
scommessa per mostrare la razionalità della disposizione a credere in Dio.
Inoltre, in tema di probabilità statistica o “oggettiva”, va subito considerato
che questa va distinta dalla probabilità teorica dell’evento a cui si riferisce. Il
modo in cui va determinata la probabilità teorica, come vedremo, è oggetto di
discussione filosofica: per ora possiamo dire che è quella che si può stabilire a
piori in base a una considerazione idealizzata delle proprietà dell’oggetto in
questione. Se la probabilità teorica p dell’uscita di testa è, poniamo, 1/2, le
percentuali di testa m che vengono effettivamente osservate dopo un certo
numero di lanci n, espresse dalla frazione m/n,possono essere inferiori, superiori
o uguali a 1/2.
La differenza in valore assoluto tra frequenza osservata m/n e p, |m/n - p|, è
detta scarto e le sue proprietà sono stata oggetto di uno studio matematico
rigoroso. Il famoso teorema di Bernoulli, detto anche legge debole dei grandi
numeri, asserisce che con l’aumentare del numero n di esperimenti aumenta la
probabilità che lo scarto diventi più piccolo di un qualsiasi numero positivo ε è
preso piccolo a piacere1. In parole povere, con l’aumentare degli esperimenti è
sempre più probabile che lo scarto diventi sempre più piccolo.
1
In formula
lim Pr [|m/n - p| < ε ] = 1
n→∞
Si noti che il teorema consiste in un asserto probabilistico circa i rapporti tra
probabilità teoriche e frequenze. Contrariamente a quanto molti sono inclini a
pensare, la proposizione non asserisce che nella realtà le frequenze a lungo
andare tendono alle probabilità teoriche. Questo secondo asserto non è una
proposizione matematica - viene a volte chiamato Postulato empirico del caso- e
descrive una genuina proprietà del nostro mondo reale, che è quella di
presentare una persistente uniformità spazio-temporale delle manifestazioni
fenomeniche. Grazie a tale uniformità della natura, di fatto, le frequenze
osservate tendono a convergere a lungo andare verso la probabilità teorica.
I nomi più importanti da ricordare negli sviluppi del calcolo delle probabilità
tra il 600 e l’ 800 sono quello di Leibniz – che, incidentalmente, essendo laureato
in legge era interessato ad applicare il calcolo alla valutazione delle prove – e
quelli di De Moivre, di Bernoulli e di Laplace . Inoltre vanno ricordati Thomas
Simpson e Carl Friedrich Gauss (che posero le basi della cosiddetta teoria
degli errori).
Già agli inizi del 700 era chiaro che il calcolo comunque si appoggiava a due
regole di calcolo fondamentali, che vennero considerate veri e propri principi
basilari fino a raggiungere la loro forma definitiva nell’ assiomatizzazione
insiemistica formulata da A. Kolmogorov (1932). Ne parleremo come di
Principio delle Probabilità Totali e delle Probabilità Composte: il primo
utilizzabile per sommare probabilità, il secondo per moltiplicare probabilità.
Siano E1 ed E2 due eventi (es. E1:piove, E2:tira vento) , E1 E2 la loro unione
(piove oppure tira vento), E1  E2 la loro intersezione (piove e tira vento) –E1 il
complemento di E1 (non piove). Queste entità sono da intendere come insiemi,
e precisamente come insiemi di casi in cui si verifica un certo evento. Volendo
intendere queste grandezze come proposizioni, si preferisce usare un’altra
notazione , cioè E1  E2, E1  E2, ¬E1.
Pr sia una funzione che associa ad ogni evento un numero razionale o
irrazionale tra 0 e 1 (funzione di probabilità): questo si esprime dicendo che, per
ogni eventi Ei,
0 < Pr(Ei) < 1
Dato che –Ei indica il complemento di Ei (per esempio “non piove” rispetto a
“piove”) nessun evento può avere probabilità maggiore dell’ evento tautologico
Ei  –Ei (es. piove o non piove).Quindi Pr (Ei  -Ei )=1 .
Fatte queste premesse, il principio delle probabilità totali asserisce questo:
(PT)
Pr (E1  E2) = Pr E1 + Pr E2 – Pr(E1  E2)
Per calcolare il valore sulla sinistra bisogna conoscere i valori di input che si
trovano sulla destra, che sono le c.d. “probabilità iniziali”.. Nel caso del nostro
esempio è difficile determinare la probabilità che piova, che tiri vento o che
piova e tiri vento insieme, a
meno di ricorrere a qualche statistica
metoreologica. Ma altri esempi sono meno difficoltosi perché possiamo ricorrere
a valutazioni “a priori” : per esempio pochi troveranno da ridire sul fatto che
in un mazzo di 52 carte non truccato la probabilità di sorteggiare un asso è 1/13
e quella di sorteggiare una carta di picche è 1/4. Se le cose stanno così, qual è la
probabilità di sorteggiare un asso o una carta di picche?
Risposta. La probabilità richiesta è la probabilità di sorteggiare un asso (1/13)
+ la probabilità di sorteggiare una carta di picche (1/4) meno la probabilità di
sorteggiare una asso di picche (1/52). Quindi (1/13 + ¼) – 1/52 = (4/52+ 13/52)
– 1/52 = 16/52=0,3076923.
Se gli eventi E1 ed E2 sono incompatibili questa proprietà semplifica il calcolo
perché (Pr(E1  E2)= 0. In particolare, se E2 è –E1, avremo
Pr (E1  -E1) = Pr (E1) + Pr(-E1)
oppure, dato che Pr (E1  -E1) =1
1 = Pr (E1) + Pr(-E1).
Da ciò naturalmente segue
Pr(-E1) = 1 – Pr(E1)
Il Principio delle probabilità composte invece consente di calcolare le
probabilità di eventi congiunti. Indichiamo con Pr(B|A) la probabilità di B dato
A (detta probabilità subordinata o condizionata).Allora il principio asserisce
questo:
(PC)
Pr(A  B) = Pr(A) • Pr(B|A)
Dato che A  B = B A, vale però anche
(PC*)
Pr(A  B) = Pr(B) • Pr(A|B)
Pr(B|A) = Pr(B) significa che i due eventi sono indipendenti, o in altre parole
che A non influenza B e B non influenza A. Se vale l’indipendenza tra A e B,
però, la formula PC si riduce a
(PC**) Pr(A  B) = Pr(A) • Pr(B)
Esempio1: Qual è la probabilità che in un lancio di due dadi
escano due 3? Pr E1= 1/6, Pr(E2) = 1/6, Pr(E2|E1)=1/6 (perché i due eventi
sono indipendenti): quindi Pr(E1  E2) = 1/6 • 1/6 = 1/36
Esempio 2: La probabilità che c’è maltempo (M) e la probabilità che piova (P)
non sono indipendenti, anzi la pioggia implica il maltempo! Quindi Pr(M|P) =1.
Quindi la probabilità che piova e ci sia maltempo è uguale a Pr(P) • Pr(M|P) =
Pr(P) •1 =Pr(P).
Dal principio delle probabilità composte seguono alcune conseguenze
interessanti.
La prima è che la nozione di probabilità condizionata o subordinata risulta
definibile in termini di probabilità assoluta. Infatti da
(PC)
Pr(A  B) = Pr(A) • Pr(B |A)
abbiamo
(ProbC)
Pr(B|A) = Pr(A  B) /Pr(A)
(se Pr(A) ≠ 0)
Questo non va confuso con
(ProbC*)
Pr(A|B) = Pr(A  B)/Pr(B)
(se Pr(B)=/0)
da cui
(PC*) Pr(A  B) = Pr(B) • Pr(A|B)
Facendo una semplice sostituzione in ProbC abbiamo,Abbiamo, per PC*,
(TB) Pr(B|A) = Pr(B) • Pr(A|B)
(se Pr(A) ≠0)
Pr(A)
Questa formula si può trasformare in formule equivalenti più complesse. Se -B
è un’ipotesi alternativa incompatibile con B (p.es. “pari” e “dispari”), abbiamo
ovviamente per il principio delle probabilità composte
Pr(A  -B) = Pr(-B) • Pr(A|-B)
Ora osserviamo che ,per la teoria degli insiemi, A = (A  B)  (A  -B), come
si vede da una semplice diagrammazione.
Si noti ora che il denominatore della frazione in TB è equivalente a
Pr ((A  B)  (A  -B)). Questo per il teorema delle probabilità totali,equivale,
essendo incompatibili i due eventi A  B e A  -B, alla somma Pr(-B) • Pr(A|B) + Pr( B) • Pr(A|B). In tal caso la formula TB prende la forma più complessa
(TB*) Pr(B|A) = ____Pr(B) • Pr(A|B)
(se Pr(A) ≠0)
Pr(-B) • Pr(A|-B) + Pr( B) • Pr(A|B).
Ovviamente, se le ipotesi incompatibili sono non solo due ma n (B1...Bn), la
formula TB* si può generalizzare a n ipotesi.
TB (TB*) è importante teorema, noto come teorema di Bayes, considerato un
pilastro del calcolo delle probabilità. Il suo nome deriva a dal matematico che
ne diede la prima formulazione in un saggio pubblicato postumo nel 1763 (in
realtà, Bayes era un reverendo presbiteriano nato nel 1702 e morto nel 1761) .
Secondo un luogo comune, Il Teorema di Bayes ha per il calcolo della
probabilità la stessa importanza che ha il teorema di Pitagora per la geometria.
Conoscendo o assumendo i valori di Pr(B) e Pr(A), infatti, è possibile calcolare la
probabilità di B dato A in termini della probabilità inversa di A dato B, che
viene talvolta chiamata verosimiglianza (likelyhood). È quindi possibile calcolare
la probabilità della causa dato l’effetto, o dell’ipotesi esplicativa (explanans) dato
l’ explanandum, una volta che sia nota la probabilità dell’effetto data la causa o
dell’explanandum dato l’explanans.
La funzione di probabilità in effetti è solo una speciale funzione di misura. Le
grandezze misurate sono nella fattispecie le dimensioni di classi di punti dello
spazio-tempo : la classe totale di punti (quella in cui sono vere le tautologie) ha
probabilità 1, la classe vuota (in cui sono vere le contraddizioni) ha probabilità
0. Gli eventi contingenti hanno probabilità intermedie tra 0 e 1. Il calcolo delle
probabilità non è altro che un insieme di metodi per calcolare le misure di
eventi complessi partendo dalle misure di eventi più semplici. Si tratta dunque
semplicemente di un meccanismo input-output che, dati certi valori in ingresso,
produce altri valori in uscita. Questo ci pone di fronte a un problema che il
calcolo in quanto tale non è in grado di risolvere. Per quanti calcoli si possano
fare, dobbiamo sempre prendere le mosse da un input costituito da certi valori
probabilistici iniziali, i quali non si possono a loro volta calcolare da altri valori
probabilistici.
Il problema delle probabilità iniziali non ha risposte di tipo matematico. La
sua soluzione dipende da assunzioni filosofiche ben precise circa la nozione
stessa di probabilità. A seconda della risposta che viene data, cambiano i critieri
di assegnazione dei valori di input, il che può avere conseguenze considerevoli
anche sulle applicazioni del calcolo. È inevitabile quindi esaminare le alternative
elaborate dai filosofi per rispondere a questa basilare e difficile domanda: che
cosa è la probabilità?
Curiosità probabilistiche.
A) Se la probabilità di avere un figlio maschio dato che si hanno già avuti due
figli maschi è ½, qual è la probabilità di avere tre figli maschi in fila? La risposta
è 1/3 ● 1/3●1/3, cioè 1/8. Si noti che qualunque successione di maschi e
femmine in un qualsiasi ordine dà sempre come probabilità 1/8. A parità di
ragionamento , qualunque successione di uscite di numeri rossi e neri alla
roulette (ignorando lo zero, che è verde) ha sempre la stessa probabilità di
qualsiasi altra sequenza ordinata di uscite della stessa lunghezza.
Attenzione però. Dato che gli eventi sopra esemplificati sono indipendenti, la
domanda “qual è la probabilità di avere un figlio maschio dato che si sono già
avuti due figli mschi non è 1/8 ma ½. Analogamente, la probabilità che esca un
numero rosso dato che sono usciti 10 numeri neri è sempre invariabilmente ½.
B) L'autorevole ginecologo Robert Winston, esperto nei problemi della fertilità,
ha immaginato che un medico privo di scrupoli potrebbe pubblicare su un
quotidiano la seguente inserzione, rivolta ai coniugi desiderosi di avere un figlio
maschio :«Dietro invio di 500 sterline, riceverete da me la ricetta infallibile per
avere un maschio. Soddisfatti o rimborsati». Il rimborso ha lo scopo
naturalmente di garantire l'affidabilità del metodo. La ricetta può essere una
qualsiasi pillola di zucchero colorata. In tal modo egli può incassare, poniamo,
su 1000 adesioni, 500.000 sterline. Poiché il 50% dei neonati sono in ogni caso
maschi, egli dovrà rimborsare al rimanente 50% un totale di 250.000 sterline, con
un guadagno netto di 250.000 sterline. Anzi, per ogni femmina nata egli
potrebbe tranquillamente aggiungere altre 250 sterline alle 500 rimborsate e
guadagnare comunque nel lungo periodo una somma di tutto rispetto.
.
3). Per dimostrare l’esistenza di doti paranormali in qualche soggetto presente
nel pubblico potete procedere come racconta Richard Dawkins. «Prima di tutto
vediamo se il sensitivo si trova nella metà destra o nella metà sinistra della sala»
esordii. Quindi invitai la gente ad alzarsi e pregai il mio assistente di lanciare
una moneta. A tutte le persone sul lato sinistro della sala fu chiesto di «volere»
che venisse fuori testa, a tutte quelle sul lato destro di «volere» che venisse fuori
croce. Ovviamente uno dei due schieramenti perse, e venne invitato a sedersi.
Quelli che erano rimasti in piedi furono divisi in due: metà che «volevano» che
uscisse testa e metà che «volevano» che uscisse croce. Ancora una volta i
perdenti furono fatti sedere e ancora una volta si procedette a dividere i
vincenti, finché, dopo sette o otto lanci di monetina, com'era inevitabile, rimase
in piedi una sola persona. «Un grande applauso per il nostro sensitivo!»
esclamai. Non era forse un sensitivo uno che era riuscito a «influenzare» la
moneta
otto
volte
di
seguito?
4)-La probabilità che due persone scelte a caso abbiano lo stesso compleanno,
sulla base di considerazioni sia a priori che a posteriori,
è
1/365
Ora prendiamo una stanza in cui siano presenti solo 23 individui: i
matematici possono dimostrare che vi sono più di 50 probabilità su cento che
almeno due di essi siano nati lo stesso giorno. Lasciamo perdere gli anni
bisestili, che complicano inutilmente le cose, e supponiamo che scommetta con
voi che delle 23 persone presenti, come minimo due siano nate lo stesso giorno.
Tanto per stare al gioco,voi scommettete che non ci siano compleanni comuni.
Faremo il calcolo in modo da arrivare ai 23 individui gradualmente:
cominceremo da uno solo e aggiungeremo gli altri uno alla volta. Se a un certo
punto troveremo un «gemello», io avrò vinto la scommessa, smetteremo di
giocare e non staremo a curarci dei rimanenti individui. Se invece arriveremo al
ventitreesimo senza avere trovato il «gemello», a vincere sarete
voi.
Quando nella stanza c'è solo il primo soggetto, che chiameremo A, le
probabilità che non vi sia alcun «gemello» sono, banalmente, pari a 1 (365
probabilità su 365). Aggiungiamo adesso il soggetto B: le probabilità diventano
1 su 365, quindi le probabilità che non vi siano «gemelli» sono 364/365.
Facciamo entrare ora una terza persona, C: vi sono 1 probabilità su 365 che C sia
nato lo stesso giorno di A e 1 su 365 che sia nato lo stesso giorno di B, sicché le
probabilità che non sia «gemello» né di A né di B sono 363/365, (non può essere
«gemello» di entrambi, perché sappiamo già che A e B non sono nati lo stesso
giorno). Per sapere quali siano complessivamente le probabilità che non si
verifichi un «gemellaggio», dobbiamo prendere 363/365 e moltiplicarlo per le
probabilità che non si sia verificato
un gemellaggio nel caso (o nei casi)
precedenti, ovvero, nell'esempio specifico, moltiplicarlo per 364/365.2 Lo stesso
ragionamento vale quando aggiungiamo la quarta persona, D. Le probabilità
totali che non vi siano «gemelli» diventano 364/365 ● 363/365 ● 362/365. E così
via, finché nella stanza non abbiamo 23 persone. Ogni nuova persona ci porta
un nuovo termine da aggiungere alle moltiplicazioni da fare per calcolare le
probabilità che il «gemello» non si presenti. Se si procede con tali
moltiplicazioni fino ad avere 23 termini (l'ultimo dei quali sarà 343/365), l'esito
sarà 0,49: ed è questa la probabilità che non vi siano nella stanza individui nati
2
Per chiarire questo punto notiamo che aggiungendo via via i soggetti al primo della serie avremo per la sequenza di
probabilità di gemelli i valori
A
AB
0,
1/365,
AB-C
2/365, …..
Mentre per quella di non -gemelli avremo
1, 364/365,
363/365●364/365 …
→ 0,49
Perché il terzo valore della seconda serie non è il complemento del terzo valore della prima serie? Se C è gemello di A o
B , significa che C è gemello di A o gemello di B (non di ambedue perché avremmo già chiuso il gioco), per cui si applica
il teorema delle probabilità totali e si sommano le ripsettive probabilità. Ma questo non vale per la non-gemellarità. In
questo
caso
dobbiamo
calcolare
la
probabilità
che
C
non
sia
gemello
né di A né di B e anche la probabilità che A e B non siano gemelli tra loro: per questo calcolo si ricorre al teorema delle
probabilità composte.
lo stesso giorno. Vi sono quindi probabilità lievemente superiori al 50 per cento
(0,51) che almeno due persone in una compagnia di 23 siano «gemelle».
Basandosi sull'intuizione, la maggior parte della gente scommetterebbe contro il
«gemellaggio», ma sbaglierebbe. È proprio questo il tipo di errore intuitivo che
ci induce a considerare arcane coincidenze che sono normalissime.
4) Paradosso della lotteria (H.Kyburg, 1961). Supponiamo ci sia una lotteria
con un milione di biglietti, uno solo dei quali sarà vincente. Comprando un
biglietto si ha la certezza pratica di perdere (stante che la certezza pratica è data
da 1- ε). Così chiunque compri un biglietto ha la stessa certezza pratica. È
dunque razionale accettare la conclusione che nessun biglietto vincerà, mentre si
sa che certezza che qualche biglietto vincerà. Questo paradosso, escogitato da
Henry Kyburg, mira a evidenziare le difficoltà del concetto di accettazione
razionale: Infatti appaiono consistenti questi tre principi:
i) è razionale accettare una proposizione che è molto probabilmente vera
ii)non è razionale accettare una proposizione inconsistente (autocontraddittoria)
iii)se è razionale accettare A e accettare A’, è razionale accettare A e A’. (Nel
caso dell’esempio: se è razionale accettare che la perdita di Tizio è praticamente
certa e che la perdita di Caio è praticamente certa, allora è praticamente certa la
perdita di Tizio e Caio).
Di questi tre principi, è il terzo ad essere più critico, ed infatti è stato lo
stesso Kyburg a proporre la sua rimozione.
LEZIONE 2. Concezioni della probabilità
La più semplice e intuitiva definizione di probabilità è ancor oggi quella
chiamata “classica”, la cui formulazione si deve al sommo astronomo Pierre
Simon de Laplace (1742-1826), detto il “Newton francese”. Secondo la
concezione laplaceana, la probabilità di un evento E è il rapporto tra i casi
favorevoli al v erificarsi di E e i casi possibili, purchè egualmente possibili.
Se, per esempio, mi chiedo qual è la probabilità di estrarre un numero pari al
lotto sulla ruota di Milano con una sola estrazione, i passi da fare per
determinare questo valore sono i seguenti : (1) osservare che i casi possibili sono
90 (2) osservare che tali casi sono equipossibili (3) osservare che le possibilità di
estrarre un numeri pari entro le 90 possibilità sono 45, quindi i casi favorevoli
sono 45. La risposta è data dunque dal rapporto tra 45 e 90, ossia 0,5.
Se i casi non sono equipossibili la risposta non può essere data. Se, per
esempio, mi chiedo qual è la probabilità che un certo aereo cada nella prossima
settimana, i casi possibili sono due (cade/non cade), ma fortunatamente in
condizioni normali non c‘è motivo di considerarli equipossibili.
La clausola della equipossibilità è una fonte di dubbi filosofici. Se
equipossibile vuol dire “equiprobabile” la definizione complessiva diventa
circolare perché si definisce la probabilità in termini di probabilità. La soluzione
è offerta dal cosiddetto “principio di indifferenza” o di “ragione insufficiente”: sono
probabilisticamente uguali quelle alternative per le quali non abbiamo motivo
di attenderci il verificarsi dell’una piuttosto che dell’altra.
È degno di nota che Laplace intendesse estendere l’impiego del calcolo delle
probabilità dal dominio dei fatti naturali a quello dei fatti umano -sociali,
compresa la probabilità delle testimonianze nei processi e delle sentenze nei
tribunali. Da questo punto di vista egli seguiva una linea di riflessione già
avviata da Leibniz, che prima di darsi alla filosofia aveva praticato studi di
giurisprudenza.
La fiducia di Laplace nel meccanicismo newtoniano e nell’infallibile
determinismo che lui riteneva ad esso connaturato è espresso dalla brillante
metafora del “demone di Laplace”: un demone onnisciente che conosca con
esattezza al momento attuale la posizione e la velocità di ogni particella è in
grado di predire con precisione assoluta tutti gli eventi futuri e retrodire tutti gli
eventi passati. Nella mente del demone di Laplace non esistono incertezze. La
probabilità è in effetti il prodotto della nostra ignoranza, che ci distingue dalla
condizione divina : “parlando rigorosamente, quasi tutte le nostre conoscenze
non sono che probabili: e anche quelle pochissime che stimiamo certe, persino
nelle scienze matematiche, si sono date dall’induzione e dall’analogia che,
strumenti principali per giungere alla verità, si fondano sulle probabilità “. Così
egli scrive nella prima pagina del celebre “Saggio filosofico sulle probabilità”.
Come è noto, la possibilità dell’esistenza di un demone di Laplace è negata dal
principio di indeterminazione di Heisenberg e più generalmente dalla
meccanica quantistica, che esclude che sia possibile misurare con precisione
illimitata posizione e velocità di ogni particella (per tacere di altre coppie di
proprietà dette “coniugate”). Di fatto gli eventi singoli sono imprevedibili anche
in fenomeni caotici con alto grado di complessità. L’urto di milioni di molecole
in un millimetro cubo di gas rende di fatto imprevedibile la loro posizione 1
secondo dopo che la posizione di tutte fosse stata accertata con esattezza. Anche
se in teoria un demone laplaceano potrebbe in teoria prevedere la posizione di
tutte le molecole, da un punto di vista pratico non c’è differenza tra
l’indeterminazione dei fenomeni quantistici e dei fenomeni prodotti dal caos
deterministico.
Secondo la concezione classica la determinazione delle probabilità è una
procedura aprioristica, o in altri termini non dipende da informazioni derivate
dall’esperienza. In quanto tale ha tutti i numeri per essere mal vista dagli
empiristi, secondo i quali ogni conoscenza genuina deve provenire
dall’esperienza stessa. A parte i pregiudizi filosofici, l’ idea di basare la
conoscenza non sull’esperienza vissuta ma sull’ignoranza di qualcosa è una
fonte di difficoltà e di paradossi.
Supponiamo per esempio che una persona che estrae una pallina da un’urna a
sappia che l’urna a contiene un numero uguale di palline bianche e nere,
mentre tutto ciò che sa circa l’urna b è che contiene palline bianche e nere, senza
conoscere la composizione dell’urna. Secondo il principio di indifferenza,
questa persona in ambedue i casi deve assegnare ½ all’estrazione di una biglia
bianca (o nera), mentre è chiaro che nei due casi il grado di incertezza è
differente.
A parte questa riserva di indole filosofica, bisogna ammettere che
l’applicazione della teoria laplaceana è spesso problematica al di fuori del caso
dei giochi d’azzardo. Alcune difficoltà dipendono dal fatto che è arduo
enumerare tutte le alternative possibili entro un dato esperimento,e ancora più
difficile dire se esse sono equipossibili nel senso descritto dal principio di
indifferenza. Fa capolino qui il fastidioso germe del soggettivismo: soggetti
diversi possono avere informazioni diverse circa le alternative, cosicchè le
alternative che appaiono indifferenti ad uno possono apparire differenti a
qualcun altro.
A ciò vanno aggiunte difficoltà di natura squisitamente matematica, come i
c.d. “paradossi di Bertrand”. Esempio. Supponiamo di sapere che un’auto ha
impiegato un tempo compreso tra 1 e 2 minuti (quindi tra 60 e 120 secondi) per
percorrere 1 Km. Diremo che per noi è indifferente la stima di 60-90 secondi e
quella di 90-120 secondi, quindi la probabilità che la lunghezza del viaggio
appartenesse al primo intervallo è uguale a quella che appartenesse al secondo.
Veniamo poi a sapere che la velocità media della macchina era compresa tra i 30
e i 60 Km/h. Applicando il principio di indifferenza, quindi, per noi la
probabilità che viaggiasse tra 30 e 45 km/h è la stessa che viaggiasse tra i 45 e i
60 km/h. Ora il valor medio della prima stima è di 90 secondi, cioè 1 minuto e
½, per 1 Km di percorso, e dovrebbe corrispondere al secondo valor medio, cioè
45 km/h. Ma così non è: se una macchina impiega 90 secondi per percorrere 1
Km vuol dire che in un’ora, cioè in 3600 secondi, percorrerà 40 Km, non 45 Km
!
John Maynard Keynes nel suo Treatise of Probabilities ha enumerato un’ampia
classe di problemi inerenti al principio di indifferenza, evidenziando che molte
difficoltà sono prodotte da aspetti matematici, ma anche da aspetti linguistici.
Se, per esempio, in una libreria buia mi chiedo qual è la probabilità di toccare un
libro nero, posso dire che in condizioni di ignoranza le alternative che mi sono
indifferenti sono due (nero/non nero), e in questo caso la probabilità verrà posta
uguale a ½. Me se tengo conto del fatto che i colori dell’iride sono 7, allora tale
probabilità è 1/7. Per cui ½=1/7, il che è assurdo.
A queste difficoltà concettuali si sommano difficoltà di indole pratica. Di fatto,
nel quadro classico l’applicazione del calcolo della probabilità sarebbe
giustificata solo nei casi in cui si danno alternative equipossibili, o presunte tali.
Per un laplaceano ortodosso non avrebbe senso chiedersi, poniamo, qual è la
probabilità di restare avvelenati mangiando un fungo o quella di morire sotto i
ferri di una certa operazione chirurgica perché le alternative da esaminare non
sono equipossibili - anzi è da notare che è proprio la bassa probabilità
dell’alternativa infausta che rende interessante la domanda, in quanto ci fa
valutare se vale la pena di correre o non correre il rischio ad essa connesso.
Secondo Keynes ed altri che hanno tentato di modernizzare la concezione
classica, nei casi in cui i calcoli numerici non sono applicabili possiamo sempre
ricorrere a valutazioni di tipo qualitativo in modo da poter dire, poniamo, che
un’alternativa è più probabile di un’altra e ambedue sono più probabili di una
terza.
Ma la nascita della statistica alla fine del ‘700 e il diffondersi della mentalità
empiristica, per la quale non esistono conoscenze a priori (e nemmeno sintetiche
a priori, con buona pace dei kantiani), spingeva verso una definizione
oggettiva o statistica della probabilità. Per l’800 vanno ricordati i nomi di R. Ellis
e J.Venn, per il ‘900 quelli di R.von Mises e H.Reichenbach, che vengono spesso
accomunati sotto la denominazione di frequentisti.
Da un punto di vista strettamente empirista, l’affermazione che le varie
alternative, per esempio nel lancio di un dado, sono equipossibili, ha un senso
solo se si può provare sperimentalmente che il dado in questione non è stato
truccato e che non presenta asimmetrie tali da favorire qualcuna delle facce a
scapito delle altre. Di fatto, l’unico modo per raggiungere la certezza
dell’equipossibilità sta nel lanciare il dado in questione un numero illimitato di
volte, verificando che le percentuali di uscite di tutte le facce “tendono”, a lungo
andare, ad essere uguali. Con ciò però si compie un salto dal finito all’infinito
che mal si concilia con l’oggettività sperimentale richiesta dagli empiristi.
Secondo Ellis questo ricorso a una serie infinita di esperimenti, cioè a qualcosa
di non sperimentabile in linea di principio, è un’ idealizzazione che si giustifica
come tutte le altre idealizzazioni impiegate nella scienza (p.es. quando si
immagina il movimento di un corpo su un piano senza attrito). Venn chiamava
serie queste successioni in cui le fluttuazioni di frequenze registrate a un certo
punto si stabilizzano e convergono verso un valore che si può considerare il
limite della serie stessa.
Il passo successivo, che poi verrà perfezionato da von Mises, è quello di
identificare questo limite con la probabilità del tipo di evento in questione (non,
si badi, del singolo evento, dato che la probabilità riguarda classi di eventi dello
stesso tipo). Si noti che, ovviamente, il limite di cui si parla qui è diverso da ciò
che in matematica si chiama limite delle successioni numeriche convergenti,
dato che quest’ ultimo si può calcolare rigorosamente con metodi matematici.
Nelle successioni empiriche un calcolo di questo genere è impossibile. Anzi, a
rigore, non si ha neppure la certezza che il limite cercato esiste, perché non c’è
contraddizione nel ritenere che la parte sconosciuta della serie abbia proprietà
diverse da quella conosciuta. Più generalmente, estraendo un campione da un
universo di dimensioni illimitate, non abbiamo nessuna garanzia che le
proprietà riscontrate nel campione siano le stesse presenti nell’universo. Ma
questo è il vecchio problema dell’Uniformità della Natura. Non c’è una garanzia
logica che il futuro di una successione di eventi sarà uguale al passato, anche se
è perfettamente irragionevole supporre il contrario.
Von Mises divenne un esponente di spicco del circolo di Berlino, nato alla fine
degli anni 20 per gemmazione del circolo di Vienna. L’idea basilare è che si
parla di probabilità quando, ipotizzando entro un certo “collettivo” (insieme
di eventi o dati dello stesso genere) si ha ragione di pensare che le frequenze
osservate, se protratte illlimitatamente, tendano verso un limite. Von Mises non
tardava tuttavia a rendersi conto che, perché si possa calcolare la probabilità,
non tutti i collettivi si prestano al calcolo del limite. Una successione di pietre
miliari che presenti delle pietre bianche ogni cento metri e una pietra rossa
ogni chilometro rende facile calcolare che la probabilità di trovare una pietra
rossa è 1/10, ma non ha molto senso parlare di probabilità di un risultato che è
prevedibile, e quindi necessario, in quanto costruito esattamente con quello
scopo. Se, per ipotesi, si togliessero dalla successione tutte le pietre che si
trovano al 10° posto, la probabilità di incontrare pietre rosse scenderebbe dal
10% a 0, il che fa pensare che la successione in oggetto sia priva di una qualità
essenziale per stabilire il limite delle frequenze osservate, quella di essere
irregolare o randomizzata. Von Mises ha cercato di definire con grande
accuratezza la nozione di collettivo irregolare, puntando sull’idea che un
collettivo è irregolare quando il limite stimato è insensibile alle scelte di posto
effettuate secondo qualche regola prefissata (per esempio, risulta lo stesso entro
le sottosuccessioni determinata dalla scelta dei posti pari).
Nonostante questo importante contributo matematico, che lo ha portato a
definire anche operazioni su collettivi, von Mises non ha potuto evitare che la
sua teoria andasse incontro a banalizzazioni. A meno che non si definisca
rigorosamente il concetto di regola, si può trovare sempre una regola stramba
che genera un sottosuccessione tale da modificare il valore del limite. Più in
generale, come avevano già osservato Schlick e Wittgenstein, data qualsiasi
successione di numeri, per quanto bislacca, troviamo sempre una regola che
concorda con la successione (si tratta di un paradosso a volta indicato come
“paradosso di Wittgenstein”). Finora non si è trovata nessuna regola intuitiva
che governi i decimali di p-greco (3,14…), ma non c’è nessun problema a trovare
una regola abnorme a cui si adegua la successione.
Lo stesso discorso che si fa per le regole si fa anche per predicati qualsiasi. Il
ragionamento induttivo, come è noto, consiste nel riscontrare nel campione una
certa proprietà e proiettarla sull’universo: per esempio dopo aver osservato un
campione di smeraldi solo verdi inferiamo che tutti gli smeraldi sono verdi. Ma
allo stesso modo in cui ci regole abnormi ci sono anche predicati abnormi,
come ravvisato da N.Goodman nel c.d. “paradosso del grue-bleen”. Il
predicato “verde ed esaminato prima del 3000” implica un predicato bizzarro
ma perfettamente legittimo come “verde ed esaminato prima del 3000 oppure
blu ed esaminato dopo il 3000”(grue o verdlù) . Si noti però che se è vero che tutti
gli smeraldi sono verdlù, questa è una disgiunzione in cui il primo disgiunto
risulta falso dopo il 3000, per cui dopo tale data il secondo disgiunto risulta
necessariamente vero.
Con ciò non si fa altro che ribadire che l’uniformità della natura non è
giustificata né da ragionamenti deduttivi né da ragionamenti induttivi: infatti
così si fa vedere che non c’è nessuna contraddizione logica nel pensare che gli
smeraldi nel 3000 si trasformino da verdi in blu.
Von Mises vedeva nella meccanica quantistica lo sbocco naturale della sua
teoria dei collettivi, ma trascurava il fatto che in meccanica quantistica si parla
di probabilità di eventi singoli (p.es. la probabilità che un atomo isolato si trovi
in una certa condizione) e non di tipi di eventi, come richiesto dalla sua versione
del frequentismo.
Hans Reichenbach ha fatto vedere che si può, comunque, definire la
probabilità come limite delle frequenze lasciando cadere le restrizioni poste da
von Mises. Abbandonando la nozione di collettivo, Reichenbach chiede, in
primo lugo, che quella che lui chiama classe di riferimento (quella, cioè, entro cui
vengono rilevate le frequenze) oltre ad essere illimitatamente grande sia
formata da elementi che sono simili per aspetti rilevanti a quelli dell’elemento che
ha l’attributo di cui intendiamo calcolare la probabilità. Per fare un esempio, se
voglio sapere qual è la probabilità che il Sig. Rossi abbia un incidente
automobilistico, sceglierò una classe di riferimento costituita, in primo luogo, da
elementi che siano soggetti al rischio di avere un incidente automobilistico.
Escluderò pietre, gatti, pappagalli e mi atterrò a soggetti umani, anzi a simili a
Rossi per aspetti importanti: escluderò pertanto soggetti a lui simili per avere
calzini blu (perché l’avere calzini blu piuttosto che di altro colore è irrilevante
per l’attributo) oppure per il fatto che come lui leggono libri gialli. Viceversa la
classe di riferimento dovrà contenere soggetti, per esempio, che siano simili a lui
per il sesso, per l’età e per il tipo di macchina che possiedono.
Secondariamente, la frequenza dell’attributo riscontrata nella classe di
riferimento deve essere la stessa anche in tutte le sue sottoclassi di questa.
Nella terminologia di Reichenbach la classe di riferimento deve essere omogenea,
cioè che sia insensibile, nel rilevamento delle frequenze, rispetto a partizioni
operate secondo qualche attributo che influenzi la frequenza dell’attributo in
questione (nell’esempio “avere incidenti automobilistici”) . Non compariranno,
quindi, nella classe dell’ esempio, soggetti che sono proprietari di macchine le
quali, pur essendo della stessa marca di quella di Rossi, abbiano un difetto ai
freni, perché nella sottoclasse costituita da questi si potrebbero riscontrare
frequenze diverse negli incidenti automobilistici.
Una volta individuata una classe di riferimento illimitatamente grande e
omogenea, si calcola il limite a cui tendono le frequenze osservate di incidenti
automobilistici subiti da soggetti del tipo di Rossi entro insiemi via via più estesi
tratti da di questa classe. Si identifica quindi questo limite con la probabilità di
avere un' incidente per soggetti del tipo del signor Rossi. Si noti che questo non è
esattamente la stessa cosa che calcolare la probabilità che il Sig. Rossi nella sua
singolarità abbia un incidente, ma possiamo identificare la probabilità di questo
evento singolare (event- token) con quella dell'evento tipico (event- type) di cui si
può considerare rappresentativo: ciò mediante un artificio concettuale che
Reichenbach chiama posit (“asserzione che noi consideriamo come vera anche se
il suo valore di verità è sconosciuto”). Questa distinzione tra eventi singolari
concreti e tipi di evento ricorrerà più volte nelle pagine seguenti.
La classe di riferimento omogenea nel senso di Reichenbach in sostanza è
un’idealizzazione infinitaria di quello che gli statistici chiamato "campione non tarato" (non-biased) o “campione randomizzato”, che ha un ruolo essenziale
nella pratica statistica. La scelta del campione pone problemi di difficile
soluzione (ne parleremo nel paragrafo sulle menzogne statistiche) in quanto
una taratura del campione può dare origine a distorsioni gravi nel rilevamento
delle frequenze.
Per quanto ispirato ad alcuni criteri comunemente usati nella pratica
statistica, il frequentismo nella formulazione di Reichenbach presta il fianco a
diverse critiche. Una di queste è squisitamente matematica e muove
dall’osservazione che la classe di riferimento e gli esperimenti devono essere
necessariamente, anche se di grandi dimensioni, in numero finito. Se così non
fosse, in un numero infinito di lanci di una moneta ci sarebbe un numero
infinito di uscita di teste e un numero infinito di uscite di croci, generando una
frazione che è sempre uguale a ∞/∞, contro l’intuizione che ci dice che questo
valore è 1/2. La concezione della probabilità come limite mira a disinnescare
questa difficoltà. Succede però che l’ordine in cui si distribuiscono gli
esperimenti in una classe finita potrebbe determinare limiti diversi a seconda
dell’ordine in cui si presentano i dati. Non esiste un ordine unico associato a una
determinata classe di riferimento. Qual è, per esempio, l’ordine in cui
“oggettivamente” sono disposte tutte la automobili rosse fabbricate in Italia?
Un secondo problema attiene la probabilità di casi singoli, dato che in questa
concezione appare privo di senso chiedersi, poniamo, qual è la probabilità
dell'uscita di testa al 40° lancio, mentre queste valutazioni di probabilità sono di
uso corrente nella meccanica quantistica.Questo problema è stato sottolineato in
particolare da Karl Popper, che si è fatto portabandiera di una particolare
versione del frequentismo detta propensionismo .
Una terza difficoltà riguarda l'impossibilità di costruire classi di riferimento
dotate delle proprietà richieste anche per eventi rari o unici. Basta pensare che
quando si inviò per la prima volta una spedizione sulla Luna si assegnava
un'alta probabilità al successo dell'impresa, ma questa non poteva sicuramente
essere calcolata sulla base della frequenza statistica dell'evento.
Una quarta difficoltà, spesso trascurata dagli stessi matematici, riguarda il
fatto che per dimostrare che i limiti delle frequenze sono valori di probabilità
bisogna dimostrare che soddisfano gli assiomi di Kolmogorov, cioè i due
principi delle probabilità totali e delle probabilità composte. È stato provato
tuttavia che questa dimostrazione non è banale, anzi che a rigore non è
possibile. Se è così, avrebbero ragioni quanti distinguono, come più volte
enfatizzato da Rudolf Carnap, tra due nozioni diverse di probabilità - una
epistemica e una statistica- che avrebbero anche probabilità matematiche
diverse.
Con ciò è necessario prendere in esame la concezione detta “epistemica” della
probabilità, di cui la concezione classica di Laplace è stata la prima
anticipazione. Qualcuno, come Popper, ha voluto raggruppare tutte le varie
articolazioni della concezione epistemica sotto l’etichetta di “concezione
soggettivista”, con l’intento di sottolineare l’opposizione tra il concepire la
probabilità come proprietà oggettiva del mondo e il concepirla come qualcosa
di dipendente dalla coscienza di uno o più soggetti.
Nella concezione epistemica tuttavia sono riconoscibili almeno due
orientamenti diversi, incompatibili per il diverso atteggiamento verso le
proprietà logiche degli enunciati probabilistici. Secondo i cosiddetti logicisti
(Boole, Jevons, Johnson, Keynes, Heffreys, Carnap) gli enunciati probabilistici,
se veri, sono logicamente veri. In essi viene enunciato un certo rapporto tra un’
ipotesi h (es. il prossimo corvo sarà nero) e un certo stock di evidenza
disponibile a suo favore (p.es. il fatto che 100.000 corvi osservati sono neri e
nessun corvo osservato è di colore diverso). Keynes parla per esempio di questo
rapporto come grado di credenza razionale, e la logica del probabile diventa
quindi una logica della
ragionevolezza. Se è vero che la scelta dell’
informazione da inglobare nell’evidenza e varia da soggetto a soggetto, la
relazione in sè è puramente logica.
Carnap ha sviluppato da queste idee di fondo dei metodi per calcolare gradi
di conferma induttiva espressi mediante la probabilità condizionale. A
differenza di Keynes e altri logicisti, tuttavia, Carnap introduceva due
coefficienti parametrici, λ ed η, esprimenti diverse valutazioni possibili del
fattore logico-linguistico (λ) e del fattore costituito dal peso dell’esperienza (η).
Se, per restare nell`esempio, svalutiamo l`evidenza sperimentale ponendo
uguale a 0 il coefficiente η , allora la probabilità che il prossimo corvo sia nero
dipende unicamente dal linguaggio presupposto. Se il linguaggio contiene nomi
per i soli 7 colori dell’iride, tale probabilità è di 1/7, mentre se si ammette un
numero piu` ampio di nomi per le sfumature dei vari colori (scarlatto,
porpora,...) allora il valore di tale probabilità sarà diverso. Comunque sia,
indipendentemente da come vien fissato il valore parametrico, la conclusione è
ottenuta attraverso un partial entailment, cioè un`implicazione parziale di cui
l`implicazione logica è solo il caso speciale in cui l`output segue al 100%.
Carnap identifica le funzioni di probabilità con le funzioni di conferma: in
questo modo la logica della probabilità coincide con la logica della conferma
induttiva. Sfortunatamente, dato che ciò che viene confermato di solito è una
legge, cioè una generalizzazione infinitaria (p.es. “Tutti i corvi sono neri”), per
ragioni puramente matematiche tale grado di conferma per le leggi tende ad
essere molto basso se il numero di individui dell’universo è molto grande, ed è
addirittura uguale a 0 se si assume che il numero di individui dell’universo è
infinito. (Per capire questo apparente paradosso, si rifletta sulla domanda:
“sapendo che un urna infinita contiene palline di sette colori, qual è la
probabilità di estrarre un numero infinito di palline rosse e nessuna di colore
diverso?”). Questo difetto è stato corretto da J. Hintikka e dalla sua scuola
introducendo nuovi coefficienti parametrici, ma ottenendo sempre valori bassi
per le generalizzazioni infinitarie: cosa che, del resto, appare coerente con
concezioni epistemologiche come quella popperiana, per la quale cui, come è
noto, le leggi sono solo ipotesi destinate ad incappare prima o poi in qualche
falsificazione.
Essenziale per capire la linea Johnson-Keynes-Carnap è il fatto che, nonostante
si ammetta la variabilità dei risultati delle conclusioni probabilistiche, con
conseguente abbandono dell’univocità, le credenze di cui si postula la misura
sono credenze razionali, cioè credenze proprie di un soggetto idealizzato. La
variabilità, come già detto, dipende dall’arbitrarietà dei valori di λ ed η, cioè del
parametro logico e quello empirico. La valutazione di questi può variare a
seconda degli scopi e del contesto scientifico. Se è così, però, non c’è da stupirsi
se negli ultimi anni Carnap fosse incline a considerare il logicismo compatibile
con il osggettivismo probabilisticoNella corrente detta soggettivista (Ramsey, DeFinetti, Savage) questo requisito
di razionalitàviene abbandonato, così come l'idea che gli asserti probabilistici
veri siano verità logiche. I valori probabilistici esprimono solo gradi di credenza
di soggetti concreti che possono tener conto dell`evidenza disponibile nel modo
che preferiscono. I gradi di credenza sono misurati considerando ogni soggetto
alla stregua di un giocatore, razionale o irrazionale che sia, impegnato in un
gioco di scommesse contro un secondo giocatore (allibratore). Se un giocatore è
convinto, per esempio, che la probabilità di sorteggiare un certo numero al lotto
sia del 50%, non c'è nessun argomento che possa impedirgli di fare questa
valutazione.
L’ unico criterio di razionalità che si richiede a un giocatore è la coerenza
interna del suo sistema di credenze: se il giocatore ritiene veramente che la
probabilità che esca il numero 20 in un certa uscita della roulette sia del 90%,
l’intuizione ci dice che non può anche credere che la probabilità che esca il
numero 21 nella stessa uscita sia pure del 90%, dato che l’uscita del 20 e del 21
sono incompatibili tra loro. Per dare una veste matematica a questa intuizione
sono praticabili metodi diversi, anche se i soggettivisti non sono concordi sul
fatto che le probabilità siano da esprimere invariabilmente mediante valori
numerici. In ogni caso, il metodo più semplice per misurare il grado di
credenza è dato dalla misura del quoziente di scommessa, cioè dal rapporto tra
quanto si scommette e quanto si incassa in caso di vincita. Chi scommette su un
certo cavallo 10 euro per averne 100 in caso di vincita (quoziente di scommessa
1 / 10, o ragione di 1 contro 9) mostra una bassa propensione a rischiare
denaro su questo cavallo, quindi un basso grado di credenza nella sua vittoria;
mentre il contrario si direbbe di chi scommette 90 euro per incassarne 100 in
caso di vincita (quoziente 9/10,o ragione di 9 contro 1). La coerenza di un
sistema di scommesse consiste nell’escludere che nel bilancio finale si vada
incontro a una perdita certa, come sarebbe il caso dello sprovveduto che
scommettesse 100 euro su testa per averne 200 e, simultaneamente, 150 euro su
croce per averne 200: in complesso, costui affronterebbe una spesa complessiva
di 250 euro per incassare 200 euro. Un sistema di scommesse incoerente viene
nel gergo chiamato Dutch Book (allibramento olandese). Ramsey e deFinetti
hanno fatto vedere che il requisito della coerenza delle scommesse implica il
soddisfacimento degli assiomi di Kolmogorov, anzi equivale ad esso.
Un indubbio vantaggio del soggettivismo, che spiega in parte il suo recente
successo, è dovuto al fatto che risolve in modo indolore il problema della
probabilità iniziali, dato che in questa prospettiva queste rispecchiano solo le
convinzioni iniziali di un soggetto dato. Può naturalmente sconcertare il fatto
che un soggettivista radicale ammetta anche valutazioni di probabilità che il
senso comune tenderebbe a considerare forsennate. Ma dal suo punto di vista
esistono due principi importanti che, oltre alla coerenza, possono riconciliare il
soggettivismo con il senso comune. Il primo è il già ricordato teorema di Bayes.
Tale teorema ci garantisce un modo per calcolare il passaggio da una certa
assegnazione di probabilità, poniamo h, alla probabilità revisionata (updated) di
h data una certa evidenza e. Possiamo calcolare, per esempio, la probabilità che
tutti i corvi siano neri dato che 100 corvi sono neri (Pr(h/e) ) una volta che si
conosca, oltre alla probabilità di h e quella di e, la probabilità inversa che 100
corvi siano neri dato che tutti i corvi sono neri (Pr e/h, che ovviamente è 1 per
ragioni logiche). In tal modo il teorema di Bayes, a volte impropriamente
chiamato teorema della probabilità delle cause, ci consente di rappresentare
molte - secondo i soggettivisti tutte – forme di ragionamento ampliativo, cioè
di argomentazioni razionali non deduttiva.
Oltre alla coerenza, che è un criterio di raionalità,secondo i soggettivisti c’è
da tenere conto di un secondo principio, valorizzato specialmente da De
Finetti.è il cosiddetto principio di scambiabilità, formulato per la prima volta in
modo esplicito da W.E.Johnson con il nome di “principio di simmetria”. In esso
si dice che l`ordine in cui si presentano gli elementi che costituiscono l’
evidenza positiva a favore di una certa ipotesi è indifferente, nel senso che non
influenza la suddetta valutazione.
Supponiamo di lanciare in aria per dieci
volte una moneta che sappiamo essere
truccata. I lanci non saranno
indipendenti in quanto gli esiti di ogni lancio forniranno indicazioni sulla
probabilità che esca testa nel lancio successivo. D’altro canto, stabilito il
numero di volte in cui esce testa in dieci lanci della moneta, sapere in quali
lanci sia uscito testa non è rilevante. In altri termini, si verifica una invarianza
permutazionale nel senso che la probabilità che si abbia una sequenza di 10
esiti con un certo numero di teste è sempre la stessa a prescindere da quali
siano esattamente le volte in cui è uscita testa. Pertanto, se per esempio è
uscita testa per tre volte su dieci, non importa se ciò si è verificato nei primi tre
tentativi, oppure nel primo, settimo, decimo. De Finetti ha fatto vedere che
l’impiego contestuale del ragionamento bayesiano e del principio di
scambiabilita`è sufficiente ad assicurare la ricostruzione del ragionamento
statistico con risultati identici a quelli cercati dai frequentisti.
Il soggettivismo è diventato il paradigma dominante nelle ricerche
probabilistiche degli ultimi trent’anni. Le critiche a cui va incontro sono state
oggetto di un ampio dibattito che non ha minato le sue radici ma sembra aver
contribuito al suo raffinamento.
Alcune difficoltà del soggettivismo riguardano l’impiego del rapporto tra
somme di denaro per misurare le probabilità, dato che anche per un privilegiato
con un ricco conto in banca rischiare 50 euro per averne 100 non è la stessa
cosa che rischiare 50000 euro per averne 100.000. Eppure nei due casi il rapporto
tra le due quantità è sempre invariabilmente ½ : dovrebbe quindi misurare lo
stesso grado di credenza. A questo problema si può ovviare con strategie
diverse. Una è quella, proposta già da Ramsey negli anni ‘30, che consiste nel
parlare non di scommesse ma di preferenze tra beni dotati di un certo valore di
utilità. In tal modo si è stabilito uno stretto rapporto tra la teoria della
probabilità e quello delle preferenze: si ricordi del resto che già nel ‘7oo era
chiaro che la nozione di probabilità si poteva defnire il termini di speranza
matematica. La seconda strategia, sottoscritta dallo stesso DeFinetti, consiste nel
rinunciare all’assegnazione di valori numerici in tutti i casi. È sufficiente avere
una relazione “è più probabile di”, definita su proposizioni, le cui proprietà
siano descritte da un certo numero di assiomi, che in ogni caso risultano tali da
rendere derivabili gli assiomi di Kolmogorov.
Si noti che la probabilità comparativa ha una rilevanza dal punto di vista
giudiziario, perché una comune obiezione all’impiego del calcolo delle
probabilità è che nelle aule dei tribunali non ha molto senso impiegare valori
numerici esatti, per esempio dicendo che l’imputato ha avvelenato la vittima
con il 93% di probabilità. Come vedremo, questo è soltanto una dei molti
problemi sollevati dall’impiego del linguaggio probabilistico e del calcolo delle
probabilità in ambito giudiziario.
Sempre sul terreno giudiziario, si è fatta spesso sentire contro il soggettivismo
un’obiezione che è stata condivisa da autorevoli filosofi del diritto (in Italia da
M.Taruffo, che propende per una visione logicista della probabilità): se si
aderisce al soggettivismo, le valutazioni probabilistiche diventano soggettive,
con il rischio che un tribunale assolva un imputato che un altro può condannare
in base a diverse valutazioni soggettive. Questa obiezione è importante perché
non è rivolta contro l’impiego del calcolo delle probabilità nei tribunali ma
contro la filosofia soggettivista. Vediamo come potrebbe rispondere un
soggettivista a questa obiezione. Paolo Garbolino ha dato una dettagliata analisi
di come dovrebbe procedere una corte di giustizia che volesse applicare la
concezione soggettivista.
1) accusa e difesa dovrebbero esporre le rispettive ricostruzioni dei fatti,
intese come insiemi di credenze soggettive, evidenziando la loro coerenza
interna.
2) il giudice sceglie la versione dei fatti che gli sembra più probabile, in base
al principio del libero convincimento del giudice.
Si sottolinea che, piaccia o meno, questo è ciò che “di fatto accade”, anche
se i soggetti coinvolti potrebbero in buona fede sentirsi guidati da obiettivi
più elevati, come l’ aspirazione ad “accertare la verità”. Di qui una possibile
obiezione antisoggettivista: è meglio,uno potrebbe dire, una ricostruzione
probabilisticamente incoerente che risulta vera piuttosto che una coerente ma
falsa. Il soggettivista risponde che nessuno può garantire che una certa
ricostruzione sia vera, anche se si può dire che è più o meno approssimata al
vero (Popper parla di verisimilitudine). Molti soggettivisti rifiutano di usare
la nozione stessa di verità associandosi alla domanda di Ponzio Pilato (Quid
est veritas?). Quanto alla verosimilitudine ,il soggettivista si chiede però che
vuol dire però “verosimile”. Se si intende con ciò “credibile” si ricade nel
soggettivismo. Se si intende “approvabile” (quindi in accordo con il parere
di esperti qualificati), che è il senso antico che aveva la parola “probabile”
nel Medio Evo, si regredisce a una concezione prepascaliana della
probabilità. Sembra che non resti che la probabilità in termini di frequenze
relative, ma il soggettivista si oppone al frequentismo non solo evidenziando
le difficoltà interne che abbiamo già discusso, ma osservando che tanto
Carnap che Reichenbach hanno introdotto dei parametri per ponderare le
conclusioni dei ragionamenti induttivi, introducendo quindi surrettiziamente
delle variabili la cui determinazione può essere solo soggettiva.
Negli ultimi anni i contrasti che hanno diviso gli epistemologi sul
significato della nozione di probabilità hanno lasciato posto a un
atteggiamento più flessibile e pluralista. Si ammette, in altre parole, che in
alcuni contesti potrebbe essere utile applicare la nozione classica, in altri
quella statistica, in altri ancora quella soggettivista, fermo restando che la
sintassi impiegata e le regole del calcolo, sono invarianti e devono restare
tali.
LEZIONE 3. Il bayesianesimo
Si è visto nelle lezioni precedenti che il teorema di Bayes è per il soggettivista
l’unico strumento disponibile per effettuare inferenze non-deduttive.
Tali
inferenze, che si chiamano a volte ampliative, nella tradizione logica venivano
classificate in due sottocategorie: quella delle inferenze induttive e quella delle
inferenze abduttive. L’induzione e l’abduzione vengono spesso presentate come
processi inferenziali conversi tra loro. Si guardi a questi due esempi :
(1) Se il fiammifero è stato sfregato, si è acceso
(2) Se il fiammifero si è acceso, (vuol dire che) è stato sfregato .
Nella (1) si passa da un evento ad un altro che può dirsi spiegato in termini del
primo in base ad una legge stabilita induttivamente. Dato che tra i due eventi
sussiste un gap temporale e che la legge in questione appare la descrizione di un
nesso causale, si può anche dire che il primo evento è causa e il secondo effetto.
Nella proposizione (2) l’inferenza procede invece nella direzione inversa.
L’antecedente enuncia un evento del quale il conseguente descrive una
spiegazione causale attendibile.
In ambedue i casi la conclusione non segue dalla premessa con necessità ma
solo con un certo grado di probabilità,
la cui esatta determinazione
naturalmente può essere certo problematica. Nel secondo esempio, comunque,
l’intuizione dice che il grado di probabilità della conclusione è più basso che
quello della conclusione nel primo esempio. La conclusione di (2) è in effetti
lecita una volta che si sia in grado di escludere che non esistono spiegazioni
migliori del fenomeno descritto nell’antecedente, in cui si asserisce che il
fiammifero si è acceso. Dunque quella che viene eseguita è un’inferenza “alla
miglior spiegazione”.
Come vedremo in seguito, la classificazione delle inferenze ampliative in
induttive e abduttive appare insufficiente se si tiene conto di un tipo di
inferenza- l’inferenza controfattuale- che per quanto ignorato nella tradizione
aristotelica e postaristotelica ha un’importanza che la logica contemporanea ha
messo adeguatamente in luce.
È giunto il momento di vedere come si applica il teorema di Bayes nella
trattazione dell’inferenza ampliativa, sottolineando fin dall’inizio che insistere
sulla centralità del teorema di Bayes non è solo prerogativa dei soggettivisti, ma
di una categoria di metodologi che vengono genericamente raggruppati sotto
l’etichetta di bayesiani. Per i bayesiani la probabilità è sempre un grado di
credenza calcolabile che dipende dal grado di probabilità dalle prove
disponibili. Data questa definizione ampia di “bayesiano”, anche epistemologi
non soggettivisti come Carnap si possono chiamare bayesiani.
Il bayesianesimo giuridico (“nuova dottrina delle prove”) è quella corrente di
pensiero che ritiene che ogni inferenza probatoria si basi, magari in modo
implicito o inconscio, su un’applicazione del teorema di Bayes .
Per fare un esempio,supponiamo si debba la stabilire la probabilità che Rossi
abbia avvelenato il caffè alla luce di certe evidenze disponibili.
Il detective comincia assegnando un certo valore a priori alla probabilità di H(
Rossi ha avvelenato il caffè) prima di esaminare le evidenze E1, E2, E3… En,
dove E1 è, supporremo, il fatto che Rossi ha comprato una dose di veleno. Egli
assegna anche un valore a priori a Pr(E1|H), cioè alla probabilità che Rossi abbia
comprato il veleno dato che ha avvelenato il caffè (verosimiglianza). Se assegna
anche un valore a Pr(E1), grazie al teorema di Bayes si trova Pr(H|E1). Dunque
con questo metodo si passa dalla probabilità di H a quella aggiornata (updated)
di H|E1. Chiamiamo Pr(H’) questa probabilità revisionata. Si passa poi con lo
stesso procedimento a calcolare Pr(H’|E2), ripetendo poi la procedura per ogni
presunta prova E1…En. Questa iterazione di revisioni porta a Pr(H’’’’|En). Si
può dimostrare che più aumenta il numero delle condizionalizzazioni più le
valutazioni soggettive tendono a convergere verso un valore unico, limitando
quindi l’ arbitrarietà delle valutazioni a priori.
Un importante teorema noto come teorema di de Finetti è stato considerato
dai bayesiani la carta vincente per ridurre il peso dell’ arbitrarietà delle
valutazioni iniziali.. De Finetti ha dimostrato che, se la sequenza delle prove è
scambiabile e se le credenze di un ricercatore sono coerenti, allora alla fine il
valore che verrà assegnato dopo un numero alto di esperimenti si approssima a
quello della frequenza relativa (come si asserisce nella legge dei grandi numeri).
Come osserva Jonathan Cohen, però, il problema è che due eventi E1 e E2 sono
scambiabili quando sono nella stessa misura irrilevanti per H: ma la rilevanza è
una nozione probabilistica e quindi la stessa nozione di scambiabilità è una
nozione probabilistica –e quindi, per i soggettivisti, sempre dipendente dai
soggetti.
Le applicazioni del teorema di Bayes sono ad ampio raggio. Un esempio di
come si applica il teorema di Bayes è offerto, in medicina, dallo studio statistico
dei falsi positivi. I falsi positivi si verificano quando un test medico dà esito
positivo in modo falso o scorretto: in altre parole, il test indica che il paziente ha
una malattia che in effetti non ha. Possiamo usare il teorema di Bayes per
determinare la probabilità che un risultato positivo sia un falso positivo.
Sorprendentemente risulta che, se una malattia è rara, allora la maggioranza dei
risultati positivi possono essere falsi positivi, anche se il test è accurato.
Supponiamo che un test per una certa malattia produca i risultati seguenti:
1) Se un paziente sottoposto a test ha la malattia, il test produce un risultato
positivo il 99% delle volte, cioè con probabilità 0.99
2) Se un paziente sottoposto a test non ha la malattia, il test produce un
risultato positivo il 5% delle volte, cioè con probabilità 0.05.
Ingenuamente uno potrebbe pensare che solo il 5% dei risultati sono sbagliati,
ma questo è un errore. Supponiamo che la malattia sia rara, per esempio che
solo lo 0.1% della popolazione abbia quella malattia, cosicchè un paziente
scelto a caso ha una probabilità a priori di 0.001 di avere la malattia.Possiamo
usare il teorema di Bayes per calcolare la probabilità che il risultato sia un falso
positivo. Sia A la proposizione che il paziente è malato, mentre B sta per la
proposizione che il test è positivo. Allora,per quanto detto
Pr(B|A)= 0.99 (positivo se malato)
Pr(B|-A) =0.05 (positivo se sano)
Pr(A) = 0.001
Quindi la probabilità che il paziente abbia effettivamente la malattia dato il test
positivo è , come ricordiamo
(TB*) Pr(A|B) =
____Pr(A) • Pr(B|A)
(se Pr(A) ≠0) =
Pr( A) • Pr(B|A) + Pr(-A) • Pr(B|-A)
0.99 • 0.001–––––––––- = 0.019.
0.99 •0.001 + 0.05 • 0.999
Questa dunque è la probabilità di avere un risultato positivo corretto.
Pertanto la probabilità che un risultato positivo sia un falso positivo, cioè il
complemento della probabilità calcolata, è Pr(-A|B), è circa 1-0,019 = 0.98 o
98%. Quindi la probabilità dei falsi positivi risulta altissima: nonostante
l’apparente accuratezza del test, l’incidenza della malattia è così bassa che la
grande maggioranza dei pazienti che risultano positivi al test non hanno la
malattia. Si consideri però che la percentuale di pazienti che risultano positivi
in quanto affetti da questa malattia (0.019) è 19 volte la percentuale di quanti,
pur non avendo ancora subito un controllo, sono realmente malati (0.001).
Pertanto il test non è inutile, e la ripetizione del test può migliorare l’affidabilità
del risultato.
Allo scopo di ridurre il danno prodotto dei falsi positivi, è chiaro che un test
dovrebbe essere molto accurato nel dare esito negativo quando il paziente è
sano. Se il test producesse molto spesso un risultato negativo in pazienti sani,
diciamo con probabilità 0,999, allora Pr(B|-A) (“positivo se sano”) scenderebbe
a 0,001: quindi avremmo per “positivo se malato”
,
cosicchè in questo caso la probabilità di un falso positvo sarebbe 1-0.5=0.5
D’altro canto, i falsi negativi si producono quanto un test dà un esito negativo
in modo falso o scorretto: in altre parole quando il test medico indica che
il paziente non ha una malattia che in effetti ha. Questa eventualità è più
grave di quella del falso positivo, perché si rischia di omettere la cura per
persone realmente malate.Possiamo usare ancora il teorema di Bayes per
calcolare la probabilità di un falso negativo. Nel primo degli esempi di cui
sopra, quello di una malattia rara, si consideri che
Pr(-B|A) = 1- Pr(B|A) = 0,01.
Ergo come valore di « malato se negativo » avremo
La probabilità che un risultato negativo sia un falso negativo è dunque circa
0.0000105, ossia 0.00105%. Quando una malattia è rara, i falsi negativi non
saranno dunque un problema importante nel test. Ma se per caso la
popolazione ammalata fosse il 60%, allora la probabilità di un falso
negativo sarebbe maggiore. In tal caso infatti Pr(A)=0.6.Con lo stesso test,
la probabilità di un falso negativo sarebbe
La probabilità che un risultato negativo sia un falso negativo sale a 0.0155
cioè a 1,55%.
Passiamo ora dalla medicina al diritto. Qui ci si imbatte immediatamente nel
problema di distinguere tra indizi e prove, dove per prova si intende qualcosa
che attribuisce all’ipotesi un elevato grado di probabilità, mentre si intende di
solito per “indizio” ogni elemento di informazione che rende più probabile
l’ipotesi .
Cominciamo con il discutere una regola giudiziaria basata su quello che si
potrebbe dire bayesianesimo ingenuo. Come è noto, nel diritto penale si chiede
normalmente che le conclusioni vengano raggiunte “oltre ogni ragionevole
dubbio”, che si potrebbe parafrasare dicendo che la probabilità deve essere
sopra una soglia di 1-ε. Questa soglia, in prima approssimazione, fissa la
differenza tra ciò che si può dire provato e ciò che non lo è. La regola è allora
(R) Il giudice al termine del processo decide nel merito sulla sola base del valore
di probabilità dell’ipotesi: accetta il thema probandum se la sua probabilità è
superiore a una certa soglia di 1- ε e lo respinge altrimenti.
Sulla esatta determinazione del valore di alta probabilità bisogna osservare
che ci sono state diverse controversie. Il valore di certezza pratica è fissato
convenzionalmente a 0,999999. Adottare la condotta (R) con questo valore di ε
è quello che diremmo un comportamento razionale. Ma non c`è dubbio che un
livello cosi` alto di certezza, se è giustamente richiesto, poniamo, per la
sicurezza aerea, non è quasi mai raggiungibile in un processo penale. Il
dilemma, naturalmente, è quello se punire un numero troppo alto di innocenti
(accettando soglie più basse di probabilita`) o lasciare in libertà un numero
troppo alto di malfattori (accettando una soglia eccessivamente alta di
probabilita`).
Come afferma Eggleston, il diritto inglese assegna alla giuria l`onere di
stabilire cosa sia una misura "ragionevole" (non razionale) di probabilità in quel
particolare contesto. Si parla infatti di "convinzione oltre ogni ragionevole
dubbio". Ma che cosa è un dubbio ragionevole? Il dubbio cartesiano è razionale
ma non ragionevole. In ogni caso di scomparsa di persona, per esempio,
possiamo sollevare il dubbio che lo scomparso sia stato rapito dagli
extraterrestri.. Infatti in tali casi prendiamo in considerazione è una possibilità
logica ma non una possibilità fisica, stante che non disponiamo di leggi fisiche
sulle attività di soggetti extraterrestri.
L’ipotesi di una sostituzione di persona o una diabolica messinscena (su cui
torneremo) rientra nel repertorio giornalistico e anche giudiziario, ma è dubbio
sia ragionevole.
Riteniamo sia utile continuare a usare la formula R lasciando nel vago il valore
di ε come quello di un valore trascurabile non specificato. Si tratta di una
procedura di idealizzazione che non è l`eccezione ma la regola anche nella
scienza. Dal punto di vista applicativo, infatti, questo valore sarà quello in cui
converge la convinzione della giuria una volta che non sia influenzata da fattori
di qualche genere.
Lord Dennig scrisse :"Nei processi penali l`accusa deve essere provata oltre
ogni ragionevole dubbio, ma possono esserci dei gradi all`interno di questo
standard" .La solidità della prova dovrebbe essere proporzionata alla gravità del
reato. Sono state anche fatte delle ricerche sui valori di probabilità che si
stimano sufficienti in rapporto a diversi reati. Per la prova di omicidio, per
esempio, i giudici richiederebbero 0,92 mentre i giurati 0,86.
Un'altra idea a volte sostenuta è che quando il grado di prova è "oltre ogni
ragionevole dubbio" ciascun elemento di prova deve a sua volta risultare tale
oltre ogni ragionevole dubbio. Questo è eccessivo, perché le singole prove
potrebbero non essere certe ma la loro somma complessiva potrebbe portare
l’ipotesi al livello di credibilità richiesto.
Nei processi civili anglosassoni ci si conforma a uno standard diverso da
quello di "oltre ogni ragionevole dubbio", ma le opinioni sul grado di
probabilità richiesto sono divergenti. Il minimo che si chiede è che la probabilità
di A superi la probabilitàdi -A, cioè il 50%., anche se si tende a usare la
locuzione più vaga "preponderanza delle prove". Sempre Lord Denning
sostiene che, allo stesso modo in cui c'è una variabilità del concetto di
ragionevole dubbio, c`è una variabilità anche nel concetto di preponderanza di
probabilita`. Una regola pratica condivisa è per esempio questa: il tribunale
puo` accontentarsi di un minore grado di prova quando ritiene che la
reputazione dell`imputato sia talmente cattiva che una condanna in piu` non
potra peggiorarla.
Si noti che i processi penali e civili possono essere intrecciati: può capitare per
esempio che un tribunale civile impedisca la trasmissione di un patrimonio a
un soggetto che si sospetta abbia assassinato la
donna che ha steso il
testamento.
Una classe importanti di problemi nell’impiego del calcolo delle probabilità è
posta dalla credibilità dei testimoni. Una volta stabilito che i testi sono
indipendenti, la credibilità della testimonianze dovrebbe essere ottenuta
moltiplicando le varie probabilità via il principio delle probabilità composte.
Ma il primo problema riguarda l’attendibilità delle singole testimonianze.
Si noti che non si tratta solo di stabilire la probabilità che il teste stia dicendo
qualcosa di falso in buona fede o mala fede. Bisogna considerare anche la
probabilita`
che abbia visto bene, che sia intimidito o ricattato da altri, che
si ricordi esattamente cio` che ha visto, che non venga frainteso e che non sia
ostacolato nel raccontare cio` che intende raccontare.
La sociologia dei mass-media ha reso familiare questo fenomeno : che quando
un presunto fatto viene trasmesso reiteratamente e a tutto campo dai media, si
trova quasi sempre qualcuno che è disposto a testimoniare della veridicità del
fatto stesso – e si noti che costui non è necessariamente subornato o in mala
fede. Lo scrittore Norman Mailer ha inventato la parola “fattoide” per indicare
qualcosa che prima di comparire su un giornale o in tv non esisteva. Lo spazio
concettuale dell’uomo medio, che è quotidianamente condizionato dai media, è
saturo di fattoidi che sono in grado di orientare i suoi comportamenti anche sul
piano politico. Vale certamente il principio per cui una falsità più volte ripetuta
tende a diventare inerzialmente una “verità”.
Quanto detto diminuisce l’interesse per le testimonianze di testimoni isolati, le
cui testimonianze cioè non siano convergenti con quelle di altri testimoni
indipendenti. In ogni caso, comunque, ci sono dei criteri per valutare la
versione di un testimone singolo:
1) coerenza interna della versione
2) coerenza con le versioni di altri testimoni
3) coerenza con fatti non controversi
4) "credito " del testimone (che esclude, per esempio, soggetti con disturbi
psicofisici)
5) accuratezza dell’osservazione del testimone (per esempio potrebbe fingere
un difetto fisico)
Il requisito della coerenza non va inteso solo in senso logico-formale. "Andò e
tornò da Roma in un giorno" un secolo fa sarebbe stato considerato incoerente
con le leggi fisiche, oggi sicuramente no.
I testimoni a volte mentono quando è in gioco la loro reputazione o la loro
dignità personale. Si noti che il testimone giura di dire "la verita`, tutta la
verita`, niente altro che la verita`". Questo implica che l'omissione nella
esposizione di fatti rilevanti comporti lo spergiuro, ma di fatto l’omissione non
e considerato reato a meno che non comporti la falsità di parte della
testimonianza. In realtà molti testimoni non si sentono in colpa se pensano di
mentire a fin di bene. Un errore comune è pensare che i testimoni siano
completamente veraci o completamente mendaci. Si tende a sottovalutare la
facilità con cui molta gente dimentica le cose più banali, anche la stessa lingua
madre.
Che dire quando un testimone enuncia un fatto eccezionale o improbabile?
Secondo Hume e Laplace anche la veridicità del testimone in questo caso deve
essere giudicata improbabile. Esempio: il testimone che dichiara di aver preso
un candelotto di dinamite da suo fratello e di esserselo dimenticato in tasca. Ma
a volte i testimoni raccontano in modo veridico dei fatti assurdi , e l`assurditàdi
quello che raccontano in un certo senso prova la loro buona fede.
Un problema importante riguarda ciò che si intende esattamente per
improbabile. Nel linguaggio corrente è improbabile ciò che è sorprendente,e
probabile ciò che non lo è. Se in una mano di bridge mi vengono serviti 13 carte
di picche questo è sorprendente, anche se a rigore ha la stessa probabilità di
qualsiasi altra distribuzione. Dunque ci vuole cautela nell'usare concetti come
quello di sorpresa potenziale di Shackle (di cui parleremo) o di "indice di
sorpresa" di Weaver.
L'idea di Eggleston è che la probabilità sia stabilita a fronte di tutte le
alternative possibili. Se, per esempio, le carte dell’esempio sono state distribuite
ieri e il fatto viene riportato oggi a gioco finito, dobbiamo considerare
l'alternativa che le carte siano state truccate o che il teste che riporta il fatto a
distanza di un giorno menta: alternative che non sono affatto trascurabili. Si
pensi al famoso argomento di Hume sui miracoli. Che cosa è piu` probabile?
Che ci sia una violazione di una legge di natura o che qualcuno abbia le
traveggole o sia un mitomane?
Ora in tema di testimonianze il teorema di Bayes si rivela uno strumento
prezioso. Nel caso piu` semplice, abbiamo due testimoni per valutare
l’attendiblità di un certo enunciato S. Supponiamo di porre
As = Il teste A afferma S con verità
Bs = Il teste B afferma S con verità
S = la dichiarazione S è vera
-S = la dichiarazione S è falsa.
Utilizziamo qui una nuova nozione, la nozione di ragione o quota di scommessa
(in inglese odds: da non confondere con il quoziente di scommessa) su B dato A,
che è il rapporto tra Pr(B|A) e Pr(–B|A) :
Pr(B|A)
10/100
--------------- (per esempio –––––––- = 1/9 (1 contro 9).)
Pr(-B|A)
90/100
E’ interessante osservare che, come si può passare dalla probabilità alla ragione
di scommessa (odds), esiste anche il passaggio inverso. Dato il rapporto O
della probabilità di un evento E rispetto a quella complementare, si dimostra
che la probabilità dell’evento E in questione è espressa da
Pr(E) = O(E)/1+O(E).
Per capire questa eguaglianza è sufficiente questo esempio.
Se, poniamo, Pr(H)= 4/10, O(H) = 4/6 (cioè 4/10 ● 10/6)
Ora Pr(H)= 4/10 = 4/6 ● 6/10 = 4/6 , dove 4/6 = O(H)
10/6
Poichè 10/6 = 4/6 + 6/6 ossia 4/6 + 1 si ha
Pr(H) =4/10 = O(H)/O(H) +1
Ad esempio, se la ragione di scommessa su un cavallo è ¼, cioè 0.25, la
probabilità del cavallo di vincere è 0.25/1.25 = 0.2.
Utilizziamo ora questa variante del teorema di Bayes in cui la formula di
Bayes compare sia al numeratore che al denominatore (3):
Pr(H|E)
=
Pr H • Pr(E| H)
● 1/Pr E
Pr(-H |E)
Pr- H • Pr(E|- H) ● 1/Pr E
che naturalmente equivale per semplificazione a
Pr(H |E)
=
Pr H • Pr(E| H)
Pr(-H |E)
Pr( - H) • Pr(E|- H)
Chiameremo Pr H /Pr –H rapporto a priori, e Pr(E|H)/ Pr(E|-H) valore
probatorio dell’evidenza E o rapporto di Bayes.
la probabilità di unì’ipotesi
espressa dalla ragione di scommessa si riduce sostanzialmente a un prodotto tra
il rapporto a priori e il valore probatorio dell’eviidenza.
Per la dimostrazione basta osservare che a = b implica a / z = b /z per ogni
numero z e che i denominatori della formula sono equivalenti tra loro.
3
Avremo quindi come caso speciale
Pr(S|As  Bs)/ Pr(-S|As Bs) = Pr(S)/Pr(-S) • Pr(As  Bs|PrS)/ Pr(As  Bs| S)
viene così espressa in termini di ragioni di scommessa la probabilità che S sia
vera se i testi sono veridici.
La frazione finale della formula, Pr(S)/Pr(-S), indica la ragione iniziale di
scommessa su S prima che si sentano i testi. Circa As e Bs bisogna stabilire se si
considerano i testi indipendenti oppure no. Nel primo caso Pr(As  Bs|PrS) si
riduce, applicando il teorema delle probabilità composte, a Pr(As|PrS) • Pr(Bs
|Pr S ), altrimenti bisogna ricorrere ad una espressione piu` lunga che il lettore
puo` calcolare da sè.
Al proposito alcune osservazioni.
Naturalmente, per applicare il teorema di Bayes bisogna fare qualche
assunzione circa le probabilità iniziali. In casi di incertezza tra due alternative si
assume convenzionalmente, ispirandoci al principio di indifferenza, che la
probabilità iniziale sia 0,5. Ma i testi potrebbero avere a disposizione più di due
versioni possibili dei fatti, poniamo cinque. In questo caso, per esempio,
Pr (As|S) = Pr(Bs|S) = 1/5.
È importante osservare che la richiesta di alta probabilità della conclusione è
stata proposta anche nell’ambito della metodologia delle scienze fisiche. Il
cosiddetto modello hempeliano di spiegazione SI (ossia Statistico-Induttiva)
esige che l’explanandum venga derivato dall’explanans con un alto grado di
probabilità. Ma le difficoltà che sono state riscontrate nella teoria di Hempel
si applicano immediatamente alla regola R. Infatti, mentre nella logica deduttiva
l’aggiunta di altre informazioni alle premesse non altera la conclusione, questo
non si verifica nella logica probabilistico-induttiva. Nel linguaggio dei logici,
questa inferenza è non-monotòna. Se, per esempio Pr( H| K) = 1-ε, per valori non
banali di E, Pr (H|K  E) < (1 – ε). In altri termini, nuova informazione
indipendente può abbassare il livello di probabilità della conclusione.
Supponendo che la probabilità che un verdetto raggiunto sia molto alta, questo
significa che il risultato è però a rischio di essere revocato in dubbio, e questa
instabilità sembra che non ci consenta di dire che la conclusione valga oltre ogni
ragionevole dubbio.
Per un motivo analogo non è transitiva la relazione implicativa che possiamo
definire così:
(Def. =>) A => B =Def Pr(B|A) = 1-ε.
Non abbiamo infatti nessuna garanzia che, se è vero A =>B, ossia Pr(B|A) = 1-
ε, ed è vero B => C , ossia Pr(C|B) = 1- ε, allora è vero A => C , cioè (Pr(C|A)=1ε. Quindi una catena di ragionamenti ciascuno dei quali è ragionevolmente certo
potrebbe avere una conclusione che non è ragionevolmente certa.
La difficoltà di raggiungere una conclusione stabile è aggravata dal fatto che
i soggettivisti negano che ci debba essere necessariamente un consenso
intersoggettivo
(a fortiori “oggettivo”) sulla assegnazioni iniziali.
I
soggettivisti più intransigenti (in genere seguaci di De Finetti) respingono per
ragioni di principio anche la possibilità di distinguere tra valutazioni
ragionevoli e valutazioni che dipendono dai gusti o dalle preferenze individuali,
introducendo un elemento supplementare di incertezza. Non è quindi detto che
le assegnazioni iniziali in caso di ignoranza siano 0.5 per ogni soggetto, e non c’è
garanzia che ci sia uniformità nel giudizio collettivo.
Il soggettivista ha buon gioco a far rilevare che il bayesianesimo di stampo
logicista, cioè la teoria della credenza razionale, è naufragato insieme al sogno di
Carnap di creare una teoria formale espressa nel linguaggio della logica dei
quantificatori. La visione di Carnap inoltre presuppone la neutralità dei dati su
cui si valutano le ipotesi, idea notoriamente respinta dall’epistemologia
postpositivista.
Il punto debole del logicismo starebbe in particolare nel fatto che ignora il
momento della dialettica probatoria, cioè il fatto che la ricostruzione del fatto
avviene attraverso la discussione e la controversia.
Tenendo presente l’idea
della dialettica probatoria, recentemente Alberto Mura ha proposta una terza
via, oltre al logicismo e al soggettivismo bayesiano, che ha chiamato
bayesianesimo critico. Per capire la differenza , riprendiamo l’idea già accennata
secondo cui è normale definire probabilisticamente la nozione di rilevanza in
questo modo:
1) A è positivamente rilevante per B quando Pr(B|A) > Pr (B)
2) A è negativamente rilevante per B quando Pr(B|A) < Pr(B)
3) A è irrilevante per B quando Pr (B|A)=PrB
Su questa nozione si basano tutte le teorie probabilistiche della causa
come quella di Suppes e Salmon. Ma ,se le probabilità iniziali sono soggettive,
ne segue anche che anche i nessi di rilevanza risultano tali. Essi quindi non
sarebbero oggetto di conoscenza ma di opinione.
In tal modo si perde la
speranza di costruire un consenso razionale nella ricostruzione dei fatti e di
adempiere, come osserva Mura, lo stesso obbligo di motivazione della sentenza,
che deve basarsi su ragioni universalmente condivisibili. Inoltre, come già
ancitcipato, si può mostrare che in tal modo si rende impossibile addirittura
applicare lo stesso principio di indifferenza. Viceversa, bisogna ammettere che
le valutazioni di rilevanza possono essere in molti casi antecedenti a quelle di
probabilità e tali da condizionare la revisione delle probabilità richiesta dal
teorema di Bayes.
Al proposito si noti che nel ragionamento giudiziario è essenziale far leva sulle
cosiddette “massime d’esperienza”, che non sono leggi di natura ma sono però
generalizzazioni affidabili. Per esempio “ un teste disinteressato normalmente
dice la verità” in termini probabilistici si potrebbe tradurre con
(ME) Pr(x dice la verità|x è disinteressato)>1/2
E’ dubbio infatti che si possa rendere con
(ME’) Pr(x dice la verità|x è disinteressato) = 1- ε
dato che diverse cause possono influire sulla veracità dei testi.
Una variante della stessa massima sarebbe forse meglio resa da
(ME’’) P(x dice la verità|x è disinteressato)>P(x dice la verità|x è interessato)
Tali probabilità non possono essere considerate prodotti di valutazioni
soggettive. Il bayesianesimo critico asserisce che i giudizi di probabilità sono
opinioni non definitive ma aperta all’altrui critica, intrattenute con l’obiettivo di
convincere gli altri a raggiungere il consenso.
Al proposito, si ricorda che Keith Lehrer e R.Wagner nel loro “Rational
consensus in science and society” hanno proposto un modello probabilistico di
discussione critica, che dovrebbe essere coerente con la prospettiva di Mura.
Siano Pr1(S)… Prn(S) i valori valori di probabilità che n esperti di un certo
gruppo assegnano alla poposizione S dopo essersi scambiata tutta
l’informazione disponibile. Ciascuno dei membri del gruppo ha un’idea
dell’affidabilità del parere degli altri membri e assegna ad essi un determinato
peso w , espresso da un numero reale tra 0 e 1 (grado di rispetto). Facendo una
media ponderata della propria opinione originaria Pr(S) e del grado di rispetto
ciascuno degli esperti arriva ad una seconda probabilità corretta Pr(S)’. Questa
seconda distribuzione può essere di nuovo riaggiornata in base alle probabilità
aggiornate degli altri,, e così via fino a quando si raggiunge un punto fisso, cioè
una distribuzione che è insensibile ad altri aggiustamenti.
La costruzione di Lehrer-Wagner - che, incidentalmente, non descrive l’unica
strategia possibile di ponderazione delle probabilità- mostra come è possibile
costruire una valutazione intersoggettiva che si può considerare razionale, o a
fortiori ragionevole, partendo da assegnazioni puramente soggettive.
Di fatto le applicazioni del teorema di Bayes, come già osservato, sono di
solito appoggiate a dati la cui origine non è necessariamente soggettiva:
potrebbero essere, per esempio, dati accettati con solide basi statistiche. Oltre ai
Bayesiani soggettivisti ci sono i bayesiani oggettivisti
Per illustrare questi usi, cominciamo con l’osservare che la formula di Bayes di
p.000 è solo la più semplice di varie formulazioni equivalenti o estese. Una di
queste è già stata usata a p.000.
Un’altra è la seguente, che si ottiene tenendo conto dell’ informazione
disponibile K (Background Knowledge) nella valutazione di probabilità. Per cui
una formulazione più adeguata della precedente formula di Bayes in termini di
ragioni di scommessa sarebbe
Pr(H|E  K)
Pr(-H |E K)
=
PrH
• Pr(E  K|H)
Pr -H • Pr(E  K|-H)
Questa probabilità è la probabilità a posteriori di H ( a volte credibilità)alla luce
dell’informazione E  K . Se K è 2+2=4 o qualsiasi truismo equivalente, il peso
di K si annulla e si ritorna alla formula originaria.
Un’altra nozione interessante è quello che abbiamo detto rapporto di Bayes
che è un rapporto tra verosimiglianze.
Pr(E  K|H)
(RB) V = ------------------Pr(E  K| -H)
V è quello che abbiamo chiamato valore probatorio dell’evidenza E, qui
relativizzato alla conoscenza di sfondo K Intuitivamente è la forza con cui E
sostiene H piuttosto che la sua negazione –H.
Nella formula RB, V può avere valori maggiori di 1, minori di 1 o uguali a 1
(quindi non è una funzione di probabilità, perchè questa ha come massimo
valore 1). Per esempio un rapporto come 0.9 / 0.10 , ossia 9, esprime un alto
grado di forza della prova per l’ipotesi H alla luce di E, mentre un rapporto
inverso 0.1/ 0.9 rappresenta un basso grado di forza dell’ipotesi alla luce di E.
Supponiamo che l’evidenza che si ritiene importante per la colpevolezza
sia data dall’impronta digitale dell’imputato su un coltello. Allora valutiamo
la probabilità che il rilascio dell’ impronta si verifichi se l’imputato è
colpevole ( Pr(E 
H) ) confrontandola con la probabilità che ciò si
verifichi se l’imputato è innocente, ossia Pr(EK|-H). Il rapporto tra
questi due valori esprime il valore probatorio dell’evidenza E.
Si noti che tale valore probatorio potrebbe derivare da statistiche ben
precise, come avviene spesso in medicina. Per esempio,nel caso in cui Pr(E|
K H) esprime il vero positivo (p.es. Se Rossi ha la sifilide la reazione
Wassermann mostra certi valori) e Pr(E|K  -H) il falso positivo (p.es. se
Rossi non ha la sifilide la reazione Wassermann mostra certi valori), V
esprime il rapporto tra le verosimiglianze dei due tipi di evento. Il valore
probatorio della Wasserman è dunque il rapporto tra veri positivi e falsi
positivi.
Il teorema di Bayes ci consente di calcolare la probabilità che Rossi abbia la
sifilide dati i risultati della Wasserman, una volta fissati gli altri valori della
formula di Bayes.
Certo il valore di Pr (H|E) e Pr(E|H) dipende dalla probabilità a priori di
Pr(H). Se, per esempio, tale probabilità a priori è molto bassa, anche il valore
di Pr(H|E) tende ad essere molto basso anche a fronte di prove sostanziose.
Questa caratteristica ha un rilievo soprattutto in campo giudiziario. La c.d.
“presunzione di innocenza” dovrebbe indurre ad assegnare probabilità 0
all’ipotesi della colpevolezza (H), con il risultato che Pr(H|E) =0 , il che vuol
dire che nessuna prova può dimostrare la colpevolezza dell’imputato!!
Naturalmente su questo si potrebbe discutere. Riflettendo bene sulla
precedente formula, assegnare probabilità 0 alla colpevolezza significare
affermare che è impossibile che l’imputato sia colpevole. Questo non è
quanto si intende con la presunzione di innocenza. Ciò che si intende dire
semmai è che vale Pr(C) < Pr( -C), cioè che è più probabile sia innocente che
colpevole, che è quanto basta per ritenere che a priori non sia meritevole di
nessuna condanna. D’altro canto questa valutazione comparativa non fissa
una valore determinato e di per sè rende inapplicabile il teorema di Bayes.
Il modo di procedere potrebbe essere diverso. Come abbiamo già
suggerito, applicando intuitivamente il principio di indifferenza, è più
trasparente partire da un'opinione iniziale (antecedente alla considerazione
degli indizi disponibili) che assegni uguale probabilità a colpevolezza C e
innocenza I:
Pr (C) = Pr (I) = 0.5
e ciò in base all’idea che a priori non v'è alcuna ragione per privilegiare l'una o
l'altra delle due possibilità. L'evidenza indiziaria E conduce ad aggiornare
tali probabilità iniziali, non perché esse fossero errate, ma perché siamo in
presenza d'uno stato d'informazione di cui prima non si disponeva.
Le probabilità finali prodotte dal Teorema di Bayes sono quindi:
Pr(I|E) = Pr(I)Pr(E|I)/ Pr(E) = 0.5 ●Pr(E|I)/Pr(E)
Pr(C|E) = Pr(C)Pr(E|C)/ Pr(E) = 0.5 ● Pr(E|C)/Pr(E)
E’ interessante anche notare che il teorema di Bayes, pur rendendo
possibile un’inferenza dagli effetti alle cause (cioè un’abduzione causale) nel
caso si disponga della probabilità dell’inferenza inversa, rende trasparente
una comune fallacia del ragionamento formale ma anche induttivo : la c.d.
“fallacia consequentis” o fallacia dell’affermare il conseguente. Per tornare all’
esempio del fiammifero, dalla legge che tutti i fiammiferi sfregati si
accendono possiamo inferire che se a è un fiammifero ed è sfregato molto
probabilmente si accende. Ma è illecito operare l’inferenza dal fatto che il
fiammifero a si è acceso alla conclusione che molto probabilmente è stato
sfregato. Idem per l’inferenza dal fatto che il fiammifero non è stato sfregato
cal fatto che probabilmente non si è acceso. Se vogliamo usare il simbolo >, che
poi useremo largamente in seguito, un conto è S > F , altro è F > S, e altro
ancora ¬S > ¬F.
Osserviamo ora questo ragionamento, che purtroppo si può sentire nelle
corti di giustizia:
“Se Rossi fosse colpevole, allora l’evento E sarebbe molto probabile; se Rossi
fosse innocente, allora E sarebbe molto improbabile; ma E si è verificato;
perciò è molto improbabile che Rossi sia innocente, quindi è molto probabile
che sia colpevole”. Lo schema del ragionamento è questo. Ammettendo –ma è
più che discutibile - di voler rappresentare il fatto che E si verificato come
Pr(E)=1, i passi sono
1)Pr(E|C) = 1- 
2) Pr(-E|-C) = 1- 
ergo
3)Pr(-C|E) = 
4)Pr(C|E)= 1- 
5)Pr (C) = 1 -
Come si può vedere il ragionamento poggia sulla illegittima transizione dalla
verosimiglianza Pr(E|C) alla credibilità Pr(C|E) (passo 4, equivalente al passo
3).
Nelle discussioni in ordine al caso Dreyfus ci si imbattè in una fallacia di
questo tipo. L’accusa sostenne che un certo documento trovato dal
controspionaggio francese in un cestino della carta straccia dell’ambasciata
tedesca, e scritto dallo stesso Dreyfus per sua ammissione, contenesse dei
messaggi in codice. Questo perché in quel documento le lettere dell’alfabeto
comparivano, apparentemente, con una frequenza diversa da quella con cui
comparirebbero nella prosa francese “normale”. Nel processo del 1894 il
celebre scienziato forense Alphonse Bertillon cercò di calcolare la probabilità
che quella particolare combinazione di lettere si fosse prodotta per caso,
vale a dire supponendo che Dreyfus fosse innocente e non avesse scritto
alcun messaggio cifrato. Poichè nei calcoli di Bertillon tale probabilità
(verosimiglianza)Pr(E|-C), risultò estremamente bassa, si concluse che era
anche estremamente bassa la probabilità che Dreyfus fosse innocente, cioè il
valore di credibilità o probabilità a posteriori Pr(-C|E). Nel secondo processo di
appello, nel 1904, una
memoria scritta da tre“saggi”, fra i quali Henri Poincaré, faceva giustizia di
questa fallacia (e dei calcoli di Bertillon), ed affermava il corretto
rapporto delle verosimiglianze per la valutazione della prova.
LEZIONE 4 Bayesiani e antibayesiani
Abbiamo visto che si può essere bayesiani oggettivisti e soggettivisti. In
comune tutti i bayesiani hanno la convizione che il teorema di Bayes sia l’unico
strumento per la resa delle inferenze ampliative, che certo costituiscono un
problema per chi considera l’inferenza logico-matematica il paradigma di ogni
tipo di ragionamento.
Ma nell’ambito dell’epistemologia si sono anche levate voci di dissenso.
Ricorderemo solo Jonathan Cohen e Clark Glymour (altri nomi: Tverski,
Kahnemann). Glymour in “Why I am not a Bayesian” sottolinea il divario tra
l’effettiva pratica scientifica e l’idealizzazione del ragionamento offerta dai
bayesiani. Diverso il caso della logica deduttiva, pur essendo questa pure basata
su un’idealizzazione. Pochi scienziati in effetti nella storia della scienza hanno
fatto ricorso a ragionamenti probabilistici e, quando sono ricorsi a questi,
comunque, lo hanno fatto partendo da assegnazioni di probabilità che non
erano arbitrarie. In effetti, dato che le assegnazioni a priori per i bayesiani
soggettivisti sono
arbitrarie, i soggettivisti devono essere pronti a giustificare i valori probabilistici
di ogni conclusione tratta con metodi bayesiani.
La risposta soggettivista alla difficoltà, come già sappiamo, è che i teoremi di
convergenza,e in particolare il teorema di De Finetti, assicuraziono
l’intersoggettività, per cui ciò che importa è la reiterazione della procedura di
revisione delle credenze.
Altre difficoltà comunque sono più nettamente tecniche.
(1) Supponiamo di considerare un dato dì evidenza già noto e assolutamente
certo, quindi tale che Pr(E)=1. Se Pr(E)=1, Pr(E|H)= Pr(E), ne segue, per il
teorema di Bayes, Pr(H|E) = Pr (H )● Pr (E|H)/ Pr (E) = Pr (H).
Quindi nel caso in cui si conosca con certezza l’evidenza E prima dell’ipotesi
l’evidenza E non conferma nulla. Questo è strano perché la “vecchia evidenza”
è sempre servita a confermare nuove teorie. Si pensi alla precessione del perielio
di Mercurio, che era già nota prima della relatività e che fu usata per confermare
la teoria della relatività.
Una risposta possibile è che la probabilità 1 si assegna solo alle verità
logiche e la probabilità 0 alle contraddizioni logiche. Se vedo una gallina blu
rivedo le mie credenze circa il mio stato fisico e magari scopro di essere sotto
l’azione di una droga, quindi non tratto questo dato come una
contraddizione logica. Ma purtroppo il problema si ripropone con il valore
della certezza pratica 1-, o con valori molto approssimati a 1.
2) Semplicità. Gli scienziati hanno sempre la propensione a scegliere le
ipotesi più semplici rispetto alle altre. Le ipotesi più semplici sono
intuitivamente più informative delle ipotesi meno semplici. Nessuna
applicazione del teorema di Bayes rende conto di questa ragionevole
preferenza per l’informatività delle ipotesi.
Si può pensare che il ragionamento in ambito giudiziario possa trascurare le
difficoltà in questione, che sono state evidenziate in ambito epistemologico. Ma
così non è, come è stato convincentemente provato da Jonathan Cohen. La
critica di Cohen al bayesianesimo è piu` radicale di quella di altri, in quanto
investe gli stessi assiomi di Kolmogorov e l’utilità del loro impiego in ambito
giudiziario. Cohen chiama "pascaliana" la trattazione classica della probabilità`,
a cui contrappone una sua diversa concezione, che chiama "neobaconiana".
Secondo Cohen le leggi del calcolo pascaliano applicate al diritto sono una
fonte di preoccupanti paradossi.
Basti pensare a questi tre esempi:
1) Dato che il valore massimo di probabilità è 1, come sappiamo, Pr(-A)= 1 - Pr
(A).
Ma ci sono casi in cui tanto A che -A ci paiono ambedue scarsamente credibili
prima dell’acquisizione di nuova informazione. In tali casi, se la probabilità è il
grado di credibilità allora la probabilità di A e quella di -A sono ambedue più
basse di 0.5. (Un esempio è il famoso delitto della penna a sfera).
Si noti, tra l’altro, che se il principio-guida nei processi civili è quello della
preponderanza della probabilità, l’applicazione rigida di questa combinazione
di principi porta a risultati che paiono contrari alle intuizioni etiche.
Se la probabilità che Tizio sia un evasore fiscale in una città in cui la
percentuale di evasori è del 51%, quella che sia un onesto contribuente è del
49%. In base al principio della preponderanza quindi dovrebbe essere
condannato, ma c’è un’alta probabilità che la condanna sia ingiusta.
Questo è un paradosso noto a volte come paradosso “dello spettatore
abusivo”. Un organizzatore di rodei ha venduto 499 biglietti, ma sugli spalti ci
sono 1000 spettatori. Quindi 501 sono entrati abusivamente. In base al principio
della
maggiore probabilità si potrebbe intentare causa contro uno spettatore qualsiasi
in base al fatto che la probabilità che sia un abusivo è superiore a quello che non
lo sia.
2) La probabilitàdi A  B è normalmente piu` bassa di quella di A e quella di B,
per il principio delle probabilità composte. Ma se due periti indipendentemente
danno un giudizio convergente - per esempio sulla natura di una certa sostanza
chimica - la probabilità che ambedue dicano la verità e superiore a quella che
ciascuno singolarmente dica la verita`, dato che la loro convergenza rafforza,
anzichè diminuire, tale probabilita`. Lo stesso grave problema riguarda le
testimonianze Supponiamo che ogni teste abbia la scelta tra due asserti, S e -S.
Se Pr(As) è 0.3, Pr(-As) è 0.7. Se due testimoni indipendenti poco credibili
convergono su S, la probabilita`che ambedue dicano il vero si abbassa per il
teorema delle probabilità composte (es. 0.3 ● 0.4=0.12) mentre dovrebbe
intuitivamente aumentare.
Mettere in dubbio il principio delle probabilità composte è esiziale per il
bayesianesimo, dato che il teorema di Bayes è derivato immediatamente da tale
principio.
(3) Le testimonianze di secondo grado - cioè le testimonianze su testimonianzesono intuitivamente più deboli di quelle dirette ai fini dell’ accertamento dei
fatti. Ma questo non è rappresentabile entro la probabilità pascaliana. In effetti
non esiste una logica per trattare le probabilità di ordine superiore. (Questo
fatto, incidentalmente, non è registrato da Cohen). Tutto ciò che si può dire è
che “se a dice la verità, b è un testimone credibile”,”Se b è credibile, allora
l’imputato ha commesso il fatto “ implicano per transitività
(iii) se a dice il vero, l’imputato ha commesso il fatto .
Ma per la logica deduttiva (iii) dovrebbe avere lo stesso grado di certezza di
(i) e (ii), mentre intuitivamente è più debole perché basato su due livelli di
testimonianze.
La giurisprudenza esige che ogni passo della catena sia vero oltre ogni
ragionevole dubbio, ma da un punto di vista matematico ciò non implica che si
debba accettare ogni verità ottenuta per inferenza. La transitività in effetti vale
se si intende che =0 in una ricostruzione probabilistica.
Cohen inoltre osserva che alcuni giudizi probabilistici sono controfattuali,
altri no. Volendo identificare le probabilità con le frequenze, un conto infatti
sono le frequenze in una classe chiusa (p.es. gli attuali ospiti dell’Hotel
Excelsior, di cui possiamo dire il 30% sono italiani, per cui la probabilità che uno
degli ospiti sia italiano è del 30%), altre le frequenze virtuali in una classe
aperta. Anche trattandole come limiti di frequenze, è difficile dire quali
dovrebbero essere questi limiti quando le proprietà da esaminare dipendono da
condizionali controfattuali: p.es. la probabilità di Tizio di morire in un incidente
se fosse un paracadutista.
Cohen insiste baconianamente sul fatto che la varietà del campione è tanto
importante come la numerosità dello stesso. Questo è un requisito che i
freqeuntisti tendono a sottovalutare. Un campione variato è un
campione che si presume non sia sbilanciato (tarato o biased) a favore di qualche
ipotesi. Keynes ha seguito Bacone introducendo il principio della “varietà
limitata indipendente”. Ciò presuppone - detto in maniera semplificata - che c’è
un numero finito e fisso di generi o specie naturali a cui i predicati
appartengono e all’interno dei quali hanno delle connessioni stabili.
Un caso nuovo osservato non ha nessun valore a meno che non mostri una
combinazione di caratteristiche nuove (variate) rispetto ad altri osservati. (Tale
sarebbe per esempio un orso bianco rispetto a un campione di orsi bruni). La
persistenza di questi gruppi di caratteristiche dipende dall’ Uniformità della
Natura: si tratta dell’idea che la collocazione spazio-temporale dei fenomeni non
ha nessuna rilevanza per le altre proprietà stabili dei fenomeni stessi (altrimenti
detto, le proprietà stabili riscontrate nei fenomeni sono spazio-temporalmente
invarianti).
Cohen ha avuto il merito di evidenziare che le intuizioni psicologiche circa le
probabilità non concordano con le procedure matematiche. Questa divergenza
vale anche per il teorema di Bayes.Abbiamo già visto che per applicare il
teorema di Bayes occorre fornire un input costituito dalle probabilità a priori,e
qui nei tribunali sorgono dei problemi. Il bayesiano soggettivista avrà buon
gioco a dire che ciascuno puo` assegnare il valore che gli pare. Ma il problema è
che nei tribunali la giuria deve raggiungere , se non l`unanimita`, almeno un
ragionevole consenso. L`oggettivista insisterà sul fatto che 1) ci vogliono delle
convenzioni per fissare le probabilità a priori (per esempio 1/2 in caso di
incertezza) e 2) altri valori che entrano nella formula di Bayes dovrebbero essere
derivate da fonti inoppugnabili (statistiche mediche). Anche in questo caso però
sorgono dei problemi.
Il modo intuitivo in cui il teorema viene applicato dagli utenti in effetti non
è quello auspicato dai bayesiani.
Torniamo alla regola di Bayes nella forma più articolata:
Pr (H|E  K)
Pr H
Pr(E  K |H)
------------------- = ----------- • ---------------------Pr(-H | E  K) Pr -H
Pr(E  K |-H)
che connette la probabilità a posteriori (credibilità) con il rapporto a priori e il
valore probatorio.
Come è chiaro, esso descrive la valutazione a priori della probabilità che
l’ipotesi sia vera rapportata a quella che sia falsa. La probabilità a posteriori di H
rispetto a una certa evidenza quindi equivale al prodotto del rapporto a priori
di H e del valore probatorio dell’evidenza.
Ora anche se V (il valore probatorio) è alto, se il rapporto a priori è basso, la
probabilità Pr(H|E) resta bassa. Orbene, nella “versione psicologica” della
regola di Bayes, il rapporto a priori praticamente viene ignorato. Un esempio è il
seguente (cito da un articolo di P.Cherubini)
In una città ci sono due compagnie di taxi, i blu e i verdi. L’85% dei taxi circolanti sono
blu, il 15% verdi. Una notte un taxi è coinvolto in un incidente, e fugge. Un testimone
asserisce che si trattava di un taxi verde. Una prova di acuità visiva dimostra che con
quella luminosità e a quella distanza, il testimone è in grado di riconoscere
correttamente quei toni di blu e verde nell’80% dei casi. Qual è la probabilità che il taxi
visto dal testimone fosse effettivamente verde?
La risposta corretta è 41%. Infatti applicando la formula di Bayes due volte
abbiamo,se O è la ragione di scommessa:
O(taxi verde | testimonianza) = Pr( taxi verde|testimonianza / taxi
blu|testimonianza) = 0,15/0,85 • 0,8/0,2 = 0,71
quindi per la relazione già stabilita per cui Pr(Q) = O (Q)/ O (Q) + 1, si ha che
Pr(taxi verde | testimonianza) = 0,71/1,71 = 0,41
La probabilità che il taxi fosse effettivamente verde quindi è piuttosto bassa.
Ma molte persone rispondono “80%”: usano la forza dell’evidenza testimoniale,
ma non la modificano in base alla probabilità che il taxi fosse verde a priori
(15%). Altre aggiustano un poco la loro stima: i taxi verdi sono rari, e a questi
soggetti sembra allora ragionevole concludere che la probabilità che il taxi fosse
verde è un po’ più bassa rispetto all’acuità visiva del teste (con risposte tra il
60% e l’80%).
Quindi la maggior parte ritiene che sia più probabile che il taxi sia verde,
mentre secondo una corretta applicazione del teorema è più probabile che sia
blu.
La tendenza a ignorare le probabilità a priori è stata molto discussa in
giurisprudenza, tanto da meritarsi un nome specifico: “fallacia dell’accusatore”
(Thompson e Schumann, 1987). È stata però discussa quasi esclusivamente in
relazione al test del DNA. La maggior parte dei testi di statistica Bayesiana
applicata al diritto dedica ampio spazio a questo test. Quando fu introdotto,
alcuni esperti asserirono che il test del DNA non poteva generare falsi positivi,
ma ormai da più di vent’anni è noto che non solo li può produrre, ma li ha
prodotti (Thompson, 1997), tanto che il risultato del test deve essere
accompagnato in aula dalla stima della “probabilità di corrispondenza nella
popolazione” (la probabilità che a priori una persona presa a caso nella
popolazione di riferimento abbia un profilo DNA che coincide con quello del
test). Il test può essere usato in due modi diversi, a seconda che ci sia già un
sospettato oppure no.
(1) quando già esiste un sospettato, si può confrontare il
profilo DNA del campione trovato sulla scena del crimine con quello del
sospettato. Un’eventuale corrispondenza aumenta di molto le probabilità di
colpevolezza del sospettato, perché il valore probatorio del test del DNA, pur
variando da situazione a situazione e in base al tipo di profilo DNA usato, è
spesso molto alto, e la probabilità a priori di colpevolezza non è irrisoria
(assumendo che gli indizi che hanno reso “sospetto” il sospettato siano fondati).
Ad esempio, data una “probabilità di corrispondenza nella popolazione”, cioè
Pr(corrispondenza | non colpevole), pari a 1 su 1.000.000
se si assume, a titolo d’esempio, Pr(corrispondenza | colpevole) = 1, il
valore probatorio del test (rapporto di Bayes) ha valore 1.000.000.
Se un indagato ha probabilità di colpevolezza a priori di 0.001 (1 su 1000), la
corrispondenza del profilo incrementa la sua probabilità di colpevolezza fino a
circa 0,999.
(2) Il secondo modo di usare il test consiste nel confrontare il profilo DNA del
campione con una banca dati. In questo caso, una corrispondenza del profilo
DNA rende “sospetta” una persona che prima non era stata messa in relazione
con il crimine.
Questo secondo modo di usare il test suscita vari problemi filosofici e
statistici. Infatti, a causa della fallacia delle probabilità a priori, giudici, giurati e
accusatori, informati da un perito sulla scarsissima probabilità di
corrispondenza nella popolazione, tendono ad usare questo valore senza
aggiustarlo in base alla probabilità a priori della colpevolezza.. Per esempio, se la
probabilità di corrispondenza nella popolazione per un dato profilo è 1 su
1.000.000, e Tizio corrisponde a quel profilo, ritengono che la probabilità che
Tizio sia colpevole sia di circa 1 su 1.000.000.
Ciò è errato. Infatti, quando il sospetto è identificato esclusivamente in base
ad una ricerca in un database di profili DNA, le sue chances di colpevolezza a
priori sono irrisorie. Ad esempio, in un territorio con 10.000.000 di abitanti
fisicamente in grado di perpetrare un certo crimine, la probabilità di
colpevolezza a priori di ciascuno di loro, incluso il cittadino che corrisponde al
profilo, è 1 su 10.000.000. In queste circostanze, la probabilità a posteriori di
colpevolezza, lungi dall’essere la “quasi certezza”, è inferiore al 10%.
Fortunatamente molti approfonditi trattati di statistica forense hanno
affrontato questo problema, diffondendo una certa consapevolezza sulla
fallibilità del teste sulle insidie nascoste in una sua lettura semplicistica, ma
alcuni giustamente chiedono che, oltre alla probabilità di corrispondenza nella
popolazione, l’esito del test sia sempre accompagnato in aula da una stima del
rapporto di probabilità a priori (ad es., Meester e Sjerps, 2004).
Nei paesi di lingua inglese si è discusso dettagliatamente sull'utilità del
teorema di Bayes applicato in certi problemi di identificazione. Un tale, accusato
di omicidio, era gia`a noto per vessazioni e violenze nei contronti della vittima.
C’erano sue impronte sull`arma del delitto.
L`impronta era incompleta, ma l`esperto assicurò che solo una persona su
1000 aveva quel tipo di impronta.
Ora valutiamo 0 la probabilità a priori di trovare un’impronta del genere di
qualche x , se xè innocente. Si assume inoltre che tutti coloro che usano il coltello
lasciano un’impronta. I precedenti penali del sospettato elevano la probabilità di
colpevolezza di un valore pari a 0.25. Se la probabilità iniziale di colpevolezza,
per la convenzione suggerita dall’indifferenza, era stata valutata 0.5, il nuovo
valore è completamente diverso: 0.999.
Ma i dubbi sono in agguato. Si sa di un poliziotto che aveva piazzato le
impronte di un innocente sullo sportello di una banca, quindi non è vero che la
probabilità che un innocente lasci un impronta è pari a 0.
Il Prof. L.H.Tribe nel corso delle discussioni su questo tema si disse contrario
all`idea di insegnare il teorema di Bayes ai giurati, perché diceva che il
concentrarsi sul raggiungimento delle soglie di certezza “oltre ogni ragionevole
dubbio” faceva perdere di vista tutti gli elementi imponderabili che invece
erano rilevanti.
Inoltre Tribe richiamava l`attenzione sul fatto, più volte
sottolineato in precedenza, che la difficoltà di pervenire ad una stima adeguata
delle probabilità iniziali rende spesso inapplicabile il teorema di Bayes.
LEZIONE 5 –Alternative al bayesianesimo giudiziario
Il bayesianesimo è diventato l’ortodossia nella letteratura giudiziaria, ma non
ha lasciato un segno tangibile nella pratica. Il successo di questo orientamento è
dovuto all’affermarsi della convinzione che la conoscenza vada di pari passo
con la possibilità di misurare quantitativamente i fenomeni, e che le credenze
siano assoggettabili a misure quantitative.
Una prima difficoltà, come abbiamo visto, è che la gente non tende a ragionare
nel modo richiesto dal teorema. Questo naturalmente non significa che lo
schema bayesiano è errato ma che, evidentemente, il ragionamento intuitivo
tende ad essere fallace. Se è così però bisogna pensare a rieducarlo, il che non è
facile. Dobbiamo sottoporre le giurie a corsi accelerati di calcolo delle
probabilità con esercizi? Il teorema di Bayes in effetti offre un modello ideale di
ragionamento, così come la logica deduttiva formalizzata, e quindi propone solo
un modello normativo.
Il problema dell’input per l’applicazione del calcolo, cioè delle assegnazioni a
priori, è quello indicato concordemente come la difficoltà maggiore. Abbiamo
già visto che , in caso di in certezza, nonostante la presunzione di innocenza, si
potrebbe porre il valore della colpevolezza pari a ½. Ma si potrebbe anche
risolvere il problema con una convenzione come quella proposta dal celebre
antropologo-fiolosofo David Lempert. Lempert suggerisce che in tutti i casi,
civili e penali, la probabilità iniziale dell’ipotesi di colpevolezza H sia stabilita
da un quoziente 1/n , dove n è il numero di possibili colpevoli nel mondo per
quel reato. P.es. supponiamo che il numero di possibili colpevoli al mondo per
un certo specifico reato sia 1000. Allora la probabilità iniziale (a priori) di
colpevolezza non è 0.5 ma 1/1000 (1: 999). Le informazioni successive
restringono il numero dei possibili attori. Ecco dunque come può funzionare
una macchina bayesiana.
Prima abbiamo il valore probatorio V
dell’evidenza E che, come si
ricorderà,
è dato da Pr E|H / Pr E| -H
Poi alla luce di successivi elementi di informazione F,H, ecc. avremo
Pr (E  F)|H / Pr (E  F)| -H
Pr (E  F G)|H / Pr (E  F G) | -H
.......
Il valore probatorio dell’evidenza quindi si modifica con l’aumento
dell’informazione, e consequenzialmente si modifica, applicando il teorema di
Bayes, la probabilità a posteriori di H data l’evidenza. Per esempio, se sappiamo
che il colpevole aveva una macchina rossa, il numero dei possibili colpevoli si
restringe da 1000 proporzionalmente, e il valore di Pr H condizionato alla nuova
evidenza varia di conseguenza.
Questo è ragionevole, ma è applicabile solo se H è un’ipotesi di colpevolezza
i cui colpevoli costituiscono un dominio misurabile. Se,per esempio, H è l’ipotesi
che un certo delitto sia stato compiuto da un animale, questa probabilità a priori
non può essere calcolata perché non sappiamo quanti animali avrebbero potuto
compierlo. In caso di ignoranza, potremmo fissare questo valore come uguale
allo stesso valore che si dà nel caso degli uomini. Ma questo ci porta già a una
difficoltà perché noi sappiamo anche che i delitti compiuto da animali sono
molto più infrequenti di quelli compiuti da uomini.
Ma di fatto il ragionamento probatorio presenta aspetti che non sono
facilmente inquadrabili nello schema bayesiano. Abbiamo già accennato alle
difficoltà delle testimonianze su testimonianze. Un testimone t dice che il
testimone t’ ha detto E. Se la probabilità diretta di E è x, la probabilità di E alla
luce della testimonianza di secondo grado è x-, cioè è più bassa di x.. Ma il
teorema di Bayes non offre risorse per rappresentare q uesto passaggio.
Il problema da discutere è il seguente.: ci sono alternative praticabili al
bayesianesimo? Nel campo giudiziario si possono citano le proposte di tre
studiosi, Cohen, Shackle e Shafer, che si presentano interessanti perchè hanno
parecchi punti in comune.
Sulla base delle critiche già avanzate Cohen ha elaborato una logica del
sostegno induttivo in cui non valgono i principi della probabilità pascaliana .
Non è stato l’unico ad abbandonare questa logica. La logica della sorpresa
potenziale di Shackle, per esempio, adotta una regola non moltiplicativa per la
congiunzione che è isomorfa a quella adottata da Cohen, ed è condivisa anche
dalla logica dell’accettabilità di Isaac Levi ( si rifletta al proposito sul “paradosso
della lotteria esposto a p.000).
L`alternativa neobaconiana di Cohen non puo` essere illustrata qui nei
dettagli. Basti dire che per Bacone l`inferenza ampliativa non fa leva sull’
induzione per enumerazione semplice (che Bacone trova puerile) ma sulla
ricerca di campioni variati. Dato che per lui esiste solo un numero finito di
forme (generi) un controesempio è molto piu` utile alla ricerca che non
l’accumulazione di molteplici esempi a favore: la cosiddetta induzione
eliminatoria consiste nel rafforzare un’ ipotesi eliminando tutte le ipotesi
alternative. E’ sufficiente ricordare che la presunta legge di natura per cui tutti i
cigni sono bianchi venne rimossa quando si scoprì che in Australia esisteva una
tribù di cigni neri. Questo aspetto del suo pensiero metodologico fa di Bacone
un Popperiano ante litteram. Le generalizzazioni hanno dei gradi di certezza
diversi, a seconda della solidità del ragionamento con cui vengono raggiunte.
Mill riprese questa idea con i c.d. “metodi induttivi”, che non sono metodi per
la
scoperta delle cause, ma metodi per provare l’esistenza di relazioni causali.
Come Bacone, Mill insisteva sull’importanza della varietà degli esperimenti,
mentre altri filosofi precarnapiani come B. Bolzano insistevano sulla numerosità
degli stessi. Mill comunque ammetteva che nell’applicazione dei canoni
induttivi si dava sempre un certo margine di incertezza, che egli però
proponeva di calcolare come probabilità pascaliana.
Cohen sostiene che c’è una nozione di forza probatoria -il concetto di “peso” di
Keynes - che va aggiunto come correttivo all’apparato pascaliano . Il requisito
carnapiano dell’evidenza totale, il requisito della specificità massimale di
Hempel a suo giudizio sono sacrosanti in linea di principio, ma di fatto
inapplicabili. L’idea di Keynes è che bisogna tener conto non solo della
differenza tra conferme positive e negative per un’ ipotesi H (e questa dà la
misura della probabilità), ma anche del volume complessivo dell’evidenza, che è
il peso. Per fare un esempio, l’aver estratto 20 biglie rosse e 80 verdi, quindi in
totale 100 biglie, consente di dire che la probabilità di estrarre una biglia rossa è
di ¼. La stessa conclusione si deriva estraendo 200 biglie rosse e 800 verdi, ma il
peso complessivo di questa somma di evidenze favorevoli e conrarie è
ovviamente superiore. Secondo Keynes il “peso” non è quantificabile, anche se
può darsi un ordinamento comparativo di pesi. Peso e probabilità quindi sono
concetti relativamente indipendenti.
Secondo Cohen uno dei limiti dell’approccio bayesiano è proprio la mancata
attenzione alla esaustività delle conferme. Applicando il teorema di Bayes si può
arrivare ad un valore molto alto, o molto basso, di probabilità anche dopo aver
considerato solo una o poche conferme: ma l’aver considerato poche conferme
implica che molte altre ne possono esistere, magari al momento irreperibili, in
grado di ribaltare il giudizio. Se allo stesso giudizio invece si arriva dopo aver
esaminato molte e variate conferme (per quanto non sia mai possibile ritenere
che l’analisi sia esaustiva), il giudizio è meno esposto al rischio di variabilità, e
quindi più solido.
Per sviluppare la sua analisi Cohen deve però rinunciare al concetto classico,
da lui detto “pascaliano” di probabilità, ed introdurre il concetto di probabilità
“baconiana”. Il metodo baconiano è basato, come già detto, sull’ induzione
eliminatoria: un asserto è considerato tanto più probabile quante più ipotesi
alternative ad esso sono state considerate e poi eliminate per falisificazione.
Come vedremo, questo è il tipico schema di procedimento abduttivo. Se non
abbiamo considerato e falsificato nessuna ipotesi alternativa, la probabilità
baconiana è minima (0): ciò implica, per esempio, che per la presunzione di
innocenza la probabilità di colpevolezza è posta uguale a 0. Ma a differenza che
nel sistema pascaliano, tale probabilità può crescere con l’accumularsi delle
conferme, cioè eliminando le ipotesi alternative. In tal modo, tenendo conto
dell’ammontare di evidenza favorevole, Cohen intende avvicinarsi alla nozione
keynesiana di “peso”. Il concetto chiave in questa operazione è quello di
legisimilitudine, con ciò intendendo l’approssimazione allo status di necessità che
è proprio delle leggi. Secondo Cohen il peso keynesiano di Pr(H|E), se
Pr(H|E)=n, dovrebbe risultare uguale alla legisimilitudine baconiana di E –>
(Pr(H)=n), dove la freccia sta per la relazione implicativa.
Glenn Shafer (A Mathematical Theory of Evidence, 1976) si pone pure sulla linea
antipascaliana chiedendo la rinuncia al principio delle probabilità totali, da cui
segue, come sappiamo, che Pr(-A)= 1-Pr(A). Il suo sistema cerca di catturare la
“sospensione del giudizio”. Se abbiamo pochi elementi per ritenere vera
l’ipotesi H, possiamo attribuire ad H una probabilità bassa, adesempio 0.1: ma
nel sistema di Shafer questo non significa attribuire probabilità 0.9 a -H. Anche a
-H possiamo attribuire probabilità bassa, ad esempio sempre 0,1, in quanto
possiamo avere tanto pochi elementi per ritenere che -H sia vera quanto pochi
ne avevamo per ritenere che H fosse vera. La restante probabilità, 0,8 nel nostro
esempio, quantifica la propensione a non impegnarsi né su H né su -H,
permanendo nel dubbio sulla stessa disgiunzione “H o non H”. La legge del
terzo escluso sembra quindi messa in discussione in chiave probabilistica. Di
fatto, tuttavia, la situazione che si presenta è spesso un’altra. Se H è
un’alternativa con bassa probabilità, ciò che risulta con bassa probabilità di
solito non è la negazione di H. cioè non-H, ma un’altra alternativa H’ che appare
, allo stato dei fatti, l’unica alternativa ad H. E’ questo quanto accadde nel
famoso delitto della penna a sfera, in cui le uniche due alternative ragionevoli
sembravano avere bassa probabilità a priori. Ma non esaurivano la campo logico
delle alternative possibili. C’era quindi un terzo evento sconosciuto B tale che
Pr(H U H’ U B)=1. Le informazioni acquisite in seguito poi furono tali da
falsificare H e avvalorare H’, abbassando significativamente il valore del terzo
incognito B.
Dal punto di vista tecnico la costruzione neobaconiana di Cohen si può
considerare derivata da una teoria molto originale introdotta dell’economista
R.S. Shackle. Shackle chiama la sua metrica sistema di misura dei “gradi di
sorpresa potenziale” o “gradi di disbelief” (cioè di sfiducia”) .
Dice Shackle: il grado di sorpresa potenziale “is the degree of surprise to
which we expose ourselves, when we examine an imagined happening as to its
possibility, in general or in the prevailing circumstances, and assess the obstacles,
tensions and difficulties which arise in our minds when we try to imagine it
occurring, that provides the indicator of degree of possibility. This is the
surprise we should feel, if the given thing did happen; it is potential surprise”.
(Shackle, 1961, p. 68)
Per capire la differenza tra questa nozione e quella di grado di credenza o
grado di probabilità, basta notare che, se B è il grado di sorpresa, tale grado
non si distribuisce su una congiunzione di ipotesi. Il grado di sfiducia
(sorpresa), per esempio, nel fatto che domani piova e che domani un cinese
passeggi sulla luna, intuitivamente è pari o superiore al grado di sfiducia
(sorpresa) che un cinese domani cammini sulla luna, e questo chiaramente è il
grado di sfiducia (sorpresa) maggiore tra i gradi di sorpresa associati alle due
ipotesi. Se il grado di sopresa fosse identico al grado di probabilità, il principio
delle probabilità composte ci obbligherebbe a dire che il grado di sopresa delle
congiunzione è uguale o minore al grado di sorpresa dei singoli asserti.
Shafer ha avuto il merito di operare la formalizzazione delle idee esposte
informalmente da Shackle , che poi ha applicato anche a sistemi esperti. La
logica di Shafer viene chiamata “teoria della possibilità”(v.Appendice a questo
capitolo)
C’è un aspetto interessante della concezione di Shackle – Shaker, non
analizzato da Cohen . Secondo Shackle credere in h ad un certo grado significa
avere sfiducia in ¬h allo stesso grado. Sia dK il grado di sorpresa potenziale di h
rispetto a K. Allora intuitivamente dK indica il grado di sfiducia, di non
credenza, di informatività di h. La credenza, rappresentata dall’operatore di
credenza (belief) b è il complemento di d (disbelief)
bK(h) = dK (¬h)
Il grado di sorpresa quindi è un’ interessante misura dell’informatività di un
enunciato. Va detto che Popper ha svolto, con obiettivi radicati nella sua teoria,
un programma che ha certe analogie con quello di Shackle-Cohen. Come si sa,
secondo Popper le teorie interessanti sono quelle falsificabili. Il numero di
falsificatori potenziali di h è per lui il contenuto informativo dell’ipotesi stessa h.
La probabilità e il contenuto informativo sono grandezze inversamente
proporzionali: nella proposta più semplice
cont(h) = 1- Pr(h).
Le tautologie sono prive di contenuto informativo, mentre le contraddizione
sono massimamente informative, dato che implicano tutto. Se c’è un numero di
ipotesi esaustive e digiunte h1…hn, il metodo popperiano ci impone di
scegliere la più informativa h e tentare di falsificarla. Popper ha proposto delle
misure di corroborazione, che è il grado di resistenza dell’ipotesi alla
falsificazione. Più alta è la corroborazione, più l’ipotesi merita altri test. Altri
autori come Levi e Hintikka invece chiedono la massimizzazione dell’utilità
epistemica, che dipende dal prodotto della probabilità per il contenuto
informativo. La grandezza così definita ha proprietà intermedie tra quelle della
probabilità e dell’improbabilità e la logica di questa nozione presenta forti
affinità con quella di Shackle .
APPENDICE . Per semplicità si assuma che l’universo del discorso W sia un insieme finito e
che tutti i suoi sottoinsiemi siano misurabili. Un evento si può trattare come un
insieme –cioè l’insieme dei punti dello spazio-tempo in cui si verifica. Una
distribuzione di possibilità è una funzione pos da W all’intervallo reale [0, 1]
tale che:
Axiom 1: pos( )=0
Axiom 2: pos (W=)=1
Axiom 3: pos(U  ) = max(pos(U),pos()) per sottoinsiemi disgiunti U e V.
Si noti la differenza tra l’assioma 3 e il principio delle probabilità totali nella
teoria della probabilità. Supponiamo che U sia l’evento “estrazione di una
donna”e V “estrazione di un re di picche”. I due eventi sono disgiunti, la
probabilità di U è 1/13 , quella di V è 1/52, quindi la probabilità di uno o l’altro
dei due è 5/52. Ma per la teoria di della possibilità, il grado di possibilità è
fissato a 1/13, cioè dal grado di possibilità più alto tra i due eventi.
La possibilità si dice dunque composizionale rispetto all’operatore di unione
insiemistica. Ma non è tale rispetto all’operatore di intersezione. In generale,
infatti,
pos(U  V ) < min(pos(U), pos(V))
Come nella cosiddetta logica modale, la necessità è il duale della possibilità.
Esempio: “È necessario che 2+2+=4 sia vero” è lo stesso di ”È impossibile che
2+2 =4 sia falso”. Rappresentiamo in simboli il grado di necessità così:
nec(U) = 1 –pos(-U) > 1
Contrariamente alla teoria della probabilità, per ogni evento U , abbiamo la
diseguagliaza: pos(U) + pos(-U) > 1
Vale inoltre la seguente disgiunzione
Per qualsiasi evento U, o pos(U)=1 , o nec(U) =0
Ci sono 4 casi:
nec(U) =1 significa che U è necessaria, cioè certamente vera. Essa implica pos(U)=1
pos(U)=0 significa che U is impossibile, cioè certamente falsa. Ciò implica nec(U) =0
. pos(U)=1 significa che U è possibile, cioè che non sarei affatto sorpreso
dell’occorrenza di U . nec(U) viene lasciato impregiudicato
nec(U) =0 significa che U è non-necessario (contingente) cioè che non sarei
affatto sorpreso del mancato verificarsi di U . pos(U) viene lasciato
impregiudicato.
La congiunzione di nec(U) =0 e . pos(U)=1 significa che U è possibile, cioè che non sarei affatto
sorpreso dell’occorrenza corrisponde alla contingenza in senso proprio, col significato che io non
credo niente circa U. Stante che consente l’indeterminatezza in questo modo, la teoria della
possibilità è più vicina alla logica polivalente o alla logica intuizionista piuttosto che alla logica
classica bivalente.
Si può dimostrare in questo sistema:
per ogni U, nec(U) < pos(U)
e anche :
nec(U  V) = min (nec(U), nec(V)
Recentemente il successo teoretico e applicativo della cosiddetta fuzzy logic
suggerisce di ricercare in quest’area strumenti utili al ragionamento
probatorio. Per cominciare è bene sottolineare, comunque, le differenze con la
teoria della possibilità.
Teoria della possibilità: La bottiglia è tutta piena o tutta vuota. “La possibilità che
la bottiglia sia piena è 0.5” descrive un grado di credenza e si fa interpretare
così: sono pronto a scommettere che è vuota nella misura in cui le ragioni di
scommessa pro e contro (odds) sono uguali (scommetto 1 contro 1), ma non
scommetterei mai che è piena.
Fuzzy logic: Dire che “la bottiglia è piena” ha un livello di verità 0.5 indica che la
bottiglia è, come dato reale, mezza piena!! La parola “piena” è un predicato
sfumato con cui si descrive la quantità di liquido nella bottiglia.
La fuzzy logic si appoggia su una fuzzy set theory , cioè su una teoria degli
insiemi sfumati, il che fa pensare che da queste premesse si ottenga solo
un fuzzy reasoning, quindi una classe di argomenti che non possiede canoni di
validità precisi. Questo sembra molto lontano di quanto ci si attende nelle corti
di giustizia.
Si noti che della teoria della possibilità si può dare una trascrizione
proposizionale in questo modo:
◊i(p q) invece di Pos (P Q) =i
◊i(p v q) invece di Pos (P Q) =i
□i ( p q) invece di Nec(P Q) =i
□i(p v q) invece di Nec (P Q) =i
Questa notazione è usata da Cohen in “The probable and the Provable” e in altri
saggi. I gradi di necessità vanno letti nella sua teoria in questo modo: ◊ip si
legge “p ha almeno un grado i-esimo di legisimilitudine”.
In questa logica ◊i p e ◊jq implica «i(p q) quando i < j : questo è un principio
non-pascaliano, e risolve secondo Cohen le difficoltà della trattazione pascaliana
della congiunzione, cioè del problema delle probabilità composte, a cui
abbiamo accennato a suo tempo.
LEZIONE 6. Fallacie statistiche.
Le considerazioni sviluppate nei paragrafi precedenti non devono indurre a
minimizzare l’importanza del ragionamento probabilistico nelle procedure
giudiziare. Negli ultimi anni, infatti, proprio nei tribunali, c’è stato un uso
crescente delle prove statistiche. Tests come quelli del DNA, per tacere di quelli
già noti delle impronte digitali, dell’ identificazione di appartenenza di tessuti
organici ecc. sono soggetti ad argomentazioni di tipo statistico.
I bayesiani dicono che siamo sempre in grado di calcolare la probabilità della
conclusione.
Ma quando si esemplifica l’applicazione del teorema di Bayes
per calcolare la probabilità di un’ipotesi H rispetto a un’evidenza E , di solito si
tende a pensare ad H come un enunciato di tipo fattuale (p.es. “l’imputato ha
commesso il fatto”) oppure a un enunciato quantificato in forma universale o
esistenziale (“tutti gli elementi della banda hanno commesso il fatto”,o “qualche
elemento della banda ha commesso il fatto”). Ma che dire quando H è un
enunciato di forma statistica (“il 70% dei cigni sono bianchi”) o descrive una
relazione causale (“i vapori nocivi hanno causato il decesso del Sig. Rossi”) ? In
tal caso il teorema di Bayes dovrebbe consentire di calcolare Pr(H) , dove H però
è a sua volta un enunciato statistico o (nel caso causale) è un asserto che è in
qualche modo dipende da leggi di forma statistica.
In primo luogo sembra che nessun campo offre una maggiore possibilità di
errore, e quindi di manipolazione, di quello statistico. Basta dare una scorsa a
due libri apparsi in epiche diverse ma con titoli analoghi : “Mentire con le
statistiche” di Darrell Huff e „Wie man lügt mit Statistik“. [Come si mente con la
statistica] di Walter Krämer: Piper. München-Zürich: 2000. pp.1-206.
I due libri sembrano ispirarsi a una frase famosa di Mark Twain attribuita
anche a Disraeli: “Esistono tre tipi di bugie: le bugie, le maledette bugie e le
statistiche”. Questo tra l’altro prova l’interesse giudiziario per l’argomento, in
quanto l’inganno operato con le statistiche risulta un tipo particolare di frode
che è estremamente difficile smascherare. In questi casi infatti ciò il giudice
mira a stabilire per sanzionare la frode non è un evento più o meno certo ma
una coppia di fatti: (i) il fatto che un dato ragionamento è viziato (ii) il fatto che
questo vizio di ragionamento è risultato di un’ azione intenzionale.
Tutti sanno che i sondaggi di opinione hanno un ruolo importante nelle
campagne elettorali non tanto per tastare il polso agli elettori ma per influenzare
l’elettorato stesso. La causa dell’inganno è abbastanza chiara: ai questionari e ai
sondaggi risponde solo chi vuole, con il che si deroga al requisito della
randomizzazione del campione. Anche il sondaggio telefonico - che appare più
coercitivo e quindi in apparenza più attendibile- ha creato clamorosi errrori
previsionali. Gli stessi exit polls, che nelle intenzioni avrebbero dovuto anticipare
le proiezioni elettorali, hanno prodotto risultati inattendibili, al punto che sono
stati aboliti nelle ultime tornate elettorali.
Altri errori derivano dalla vaghezza dei concetti impiegati nei confronti
statistici. Per esempio, il concetto di disoccupazione è diverso da paese a paese,
per cui le statistiche sulla disoccupazione fatte in Germania danno risultati
diversi da quelli italiani senza che ciò implichi una significativa differenza nella
realtà dell’occupazione. Idem per le nozioni di ricchezza e povertà, per le quali
si stabiliscono soglie diverse da paese a paese. La soglia della povertà in Italia è
fissata convenzionalmente in una spesa mensile pari a 582,20 euro per un
single, 970,34 euro per una famiglia di due persone e 1581,65 euro per una
famiglia di quattro persone. Nel 2007 risultavano al di sotto di tale soglia 6
milioni di persone, che è sicuramente un dato preoccupante. Nonostante questo,
una capacità di spesa di 582 euro verrebbe considerata degna di un benestante
nella maggior parte dei paesi africani, asiatici e sudamericani.
Non vale neppure la pena di parlare delle inchieste sulla vita privata o
sessuale della popolazione. In questi sondaggi non solo risponde solo chi
vuole, ma risponde anche chi è in cerca di qualche occasione per vantarsi delle
proprie performances, per sfogare le proprie frustrazioni con la mitomania, o
semplicemente per il piacere di beffare l’intervistatore. Basti al proposito
l'esempio del
famoso rapporto Kinsey sul comportamento sessuale degli
americani che, com'
è noto, fece scalpore dando un'immagine dei comportamenti sessuali americani
diversa da quella immaginata dai benpensanti. Al proposito basti osservare due
cose : (1) che, non essendo obbligatorio per gli intervistati rispondere al
sondaggio, il fatto stesso di scegliere di rispondere piuttosto che di non
rispondere potrebbe dipendere da qualche atteggiamento verso la sessualità
che non è quello della media dei soggetti (2) per semplificare il lavoro i Kinsey
inclusero nella classe dei soggetti intervistati un numero piuttosto elevato di
carcerati, i cui comportamenti sessuali erano spesso più trasgressivi di quelli
praticati dalla media degli americani. Questi due fattori evidentemente non
permettono di dire che in questa indagine veniva soddisfatto il requisito dell’
omogeneità della classe di riferimento , che si cerca di raggiungere con la
randomizzazione.
Lo stesso discorso vale per qualsiasi tema su cui gli intervistati hanno qualche
motivo di vergognarsi delle inclinazioni che sono chiamati a manifestare.
Quando, per esempio, si fanno dei sondaggi per stabilire la proporzione tra
quanti amano la musica classica piuttosto che il rock, la risposta risulta
lusinghiera per i musicisti di musica classica, ma è purtroppo incompatibile con
quanto risulta dal consumo di dischi e di partiture di rock, rapportato al
consumo di dischi e partiture di musica classica. Incidentalmente, questi
sondaggi non tengono conto dal fatto che c’è una quota consistente di persone
che detestano la musica in qualsiasi forma, anche se tali soggetti nei
soondaggi tendono mascherare la loro antimusicalità.
Naturalmente, come già sappiamo, il problema è trovare un campione che sia
rappresentativo dell’universo, e si ritiene che questo si ottenga con un
campione ampio e randomizzato. Ma è difficile soddisfare simultaneamente
questa coppia di requisiti con i metodi usati dai sondaggisti.. In un paese poco
sviluppato, per esempio, il metodo
del sondaggio telefonico esclude chi non possiede un telefono, il che significa
escludere una parte rilevante della popolazione.
Altri inganni statistici sono dovuti al disinvolto impiego del concetto di
media e di costruzioni teoriche come “l’italiano medio”, l”’operaio medio” ecc.
Non parliamo del fatto che il lessico ormai di comune impiego nei giornali ha
reso di uso corrente frasi inappropriate come “ogni italiana ha in media 1,5
figli”, suggerendo l’idea che oltre al primo figlio si possa avere anche mezzo
figlio.
In effetti la parola “media” ha diversi significati. Si dice, per esempio, che
Milano è la più ricca città d’Italia. Cosa vuol dire? Chiaramente non si intende
dire che tutti i milanesi sono più ricchi degli altri abitanti delle città d’Italia. Si
intende dire, a quanto pare, che il reddito medio pro capite dei milanesi è
superiore a quello medio delle altre città italiane. Ma il concetto di reddito
medio deve essere chiarito. Un conto è dire che la media aritmetica è x, altro
che la mediana è x. La differenza è percepita d agli statistici professionali ma non
dal grande pubblico. Per restare nell’esempio, la ricchezza media dei milanesi si
ottiene sommando i redditi di tutte le famiglie di Milano e dividendo per il
numero di queste. La mediana invece è il valore intermedio entro la
popolazione, nel senso che il 50% delle famiglie si trova al di sotto di quel
valore, mentre il restante 50% si trova al di sopra. Le due cose non coincidono
affatto. Basti pensare che ci sono paesi del
terzo mondo in cui il 10% della popolazione è ricchissima, e questo porta in alto
il valore medio del reddito, anche se il 90% della popolazione è in alcuni casi
drammaticamente povera. Questa povertà è evidenziata dal fatto che il 50%
della popolazione ha un reddito che è al di sotto del valore intermedio tra quello
degli ultraricchi e quello degli ultrapoveri (la mediana) : e questo valore è molto
più basso del valor medio.
Nel caso delle cosiddette distribuzioni normali, rappresentate dalle famose
curve a campana (per esempio la distribuzione dei ritardi del lotto) media e
mediana spesso coincidono, ma questo non accade nelle statistiche dei fenomeni
non casuali. Aggiungiamo che nelle misurazioni di grandezze (anche fisiche
come i tavoli) si riscontra sempre un certo margine di errore possibile, anzi
probabile. Se si fissa a 100, per esempio, il QI medio e nostro figlio ha un
punteggio di 99, risulta al di sotto della media; ma dato che è probabile che ci sia
un errore nel rilevamento, la cosa probabile è che abbia un valore diverso da 99.
Il modo in cui si usano le statistiche per influenzare in modo più o meno
fraudolento le vendite dei prodotti è ben noto ed è stato analizzato a lungo
anche dagli psicologi. È più grave il fatto che le statistiche si usano anche con
finalità politiche ed economiche importanti. Esempio. La percentuale di morti
durante la guerra ispano-americana fu del 9 per mille. Nello stesso periodo i
civili a new York ebbero un tasso di mortalità del 16 per mille. Il dato venne
usato dai militari per sostenere che arruolarsi in marina rendeva quanto mai
sicuri anche in tempo di guerra. Ma il confronto non aveva senso. I giovani
marinai dovevano essere confrontati con i giovani della stessa fascia di età non
militanti nella marina, non certo con una popolazione che comprendeva vecchi,
malati.
Il sofisma statistico più comune e più insidioso consiste nello scambiare
correlazioni statistiche con correlazioni causali. Si tratta di una versione
particolare e amplificata della vecchia fallacia “post hoc, propter hoc”. Per una
comprensione del problema si dovrebbe disporre di una definizione precisa del
concetto di causa, su cui torneremo in seguito. Ma questo concetto ha un
nocciolo abbastanza intuitivo da rendere comprensibile la fallacia. Si osservi al
proposito che nel suo scetticismo circa le cause Hume aveva ridotto le relazioni
causali a relazioni tra fenomeni costantemente congiunti nell’esperienza. Il
collante che unisce cause ed effetti secondo Hume non sta nel mondo esterno
ma solo nella capacità associativa della mente.
È singolare però che Hume non si rendesse conto che in base a questa teoria
dovremmo classificare come causali relazioni che non sono tali. Per esempio, è
chiaro che si dà una correlazione statistica e anche associativa (nel senso
psicologico) tra il cantare del gallo e il sorgere del sole, ma chiunque può
convenire sul fatto che questo nesso non è causale.
Per fare un esempio più moderno, si pensi che il barometro è stato costruito in
modo tale da segnalare anticipatamente il verificarsi dei temporali. Possiamo
assumere senza problemi che ci sia una comprovata correlazione statistica tra i
due tipi di fenomeni. Ma, chiaramente, l’abbassamento del barometro non ha
mai causato nessuna tempesta: diciamo che non è una causa ma un indizio del
futuro temporale. La parola indizio è usata con significati leggermente diversi
in vari contesti ma il suo senso è chiaro: A è indizio di B quando la conoscenza
di A aumenta la probabilità che B sia vero. Un indizio di colpevolezza non è
una prova di colpevolezza, così come un’ alta pressione sanguigna è un indizio
di un possibile futuro incidente cardiovascolare. Nel gergo della medicina si usa
al proposito il termine “sintomo” e anche “fattore di rischio”, da non
confondersi con la causa.
L’illusione causale è creata dall’esistenza da quella che gli epistemologi
chiamano biforcazione causale: nel caso dell’ultimo esempio c’è una causa
comune D (una depressione atmosferica anteriore) che produce tanto
B(l’abbassamento del barometro ) che T (la tempesta).
Si noti che nelle correlazioni statistiche può essere difficile o inutile cercare
un ordinamento temporale degli eventi. Di fatto, ciò che viene correlato nelle
analisi non è mai un evento singolo (event-token) ma un tipo di evento o evento
generico (p.es. quantità di sigarette consumate, incidenza di una malattia ecc.) e
non ha senso attribuire un indice temporale a un tipo di evento. Tecnicamente,
peraltro, le correlazioni statistiche intercorrono tra variabili, per cui la ricerca
della causa comune della variabile x e y si risolve di fatto nella ricerca di una
terza variabile z il cui variare è associato alla covariazione tra x e y.
In molti casi di correlazioni statistica accettata oltre ogni ragionevole dubbio
non si riscontra nessuna terza variabile rappresentabile come causa comune.
Ma questo non significa che si sia autorizzati a concludere che l’antecedente
statistico è anche un antecedente causale. Si danno infatti diverse possibilità:
a) La covariazione rilevata è prodotta da una coincidenza. Con campioni molto
piccoli questo è senz’altro possibile, anzi abbastanza comune.
b) La covariazione tra x e y è in effetti causale, ma non è chiaro quale sia la causa
e quale l’effetto . Per esempio c’è una correlazione tra ricchezza e possesso di
tutoli obbligazionari, e si può sostenere che l’una è causa dell’altro, che vale il
converso. Se si crede che abbia senso parlare di interazione causale, si possono
anche sostenere ambedue le cose.
c) La covarazione non è causale in nessuna delle due direzioni. Risulta per
esempio una correlazione tra longevità e status matrimoniale, ma è falso sia dire
che il matrimonio allunga la vita (ipotesi falsificata guardando alla longevità di
sacerdoti cattolici o buddisti, sottomessi a regole che vietano il matrimonio) sia
dire che la longevità è causa di matrimoni.4
Quando è applicata a macrofenomeni, la fallacia causale può portare a errori
di valutazione che possono avere enormi conseguenze. Basta citare che la
correlazione osservata tra sottosviluppo e sovrapopolazione in molti paesi ha
diffuso per anni la convinzione che un’alta pressione demografica fosse il
principale ostacolo allo sviluppo economico. Questa presunta cauisazione negli
ultimi anni è risultata smentita dal fatto che i paesi più densamente popolati del
mondo, Cina e India, hanno il tasso più alto di sviluppo economico.
Purtroppo la mente umana sembra abbia una tendenza invincibile a
trasformare le correlazioni statistiche in correlazioni causali. Questo è all’origine
di ciò che si chiama superstizione, la quale dipende da un atteggiamento
mentale che si riscontra anche in insospettabili uomini di scienza. Tra la gente
delle Nuove Ebridi per esempio si diffuse la convinzione che i pidocchi
facevano bene alla salute. Il motivo di questa singolare pregiudizio venne
scoperto facilmente. Quasi tutti in quelle isole avevano i pidocchi. Ma nel
momento in cui a qualcuno saliva la febbre per qualche tipo di patologia, i
4
Da una recente indagine
pubblicata sul British Journal of Cancer risulta che i
vegetariani hanno un rischio relativo di ammalarsi di tutti i tipi di cancro pari a 0,88 e
che la probabilità di contrarre il cancro è minore del 12% rispetto ai carnivori. Per gli
ittivori il rischio è ancora minore, pari a 0,80. Ma, come osservato da più parti, bisogna
tener conto della correlazione tra il consumo di carne con altri fattori di rischio, come
risulta da questa tabella:
Indicatore
Carnivori Ittivori Vegetariani
Fumatori
54,7%
46%
44,1%
Sovrappeso
37%
22,3%
20,3%
Bevitori
33,7%
31,8%
24,9%
Attività fisica
30,6%
38,9%
39,4%
Il carnivoro risulta, in altre parole, poco salutista, e più incline degli altri a
comportamenti
considerati malsani e quindi tali da predisporre a un maggiore rischio
di cancro. Questa considerazione lascia quindi impregiudicata la questione della
capacità cancerogena della carne.
pidocchi abbandonavano rapidamente il corpo divenuto troppo caldo e
inospitale. Ciò che era vero, dunque, è che semmai la malattia è causa
dell’assenza di pidocchi, ma non che i pidocchi sono causa di buona salute.
Usando una simbologia in cui C sta per una qualsivoglia relazione causale,
non-S C non-P è diverso da P C S. Vediamo dunque che la relazione causale
non gode della proprietà contrappositiva.
Le correlazioni causali spurie sono purtroppo non solo errate ma perniciose
quando vengono usate spregiudicatamente nell’ambito della medicina. Da una
statistica risulta,per esempio, che esiste una correlazione negativa tra check up e
longevità. Siamo portati a concluderne che il check up accorcia l’esistenza.
Ammesso che la statistica sia stata condotta correttamente, il presunto motivo
della correlazione è che chi decide di sottoporsi a check up di solito non scoppia
di salute, mentre chi non intende sottoporsi a check up è in condizioni di salute
molto buone, per cui è più probabile che rientri nella classe dei longevi piuttosto
che dei non-longevi.
Molte statistiche sul cancro o sulle malattie cardiovascolari sono viziate
dall’omissione di un fatto importante: che con il progredire dell’età, qualunque
siano le condizioni date, aumenta la probabilità di ammalarsi di malattie di
questi due tipi. Ne consegue che tutto
ciò che può essere casualmente rilevante per allungare la vita, quindi
sostanzialmente salutare, risulta statisticamente correlato con una maggiore
incidenza di cancro o malattie cardiovascolari. Viceversa, in popolazioni con
bassa speranza di vita queste malattie risulteranno meno frequenti o addirittura
assenti. Questo tipo di errore è comune in quella disciplina dal dubbio carattere
scientifico, che dilaga su giornali e riviste più o meno specializzate, dal nome di
dietologia.
Intorno alla dietologia gravitano interessi enormi, che spaziano dal campo
medico-farmaceutico a quello alimentare. Sembra che in particolare negli ultimi
decenni il colesterolo sia diventato, grazie a un’ intensa campagna di stampa, il
nemico numero uno dell’organismo umano. Ciò che è passato nell’
immaginazione popolare della c.d. “teoria lipidica” è la catena causale :
aumento di consumo di grassi animali - aumento di colesterolo -aumento di
placche aterosclerotiche- maggiore rischio di ictus e infarti.
Da ciò si è portati a derivare logicamente una seconda catena causale che a
rigore non è logicamente equivalente alla prima: diminuzione consumo grassi
animali - diminuzione di colesterolo -diminuzione di rischio di aterosclerosi
- diminuzione di rischio di ictus e malattie coronariche.
Sull’onda di queste associazioni di idee si è scatenata una campagna di
demonizzazione dei grassi animali, che è andata di pari passo alla promozione
della cosiddetta dieta mediterranea, ricca di carboidrati e povera di grassi
animali. Il fatto che a partire dagli anni 90 il numero di obesi, anzichè diminuire,
sia aumentato in modo da preoccupare i governi dei paesi occidentali, fa
pensare che la campagna anti-grassi abbia fondamenti dubbi.
Uno dei punti deboli della prima catena di sui sopra è la correlazione
statistica tra consumo di grassi animali e formazione del colesterolo. Il
colesterolo è stato scoperto nel 1812 ; prima fu ritrovato nel sangue e poi, dopo
diversi anni, nelle placche coronariche: da ciò l’ardita conclusione per cui il
colesterolo sarebbe causa delle placche coronariche. A partire dalla fine dell’800
si è continuato a registrare statisticamente un incremento della mortalità da
infarto, al punto di configurarsi come una vera e propria epidemia. Su questo
fenomeno vale la pena di prendere atto dell’enorme importanza ai fini statistici
che ha la tassonomia - cioè il modo di classificare i fenomeni sotto indagine. Tra
il 1900e il 1920 si elencavano quattro tipi di malattie cardiache
1) angina pectoris
2) pericardite
3) endocardite acuta
4) malattie cardiache organiche
Nel 1949 venne introdotta una nuova tipologia,la "malattia arteriosclerotica
con incluse le coronarie". Con la nuova tassonomia aumentarono a dismisura i
casi registrati di malattie coronariche. Nel 1968 si ebbe una nuova revisione
tassonomica e l'ipertensione arteriosa fu integrata tra le malattie coronariche
(mentre prima era considerata indipendente). Questo fece innalzare le
percentuali di malattie riscontrate, ma nel 1979 l'ennesima revisione separò di
nuovo l'ipertensione dalle malattie coroniche e l'infarto del miocardio diminuì
vistosamente. Dunque ciò che ha fatto aumentare la mortalità per malattie
cardiovascolari in determinati periodi è stato la modificazione della tassonomia,
mentre la diminuzione della mortalità per infarto registrata dal 64 all' 86 (-45%)
potrebbe essere attribuibile al progresso farmacologico e soprattutto chirurgico
(bypass, angioplastica). La spiegazione di questa riduzione con la riduzione dei
fattori di rischio (dieta, fumo, ipertensione) è plausibile ma non è giustificata.
Gli studi fatti su rapporto tra colesteromia e mortalità cardiovascolare hanno
prodotto dati che confermano l'ipotesi della correlazione causale a patto di
ignorare i numerosissimi risultati che danno una risposta opposta. In
particolare, le nazioni esaminate da A. Keys (il padre della c.d. "dieta
mediterranea") sono le seguenti: Italia, Grecia, Yougoslavia, Olanda, USA,
Giappone, Finlandia. Se Keys avesse esaminato, invece di questi, paesi come
Israele, Olanda , Germania, Svizzera, Francia, Svezia avrebbe riscontrato che
quanto più alto era il consumo di grassi saturi tanto inferiore risultava il rischio
di infarto. Del resto di recente ha fatto scalpore il c.d. "paradosso francese": la
Francia ha notoriamente una cucina ricca di grassi animali e tuttavia
l'incidenza di malattie cardiovascolari è più bassa che in Italia. Questo sarebbe
sufficiente a refutare popperianamente l'ipotesi, ma invece venne lanciata un
'ipotesi di salvataggio, consistente nel dire che in Francia è alto il consumo di
vino rosso, che sarebbe in grado di neutralizzare -grazie a una sostanza
chiamata resvetrarolo - i nocivi effetti dei lipidi. Ma a parte il fatto che è stato
dimostrato che per avere qualche efficacia il resvetrarolo dovrebbe essere preso
in dosi iperboliche, resta da spiegare perchè gli italiani hanno pure un alto
consumo di vino rosso ma una maggiore incidenza di malattie cardiache.
Altra ipotesi di salvataggio è stata la distinzione tra colesterolo buono e
cattivo, passato pure nella vulgata. Secondo un commento pubblicato
sull’Herald Tribune e firmato da Gary Taubes, corrispondente della rivista
Science, così si è introdotto un equivoco. E cioè: si è sempre confuso il
colesterolo con le proteine che lo trasportano nel sangue, le lipoproteine, il
carico con il mezzo di trasporto. E il colesterolo è diventato buono o cattivo a
seconda che sia veicolato da lipoproteine ad alta densità (Hdl) o a bassa densità
(Ldl). Potrebbe, dunque, non essere il colesterolo in sé il vero nemico (l’infarto
colpisce anche persone con colesterolo normale), ma un’anomalia delle
lipoproteine.
Il bilancio di questa discussione non vuole in ogni caso essere pessimistico.
In primo luogo, prima di accogliere un dato statistico come elemento di prova o
di refutazione, bisogna acclarare che il dato sia stato ricavato secondo
procedure che rispettino i canoni metodologici elaborati dalla stessa scienza
statistica. La metodologia corretta impone al primo posto che oltre al campione
sperimentale estratto da un certo universo in cui la proprietà indagata è
presente si proceda ad estrarre un secondo campione (detto campione di
controllo) in cui le proprietà indagata è assente.
Il campione deve essere costruito con accorgimenti che elimino ogni rischio di
inquinamento. L’esempio appropriato è quello delle ricerche sui farmaci
eseguite in doppio cieco. La particolarità sta nel fatto che né il paziente né il
medico conoscono la natura del farmaco effettivamente somministrato. Si
differenzia quindi dallo studio "in cieco", dove solo il paziente è all'oscuro del
procedimento che sta seguendo. Lo scopo del doppio cieco è quello di evitare
che i risultati della ricerca vengano influenzati non solo dal paziente, ma dal
medico stesso che sta effettuando la ricerca. Convinzioni, preconcetti,
aspettative, o semplicemente informazioni specifiche che lo sperimentatore
possiede possono condurlo a un involontario fraintendimento dei dati osservati
.
E’ noto che si vuole valutare l'efficacia di un farmaco occorre tenere conto
dell'inevitabile effetto placebo. Per fare questo occorre prendere in
considerazione due campioni omogenei di pazienti. A uno di essi (campione
sperimentale) si somministra il farmaco oggetto di studio e all'altro (campione di
controllo) un placebo. Ovviamente (e in ciò consiste il "cieco semplice") nessun
paziente in entrambi i campioni deve sapere se sta assumendo il farmaco o il
placebo. La procedura del "cieco semplice", tuttavia, si è dimostrata in alcuni
casi insufficiente per il motivo già accennato, e cioè che i risultati possono
essere falsati dall'atteggiamento psicologico degli stessi sperimentatori. . Se il
medico sperimentatore sa di somministrare il farmaco piuttosto che il placebo,
può involontariamente suggestionare il paziente. Per questo motivo, al fine di
ottenere risultati attendibili, è necessario che neppure gli sperimentatori
conoscano certe informazioni. In campo medico il doppio cieco è l'unica
metodologia possibile e soltanto i farmaci e le terapie che superano tale
procedura possono essere definiti efficaci.
Il nucleo metodologico di queste procedure è quello di stabilire un raffronto
tra la percentuale di U che hanno la propretà A (probabilità che, se x è U, x è A,
cioè Pr (A|U) e quella di U che non hanno A (Pr(-A|U)). Bisogna confrontare
per esempio la percentuale di fumatori (F) tra gli ammalati di cancro (C) –
Pr(C|F) e la percentuale di non- fumatori (-F) tra gli ammalati di cancro (Pr(C|F).
Se Pr(C|F) > Pr(C |-F) significa che F è statisticamente rilevante per C. La
forza di questa correlazione è data dalla differenza
- Pr(C|-F),
-F) significa
-F)/Pr(-F).
In tal modo abbiamo effettuato una corretta statistica, ma non è ancora detto
che il rapporto così stabilito sia causale.
Un’idea sviluppata da Ronald Giere e da altri metodologi, molto discussa
negli ultimi decenni, è quella di non concentrasi sulle frequenze attuali entro un
singolo campione ma sulle frequenze entro popolazioni ipotetiche; più
esattamente, sulle frequenze entro due popolazioni ipotetiche o controfattuali
in cui le proprietà studiate appare posseduta da tutti o da nessuno. Per
restare nell’esempio, bisogna immaginare una popolazione in cui tutti fumano
e una in cui nessuno fuma. Se siamo in grado di stabilire che la percentuale di
ammalati nella prima è maggiore che nella seconda allora siamo autorizzati a
parlare di nesso causale, altrimenti no.
Per poter dire che c’è un nesso causale tra fumo e cancro vogliamo poter dire
con verità quanto segue: “se tutti fumassero ci sarebbe una frequenza di casi di
cancro superiore a quella che si avrebbe se nessuno fumasse”. .
Un primo problema è che l’alternativa “tutti-nessuno” può produrre risultati
non intesi. Per fare un esempio, in un campione attuale chi ha un livello di
reddito superiore alla media ha anche un livello di salute superiore alla media.
Per stabilire un nesso causale dovremmo fare una verifica facendo due ipotesi
controfattuali distinte:1) che tutti abbiano un reddito superiore alla media e 2)
nessuno abbia un reddito superiore alla media : ma questo è impossibile per
ragioni logiche per la definizione stessa di media. Ci sono anche ragioni non –
logiche per dubitare delle ipotesi del tipo “tutti-nessuno”. Su qualcuno ritira i
propri risparmi da una certa banca questo può far abbassare i tassi di interesse
di una banca, ma certo la banca non fallisce per questo. Ma se tutti ritirano
simultaneamente i risparmi da una banca la bancasemplicemente fallisce perché
non èin grado di pagare i suoi debiti. Quindi i nessi causali non vengono in tutti
i casi conservati passando da pochi esempi a tutti.
La tesi di Giere si può parafrasare dicendo che c’è un rapporto causale fumocancro quando si è in grado di dire quanto segue: c’è un valore numerico z tale
che se nessuno fumasse, Pr C = z, e se tutti fumassero Pr(C) > z .Questa
proposizione si accerta in due passi: a) esaminando varie popolazioni in cui
nessuno fuma ed estraendo campioni da esse per registrare la percentuale di
ammalati, così da fissare il valore di z. b) esaminando popolazioni in cui tutti
fumano ed estraendo campioni per vedere se la percentuale degli ammalati
supera z.
E chiaro che, campionamenti a parte, l’accertamento dei nessi causali viene
così a dipendere dall’ accertamento della verità di condizionali controfattuali. E
offrire una semantica per i controfattuali è stato un problema che i logici hanno
cominciato ad affrontare verso il 1970 con risultati interessanti ma non
perfettamente univoci.
Una cosa comunque è della massima importanza. Nessuno più dei giuristi
dovrebbe apprezzare l’importanza del ragionamento contrario ai fatti , dato che
per secoli si è proposto nei tribunali come metodo di accertamento delle
connessioni causali la c.d. formula della condicio sine qua non , che consiste nel
chiedersi cosa sarebbe successo del presunto effetto se immaginiamo rimossa o
assente la presunta causa.
Prima di toccare questo argomento è opportuno discutere una forma di
inferenza ampliativa che riveste pari importanza nell’ambito sia scientifico che
giudiziario , l’inferenza abduttiva.
7. L’abduzione
Prima di passare alla discussione dei condizionali controfattuali ricordiamo che
, in presenza della verità di A e B, la loro forma è ¬A > ¬B , mentre la forma del
condizionale classico è A > B. Parlando liberamente , nel primo caso si dice che
A è condizione necessaria per B, nel secondo caso che A è condizione sufficiente
per B. Questo linguaggio tuttavia è approssimativo. Se il fiammifero è sfregato,
non ne segue al 100% che il fiammifero si accenderà; così come, se il fiammifero
non è stato sfregato, non segue al 100% che non si è acceso. La conclusione nei
due casi si può difendere, ma solo una volta che si sia accertata la presenza di
un insieme di condizioni favorevoli al verificarsi del conseguente: p .es.
presenza di sufficiente ossigeno, capocchia asciutta ecc. Quindi ciò che è
sufficiente per l’effetto è l’antecedente congiunto con tutto questo insieme di
condizioni ottimali K, di cui si può considerare parte anche la stessa legge di
natura che consente l’inferenza. Per dire che congiunzione K
alto grado di probabilità E abbiamo convenuto di scrivere (K
:
Pr(E/KC) 1-. Ora abbrevieremo questo asserto con si può abbreviare con C >
E. Nel caso controfattuale avremo ( K
Ma bisogna tener presente che questo K non è lo stesso K del caso precedente,
perché non può contenere informazioni che sono incompatibili con ¬C. Per
esempio, la proposizione che il fiammifero non è stato sfregato e non si è acceso
deve essere rimossa da K, altrimenti sarebbe incompatibile con l’antecedente
controfattuale.
Ora, se per ipotesi > fosse un operatore contrappositivo , ¬C > ¬E sarebbe
equivalente a E > C. Ma il condizionale controfattuale, così come la relazione di
rilevanza statistica, non è contrappositiva. Quindi il condizionale E > C ha
proprietà diverse tanto da C> E quanto da ¬C > ¬E. Chiameremo E > C
condizionale abduttivo e per, capirne le condizioni di verità, faremo un passo
indietro che ci riporta all’Organon di Aristotele.
Nell’ Organon di Aristotele viene chiamata apagogè un tipo di ragionamento
con conclusioni non necessarie ma meramente possibili. La apagogè non va
confuso con la epagogè, che per Aristotele designa il ragionamento induttivo.Una
traduzione a volte usata di apagogè, e forse appropriata, è “riduzione”. Un
termine sinonimo a volte usato, e forse più felice, è quello di “retroduzione”. Il
termine “abduzione”, che ha avuto fortuna soprattutto per impulso di Peirce, è
stato coniata da Julius Pacius nel Rinascimento. In senso stretto, l’abduzione è
una forma di ragionamento in cui la conclusione è accettata in virtù del fatto
che spiega nel modo ottimale i dati disponibili. In senso lato, l’abduzione è il
processo della formazione di ipotesi esplicative, e la logica dell’abduzione viene
a coincidere con la stessa logica della scoperta scientifica.
Dato che la logica di Aristotele è essenzialmente sillogistica, la differenza si
può chiarire guardando a ciò che si ottiene ricombinando in modo diverso le
proposizioni che entrano nel primo sillogismo della prima figura (BARBARA).
A:
1) Tutti gli asini hanno la coda
2) Federico è un asino
=========================
1) Federico ha la coda
Considerando che l’ordine delle due premesse non ha importanza, ci sono in
effetti solo due ragionamenti diversi con due premesse e una conclusione
che si possono formulare impiegando le stesse proposizioni :
B:
1) Federico è un asino
2) Federico ha la coda
==========================
3)Tutti gli asini hanno la coda
C:
1) Tutti gli asini hanno la coda
2) Federico ha la coda
==========================
3)Federico è un asino
Il ragionamento B è un ragionamento “ampliativo”, che estrapola cioè dal
campione all’universo, ed è un esempio di quello che viene chiamato
ragionamento induttivo per enumerazione semplice. Certo un ragionamento
induttivo come quello dell’esempio B presenta un’inferenza non “da alcuni a
tutti” ma “da uno a tutti”, e sembra il tipico caso di un ragionamento che è
considerato erroneo o addirittura tipico di menti insane. Eppure ci
sono casi in cui l’applicazione di questo schema si potrebbe considerare
ineccepibile. Eccone uno:
1) La bomba di Hiroshima era una bomba atomica
2) La bomba di Hiroshima era spaventosamente distruttiva
=============================================
3)Tutte le bombe atomiche sono spaventosamente distruttive
La conclusione 3) doveva essere evidente a tutti dopo il bombardamento di
Hiroshima e, a dir la verità, doveva essere nota anche prima, dato che la bomba
era stata costruita con lo scopo di creare spaventose distruzioni: per crederla
vera comunque non c’ era sicuramente bisogno di un secondo esperimento,
come per esempio quello di Nagasaki..
Quanto all’esempio specifico presentato in B) si potrebbe anche osservare che
se dicendo “Federico è un asino” intendo dire “Federico è un tipico asino” e poi
aggiungo che un tipico asino è mortale, c’è poco da eccepire sul fatto che tutti i
tipici asini (quindi tutti gli asini) sono mortali.
Per molti decenni si è avuta la tendenza a identificare ragionamenti
ampliativi e ragionamenti induttivi. Questo è errato per vari motivi. Molti
ragionamenti controfattuali sono ampliativi senza perciò essere induttivi.
Inoltre secondo alcuni (è il caso di Carnap) i più autentici ragionamenti
induttivi non hanno conclusioni di forma universale ma di forma particolare:
per esempio “il prossimo asino che verrà esaminato avrà la coda” (eduzione)
oppure “ i prossimi cento asini che verranno esaminati avranno la coda”.
Aggiungiamo che lo schema di ragionamento C) è molto diverso da quello
induttivo, anche se condivide con B), oltre alla natura ampliativa, un certo
grado di aleatorietà nella conclusione. C’è una differenza sostanziale tra B) e C).
La conclusione “Federico è un asino” è usata per rispondere alla domanda
“Qual è la ragione per credere che Federico ha la coda sapendo che tutti gli asini
hanno la coda?” Il motivo per cui questo particolare sillogismo sembra poco
cogente è che ci sono altri sillogismi con diverse conclusioni che possiamo
costruire con la stessa struttura. Per esempio, dato che sappiamo che tutti i cani
hanno la coda, allora sotto la premessa “Federico ha la coda” si potrebbe anche
concludere a pari merito“Federico è un cane”. Quindi siamo di fronte a due
conclusioni incompatibili, perché Federico (lo stesso Federico) non può essere
tanto un asino che un cane e noi dobbiamo scegliere una delle conclusioni,
ammesso che una scelta sia possibile. Quindi, in realtà, nel caso dell’abduzione
possono manifestarsi dei casi di parità in cui è giocoforza dover scegliere: ciò
che va scelta, infatti, non è una spiegazione qualsiasi dell’explanandum e
nemmeno una plausibile spiegazione ma la migliore spiegazione possibile.
Questa caratteristica, che distingue il ragionamento abduttivo dagli altri, può
essere illustrata ricordando due fatti importanti :
1) che il modello nomologico-deduttivo di Hempel-Oppenheim ha una forma
sillogistica
(mentre
il
modello
statistico-induttivo
costituisce
un’approssimazione a questa in cui la conclusione segue dalle premesse con
grado 1-€)
2) Nelle spiegazioni in senso pieno si esige che le premesse siano vere e note
come vere, mentre nel caso le premesse siano solo ipotetiche si parla di
spiegazione potenziale.
Supponiamo di chiedere la spiegazione di un fatto E (perchè E?). Allora.
Come è noto, diciamo explanandum questo E, e lo riterremo spiegato quando è
derivato da un explanans, che contiene essenzialmente un certo numero di leggi
di natura e di condizioni iniziali che fungono da premesse minori del sillogismo
L1….Ln (leggi)
C1 …… Ci?….Ck condizioni
–––––––––––––––––––––––––––––- ––––––––––
Explanans
E
vero
Explanandum
Il punto interrogativo ? sta a indicare che l’elemento dell’Explanans
così indicato non ha un preciso valore di verità , mentre gli altri sono veri. In
questo caso diciamo che Ci è un fattore che fa parte di una spiegazione
potenziale (meglio “possibile”) di E.
È normale avere una pluralità di spiegazioni potenziali per los tesso
explanandum. Per esempio può verificarsi una situazione così rappresentabile:
L1….Ln vere (leggi)
L1….Ln vere (leggi)
C1a? , C2, ….Ck
C1b?, C2,….Ck
--------------------------------------------------------------------------------------------E (Explanandum) vero.
Ci chiediamo per esempio: che cosa spiega il fatto che il fiammifero si è
acceso? Sia C1a l’ipotesi “il fiammifero è stato sfregato” ; sia C1b l’ipotesi ” la
capocchia del fiammifero è stata posta nella fiamma di una candela”. Allora
potremmo retroduttivamente risalire da E a C1a, ma anche da E a C1b. Come
operare la scelta? Dipende dalle altre informazioni circostanti. Se, per esempio,
vicino al fiammifero che è stato acceso si trova una candela accesa ma nessuna
superficie sufficientemente ruvida tipo carta vetrata, ecc. è plausibile pensare
che il fiammifero sia stato acceso mediante la candela. In assenza di questa però,
la retroduzione più plausibile è l’altra.
Tenendo presente lo schema hempeliano. mentre il condizionale standard
(nomologico) ha la forma C1> E, cioè (C1 & K) => E , il condizionale abduttivo
ha forma E > C1 (il fiammifero si è acceso perchè sfregato).
Secondo Peirce - il filosofo che ha proposto l’abduzione come grande tema
epistemologico- l’inferenza abduttiva è un processo in base a cui “si osserva un
fatto sorprendente C; ma se A fosse vero, C sarebbe la conclusione naturale; perciò
si ha motivo di sospettare che A sia vero” . Si noti che Peirce qui usa un periodo
ipotetico (“se A fosse vero…”), evidenziando che la proposizione A con cui poi
si conclude il ragionamento abduttivo è, all’atto dell’ipotesi, solo una possibilità.
Questa definizione ha fatto molto discutere. Nella conclusione del ragionamento
compare A. Ma A compare già nelle premesse del ragionamento, il che fa
dubitare del carattare ampliativo dell’inferenza – ansi crea odore di circolarità e ci pone legittimamente questo problema: da dove proviene l’ipotesi A ?
In secondo luogo, l’operazione che coinvolge A si potrebbe applicare ad altre
congetture A’, A”, A”’…. delle quali si potrebbe pure dire che, se fossero vere,
renderebbe naturale la conclusione C. Ciò non sarebbe importante se A’, A” ecc.
fossero logicamente interdipendenti con A: per esempio potrebbero essere sue
varianti generiche o specifiche. Ma nei casi più interessanti queste alternative
potrebbero essere indipendenti da A , o a- come di solito accade- incompatibili
con A.
La verità è che l’abduzione non è la ricerca di una qualsiasi spiegazione di un
evento anomalo, ma la ricerca della migliore spiegazione entro una rosa di
spiegazioni potenziali e alternative di uno stesso fenomeno. Questa intuizione è
in un certo implicita in ciò che dice Peirce quando parla conclusione “spiegata in
modo naturale”. Peirce in alcuni scritti suggerisce che la migliore spiegazione è
la spiegazione più economica (cioè, diremmo oggi, la più semplice e la più
informativa).
L’ idea dell’economicità è seducente ma poco applicabile: in primo
luogo non è ovvio che ci sia sempre una spiegazione classificabile come “la più
semplice”, e secondariamente la semplicità sembra avere carattere che
potremmo dire “interno ai paradigmi”: è più semplice pensare che la terra stia
ferma al centro dell’universo o che abbia un doppio movimento di rotazione e
rivoluzione?
Peirce stesso, che è tornato a più riprese su questo controverso argomento, ha
ammesso negli ultimi anni di aver dato inizialmente una versione troppo
limitata dell’abduzione. L’abduzione è in realtà un processo complesso, che
comprende tanto il lancio delle ipotesi che la loro valutazione. Bisogna dunque
cominciare col distinguere nettamente due aspetti dell’abduzione o anche due
tipi diversi di abduzione, una creativa e una selettiva.
Un approccio all’abduzione che potremmo approssivamente classificare come
popperiano è il seguente. La migliore spiegazione di un evento è l’unica che
resiste alla falsificazione entro un ventaglio di ipotesi disgiunte. Supponiamo di
sapere con certezza che in un ambiente isolato erano presenti Tizio, Caio e
Sempronio. Si scopre il cadavere di Rossi, colpito da un solo proiettile di
pistola. Il primo passo legittimo è una semplice inferenza ampliativa che
possiamo considerare inattaccabile:
( R) “Se Rossi è stato colpito da un proiettile di pistola, qualcuno ha sparato a
Rossi”.
Scoprire il colpevole significa semplicemente passare dall’asserto generico
“qualcuno ha sparato a Rossi” a un asserto vero della forma “b ha sparato a
Rossi”, dove b è il nome di una persona (che potrebbe essere anche Rossi stesso,
non essendo a priori escluso il suicidio). Ora, per la logica deduttiva, asserire
“qualcuno ha sparato a Rossi” in quel particolare contesto di informazioni
comporta eliminare ogni possibile valore di b salvo i quattro nomi citati:
equivale ad asserire la disgiunzione “o Tizio o Caio o Sempronio o Rossi ha
sparato a Rossi”, dove Sempronio è il miglior amico di Rossi. Supponiamo di
poter escludere con assoluta certezza che Rossi si sia suicidato e poi eliminare,
sempre con assoluta
certezza, le ipotesi che Tizio e Caio hanno sparato. Allora la conclusione, per
quanto sorprendente possa apparire, è che Sempronio ha sparato a Rossi. La
procedura eliminatoria qui prospettata è conforme alla celebre massima di
Sherlock Holmes secondo cui “escluso l’impossibile ciò che rimane, per quanto
improbabile, deve essere la verità”5. Se è così l’abduzione si risolve in una serie
di
falsificazioni successive e l’ipotesi vincente è quella che sopravvive.
Per completare la procedura occorre però un’integrazione importante. Nel caso
l’ipotesi sopravvissuta fosse ancora oggetto di ragionevole dubbio (cioè quasi
sempre,se non altro per errore nella procedura eliminatoria), essa è soggetta ad
essere confermata induttivamente da altri elementi di informazione
indipendenti
che ne costituiscono la controprova: superata questa l’ipotesi si consoliderà
guadagnando per sè la qualifica di “vera”. Si noti che questo va fatto anche nel
caso che le ipotesi siano h1…hn e che emerga una fortissima evidenza a favore
di
h1, che ne porta molto in alto il suo valore di probabilità. In tal modo si abbassa
il
valore di probabilità delle altre ipotesi h2…hn, che potrebbe scendere al di sotto
della soglia å. Ma anche in tal caso è opportuno cercare una controprova di h1
andando alla ricerca di elementi di informazioni che falsificano
indipendentemente h2,…hn.
Se si esclude l’introduzione della controprova, l’inferenza alla migliore
spiegazione così delineata non si distingue dal procedimento baconiano dell’
induzione eliminatoria e si riconduce al processo che si può chiamare di
determinazione della conoscenza. La determinazione consiste nel passaggio dal
generico allo specifico, dall’indeterminato al determinato. Ogniqualvolta si
passa
dalla disgiunzione esclusiva “A o B” ad uno dei suoi disgiunti si produce un
incremento di determinazione. Aumentare la determinazione della conoscenza
significa aumentare l’ informazione disponibile; per converso l’ aumento di
informazione disponibile riduce l’incertezza e quindi aumenta la
determinazione
della conoscenza. Se E è l’ explanandum con due possibili spiegazioni siamo di
fronte ad una disgiunzione che nel caso più semplice è della forma “A è un
elemento nell’explanans di E o B è un elemento nell’ explanans di E” .
L’abduzione
selettiva consiste nell’eliminare tutti i disgiunti salvo uno, e quindi
nel“determinare l’ explanans” . Stando così le cose, non c’è motivo di negare che
l’abduzione selettiva è una procedura di tipo razionale, stante che l’eliminazione
dei disgiunti non ha niente di arbitrario ma obbedisce a principi ben acquisiti
dalla logica e dalla filosofia della scienza.
C’è da osservare che la conclusione del ragionamento abduttivo non è detto
debba essere una proposizione singolare come “il fiammifero si è acceso” o “il
mio cane scodinzola”. Potrebbe essere una proposizione quantificata
esistenzialmente (p.es. “c’è vita su Saturno”) oppure una proposizione
quantificata universalmente (“tutti i corpi presenti nella zona Y sono
contaminati radioattivamente”) oppure la congiunzione di proposizioni di
diversa forma logica. Nei casi che più interessano gli epistemologi, la
conclusione abduttiva può essere non una delle condizioni fattuali C1…Cn ma
una parte dell’explanans costituita dalle leggi L1…Ln, quindi può essere una
legge o addirittura una vera e propria teoria.
La matematica stessa, come ha sottolineato Polyà, non è affatto aliena da
ragionamenti di tipo abduttivo. Osservando delle somme di numeri primi
come 11,7, 13 … che danno sempre un numero pari, si può trarre la conclusione
induttiva che sommando due numeri primi si ottiene un numero pari. La c.d.
“congettura di Goldbach” è la conversa di questa e si formula in questo modo.
(CG) “Ogni numero pari maggiore di due è la somma di due numeri primi”.
La congettura (abduttiva) è stata confermata dai calcolatori fino alla grandezza
di 4.10 11 , ma nessuno è riuscito a trasformare la congettura in un teorema
matematico. Le proprietà di costruzioni come il triangolo di Pascal invece si
possono dimostrare, anche in vari modi (si pensi per esempio che la somma
dei numeri di ogni riga è una potenza in base 2).
1 =1
1 1 =2
1 2 1 =4
1 3 3 1 =8
Secondo Polyà non c’è nessuna differenza essenziale tra la scoperta
matematica e quella delle scienze empiriche.In ambedue i casi si osservano dei
casi sparsi o delle regolarità stabilite induttivamente, e si cerca di trovare delle
connessioni che li spiegano. L’unica differenza è che in matematica, una volta
che tali correlazioni vengono dimostrate rigorosamente, sono irreversibili, o in
altri termini non sono soggette a controesempi.
Leggendo le belle pagine dedicate da N.R. Hanson alla scoperta delle leggi di
Keplero veniamo posti di fronte a quella che è giustamente considerata la più
importante abduzione della storia del pensiero. Keplero giunse alla scoperta
della sua prima legge cercando di liberarsi dell’ipotesi del cerchio ed
eliminando le altre ipotesi suggerite dalle osservazioni (ovoide ) fino a restare
con quella dell’ellissi che combacia con tutti i dati.
Per rendersi conto della differenza tra la natura dell’induzione e quella
dell’abduzione, basta osservare che l’induzione fornisce delle generalizzazioni
empiriche che descrivono, per così dire, i “meccanismi” della natura, ma non
può darci leggi teoriche (cioè leggi che contengono termini per enti inosservabili).
In effetti, non ha senso assegnare un valore di probabilità alle inferenze
garantite da leggi teoriche. Ha un senso chiedersi qual è la probabilità che il
prossimo corvo sia nero, ma non qual è la probabilità che la prossima molecola
sia costituita di atomi.
Viceversa, la formulazione delle leggi teoriche è l’obiettivo più nobile delle
procedure abduttive, e quello scientificamente più significativo. Tutto questo
rende dubbia l’utilità di associare dei valori probabilistici alle conclusioni
abduttive, come vorrebbero i bayesiani.
Nell’ambito giudiziario è indubbio che si abbia a che fare con abduzioni che
concludono a fatti o a insiemi di fatti, mentre è difficile immaginare un contesto
in cui si concluda con leggi o generalizzazioni. A questo dobbiamo aggiungere
una qualificazione che finora non abbiamo trattato. L’inferenza abduttiva più
frequentata è quella che ci porta a concludere con la miglior spiegazione causale
possibile: in altre parole è un’inferenza dagli effetti alle cause. Ma le cause, come
abbiamo visto, sono preferibilmente da considerare non condizioni necessarie,
non come condizioni sufficienti per l’effetto. Le due proprietà in effetti non si
escludono, soprattutto nel modello statistico-induttivo. Supponiamo di avere un
certo stock di ipotesi esaustive e disgiunte h1…hn. Ciascuna di queste,
congiunte
ad altri dati informativi, costituisce un explanans che implica
l’explanandum E.
Supponiamo inoltre di sapere che ¬h1…¬hn, congiunte a vari sottoinsiemi di K
opportunamente strutturati, implicano tutte ¬E, cioè la negazione
dell’explanandum. Dunque esse sono condizioni necessarie, o cause, per
l’explanandum. Nell’abduzione causale si tratta dunque di fare una scelta che
esige un doppio controllo nella fase creativa, dal momento che dobbiamo
controllare che le varie h1…hn siano condizioni tanto sufficienti che necessarie
per l’explanandum.
Uno dei maggior studiosi contemporanei dell’abduzione, John Woods, ha
visto una difficoltà concettuale nell’abduzione applicata nei processi. Infatti da
un lato si richiede di condannare con un verdetto sulla base di fatti stabiliti
“oltre ogni ragionevole dubbio”, dall’altro l’abduzione è un procedimento di
tipo congetturale, quindi con una buona dose di incertezza: “ This is trouble bad
enough to deserve a name. My choice is the Criminal Abduction Paradox. “
Bayesianamente potremmo semplicemente dire che se , date due ipotesi
alternative H e H’ , Pr(H/E  K) > Pr(H’|E  K), allora H è più credibile di H’.
Ma questa relazione ci dà una condizione minimale e necessaria, non certo
sufficiente per scegliere H come conclusione abduttiva. Dobbiamo infatti tener
conto, con buona pace dei bayesiani, di quanto segue:
1) La differenza tra i due valori probabilistici delle ipotesi deve essere
significativamente alta. Se Pr(H|E  K) - (Pr(H’|E  K) è, poniamo, 0,1, bisogna
tener conto che uno scarto così basso potrebbe essere dovuto a un errore di
valutazione o a un errore di informazione. Ragione per cui passando da uno
stock di informazione K a uno stock nuovo K’ , cioè a una nuova informazione,
la differenza potrebbe ridursi facilmente a 0 o addirittura invertirsi di segno.
2) La creazione del ventaglio di ipotesi deve essere fatto in modo tale che tali
ipotesi siano esaustive e disgiunte. Questo è molto più difficile di quanto si
pensi. In genere si omette il requisito cartesiano (Regulae ad Directionem ingenii)
che richiede che venga fatto un elenco combinatoriamente completo delle
ipotesi entro cui scegliere. li. Per esempio nel delitto di Cogne è stato fatto
osservare che la causa della morte poteva anche essere un agente non-umano
(per esempio un’ aquila selvaggia, peraltro già nota nella zona per aggredire
anche animali e bambini). Insegni al proposito il primo racconto giallo della
storia, “il duplice delitto della Rue Morgue” di Allan Poe, in cui alla fine l’auore
del delitto risulta essere un gorilla.
3) Quando due ipotesi alternative sono ambedue inizialmente molto improbabili
accade che, se si acquisisce anche una piccola evidenza favore di un’altra
ipotesi, per quanto poco plausibile, questa viene erroneamente scambiata per
una falsificazione definitiva dell’ipotesi alternativa.
Nel famoso delitto della penna a sfera –in cui si trattava di spiegare come
una donna potesse morire con una penna a sfera nel cervello- per esempio,
venne presa in considerazione la possibilità che la penna a sfera fosse entrata
nel cervello della vittima per un incidente, ma considerata fin dall’inizio
inattendibile (anche se si conoscevano rarissimi casi in cui questo era
avvenuto). L’alternativa –che il figlio le avesse sparato la penna a sfera nel
cervello con una balestra– era pure improbabile ma sembrava suffragata da
una confessione , per quanto confusa, rilasciata dallo stesso. Altre ipotesi
erano inconcepibili. Successivamente una serie di esperimenti effettuati su
cadaveri di animali portavano ad escludere non la prima ma la seconda
ipotesi, ragion per cui il figlio venne scagionato e venne stabilita la “verità”
giudiziaria.
Quando venne incriminato il figlio si ritenne che l’evidenza,o presunta tale,
a favore di questa ipotesi, costituisse un’eliminazione dell’altra, in quanto ne
abbassava la probabilità al di sotto della soglia di credibilità. In effetti questa
non era un’applicazione del metodo eliminatorio attraverso la falsificazione
popperiana. Ma anche quando fosse applicato questo metodo, bisogna tener
conto che nell’eliminazione della ipotesi la valutazione delle probabilità e il
calcolo di queste può essere errato; inoltre, spesso la falsificazione delle
ipotesi è a sua volta probabilistica, quindi soggetta ad errore, e tali errori
possono accumularsi in proporzione al numero delle ipotesi alternative. In
realtà scegliere un’ipotesi con il metodo eliminatorio, anche se questa risulta
valida al di là di ogni ragionevole dubbio, non è sufficiente. Per chiudere il
cerchio, come abbiamo visto, ci vuole una controprova dell’ipotesi vincente,
cioè una prova indipendente, che non abbia rapporti statistici o causali con le
altre informazioni usate nel processo eliminatorio.
Il celebre caso di Sally Clark mostra come sia rischioso condannare
qualcuno in base a ragionamenti probabilistici.
Sally Clark era un avvocato inglese (morta nel 2007) diventata famosa per un
clamoroso caso giudiziario. Nel 1996 perde il primo figlio dopo 11 settimane
dalla nascita, apparentemente a causa della rara Sudden Infant Death Sindrome
(SIDS). Nasce il secondo figlio mentre la madre era ricoverata per alcolismo
dovuto a una crisi depressiva da parto. Anche il secondo figlio muore per la
stessa sindrome a 8 settimane dalla nascita. In ambedue le occasioni di morte la
madre era sola nella stanza con i figli, uno dei quali presentava anche segni di
soffocamento. Arrestata insieme al marito, nega sempre, anche se rifiuta di
rispondere alle domande.
Un pediatra, Roy Meadow, calcolò che la probabilità che due bambini di
famiglia benestante morissero di questo tipo di morte era di 1 su 73 milioni.
Dato che le alternative erano solo due –morte naturale o infanticidio- in tal
modo si escludeva al di là di ogni ragionevole dubbio l’ipotesi della duplice
morte naturale, quindi la madre appariva colpevole oltre ogni ragionevole
dubbio.
Più tardi alcuni test microbiologici condotti sui tessuti suggerivano l’ipotesi
che il secondo figlio poteva essere morto di morte naturale. Inoltre si cominciò a
sospettare dei calcoli su cui poggiava la cosiddetta evidenza statistica . Si
passò quindi alla revisione del processo. Dopo il processo di appello la Clark
venne scarcerata, ma nel frattempo la prigionia aveva compromesso la sua
salute mentale e fisica. Nel 2007 venne trovata morta, a quanto pare a causa di
intossicazione alcolica acuta.
Dove stava l’errore di Meadow? Principalmente nell’assunzione di
indipendenza che, come sappiamo, è la premessa per l’applicazione più
elementare del principio delle probabilità composte, che consiste nel
moltiplicare le probabilità di eventi congiunti. E’ certo che, dati due eventi
indipendenti costituiti dalla morte per SIDS, la probabilità che si verifichino
ambedue a poca distanza nello stesso ambiente (si aggiunge: benestante , quindi
in ambiente salubre) è prossima a zero.
Ma è il requisito di indipendenza che suscitava dubbj proprio in quel caso
specifico. Qui erano in gioco le morti non di due bambini estranei tra loro ma di
due fratelli (sibling) nati dagli stessi genitori e allevati nello stesso ambiente, in
cui potevano essere intervenuti fattori comuni ambientali o genetici. In effetti fu
fatto vedere da un matematico inglese, R.Hill, che, se la probabilità calcolata è
basata sulla probabilità dell’indipendenza, tale indipendenza è di fatto improbabile.
In base ad altri calcoli si stimò che la probabilità che i bambini fossero stati
assassinati era del 50%, il che è sufficiente a scagionare l’accusata.
Il ragionamento che alla fine scagionò la Clark è ineccepibile, ma possiamo
anche vedere le cose in altro modo: la signora Clark era stata incarcerata non
per una evidenza diretta ma per il tipo di evidenza che Woods chiama
circostanziale (inferita per ragionamento) che, come abbiamo visto, è quella più
soggetta ad errori.
Ciò che è grave nel caso di Sally Clark non è tanto che ci fosse un errore nel
ragionamento statistico, ma che nessuno si fosse preoccupato di trovare almeno
un indizio supplementare e indipendente per l’ipotesi dell infanticidio. In ogni
giallo che si rispetti alla fine l’assassino, individuato con un ragionamento
abduttivo dal sagace detective, o confessa (quindi offre una prova indipendente)
oppure si incontra una prova ulteriore e definitiva –la controprova- che lo
inchioda alla sua colpevolezza.
Nel dizionario etimologico alla voce “controprova”si incontra questa
definizione doppia definizione:“Nei Tribunali, la prova per testimoni, che viene
fatta per distrugere i risultati di quella già esaurita dalla parte contraria”; ma
anche “novella prova fatta in modo diverso dalla prima, per accertare l’esattezza
di questa”. E’ questa l’accezione che viene usata nel nostro contesto.
Il ricorrere del sottotermine “contro-” nel termine “controprova”, che
apparenta erroneamente il termine “controprova” ad altri come
“controfattuale”o “controdeduzione”, non ha significato negativo. In termini
italiani come “controfigura”, “contrappunto”, “controfirma”, il ricorrere del
bisillabo “contro” non ha il senso dell’ opposizione ma del rafforzamento per
duplicazione.
Per esprimere lo stesso concetto a volte nel linguaggio scientifico a volte si
usano termini apparentemente più neutri , come “riprova”, e nel linguaggio
popolare locuzioni derivate alla lontana dal gergo scientifico come “la prova del
nove”. 5In inglese lo stesso concetto è espresso dal termine “cross-check”, che
Ricordiamo che “la prova del nove” consiste di una procedura che si può descrivere con un esempio . Supponiamo
di moltiplicare 16 x 24 = 384 . Il risultato potrebbe contenere un errore di calcolo. Questo
naturalmente è ridotto nell’impiego dei calcolatori elettronici, ma non è completamente escluso in quanto
non sono mai esclusi difetti di costruzione o di alimentazione)
Somma cifre
primo numero
(1+6 =) 7
Somma cifre
secondo numero
(2+4)=)6
Somma cifre
prodotto dei 2 numeri dei
quadranti superiori
42 4+2 =6
Somma cifre
risultato "ipotetico"
3+8+4 = 15
5
indica il riscontro dell’esattezza.
8. Il ragionamento controfattuale e la nozione di inferenza razionale.
Prima di proseguire cerchiamo di tratteggiare alcune considerazioni ai fini di
bilancio provvisorio. Nessuno può negare che il calcolo della probabilità e i
metodi statistici siano imprescindibili nella ricerca scientifica e
nell’accertamento della verità giudiziaria.
Il problema che abbiamo riscontrato è però il seguente: tanto nella scienza che
nel diritto si fa largo impiego di ragionamenti non- deduttivi (chiamiamoli
ampliativi includendo per semplicità anche i condizionali controfattuali) in cui
non è affatto chiaro che la probabilità abbia un ruolo unificante. Abbiamo anzi
visto che un uso incontrollato degli assiomi di Kolmogorov porta a risultati
paradossali. Di qui l’ insistente ricerca di logiche alternative, come la logica
neobaconiana di Cohen o la fuzzy logic di Zadeh. Aggiungiamo qui una
considerazioni di solito trascurata. Spesso si fanno asserti come “la probabilità
che si tratti di una coincidenza è å” oppure “la probabilità che i due eventi siano
interdipendenti è molto alta”. Ma se si insiste nel trattare la indipendenza o la
coincidenza (quindi la dipendenza) come una proprietà definibile in termini
probabilistici, asserti come i suddetti diventano asserti del secondo ordine, cioè
asserti probabilistici vertenti su asserti probabilistici. Orbene, il modo per
calcolare probabilità del secondo ordine non è garantito dagli assiomi di
Kolmogorov, e i tentativi di estendere questi assiomi con principi per la
probabilità di secondo ordine sono per ora insufficienti. Sembra ci siano buoni
motivi, dunque per evitare una definizione probabilistica (nel senso della
probabilità classica) delle nozioni che entrano nei ragionamenti ampliativi,
anche se ovviamente questi ragionamenti sono per strutturalmente esposti ad
avere un certo margine di inesattezza. Bisogna prendere atto in ogni caso che
manca a tutt’oggi una teoria comprensiva del ragionamento ampliativo che
abbracci tutti questi tipi di ragionamento in modo soddisfacente.
Senza pretendere di dire l’ultima parola, cercheremo rapidamente di
abbozzare, se non una teoria, almeno alcuni punti fermi per stabilire ciò che si
intende per inferenza razionale e inferenza ragionevole. Queste considerazioni
serviranno come premesse per gli sviluppi successivi.
Cominciamo con l’osservare che nell ‘inferenza non-deduttiva si danno casi in
1 +5 =6
Se i risultati delle due somme eseguite nei quadranti inferiori coincidono
questo prova che non c’è stato nessun errore nella moltiplicazione
cui gli stessi dati possono portare a conclusioni che sono egualmente plausibili
ma incompatibili tra loro.
Per illustrare questo fenomeno è utile ricorrere all’effetto gestaltico in
psicologia. Il più noto dei disegni Gestaltici è il c.d. “cubo di Necker”.
Nella letteratura epistemologica è diventato popolare l’effetto duck-rabbit (si
trova in Wittgenstein , ma fu ripreso da Kuhn per illustrare l’idea della visione
“carica di teoria”). in cui alcuni soggetti vedono un coniglio, mentre altri
vedono un papero.
In tutti i casi di effetti gestaltici ottici si ha motivo di credere che l’aggiunta o la
sottrazione di informazione grafica o percettiva disambigui l’immagine iniziale.
Si dice a volte che queste esperienze visive non sono verbalizzabili. Ma noi
supporremo che esse possono descritte con enunciati veri o falsi. Per
esempio nel caso del duck-rabbit possiamo dire:
a) Nel quadro informativo K il disegno a è la rappresentazione un papero
b) Nel quadro informativo K il disegno a è la rappresentazione di un coniglio
Ma noi accettiamo anche il postulato che
(I) Se un segno a rappresenta correttamente un oggetto O, non può
rappresentare correttamente anche un O’ diverso da O.
Questo perché una rappresentazione è corretta quando esiste una funzione,
cioè una corrispondenza univoca, tra il segno e ciò che essa intende
rappresentare. Diverse immagini possono rappresentare uno stesso oggetto, ma
un’immagine non può rappresentare più oggetti simultaneamente. Quindi i due
enunciati a) e b) non possono
essere simultaneamente veri, anche se possono essere simultaneamente falsi.
Qualcuno può pensare che il disambiguamento si abbia non aggiungendo
ma cancellando informazione da K. Questo certo si può fare per le immagini –
cancellando dei punti o dei segni da un disegno- ma
con la verità è
un’operazione più difficile. Io posso ipotizzare che in un
certo mondo possibile qualcosa di attualmente vero non sia vero (come nel
caso dei controfattuali o dei condizionali “come se”), ma non posso
intenzionalmente eliminare dal mio stato conoscitivo informazione che ho già
acquisito (non posso fingere di non sapere qualcosa che so). Si può discutere
molto sul concetto stesso di informazione, che è stato oggetto di varie analisi. Se
l’informazione non è identificata con lo stato epistemico di un soggetto ma una
grandezza indipendente dai soggetti allora la distruzione di informazione è una
possibilità innegabile.
La distruzione di un data-base o di un libro – per non parlare di un’intera
biblioteca, come l’antica biblioteca di Alessandria, comporta una perdita secca di
informazione in questo secondo senso.
Daremo per scontato, comunque, che la scienza procede conservando
informazione passata e che, entro la scienza, l’informazione sia una grandezza
che,come l’entropia, è destinata a crescere senza limiti. L’ accrescimento di
informazione può portare a una modifica delle relazioni inferenziali tra
proposizioni.
Supponiamo che rispetto all’informazione K da A si inferisca B.
Se K è esteso con nuova informazione K’ può darsi che da K+K’ non si riesca
più a fare l’inferenza da A a B. Quando una relazione inferenziale ha questa
proprietà si dice che è non-monotòna. Si ricorderà che abbiamo già incontrato
una relazione di inferenza non monotona, che è quella operante nella
spiegazione statistico-induttiva. Supponiamo infatti che l’explanandum E sia
inferibile dall’explanans CL in modo tale che Pr(E| CL) =1-. Può darsi
benissimo che aggiunginedo altri elementi informativi a CL il valore di
probabilità sia più basso di 1-, cosicché la nuova informazione cancella
l’inferenza esplicativa. I condizionali controfattuali soffrono dello stesso
inconveniente: Infatti se può essere vero
a) Se il fiammifero fosse stato sfregato si sarebbe acceso
Non può esserlo
b) Se il fiammifero fosse stato bagnato e sfregato si sarebbe acceso.
Inoltre che crede vero a) potrebbe rifiutare a) se venisse a sapere che quel
particolare fiammifero era, per esempio, difettoso oppure che mancava
ossigeno nella stanza ecc.
Si può mostrare ora come il ragionamento controfattuale può produrre un
fenomeno simile a quello delle immagini gestaltiche.
Supponiamo di avere un K che è il seguente (celebre esempio di Quine)
1) Compatrioti sono persone della stessa nazionalità
2) Bizet era francese
3) Verdi era italiano
Supponiamo ora controfattualmente :
4) Bizet e Verdi erano compatrioti.
L’insieme formato da 1-4 (K + 4) è incoerente e , per la logica classica, ne
segue tutto. Se vogliamo distinguere controfattuali veri da controfattuali falsi
dobbiamo identificare dei sottoinsiemi coerenti di K + 4).
Possiamo eliminare da K 1),2) o3).
Eliminando 2) otteniamo come conclusione
(BI)“Bizet era italiano”
mentre eliminando 3) abbiamo
(VF) “Verdi era francese”.
Le conclusioni sono ambedue legittime. Ma non possono essere
simultaneamente tali perché lo sarebbe anche la loro congiunzione . Quindi
dall’ipotesi che i due grandi operisti sono compatrioti seguirebbe che l’uno è
italiano e l’altro francese, il che è un’assurdità.
Ciò che è certo è che è vera la disgiunzione
(BI v VF) Bizet era italiano o Verdi era Francese
ma i casi in cui essa è vera ci riportano alla difficoltà originaria.
Dunque BI e VF sono due condizionali falsi? Questo è quanto sostenuto da
molti filosofi. Il problema si pone anche per condizionali leggermente diversi,
che Goodman chiamava controidentici
Per esempio
(+) Se fossi Verdi avrei scritto “La donna è mobile”
(Si noti che questo non è esattamente lo stesso di
(++) Se Verdi fosse me, Verdi avrebbe scritto “La donna è mobile”
Infatti (++) è falso perché io non ho mai scritto “La donna è mobile”)
Dove entra in gioco l’effetto Gestalt è nella equiplausibilità delle conclusioni
per certi valori di K. Per esempio, può darsi che K contenga “ io detesto ‘La
donna è mobile’”. Se aggiungo questa vera informazione a K, ottengo
(+-) Se fossi Verdi non avrei mai scritto “La donna è mobile”.
che è incompatibile con (+)
Questo è un caso in cui l’aumento di informazione crea un effetto gestaltico,
anziché eliminarlo: è quindi effetto del carattere non-monotono dell’inferenza.
Qualche premessa può essere utile.
a)Uno dei fini distintivi della scienza è l’accrescimento dell’informazione.
b) Lo scienziato, a differenza p.es. del giornalista o del critico d’arte, deve tener
conto di tutta l’informazione disponibile e non solo di una parte, anche se
selezionata. di questa .
Una volta questo si chiamava requisito dell’evidenza totale Ovviamente questa
non è l’unica massima che dirige l’attività scientifica, perché la scienza tende
all’astrazione, che in un certo senso opera in direzione opposta :
semplificazione dell’informazione. Inoltre il principio vale solo come
idealizzazione, perché ovviamente non si può conseguire in tempo finito.Nello
spirito del principio dell’evidenza totale si ha comunque
che dovendo
scegliere tra insiemi di enunciati da usare come premessa per un ragionamento
si sceglierà quello più informativo.
Ora una cosa di solito ignorata è che in tutti i casi, se da un certo insieme K
si può derivare un controfattuale, si può anche derivare da K una
conclusione incompatibile. Sia K per esempio
L: Tutti i fiammiferi sfregati in condizioni ottimali si accendono Pr(B/A) = 1
1) Il fiammifero a non è stato sfregato
2) Il fiammifero a non si è acceso
Supponiamo ora di aggiungere l’ipotesi controfattuale che nega 1):
E’ falso che il fiammifero a è stato sfregato.
I controfattuali asseribili con verità in realtà sono due:
a)-Se il fiammifero a fosse stato sfregato si sarebbe acceso.
b)-Se il fiammifero fosse stato sfregato sarebbe l’esempio di un fiammifero
sfregato che non si accende 6.
Ma è chiaro che, comunque si consideri b), a) e b) sono enunciati
incompatibili esattamente come nel caso Bizet-Verdi.
Quindi a rigore una conclusione inoppugnabile sarebbe questa disgiunzione:
(*) O il fiammifero sfregato si sarebbe acceso o sarebbe l’esempio di un
fiammifero sfregato in condizioni ottimali che non si accende.
Per quale motivo si tende invece a concludere con a) ?
La conclusione del controfattuale a) si ottiene eliminando il fatto 2), mentre
(b) è ottenuta eliminando una legge. E, comunque si voglia definire il contenuto
informativo, il contenuto informativo di una legge è sempre superiore a
quello di un qualsiasi fatto singolare.
Questo è il motivo per cui i condizionali ordinari non sono controfattuali
gestaltici.
Anche in casi in cui il contesto K è ridotto al minimo i controfattuali
generano due conclusioni incompatibli. Esempio:
§) Se Apollo fosse uomo sarebbe mortale
§§)Se Apollo fosse uomo sarebbe l’esempio di un uomo immortale.
Dunque il ragionamento controfattuale, per offrire conclusioni attendibili,
consiste di fatto nella scelta di un sottoinsieme di K compatibile con h che
contiene il massimo di informazione compatibile con h.
Che accade quando questa scelta non è possibile perché le due conclusioni ci
sembrano indifferent? L’aggiunta di informazione allo
stock K può eliminare l’ambiguità e può risolvere anche il caso dei
Si può discutere sul fatto che b) sia un vero condizionale. Esso ha il senso di un “ anche se”:
“Anche se fosse
stato sfregato non si sarebbe acceso” che è detto talora semifattuale o, come si può dire
meglio, un semicondizionale.
6
controfattuali gestaltici. Riprendiamo il caso Bizet-Verdi. Supponiamo di
scoprire una lettera di Verdi da cui si viene a sapere che Verdi odiava la
Francia e la popolazione francese. Inoltre si viene a sapere che Bizet voleva
chiedere la cittadinanza italiana. Inoltre aggiungiamo la legge
L°: Chi odia una nazione, non accetta di essere cittadino di questa nazione.
In tal caso non si può dire che le conclusioni sono egualmente plausibili.
La conclusione “Verdi sarebbe stato francese” è incompatibile con questa
informazione supplementare, quindi ci costringe a rimuovere più
informazione che nell’altro caso.
Dunque abbiamo stabilito che ciò che entra in gioco nell’ inferenza
controfattuale è una scelta tra conclusioni conflittuali. Ma qual è la natura
dell’inferenza che porta a ciascuna di tali conclusioni?
Si può dire che c’è una legge logica o non-logica che fa da ponte tra
antecedente e conseguente. Secondo alcuni filosofi è sufficiente il linguaggio
probabilistico per rendere questo rapporto. Come già sappiamo, è disponibile la
relazione Pr(B|A) = 1 (margine di errore) che può variare contestualmente, con cui vogliamo così
esprimere l’ideale della conclusione “al di là di ogni ragionevole dubbio” che è
richiesta dal diritto penale. In questa sede possiamo darne una versone modale:
quasi tutti o tutti i mondi possibili in cui è vero A sono mondi in cui è vero B.
Quando si impone una scelta tra conclusioni conflittuali possiam parlare di
inferenza razionale. I controfattuali sono basati su inferenze razionali in cui
l’antecedente è noto essere falso. Se l’antecedente è vero siamo di fronte a quelli
che chiamiamo condizionali fattuali. Se il valore di
verità dell’antecedente è sconosciuto parliamo di condizionali afattuali. (I latini
parlavano di periodi ipotetici della irrealtà, della realtà e della possibilità).
Si è visto dunque che i controfattuali ci pongono sempre di fronte alla scelta
razionale tra conclusioni incompatibili. Ma anche nei condizionali fattuali,
anche se meno evidente, si impone una scelta del genere.
È questa la lezione che si ricava dal cosiddetto “ paradosso di Goodman”, che
abbiamo già esaminato a suo tempo.
Qui in base a due ragionamenti inoppugnabili, ci troviamo di fronte a due
conclusioni incompatibili : gli smeraldi futuri saranno verdi /gli smeraldi
futuri sarannno blu.
Abbiamo gli elementi per compiere una scelta? Sì, se si considera che ogni
stock di informazione dovrebbe contenere il principio di Uniformità della
Natura (UN), che essendo di tipo infinitario (cioè si riferisce a un numero
infinito di fatti) ha un massimo contenuto informativo. Allora in base a UN
bisogna respingere qualsiasi conclusione che comporta latrasformazione
cromatica degli smeraldi e accettare semplicemente che iprossimi smeraldi
saranno verdi.
Anche qui, dunque, la conclusione incontrovertibile è una disgiunzione.
(Dopo il 2500 gli smeraldi sono blu o sono verdi), ma la razionalità consiste
nell’eliminare un disgiunto incompatibile con una legge di alto contenuto
informativo.
Quindi si può legittimamente sostenere che il ragionamento induttivo, è
ottenuto per selezione razionale di una conclusione. Qualcuno può pensare che
non si diano casi di induzione gestaltica, analoghi a quello Bizet-Verdi, ma
questo non è vero: anzi fa parte della vita quotidiana sperimentare che vale
l’opposto.
Un esempio è questo. Supponiamo che K contenga queste informazioni
1) Un certo aereo a ha i motori costruiti dalla casa X ed appartiene alla
compagnia Y
2) La compagnia Y non ha mai avuto incidenti
3) I motori della casa X si sono rivelati difettosi
Conclusione 1:
I prossimi voli dell’aereo a sono rischiosi
Conclusione 2:
a sono sicuri.
Perché scegliere 1 piuttosto che 2?
Questo fenomeno gestaltico è ben noto alle compagnie aeree, che nascondono
i dati sullla sicurezza dei propri voli perché molti si aspettano che gli incidenti
siano ineluttabili e che le case aeree che non hanno mai avuto incidenti, anziché
essere più sicure, sono le più rischiose. Infatti abbiamo due generalizzazioni in
K che possono generare conclusioni incompatibili:
1) La compagnia X non ha mai avuto incidenti
2) Tutte le compagnie aeree prima o poi hanno incidenti
Supponiamo che la compagnia X non abbia mai avuto incidenti. Si può
concludere tanto che la compagnia X avrà presto un incidente quanto che non
lo avrà. Che cosa può far pendere la bilancia da un lato? Per esempio un
incidente della compagnia X!
Altro esempio. Si supponga che qualcuno trasferisca una coppia di orsi bruni
al Polo Nord e si chieda: di che colore saranno i cuccioli?
Qui ho due leggi:
a) Tutti gli animali che vivono al Polo sono bianchi.
b) Tutti i cuccioli di orsi bruni sono bruni
Domanda: I cuccioli di questa coppia saranno bianchi o neri? Prima facie
sono legittime tutte e due le risposte. Si noti che la probabilità è sempre 1-, se
dipende da qualche sottoinsieme di K. Ma la legge b) dipende dalla teoria
darwiniana, che spiega la legge, quindi ha la precedenza. Il motivo per cui va
respinto a) è che a) non è
una vera legge, anche se può essere accidentalmente vera. La legge è un’altra,
cioè che tutte le specie animali che hanno il Polo come habitat naturale sono
tendenzialmente bianche, e questo non riguarda animali accidentalmente
trasferiti al Polo.
Chi ha visto chiaramente il ruolo dell’informazione di sfondo nel
ragionamento è stato Hempel nel precisare la teoria della spiegazione statisticoinduttiva Hempel ha visto chiaramente che, a differenza della spiegazione
nomologico-deduttiva, la spiegazione IS è sensibile alla quantità di
informazione che compare nella premessa. Come abbiamo già visto, questo è ciò
che si intende per “inferenza non-monotòna”.
Nella spiegazione IS - come noi abbiamo richiesto- la conclusione deve seguire
dalle premesse con probabilità 1-. Supponiamo per esempio che la domanda (il
problema ) sia: Perché Rossi si è ristabilito in tre giorni dall’ operazione?
Spiegazione: Perché è stato operato di appendicectomia e quasi tutti quelli che
sono operati di appendicectomia, come lui, si
ristabiliscono. Ma supponiamo di aggiungere - informazione supplementare che Rossi ha 95 anni. Allora qui dobbiamo tener conto di una seconda legge,
L*: Quasi tutti coloro che hanno 95 anni non si ristabiliscono da operazioni
chirurgiche.
La spiegazione precedente quindi è errata. Se Rossi è soprravvissuto, non può
essere per la ragione sopra menzionata. Questo è un effetto Gestalt?
Decisamente sì: abbiamo due sottoinsiemi coerenti dello stesso insieme di
informazioni che danno origine a conclusioni abduttive opposte . Hempel esige
la regola dell’evidenza totale o meglio della sua variante che è il principio della
massima specificità: ogni explanandum deve essere descritto don la massima
specificità consentita dalle informazioni disponibili. In tal caso qualsiasi
spiegazione deve tener conto del massimo di evidenza favorevole e contraria.
Non è qui la sede per fare un discorso sulla diversa posizione dei positivisti
e degli anti- o post- positivisti sul problema della spiegazione. Kuhn ha
paragonato il mutamento teorico a un cambiamento gestaltico. Per lui possono
esserci spiegazioni gestalticamente diverse dello stesso fenomeno (per esempio
il tramonto del sole) in dipendenza da paradigmi diversi.
Sono i paradigmi che selezionano l’evidenza, e non l’evidenza che seleziona i
paradigmi.
Il punto di vista qui sostenuto è antikuhniano. Si ritiene che i fenomeni
gestaltici siano dovuti solo a insufficienza della conoscenza disponibile,e non
alla relatività dei punti di vista. Il progresso della conoscenza risolve i casi
perplessi, anche se può introdurne di nuovi.
Il caso dell’abduzione presenta, proprio in tema di relatività, un problema
supplementare rispetto alla deduzione e all’induzione. La selezione infatti è
effettuata entro un insieme di ipotesi che sono fissate dal ricercatore stesso con
un certo grado di arbitrarietà. Anche qui ci troviamo pure di fronte a situazioni
gestaltiche, così come nel caso dell’induzione e del ragionamento controfattuale.
Sherlock Holmes nelle sue indagini di tipo abduttivo si basa sullo slogan più
volte ripetuto “Eliminati tutti i fattori quello che rimane, per quanto
improbabile, deve essere la verità”. (“Il segno dei quattro” contiene un capitolo
intitolato “The Science of Deduction”). Tuttavia in Holmes si ha da un lato il culto
dei “duri fatti” in quanto opposti a spericolate ipotesi teoriche, dall’altro si
trova una consapevolezza quasi postpositivista che non ci sono fatti che
parlano da soli. “Le prove schiaccianti sono un vero imbroglio” replicò
Holmes con aria pensierosa.“Sembrano indicare una cosa con la massima
chiarezza, ma se si sposta appena un po’ il proprio punto di vista, possono
indicare con altrettante chiarezza una cosa completamente diversa” (Il
mistero di valle Boscombe). Riparafrasando le idee in termini familiari,
Holmes sembra dire che ci sono casi in cui l’informazione disponibile
suggerisce due conclusioni completamente diverse o addirittura opposte. Per
trattare astrattamente la situazione in linguaggio modale: abbiamo uno stock di
informazioni K e due sottoinsiemi K’ e K” tali che
1)Quasi tutti i mondi in cui è vero K ‘ sono mondi in cui Rossi è innocente
2)Quasi tutti i mondi in cui è vero K’’ sono mondi in cui Rossi è colpevole.
Ma, rispetto al caso dell’inferenza induttiva o controfattuale, si pone un
problema . Nel caso dell’induzione e del ragionamento controfattuale la nuova
informazione elimina la disgiunzione di conclusioni incompatibili , mentre nel
caso dell’abduzione l’informazione aggiuntiva potrebbe introdurre nuove
ipotesi non prese in considerazione prima, eventualmente eliminando tutte le
ipotesi iniziali. Dunque il problema primario da risolvere nel caso
dell’abduzione è quello della esaustività delle ipotesi generate. In altri termini
bisogna cercare di generare tutte le ipotesi possibili, senza trascurare le più
improbabili, in modo tale che la probabilità della loro disgiunzione si
approssimi a 1.
Il problema della generazione è aggravato dal fatto che si esige non solo
l’esaustività delle ipotesi ma la loro incompatibilità. Si pensi che si è ritenuto per
anni che la teoria corpuscolare e quella ondulatoria fossero incompatibili. Ma
oggi non siamo sicuri che le ipotesi fossero esclusive. La luce potrebbe essere
qualcosa di differente da un’onda e da un corpuscolo (potrebbero essere una
wavecle) , oppure potrebbe essere un ente tale da presentare simultaneamente
aspetti tanto corpuscolari che ondulatori.
Si noti, incidentalmente, che si possono anche dare dei casi di ridondanza
esplicativa. Ci resta il dubbio, per esempio, sulle cause di un incidente
automobilistico senza testimoni: improvvisa rottura dei freni o malore del
guidatore? La probabilità (statistica) che si siano verificate insieme le due
sfortunate circostanze è talmente bassa da superare la soglia di ciò che
giudichiamo ragionevolmente possibile. Ma non si può logicamente escludere
che si siano verificate insieme in quello specifico caso.
Si noti che questo ci porta a riformulare meglio dal punto di vista combinatorio
il ventaglio delle ipotesi. Invece di esaminare la disgiunzione h1 o h2 , dovremo
esaminare la disgiunzione h1 o h2 o (h1 & h2).
Il discorso sull’abduzione si salda con il discorso sulla percezione Gestaltica.
Infatti Peirce ha insistito sul fatto che la categorizzazione dei dati percettivi non
è qualcosa di immediato o automatico ma dipende da un ragionamento
abduttivo compresso, dovuto ad automatismi psichici. Supponiamo di entrrare
in una stanza chiusa, tocchiamo un tessuto e lo classifichiamo come lana. Questo
significa operare, anche se in modo inconscio, un’abduzione, cioè inferire che la
causa (la spiegazione) della sensazione è un tessuto di lana. Recentemente si è
parlato anche di abduzione visuale. Il caso della percezione gestaltica del DuckRabbitt sarebbe quindi un caso di abduzione visuale in cui soggetti diversi
derivano una conclusione sulla base di insiemi informativi differenti.
Concludendo, le varie forme di ragionamento non dimostrativo che abbiamo
esaminato hanno tutte in comune il fatto di comportare una scelta tra
conseguenze in un certo senso incompatibili. La conclusione che viene scelta è
quella derivata da un sottoinsieme di K che conserva il massimo di informazione
disponibile.
Ogni inferenza razionale quindi è tipo di inferenza basato sul criterio della
minima perdita di informazione. Si può usare il termine ragionevole per indicare
che il nesso inferenziale tra A e B non è stabilito solo con ragionamenti
probabilistici o statistici ma con l’impiego effettivo di leggi di natura che
facciano da ponte tra antecedente e conseguente7.
7
9 Questo punto non può essere approfondito in questa sede. Basti osservare che un alto
valore di Pr(B|A) potrebbe essere derivato semplicemente da un ‘alta probabilità a priori
di B, non a ragione di un nesso tra A e B.
Naturalmente altri criteri di selezione potrebbero essere adottati, per esempio
facendo leva su maggiore probabilità o maggiore verosimiglianza o maggiore
semplicità della conclusione. Ma la quantità di informazione è il più importante,
in quanto la massimizzazione di questa grandezza è uno degli obiettivi che
distinguono la scienza da altri sistemi di pensiero.
Resta solo da considerare che la teoria dei controfattuali dominante oggi,
dovuta sostanzialmente a David K.Lewis, è molto diversa da quella sopra
delineata. Infatti è basata non sul confronto tra le quantità di informazione ma
sull’idea del confronto di somiglianza tra mondi possibili.
Secondo Lewis, il condizionale A > B è vero in un mondo w se gli A-mondi
più simili a w sono B –mondi.
Esempio:
“Se Hitler avesse invaso l’Inghilterra nel 1940 avrebbe vinto la guerra”
significa “I mondi possibili più simili all’attuale in cui Hitler ha invaso
l’Inghilterra nel 1940 sono mondi in cui Hitler ha vinto la guerra”.
Purtroppo ci sono inferenze valide per Lewis che non lo sono per la teoria
dell’ inferenza ragionevole sopra enunciata.
“Se Bizet e Verdi fossero compatrioti la terra sarebbe sferica” è valido per Lewis
in quanto i mondi possibili più simili al nostro in cui Bizet e Verdi sono
compatrioti sono mondi in cui la terra è sferica. Ma il conseguente non è
derivato dall’antecedente per vie di qualche legge logica o fisica, e l’inferenza
non appare ragionevole. Del resto per la teoria di Lewis risulta valido un
teorema che consente di inferire, da (A &B), sia A > B che B > A. La regola
non riguarda i controfattuali ma condizionali fattuali, cioè con antecedente e
conseguente vero, e dipende dall’inevitabile assunto che il mondo attuale è
quello più simile a se stesso. Questa formula asserisce che ogni condizionale è
vero purchè le due clausole siano vere –per esempio “se i prati sono verdi
Giulio Cesare ha conquistato la Gallia” - il che in un certo senso banalizza tutta
la teoria per la parte riguardante i condizionali fattuali.
C’è un senso tuttavia in cui anche la teoria di Lewis si può pensare basata
sulla conservazione dell’informazione. Secondo Lewis nel ragionamento
controfattuale c’è un’asimmetria tra passato e futuro. Facendo un’ ipotesi
controfattuale a suo avviso bisogna conservare tutti i fatti antecedenti
cronologicamente all’ipotesi, ma non quelli cronologiamente successivi. A suo
avviso i mondi possibili più simili all’attuale sono quelli che hanno in comune
con il mondo attuale la maggior parte dei fatti che precedono il momento in cui
dovrebbe verificarsi l’ipotesi controfattuale.
Il prezzo da pagare per questa asimmetria però è la sospensione di leggi di
natura, cioè l’ammissione di ipotetici miracoli. Se per esempio dico
“Supponiamo che il barometro ieri non si sia abbassato ” secondo Lewis i
mondi più simili all’attuale in cui l’ipotesi è vera sono mondi in cui viene
conservata una depressione atmosferica precedente, il che significa che nei
mondi più simili all’attuale in cui il barometro ieri non si è abbassato ciò si è
verificato senza causa apparente. Viene quindi eliminata la legge di natura
secondo cui la depressione è sempre seguita dall’abbassamento del barometro.
Dal nostro punto di vista questo è però errato perché le leggi hanno un
contenuto informativo maggiore dei fatti singoli, e quindi vanno sempre
conservate nel caso in cui si sia di fronte ad una scelta.
9. La teoria controfattuale della causa e l’accertamento delle cause.
L’abduzione, come abbiamo visto, è l’inferenza alla migliore spiegazione. Ma
le spiegazioni più soddisfacenti sono le spiegazioni causali. Per questo motivo
molti hanno semplificato il concetto di abduzione definendo l’abduzione
semplicemente come l’inferenza dagli effetti alle cause. In effetti questa
riduzione è lecita se facciamo coincidere la relazione esplicativa con la relazione
causale. Questa identità in effetti è stata teorizzata da Hempel e dai
neopositivisti, con il sostanziale consenso di deduttivisti come Popper. Come si
è visto, dal punto di vista Hempeliano la relazione esplicativa è quella che
intercorre tra explanans ed explanandum. Complessivamente l’explanans è una
condizione sufficiente per l’explanandum, quindi i suoi elementi C1…Cn sono
sufficienti per l’explanandum in congiunzione con altri elementi. L’inconveniente
di questa dottrina è che qualsiasi correlazione statistica può essere classificata
come causale, portandoci quindi a cadere nella più classica e fastidiosa fallacia
di ragionamento causale.
Il neopositivismo, che ha sempre professato qualche forma di riduzionismo
causale , ha tentato di eliminare il linguaggio causale a favore di quello
probabilistico, con tentativi spesso ingegnosi ma poco soddisfacenti. Per
esempio la teoria probabilistica della causa di P.Suppes, ispirata da
Reichenbach, si riduce ad asserisce che la causa è ciò che incrementa la
probabilità dell’effetto, a meno che non esista un terzo evento antecedente che
annulla il peso probabilistico della presunta causa. Sono molti i controesempi
che si potrebbero opporre a questa tesi, alcuni dei quali dovuti a certe classi di
valori probabilistici. Se , per esempio, l’evento successivo ha già un grado di
probabilità pari a 1 (per esempio il sorgere del sole domani mattina) , non c’è
niente che possa innalzare il suo valore di probabilità , e quindi
risulta,paradossalmente, non causato da nulla. Che dire inoltre quando la
presenta causa abbassa la probabilità dell’effetto: per esempio quando una
pallina da golf urta contro un ramo e , a causa di questo, per un improbabile ma
possibile colpo di fortuna, finisce in buca?
La dottrina della condicio sine qua non, impiegata nei tribunali da secoli e
probabilmente derivata dal diritto romano, non presenta questo difetto, anzi si
può anche sostenere che i controfattuali, correttamente formulati, si possono
presentare come strumento per l’eliminazione delle correlazioni spurie. Viene
quasi spontaneo osservare che l’abbassamento del nostro barometro non può
essere causa del temporale di stasera perché, se non ci fosse l’abbassamento del
barometro a ragione dell’assenza di barometri, il temporale si verificherebbe
egualmente.
Questo esempio però è utile a far riflettere sulla forma logica di questo tipo di
giudizi. L’asserto “l’abbassamento del mio barometro è causa di tempesta”
implica il controfattuale
(°°) Se il mio barometro non si fosse abbassato non ci sarebbe tempesta”
Secondo la semantica d David Lewis, che ha rilanciato la teoria controfattuale
della causa nel 1970, (°°) va reinterpretata così:
Nei mondi possibili più simili all’attuale in cui il mio barometro non si è
abbassato non c’è stata tempesta.
È vero o falso? Dipende da come intendiamo la somiglianza. Secondo Lewis.
Come abbiamo già detto, i mondi più simili all’attuale per Lewis sono quelli
uguali all’attuale per quanto riguarda la storia passata fino al momento in cui il
barometro si abbassa; in questi mondi c’è una depressione atmosferica
antecedente ma, per qualche misterioso fenomeno (piccolo miracolo) il
barometro che dovrebbe abbassarsi non si abbassa. Dunque la somiglianza
consiste nella conservazione del passato, ma non nella conservazione delle leggi
di natura. Tutto questo è inammissibile se vogliamo poter dire che le leggi (v.
paragrafo precedente) servono a stabilire un rapporto consequenziale tra
antecedente e conseguente. Quando si ipotizza la negazione di un fatto si
sottintende che la classe delle leggi accettate resti stabile, in base al principio
della conservazione di informazione. Questo non significa escludere che
ancheuna legge potrebbe essere ipotizzata falsa. In questo caso si parla non di
controfattuali ma di controlegali. P.es.
“Se i pianeti ruotassero attoro al sole in orbite circolari anche la terra ruoterebbe
in un’ orbita circolare”
Queste ipotesi non sono oziose perché ci permettono di capire le conseguenze
di teorie false che un tempo erano considerate vere. Si noti che anche per i
controlegali vale il principio di conservazione dell’informazione, nel senso che
viene rimossa solo la legge ipotizzata falsa e tutti gli enunciati interconnessi con
essa, mentre vengono conservate tutte le leggi indipendenti dalla legge in
questione (tra cui quelle di livello superiore come, per esempio, il principio di
gravitazione universale).
Nel caso dei controfattuali che intervengono nell’accertamento delle cause,
invece, vengono ipotizzate delle mancate occorrenze di eventi singolari
(tokeneventi).
Gli eventi singolari sono eventi spazio-temporalmente determinati (es. “il
gatto Bilbo miagola alle 10.30 del 20 settembre 2008”), mentre gli eventi generici
(type -events) non hanno determinazioni spazio-temporali. Senza entrare in una
complessa discussione filosofica, qui stiamo assumendo che le relazioni causali
interevengono tra token-eventi, non tra eventi generici, leggi, proprietà,
proposizioni o altri tipi di relata. In particolare, sono da considerare improprie
asserzioni come “il sasso causò la rottura del vetro”, che fanno pensare a una
ontologia aristotelica secondo cui le relazioni causali intervengono tra corpi o
sostanze dotate di poteri causali.
Per essere più precisi, un evento semplice nel senso individuato è una tripla
[P, a,t] dove P è una proprietà, a è un oggetto , t è l’istante di inizio. Per esempio
se P= essere aperto, a=l’ingresso principale dell’Università Statale di Milano, t=
8.10 di oggi, l’evento in questione è l’evento per cui il portone della Statale è
aperto alle 8.10 di oggi.
Un evento complesso è una generalizzazione di un evento semplice in cui
intervengono relazioni multiple (p.es. “essere padre di”) anziché predicati
semplici, una molteplicità di enti anziché un unico soggetto, e un intervallo I
anziché un istante atomico t.
Scriveremo Oe, dove e=[P, a,t] per indicare che l’evento e occorre , cioè si
verifica. Questo asserto significa tre cose distinte:
1) Esiste realmente in t l’entità a
2) a ha la proprietà P in un intervallo iniziante con t
3) Prima di t a non ha la proprietà P
In altri termini 2) e 3) asseriscono che t è l’istante d’inizio della verità di “a è P”.
Da questa definizione segue che ipotizzare la negazione di Oe è una faccenda
complessa. Infatti negare Oe significa negare i tre elementi della congiunzione
di 1,2,3, cioè affermare uno dei tre almeno è falso. Quindi la negazione è
ambigua perché significa che o è falso 1 o 2 o 3.
Supponiamo per esempio di fare l’ipotesi che il mio barometro non si sia
abbassato alle 20.30 di ieri (istante di inizio del suo reale abbassamento).
Omettendo per semplicità di considerare la clausola 3, questa ipotesi è ambigua
perché in realtà si riduce ad una disgiunzione: o non esisteva il mio barometro
alle 20.30 di ieri o , se esisteva non si abbassato a partire dalle 20.30 di ieri. Si
noti che il secondo disgiunto è pure ambiguo, perché può essere inteso nel
senso che non si è abbassato affatto oppure che si è abbassato in qualche
momento diverso.
Per restare in questo esempio paradigmatico, chiediamoci se c’è un nesso
causale tra l’abbassamento di questo barometro alle 20.30 e l’evento “tempesta
verificatasi ieri a partire dalle 23 di ieri”. Per rispondere dobbiamo esaminare le
risposte a due domande distinte:
1) Se non fosse esistito il barometro in quel momento dello spazio-tempo ci
sarebbe stata la tempesta delle 23.30?
Risposta : Sì, ci sarebbe stata
2) Se l’abbassamento del barometro non si fosse verificato alle 20.30 ci sarebbe
stata la tempesta delle 23.30?
Risposta : No, non ci sarebbe stata
Le due domande controfattuali danno quindi delle risposte differenti, il che
significa che il nesso causale ipotizzato è falso.
Bisogna evidenziare che la relazione causale non va confusa con quella
esplicativa, anche se molti neopositivisti tendevano a fare questa identificazione.
Un celebre controesempio alla teoria hempeliana della spiegazione scientifica
(quindi alla teoria hempeliana della causalità) è quello, dovuto a Bromberger,
dell’asta della bandiera. La lunghezza dell’asta rende calcolabile esattamente,
data una certa posizione del sole, la lunghezza dell’ombra, ma con la stessa
esattezza si può risalire dalla lunghezza dell’ombra alla lunghezza dell’asta.
Questo significa che la relazione di spiegazione può essere simmetrica, forse
contro le intenzioni di Hempel. Tutto sommato questo non sembra così dannoso
come alcuni sembrano pensare. Nei rapporti di interazione, privilegiati dai
pensatori dialettici, ha un senso preciso spiegare a in termini di b e b intermini di
a. Supponiamo, riprendendo un vecchio esempio di Vailati, che due sfere
vengano fatte cadere simultaneamente entro un imbuto e si fermino una contro
l’altra. È giusto dire che la posizione della prima spiega la posizione della
seconda e la seconda spiega la posizione della prima.
Ma è fuorviante, secondo noi, dire che la posizione della prima causa la
posizione della seconda e anche viceversa. I motivi per negarlo sono almeno
due: 1) per ammettere questo bisogna ammettere che esistono dei casi di
causalità simultanea, mentre questo è escluso dal principio di azione ritardata
2)Se si ammette la transitività della causazione almeno entro intervalli brevi
allora, se a causa b e b causa a , a causa a. Quindi bisogna ammettere
l’autocausazione di a, il che è contrario ad ogni concepibile definizione di causa.
Applicando il metodo proposto è facile invece verificare che il controfattuale
“se il fiammifero non si fosse acceso alle 20.30 il pagliaio non si sarebbe
incendiato alle 20.31” è vero in quanto riposa su una risposta univoca ai tre
quesiti di cui sopra. In particolare, se non ci stato nessun fiammifero in quella
collocazione il pagliaio non si sarebbe incendiato (in quelle condizioni). La
lezione che si apprende da queste considerazioni è che normalmente la presenza
o esistenza reale dell’oggetto che fa parte del token-evento influisce
sull’accadimento dell’effetto. Infatti esso corrisponde a quella che Aristotele
chiamava causa materiale. Quando ciò non accade siamo di fronte a una grave
anomalia che ci impedisce di parlare di nesso causale.
Gran parte della confusione nelle discussioni sulla causalità risiede nel fatto
che c’è un numero ampio di nozioni causali di diversa forza e complessità. È
diverso dire che un evento rispetto a un altro è causa scatenante , determinante,
immediata, remota, … La teoria controfattuale della causa mira a individuare in
un condizionale controfattuale semplicemente la nozione di causa che è
minimale, quella cioè che è semplicemente il minimo comune denomiatore di
tutte le nozioni di causa. In quanto tale esso funziona in molti più come come
marchio per discriminare le relazioni causali da altri tipi di relazione che non
come espressione di causalità pregnante.
Per fare un esempio, prendiamo questi controfattuali veri in cui l’antecedente
precede il conseguente:
“Se Rossi non si fosse sposato non sarebbe divorziato”
“Se Cesare non fosse nato, non sarebbe morto assassinato”
“Se la fabbrica non avesse prodotto questo fiammifero, questo fiammifero non
si sarebbe acceso”.
In questi casi la nostra intuizione non suggerisce immediatamente la presenza
di un nesso causale, parte per la banalità della relazione, parte per la distanza
cronologica tra presunta causa e presunto effetto. Ma, se nessuno abitualmente
si sente di enunciare proposizioni causali di questo tipo (a meno che non si
intenda essere intenzionalmente scherzoso), bisogna anche ammettere che
nessuno negherebbe che un certo nesso causale, anche se debole, sussista tra i
suddetti eventi. Questo nesso può essere descritto come un nesso di rilevanza
causale e gli antecedenti si possono chiamare fattori causali. Tutte le relazioni
causali più importanti si lasciano descrivere come costruzioni basate su questa
relazione basilare.
Per esempio la relazione di causa determinante, che è la relazione causale piè
forte, di può definire in questo modo:
e1 è causa determinante di e2 = e1 è causalmente rilevante per e2 e e1 è un
elemento nella spiegazione hempeliana di e2.
Può anche essere che e1 non solo spieghi e2 ma che e1 sia inferibile
abduttivamente da e2 come la spiegazione migliore di e2 . in questo caso diremo
che e1 è causa completamente determinante per e2.
e1 è causa diretta di e2 = e1 è causa determinante e non esistono altre cause
determinanti intermedie tra e1 e e2.
e1 è la causa di e2 = e1 è causa determinante di e2 e non esistono altre cause
determinanti di e2 (almeno tra quelle che vengono prese in considerzione
nell’attuale contesto di ricerca).
Si noti che anche se il termine “causa” e “relazione causale” in italiano si
prestano a molte ambiguità, ci sono termini che opportunamente parafrasati
esprimono queste sfumature concettuali. Si pensi per esempio al verbo
“determinare”, che indica per l’appunto la relazione di causa determinante.
È il caso di osservare che l’affermrsi della concezione controfattuale della
causa, anche nel diritto, ha avuto una storia abbastanza complessa. Osserviamo
prima di tutto che Mill, rifacendosi sostanzialmente a Bacone, formulava quattro
metodi per la scoperta delle cause, che come è noto sono i seguenti:
1)Metodo dell’accordo
2) Metodo della differenza
3) Metodo congiunto dellàaccordo e della differenza
4) Metodo delle variazioni concomitanti
5) Metodo dei residui.
Studiando attentamente questi metodi ci si acccorge che il metodo più
importante è il metodo della differenza. Per esempio se dopo una gita
scolastica alcuni sono colpiti da qualche tipo di intossicazione elementare ci si
può chiedere
1) che cosa hanno in comune i ragazzi intossicati? Questo è il metodo
dell’accordo, ma è abbastanza chiaro che esso può portare a stabilire qualche
correlazione spuria . Per esempio i ragazzi intossicati potrebbero avere
mangiato tutti dei funghi, ma questa potrebbe non essere la causa perché si
potrebbe poi osservare che molti ragazzi, anche alcuni non-intossicati, anche
mangiato dei funghi. Forse si potrebbe scoprire anche che gli intossicati portano
tutti scarpe marroni, ma questa non si può chiamare causa.
2) che cosa hanno in comune i ragazzi non intossicati che li differenza da ciò che
hanno mangiato gli altri? Supponiamo di scoprire che la differenza è
il fatto che non hanno mangiato alcune barrette di cioccolato che hanno
mangiato gli altri. Questa è la differenza tra chi è stato intossicato e chi no.
Allora queste barrette, non i funghi, sono state la probabile
causa dell’intossicazione. Si noti che questa evidenza sostiene il controfattuale
“se i ragazzi intossicati non avessero mangiato cioccolato di quel tipo non si
sarebbero
intossicati” perchè si ritiene stabilita la legge “Tutti i ragazzi che in condizioni
pari a quelle della situazione vista non mangiano cioccolato del tipo analogo a
quello del momento non si intossicano”.
Con il metodo congiunto dell’accordo e della differenza riusciamo a stabilire
la
causa determinante. Supponiamo infatti di aver riscontrato che gli intossicati, e
solo loro, hanno mangiato cioccolato. Infatti l’aver mangiato cioccolato spiega il
verificarsi dell’intossicazione (in quanto descrive una condizione sufficiente per
questa) e nello stesso tempo stabilisce la condizione necessaria per lo stesso
fenomeno.
Si noti che, se le correlazioni stabilite sono di tipo statistico, l’applicazione del
metodo congiunto ci riporta al metodo statistico standard, visto a suo tempo,
per cui dobbiamo estrarre dall’universo un campione sperimentale e
confrontarlo con un campione di controllo: nel caso dell’esempio dobbiamo
calcolare la percentuale di quanti hanno mangiato cioccolato tra gli intossicati e
confrontarla con la percentuale di intossicati che non hanno mangiato cioccolato
(che nel caso dell’esempio ha un valore pari a 0).
Il Metodo delle Variazioni Concomitanti chiede di riconoscere come
relazioni causali quelli in cui il presunto effetto varia in dipendenza dalla
presunta causa. Per esempio potrebbe essere che l’intensità dell’intossicazione
varia in funzione della quantità di cioccolato consumata dai singoli ragazzi.
Anche questo si presta all’enunciazione di un controfattuale del tipo che è stato
chiamato “controcomparativo”: per sempio, “se Pierino avesse mangiato meno
cioccolato avrebbe avuto un minor grado di intossicazione”. In moti contesti
scientifici in cui le leggi funzionali correlano valori numerici (esempio: misura
della pressione e del volume nella legge di Boyle –Mariotte) i controcomparativi
possono avere delle quantificazioni: p. es. “Se Pierino avesse mangiato grammi
x di cioccolato avrebbe avuto un intossicazione al grado z”.
Ma qui naturalmente l’esempio mostra che c’è una forzatura nell’usare dei
valori numerici. Non ha molto senso stabilire dei gradi di intossicazione espressi
numericamente, anche se naturalmente si possono trovare degli indici utili (p.es.
numero di giorni di malattia, valori febbrili ecc.). In effetti il Metodo delle
Variazioni concomitanti è un’utilissimo metodo di riprova della validità dei
controfattuali causali, ma è un errore pensare che da solo conduca
all’accertamento dei nessi causali. Ciò si può dire per due sostanziali motivi:
1) Nei casi di biforcazione causale la causa spuria, o indizio, può benissimo
essere correlato funzionalmente con l’effetto, senza che ciò abbia a che vedere
con il nesso causale. Il caso del barometro è ancora indicativo. A valori
barometrici molto bassi possono corrispondere tempeste di particolare
lunghezza e intensità e, volendo, si può redigere una tavola di correlazioni tra
valori del primo e del secondo tipo. Ma , come abbiamo visto, il controfattuale
in questione risulta falso perché è l’esistenza o inesistenza dell’oggetto
barometro che va considerta per stabilire se la correlazione è spuria.
2) Ci sono molti casi di correlazione causale in cui la proporzionalità tra causa
ed effetto o non sussiste o sussiste entro una fascia limitata di valori. Un
bicchiere d’acqua lenisce la sete e due bicchieri ottengono un effetto
proporzionalmente maggiore. Ma questo non si può dire di 10 bicchieri
d’acqua,e far bere a qualcuno 100 bicchieri d’acqua si può considerare un
metodo di tortura.
Non bisogna inoltre dimenticare che la causa precede temporalmente l’effetto,
mentre in molte correlazioni funzionali tra tipi di grandezze non ha senso
stabilire la correlazione cronologica tra una variabile e l’altra. Così nei fenomeni
economici a spirale, come della correlazione aumento dei prezzi-aumento
deisalari, non viene fissato l’indice cronologico degli eventi, anche perché gli
eventi sono continui e si verificano simultaneamente, quindi è difficile
districarli. Per questo è importante che i giudizi causali siano sempre tra tokeneventi.
Quanto al Metodo dei residui, questo asserisce che se un fenomeno complesso
è stato parzialmente spiegato da una parte del fenomeno complesso C, quello
che resta da spiegare in E è prodotto dalla parte di C.
Ciò che interessa qui è valutare la concezione della causa di Mill. Secondo
Mill
la causa è necessaria all’effetto in un senso diverso da quello finora definito.
Infatti la sua idea è che la causa è un elemento necessario per comporre un
insieme di fattori che congiuntamente formano una condizione sufficiente per
l’effetto. Questa nozione di causa viene a volte designata con l’acronimo
NESS (Necessary Element of a Set of Sufficient conditions) e la si ritiene più
debole di quella di condizione necessaria. Il filosofo del diritto Richard Wright
ha recentemente sostenuto che NESS è la sola forma difendibile di causalità.
Sullo sfondo c’è la questione della distinzione tra causalità prossima e causalità
effettiva.I giuristi economisti continuano a basarsi sulla causalità probabilistica,
per cui la causa è ciò che incrementa la probabilità dell’effetto (aumento del
rischio).
Secondo Wright la responsaibilità per danno si basa su tre elementi:
a) comportamento illecito
b) causa effettiva
c) causa prossima
Cosa si intende per causa prossima? Si tratta di un concetto normativo : una
causa prossima è tipicamente definita come ” una causa che produce danno in
una sequenza naturale, diretta e continua senza cause sopraggiunte che
interrompono la catena causale. Wright aggiunge : “Alternativamente, una
causa prossima è definita come una causa lesiva che ha come risultato un danno
ragionevolmente prevedibile a un querelante ragionevolmente prevedibile”.
Sul piano giuridico e morale, l'espressione « la causa » è un modo ellittico per
indicare « la causa (responsabile) ».Hart e Honorè hanno chiarito un concetto
analogo in questo modo:
“Secondo questi principi del senso comune, tratti da un'analisi delle
affermazioni comunemente utilizzate per attribuire la responsabilità, un fattore
contribuente è « la causa », invece che una « mera condizione », se
soddisfa due requisiti: (1) deve essere (a) un intervento umano volontario (n.d.
R.) inteso a provocare una data conseguenza — ad esempio, sparare
deliberatamente a qualcuno — o (b) un evento, azione o condizione anomala
nel contesto particolare — per esempio, una tempesta anomala, o la guida
disattenta — e (2) deve essere, in ordine temporale, l'ultimo intervento
deliberato o evento indipendente anomalo (66).
Libertari come Epstein sono contrari al questo approccio. . Supponiamo che
sia vero"a minaccia di sferrare un pugno sul naso di b e c interviene per bloccare
il colpo. Questo è un caso in cui l'intervento di c arreca un benefìcio a b, o un
caso
in cui, se c non avesse bloccato il colpo, il suo mancato intervento avrebbe
causato un danno a b?" Epstein giustamente osserva che possiamo mantenere la
distinzione tra « arrecare un beneficio » e « provocare un danno » solo dopo
aver deciso se la persona che ha bisogno di aiuto ha diritto all'aiuto stesso. Qui
entra in gioco la nozione di diritto e di dovere ( tenendo presente che i diritti di
una persona sono i doveri degli altri nei suoi confronti), cioè una nozione che f a
parte della sfera normativa, non di quella fisica o filosofica.
Secondo Hart e Honorè, come già detto, la teoria della condicio va integrata con
la considerazione degli elementi intenzionali , che sono quelli che caratterizzano
l’azione umana. Dice Santoni De Sio : “Il ruolo delle azioni volontarie nelle
spiegazioni causali è inoltre decisivo al punto da far degradare al ruolo di
meri «mezzi» condizioni straordinarie che, in assenza dell’intervento
umano, meriterebbero il titolo di causa. Una strada insolitamente ghiacciata
è normalmente considerata causa di un incidente d’auto. Ma se, per
esempio, il ghiaccio si è formato perché qualcuno, approfittando di una
nottata insolitamente fredda, ha rovesciato alcuni secchi d’acqua sulla
strada per fare avere un incidente stradale al suo nemico, la sua azione
sarà considerata causa dell’incidente e la strada ghiacciata soltanto un
mezzo da lui utilizzato”.
Omettendo le considerazioni circa la responsabilità, su cui torneremo, qual è
la distinzione logica tra il test NESS e il test controfattuale classico (detto anche
“teoria but for”)? I due tests coincidono quando vi sia un insieme di condizioni
realmente o ipoteticamente sufficiente, in una particolare occasione, per il
verificarsi dell'evento. Tuttavia, il test NESS include più elementi del test
controfattuale .
determinate circostanze per la sufficienza di un qualsiasi insieme sufficiente di
condizioni, perfino quando, per la presenza di altri insiemi realmente o
ipoteticamente sufficienti, non è stata necessaria per il verificarsi dell' effetto in
quelle circostanze.
L’esempio che fa Wright è il seguente. Supponiamo che l'incendio a e
l'incendio b siano, ciascuno indipendentemente dall'altro, sufficienti — cioè
sufficienti in assenza l'uno dell'altro, ma in presenza di altre condizioni
preesistenti — a distruggere una determinata casa, se il raggio dell'incendio si
estende fino a raggiungerla. Pochi di noi, se non nessuno, sarebbero in
disaccordo con le seguenti proposizioni: (1) l'incendio a è stato una causa della
(ha contribuito alla) distruzione della casa, se l'incendio a ( ma non l'incendio b)
ha raggiunto la casa e la casa non sarebbe stata distrutta senza l'incendio a; (2)
gli incendi a e b sono stati entrambi causa della distruzione della casa, se l'hanno
raggiunta simultaneamente e la casa non sarebbe stata distrutta se nessuno dei
due incendi si fosse verificato; (3) l'incendio a è stato causa della distruzione
della casa, ma l'incendio b non lo è stato, se l'incendio a ha raggiunto la casa
prima dell'incendio b, perché la casa veniva distrutta prima dell'arrivo di
quest'ultimo e non sarebbe andata distrutta se entrambi gli incendi non si
fossero verificati.
Orbene, Wright è convinto che il test but for comporta la conclusione ridicola
che nessuno dei due incendi è stata causa del danno, perché in assenza del
primo l’altro avrebbe distrutto la casa. Scrive il Nostro: “Nella situazione (2),
nella quale entrambi gli incendi hanno raggiunto la casa simultaneamente, ci
sono due insiemi sufficienti che si sovrappongono. Un insieme contiene
l'incendio a, ma non l'incendio b, rendendo così l'incendio a elemento necessario
di un insieme sufficiente; l'altro insieme contiene l'incendio b, ma non l'incendio
a, rendendo l'incendio b un elemento necessario di un insieme sufficiente.
Quindi, benché nessuno dei due incendi sia stato una condizione but for della
distruzione dell'edificio, ciascuno di essi rappresenta una causa NESS
supplementare”.
Come già accennato, il test NESS è uno dei molti modi escogitati dagli
epistemologi per realizzare un compromesso tra le ragioni a favore della causa
come condizione necessaria e quelle a favore della causa come condizioni
sufficiente. L’idea di “essere necessario per la sufficienza” tuttavia dovrebbe
essere chiarita meglio in termini logici. Come si deve intendere? Per riprodurre
un esempio di repertorio, l’accensione di un fiammifero in un pagliaio è
condizione NESS per l’incendio del pagliaio. Per esplicitare il nesso causale,
secondo la dottrina NESS questo significa dire che il complesso di tutte le
circostanze occorrenti meno l’accensione delfiammifero non è sufficiente per
l’incendio, mentre è tale se comprende l’accensione del fiammifero. Prendendo
alla lettera la tesi di Wright, appare che la forma di “A causa B” -dove K e` un
insieme di circostanze di sfondo che non contiene A e CS sta per la relazione di
essere condizione sufficiente 8 - sia quindi costituita da una coppia di asserti con
le due forme seguenti:
(a) (A e K) CS B
(b) è falso ((non-A e K) CS B)
Vediamo innanzitutto quali sono le ragioni che possono giustificare il test
NESS.
È vero, inanzitutto, che il test NESS smaschera facilmente alcuni errori della
dottrina della causa come condizione sufficiente, che di solito rientrano nello
schema della fallacia “post hoc propter hoc”. Supponiamo che il signor Rossi nei
giorni pari beva whisky con selz, nei giorni dispari beva Campari con selz, con il
che regolarmente si ubriaca. Conclusione: applicando senza correttivi il Metodo
dell´ Accordo di Mill, la causa del suo alcolismo non risulta essere nè il whisky
né il gin ma il selz.
Guardando alle clausole (a) e (b), K stia ora per “Rossi beve Campari o
whisky”, A per “Rossi beve selz” e B per “Rossi si ubriaca”. Dato che il selz non
annulla gli effetti dell’alcool, è vero (A e K) CS B . Ma la clausola (b) non è
soddisfatta: è vero, non falso, che il Campari o il whisky senza selz (cioè non-A e
K) rendono possibile inferire B. Il bere selz quindi non risulta causa dello stato
di ubriachezza.
Un’obiezione alla teoria NESS consiste però nel mostrare che la coppia di
condizioni (a),(b) è soddisfatta anche da esempi indesiderati. Può essere, per
esempio, che A da solo sia ceteris paribus sufficiente per B, senza che, però, la
relazione tra A e B sia causale. Il cantare del gallo il 25 Aprile (A), supponiamo,
è seguito infallibilmente ogni anno (al 100%) dal sorgere del sole esattamente 10
minuti dopo (B): è vero quindi A CS B. Per la legge logica dell’ a fortiori abbiamo
però (A e K ) CS B, dove K è una qualsiasi congiunzione di enunciati veri che
Senza entrare nei dettagli di una questione molto dibattuta, la relazione CS può essere qui identificata
con una relazione implicativa dotata di un certo grado di necessità. In termini probabilistici, A CS B si
può interpretare come l’asserto che B riceve da A un grado di probabilità prossimo o uguale a 1.
8
descrivono un arbitrario insieme di condizioni di contorno. Inoltre da non-A
(mancato canto del gallo) e K non è inferibile B, con il che si soddisfa la clausola
(ii). Il test NESS risulta quindi soddisfatto e si dovrebbe concludere che il
cantare del gallo il 25 Aprile ogni anno è causa del sorgere del sole 10 minuti
dopo.
Un’ obiezione al precedente controesempio è che, nelle intenzioni di
chisostiene il test NESS, K dovrebbe essere non un qualsiasi enunciato vero ma il
complesso delle condizioni sussistenti che integrano A. In tal caso però K
dovrebbe essere abbreviazione di una congiunzione infinita di enunciati veri
inesprimibile nel linguaggio logico e nel linguaggio ordinario, e nessun test
allora potrebbe controllare la verità di enunciati contenenti K. Se invece si vuole
intendere che K sta per una congiunzione finita di condizioni che hanno qualche
rilevanza per A e/o per B, la rilevanza di cui si parla o è di tipo causale o di tipo
statistico: ma nel primo caso si dà per scontata la nozione di causa che si intende
definire, nel secondo caso la correlazione potrebbe essere casualmente spuria,
aprendo la porta a controesempi come quelli sopra esemplificati.
10. Problemi della teoria della conditio sine qua non.
Come abbiamo visto, la concezione della causa come condizione sufficiente,
anche se
corretta in forma più o meno sofisticata, non sembra in grado di assicurare in
tutti i casi una distinzione tra cause genuine e cause spurie, mentre un merito
della concezione controfattuale della causa appare proprio la sua capacità di
tracciare la differenza richiesta.
Come si è visto, tuttavia, gli esperimenti mentali richiesti dalla vecchia teoria
della conditio sine qua non vanno compiuti alla luce di una ben precisa nozione di
evento e di occorrenza di evento.
E’ opportuno ora valutare analiticamente le difficoltà della teoria
controfattuale della causa.
Primo problema: l’eccessiva debolezza della conditio sine qua non. L’impressione
è che non tutte le condizioni necessarie sono cause. Supponiamo ci sia una
catena di eventi di cui fanno parte la partenza di un aereo, il viaggio, un guasto
e un incidente. Se non ci fosse stato un guasto, l’aereo non sarebbe caduto.
Ma potrei anche dire con verità : se l’aereo non fosse partito non sarebbe
caduto. Diremmo che la partenza è una causa dell’incidente? Una tesi
abbastanza ovvia che si può sostenere è che non c’è una sola nozione di causa
ma una pluralità di nozioni causali con differente grado di forza, di cui la
conditio sine qua non costituisce il comune denominatore. Un conto è dire che x è
causa determinante di y, altro è dire che è causa predisponente, causa concorrente,
causa concomitante ecc. Si può suggerire che il compito specifico della filosofia
della causalità è proprio quello di trovare un quadro concettuale semplice che ci
consenta di distinguere queste diverse nozioni e valutare comparativamente il
loro grado di forza. La più semplice nozione di causa è quella di rilevanza
causale. Stabilire la rilevanza di A per B significa stabilire il puro e semplice
asserto controfattuale ¬A > ¬B (cioè con l’asserto che stabilisce la proprietà di
conditio sine qua non). Per tornare all’esempio, non si può negare che ci sia una
qualche relazione causale tra la partenza dell’aereo e l’incidente. Forse in molti
casi eviteremmo di dire che è una causa, ma non ci sentiremmo neppure di
negarlo.Ne possiamo parlare comunque come di un fattore causale, e in alcuni
casi potrebbero esserci in gioco delle conseguenze penali. Supponiamo per
esempio che al momento della partenza ci sia un forte temporale (un uragano).
Il pilota è incoraggiato a partire dalla compagnia anche se, a suo avviso, il volo
in quelle circostanze era rischioso. Se segue incidente, è ’ difficile negare che il
partire in quelle circostanze è stato rilevante casualmente per l’incidente, anche
se in quel momento c’erano valutazioni diverse sulla rischiosità della partenza
stessa. Si potrebbe dire che in quelle circostanze la partenza, oltre che un fattore
causale, era una causa predisponente per l’incidente, nel senso che, oltre a essere
una condizione necessaria per questo, riduceva, anche se di poco, il grado di
sorpresa dell’ evento effetto.
Nessi causali indiscutibili sono stati stabiliti anche in presenza di una bassa
probabilità dell’effetto data la causa. E’ noto il caso di un giudice che ha
ravvisato una responsabilità di omicidio nel caso di un uomo sieropositivo che
ha avuto rapporti non protetti con la moglie, dopo aver escluso che questa
avesse avuto altre possibilità di contrarre il virus in altro modo. Questo nesso è
stato ravvisato anche se la probabilità di contrarre la malattia in casi del genere
è al massimo del 4%. Ciò che importa è che risulta vero il controfattuale che
stabilisce il rapporto di rilevanza causale.
La nozione di causa che di solito si usa nel linguaggio ordinario è la nozione di
causa determinante. Parlando liberamente, essa è una condizione tanto ceteris
paribus necessaria che ceteris paribus sufficiente per l’evento-effetto. La
determinazione si può definire come ciò che riduce a zero il grado di sorpresa
dell’evento effetto dato l’evento causa.
Certo possiamo raffinare ulteriormente la classificazione delle cause. Se, per
esempio, non solo possiamo inferire l’effetto ma possiamo anche fare un’
inferenza in direzione conversa (abduttiva) allora il concetto di causa usato si
rafforza ulteriormente e possiamo introdurre la nozione di causa completamente
determinante.
Qui si innesta un’annosa controversia sul rapporto tra condizioni di sfondo e
cause. Se un fiammifero viene sfregato, l’accensione del fiammifero è resa
possibile dal fatto che c’è sufficiente ossigeno, sufficiente fosforo sulla capocchia
ecc. Queste a volte vengono chiamate condizioni di contorno o condizioni
rilevanti, e qualcuno nega ad esse la qualifica di cause. Si tratta però di
condizioni necessarie all’effetto e , dato che in contesti appropriati potrebbero
giocare un ruolo importante, si possono chiamare cause concomitanti o
concause rispetto alla causa principale.
Secondo problema, la ridondanza causale. Questo in effetti è il problema
evidenziato da Wright nell’ esempio dei due incendi. Seguendo la tradizione
epistemologica, si distinguono due tipi di ridondanza: la sovradeterminazione e il
sopravanzamento. Se ci sono più condizioni sufficienti (determinanti) per lo stesso
identico evento, non possono essere qualificate come necessarie. La
giurisprudenza americana registra il caso di un malcapitato che è stato ucciso da
due criminali, uno che lo colpiva al cranio con una pietra mentre l’altro lo
accoltellava. I due colpi erano ambedue mortali; ma qui è un problema applicare
la formula della condicio (cioè il test but for) in quanto non possiamo dire che, se
il primo (o il secondo) non avesse colpito, la vittima non sarebbe morta. Certo
quasi sempre uno dei due, poniamo A, raggiunge l’obiettivo qualche frazione di
secondo prima dell’altro B. Se riusciamo a stabilirlo con esattezza, in un caso del
genere possiamo dire che la morte della vittima è stata provocata da A, perché
se A non avesse agito in quel modo non si sarebbe verificata la morte della
vittima in quel preciso istante t in cui si è verificata. Ma ci sono casi in cui non si
riesce a stabilire questa priorità in modo preciso,e allora si può stipulare i due
eventi effetto prodotti dalle due diverse cause sono (convenzionalmente)
simultanei.
Una scuola di pensiero molto accreditata risponde al problema della
sovradeterminazione chiedendo di specificare meglio l’evento-effetto, in base
all’idea che la causa lascia sempre una traccia nell’effetto e quindi il sommarsi di
due cause diverse produce un effetto diverso.
Così se una vittima, poniamo Kennedy, è colpito da due proiettili sparati uno
da Oswald e il secondo da un killer nascosto, la sua morte sarà descrivibile
come << morte con due proiettili in corpo>>. In questo caso, naturalmente, è
vero dire che , se Oswald non avesse sparato, Kennedy non sarebbe morto con
due proiettili in corpo. Ma questa strategia –che è in effetti è la stessa richiesta
da Hempel con il criterio della specificità massimale, è ardua. Anche ammesso
che le descrizioni siano effettuabili senza usare un linguaggio causale, chi ci dice
che riusciamo sempre a effettuare questa distinzione? Pensiamo a due
interruttori che simultaneamente accendono una lampadina. Come si fa
seriamente a distinguere tra la lampadina come è accesa dall’interruttore A, da
B o da tutti e due simultaneamente?
Secondo Lewis e altri (M.Bunzl), quasi tutti (forse tutti) i casi di
sovradeterminazione sono casi in cui una causa sopravanza l’altra. Il caso della
lampadina non fa eccezione. Un elettrone proveniente dall’interruttore A
sopravanzerà un elettrone proveniente da B. Al teoria di Lewis-Buzl in effetti
dipende dal presupposto che ci sia sempre una grandezza che viene trasferita
dalla causa all’effetto. Su questa idea di fondo si basano le cosiddette teorie del
trasferimento, secondo cui nel rapporto causale c’è sempre una grandezza che si
trasferisce dalla causa all’effetto. Ma questo non ha senso nel caso della causalità
omissiva, quando si dice, per esempio, che il digiuno ha causato la perdita di
peso.
Comunque, l’idea di Lewis è che quando una causa sopravanza un’altra c’è
una catena causale che va dalla causa all’effetto, mentre non c’è dalla causa
sopravanzata all’effetto. Un esempio è quello famoso del viaggiatore nel deserto
raccontato da Hart e Honorè. Due malviventi tentano indipendentemente di
uccidere un viaggiatore nel deserto: uno gli perfora la borraccia piena d’acqua,
l’altro mette del veleno nell’acqua. La vittima muore disidratata. L’ analisi
apparentemente più ovvia è che il malvivente che ha perforato la borraccia ha
impedito all’altro di bere acqua avvelenata, quindi ha sopravanzato la seconda
causa, interrompendo una catena causale avviata dall’avvelenatore. Si noti,
incidentalmente, che ambedue le operazioni sono ceteris paribus sufficienti per
determinare la morte. La vittima muore disidratata e, se questa è la descrizione
dell’evento, la causa è la perforazione e l’omicida è il perforatore, mentre l’altro
può essere incriminato per tentato omicidio. Qui però bisogna considerare che
normalmente veleno e disidratazione agiscono con tempi diversi. Supponiamo
che il veleno usato agisca in tempi più lunghi della disidratazione. Se è così il
perforatore ha anticipato la morte della vittima, e dovrebbe essere incriminato.
Ma se il veleno è un tipo di veleno che agisce con tempi più brevi della
disidratazione –come di solito accade - allora la rforazione ha rallentato la
morte impedendo alla vittima di assorbire il veleno. Quindi il perforatore
potrebbe vantarsi di essere un benefattore, anziché un omicida.
Una proposta che si può avanzare in alternativa alla teoria di Lewis è quella di
abbandonare l’idea della relazione causale come relazione a due posti. Questo
non dovrebbe essere una novità perché la nozione di causa contributiva, o
concausa, è una relazione a tre posti: a è concausa con b per c. Questa relazione
però si può ridurre alla congiunzione di condizioni a due posti: a è causa di c &
b è causa di c.
Si possono però definire relazioni a tre posti che non sono riducibili
definitoriamente a relazioni a due posti. La relazione di essere causa concorrente è
di questo tipo:
Definizione. a è causa concorrente con b per c quando “in assenza di a, se non ci
fosse stato b non ci sarebbe stato c”.
Questa locuzione si presta ad essere rappresentata come un controfattuale
doppio:se non ci fosse stato a allora (se non ci fosse stato b non ci sarebbe stato
c).
Date le definizioni sopra poste, questo equivale a:
“se non ci fosse stato a, b sarebbe stato causalmente rilevante per c”.
Per esempio: “se il primo killer non avesse sparato allora, in assenza del
secondo non ci sarebbe stata la morte di Kennedy”.
Un problema ravvisabile è che in questo modo non si distingue,
apparentemente, la sovradeterminazione dal sopravanzamento. Supponiamo
che una causa sopravanzi un’altra, per esempio che la perforazione sopravanzi
l’avvelenamento dell’acqua. Allora sarebbe vero tanto “in assenza della
perforazione se non ci fosse stato l’avvelenamento non ci sarebbe stata la morte”
quanto“ in assenza dell’ avvelenamento, se non ci fosse stata la perforazione
non ci sarebbe stata la morte”.
Certo così si apre il problema di distinguere tra causa sopravanzante e causa
sopravanzata. Propongo di dire che la distinzione è possibile mediante quanto si
aggiunge alla nozione basilare di concorrenza. Allo stesso modo in cui la
nozione di causa determinante è più ricca di quella di rilevanza causale, la
nozione di causa sopravanzante è più ricca di quella di causa concorrente.
La differenza sta sostanzialmente in questo: se una causa è sopravanzata non
c’è modo, in presenza della seconda causa, di inferirla dall’effetto
abduttivamente, mentre questo è possibile per la causa sopravanzante. .
Per fare un esempio, la perforazione della borraccia impedisce di dire che la
spiegazione della morte della vittima è data dall’ avvelenamento (in quanto il
presupposto di tale spiegazione è l’integrità dei recipiente usato), mentre
l’avvelenamento dell’acqua non impedisce di spiegare la morte in termini di
perforazione. Questo crea quindi un’asimmetria tra i due tipi di cause.
Una causa sovradeterminante può benissimo avere rilevanza penale. Nel caso
dei due o più fucilieri del plotone di esecuzione essi sono sufficienti
(determinanti) per la morte e sono tutti cause concorrenti. Se il plotone ha agito
fuori della legge i fucilieri sono tutti, quindi, imputabili di omicidio. Può essere
che uno di questi abbia, come vuole la tradizione, una cartuccia a salve. In tal
caso possiamo solo fare un’affermazione più debole che è una disgiunzione: o a
ha ucciso b, o a’ ha ucciso b, o a” ha ucciso b o…” . Questo non esclude un nesso
causale, ma lascia indeterminato il nome della causa. A questo insufficiente
livello di informazione non è permesso incriminare i singoli fucilieri, ma
consente di incriminare, per esempio, chi ha organizzato l’esecuzione. Un
incremento di informazione sulla qualità delle cartucce consentirà di eliminare
uno dei disgiunti e quindi di determinare esattamente le cause.
Certamentente sulle cause sopravanzate si potrebbe discutere a lungo perché
si può sostenere che hanno un carattere fantomatico. Sono una via di mezzo tra
la realtà e l’immaginazione. Si pensi a un PC portatile con doppia
alimentazione: batteria e corrente elettrica. Nel momento in cui cessa
l’alimentazione della rete immediatamente entra in azione la batteria. La causa
sopravanzata normalmente viene bloccata dalla sopravanzante e alla domanda
circa le cause del funzionamento nrmale dell’apparecchio non nomineremmo la
batteria. Ma forse neanche la escluderemmo, perché insieme alla causa
sopravanzante essa costituisce il sistema di funzionamento dell’apparecchio. Se
nell’arco di un’ ora manca la corrente due o tre volte diremo che le due
alimentazioni in quell’intervallo di tempo hanno cooperato (concorso) al
funzionamento della macchina.
Recentemente il dibattito sul sopravanzamento è stato animato da Jonathan
Schaffer con un articolo dedicato alla trumping preemption. (che possiamo
tradurre con “ scavalcamento causale”). Esempio. Un maggiore e un sergente
urlano simultaneamente un ordine a un plotone, per esempio di mettersi
sull’attenti. I soldati lo eseguono, ma questo accade perché eseguono l’ordine
del superiore, non dell’inferiore: il primo ordine “scavalca” il secondo. Si noti
che questo fa cadere l’idea che le cause si possano discriminare con una
differente descrizione degli eventi, e anche l’idea della catena causale che ci
sarebbe dalla causa sopravanzante all’effetto.
La proposta sopra delineata sembra che si applichi facilmente a questo
esempio. Se si potesse inferire abduttivamente che i soldati si sono messi
sull’attenti, poniamo, in seguito all’ordine del sergente, ciò escluderebbe la
possibilità di spiegare il loro comportamento in termini di un ordine simultaneo
del capitano o di qualsiasi militare di grado superiore al sergente: queste
dovrebbero essere infatti spiegazioni migliori della prima, il che non è. Se
viceversa potessimo fare un’ abduzione spiegando il fatto suddetto con un
ordine del capitano , ciò non escluderebbe che sia stato anche impartito un
ordine da suoi subordinati.
Si noti, comunque, che in questa concezione i due ordini sono ambedue cause
che concorrono al risultato. Dal punto di vista giudiziario le conseguenze sono
che in caso di errore eventuali responsabilità esistono per ambedue gli agenti,
anche se uno sopravanza o scavalca l’altro. Il che non significa, naturalmente, in
questo come in altri casi di sopravanzaamento, che le responsabilità siano tali in
pari misura e che la sanzione erogata deva essere la stessa.
Resta da esaminare un altro problema circa le cause che Lewis lascia aperto,
quello della causalità omissiva. Per intenderci è bene chiarire la distinzione tra
causalità omissiva e causalità negativa o impediente. Chiamiamo causalità
negativa o impediente quella in cui un certo evento ha come effetto un evento
negativo: p.es. “lo sparo della guardia giurata ha impedito l’ingresso in banca
dei banditi” significa che lo sparo è stato causa del mancato ingresso dei banditi.
Chiameremo invece causalità omissiva quella in cui un evento negativo (o
omissivo) è causa di qualche effetto: per esempio: “la mancata illuminazione
delle scale lo fece cadere” oppure “il fatto che Giacomino ha omesso di lavarsii
denti ha causato un rimprovero della madre”. Ovviamente una relazione
causale può essere tanto omissiva che impediente. La medicina preventiva è
spesso orientata alla ricerca non solo di cause impedienti ma anche di cause
omissive: si dice per esempio che l’ evitare eccessi alimentari allunga l’esistenza
o che elimina il richio di incorrere in una certa classe di malattie.
Lewis non ha difficolta’ ad ammettere che sia legittimo parlare di omissioni
come cause. Il problema retrostante ovviamente è, come aveva visto Mill, che
‘From nothing, from a mere negation, no consequences can proceed’. Ma di fatto
lostesso Mill fa vedere che la causalità omissiva esiste ed è riconoscibile. Questo,
incidentalmente, implica il rifiuto delle cosiddette “teorie del trasferimento”
secondo cui ogni relazione causale consiste in un trasferimento di grandezza
fisica (calore, velocità ecc.) da un corpo all’altro.
Il primo problema della causalità omissiva è quello ontologico: riguarda cioè
la natura degli eventi omissivi. In primo luogo secondo Lewis gli eventi
omissivi sono eventi “altamente disgiuntivi”, cioè eventi i cui disgiunti sono
“overly varied disjuncts”. Per esempio, se Fred omette di prendere precauzioni
ciò significa che sta facendo qualcosa altro, p.es “ camminare - o - dormire”. Ma
come si fa a dire che questa disgiunzione causa qualcosa? Un evento nella
concezione di Lewis è una proprietà di una regione dello spazio-tempo. Quindi
non esistono relazioni causali che coinvolgono disgiunzioni perchè non ha
senso parlare di eventi disgiuntivi: non esiste per esempio l’evento “piove a
Milano o nevica a Seattle”, perché l’evento esige continuità spazio-temporale.
Inoltre è ovvio che la causazione deve intercorrere tra eventi distinti; ma come
distinguere per esempio il fatto che Piero, mentre dorme, omette precauzioni
contro l’incendio dal fatto che omette precauzioni anche contro i ladri? Come
distinguere le omissioni genuine da altri fenomeni simili ma distinti? Per
esempio l’universo manca di contenere eventi che violano le regolarità naturali,
ma questo non è chiaramente un evento omissivo.
Dopo un’articolata analisi delle varie possibilità di trattare la causalità
omissiva nel quadro controfattuale onestamente Lewis ammette: “mi
piacerebbe poter render conto della causazione per omissione entro il quadro
generale dato in questo articolo e in Events (nello stesso volume). Purtroppo
non vedo come farlo quadrare con tutto ciò che dico in generale circa gli eventi e
circa la loro dipendenza causale” .
E’ opportuno avvertire che la presenza o assenza di negazioni nella forma
degli enunciati che li descrivono è irrilevante per qualificarli come positivi o
negativi. Il buio è l’assenza di luce, il digiuno è l’assenza di alimentazione, il
silenzio è l’assenza di rumore. Casi particolari di questi fenomeni sono di solito
qualificati come eventi negativi, anche se la negazione non compare a rigore
nella forma superficiale degli enuciati che li esprimono. È chiaro comunque che
la distinzione che cerchiamo non può essere basata sulla forma superficiale
dell’enunciat,o perchè a volte eventi positivi sono descritti negativamente e
viceversa. Ci limiteremo qui a sottoscrivere l’idea che un evento negativo è tale
relativamente a un evento positivo di cui è complementare, ed anche viceversa.
Se [P,a,t] è un evento positivo, [-P,a,t] è un evento negativo rispetto al primo, ma
anche la conversa è vera.
Quando entra in gioco anche la causalità il problema si complica. Qui un’
osservazione diversa, su cui vale la pena di richiamare l’attenzione, riguarda il
ruolo dell’ esistenza reale dei soggetti coinvolti negli eventi ai fini della
relazione causale: nel caso dei soggetti umani la loro storia, cioè l’insieme di
eventi in cui essi hanno un ruolo. Supponiamo che Gianni, dopo aver acceso il
gas, si dimntichi di spegnerlo e questo causa un’esplosione. Gianni ha omesso di
spegnere il gas: ma anche di me, che abito vicino a lui, si potrebbe dire che ho
omesso di spegnere il gas. La differenza è che la mia storia personale (la mia
esistenza) non aveva alcuna rilevanza per la storia che ha portato a quella
esplosione, mentre questo non si può dire dell’esistenza di Gianni. Se io non
fossi esistito nel momento in cui il gas è stato acceso l’esplosione ci sarebbe
stata egualmente, mentre se Gianni non fosse esistito nel momento in cui il gas
è stato acceso l’eplosione non ci sarebbe stata. La mia estraneità all’accaduto è
quindi semplicemente provata dal fatto che nel periodo rilevante la mia
biografia non si interseca con quella dell’ oggetto che compare nel presunto
effetto.
È bene ricordare che nella filosofia di Aristotele vengono elencati quattro tipi
di cause (materiale, efficiente, finale e formale:valga il famoso esempio della
statua ). Va osservato, però, che le quattro cause non sono sullo stesso piano in
quanto la causa materiale è precondizione per il manifestarsi delle altre tre
cause . Nella concezione degli eventi che intendiamo proporre, ispirata a quella
di J.Kim,, l’esistenza reale del soggetto soggiacente ha un ruolo speciale,
analogo a quello della causa materiale in Aristotele. Infatti, come ricordiamo, un
Kim- evento è un tripla [P,a,t] dove P è un predicato, a è un soggetto, t è un
istante. Ripetendo quanto già enunciato, dire che un evento [P,a,t] occorre -O[P,
a,t]- implica dire che a esiste realmente nel momento t.
Il requisito dell’esistenza reale non deve essere trascurato. Si può benissimo
voler essere creduti quando si dice che Babbo Natale porta regali ai bambini, e
questo si può anche considerare vero, ma questo non descrive l’occorrenza di un
evento in quanto Babbo Natale nel mondo reale non esiste. Allo stesso modo, si
può dire correttamente che l’etere cosmico spiegava molti fenomeni fisici, ma
questo non descrive un evento perché è ormai provato che l’etere cosmico non
ha esistenza reale.
Ciò detto, interessa evidenziare quanto segue dall’ipotesi controfattuale in cui
si suppone che un certo Kim-evento non sia occorso. Quando si ipotizza
controfattualmente non-O[P, a, t] ciò significa, come già detto, considerare una
disgiunzione di ipotesi. Quindi, per poter asserire che il controfattuale è vero
bisogna provare che il conseguente segue dalla falsità di ciascuna delle due
alternative singolarmente prese. In tal modo si provvede a un disambiguamento
dell’ ipotesi di non-occorrenza. Un esempio può essere utile.
Abbiamo già esaminato l’esempio del barometro. Dall’ ipotesi
“controesistenziale” secondo cui il barometro di casa non esisteva realmente in t
non segue la mancanza di una tempesta successiva, in quanto nessuna legge di
natura conosciuta correla l’esistenza o l’inesistenza di barometri allo scatenarsi
di tempeste.
Basta questo per concludere che la correlazione causale tra abbassamento del
barometro e tempesta è spuria. Usando il linguaggio caro agli aristotelici, il
barometro non è causa materiale della tempesta, quindi non può offrire la base
per qualsiasi altro tipo di rapporto causale. L’esistenza reale va distinta
dall’esistenza “meramente quantificazionale” rappresentata in logica dal
simbolo 
. L’esistenza reale, definita in vari modi nella letteratura
specializzata, è rappresentata di solito con il simbolo E!. Per semplificare una
complessa questione, anche tecnica, qui parleremo di “esistenza reale di a in t”
intendendo che a è uno degli enti presenti nel momento t entro il mondo attuale.
L’utilità di questa rappresentazione emerge anche da un altro particolare. Se P
è una proprietà positiva (p.es. essere acceso), non-P è una proprietà negativa
(essere spento). Se dico che si è verificato che la lampadina era accesa, posso
rappresentare questo evento con la forma O[P, a, t], mentre se dico che si è
verificato che la lampadina era spenta (non-accesa), questo ha la forma O[non-P,
a, t]. Nel secondo caso diciamo che è occorso (ha avuto luogo) un evento che era
negativo rispetto al primo. Si può dire anche che i due eventi che occorrono
sono contrari l’uno rispetto all’altro, ma non incompatibili, perchè hanno
qualcosa in comune: in ambedue infatti i casi esiste realmente il soggetto a cui
P e non-P. Diverso è asserire
non-O[P,a,t], cioè negare l’occorrenza dell’evento in questione. Certamente la
logica retrostante dovrà autorizzare l’implicazione da O[non-P, a, t] a non-O[P,
a, t ], ma non l’equivalenza dei due asserti. La differenza, come abbiamo visto,
sta proprio nel fatto che O[non-P, a, t] comporta l’esistenza reale di a, mentre
non-O[P, a, t ] non ha questo sottinteso.
L’importanza giuridica e morale della causalità omissiva dovrebbe essere
ovvia. Il codice penale prevede reati come l’omissione di soccorso, la negligenza
professionale (tipica del campo medico: per esempio la sospensione di una cura,
o addirittura la sospensione volontaria o involontaria delle terapie che tengono
in vita un paziente. Un topos filosofico molto dibattuto comunque è quello
della distinzione tra “doing harm”e “allowing harm”, rispetto alla quale si cita
come caso esemplare la distinzione tra uccidere e lasciar morire. Il test but for
nella versione che proponiamo sembra offrire una buon criterio di distinzione
tra uccidere e lasciar morire. Si supponga per esempio che Tizio muoia perché
Caio gli mette la testa sott’ acqua: se Caio non l’avesse fatto, si dirà, Tizio non
sarebbe morto; e aggiungiamo - ottemperando alla definizione di occorrenza
sopra proposta - non sarebbe morto nemmeno se Caio non fosse esistito in quel
momento. Si immagini invece questo scenario: Tizio sta affogando in un fiume
nel momento t, Caio si trova accidentalmente in quel posto, sa nuotare e non si
getta per salvarlo. Caio quindi, possiamo dire, lascia morire Tizio. E’ vero dire,
però, che se Caio non fosse esistito in quel momento t J Tizio sarebbe morto
egualmente. Si noti che la conclusione cambia completamente se l’antefatto è
stato che Caio ha buttato Tizio nell’acqua pochi minuti prima, in t*. In questo
caso dall’ipotesi “controesistenziale” che Caio non esistesse nel momento in cui
Tizio stava affogando segue che, ceteris paribus, non sarebbe esistito neppure in
t* quindi non avrebbe buttato Tizio nell’acqua in t* e questi non avrebbe corso il
rischio di affogare.
Questo esempio offre l’occasione di riflettere sul significato della nozione di
uccidere. Uccidere non significa causare la morte: significa accorciare la
prevedibile durata della vita. La differenza emerge proprio per il modo in cui è
stata definita la causalità in termini di Kim-eventi. Si supponga infatti che un
medico prolunghi la vita di un comatoso di qualche ora o di qualche giorno. Se
il paziente muore alle 10.00 del 24 Dicembre, il medico è causa di questo Kimevento: di fatto si può dire correttamente che la sua azione è stato causa
ritardante, non anticipante, dell’evento stesso. Ma nessuno può dire che il
medico abbia ucciso il paziente; si può anzi sostenere che si è comportato come
un buon medico. Uccidere dunque significa “essere causa anticipante” della
prevedibile fine della vita o, come si suol dire, “accorciare l’esistenza” di
qualcuno.
Sul tema dell’ equivalenza morale tra uccidere e lasciar morire è importante
ricordare l’articolo 40, ultimo comma, del, il quale asserisce che "non impedire un
evento, che si ha l'obbligo giuridico di impedire, equivale a cagionarlo". Per esempio,
dato che un medico ha l’obbligo professionale di impedire che il paziente
peggiori le sue condizioni di salute, secondo questa norma il non impedire tale
peggioramento equivale a causarlo. Da un punto di vista logico la differenza tra
non-impedire e causare è però piuttuosto chiara: se C è simbolo per una
qualsivoglia relazione causale, la forma della prima relazione è non-(e1 C none2), e questa non equivale a e1 C e2 , che è la forma della seconda. Ma il codice
evidentemente usa la nozione di causa in un senso diverso da quello fisico.
Nelle prospettiva che abbiamo sostenuto il medico potrebbe dire: se non fossi
esistito nel periodo in cui avrei dovuto impedire l’evento in questione il
paziente avrebbe comunque peggiorato le sue condizioni di salute, quindi io
non posso essere causa di tale peggioramento. Ciò che il precetto del codice
intende dire è verosimilmente un’altra cosa: e cioè che il medico, non avendo
fatto ciò che era doveroso fare, è responsabile o corresponsabile dei danni che
provengono dal mancato intervento. Ciò che viene omesso in questi casi infatti
non è un’azione qualsiasi ma un’azione che avrebbe dovuto essere eseguita.
C’è indubbiamente una certa simmetria tra l’omissione di azioni e l’omissione
di eventi fisici. Se accendo il motore e la macchina non parte, dico che la
macchina ha mancato di partire proprio perché mi sarei aspettato l’opposto: la
macchina avrebbe dovuto partire oppure ci si aspettava che la macchina partisse.
Quando un’auto sta ferma in un parcheggio, invece, non si ha certo l’abitudine
conversazionale di dire che la macchina ha mancato di partire: ma dire questo è
innegabilmente vero e chiunque può enunciarlo senza essere contraddetto. Lo
stesso accade per le azioni: di solito si dice che un soggetto omette di aprire
l’ombrello quando piove perchè ci si aspetta che faccia l’opposto, ma non si dice
che ha omesso di aprirlo quando c’è bel tempo, anche se a rigore non sarebbe
scorretto fare questa asserzione.
La simmetria non si riscontra però così nell’omissione di tipo etico. Se manca
l’obbligo -cioè la necessità non fisica ma deontica -di compiere una determinata
azione, non è solo inusuale ma improprio parlare di responsabilità . A
volte nella letteratura si incontra la nozione di causa responsabile, ma questo
significa confondere due nozioni che stanno a livelli concettuali diversi, quello
morale e quello fisico. Questa confusione è stata indubbiamente incoraggiata dal
fatto che, come ha fatto vedere convincentemente Hans Kelsen, la nozione
primitiva (antropomorfa) di causa è scaturita da quella di responsabilità, al
punto che ancor oggi è comune esprimersi con frasi come “i gas di scarico delle
auto sono responsabili dell’inquinamento armosferico” oppure “il buco di
ozono è imputabile all’azione delle bombolette spray”.
Per capire il punto bisogna osservare che le intuizioni causali e le intuizioni
circa le responsabilità morali possono essere seriamente divergenti, almeno se
si impiegano nozioni di causa non adeguatamente definite. A parte il caso delle
omissioni, il caso della ridondanza causale ne è l’esempio più vistoso. Se due
killers sparano simultaneamente a un uomo, l’intuizione morale dice che sono
ambedue responsabili, mentre la teoria della condicio applicata senza correttivi
non ci dà una risposta chiara, come abbiamo già visto a proposito della teoria di
Lewis. Dobbiamo anche aggiungere che i due problemicpiù importanti emersi a
carico della teoria controfattuale - quello della causalità omissiva e quello della
ridondanza - possono sommarsi: potremmo avere infatti casi di ridondanza in
cui uno degli antecedenti causali è un evento omissivo.
E’ conveniente ai fini classifiteorici intendere le azioni omissive come una
sottoclasse degli eventi omissivi.
Rispetto ad altri tipi di eventi, le azioni sono caratterizzate dalla volontarietà.
Per usare le parole di Wright, “Un’azione è semplicemente un movimento fisico
volontario oppure l’uso volontario di qualche parte del corpo; mentre
un’omissione è la volontaria mancanza di movimento o di uso di qualche parte
del corpo in modo specifico”.
Naturalmente si può discutere sul fatto se certi fenomeni, come il latrato di un
cane o certi riflessi condizionati, siano a no azioni nel senso descritto. Ciò che
interessa ai nostri fini è che le azioni sono comunque una sottoclasse degli
eventi, e quindi sono trattabili come Kim-eventi e soggette alla stessa trattazione
sul piano delle relazioni causali.
Secondo quanto abbiamo visto, ipotizzare non-Oe , dove e è un evento, è un
esercizio complesso che in effetti porta all’analisi di una disgiunzione.
Ricordiamo che un evento nel senso qui definito è una tripla [P, a, t] dove P può
essere anche un predicato negativo, per esempio “non bruciare”. Supponiamo
dunque che Rossi ometta il soccorso ad una persona, Bianchi, che poi decede
per le ferite qualche ora dopo. Supponiamo anche che, conoscendo le condizioni
di contorno, non ci siano dubbi sul fatto che, se Rossi non avesse omesso il
soccorso, Bianchi non sarebbe morto.
Questo però non esaurisce quanto c’è da sapere per stabilire il nesso causale
perché, come abbiamo già rilevato, c’è il problema della presenza, o
dell’esistenza, del soggetto del Kim-evento (Rossi) nel momento in cui questo si
è verificato. A meno che non sia stato proprio Rossi a ridurre in quello stato
Bianchi, bisogna concludere che l’omissione suddetta non è a rigore causa di
morte, perché è lecito dire: ”se Rossi non fosse esistito in quel momento Bianchi
sarebbe morto ugualmente”. A sostegno di questa conclusione si osservi, tra
l’altro, che in certi casi le condizioni di contorno potrebbero essere state molto
diverse da quelle standard: per esempio, si può immaginare una situazione in
cui Rossi si trovava a pochi metri da una squadra inviata dalla Croce Verde a
salvare la vita dell’incidentato, per cui Rossi, allo scopo di escludere il nesso
causale, potrebbe anche aggiungere che la Croce Verde poteva - anzi dovevaintervenire, anche se poi per qualche ragione non lo ha fatto.
Come abbiamo già in parte notato, dunque, tra causazione e responsabilità c’è
una differenza logica. Può esserci causazione senza responsabilità e
responsabilità senza causazione. Se Rossi era in condizioni di soccorrere Bianchi
e non lo ha fatto, indipendentemente dal fatto che fosse in grado di prevedere o
no l’esito della sua azione, tale azione era in ogni caso doverosa: ragione per cui
se Bianchi decede, Rossi è responsabile di questo evento, purchè si dimostri che,
se avesse soccorso Bianchi, Bianchi non sarebbe morto. Il caso è strutturalmente
uguale a quello in cui, poniamo, Rossi vende una dose di eroina a Bianchi,
Bianchi muore e si stabilisce che se Rossi non avesse venduto l’eroina a Bianchi
Bianchi non sarebbe morto. Qui non solo Rossi è un fattore cuasale della morte
di Bianchi ma ne è anche responsabile, perchè è proibito dalla legge vendere
eroina.
Come si sa, nella legge italiana esistono due tipi di reati omissivi: propri, che si
configurano come il mancato compimento di un'azione imposta dalla norma
penale; impropri, che si configurano come la mancata realizzazione di un'azione
dovuta che comporta un danno materiale. L’omissione di soccorso è un reato
omissivo improprio. L’azione di soccorso nei confronti di chi ne ha
oggettivamente bisogno è doverosa anche se, per ipotesi, altri soggetti fossero
stati in condizione di prestare soccorso in quella stessa circostanza. In una
situazione che diremmo di ridondanza di responsabilità, simile ma diversa da
quella della ridondanza causale, nessuno è esonerato dalle sue responsabilità
semplicemente perché altri avrebbero potuto agire al suo posto.
Possiamo aggiungere che la responsabilità sommata alla relazione causale
appare moralmente più grave della responsabilità senza relazione causale, quale
è normalmente presente nella responsabilità omissiva. La teoria sopra esposta
quindi consente di giustificare una gradazione tra responsabilità. Si può anche
ipotizzare che, data l’importanza del nesso causale, la legge esige un alto grado
di rigore nell’accertare che il soccorso avrebbe, in quelle condizioni, portato un
reale vantaggio al soggetto danneggiato
Una recente sentenza della Cassazione riguardante la verifica del nesso di
causalità e dell’attribuzione di responsabilità ha affermato il principio che“nel
reato colposo omissivo improprio il rapporto di causalità tra omissione ed evento non
può ritenersi sussistente sulla base del solo coefficiente di probabilità statistica, ma deve
essere verificato alla stregua di un giudizio di alta probabilità logica, sicché esso è
configurabile solo se si accerti che, ipotizzandosi come avvenuta l’azione che sarebbe
stata doverosa ed esclusa l’interferenza di decorsi causali alternativi, l’evento, con
elevato grado di credibilità razionale, non avrebbe avuto luogo ovvero avrebbe avuto
luogo in epoca significativamente posteriore o con minore intensità lesiva” (Cass.
pen., sez. IV, sent. 20 settembre 2007, n. 35115, Franzese).
C’è solo da aggiungere che nei casi di causalità non-omissiva la dissociazione
tra responsabilità e causalità non prende forme evidenti. Se un automobilista
ubriaco passa con il rosso e uccide un passante è a tutti gli effetti causa della
morte di questo (la vittima non sarebbe morta se non fosse stato ubriaco, e a
fortiori se non fosse esistito in quel momento) e inoltre anche responsabile della
morte di questo, stante che per lui era doveroso non guidare in stato di
ubriachezza e non passare con il rosso.
La considerazione della volontarietà della sua azione fa parte di una sfera di
considerazioni diverse miranti a stabilire non tanto la sua responsabilità ma il
tipo di reato per il quale deve essere giudicato colpevole: un omicidio può
essere volontario o colposo, ma chi lo causa ne è responsabile, in quanto è
vietato dalla legge.
La tesi secondo cui causalità e responsabilità sono concetti indipendenti non è
una novità filosofica. Alcuni filosofi si richiamano alla prevedibilità del danno.
Citando dalla letteratura anglosassone (Copi-Cohen, Introduzione alla logica
1961) : “nei casi di presunta negligenza una persona può essere ritenuta
responsabile se,in condizioni normali, avrebbe dovuto essere in grado di
prevedere che il suo atto sarebbe stato decisivo nel provocare l’offesa”(trad.it.Il
Mulino, Bologna,1997, p.622). Il difetto di questa tesi è che lega la responsabilità
alla capacità soggttiva di prevedere. Ci sono soggetti ( che in buon italiano si
dicono persone irresponsabili) i quali hanno una ridotta capacità di prevedere
le conseguenze delle proprie azioni ; ma non si può pensare che la legge debba
trattarli in modo differente da soggetti di normale intelligenza solo per le loro
ridotte capacità mentali.
Si guardi invece a questa semplice riflessione di David Aronovitch, che due
anni or sono sul Times scriveva:“Responsabilità e causazione non sono la stessa
cosa. Per esempio, se io ti faccio cadere sulla strada, tu sei causa della caduta di
un ciclista dalla sua bici; se tu non fossi stato lì, lui non sarebbe caduto. Ma tu
non sei responsabile della sua caduta. E io sospetto che sia possibile che si dia
responsabilità senza causazione. Nei tradizionali plotoni di esecuzione, solo un
membro del plotone riceve un una cartuccia a salve, mentre gli altri ricevono
cartucce vere, senza che nessuno sappia chi ha la cartuccia vera. Pertanto non
sapremmo dire chi ha causato la morte del condannato. Ma, ragionevolmente,
potremmo ritenere responsabile della morte di questo un volontario che
chiedesse di partecipare all’esecuzione”.
Qui per distinguere tra causazione e responsabilità l’accento viene messo sulla
volontarietà dell’azione, anziché sulla doverosità della stessa, diversamente da
quanto abbiamo sostenuto nelle pagine precedenti. Sulla tesi di Aronovitch ci
sarebbe molto da discutere: se il volontario del plotone di esecuzione è ammesso
a prendere parte alla fucilazione è chiara la sua intenzione di uccidere in qual
particolare momento, ma diremmo che è responsabile della morte del
condannato? La rilevanza causale del suo sparo per la morte del condannato
può essere positiva o nulla a seconda del tipo di cartuccia che si trovava in
canna, ma secondo il punto di vista qui sostenuto in ogni caso la sua
responsabilità è nulla perché non ha commesso nessuna trasgressione. Infatti
il suo obbligo in quanto membro del plotone è quello di premere il grilletto
insieme agli altri fucilieri, non di astenersi da questa azione.
11. Il relativismo e il problema della ricostruzione dei fatti.
Il mito dei “duri fatti” è apparso, nell’epistemologia cosiddetta
“postpositivista”, una delle eredità negative del positivismo dell’800. Ma già
prima della seconda guerra mondiale sporadiche voci si opponevano a queste
certezze. Nel 1935 appariva un libro originariamente misconosciuto, “Genesi e
sviluppo di un fatto scientifico” (1935) scritto da un microbiologo ebreopolacco,
Ludwig Fleck, metteva a fuoco storicamente, sotto l’influenza di Scheler, Weber
e Mannheim, le ricerche sulla sifilide e la scoperta della reazione Wassermann in
una chiave molto lontana da quella autorizzata dal neopositivismo. L’accento
viene posto sul carattere sociale e collettivo della ricerca scientifica,
svalorizzando il ruolo del singolo ricercatore nella misura in cui questo non
può non essere condizionato da un modo di pensare, che Fleck chiama “stile di
pensiero”(Denkstil) che dipende da una comunità o “collettivo di pensiero”. Le
idee di Fleck rimasero praticamente sconosciute, almeno finché non furono in
parte riscoperte (nonché adottate e adattate) dal filosofo della scienza americano
– in realtà uno storico delle idee con interessi filosofici - Thomas Kuhn, autore
della La struttura delle rivoluzioni scientifiche (1962). Il testo di Kuhn in effetti
nasceva dal convergere di una pluralità di influenze, tra cui quella di Quine, del
linguista B.L.Whorf e del filosofo Michael Polanyi. Va anche detto che il
successo del saggio di Kuhn ha oscurato un testo filosoficamente più sigificativo
apparso qualche anno prima, “Modelli della scoperta scientifica” di
N.R.Hanson. Alle spalle di Hanson è evidente l’influenza del secondo
Wittgenstein e della teoria del significato come uso, con cui si nega che il
significato dei termini dipenda da un rapporto descrittivo con il mondo (teoria
corrispondentista della verità).
In realtà all’epoca del Circolo di Vienna la c.d. questione dei protocolli aveva
già in parte anticipato le difficoltà del punto di vista tradizionale secondo cui
le proposizioni rappresentano i fatti come una fotografia rappresenta un
frammento di mondo. I protocolli sono registrazioni di sensazioni elementari
che dovrebbero essere la base si cui poggia l’edificio della scienza. La posizione
di Otto Neurath era che in ultima istanza la scelta era sempre tra proposizioni,in
quanto il rapporto tra proposizioni e il cosiddetto mondo esterno non può
essere a rigore un rapporto né di concordanza né di incompatibilità. La scienza
veniva paragonata ad una nave che non tocca mai terra e deve riparare le
proprie falle con il suo stesso materiale. Secondo Neurath l’unico criterio per la
scelta degli asserti-base è la coerenza interna della costruzione, mentre Popper
evidenzia il loro lato convenzionale: essi sono scelti in base ad una decisione
metodologica della comunità scientifica. In ambedue i casi si nega l’esistenza
dei duri fatti come elementi basilari del mondo, e si teorizza che in realtà si
opera sempre con dati linguistici. Questi però hanno inevitabilmente un
rapporto con il tipo di
linguaggio impiegato, con le teorie presupposte e con i pregiudizi ambientali, e
quindi perde senso l’idea di parlare di fatti neutri , oggettivi, o della cosiddetta
evidenza . Alla luce delle considerazioni precedenti diventa comprensibile come
negli anni 60 -70 si sia operato il rovescimento del rapporto tra fatti e teorie.
Mentre per i neopositivisti i fatti condizionavano le teorie, la nuova concezione
impone di dire che sono le teorie a condizionare i fatti. Kuhn chiama paradigma
l’insieme dei preconcetti, dei modi di vedere e di pensare, condivisi in una certa
epoca storica da una comunità scientifica nella fase diella cosiddetta scienza
normale, in cui ci si muove sui tranquilli binari fissati dai manuali. Quando i
paradigmi entrano in crisi si entra in una fase rivoluzionaria, al termine della
quale emerge un paradigma alternativo, che impone un nuovo modo di vedere,
e quindi modifica l’insieme di fatti che stanno alla base del paradigma.
Il “vedere carico di teoria” è esemplificato da Hanson immaginando che un
tolemaico (in realtà lui parla di Tycho Brahe) e un copernicano assistano a un
tramonto sul mare. Anche se in un certo senso i due vedono la stessa cosa
(perché la stimolazione retinica è la stessa) , il resoconto linguistico che daranno
di ciò che vedono è diverso. Uno dirà che il sole si è abbassato, l’altro dirà che
l’orizzonte si è alzato. Il sole del copernicano non è lo stesso sole
dell’aristotelico: all’interno del paradigma tolemaico il sole è un oggetto per sua
natura mobile, mentre nel primo paradigma è un oggetto per sua natura
immobile.
Il tramonto del sole appartiene alla categoria di quelli che si chiamavano “duri
fatti” : essi sono più o meno coincidenti con quelli che abbiamo chiamato Kim
eventi elementari , la cui forma, come sappiamo , è [a,P,t]. Kim accompagna la
sua teoria con un criterio di identità per eventi che è questo: un evento [P,a,t] è
identico a un altro [Q,b,t’] se e solo se P=Q, a=b, t=t’. Quindi se sono differenti i
predicati che intervengono nei due eventi sono diversi gli eventi stessi. Questo
crea una proliferazione sicuramente sgradevole di eventi.
“Rossi guidava l’auto alle 20.30 di ieri alla Bicocca” è diverso da “Rossi guidava
l’auto alle 20.30 di ieri ubriaco alla Bicocca” , anche se intuitivamente si
riferiscono allo stesso evento. I Kim-eventi che li contengono sono dunque
diversi, anche se intuitivamente sono solo una specificazione uno dell’altro.
Ricorrendo alla venerabile distinzione tra connotazione e denotazione si può
dire che le due descrizioni denotano lo stesso evento ma lo connotano in modo
diverso. Questa distinzione si applica di solito a corpi tridimensionali e non a
eventi. Posso connotare Cesare come “il conquistatore delle Gallie”(a) o il
“massacratore delle Gallie”(a’) , con una notevole variazione di significato. Se
a=a’ in questo caso il Kim-evento [a,P,t] è uguale al Kim-evento [a’,P,t]. In tal
caso l’identità tra a e a’ stabilisce un’identità tra Kim-eventi, che però potrebbero
essere in certi contesti usati con valori diversi.
L’importanza di queste distinzioni emerge quando dai cosiddetti “hard facts” si
passa ai “soft facts”, cioè i fatti morbidi, con un alto grado di dipendenza
contestuale e linguistica. Per semplificare, diremo che i fatti morbidi sono in
genere fatti relazionali, e cioè fatti che sono correlazioni tra Kim-eventi atomici.
Esempio : il fatto a ha preceduto il fatto b, il fatto a ha causato il fatto b, il fatto a
è inferibile dal fatto b eccetera. Quanto alle leggi di natura, i veteropositivisti li
vedevano come “megafatti” che erano oggetto di scoperta, non di costruzione, e
costituivano quindi non i mattoni ma le travi portanti dell’edificio scientifico.
Questa immagine della scienza cominciò a dissolversi con l’irruzione della
statistica nella fisica (si pensi alle leggi dei gas) e scomparve definitivamente con
la meccanica quantistica, le cui leggi enunciati correlazioni anche per basse
probabilità.
Abbiamo già visto che il fattore linguistico-connotativo (che per semplicità
chiameremo fattore intensionale) entra in gioco nella identificazione dei Kimeventi. Questa dipendenza ovviamente aumenta quando si passa a fatti
relazionali, cioè a relazioni tra Kim-eventi. Per cominciare, la relazione causale
tra Kim-eventi non ha lo stesso grado di evidenza che è presente nella relazione
cronologica. Ci sono teorie della causalità, e adottarne una – per esempio la
teoria della condicio – già significa introdurre una certa forma di
relativizzazione.
Secondariamente, a parte la scelta teorica circa la natura della relazione
causale, il fattore intensionale può introdurre una distorsione. Il caso della
vittima uccisa simultaneamente da due killers si presta ad esemplificare il caso.
Se nel Kim-evento che è effetto usiamo la descrizione [a, Morto con due proiettili
in corpo, t] allora si stabilisce la corretta relazione causale: Se Tizio non avesse
sparato a non sarebbe morto con due proiettili in corpo , e idem dicasi per Caio.
Questa costruzione sembra seguire dal criterio della massima specificità
introdotto da Hempel per la spiegazione e da un criterio generale che è
certamente condivisibile: “
(I)Si introduca il massimo di informazione rilevante per la soluzione del problema a cui
è finalizzata la ricerca.
Ma, come abbiamo già visto, il connotare in modo più specifico l’evento effetto
può non funzionare in tutti i casi. Ciò che infatti fa inceppare il metodo non è il
modo insufficiente in cui si descrivono gli eventi ma una insufficiente visione
dei controfottuali che entrano in gioco. Più esattamente: se le descrizioni diverse
di uno stesso evento danno origine a distorsioni nell’accertamento delle cause,
una corretta teoria controfattuale della causa ha il compito di minimizzare il
peso del fattore intensionale, fino a renderlo inoperante.
Se è vero che l’accertamento delle cause è relativo al tipo di connotazione
operato, e questo , a sua volta, relativo alle teorie o ai pradigmi, si può sostenere
che una teoria adeguata della causa si può valutare come positiva nella misura
in cui tende ad annullare il peso del fattore intensionale, realizzando così un
tipo particolare di derelativizzazione.
Abbiamo visto molte volte che l’aumento di informazione può aiutare a
eliminare l’indeterminazione e il peso di altri tipi di relativizzazione. A
commento della massima (I) bisogna dire che nell’ introduzione di informazione
bisogna evitare due scogli opposti: il primo naturalmente è l’omissione di
informazione, o selettività arbitraria, che fa incorrere nel rischio di travisamento
dei fatti. Ma c’è anche il rischio opposto: l’eccesso di informazione irrilevante
può creare serie difficoltà nella risposta a un problema, come chiunque può
sperimentare facendo una ricerca in Internet con un motore di ricerca che ci
costringe a considerare centinaia di dati per lo più irrilevanti. Rilevanza
informativa e semplicità sono due grandezze interconnesse, al punto che filosofi
come Elliott Sober hanno proposto l’ identificazione tra semplicità e
informatività.
Che significa ricostruire un fatto o una serie di fatti? Significa pervenire alla
formulazione (di solito in forma narrativa) di un enunciato complesso che
ottimizzi semplicità e quantità di informazione nel rispondere alla domanda
“che cosa è accaduto nel luogo a durenta l’intervallo t’-t”?”
Ricostruire una serie di fatti non è lo stesso che spiegarli o comprenderli.
Per chiarire questo punto riprendiamo la tradizionale distinzione tra fatti
riproducibile e non riproducibili. I primi sono quelli che entrano in gioco nelle
cosiddette scienze sperimentali, in cui le leggi connettono fatti che sono
normalmente oggetto di esperimento. Le leggi naturali connettono fatti che o
sono umanamente riproducibili o, ricorrendo a una metafora, sono riproducibili
dalla natura. Le cosiddette scienze “idiografiche” hanno a che fare con fatti
irripetibili,e quindi a fortiori non riproducibili. Il problem solving giudiziario da
questo punto di vista è assimilabile alla trattazione dei fatti nelle scienze
idiografiche, e in particolare nella storiografia.
Quali sono le differenze tra ricostruzione storiografica dei fatti e ricostruzione
giudiziaria? Le differenze in prima approssimazione sembrano queste: 1) lo
storico è impegnato nella ricerca su un frammento di realtà passata che lui
stesso ha prescelto; 2) la ricerca storica è illimitatamente aperta alla revisione,
mentre lo scopo del processo è quello di porre un termine alle ricerche
ottenendo una ricostruzione fattuale che si propone di essere definitiva; 3) nel
lavoro dello storico la selezione dei dati di partenza è largamente arbitraria in
quanto spesso non è orientata da una domanda precisa a cui la ricostruzione è
finalizzata; 4) la metodologia dello storico è “libera”, mentre quella del giudice è
vincolata da regole procedurali. Nessuna di queste differenze è tale da
nascondere le profonde affinità di obiettivi e di metodo.
Vediamo dunque cosa si può imparare dalla più importante opera dedicata
alla metodologia storica, il ponderoso lavoro di J.Topolski “Metodologia della
ricerca storica”. Prima di tutto Topolski distingue tra il fatto come “ciò che è
realmente accaduto” e la sua ricostruzione storiografica”, che sarebbe meglio
chiamare “fatto storiografico”. L’idea di Topolski, influenzata dal materialismo
dialettico, chiede che la ricerca storica crei una continua approssimazione del
fatto storiografico alla cosiddetta verità. Non viene menzionato un criterio di
razionalità suggerito sopra, cioè che l’esposizione del fatto deve rispondere al
requisito di esporre il massimo di informazione in forma non-ridondante e
semplice.
In ambedue i tipi di indagini, comunque, è essenziale il ruolo delle ipotesi.
In storiografia si parte da domande di spiegazione (perché?) e domande
fattografiche (che cosa è accaduto?) e si avanzano delle risposte che sono le
ipotesi da cui si parte. Analogamente accade nei processi, dove il capo d’accusa
è considerato un’ipotesi. Per il controllo dell’ipotesi lo storiografo userà le fonti,
il giudice le testimonianze e i reperti, ma la procedura è
analoga.SecondoTopolski nella verifica delle ipotesi si distingue tra metodo
diretto e metodo indiretto.
Metodo diretto. Se le fonti parlano direttamente del fatto, si adotta un preciso
principio che è il seguente:
“Se la fonte è autentica e le informazioni credibili, allora i fatti dei quali queste
informazioni parlano sono realmente o molto probabilmente avvenuti”. La
conclusione che il fatto è avvenuto si può quindi ottenere per applicazione delle
leggi logiche, e il fatto può essere considerato indubitabile e immagazzinato
nello stock di informazione.
Metodo indiretto. Ci sono due livelli di analisi. Il primo verte sull’autenticità della
fonte e sulla credibilità dell’informazione e quindi consiste nell’applicazione del
metodo diretto. Il secondo è la verifica dell’ipotesi H valutando le sue possibili
conseguenzeA1…An. Se queste si sono veramente verificate allora H si può
considerare eventualmente una buona spiegazione delle conseguenze. Come
sappiamo. la spiegazione non è necessariamente una spiegazione causale: la
correlazione potrebbe essere statistica o indiziaria. L’importante è che il
ragionamento sia ottenuto applicando forme di inferenza razionale, cioè –come
abbiamo visto – forme di inferenza che conservano il massimo di informazione
disponibile.
Questo è quanto propone Topolski. La differenza con quanto sostenuto nelle
pagine precedenti è che H va valutata insieme a un insieme di ipotesi alternative
esaustive e disgiunte H2…Hn che abbiano superato una certa soglia di
credibilità. La ricerca di informazione ha lo scopo di raggiungere una risposta
determinata, il che consiste nell’ eliminare la disgiunzione delle ipotesi fino a
restare con un’ipotesi vincente . Abbiamo sottolineato che il risultato della
procedura, che può essere portatrice di errori, va confermata da una
controprova- che va conseguita su basi indipendenti da quelle impiegate nella
procedura stessa.
Va notato che gli epistemologi che aderiscono ad una teoria coerentista della
verità (come Nicholas Rescher), secondo i quali la verità di una proposizione
consiste nella sua coerenza con la conoscenza acquisita, preferiscono adottare un
metodo diverso, anche se ovviamente in alcuni casi può produrre gli stessi
risultati di quello qui esposto. Secondo i coerentisti si parte non da informazioni
certe ma da dati, con o senza pedigree, pertinenti per una certa ipotesi H. si
accerta la loro coerenza interna e in molti casi può accadere che tali dati (p.es.
testimonianze) siano contraddittorie tra loro. Nell’ insieme dei dati si scelgono
allora dei sottoinsiemi coerenti. Si accerta quindi la “plausibilità” di tali
sottoinsiemi. I metodi per l’accertamento di tale plausibilità tuttavia sono
diversi, e comunque tutti lontani dalla corrispondenza con la cosiddetta realtà,
che per i coerentisti è secondaria. Rescher elenca vari metodi di scelta, uno dei
quali è il metodo dell’utilità pragmatica. Ma è chiaro che l’adozione di tale
metodo può portare a risultati arbitrari, o peggio ancora conformi agli interessi
più o meno nobili di chi compie la selezione.
Il metodo soggettivista-bayesiano esposto a p.31 è conforme alla metodologia
coerentista. Nella diversa prospettiva qui suggerita invece si parte da uno stock
di informazione, rilevante per gli obiettivi, che è ovviamente coerente (perché
selezionata per aver superato il livello di soglia) e tendenzialmente completa,
(nel senso che è la migliore approssimazione a una completezza ideale).
Elementi di informazione non possono essere cancellati solo perché
incompatibili con l’ipotesi testata. Se un’ipotesi è accettata in base a questo tipo
di evidenza dopo essere stata confrontata con ipotesi rivali, la sua validità è
assoluta rispetto ad essa : anche se ovviamente rivedibile una volta che il suo
sostegno informativo venga esteso con nuovi elementi .
In tema di ricostruzione dei fatti, dovranno quindi essere confrontate diverse
ricostruzioni ipotetiche , procedendo poi all’ identificazione della migliore delle
ipotesi. Nei casi di parità viene escluso il ricorso all’arbitrio del giudice: o si
accetta la conclusione disgiuntiva o si ricorre a un’estensione della base
informativa. Questo modo di procedere appare conforme alla prassi con cui nei
tribunali veniva applicata la formula Non liquet con la quale il giudice
chiedeva un supplemento di istruttoria nei casi in ui la ricostruzione dei fatti si
presentasse incerta.
12. La scientificità come oggetto di prova.
Nel momento il cui il giudice deve scegliere un perito o un collegio di periti,
deve affrontare il problema di scegliere periti che non solo siano affidabili,
ma competenti in discipline qualificabili come scientifiche. Per questo il
giudice ha il problema di come far leva su criteri affidabili di scientificità. Come
vedremo, però, in alcuni casi la scientificità non interessa il giudice per guidare
le sue scelte, ma diventa essa stessa oggetto di controversia giudiziaria. In
ambedue i casi è inevitabile un ricorso non alla scienza ma alla riflessione sulla
scienza, cioè all’epistemologia.
Si può presentare il nucleo della filosofia della scienza come il tentativo di
rispondere alla domanda circa la demarcazione tra scienza e non-scienza.
Autorevoli filosofi come Larry Laudan hanno messo in dubbio la possibilità di
questa demarcazione. Ma essere scettici sulla possibilità della demarcazione
significa essere scettici sulla stessa filosofia della scienza e forse sulla stessa
scienza.
Come è noto, è stato soprattutto Popper il filosofo che ha dato centralità a
questo tema, guidato sicuramente da un certo gusto per la provocazione . La
questione sollevata da Popper è stata spesso confusa con altre questioni diverse,
anche se apparentate, discusse dai filosofi. Anche i neopositivisti del Circolo di
Vienna si ponevano un problema di demarcazione, ma era il problema della
demarcazione tra senso e non senso. Nella visione dei neopositivisti la classe di
enunciati classificati come sensati coincideva con la scienza stessa. Nel dominio
dell’insensato finivano così, a pari merito, la metafisica, i sistemi normativi, le
valutazioni estetiche e morali, le esclamazioni dettate da emozioni occasionali.
Sull’ identificazione tra scienza e sensatezza operata dai neopositivisti si è
appuntata con successo la critica di Popper. Sono pochi ora a pensare che si
ottenga qualche vantaggio negando sensatezza alla metafisica o al linguaggio
normativo. Scienza e metafisica sono più intrecciate di quanto gli scienziati
amino credere (c’ è sicuramente una metafisica rilevante per la scienza, come è
stata a suo tempo quella di Aristotele); e, quanto alla sensatezza delle norme,
senza scomodare il diritto basta osservare che la scienza fa largo impiego di
regole inferenziali o procedurali che, pur essendo norme, sono pienamente
sensate in contesto scientifico.
Il cosiddetto principio di verificabilità, o criterio empirico di significanza,
originariamente enunciato dai neopositivisti come criterio di sensatezza, ha fatto
poca strada. Come si sa, la sua prima formulazione consisteva nel dire che un
enunciato è sensato se e solo se è verificabile conclusivamente in linea di
principio. Dato però che le leggi di natura, espresse da enunciati infinitari, sono
inverificabili anche in linea di principio, dovrebbero finire nel calderone del non
significante in compagnia della non-scienza, il che è ovviamente assurdo. Si sa
che il criterio è stato riveduto e corretto in vari modi, il più raffinato dei quali
era il criterio della conferma probabilistica.. Ma gli esiti sono comunque dubbi,
considerando che il probabilismo non può sfuggire a conclusioni imbarazzanti,
come il fatto che le leggi ricevono probabilità uguale a 0 (nel continuo
carnapiano dei emtodi induttivi) e comunque molto bassa con i metodi induttivi
della scuola di Hintikka.
Prima di discutere il problema della demarcazione tra scienza e non-scienza è
bene comunque sottolineare che vi sono altri problemi di demarcazione che
dovrebbero interessare l’epistemologo. Uno interessante e poco battuto è quello
tra scienza ed arte, e in subordine quello tra scienza e letteratura. I dialoghi di
Galileo sono un’opera d’arte o un’opera scientifica? I disegni di Leonardo sono
opere scientifiche o opere artistiche? La storiografia è arte o scienza ? Se
rispondiamo che sono ambedue le cose tocchiamo con mano che forse la
distinzione tra arte e scienza non è chiara come si vorrebbe. Un’altra distinzione
su cui ci si trova a discutere, soprattutto nell’ambito di scienze come la
psicologia, è la demarcazione tra costruzione mentale paranoica e costruzione
mentale razionale. La storia della scienza è piena di personalità paranoiche ma
soprattutto lo è la pseudoscienza (si veda M.Gardner ,”Fads and Fallacies in the
name of Science”) Faccio solo l’esempio di W. Reich, il teorico della rivoluzione
sessuale, che aveva inventato una macchina per catturare l’energia orgonica e
che negli anni ‘50 cercò di convincere il governo americano che i dischi volanti
stavano tentando un invasione della terra.
La discussione sulla demarcazione tra scienza e non-scienza, sarebbe un passo
importante se fosse possibile distinguere la scienza da altri sistemi di pensiero
che hanno pretese conoscitive come la filosofia, la religione e l’ideologia. La
demarcazione tra scienza e ideologia merita una parentesi. L’ideologia ha delle
affinità con la religione e con le costruzioni mentali paranoiche. Nel modo di
pensare ideologico viene identificato un nemico numero uno, che ha lo stesso
ruolo di Satana nelle religioni, e ci si pone come obiettivo primario la lotta
contro tale nemico ( può essere l’ebraismo nell’ideologia nazista, le
multinazionali in quella terzomondista ecc.). La lettura della realtà viene
effettuata in funzione della lotta all’arcinemico. L’ homo ideologicus attua una
selezione dei dati informativi, nel senso che prende in considerazione tutto ciò
che può essere impiegato nella lotta al nemico, mentre viene cancellato o
minimizzato tutto ciò che interferisce con il perseguimento degli obiettivi
polemici. Il modo di pensare ideologico è, da questo punto di vista, un caso
speciale di sistema di pensiero paranoico: ciò che conta è la conservazione
delnucleo delirante e la coerenza interna del sistema, che viene di solito ottenuta
con la rimozione dell’evidenza contraria (si pensi all’ hegeliano “tanto peggio
per i fatti”). Questo risultato, incidentalmente, è uno dei possibili esiti
dell’adesione alle cosiddette “teorie coerentiste della verità”, che trovano
concordi vari sostenitori dell’idealismo, e non solo questi (si veda p.es. Neurath,
che era un membro del Circolo di Vienna). Dobbiamo a Neurath la metafora
della nave: la scienza è paragonata ad una nave che non può mai toccare terra
ed è costretta a riparare le proprie falle ricorrendo ai materiali che si trovano a
bordo. La metafora della nave ha qualche punto in comune con quella
popperiana della scienza su palafitte. Le palafitte non toccano mai uno strato
roccioso, ma possono essere spinte più a fondo, rendendo possibile un
ampliamento e un consolidamento dell’intera struttura.
Ma, a differenza di Neurath, Popper ammette, anzi esige, che le teorie
superino dei controlli rigorosi miranti alla loro falsificazione. I popperiani
hanno buon gioco a dire che la religione e l’ideologia sono costruzioni
extrascientifiche perché non falsificabili: gli asserti che li costituiscono non sono
refutabili da nessun controesempio perché questi sistemi di pensiero
autorizzano sempre delle Va detto che anche i neopositivisti avevano dalla loro
uno strumento metodologico efficace, che è il principio dell’evidenza totale. Nella
scienza qualsiasi ipotesi, sia categorica che probabilistica, deve essere controllata
esaminando tutta l’informazione disponibile. In una variante più debole ma più
appl icabile, ogni ipotesi va controllata esaminando tutta l’informazione
rilevante per l’ipotesi stessa, dove la rilevanza può essere positiva o negativa.
Qui il divario tra scienza e ideologia risulta piuttosto chiaro: le “verità”
ideologiche sono sostenute da un uso selettivo dell’informazione, che a volte si
può spinge fino a negare l’evidenza diretta (come quando qualcuno arrivò a
negare l’urto degli aerei contro le due torri l’11 settembre del 2001).
Lo stesso principio dell’evidenza totale dovrebbe essere applicato, almeno in
teoria, nelle corti di giustizia. Qui i giudici, nel valutare un’ipotesi di
colpevolezza, dovrebbero in linea di principio tener conto di tutta
l’informazione che può essere positivamente o negativamente rilevante
perl’ipotesi. Ne potremmo parlare come di criterio di non-selettività. La
nonselettività si impone dunque come principio guida per tracciare una prima
discriminante tra ciò che aspira legittimamente ad essere considerato scienza e
ciò che non può avere questa pretesa. Ho detto “ciò che aspira ad essere
considerato scienza” per rendere subito chiaro che non tutte le discipline
insegnate nelle nostre facoltà con il nome di scienza, come le scienza motorie o
le scienze teologiche, sono effettivamente scienze. Tanto meno qualcosa è
scienza per avere nel proprio nome il suffisso “logia”, come la grafologia o
ladietologia. Si può dire che alcune di queste, pur non essendo scienze, sono
tuttavia discipline a carattere scientifico. La distinzione dovrebbe a mio avviso
prendere il posto di quella, meno convincente, che spesso si fa tra scienze fisiche
e scienze umano-sociali. Sarebbe facile tracciare che la distinzione tra discipline
a carattere scientifico e altre discipline non scientifiche dicendo che chi opera
nelle prime è dotato della cosiddetta mentalità scientifica. Ma questo da un lato
sembra implicare una connotazione psicologica che purtroppo è difficile
dettagliare, dall’altro sembra suggerire l’esistenza di un codice di
comportamento scientifico (un’etica scientifica) che viene spesso invocato
manon è mai stato scritto.
Un’idea che potrebbe sembrare plausibile sta nel dire che una disciplina è
scientifica quando, anche in assenza di una teoria dominante condivisa e
confermata, impiega dei metodi di accertamento che sono caratteristici
dellescienze in senso pieno come la fisica e la biologia: per esempio
metodimatematici, statistici, tecnologie avanzate di misura e di calcolo eccetera.
Si noti però che anche l’astrologia, per fare un esempio banale, fa uso di metodi
matematici, anche se è piuttosto chiaro che non può essere considerata né una
scienza né una disciplina scientifica. Come aveva visto Popper, nell’ambito delle
non-scienze le pseudo-scienze sono particolarmente insidiose, perché si
presentano ai profani come scienze: si assicurano così il successo da un lato per
l’innata tendenza umana alla credulità, dall’altro per l’ambiguità che si è venuta
a creare sul concetto stesso di scienza, purtroppo imputabile alle oscillazioni che
ha avuto l’epistemologia sul tema della demarcazione.
Il riferimento all’astrologia è naturalmente un richiamo a Popper, che ne aveva
fatto un esempio paradigmatico di pseudoscienza insieme a due altre discipline
sempre citate insieme ad essa, la psicoanalisi (di Freud, ma anche di Adler e
Jung) e l’economia marxista.
Il metodologo Adolf Grünbaum ha contestato questa pretesa nonfalsificabilità delle affermazioni freudiane, notando che più volte Freud è stato
costretto a cambiare le sue teorie perché l’esperienza clinica le mostrava false.
Per Grünbaum esiste un criterio più convincente per stabilire la scientificità
della psicoanalisi, ed è quello del successo terapeutico. Per dimostrare la
scientificità della psicoanalisi, dunque, bisognerebbe dimostrare 1) che essa
riesce effettivamente a guarire le nevrosi e 2) che nessuna altra disciplina può
farlo.
Purtroppo, però, le cose non stanno così. Lo stesso Freud espresse qualche
perplessità sulla possibilità di guarire effettivamente grazie all’analisi. D’altra
parte, i sintomi delle nevrosi possono essere guariti anche con mezzi alternativi
alla psicoanalisi, per cui nemmeno la seconda condizione sembra verificabile.
Per Grünbaum non è giusto escludere a priori la scientificità della psicoanalisi;
semplicemente, essa non è al momento confortata dai fatti.
Per quanto Popper sia stato visto per diversi decenni come un positivista
eretico, è abbastanza chiaro che la sua concezione ha un impianto diverso da
quello che discende dal positivismo. In primo luogo i popperiani negano sia il
ragionamento induttivo , sia l’esistenza di osservazioni neutre che, estrapolate
induttivamente, stanno alla base della scienza. Secondariamente, se ciò che
caratterizza la scienza è la falsificabilità, allora la scienza si distingue non per
darci certezze poggianti sui fatti, ma al contrario per la sua fallibilità e per la sua
rivedibilità perpetua.
Negli anni ’50 l’attacco ai capisaldi del positivismo avviato da Popper è
passato anche per vie diverse. Mi limito a citare la critica alla distinzione tra
enunciati analitici e sintetici proposta da Quine già negli anni ‘40 e la critica alla
distinzione tra enunciati osservativi e teorici, sostenuta da Sellars negli anni ‘50.
L’ influenza più profonda dopo gli anni 40 è stata però quella del secondo
Wittgenstein. Il secondo Wittgenstein ha proposto una concezione antropologica
del linguaggio, per la quale l’unico criterio di significato non è offerto dalla
corrispondenza con il mondo ma dalla presenza di regole d’uso condivise,
anche se non codificate. Per usare una sua frase famosa, “i limiti del mondo
sono i limiti del linguaggio”. Indipendentemente da Wittgenstein, antropologi
come Sapir e Whorf proponevano una forma estrema di relativismo, per il quale
lingue naturali diverse, come per esempio l’inglese e l’esquimese, determinano
diverse percezioni del mondo e, essendo tra loro intraducibili, determinano
mondi inconfrontabili tra loro.
Il passo compiuto da Hanson e poi da Kuhn con la cosiddetta “svolta
relativistica” è stato una conseguenza di queste premesse. Dato che teorie
scientifiche diverse impiegano regole d’uso diverse per termini acusticamente
uguali come “luce”, “sole”, “spazio”, se ne conclude che ogni teoria scientifica,
nel momento in cui condiziona il pensiero di una generazione di scienziati,
determina una visione del mondo incommensurabile con le visioni che
storicamente la precedono. Il passaggio da una teoria a un’altra, che Kuhn
chiama mutamento di paradigma, è una rivoluzione scientifica, nel senso che
propone un nuovo modo di vedere le cose, e con ciò modifica lo stesso insieme
di dati osservativi che i positivisti mettevano a base della scienza. Esempio
standard è quello della rivoluzione copernicana. Si nega quindi non solo
l’effettiva applicazione del ragionamento induttivo, ma anche l’applicazione
della falsificazione teorizzata da Popper. Dato che è il paradigma stesso che
funziona come filtro per i dati empirici, non può essere falsificato da questi.
Nella cosiddetta “nuova filosofia della scienza”, emersa negli anni 60, il
requisito dell’evidenza totale è stato abbandonato come uno dei miti del
positivismo, e condannato insieme ad altre idee considerati pregiudizi
positivisti, come quello del progresso cumulativo della conoscenza, l’ideale
della matematizzazione e dell’uso sistematico della logica simbolica.
Se la scienza è una costruzione che non poggia sull’evidenza sperimentale ma
si regge sul consenso, non è per sua struttura diversa da altre costruzioni umane
che si reggono sul consenso, e in particolare alla religione e alle ideologie.
Insieme alle classiche dicotomie tra analitico e sintetico, descrittivo e normativo,
osservativo e teorico viene a cadere così anche la più antica e venerabile delle
dicotomie, che è quella tra doxa ed episteme, cioè tra credenza e conoscenza. Il
confine tra scienza e non-scienza, e quindi anche tra scienza e pseudo-scienza,
diventava così labile che l’esponente più oltranzista di questa corrente, Paul
Feyerabend, volle che una delle sue foto ufficiali avesse come sfondo lo zodiaco
usato dagli astrologi. Con l’anarchismo di Feyerabend non solo si nega
recisamente l’esistenza di un metodo scientifico, ma si afferma in positivo che
“tutto va bene”: ciò che importa infatti è solo la libera competizione tra
discipline, sistemi di pensiero e punti di vista diversi (fossero pure la
fantascienza o la magia nera) senza farsi domande sulle loro credenziali di
scientificità. In vista di questo obiettivo la metodologia normativa e la stessa
riflessione sui confini della scienza diventa un ostacolo al progresso della
conoscenza complessiva.
Feyerabend va apprezzato per aver portato alle estreme conseguenze un modo
di pensare che si presta a incoraggiare orientamenti che sono lontani dalla
scienza o esplicitamente antiscientifici. La deregulation Feyerabendiana aveva
fortuna, forse non a caso, negli stessi anni della deregulation reaganiana. Forse
non a caso una volta Reagan se ne uscì con la splendida boutade: “i fatti sono
stupidaggini”. Non è forse nemmeno un caso che a seguito dell’ondata
postpositivista negli anni ‘80 si sia assistito al dilagare in Europa
dell’ermeneutica, dell’heideggerismo, del pensiero di Nietzsche e, in Italia, del
cosiddetto pensiero debole. Il decostruzionismo di Rorty negli Stati Uniti
esemplificava in forma brillantemente anglosassone lo stesso orientamento.
Questi sviluppi riguardano il pensiero filosofico. Nell’ambito delle scienze
l’influenza del postpositivismo delle scienze avanzate è più difficile da valutare.
In Europa, soprattutto tra gli economisti, ha avuto credito la cosiddetta
metodologia dei programmi di ricerca di Lakatos, che ha proposto un
“falsificazionismo sofisticato” che è una ragionevole mediazione tra la filosofia
di Popper e quella di Kuhn. La metodologia di Lakatos è più descrittiva che
normativa. Un programma di ricerca non viene abbandonato per una
falsificazione singolare, ma solo quando, essendo incapace di progresso e carico
di problemi irrisolti, viene spodestato da un nuovo programma di ricerca che è
più ricco di contenuto, nel senso che è in grado di risolvere un più ampio
numero di problemi. Viene così assicurata la razionalità dello sviluppo della
scienza, che appariva perduta nella prospettiva kuhniana, spesso tacciata di
irrazionalismo o di sociologismo.
I dati osservativi nella concezione di Lakatos non hanno un ruolo di primo
piano. Si insiste invece sulla razionalità del consenso, anche se la razionalità di
cui parla Lakatos è una razionalità impersonale, di tipo hegeliano. Su questo
terreno bisognerebbe anche ricordare contributi diversi da quello di Lakatos,
poco studiati in Italia, come la teoria del consenso razionale di Lehrer-Wagner.
In questa si mostra come una comunità di scienziati razionali può partire da
assegnazioni probabilistiche soggettive a un certo enunciato h, ma correggere
questa assegnazione iniziale ponderandola con il grado di fiducia nell’autorità e
nella competenza di altri scienziati. Si mostra tramite un modello matematico
come la progressiva correzione delle valutazioni probabilistiche iniziali porti a
un valore unico, che è il risultato di una discussione critica e non di un consenso
dovuto alla “persuasione” , alla retorica o a pressioni di ambienti politici o
economici. L’idea di razionalità che viene qui sottinteso, in un certo senso, è
quello di una razionalità procedurale. La razionalità del consenso, in altri
termini,non dipende da qualche aggancio ai dati empirici ma dipende da una
procedura che corregge le eventuali aberrazioni delle valutazioni individuali.
Nel modello di Lehrer-Wagner il rispetto di quella che Galileo chiamava la
“sensata esperienza” è sostituita dal rispetto per l’ autorità di altri ricercatori.
Questo però è un larvato riconoscimento del principio di autorità. Il principio di
autorità, purtroppo, anche se ufficialmente riprovato, contiene ad operare di
fatto nella scienza quotidiana, per esempio quando si tratta di affidare a un
referee la scelta un articolo su una rivista internazionale o di promuovere un
giovane ricercatore. Neppure la metodologia popperiana in realtà è in grado di
eluderlo, stante che la falsificazione o mancata falsificazione delle ipotesi riposa
su asserti-base che in ultima analisi dipendono da una decisione degli scienziati
stessi. Eppure, come in fondo ha evidenziato lo stesso fallibilismo di Popper,
grandi scienziati umanamente possono sbagliare, e anzi umanamente
sbagliano, soprattutto quando non parlano ex cathedra. Basti ricordare, e non è
una battuta, che lord Kelvin dichiarò solennemente nel 1895 che era impossibile
per un corpo più pesante dell’aria levarsi in volo, e questo pochi anni prima che
i fratelli Wright nel 1903 facessero volare il primo aereo a motore.
Negli ultimi anni anche il peso del post-positivismo e di quella che è stata
chiamata “la svolta relativistica” si è notevolmente ridimensionato. Filosofi della
generazione più giovane come Bas van Fraassen e Clark Glymour non hanno
esitato a dichiarare il loro debito verso il neo- empirismo, mentre figure influenti
come quella di Hilary Putnam hanno tentato una sintesi di sapore kantiano.
Non si può neppure dire, però, che si sia verificato un ritorno a Carnap o al
Circolo di Vienna, che appaiono irrimediabilmente remoti, anche se nessuno
mette in discussione la loro grandezza. Il panorama attuale della filosofia della
scienza, messa in ombra dall’emergere della scienza cognitiva, è piuttosto
desolante, non tanto per la mancanza di forti personalità, quanto per la rinuncia
a ridiscutere proprio i temi che hanno caratterizzato sin dall’origine la
disciplina, tra cui anche quello della distinzione tra scienza e non-scienza.
E’ positivo che una richiesta di riflessione sul tema della demarcazione
provenga dall’ambiente giudiziario. In primo luogo, l’interesse del giudice
naturalmente è quello di appoggiarsi all’operato di periti che abbiano
credenziali scientifiche. Dato che l’obiettivo è la ricerca di un accertamento
veridico dei fatti, è comprensibile che un criterio di verità basato sul consenso o
sulla coerenza interna sia da molti considerato insufficiente. E’ comprensibile
quindi che per questo motivo molti ritengono opportuno che le corti di giustizia
tornino a ispirarsi alla vecchia concezione corrispondentista (aristotelica),
secondo cui la verità è corrispondenza ai fatti.
Su questa legittima aspirazione ad avere criteri solidi di verità bisogna fare
alcune precisazioni. Nel veteropositivismo si partiva dall’idea che la scienza
parte dalla scoperta dei fatti, e questi fatti sono scoperti allo stesso modo in cui
vengono scoperte le tombe etrusche sotto uno strato di terra. Su questa
immagine si appoggiava il mito positivistico degli “hard facts” o “duri fatti”, che
dovevano essere i mattoni elementari con cui si costruisce l’edificio della
scienza. In questa visione c’è indubbiamente una certa dose di ingenuità, non
tanto nell’aspirazione alla scoperta quanto nel concetto stesso di fatto che viene
presupposto.
Cominciamo col dire che i fatti possono essere fatti semplici, di solito
identificati con eventi atomici (come il fatto che ora piove), ma possano essere
aggregati di fatti elementari, come p.es. “la partecipazione degli studenti della
scuola x a una manifestazione pacifista ”. Secondariamente, ci sono fatti
difficilmente riducibili a eventi, come per esempio il fatto “maggiore incidenza
di casi di cancro nella fabbrica x rispetto alla media nazionale”.
Qui entriamo, come già detto, nella sfera dei “soft facts”, cioè fatti con un certo
grado di dipendenza dal linguaggio e dal contesto. Ma il relativismo nasconde
un grosso equivoco. Una cosa è dire che la verità di un enunciato è relativa a un
contesto o a un punto di vista, (cosa difficilmente contestabile) altro è dire che la
derelativizzazione è un compito impossibile in linea di principio. Per fare un
esempio banale, dire che la porta d’ingresso si trova sulla destra può essere vera
per Tizio e falso per Caio, ma questo non significa che non si riesca a
riformulare la stessa proposizione con enunciati derelativizzati che non
dipendono dalla posizione di Tizio o di Caio. In particolare, se un enunciato, per
esempio “la probabilità di Tizio di ammalarsi di diabete è 0,5” è vera rispetto a
uno insieme di informazioni X , tale verità cessa di essere relativa una volta che
venga resa esplicita questa relatività. Lo stesso vale per la ricostruzione dei fatti
effettuata da un giudice. Una volta specificato che la ricostruzione è operata
rispetto a uno insieme di informazioni acquisite X, tale verità cessa di essere
relativa se si prova che il rapporto tra essa e l’insieme X è unico e
incontrovertibile. L’interesse in tal modo si sposta sulle proprietà dell’insieme X,
che naturalmente non può essere un qualsivoglia insieme. Se X è un campione
statistico, sappiamo qual è la risposta che si dà nella metodologia statistica: il
campione deve essere il più possibile ampio e randomizzato.
Vorrei solo notare che il conseguimento della derelativizzazione obbedisce a
un principio che Grice ha codificato tra le regole della conversazione:
“Si introduca il massimo di informazione rilevante per le risposte a cui è finalizzata la
ricerca”.
Ci si accorgerà che questa è una variante del principio dell’evidenza totale a cui
abbiamo accennato all’inizio. Senza entrare in dettagli complessi, si usa il
concetto di informazione, anziché quello di dato empirico, intendendo per
“elemento di informazione” un dato la cui certezza supera la soglia del
ragionevole dubbio e che pertanto non è lecito mettere in discussione (cioè è
“indiscutibile”) nel corso di una certa indagine. Possiamo dire che tra gli
obiettivi distintivi della scienza c’è l’incremento di informazione, perché solo
l’incremento di informazione consente di risolvere problemi vecchi, di vedere
problemi nuovi, e di eliminare il grado di incertezza e di errore presente in
teorie deboli.
Oltre al problema dei criteri di scientificità nella valutazione delle prove è
degno di nota che la stessa scientificità può essere oggetto di discussione nei
tribunali. Non si può non citare al proposito un caso storico esemplare in cui i
tribunali hanno avuto a che fare con la questione della scientificità. Il riferimento
è alla memorabile causa McLean v. Arkansas curata dal giudice Overton negli
nni 90: oggetto del dibattito era la tesi creazionista del disegno intelligente, che
era contrapposta alla tesi darwiniana e proposta per l’insegnamento nelle scuole
superiori. Si noti che i creazionisti hanno usato (o abusato) del termine “scienza”
chiamando la loro dottrina “scienza della creazione”.
Il processo come è noto, si è concluso con la condanna della tesi creazionista e
con il conseguente divieto dell’insegnamento di questa dottrina nelle scuole. La
testimonianza del darwinista Michael Ruse è stata della massima importanza
nel guidare le decisioni della corte(9). Ruse ha annoverato in varie sedi una serie
di qualità che una teoria dovrebbe possedere per essere qualificata come
scientifica: questo elenco nasce da una sintesi tra l’epistemologia popperiana e
quella positivista (10). Schematicamente, Ruse proponeva di considerare
scientifica una teoria quando è
a) consistente (non contraddittoria), internamente ed esternamente
b) parsimoniosa, cioè propone entità o spiegazioni nella misura strettamente
necessaria allo scopo, applicando il c.d. rasoio di Occam
c) utile, in quanto descrive e spiega i fenomeni osservati
d) provabile e falsificabile empiricamente
e) basata su esperimenti ripetibili e controllabili
f) correggibile e dinamica, in quanto deve essere possibile l’applicazione dei.
cambiamenti alla luce di nuovi dati
g) progressiva, in quanto una nuova teoria deve essere migliore delle teorie
precedenti e nello stesso tempo spiegare quanto era spiegato da queste
h) provvisoria, nel senso che non proclama certezze ma ammette la sua faliibilità
Secondo le opinioni degli esperti, la teoria del Disegno Intelligente (ID)
mancherebbe di molte delle suddette proprietà:
(9) Testimony of Dr. Michael Ruse, Professor of Philosophy, University of Guelph, Ontario Canada
(Plaintiffs Witness) - transcript paragraph formatted version. Reperibile al sito internet
http://www.antievolution.org/projects/mclean/new_site.
(10
) V. per es. But is it Science?: The Philosophical Question in The Creation Evolution Controversy, a
cura di M.Ruse, New York, 1996.
1. manca di consistenza: l'ID è infatti basata sul presupposto che la complessità e
improbabilità dell’evoluzione debbano implicare un progettista intelligente, ma
nello stesso tempo asserisce che l'identità e le caratteristiche di tale progettista
non possono, nè devono, essere identificate o quantificate (quindi si descrivono
le proprietà di un soggetto le cui proprietà sono contestualmente dichiarate
ignote)
2.viola il principio di parsimonia: la presenza di un progettista non è necessaria
e dunque la sua introduzione rende l'ID non parsimoniosa;
3.non è utile: l’ ID non ha infatti capacità predittiva, cioè non consente di predire
in anticipo il verificarsi di uno specifico fenomeno e i suoi dettagli date le
condizioni iniziali;
4. non è falsificabile: il progettista viene infatti posto oltre il dominio
dell'osservabile, ragione per cui le assunzioni circa la sua esistenza non possono
essere avallate né confutate dall'osservazione;
5.non è correggibile, nè dinamica, provvisoria o progressiva: l´ÍD introduce un
elemento, il progettista, di cui non si deve rendere conto, in quanto al di là
dell'oggetto della scienza, e dunque la teoria non dovrebbe essere cambiata in
nessun caso a seguito di nuove scoperte.
Guardando a questa controversia in modo più distaccato, c’é da osservare che
la teoria del Disegno Intelligente ha potuto prosperare perchè la teoria
darwiniana si presentava a sua volta con diversi punti deboli, in parte
riconosciuti inizialmente dallo stesso fondatore. Non va neppure dimenticato
che per molto tempo Popper ha negato legittimità alla teoria darwiniana perché
formulata in modo non falsificabile. Anche dopo il ripensamento di Popper su
questo punto, resta il fatto che la teoria evoluzionista si presente dotata di
potere esplicativo ma non di potere predittivo, e sotto questo aspetto non
differisce molto dalla teoria del Disegno Intelligente. In effetti solo le correzioni
apportate alla teoria di Darwin dai cosiddetti neodarwinisti, dai teorici della
sintesi evolutiva (Dobzhansky, Mayr e Simpson) e da recenti sviluppi come la
teoria dell’equilibrio punteggiato di Eldredge e Gould hanno dato alla teoria
della selezione naturale una piena rispettabilità scientifica ( 11).
(11) La letteratura su questo argomento è sterminata. Per una sintesi in lingua italiana si veda T.
PIEVANI, Creazione senza Dio, Torino, 2006.
Larry Laudan ha opposto un commento negativo alla sentenza Overton,
osservando che alcune delle ipotesi del creazionismo, come quelle circa i fossili e
l’età della terra, sono controllabili, ma di fatto errate (12). Dunque la tesi ID
sarebbe a suo giudizio un esempio di scienza “debole” ma non di
pseudoscienza. Laudan in questa polemica esprime un orientamento
postpositivista, diverso da quello più tradizionale di Ruse. La questione non è
solo accademica ma ha dei risvolti pratici e politici rilevanti. Una pseudoscienza non può essere oggetto di insegnamento nelle scuole, anche perchè
creerebbe un precedente pericoloso, mentre presentare un’ ipotesi scientifica
alternativa a quella dominante, anche se parzialmente screditata, potrebbero
essere legittimo e addirittura didatticamente utile.
Concludo osservando che nella lista di requisiti di scientificità sopra riportati
manca una menzione al requisito dell’evidenza totale o a qualche sua variante,
come quello che abbiamo chiamato criterio di non-selettività. Al proposito
notiamo che il criterio di specificità massimale richiesto da Hempel a
integrazione della teoria della spiegazione Statistico-Induttiva si può presentare
come un’applicazione del principio di evidenza totale ( 13). Si noti un aspetto
non secondario della questione: cioè che per formulare una descrizione
massimamente specifica di un qualsiasi dato da spiegare occorre usare un
linguaggio con alto grado di precisione e di esattezza (esattezza di cui,
incidentalmente, non si fa cenno nell’elenco, come se non fosse uno dei caratteri
distintivi del linguaggio scientifico).
Una banale obiezione al requisito dell’evidenza totale è che il suo
soddisfacimento è impossibile in linea di principio per qualsiasi agente umano o
meccanico, stante che la descrizione della totalità dell`evidenza non si può
concludere in un tempo finito. Ma critiche di questo tipo sono applicabili a
qualsiasi tipo di idealizzazione: a parità di ragionamento, per esempio, non si
potrebbe mai costruire un macchina di Turing perchè per definizione esige un
nastro infinito. Allo stesso modo in cui si chiede sensatamente di raggiungere la
certezza oltre ogni ragionevole dubbio, si può anche chiedere di raggiungere
un’approssimazione ragionevolmente adeguata al requisito dell’evidenza totale
e a quello di non-selettività.
(12) Science at the Bar - Causes for Concern, in Science, Technology & Human Values, 1982, n. 4,
p.16-19.
(13) Il criterio di specificità massimale richiede che il fatto da spiegare sia descritto in modo
massimamente specifico.
Trascuriamo pure il fatto che oggi sono disponibili metodi computerizzati che
sono in grado di selezionare in tempi ragionevolmente brevi (a rischio
sicuramente di errore) tutti gli elementi informativi pertinenti.
Ciò che comunque è umanamente possibile è fissare un insieme finito di
elementi infomativi K che abbia le seguenti caratteristiche:
1) Si ha motivo di ritenere che ciò che è escluso da K non aumenti in maniera
significativa l’informazione rilevante per il problema;
2) Vanno resi espliciti i criteri con cui viene esclusa da K una qualsiasi classe di
dati
3) Si evidenzia che il risultato dell’indagine non è assoluto ma relativo a K ,
con ciò intendendo che il risultato è rivedibile alla luce di eventuale nuova
informazione che estende K ed è compatibile con K;
4) I casi di parità tra ipotesi diverse alla luce di K non autorizzano una scelta
arbitraria tra le ipotesi. Tale scelta può essere autorizzata solo da ulteriori
indagini che estendono K.
Questi principi accomunano la procedura di accertamento scientifica e quella
di accertamento giudiziario. Su un punto, però, si deve riscontrare una
differenza. Un’ ipotesi scientifica può essere razionalmente condivisa anche a
fronte di elementi informativi che sono dissonanti con l’ipotesi stessa. Le teorie ,
come diceva Lakatos, navigano in oceani di anomalie, e la razionalità consiste
nell’accettare una certa ipotesi semplicemente perché, rebus sic stantibus, non
potrebbe essere rimpiazzata da un’ipotesi migliore. Si noti comunque che c’è
una grande differenza tra il nascondere o negare l’evidenza e sostenere una
teoria ammettendo che alcune sue parti risultano debolmente provate, o
addirittura incompatibili con l’evidenza disponibile (basta leggere Darwin per
avere uno splendido esempio dell’onestà intellettuale che caratterizza il vero
scienziato).
Il giudice non può godere del privilegio di sostenere una tesi ammettendo
che è in conflitto con una parte dei fatti noti. Il verdetto che è chiamato ad
emettere non ha carattere dubitativo e nella motivazione della sentenza non
dovrebbe comparire menzione di evidenza contraria. D’altro canto, se il
verdetto è ottenuto cancellando evidenza, questo si può fare a prezzo di aprire
la porta all’errore giudiziario e di screditare la reputazione dello stesso giudice.