Claudio Pizzi LEZIONI DI LOGICA DELLA PROVA LEZIONE 1. Il calcolo delle probabilità Sembra che la nascita del calcolo delle probabilità sia stata in qualche misura favorita dalla cosiddetta “piccola glaciazione”, un mutamento climatico verificatosi in un arco di tempo che va dall'inizio del XIV secolo alla metà del XIX secolo. In questo periodo venne registrato un raffreddamento del clima che raggiunse il suo acme intorno al 1600 e cominciò a decrescere verso il 1800. Non stupisce constatare che, nel periodo in cui grandi filosofi come Cartesio e Bacone morivano per un’infreddatura, i pittori davano la preferenza a ritratti e situazioni ambientate in interni. I nobili limitavano il tempo destinato alla caccia e alle attività all’aria aperta, dedicando una buona parte del loro tempo alle letture e ai giochi di società. Questi ultimi erano frequentemente giochi d’azzardo con uso dei dadi, come il gioco della barca o quello del tric-trac. Di solito si fa risalire la prima trattazione della probabilità a un libro di Girolamo Cardano dedicato al gioco d’azzardo, il Liber de ludo aleae (scritto nel 1560, ma pubblicato solo nel 1663) che contiene tra l’altro una sezione dedicata a metodi per barare efficacemente. Ma l’aneddotica vuole che il primo progresso memorabile in questi studi sia stato originato da una serie di quesiti che il cavaliere de Méré pose all’austero giansenista Blaise Pascal. Per esempio: “se lanciamo due dadi, quanti lanci sono necessari per avere almeno il 50% di probabilità di ottenere due sei almeno una volta”? Le risposte di Pascal, da lui discusse anche con Fermat, si trovano pubblicate alla fine della Logique de Port Royal (1662). Il salto di qualità rispetto a trattazioni precedenti fu che per la prima volta si cercava di trattare la nozione di probabilità in modo astratto, cioè svincolato dal riferimento all soluzione di specifici problemi. È anche degno di nota che Pascal considerasse la probabilità applicabile alla valutazione delle prove giudiziarie, idea che venne sviluppata da Leibniz nel suo Nova methodus discendae docendaeque jurisprudentiae (1667). Nel 1655 Christian Huygens, dopo aver conosciuto il cavaliere de Méré a una cena, venne a sapere di questi studi e se ne interessò al punto tale da pubblicare nel 1657 il primo trattato conosciuto di calcolo delle probabilità, “De ratiociniis in ludo aleae”. Per la prima volta viene introdotta una nozione che avrebbe avuto fortuna, quella di speranza matematica. La speranza matematica o utilità attesa di un singolo evento è il prodotto del guadagno sperato con il verificarsi dell’evento per la probabilità che tale evento si verifichi. Nel caso di una pluralità di esiti di un certo tipo di evento, la speranza matematica è la media ponderata dei valori che si ottengono moltiplicando le probabilità dei vari esiti per il guadagno sperato da ciascuno di essi. Per esempio, supponiamo di fare una partita a testa e croce con un solo lancio di moneta, stipulando che se esce testa si vincono €100 e se esce croce si vincono €0, cioè non si vince nulla. L’utilità attesa del gioco è €50, ovvero la media tra vincite e perdite se ponderate con le probabilità di queste . Infatti, stimando come 50% la probabilità di entrambi gli esiti, la somma 100 • 0,5 + 0 • 0,5 =50 (cioè il guadagno di "testa" per la sua probabilità più il guadagno di "croce" per la sua probabilità) dà come valore 50. Questo valore costituisce quello che potremmo dire il costo del gioco: potremmo pensarlo anche come quanto si deve rischiare per partecipare al gioco senza avere una perdita sicura in un numero illimitatamente grande di lanci. (Si pensi che una serie di vincite e perdite potrebbe essere 110,0,0, 100,100,0 ,100,0,0 ……) Se la moneta fosse sbilanciata a valore di teste potremmo avere risultati diversi,per esempio ( °)100 • 0,6 + 0 • 0,4 = 60 Si noti che il rapporto tra probabilità matematica e speranza matematica è simmetrico, nel senso che conoscendo la speranza matematica di un singolo evento e dell’evento opposto e anche il costo del gioco potremmo derivare la probabilità. Per esempio dalla relazione (°) ponendo come valore incognito x la probabilità di Teste e 1-x quello di Croce avremmo (1) 100 • x + 0 • (1-x) = 60 (2) 100 • x + 0 = 60 (3) 100 • x = 60 (4) x= 60/100 = 0.6 La probabilità dell’uscita di testa quindi viene espressa come un rapporto tra il costo del gioco (quanto si spende per partecipare) e il guadagno sperato dal verificarsi di quello specifico evento. La conclusione suggerisce fortemente la possibilità di definire la nozione di probabilità in termini di rapporti tra somme di danaro, idea che è diventata quasi un luogo comune nella corrente novecentesca nota come “soggettivista”. Se, per esempio, scommettendo sulla vittoria di un cavallo rischio €50 con la prospettiva di vincerne 100, il rapporto tra 50 e 100,ossia 50%, dà la misura del mio grado di fiducia nel verificarsi dell’evento in questione; altrimenti detto, dà la misura del grado di probabilità che soggettivamente associo a siffatto evento. Per un altro verso, il concetto di media usato pure da Huygens non ha niente di soggettivo in quanto viene impiegato in nozioni tipicamente statistiche come quelle di “lunghezza di vita media”, “consumo medio di frutta”, “statura media” ecc. Quando Huygens inaugurava queste ricerche la statistica muoveva i suoi primi passi sull’onda degli interessi delle compagnie di assicurazione, alle quali premeva conoscere con esattezza la speranza di vita dell’assicurato al momento della stipula della polizza. È degno di nota, come ha osservato Ian Hacking in “The Emergence of Probability”, che la probabilità fin dall’inizio reca il marchio di una “dualità” concettuale di fondo: da un lato è interpretabile come di grado di credenza soggettiva, dall’altro si lasci rappresentare come una misura di frequenze statistiche oggettive (chance). Lo stesso Pascal mostrava una certa ambivalenza nel momento in cui da un lato studiava statisticamente le distribuzioni di risultati nei giochi di azzardo, ma dall’altro usava il celebre argomento della scommessa per mostrare la razionalità della disposizione a credere in Dio. Inoltre, in tema di probabilità statistica o “oggettiva”, va subito considerato che questa va distinta dalla probabilità teorica dell’evento a cui si riferisce. Il modo in cui va determinata la probabilità teorica, come vedremo, è oggetto di discussione filosofica: per ora possiamo dire che è quella che si può stabilire a piori in base a una considerazione idealizzata delle proprietà dell’oggetto in questione. Se la probabilità teorica p dell’uscita di testa è, poniamo, 1/2, le percentuali di testa m che vengono effettivamente osservate dopo un certo numero di lanci n, espresse dalla frazione m/n,possono essere inferiori, superiori o uguali a 1/2. La differenza in valore assoluto tra frequenza osservata m/n e p, |m/n - p|, è detta scarto e le sue proprietà sono stata oggetto di uno studio matematico rigoroso. Il famoso teorema di Bernoulli, detto anche legge debole dei grandi numeri, asserisce che con l’aumentare del numero n di esperimenti aumenta la probabilità che lo scarto diventi più piccolo di un qualsiasi numero positivo ε è preso piccolo a piacere1. In parole povere, con l’aumentare degli esperimenti è sempre più probabile che lo scarto diventi sempre più piccolo. 1 In formula lim Pr [|m/n - p| < ε ] = 1 n→∞ Si noti che il teorema consiste in un asserto probabilistico circa i rapporti tra probabilità teoriche e frequenze. Contrariamente a quanto molti sono inclini a pensare, la proposizione non asserisce che nella realtà le frequenze a lungo andare tendono alle probabilità teoriche. Questo secondo asserto non è una proposizione matematica - viene a volte chiamato Postulato empirico del caso- e descrive una genuina proprietà del nostro mondo reale, che è quella di presentare una persistente uniformità spazio-temporale delle manifestazioni fenomeniche. Grazie a tale uniformità della natura, di fatto, le frequenze osservate tendono a convergere a lungo andare verso la probabilità teorica. I nomi più importanti da ricordare negli sviluppi del calcolo delle probabilità tra il 600 e l’ 800 sono quello di Leibniz – che, incidentalmente, essendo laureato in legge era interessato ad applicare il calcolo alla valutazione delle prove – e quelli di De Moivre, di Bernoulli e di Laplace . Inoltre vanno ricordati Thomas Simpson e Carl Friedrich Gauss (che posero le basi della cosiddetta teoria degli errori). Già agli inizi del 700 era chiaro che il calcolo comunque si appoggiava a due regole di calcolo fondamentali, che vennero considerate veri e propri principi basilari fino a raggiungere la loro forma definitiva nell’ assiomatizzazione insiemistica formulata da A. Kolmogorov (1932). Ne parleremo come di Principio delle Probabilità Totali e delle Probabilità Composte: il primo utilizzabile per sommare probabilità, il secondo per moltiplicare probabilità. Siano E1 ed E2 due eventi (es. E1:piove, E2:tira vento) , E1 E2 la loro unione (piove oppure tira vento), E1 E2 la loro intersezione (piove e tira vento) –E1 il complemento di E1 (non piove). Queste entità sono da intendere come insiemi, e precisamente come insiemi di casi in cui si verifica un certo evento. Volendo intendere queste grandezze come proposizioni, si preferisce usare un’altra notazione , cioè E1 E2, E1 E2, ¬E1. Pr sia una funzione che associa ad ogni evento un numero razionale o irrazionale tra 0 e 1 (funzione di probabilità): questo si esprime dicendo che, per ogni eventi Ei, 0 < Pr(Ei) < 1 Dato che –Ei indica il complemento di Ei (per esempio “non piove” rispetto a “piove”) nessun evento può avere probabilità maggiore dell’ evento tautologico Ei –Ei (es. piove o non piove).Quindi Pr (Ei -Ei )=1 . Fatte queste premesse, il principio delle probabilità totali asserisce questo: (PT) Pr (E1 E2) = Pr E1 + Pr E2 – Pr(E1 E2) Per calcolare il valore sulla sinistra bisogna conoscere i valori di input che si trovano sulla destra, che sono le c.d. “probabilità iniziali”.. Nel caso del nostro esempio è difficile determinare la probabilità che piova, che tiri vento o che piova e tiri vento insieme, a meno di ricorrere a qualche statistica metoreologica. Ma altri esempi sono meno difficoltosi perché possiamo ricorrere a valutazioni “a priori” : per esempio pochi troveranno da ridire sul fatto che in un mazzo di 52 carte non truccato la probabilità di sorteggiare un asso è 1/13 e quella di sorteggiare una carta di picche è 1/4. Se le cose stanno così, qual è la probabilità di sorteggiare un asso o una carta di picche? Risposta. La probabilità richiesta è la probabilità di sorteggiare un asso (1/13) + la probabilità di sorteggiare una carta di picche (1/4) meno la probabilità di sorteggiare una asso di picche (1/52). Quindi (1/13 + ¼) – 1/52 = (4/52+ 13/52) – 1/52 = 16/52=0,3076923. Se gli eventi E1 ed E2 sono incompatibili questa proprietà semplifica il calcolo perché (Pr(E1 E2)= 0. In particolare, se E2 è –E1, avremo Pr (E1 -E1) = Pr (E1) + Pr(-E1) oppure, dato che Pr (E1 -E1) =1 1 = Pr (E1) + Pr(-E1). Da ciò naturalmente segue Pr(-E1) = 1 – Pr(E1) Il Principio delle probabilità composte invece consente di calcolare le probabilità di eventi congiunti. Indichiamo con Pr(B|A) la probabilità di B dato A (detta probabilità subordinata o condizionata).Allora il principio asserisce questo: (PC) Pr(A B) = Pr(A) • Pr(B|A) Dato che A B = B A, vale però anche (PC*) Pr(A B) = Pr(B) • Pr(A|B) Pr(B|A) = Pr(B) significa che i due eventi sono indipendenti, o in altre parole che A non influenza B e B non influenza A. Se vale l’indipendenza tra A e B, però, la formula PC si riduce a (PC**) Pr(A B) = Pr(A) • Pr(B) Esempio1: Qual è la probabilità che in un lancio di due dadi escano due 3? Pr E1= 1/6, Pr(E2) = 1/6, Pr(E2|E1)=1/6 (perché i due eventi sono indipendenti): quindi Pr(E1 E2) = 1/6 • 1/6 = 1/36 Esempio 2: La probabilità che c’è maltempo (M) e la probabilità che piova (P) non sono indipendenti, anzi la pioggia implica il maltempo! Quindi Pr(M|P) =1. Quindi la probabilità che piova e ci sia maltempo è uguale a Pr(P) • Pr(M|P) = Pr(P) •1 =Pr(P). Dal principio delle probabilità composte seguono alcune conseguenze interessanti. La prima è che la nozione di probabilità condizionata o subordinata risulta definibile in termini di probabilità assoluta. Infatti da (PC) Pr(A B) = Pr(A) • Pr(B |A) abbiamo (ProbC) Pr(B|A) = Pr(A B) /Pr(A) (se Pr(A) ≠ 0) Questo non va confuso con (ProbC*) Pr(A|B) = Pr(A B)/Pr(B) (se Pr(B)=/0) da cui (PC*) Pr(A B) = Pr(B) • Pr(A|B) Facendo una semplice sostituzione in ProbC abbiamo,Abbiamo, per PC*, (TB) Pr(B|A) = Pr(B) • Pr(A|B) (se Pr(A) ≠0) Pr(A) Questa formula si può trasformare in formule equivalenti più complesse. Se -B è un’ipotesi alternativa incompatibile con B (p.es. “pari” e “dispari”), abbiamo ovviamente per il principio delle probabilità composte Pr(A -B) = Pr(-B) • Pr(A|-B) Ora osserviamo che ,per la teoria degli insiemi, A = (A B) (A -B), come si vede da una semplice diagrammazione. Si noti ora che il denominatore della frazione in TB è equivalente a Pr ((A B) (A -B)). Questo per il teorema delle probabilità totali,equivale, essendo incompatibili i due eventi A B e A -B, alla somma Pr(-B) • Pr(A|B) + Pr( B) • Pr(A|B). In tal caso la formula TB prende la forma più complessa (TB*) Pr(B|A) = ____Pr(B) • Pr(A|B) (se Pr(A) ≠0) Pr(-B) • Pr(A|-B) + Pr( B) • Pr(A|B). Ovviamente, se le ipotesi incompatibili sono non solo due ma n (B1...Bn), la formula TB* si può generalizzare a n ipotesi. TB (TB*) è importante teorema, noto come teorema di Bayes, considerato un pilastro del calcolo delle probabilità. Il suo nome deriva a dal matematico che ne diede la prima formulazione in un saggio pubblicato postumo nel 1763 (in realtà, Bayes era un reverendo presbiteriano nato nel 1702 e morto nel 1761) . Secondo un luogo comune, Il Teorema di Bayes ha per il calcolo della probabilità la stessa importanza che ha il teorema di Pitagora per la geometria. Conoscendo o assumendo i valori di Pr(B) e Pr(A), infatti, è possibile calcolare la probabilità di B dato A in termini della probabilità inversa di A dato B, che viene talvolta chiamata verosimiglianza (likelyhood). È quindi possibile calcolare la probabilità della causa dato l’effetto, o dell’ipotesi esplicativa (explanans) dato l’ explanandum, una volta che sia nota la probabilità dell’effetto data la causa o dell’explanandum dato l’explanans. La funzione di probabilità in effetti è solo una speciale funzione di misura. Le grandezze misurate sono nella fattispecie le dimensioni di classi di punti dello spazio-tempo : la classe totale di punti (quella in cui sono vere le tautologie) ha probabilità 1, la classe vuota (in cui sono vere le contraddizioni) ha probabilità 0. Gli eventi contingenti hanno probabilità intermedie tra 0 e 1. Il calcolo delle probabilità non è altro che un insieme di metodi per calcolare le misure di eventi complessi partendo dalle misure di eventi più semplici. Si tratta dunque semplicemente di un meccanismo input-output che, dati certi valori in ingresso, produce altri valori in uscita. Questo ci pone di fronte a un problema che il calcolo in quanto tale non è in grado di risolvere. Per quanti calcoli si possano fare, dobbiamo sempre prendere le mosse da un input costituito da certi valori probabilistici iniziali, i quali non si possono a loro volta calcolare da altri valori probabilistici. Il problema delle probabilità iniziali non ha risposte di tipo matematico. La sua soluzione dipende da assunzioni filosofiche ben precise circa la nozione stessa di probabilità. A seconda della risposta che viene data, cambiano i critieri di assegnazione dei valori di input, il che può avere conseguenze considerevoli anche sulle applicazioni del calcolo. È inevitabile quindi esaminare le alternative elaborate dai filosofi per rispondere a questa basilare e difficile domanda: che cosa è la probabilità? Curiosità probabilistiche. A) Se la probabilità di avere un figlio maschio dato che si hanno già avuti due figli maschi è ½, qual è la probabilità di avere tre figli maschi in fila? La risposta è 1/3 ● 1/3●1/3, cioè 1/8. Si noti che qualunque successione di maschi e femmine in un qualsiasi ordine dà sempre come probabilità 1/8. A parità di ragionamento , qualunque successione di uscite di numeri rossi e neri alla roulette (ignorando lo zero, che è verde) ha sempre la stessa probabilità di qualsiasi altra sequenza ordinata di uscite della stessa lunghezza. Attenzione però. Dato che gli eventi sopra esemplificati sono indipendenti, la domanda “qual è la probabilità di avere un figlio maschio dato che si sono già avuti due figli mschi non è 1/8 ma ½. Analogamente, la probabilità che esca un numero rosso dato che sono usciti 10 numeri neri è sempre invariabilmente ½. B) L'autorevole ginecologo Robert Winston, esperto nei problemi della fertilità, ha immaginato che un medico privo di scrupoli potrebbe pubblicare su un quotidiano la seguente inserzione, rivolta ai coniugi desiderosi di avere un figlio maschio :«Dietro invio di 500 sterline, riceverete da me la ricetta infallibile per avere un maschio. Soddisfatti o rimborsati». Il rimborso ha lo scopo naturalmente di garantire l'affidabilità del metodo. La ricetta può essere una qualsiasi pillola di zucchero colorata. In tal modo egli può incassare, poniamo, su 1000 adesioni, 500.000 sterline. Poiché il 50% dei neonati sono in ogni caso maschi, egli dovrà rimborsare al rimanente 50% un totale di 250.000 sterline, con un guadagno netto di 250.000 sterline. Anzi, per ogni femmina nata egli potrebbe tranquillamente aggiungere altre 250 sterline alle 500 rimborsate e guadagnare comunque nel lungo periodo una somma di tutto rispetto. . 3). Per dimostrare l’esistenza di doti paranormali in qualche soggetto presente nel pubblico potete procedere come racconta Richard Dawkins. «Prima di tutto vediamo se il sensitivo si trova nella metà destra o nella metà sinistra della sala» esordii. Quindi invitai la gente ad alzarsi e pregai il mio assistente di lanciare una moneta. A tutte le persone sul lato sinistro della sala fu chiesto di «volere» che venisse fuori testa, a tutte quelle sul lato destro di «volere» che venisse fuori croce. Ovviamente uno dei due schieramenti perse, e venne invitato a sedersi. Quelli che erano rimasti in piedi furono divisi in due: metà che «volevano» che uscisse testa e metà che «volevano» che uscisse croce. Ancora una volta i perdenti furono fatti sedere e ancora una volta si procedette a dividere i vincenti, finché, dopo sette o otto lanci di monetina, com'era inevitabile, rimase in piedi una sola persona. «Un grande applauso per il nostro sensitivo!» esclamai. Non era forse un sensitivo uno che era riuscito a «influenzare» la moneta otto volte di seguito? 4)-La probabilità che due persone scelte a caso abbiano lo stesso compleanno, sulla base di considerazioni sia a priori che a posteriori, è 1/365 Ora prendiamo una stanza in cui siano presenti solo 23 individui: i matematici possono dimostrare che vi sono più di 50 probabilità su cento che almeno due di essi siano nati lo stesso giorno. Lasciamo perdere gli anni bisestili, che complicano inutilmente le cose, e supponiamo che scommetta con voi che delle 23 persone presenti, come minimo due siano nate lo stesso giorno. Tanto per stare al gioco,voi scommettete che non ci siano compleanni comuni. Faremo il calcolo in modo da arrivare ai 23 individui gradualmente: cominceremo da uno solo e aggiungeremo gli altri uno alla volta. Se a un certo punto troveremo un «gemello», io avrò vinto la scommessa, smetteremo di giocare e non staremo a curarci dei rimanenti individui. Se invece arriveremo al ventitreesimo senza avere trovato il «gemello», a vincere sarete voi. Quando nella stanza c'è solo il primo soggetto, che chiameremo A, le probabilità che non vi sia alcun «gemello» sono, banalmente, pari a 1 (365 probabilità su 365). Aggiungiamo adesso il soggetto B: le probabilità diventano 1 su 365, quindi le probabilità che non vi siano «gemelli» sono 364/365. Facciamo entrare ora una terza persona, C: vi sono 1 probabilità su 365 che C sia nato lo stesso giorno di A e 1 su 365 che sia nato lo stesso giorno di B, sicché le probabilità che non sia «gemello» né di A né di B sono 363/365, (non può essere «gemello» di entrambi, perché sappiamo già che A e B non sono nati lo stesso giorno). Per sapere quali siano complessivamente le probabilità che non si verifichi un «gemellaggio», dobbiamo prendere 363/365 e moltiplicarlo per le probabilità che non si sia verificato un gemellaggio nel caso (o nei casi) precedenti, ovvero, nell'esempio specifico, moltiplicarlo per 364/365.2 Lo stesso ragionamento vale quando aggiungiamo la quarta persona, D. Le probabilità totali che non vi siano «gemelli» diventano 364/365 ● 363/365 ● 362/365. E così via, finché nella stanza non abbiamo 23 persone. Ogni nuova persona ci porta un nuovo termine da aggiungere alle moltiplicazioni da fare per calcolare le probabilità che il «gemello» non si presenti. Se si procede con tali moltiplicazioni fino ad avere 23 termini (l'ultimo dei quali sarà 343/365), l'esito sarà 0,49: ed è questa la probabilità che non vi siano nella stanza individui nati 2 Per chiarire questo punto notiamo che aggiungendo via via i soggetti al primo della serie avremo per la sequenza di probabilità di gemelli i valori A AB 0, 1/365, AB-C 2/365, ….. Mentre per quella di non -gemelli avremo 1, 364/365, 363/365●364/365 … → 0,49 Perché il terzo valore della seconda serie non è il complemento del terzo valore della prima serie? Se C è gemello di A o B , significa che C è gemello di A o gemello di B (non di ambedue perché avremmo già chiuso il gioco), per cui si applica il teorema delle probabilità totali e si sommano le ripsettive probabilità. Ma questo non vale per la non-gemellarità. In questo caso dobbiamo calcolare la probabilità che C non sia gemello né di A né di B e anche la probabilità che A e B non siano gemelli tra loro: per questo calcolo si ricorre al teorema delle probabilità composte. lo stesso giorno. Vi sono quindi probabilità lievemente superiori al 50 per cento (0,51) che almeno due persone in una compagnia di 23 siano «gemelle». Basandosi sull'intuizione, la maggior parte della gente scommetterebbe contro il «gemellaggio», ma sbaglierebbe. È proprio questo il tipo di errore intuitivo che ci induce a considerare arcane coincidenze che sono normalissime. 4) Paradosso della lotteria (H.Kyburg, 1961). Supponiamo ci sia una lotteria con un milione di biglietti, uno solo dei quali sarà vincente. Comprando un biglietto si ha la certezza pratica di perdere (stante che la certezza pratica è data da 1- ε). Così chiunque compri un biglietto ha la stessa certezza pratica. È dunque razionale accettare la conclusione che nessun biglietto vincerà, mentre si sa che certezza che qualche biglietto vincerà. Questo paradosso, escogitato da Henry Kyburg, mira a evidenziare le difficoltà del concetto di accettazione razionale: Infatti appaiono consistenti questi tre principi: i) è razionale accettare una proposizione che è molto probabilmente vera ii)non è razionale accettare una proposizione inconsistente (autocontraddittoria) iii)se è razionale accettare A e accettare A’, è razionale accettare A e A’. (Nel caso dell’esempio: se è razionale accettare che la perdita di Tizio è praticamente certa e che la perdita di Caio è praticamente certa, allora è praticamente certa la perdita di Tizio e Caio). Di questi tre principi, è il terzo ad essere più critico, ed infatti è stato lo stesso Kyburg a proporre la sua rimozione. LEZIONE 2. Concezioni della probabilità La più semplice e intuitiva definizione di probabilità è ancor oggi quella chiamata “classica”, la cui formulazione si deve al sommo astronomo Pierre Simon de Laplace (1742-1826), detto il “Newton francese”. Secondo la concezione laplaceana, la probabilità di un evento E è il rapporto tra i casi favorevoli al v erificarsi di E e i casi possibili, purchè egualmente possibili. Se, per esempio, mi chiedo qual è la probabilità di estrarre un numero pari al lotto sulla ruota di Milano con una sola estrazione, i passi da fare per determinare questo valore sono i seguenti : (1) osservare che i casi possibili sono 90 (2) osservare che tali casi sono equipossibili (3) osservare che le possibilità di estrarre un numeri pari entro le 90 possibilità sono 45, quindi i casi favorevoli sono 45. La risposta è data dunque dal rapporto tra 45 e 90, ossia 0,5. Se i casi non sono equipossibili la risposta non può essere data. Se, per esempio, mi chiedo qual è la probabilità che un certo aereo cada nella prossima settimana, i casi possibili sono due (cade/non cade), ma fortunatamente in condizioni normali non c‘è motivo di considerarli equipossibili. La clausola della equipossibilità è una fonte di dubbi filosofici. Se equipossibile vuol dire “equiprobabile” la definizione complessiva diventa circolare perché si definisce la probabilità in termini di probabilità. La soluzione è offerta dal cosiddetto “principio di indifferenza” o di “ragione insufficiente”: sono probabilisticamente uguali quelle alternative per le quali non abbiamo motivo di attenderci il verificarsi dell’una piuttosto che dell’altra. È degno di nota che Laplace intendesse estendere l’impiego del calcolo delle probabilità dal dominio dei fatti naturali a quello dei fatti umano -sociali, compresa la probabilità delle testimonianze nei processi e delle sentenze nei tribunali. Da questo punto di vista egli seguiva una linea di riflessione già avviata da Leibniz, che prima di darsi alla filosofia aveva praticato studi di giurisprudenza. La fiducia di Laplace nel meccanicismo newtoniano e nell’infallibile determinismo che lui riteneva ad esso connaturato è espresso dalla brillante metafora del “demone di Laplace”: un demone onnisciente che conosca con esattezza al momento attuale la posizione e la velocità di ogni particella è in grado di predire con precisione assoluta tutti gli eventi futuri e retrodire tutti gli eventi passati. Nella mente del demone di Laplace non esistono incertezze. La probabilità è in effetti il prodotto della nostra ignoranza, che ci distingue dalla condizione divina : “parlando rigorosamente, quasi tutte le nostre conoscenze non sono che probabili: e anche quelle pochissime che stimiamo certe, persino nelle scienze matematiche, si sono date dall’induzione e dall’analogia che, strumenti principali per giungere alla verità, si fondano sulle probabilità “. Così egli scrive nella prima pagina del celebre “Saggio filosofico sulle probabilità”. Come è noto, la possibilità dell’esistenza di un demone di Laplace è negata dal principio di indeterminazione di Heisenberg e più generalmente dalla meccanica quantistica, che esclude che sia possibile misurare con precisione illimitata posizione e velocità di ogni particella (per tacere di altre coppie di proprietà dette “coniugate”). Di fatto gli eventi singoli sono imprevedibili anche in fenomeni caotici con alto grado di complessità. L’urto di milioni di molecole in un millimetro cubo di gas rende di fatto imprevedibile la loro posizione 1 secondo dopo che la posizione di tutte fosse stata accertata con esattezza. Anche se in teoria un demone laplaceano potrebbe in teoria prevedere la posizione di tutte le molecole, da un punto di vista pratico non c’è differenza tra l’indeterminazione dei fenomeni quantistici e dei fenomeni prodotti dal caos deterministico. Secondo la concezione classica la determinazione delle probabilità è una procedura aprioristica, o in altri termini non dipende da informazioni derivate dall’esperienza. In quanto tale ha tutti i numeri per essere mal vista dagli empiristi, secondo i quali ogni conoscenza genuina deve provenire dall’esperienza stessa. A parte i pregiudizi filosofici, l’ idea di basare la conoscenza non sull’esperienza vissuta ma sull’ignoranza di qualcosa è una fonte di difficoltà e di paradossi. Supponiamo per esempio che una persona che estrae una pallina da un’urna a sappia che l’urna a contiene un numero uguale di palline bianche e nere, mentre tutto ciò che sa circa l’urna b è che contiene palline bianche e nere, senza conoscere la composizione dell’urna. Secondo il principio di indifferenza, questa persona in ambedue i casi deve assegnare ½ all’estrazione di una biglia bianca (o nera), mentre è chiaro che nei due casi il grado di incertezza è differente. A parte questa riserva di indole filosofica, bisogna ammettere che l’applicazione della teoria laplaceana è spesso problematica al di fuori del caso dei giochi d’azzardo. Alcune difficoltà dipendono dal fatto che è arduo enumerare tutte le alternative possibili entro un dato esperimento,e ancora più difficile dire se esse sono equipossibili nel senso descritto dal principio di indifferenza. Fa capolino qui il fastidioso germe del soggettivismo: soggetti diversi possono avere informazioni diverse circa le alternative, cosicchè le alternative che appaiono indifferenti ad uno possono apparire differenti a qualcun altro. A ciò vanno aggiunte difficoltà di natura squisitamente matematica, come i c.d. “paradossi di Bertrand”. Esempio. Supponiamo di sapere che un’auto ha impiegato un tempo compreso tra 1 e 2 minuti (quindi tra 60 e 120 secondi) per percorrere 1 Km. Diremo che per noi è indifferente la stima di 60-90 secondi e quella di 90-120 secondi, quindi la probabilità che la lunghezza del viaggio appartenesse al primo intervallo è uguale a quella che appartenesse al secondo. Veniamo poi a sapere che la velocità media della macchina era compresa tra i 30 e i 60 Km/h. Applicando il principio di indifferenza, quindi, per noi la probabilità che viaggiasse tra 30 e 45 km/h è la stessa che viaggiasse tra i 45 e i 60 km/h. Ora il valor medio della prima stima è di 90 secondi, cioè 1 minuto e ½, per 1 Km di percorso, e dovrebbe corrispondere al secondo valor medio, cioè 45 km/h. Ma così non è: se una macchina impiega 90 secondi per percorrere 1 Km vuol dire che in un’ora, cioè in 3600 secondi, percorrerà 40 Km, non 45 Km ! John Maynard Keynes nel suo Treatise of Probabilities ha enumerato un’ampia classe di problemi inerenti al principio di indifferenza, evidenziando che molte difficoltà sono prodotte da aspetti matematici, ma anche da aspetti linguistici. Se, per esempio, in una libreria buia mi chiedo qual è la probabilità di toccare un libro nero, posso dire che in condizioni di ignoranza le alternative che mi sono indifferenti sono due (nero/non nero), e in questo caso la probabilità verrà posta uguale a ½. Me se tengo conto del fatto che i colori dell’iride sono 7, allora tale probabilità è 1/7. Per cui ½=1/7, il che è assurdo. A queste difficoltà concettuali si sommano difficoltà di indole pratica. Di fatto, nel quadro classico l’applicazione del calcolo della probabilità sarebbe giustificata solo nei casi in cui si danno alternative equipossibili, o presunte tali. Per un laplaceano ortodosso non avrebbe senso chiedersi, poniamo, qual è la probabilità di restare avvelenati mangiando un fungo o quella di morire sotto i ferri di una certa operazione chirurgica perché le alternative da esaminare non sono equipossibili - anzi è da notare che è proprio la bassa probabilità dell’alternativa infausta che rende interessante la domanda, in quanto ci fa valutare se vale la pena di correre o non correre il rischio ad essa connesso. Secondo Keynes ed altri che hanno tentato di modernizzare la concezione classica, nei casi in cui i calcoli numerici non sono applicabili possiamo sempre ricorrere a valutazioni di tipo qualitativo in modo da poter dire, poniamo, che un’alternativa è più probabile di un’altra e ambedue sono più probabili di una terza. Ma la nascita della statistica alla fine del ‘700 e il diffondersi della mentalità empiristica, per la quale non esistono conoscenze a priori (e nemmeno sintetiche a priori, con buona pace dei kantiani), spingeva verso una definizione oggettiva o statistica della probabilità. Per l’800 vanno ricordati i nomi di R. Ellis e J.Venn, per il ‘900 quelli di R.von Mises e H.Reichenbach, che vengono spesso accomunati sotto la denominazione di frequentisti. Da un punto di vista strettamente empirista, l’affermazione che le varie alternative, per esempio nel lancio di un dado, sono equipossibili, ha un senso solo se si può provare sperimentalmente che il dado in questione non è stato truccato e che non presenta asimmetrie tali da favorire qualcuna delle facce a scapito delle altre. Di fatto, l’unico modo per raggiungere la certezza dell’equipossibilità sta nel lanciare il dado in questione un numero illimitato di volte, verificando che le percentuali di uscite di tutte le facce “tendono”, a lungo andare, ad essere uguali. Con ciò però si compie un salto dal finito all’infinito che mal si concilia con l’oggettività sperimentale richiesta dagli empiristi. Secondo Ellis questo ricorso a una serie infinita di esperimenti, cioè a qualcosa di non sperimentabile in linea di principio, è un’ idealizzazione che si giustifica come tutte le altre idealizzazioni impiegate nella scienza (p.es. quando si immagina il movimento di un corpo su un piano senza attrito). Venn chiamava serie queste successioni in cui le fluttuazioni di frequenze registrate a un certo punto si stabilizzano e convergono verso un valore che si può considerare il limite della serie stessa. Il passo successivo, che poi verrà perfezionato da von Mises, è quello di identificare questo limite con la probabilità del tipo di evento in questione (non, si badi, del singolo evento, dato che la probabilità riguarda classi di eventi dello stesso tipo). Si noti che, ovviamente, il limite di cui si parla qui è diverso da ciò che in matematica si chiama limite delle successioni numeriche convergenti, dato che quest’ ultimo si può calcolare rigorosamente con metodi matematici. Nelle successioni empiriche un calcolo di questo genere è impossibile. Anzi, a rigore, non si ha neppure la certezza che il limite cercato esiste, perché non c’è contraddizione nel ritenere che la parte sconosciuta della serie abbia proprietà diverse da quella conosciuta. Più generalmente, estraendo un campione da un universo di dimensioni illimitate, non abbiamo nessuna garanzia che le proprietà riscontrate nel campione siano le stesse presenti nell’universo. Ma questo è il vecchio problema dell’Uniformità della Natura. Non c’è una garanzia logica che il futuro di una successione di eventi sarà uguale al passato, anche se è perfettamente irragionevole supporre il contrario. Von Mises divenne un esponente di spicco del circolo di Berlino, nato alla fine degli anni 20 per gemmazione del circolo di Vienna. L’idea basilare è che si parla di probabilità quando, ipotizzando entro un certo “collettivo” (insieme di eventi o dati dello stesso genere) si ha ragione di pensare che le frequenze osservate, se protratte illlimitatamente, tendano verso un limite. Von Mises non tardava tuttavia a rendersi conto che, perché si possa calcolare la probabilità, non tutti i collettivi si prestano al calcolo del limite. Una successione di pietre miliari che presenti delle pietre bianche ogni cento metri e una pietra rossa ogni chilometro rende facile calcolare che la probabilità di trovare una pietra rossa è 1/10, ma non ha molto senso parlare di probabilità di un risultato che è prevedibile, e quindi necessario, in quanto costruito esattamente con quello scopo. Se, per ipotesi, si togliessero dalla successione tutte le pietre che si trovano al 10° posto, la probabilità di incontrare pietre rosse scenderebbe dal 10% a 0, il che fa pensare che la successione in oggetto sia priva di una qualità essenziale per stabilire il limite delle frequenze osservate, quella di essere irregolare o randomizzata. Von Mises ha cercato di definire con grande accuratezza la nozione di collettivo irregolare, puntando sull’idea che un collettivo è irregolare quando il limite stimato è insensibile alle scelte di posto effettuate secondo qualche regola prefissata (per esempio, risulta lo stesso entro le sottosuccessioni determinata dalla scelta dei posti pari). Nonostante questo importante contributo matematico, che lo ha portato a definire anche operazioni su collettivi, von Mises non ha potuto evitare che la sua teoria andasse incontro a banalizzazioni. A meno che non si definisca rigorosamente il concetto di regola, si può trovare sempre una regola stramba che genera un sottosuccessione tale da modificare il valore del limite. Più in generale, come avevano già osservato Schlick e Wittgenstein, data qualsiasi successione di numeri, per quanto bislacca, troviamo sempre una regola che concorda con la successione (si tratta di un paradosso a volta indicato come “paradosso di Wittgenstein”). Finora non si è trovata nessuna regola intuitiva che governi i decimali di p-greco (3,14…), ma non c’è nessun problema a trovare una regola abnorme a cui si adegua la successione. Lo stesso discorso che si fa per le regole si fa anche per predicati qualsiasi. Il ragionamento induttivo, come è noto, consiste nel riscontrare nel campione una certa proprietà e proiettarla sull’universo: per esempio dopo aver osservato un campione di smeraldi solo verdi inferiamo che tutti gli smeraldi sono verdi. Ma allo stesso modo in cui ci regole abnormi ci sono anche predicati abnormi, come ravvisato da N.Goodman nel c.d. “paradosso del grue-bleen”. Il predicato “verde ed esaminato prima del 3000” implica un predicato bizzarro ma perfettamente legittimo come “verde ed esaminato prima del 3000 oppure blu ed esaminato dopo il 3000”(grue o verdlù) . Si noti però che se è vero che tutti gli smeraldi sono verdlù, questa è una disgiunzione in cui il primo disgiunto risulta falso dopo il 3000, per cui dopo tale data il secondo disgiunto risulta necessariamente vero. Con ciò non si fa altro che ribadire che l’uniformità della natura non è giustificata né da ragionamenti deduttivi né da ragionamenti induttivi: infatti così si fa vedere che non c’è nessuna contraddizione logica nel pensare che gli smeraldi nel 3000 si trasformino da verdi in blu. Von Mises vedeva nella meccanica quantistica lo sbocco naturale della sua teoria dei collettivi, ma trascurava il fatto che in meccanica quantistica si parla di probabilità di eventi singoli (p.es. la probabilità che un atomo isolato si trovi in una certa condizione) e non di tipi di eventi, come richiesto dalla sua versione del frequentismo. Hans Reichenbach ha fatto vedere che si può, comunque, definire la probabilità come limite delle frequenze lasciando cadere le restrizioni poste da von Mises. Abbandonando la nozione di collettivo, Reichenbach chiede, in primo lugo, che quella che lui chiama classe di riferimento (quella, cioè, entro cui vengono rilevate le frequenze) oltre ad essere illimitatamente grande sia formata da elementi che sono simili per aspetti rilevanti a quelli dell’elemento che ha l’attributo di cui intendiamo calcolare la probabilità. Per fare un esempio, se voglio sapere qual è la probabilità che il Sig. Rossi abbia un incidente automobilistico, sceglierò una classe di riferimento costituita, in primo luogo, da elementi che siano soggetti al rischio di avere un incidente automobilistico. Escluderò pietre, gatti, pappagalli e mi atterrò a soggetti umani, anzi a simili a Rossi per aspetti importanti: escluderò pertanto soggetti a lui simili per avere calzini blu (perché l’avere calzini blu piuttosto che di altro colore è irrilevante per l’attributo) oppure per il fatto che come lui leggono libri gialli. Viceversa la classe di riferimento dovrà contenere soggetti, per esempio, che siano simili a lui per il sesso, per l’età e per il tipo di macchina che possiedono. Secondariamente, la frequenza dell’attributo riscontrata nella classe di riferimento deve essere la stessa anche in tutte le sue sottoclassi di questa. Nella terminologia di Reichenbach la classe di riferimento deve essere omogenea, cioè che sia insensibile, nel rilevamento delle frequenze, rispetto a partizioni operate secondo qualche attributo che influenzi la frequenza dell’attributo in questione (nell’esempio “avere incidenti automobilistici”) . Non compariranno, quindi, nella classe dell’ esempio, soggetti che sono proprietari di macchine le quali, pur essendo della stessa marca di quella di Rossi, abbiano un difetto ai freni, perché nella sottoclasse costituita da questi si potrebbero riscontrare frequenze diverse negli incidenti automobilistici. Una volta individuata una classe di riferimento illimitatamente grande e omogenea, si calcola il limite a cui tendono le frequenze osservate di incidenti automobilistici subiti da soggetti del tipo di Rossi entro insiemi via via più estesi tratti da di questa classe. Si identifica quindi questo limite con la probabilità di avere un' incidente per soggetti del tipo del signor Rossi. Si noti che questo non è esattamente la stessa cosa che calcolare la probabilità che il Sig. Rossi nella sua singolarità abbia un incidente, ma possiamo identificare la probabilità di questo evento singolare (event- token) con quella dell'evento tipico (event- type) di cui si può considerare rappresentativo: ciò mediante un artificio concettuale che Reichenbach chiama posit (“asserzione che noi consideriamo come vera anche se il suo valore di verità è sconosciuto”). Questa distinzione tra eventi singolari concreti e tipi di evento ricorrerà più volte nelle pagine seguenti. La classe di riferimento omogenea nel senso di Reichenbach in sostanza è un’idealizzazione infinitaria di quello che gli statistici chiamato "campione non tarato" (non-biased) o “campione randomizzato”, che ha un ruolo essenziale nella pratica statistica. La scelta del campione pone problemi di difficile soluzione (ne parleremo nel paragrafo sulle menzogne statistiche) in quanto una taratura del campione può dare origine a distorsioni gravi nel rilevamento delle frequenze. Per quanto ispirato ad alcuni criteri comunemente usati nella pratica statistica, il frequentismo nella formulazione di Reichenbach presta il fianco a diverse critiche. Una di queste è squisitamente matematica e muove dall’osservazione che la classe di riferimento e gli esperimenti devono essere necessariamente, anche se di grandi dimensioni, in numero finito. Se così non fosse, in un numero infinito di lanci di una moneta ci sarebbe un numero infinito di uscita di teste e un numero infinito di uscite di croci, generando una frazione che è sempre uguale a ∞/∞, contro l’intuizione che ci dice che questo valore è 1/2. La concezione della probabilità come limite mira a disinnescare questa difficoltà. Succede però che l’ordine in cui si distribuiscono gli esperimenti in una classe finita potrebbe determinare limiti diversi a seconda dell’ordine in cui si presentano i dati. Non esiste un ordine unico associato a una determinata classe di riferimento. Qual è, per esempio, l’ordine in cui “oggettivamente” sono disposte tutte la automobili rosse fabbricate in Italia? Un secondo problema attiene la probabilità di casi singoli, dato che in questa concezione appare privo di senso chiedersi, poniamo, qual è la probabilità dell'uscita di testa al 40° lancio, mentre queste valutazioni di probabilità sono di uso corrente nella meccanica quantistica.Questo problema è stato sottolineato in particolare da Karl Popper, che si è fatto portabandiera di una particolare versione del frequentismo detta propensionismo . Una terza difficoltà riguarda l'impossibilità di costruire classi di riferimento dotate delle proprietà richieste anche per eventi rari o unici. Basta pensare che quando si inviò per la prima volta una spedizione sulla Luna si assegnava un'alta probabilità al successo dell'impresa, ma questa non poteva sicuramente essere calcolata sulla base della frequenza statistica dell'evento. Una quarta difficoltà, spesso trascurata dagli stessi matematici, riguarda il fatto che per dimostrare che i limiti delle frequenze sono valori di probabilità bisogna dimostrare che soddisfano gli assiomi di Kolmogorov, cioè i due principi delle probabilità totali e delle probabilità composte. È stato provato tuttavia che questa dimostrazione non è banale, anzi che a rigore non è possibile. Se è così, avrebbero ragioni quanti distinguono, come più volte enfatizzato da Rudolf Carnap, tra due nozioni diverse di probabilità - una epistemica e una statistica- che avrebbero anche probabilità matematiche diverse. Con ciò è necessario prendere in esame la concezione detta “epistemica” della probabilità, di cui la concezione classica di Laplace è stata la prima anticipazione. Qualcuno, come Popper, ha voluto raggruppare tutte le varie articolazioni della concezione epistemica sotto l’etichetta di “concezione soggettivista”, con l’intento di sottolineare l’opposizione tra il concepire la probabilità come proprietà oggettiva del mondo e il concepirla come qualcosa di dipendente dalla coscienza di uno o più soggetti. Nella concezione epistemica tuttavia sono riconoscibili almeno due orientamenti diversi, incompatibili per il diverso atteggiamento verso le proprietà logiche degli enunciati probabilistici. Secondo i cosiddetti logicisti (Boole, Jevons, Johnson, Keynes, Heffreys, Carnap) gli enunciati probabilistici, se veri, sono logicamente veri. In essi viene enunciato un certo rapporto tra un’ ipotesi h (es. il prossimo corvo sarà nero) e un certo stock di evidenza disponibile a suo favore (p.es. il fatto che 100.000 corvi osservati sono neri e nessun corvo osservato è di colore diverso). Keynes parla per esempio di questo rapporto come grado di credenza razionale, e la logica del probabile diventa quindi una logica della ragionevolezza. Se è vero che la scelta dell’ informazione da inglobare nell’evidenza e varia da soggetto a soggetto, la relazione in sè è puramente logica. Carnap ha sviluppato da queste idee di fondo dei metodi per calcolare gradi di conferma induttiva espressi mediante la probabilità condizionale. A differenza di Keynes e altri logicisti, tuttavia, Carnap introduceva due coefficienti parametrici, λ ed η, esprimenti diverse valutazioni possibili del fattore logico-linguistico (λ) e del fattore costituito dal peso dell’esperienza (η). Se, per restare nell`esempio, svalutiamo l`evidenza sperimentale ponendo uguale a 0 il coefficiente η , allora la probabilità che il prossimo corvo sia nero dipende unicamente dal linguaggio presupposto. Se il linguaggio contiene nomi per i soli 7 colori dell’iride, tale probabilità è di 1/7, mentre se si ammette un numero piu` ampio di nomi per le sfumature dei vari colori (scarlatto, porpora,...) allora il valore di tale probabilità sarà diverso. Comunque sia, indipendentemente da come vien fissato il valore parametrico, la conclusione è ottenuta attraverso un partial entailment, cioè un`implicazione parziale di cui l`implicazione logica è solo il caso speciale in cui l`output segue al 100%. Carnap identifica le funzioni di probabilità con le funzioni di conferma: in questo modo la logica della probabilità coincide con la logica della conferma induttiva. Sfortunatamente, dato che ciò che viene confermato di solito è una legge, cioè una generalizzazione infinitaria (p.es. “Tutti i corvi sono neri”), per ragioni puramente matematiche tale grado di conferma per le leggi tende ad essere molto basso se il numero di individui dell’universo è molto grande, ed è addirittura uguale a 0 se si assume che il numero di individui dell’universo è infinito. (Per capire questo apparente paradosso, si rifletta sulla domanda: “sapendo che un urna infinita contiene palline di sette colori, qual è la probabilità di estrarre un numero infinito di palline rosse e nessuna di colore diverso?”). Questo difetto è stato corretto da J. Hintikka e dalla sua scuola introducendo nuovi coefficienti parametrici, ma ottenendo sempre valori bassi per le generalizzazioni infinitarie: cosa che, del resto, appare coerente con concezioni epistemologiche come quella popperiana, per la quale cui, come è noto, le leggi sono solo ipotesi destinate ad incappare prima o poi in qualche falsificazione. Essenziale per capire la linea Johnson-Keynes-Carnap è il fatto che, nonostante si ammetta la variabilità dei risultati delle conclusioni probabilistiche, con conseguente abbandono dell’univocità, le credenze di cui si postula la misura sono credenze razionali, cioè credenze proprie di un soggetto idealizzato. La variabilità, come già detto, dipende dall’arbitrarietà dei valori di λ ed η, cioè del parametro logico e quello empirico. La valutazione di questi può variare a seconda degli scopi e del contesto scientifico. Se è così, però, non c’è da stupirsi se negli ultimi anni Carnap fosse incline a considerare il logicismo compatibile con il osggettivismo probabilisticoNella corrente detta soggettivista (Ramsey, DeFinetti, Savage) questo requisito di razionalitàviene abbandonato, così come l'idea che gli asserti probabilistici veri siano verità logiche. I valori probabilistici esprimono solo gradi di credenza di soggetti concreti che possono tener conto dell`evidenza disponibile nel modo che preferiscono. I gradi di credenza sono misurati considerando ogni soggetto alla stregua di un giocatore, razionale o irrazionale che sia, impegnato in un gioco di scommesse contro un secondo giocatore (allibratore). Se un giocatore è convinto, per esempio, che la probabilità di sorteggiare un certo numero al lotto sia del 50%, non c'è nessun argomento che possa impedirgli di fare questa valutazione. L’ unico criterio di razionalità che si richiede a un giocatore è la coerenza interna del suo sistema di credenze: se il giocatore ritiene veramente che la probabilità che esca il numero 20 in un certa uscita della roulette sia del 90%, l’intuizione ci dice che non può anche credere che la probabilità che esca il numero 21 nella stessa uscita sia pure del 90%, dato che l’uscita del 20 e del 21 sono incompatibili tra loro. Per dare una veste matematica a questa intuizione sono praticabili metodi diversi, anche se i soggettivisti non sono concordi sul fatto che le probabilità siano da esprimere invariabilmente mediante valori numerici. In ogni caso, il metodo più semplice per misurare il grado di credenza è dato dalla misura del quoziente di scommessa, cioè dal rapporto tra quanto si scommette e quanto si incassa in caso di vincita. Chi scommette su un certo cavallo 10 euro per averne 100 in caso di vincita (quoziente di scommessa 1 / 10, o ragione di 1 contro 9) mostra una bassa propensione a rischiare denaro su questo cavallo, quindi un basso grado di credenza nella sua vittoria; mentre il contrario si direbbe di chi scommette 90 euro per incassarne 100 in caso di vincita (quoziente 9/10,o ragione di 9 contro 1). La coerenza di un sistema di scommesse consiste nell’escludere che nel bilancio finale si vada incontro a una perdita certa, come sarebbe il caso dello sprovveduto che scommettesse 100 euro su testa per averne 200 e, simultaneamente, 150 euro su croce per averne 200: in complesso, costui affronterebbe una spesa complessiva di 250 euro per incassare 200 euro. Un sistema di scommesse incoerente viene nel gergo chiamato Dutch Book (allibramento olandese). Ramsey e deFinetti hanno fatto vedere che il requisito della coerenza delle scommesse implica il soddisfacimento degli assiomi di Kolmogorov, anzi equivale ad esso. Un indubbio vantaggio del soggettivismo, che spiega in parte il suo recente successo, è dovuto al fatto che risolve in modo indolore il problema della probabilità iniziali, dato che in questa prospettiva queste rispecchiano solo le convinzioni iniziali di un soggetto dato. Può naturalmente sconcertare il fatto che un soggettivista radicale ammetta anche valutazioni di probabilità che il senso comune tenderebbe a considerare forsennate. Ma dal suo punto di vista esistono due principi importanti che, oltre alla coerenza, possono riconciliare il soggettivismo con il senso comune. Il primo è il già ricordato teorema di Bayes. Tale teorema ci garantisce un modo per calcolare il passaggio da una certa assegnazione di probabilità, poniamo h, alla probabilità revisionata (updated) di h data una certa evidenza e. Possiamo calcolare, per esempio, la probabilità che tutti i corvi siano neri dato che 100 corvi sono neri (Pr(h/e) ) una volta che si conosca, oltre alla probabilità di h e quella di e, la probabilità inversa che 100 corvi siano neri dato che tutti i corvi sono neri (Pr e/h, che ovviamente è 1 per ragioni logiche). In tal modo il teorema di Bayes, a volte impropriamente chiamato teorema della probabilità delle cause, ci consente di rappresentare molte - secondo i soggettivisti tutte – forme di ragionamento ampliativo, cioè di argomentazioni razionali non deduttiva. Oltre alla coerenza, che è un criterio di raionalità,secondo i soggettivisti c’è da tenere conto di un secondo principio, valorizzato specialmente da De Finetti.è il cosiddetto principio di scambiabilità, formulato per la prima volta in modo esplicito da W.E.Johnson con il nome di “principio di simmetria”. In esso si dice che l`ordine in cui si presentano gli elementi che costituiscono l’ evidenza positiva a favore di una certa ipotesi è indifferente, nel senso che non influenza la suddetta valutazione. Supponiamo di lanciare in aria per dieci volte una moneta che sappiamo essere truccata. I lanci non saranno indipendenti in quanto gli esiti di ogni lancio forniranno indicazioni sulla probabilità che esca testa nel lancio successivo. D’altro canto, stabilito il numero di volte in cui esce testa in dieci lanci della moneta, sapere in quali lanci sia uscito testa non è rilevante. In altri termini, si verifica una invarianza permutazionale nel senso che la probabilità che si abbia una sequenza di 10 esiti con un certo numero di teste è sempre la stessa a prescindere da quali siano esattamente le volte in cui è uscita testa. Pertanto, se per esempio è uscita testa per tre volte su dieci, non importa se ciò si è verificato nei primi tre tentativi, oppure nel primo, settimo, decimo. De Finetti ha fatto vedere che l’impiego contestuale del ragionamento bayesiano e del principio di scambiabilita`è sufficiente ad assicurare la ricostruzione del ragionamento statistico con risultati identici a quelli cercati dai frequentisti. Il soggettivismo è diventato il paradigma dominante nelle ricerche probabilistiche degli ultimi trent’anni. Le critiche a cui va incontro sono state oggetto di un ampio dibattito che non ha minato le sue radici ma sembra aver contribuito al suo raffinamento. Alcune difficoltà del soggettivismo riguardano l’impiego del rapporto tra somme di denaro per misurare le probabilità, dato che anche per un privilegiato con un ricco conto in banca rischiare 50 euro per averne 100 non è la stessa cosa che rischiare 50000 euro per averne 100.000. Eppure nei due casi il rapporto tra le due quantità è sempre invariabilmente ½ : dovrebbe quindi misurare lo stesso grado di credenza. A questo problema si può ovviare con strategie diverse. Una è quella, proposta già da Ramsey negli anni ‘30, che consiste nel parlare non di scommesse ma di preferenze tra beni dotati di un certo valore di utilità. In tal modo si è stabilito uno stretto rapporto tra la teoria della probabilità e quello delle preferenze: si ricordi del resto che già nel ‘7oo era chiaro che la nozione di probabilità si poteva defnire il termini di speranza matematica. La seconda strategia, sottoscritta dallo stesso DeFinetti, consiste nel rinunciare all’assegnazione di valori numerici in tutti i casi. È sufficiente avere una relazione “è più probabile di”, definita su proposizioni, le cui proprietà siano descritte da un certo numero di assiomi, che in ogni caso risultano tali da rendere derivabili gli assiomi di Kolmogorov. Si noti che la probabilità comparativa ha una rilevanza dal punto di vista giudiziario, perché una comune obiezione all’impiego del calcolo delle probabilità è che nelle aule dei tribunali non ha molto senso impiegare valori numerici esatti, per esempio dicendo che l’imputato ha avvelenato la vittima con il 93% di probabilità. Come vedremo, questo è soltanto una dei molti problemi sollevati dall’impiego del linguaggio probabilistico e del calcolo delle probabilità in ambito giudiziario. Sempre sul terreno giudiziario, si è fatta spesso sentire contro il soggettivismo un’obiezione che è stata condivisa da autorevoli filosofi del diritto (in Italia da M.Taruffo, che propende per una visione logicista della probabilità): se si aderisce al soggettivismo, le valutazioni probabilistiche diventano soggettive, con il rischio che un tribunale assolva un imputato che un altro può condannare in base a diverse valutazioni soggettive. Questa obiezione è importante perché non è rivolta contro l’impiego del calcolo delle probabilità nei tribunali ma contro la filosofia soggettivista. Vediamo come potrebbe rispondere un soggettivista a questa obiezione. Paolo Garbolino ha dato una dettagliata analisi di come dovrebbe procedere una corte di giustizia che volesse applicare la concezione soggettivista. 1) accusa e difesa dovrebbero esporre le rispettive ricostruzioni dei fatti, intese come insiemi di credenze soggettive, evidenziando la loro coerenza interna. 2) il giudice sceglie la versione dei fatti che gli sembra più probabile, in base al principio del libero convincimento del giudice. Si sottolinea che, piaccia o meno, questo è ciò che “di fatto accade”, anche se i soggetti coinvolti potrebbero in buona fede sentirsi guidati da obiettivi più elevati, come l’ aspirazione ad “accertare la verità”. Di qui una possibile obiezione antisoggettivista: è meglio,uno potrebbe dire, una ricostruzione probabilisticamente incoerente che risulta vera piuttosto che una coerente ma falsa. Il soggettivista risponde che nessuno può garantire che una certa ricostruzione sia vera, anche se si può dire che è più o meno approssimata al vero (Popper parla di verisimilitudine). Molti soggettivisti rifiutano di usare la nozione stessa di verità associandosi alla domanda di Ponzio Pilato (Quid est veritas?). Quanto alla verosimilitudine ,il soggettivista si chiede però che vuol dire però “verosimile”. Se si intende con ciò “credibile” si ricade nel soggettivismo. Se si intende “approvabile” (quindi in accordo con il parere di esperti qualificati), che è il senso antico che aveva la parola “probabile” nel Medio Evo, si regredisce a una concezione prepascaliana della probabilità. Sembra che non resti che la probabilità in termini di frequenze relative, ma il soggettivista si oppone al frequentismo non solo evidenziando le difficoltà interne che abbiamo già discusso, ma osservando che tanto Carnap che Reichenbach hanno introdotto dei parametri per ponderare le conclusioni dei ragionamenti induttivi, introducendo quindi surrettiziamente delle variabili la cui determinazione può essere solo soggettiva. Negli ultimi anni i contrasti che hanno diviso gli epistemologi sul significato della nozione di probabilità hanno lasciato posto a un atteggiamento più flessibile e pluralista. Si ammette, in altre parole, che in alcuni contesti potrebbe essere utile applicare la nozione classica, in altri quella statistica, in altri ancora quella soggettivista, fermo restando che la sintassi impiegata e le regole del calcolo, sono invarianti e devono restare tali. LEZIONE 3. Il bayesianesimo Si è visto nelle lezioni precedenti che il teorema di Bayes è per il soggettivista l’unico strumento disponibile per effettuare inferenze non-deduttive. Tali inferenze, che si chiamano a volte ampliative, nella tradizione logica venivano classificate in due sottocategorie: quella delle inferenze induttive e quella delle inferenze abduttive. L’induzione e l’abduzione vengono spesso presentate come processi inferenziali conversi tra loro. Si guardi a questi due esempi : (1) Se il fiammifero è stato sfregato, si è acceso (2) Se il fiammifero si è acceso, (vuol dire che) è stato sfregato . Nella (1) si passa da un evento ad un altro che può dirsi spiegato in termini del primo in base ad una legge stabilita induttivamente. Dato che tra i due eventi sussiste un gap temporale e che la legge in questione appare la descrizione di un nesso causale, si può anche dire che il primo evento è causa e il secondo effetto. Nella proposizione (2) l’inferenza procede invece nella direzione inversa. L’antecedente enuncia un evento del quale il conseguente descrive una spiegazione causale attendibile. In ambedue i casi la conclusione non segue dalla premessa con necessità ma solo con un certo grado di probabilità, la cui esatta determinazione naturalmente può essere certo problematica. Nel secondo esempio, comunque, l’intuizione dice che il grado di probabilità della conclusione è più basso che quello della conclusione nel primo esempio. La conclusione di (2) è in effetti lecita una volta che si sia in grado di escludere che non esistono spiegazioni migliori del fenomeno descritto nell’antecedente, in cui si asserisce che il fiammifero si è acceso. Dunque quella che viene eseguita è un’inferenza “alla miglior spiegazione”. Come vedremo in seguito, la classificazione delle inferenze ampliative in induttive e abduttive appare insufficiente se si tiene conto di un tipo di inferenza- l’inferenza controfattuale- che per quanto ignorato nella tradizione aristotelica e postaristotelica ha un’importanza che la logica contemporanea ha messo adeguatamente in luce. È giunto il momento di vedere come si applica il teorema di Bayes nella trattazione dell’inferenza ampliativa, sottolineando fin dall’inizio che insistere sulla centralità del teorema di Bayes non è solo prerogativa dei soggettivisti, ma di una categoria di metodologi che vengono genericamente raggruppati sotto l’etichetta di bayesiani. Per i bayesiani la probabilità è sempre un grado di credenza calcolabile che dipende dal grado di probabilità dalle prove disponibili. Data questa definizione ampia di “bayesiano”, anche epistemologi non soggettivisti come Carnap si possono chiamare bayesiani. Il bayesianesimo giuridico (“nuova dottrina delle prove”) è quella corrente di pensiero che ritiene che ogni inferenza probatoria si basi, magari in modo implicito o inconscio, su un’applicazione del teorema di Bayes . Per fare un esempio,supponiamo si debba la stabilire la probabilità che Rossi abbia avvelenato il caffè alla luce di certe evidenze disponibili. Il detective comincia assegnando un certo valore a priori alla probabilità di H( Rossi ha avvelenato il caffè) prima di esaminare le evidenze E1, E2, E3… En, dove E1 è, supporremo, il fatto che Rossi ha comprato una dose di veleno. Egli assegna anche un valore a priori a Pr(E1|H), cioè alla probabilità che Rossi abbia comprato il veleno dato che ha avvelenato il caffè (verosimiglianza). Se assegna anche un valore a Pr(E1), grazie al teorema di Bayes si trova Pr(H|E1). Dunque con questo metodo si passa dalla probabilità di H a quella aggiornata (updated) di H|E1. Chiamiamo Pr(H’) questa probabilità revisionata. Si passa poi con lo stesso procedimento a calcolare Pr(H’|E2), ripetendo poi la procedura per ogni presunta prova E1…En. Questa iterazione di revisioni porta a Pr(H’’’’|En). Si può dimostrare che più aumenta il numero delle condizionalizzazioni più le valutazioni soggettive tendono a convergere verso un valore unico, limitando quindi l’ arbitrarietà delle valutazioni a priori. Un importante teorema noto come teorema di de Finetti è stato considerato dai bayesiani la carta vincente per ridurre il peso dell’ arbitrarietà delle valutazioni iniziali.. De Finetti ha dimostrato che, se la sequenza delle prove è scambiabile e se le credenze di un ricercatore sono coerenti, allora alla fine il valore che verrà assegnato dopo un numero alto di esperimenti si approssima a quello della frequenza relativa (come si asserisce nella legge dei grandi numeri). Come osserva Jonathan Cohen, però, il problema è che due eventi E1 e E2 sono scambiabili quando sono nella stessa misura irrilevanti per H: ma la rilevanza è una nozione probabilistica e quindi la stessa nozione di scambiabilità è una nozione probabilistica –e quindi, per i soggettivisti, sempre dipendente dai soggetti. Le applicazioni del teorema di Bayes sono ad ampio raggio. Un esempio di come si applica il teorema di Bayes è offerto, in medicina, dallo studio statistico dei falsi positivi. I falsi positivi si verificano quando un test medico dà esito positivo in modo falso o scorretto: in altre parole, il test indica che il paziente ha una malattia che in effetti non ha. Possiamo usare il teorema di Bayes per determinare la probabilità che un risultato positivo sia un falso positivo. Sorprendentemente risulta che, se una malattia è rara, allora la maggioranza dei risultati positivi possono essere falsi positivi, anche se il test è accurato. Supponiamo che un test per una certa malattia produca i risultati seguenti: 1) Se un paziente sottoposto a test ha la malattia, il test produce un risultato positivo il 99% delle volte, cioè con probabilità 0.99 2) Se un paziente sottoposto a test non ha la malattia, il test produce un risultato positivo il 5% delle volte, cioè con probabilità 0.05. Ingenuamente uno potrebbe pensare che solo il 5% dei risultati sono sbagliati, ma questo è un errore. Supponiamo che la malattia sia rara, per esempio che solo lo 0.1% della popolazione abbia quella malattia, cosicchè un paziente scelto a caso ha una probabilità a priori di 0.001 di avere la malattia.Possiamo usare il teorema di Bayes per calcolare la probabilità che il risultato sia un falso positivo. Sia A la proposizione che il paziente è malato, mentre B sta per la proposizione che il test è positivo. Allora,per quanto detto Pr(B|A)= 0.99 (positivo se malato) Pr(B|-A) =0.05 (positivo se sano) Pr(A) = 0.001 Quindi la probabilità che il paziente abbia effettivamente la malattia dato il test positivo è , come ricordiamo (TB*) Pr(A|B) = ____Pr(A) • Pr(B|A) (se Pr(A) ≠0) = Pr( A) • Pr(B|A) + Pr(-A) • Pr(B|-A) 0.99 • 0.001–––––––––- = 0.019. 0.99 •0.001 + 0.05 • 0.999 Questa dunque è la probabilità di avere un risultato positivo corretto. Pertanto la probabilità che un risultato positivo sia un falso positivo, cioè il complemento della probabilità calcolata, è Pr(-A|B), è circa 1-0,019 = 0.98 o 98%. Quindi la probabilità dei falsi positivi risulta altissima: nonostante l’apparente accuratezza del test, l’incidenza della malattia è così bassa che la grande maggioranza dei pazienti che risultano positivi al test non hanno la malattia. Si consideri però che la percentuale di pazienti che risultano positivi in quanto affetti da questa malattia (0.019) è 19 volte la percentuale di quanti, pur non avendo ancora subito un controllo, sono realmente malati (0.001). Pertanto il test non è inutile, e la ripetizione del test può migliorare l’affidabilità del risultato. Allo scopo di ridurre il danno prodotto dei falsi positivi, è chiaro che un test dovrebbe essere molto accurato nel dare esito negativo quando il paziente è sano. Se il test producesse molto spesso un risultato negativo in pazienti sani, diciamo con probabilità 0,999, allora Pr(B|-A) (“positivo se sano”) scenderebbe a 0,001: quindi avremmo per “positivo se malato” , cosicchè in questo caso la probabilità di un falso positvo sarebbe 1-0.5=0.5 D’altro canto, i falsi negativi si producono quanto un test dà un esito negativo in modo falso o scorretto: in altre parole quando il test medico indica che il paziente non ha una malattia che in effetti ha. Questa eventualità è più grave di quella del falso positivo, perché si rischia di omettere la cura per persone realmente malate.Possiamo usare ancora il teorema di Bayes per calcolare la probabilità di un falso negativo. Nel primo degli esempi di cui sopra, quello di una malattia rara, si consideri che Pr(-B|A) = 1- Pr(B|A) = 0,01. Ergo come valore di « malato se negativo » avremo La probabilità che un risultato negativo sia un falso negativo è dunque circa 0.0000105, ossia 0.00105%. Quando una malattia è rara, i falsi negativi non saranno dunque un problema importante nel test. Ma se per caso la popolazione ammalata fosse il 60%, allora la probabilità di un falso negativo sarebbe maggiore. In tal caso infatti Pr(A)=0.6.Con lo stesso test, la probabilità di un falso negativo sarebbe La probabilità che un risultato negativo sia un falso negativo sale a 0.0155 cioè a 1,55%. Passiamo ora dalla medicina al diritto. Qui ci si imbatte immediatamente nel problema di distinguere tra indizi e prove, dove per prova si intende qualcosa che attribuisce all’ipotesi un elevato grado di probabilità, mentre si intende di solito per “indizio” ogni elemento di informazione che rende più probabile l’ipotesi . Cominciamo con il discutere una regola giudiziaria basata su quello che si potrebbe dire bayesianesimo ingenuo. Come è noto, nel diritto penale si chiede normalmente che le conclusioni vengano raggiunte “oltre ogni ragionevole dubbio”, che si potrebbe parafrasare dicendo che la probabilità deve essere sopra una soglia di 1-ε. Questa soglia, in prima approssimazione, fissa la differenza tra ciò che si può dire provato e ciò che non lo è. La regola è allora (R) Il giudice al termine del processo decide nel merito sulla sola base del valore di probabilità dell’ipotesi: accetta il thema probandum se la sua probabilità è superiore a una certa soglia di 1- ε e lo respinge altrimenti. Sulla esatta determinazione del valore di alta probabilità bisogna osservare che ci sono state diverse controversie. Il valore di certezza pratica è fissato convenzionalmente a 0,999999. Adottare la condotta (R) con questo valore di ε è quello che diremmo un comportamento razionale. Ma non c`è dubbio che un livello cosi` alto di certezza, se è giustamente richiesto, poniamo, per la sicurezza aerea, non è quasi mai raggiungibile in un processo penale. Il dilemma, naturalmente, è quello se punire un numero troppo alto di innocenti (accettando soglie più basse di probabilita`) o lasciare in libertà un numero troppo alto di malfattori (accettando una soglia eccessivamente alta di probabilita`). Come afferma Eggleston, il diritto inglese assegna alla giuria l`onere di stabilire cosa sia una misura "ragionevole" (non razionale) di probabilità in quel particolare contesto. Si parla infatti di "convinzione oltre ogni ragionevole dubbio". Ma che cosa è un dubbio ragionevole? Il dubbio cartesiano è razionale ma non ragionevole. In ogni caso di scomparsa di persona, per esempio, possiamo sollevare il dubbio che lo scomparso sia stato rapito dagli extraterrestri.. Infatti in tali casi prendiamo in considerazione è una possibilità logica ma non una possibilità fisica, stante che non disponiamo di leggi fisiche sulle attività di soggetti extraterrestri. L’ipotesi di una sostituzione di persona o una diabolica messinscena (su cui torneremo) rientra nel repertorio giornalistico e anche giudiziario, ma è dubbio sia ragionevole. Riteniamo sia utile continuare a usare la formula R lasciando nel vago il valore di ε come quello di un valore trascurabile non specificato. Si tratta di una procedura di idealizzazione che non è l`eccezione ma la regola anche nella scienza. Dal punto di vista applicativo, infatti, questo valore sarà quello in cui converge la convinzione della giuria una volta che non sia influenzata da fattori di qualche genere. Lord Dennig scrisse :"Nei processi penali l`accusa deve essere provata oltre ogni ragionevole dubbio, ma possono esserci dei gradi all`interno di questo standard" .La solidità della prova dovrebbe essere proporzionata alla gravità del reato. Sono state anche fatte delle ricerche sui valori di probabilità che si stimano sufficienti in rapporto a diversi reati. Per la prova di omicidio, per esempio, i giudici richiederebbero 0,92 mentre i giurati 0,86. Un'altra idea a volte sostenuta è che quando il grado di prova è "oltre ogni ragionevole dubbio" ciascun elemento di prova deve a sua volta risultare tale oltre ogni ragionevole dubbio. Questo è eccessivo, perché le singole prove potrebbero non essere certe ma la loro somma complessiva potrebbe portare l’ipotesi al livello di credibilità richiesto. Nei processi civili anglosassoni ci si conforma a uno standard diverso da quello di "oltre ogni ragionevole dubbio", ma le opinioni sul grado di probabilità richiesto sono divergenti. Il minimo che si chiede è che la probabilità di A superi la probabilitàdi -A, cioè il 50%., anche se si tende a usare la locuzione più vaga "preponderanza delle prove". Sempre Lord Denning sostiene che, allo stesso modo in cui c'è una variabilità del concetto di ragionevole dubbio, c`è una variabilità anche nel concetto di preponderanza di probabilita`. Una regola pratica condivisa è per esempio questa: il tribunale puo` accontentarsi di un minore grado di prova quando ritiene che la reputazione dell`imputato sia talmente cattiva che una condanna in piu` non potra peggiorarla. Si noti che i processi penali e civili possono essere intrecciati: può capitare per esempio che un tribunale civile impedisca la trasmissione di un patrimonio a un soggetto che si sospetta abbia assassinato la donna che ha steso il testamento. Una classe importanti di problemi nell’impiego del calcolo delle probabilità è posta dalla credibilità dei testimoni. Una volta stabilito che i testi sono indipendenti, la credibilità della testimonianze dovrebbe essere ottenuta moltiplicando le varie probabilità via il principio delle probabilità composte. Ma il primo problema riguarda l’attendibilità delle singole testimonianze. Si noti che non si tratta solo di stabilire la probabilità che il teste stia dicendo qualcosa di falso in buona fede o mala fede. Bisogna considerare anche la probabilita` che abbia visto bene, che sia intimidito o ricattato da altri, che si ricordi esattamente cio` che ha visto, che non venga frainteso e che non sia ostacolato nel raccontare cio` che intende raccontare. La sociologia dei mass-media ha reso familiare questo fenomeno : che quando un presunto fatto viene trasmesso reiteratamente e a tutto campo dai media, si trova quasi sempre qualcuno che è disposto a testimoniare della veridicità del fatto stesso – e si noti che costui non è necessariamente subornato o in mala fede. Lo scrittore Norman Mailer ha inventato la parola “fattoide” per indicare qualcosa che prima di comparire su un giornale o in tv non esisteva. Lo spazio concettuale dell’uomo medio, che è quotidianamente condizionato dai media, è saturo di fattoidi che sono in grado di orientare i suoi comportamenti anche sul piano politico. Vale certamente il principio per cui una falsità più volte ripetuta tende a diventare inerzialmente una “verità”. Quanto detto diminuisce l’interesse per le testimonianze di testimoni isolati, le cui testimonianze cioè non siano convergenti con quelle di altri testimoni indipendenti. In ogni caso, comunque, ci sono dei criteri per valutare la versione di un testimone singolo: 1) coerenza interna della versione 2) coerenza con le versioni di altri testimoni 3) coerenza con fatti non controversi 4) "credito " del testimone (che esclude, per esempio, soggetti con disturbi psicofisici) 5) accuratezza dell’osservazione del testimone (per esempio potrebbe fingere un difetto fisico) Il requisito della coerenza non va inteso solo in senso logico-formale. "Andò e tornò da Roma in un giorno" un secolo fa sarebbe stato considerato incoerente con le leggi fisiche, oggi sicuramente no. I testimoni a volte mentono quando è in gioco la loro reputazione o la loro dignità personale. Si noti che il testimone giura di dire "la verita`, tutta la verita`, niente altro che la verita`". Questo implica che l'omissione nella esposizione di fatti rilevanti comporti lo spergiuro, ma di fatto l’omissione non e considerato reato a meno che non comporti la falsità di parte della testimonianza. In realtà molti testimoni non si sentono in colpa se pensano di mentire a fin di bene. Un errore comune è pensare che i testimoni siano completamente veraci o completamente mendaci. Si tende a sottovalutare la facilità con cui molta gente dimentica le cose più banali, anche la stessa lingua madre. Che dire quando un testimone enuncia un fatto eccezionale o improbabile? Secondo Hume e Laplace anche la veridicità del testimone in questo caso deve essere giudicata improbabile. Esempio: il testimone che dichiara di aver preso un candelotto di dinamite da suo fratello e di esserselo dimenticato in tasca. Ma a volte i testimoni raccontano in modo veridico dei fatti assurdi , e l`assurditàdi quello che raccontano in un certo senso prova la loro buona fede. Un problema importante riguarda ciò che si intende esattamente per improbabile. Nel linguaggio corrente è improbabile ciò che è sorprendente,e probabile ciò che non lo è. Se in una mano di bridge mi vengono serviti 13 carte di picche questo è sorprendente, anche se a rigore ha la stessa probabilità di qualsiasi altra distribuzione. Dunque ci vuole cautela nell'usare concetti come quello di sorpresa potenziale di Shackle (di cui parleremo) o di "indice di sorpresa" di Weaver. L'idea di Eggleston è che la probabilità sia stabilita a fronte di tutte le alternative possibili. Se, per esempio, le carte dell’esempio sono state distribuite ieri e il fatto viene riportato oggi a gioco finito, dobbiamo considerare l'alternativa che le carte siano state truccate o che il teste che riporta il fatto a distanza di un giorno menta: alternative che non sono affatto trascurabili. Si pensi al famoso argomento di Hume sui miracoli. Che cosa è piu` probabile? Che ci sia una violazione di una legge di natura o che qualcuno abbia le traveggole o sia un mitomane? Ora in tema di testimonianze il teorema di Bayes si rivela uno strumento prezioso. Nel caso piu` semplice, abbiamo due testimoni per valutare l’attendiblità di un certo enunciato S. Supponiamo di porre As = Il teste A afferma S con verità Bs = Il teste B afferma S con verità S = la dichiarazione S è vera -S = la dichiarazione S è falsa. Utilizziamo qui una nuova nozione, la nozione di ragione o quota di scommessa (in inglese odds: da non confondere con il quoziente di scommessa) su B dato A, che è il rapporto tra Pr(B|A) e Pr(–B|A) : Pr(B|A) 10/100 --------------- (per esempio –––––––- = 1/9 (1 contro 9).) Pr(-B|A) 90/100 E’ interessante osservare che, come si può passare dalla probabilità alla ragione di scommessa (odds), esiste anche il passaggio inverso. Dato il rapporto O della probabilità di un evento E rispetto a quella complementare, si dimostra che la probabilità dell’evento E in questione è espressa da Pr(E) = O(E)/1+O(E). Per capire questa eguaglianza è sufficiente questo esempio. Se, poniamo, Pr(H)= 4/10, O(H) = 4/6 (cioè 4/10 ● 10/6) Ora Pr(H)= 4/10 = 4/6 ● 6/10 = 4/6 , dove 4/6 = O(H) 10/6 Poichè 10/6 = 4/6 + 6/6 ossia 4/6 + 1 si ha Pr(H) =4/10 = O(H)/O(H) +1 Ad esempio, se la ragione di scommessa su un cavallo è ¼, cioè 0.25, la probabilità del cavallo di vincere è 0.25/1.25 = 0.2. Utilizziamo ora questa variante del teorema di Bayes in cui la formula di Bayes compare sia al numeratore che al denominatore (3): Pr(H|E) = Pr H • Pr(E| H) ● 1/Pr E Pr(-H |E) Pr- H • Pr(E|- H) ● 1/Pr E che naturalmente equivale per semplificazione a Pr(H |E) = Pr H • Pr(E| H) Pr(-H |E) Pr( - H) • Pr(E|- H) Chiameremo Pr H /Pr –H rapporto a priori, e Pr(E|H)/ Pr(E|-H) valore probatorio dell’evidenza E o rapporto di Bayes. la probabilità di unì’ipotesi espressa dalla ragione di scommessa si riduce sostanzialmente a un prodotto tra il rapporto a priori e il valore probatorio dell’eviidenza. Per la dimostrazione basta osservare che a = b implica a / z = b /z per ogni numero z e che i denominatori della formula sono equivalenti tra loro. 3 Avremo quindi come caso speciale Pr(S|As Bs)/ Pr(-S|As Bs) = Pr(S)/Pr(-S) • Pr(As Bs|PrS)/ Pr(As Bs| S) viene così espressa in termini di ragioni di scommessa la probabilità che S sia vera se i testi sono veridici. La frazione finale della formula, Pr(S)/Pr(-S), indica la ragione iniziale di scommessa su S prima che si sentano i testi. Circa As e Bs bisogna stabilire se si considerano i testi indipendenti oppure no. Nel primo caso Pr(As Bs|PrS) si riduce, applicando il teorema delle probabilità composte, a Pr(As|PrS) • Pr(Bs |Pr S ), altrimenti bisogna ricorrere ad una espressione piu` lunga che il lettore puo` calcolare da sè. Al proposito alcune osservazioni. Naturalmente, per applicare il teorema di Bayes bisogna fare qualche assunzione circa le probabilità iniziali. In casi di incertezza tra due alternative si assume convenzionalmente, ispirandoci al principio di indifferenza, che la probabilità iniziale sia 0,5. Ma i testi potrebbero avere a disposizione più di due versioni possibili dei fatti, poniamo cinque. In questo caso, per esempio, Pr (As|S) = Pr(Bs|S) = 1/5. È importante osservare che la richiesta di alta probabilità della conclusione è stata proposta anche nell’ambito della metodologia delle scienze fisiche. Il cosiddetto modello hempeliano di spiegazione SI (ossia Statistico-Induttiva) esige che l’explanandum venga derivato dall’explanans con un alto grado di probabilità. Ma le difficoltà che sono state riscontrate nella teoria di Hempel si applicano immediatamente alla regola R. Infatti, mentre nella logica deduttiva l’aggiunta di altre informazioni alle premesse non altera la conclusione, questo non si verifica nella logica probabilistico-induttiva. Nel linguaggio dei logici, questa inferenza è non-monotòna. Se, per esempio Pr( H| K) = 1-ε, per valori non banali di E, Pr (H|K E) < (1 – ε). In altri termini, nuova informazione indipendente può abbassare il livello di probabilità della conclusione. Supponendo che la probabilità che un verdetto raggiunto sia molto alta, questo significa che il risultato è però a rischio di essere revocato in dubbio, e questa instabilità sembra che non ci consenta di dire che la conclusione valga oltre ogni ragionevole dubbio. Per un motivo analogo non è transitiva la relazione implicativa che possiamo definire così: (Def. =>) A => B =Def Pr(B|A) = 1-ε. Non abbiamo infatti nessuna garanzia che, se è vero A =>B, ossia Pr(B|A) = 1- ε, ed è vero B => C , ossia Pr(C|B) = 1- ε, allora è vero A => C , cioè (Pr(C|A)=1ε. Quindi una catena di ragionamenti ciascuno dei quali è ragionevolmente certo potrebbe avere una conclusione che non è ragionevolmente certa. La difficoltà di raggiungere una conclusione stabile è aggravata dal fatto che i soggettivisti negano che ci debba essere necessariamente un consenso intersoggettivo (a fortiori “oggettivo”) sulla assegnazioni iniziali. I soggettivisti più intransigenti (in genere seguaci di De Finetti) respingono per ragioni di principio anche la possibilità di distinguere tra valutazioni ragionevoli e valutazioni che dipendono dai gusti o dalle preferenze individuali, introducendo un elemento supplementare di incertezza. Non è quindi detto che le assegnazioni iniziali in caso di ignoranza siano 0.5 per ogni soggetto, e non c’è garanzia che ci sia uniformità nel giudizio collettivo. Il soggettivista ha buon gioco a far rilevare che il bayesianesimo di stampo logicista, cioè la teoria della credenza razionale, è naufragato insieme al sogno di Carnap di creare una teoria formale espressa nel linguaggio della logica dei quantificatori. La visione di Carnap inoltre presuppone la neutralità dei dati su cui si valutano le ipotesi, idea notoriamente respinta dall’epistemologia postpositivista. Il punto debole del logicismo starebbe in particolare nel fatto che ignora il momento della dialettica probatoria, cioè il fatto che la ricostruzione del fatto avviene attraverso la discussione e la controversia. Tenendo presente l’idea della dialettica probatoria, recentemente Alberto Mura ha proposta una terza via, oltre al logicismo e al soggettivismo bayesiano, che ha chiamato bayesianesimo critico. Per capire la differenza , riprendiamo l’idea già accennata secondo cui è normale definire probabilisticamente la nozione di rilevanza in questo modo: 1) A è positivamente rilevante per B quando Pr(B|A) > Pr (B) 2) A è negativamente rilevante per B quando Pr(B|A) < Pr(B) 3) A è irrilevante per B quando Pr (B|A)=PrB Su questa nozione si basano tutte le teorie probabilistiche della causa come quella di Suppes e Salmon. Ma ,se le probabilità iniziali sono soggettive, ne segue anche che anche i nessi di rilevanza risultano tali. Essi quindi non sarebbero oggetto di conoscenza ma di opinione. In tal modo si perde la speranza di costruire un consenso razionale nella ricostruzione dei fatti e di adempiere, come osserva Mura, lo stesso obbligo di motivazione della sentenza, che deve basarsi su ragioni universalmente condivisibili. Inoltre, come già ancitcipato, si può mostrare che in tal modo si rende impossibile addirittura applicare lo stesso principio di indifferenza. Viceversa, bisogna ammettere che le valutazioni di rilevanza possono essere in molti casi antecedenti a quelle di probabilità e tali da condizionare la revisione delle probabilità richiesta dal teorema di Bayes. Al proposito si noti che nel ragionamento giudiziario è essenziale far leva sulle cosiddette “massime d’esperienza”, che non sono leggi di natura ma sono però generalizzazioni affidabili. Per esempio “ un teste disinteressato normalmente dice la verità” in termini probabilistici si potrebbe tradurre con (ME) Pr(x dice la verità|x è disinteressato)>1/2 E’ dubbio infatti che si possa rendere con (ME’) Pr(x dice la verità|x è disinteressato) = 1- ε dato che diverse cause possono influire sulla veracità dei testi. Una variante della stessa massima sarebbe forse meglio resa da (ME’’) P(x dice la verità|x è disinteressato)>P(x dice la verità|x è interessato) Tali probabilità non possono essere considerate prodotti di valutazioni soggettive. Il bayesianesimo critico asserisce che i giudizi di probabilità sono opinioni non definitive ma aperta all’altrui critica, intrattenute con l’obiettivo di convincere gli altri a raggiungere il consenso. Al proposito, si ricorda che Keith Lehrer e R.Wagner nel loro “Rational consensus in science and society” hanno proposto un modello probabilistico di discussione critica, che dovrebbe essere coerente con la prospettiva di Mura. Siano Pr1(S)… Prn(S) i valori valori di probabilità che n esperti di un certo gruppo assegnano alla poposizione S dopo essersi scambiata tutta l’informazione disponibile. Ciascuno dei membri del gruppo ha un’idea dell’affidabilità del parere degli altri membri e assegna ad essi un determinato peso w , espresso da un numero reale tra 0 e 1 (grado di rispetto). Facendo una media ponderata della propria opinione originaria Pr(S) e del grado di rispetto ciascuno degli esperti arriva ad una seconda probabilità corretta Pr(S)’. Questa seconda distribuzione può essere di nuovo riaggiornata in base alle probabilità aggiornate degli altri,, e così via fino a quando si raggiunge un punto fisso, cioè una distribuzione che è insensibile ad altri aggiustamenti. La costruzione di Lehrer-Wagner - che, incidentalmente, non descrive l’unica strategia possibile di ponderazione delle probabilità- mostra come è possibile costruire una valutazione intersoggettiva che si può considerare razionale, o a fortiori ragionevole, partendo da assegnazioni puramente soggettive. Di fatto le applicazioni del teorema di Bayes, come già osservato, sono di solito appoggiate a dati la cui origine non è necessariamente soggettiva: potrebbero essere, per esempio, dati accettati con solide basi statistiche. Oltre ai Bayesiani soggettivisti ci sono i bayesiani oggettivisti Per illustrare questi usi, cominciamo con l’osservare che la formula di Bayes di p.000 è solo la più semplice di varie formulazioni equivalenti o estese. Una di queste è già stata usata a p.000. Un’altra è la seguente, che si ottiene tenendo conto dell’ informazione disponibile K (Background Knowledge) nella valutazione di probabilità. Per cui una formulazione più adeguata della precedente formula di Bayes in termini di ragioni di scommessa sarebbe Pr(H|E K) Pr(-H |E K) = PrH • Pr(E K|H) Pr -H • Pr(E K|-H) Questa probabilità è la probabilità a posteriori di H ( a volte credibilità)alla luce dell’informazione E K . Se K è 2+2=4 o qualsiasi truismo equivalente, il peso di K si annulla e si ritorna alla formula originaria. Un’altra nozione interessante è quello che abbiamo detto rapporto di Bayes che è un rapporto tra verosimiglianze. Pr(E K|H) (RB) V = ------------------Pr(E K| -H) V è quello che abbiamo chiamato valore probatorio dell’evidenza E, qui relativizzato alla conoscenza di sfondo K Intuitivamente è la forza con cui E sostiene H piuttosto che la sua negazione –H. Nella formula RB, V può avere valori maggiori di 1, minori di 1 o uguali a 1 (quindi non è una funzione di probabilità, perchè questa ha come massimo valore 1). Per esempio un rapporto come 0.9 / 0.10 , ossia 9, esprime un alto grado di forza della prova per l’ipotesi H alla luce di E, mentre un rapporto inverso 0.1/ 0.9 rappresenta un basso grado di forza dell’ipotesi alla luce di E. Supponiamo che l’evidenza che si ritiene importante per la colpevolezza sia data dall’impronta digitale dell’imputato su un coltello. Allora valutiamo la probabilità che il rilascio dell’ impronta si verifichi se l’imputato è colpevole ( Pr(E H) ) confrontandola con la probabilità che ciò si verifichi se l’imputato è innocente, ossia Pr(EK|-H). Il rapporto tra questi due valori esprime il valore probatorio dell’evidenza E. Si noti che tale valore probatorio potrebbe derivare da statistiche ben precise, come avviene spesso in medicina. Per esempio,nel caso in cui Pr(E| K H) esprime il vero positivo (p.es. Se Rossi ha la sifilide la reazione Wassermann mostra certi valori) e Pr(E|K -H) il falso positivo (p.es. se Rossi non ha la sifilide la reazione Wassermann mostra certi valori), V esprime il rapporto tra le verosimiglianze dei due tipi di evento. Il valore probatorio della Wasserman è dunque il rapporto tra veri positivi e falsi positivi. Il teorema di Bayes ci consente di calcolare la probabilità che Rossi abbia la sifilide dati i risultati della Wasserman, una volta fissati gli altri valori della formula di Bayes. Certo il valore di Pr (H|E) e Pr(E|H) dipende dalla probabilità a priori di Pr(H). Se, per esempio, tale probabilità a priori è molto bassa, anche il valore di Pr(H|E) tende ad essere molto basso anche a fronte di prove sostanziose. Questa caratteristica ha un rilievo soprattutto in campo giudiziario. La c.d. “presunzione di innocenza” dovrebbe indurre ad assegnare probabilità 0 all’ipotesi della colpevolezza (H), con il risultato che Pr(H|E) =0 , il che vuol dire che nessuna prova può dimostrare la colpevolezza dell’imputato!! Naturalmente su questo si potrebbe discutere. Riflettendo bene sulla precedente formula, assegnare probabilità 0 alla colpevolezza significare affermare che è impossibile che l’imputato sia colpevole. Questo non è quanto si intende con la presunzione di innocenza. Ciò che si intende dire semmai è che vale Pr(C) < Pr( -C), cioè che è più probabile sia innocente che colpevole, che è quanto basta per ritenere che a priori non sia meritevole di nessuna condanna. D’altro canto questa valutazione comparativa non fissa una valore determinato e di per sè rende inapplicabile il teorema di Bayes. Il modo di procedere potrebbe essere diverso. Come abbiamo già suggerito, applicando intuitivamente il principio di indifferenza, è più trasparente partire da un'opinione iniziale (antecedente alla considerazione degli indizi disponibili) che assegni uguale probabilità a colpevolezza C e innocenza I: Pr (C) = Pr (I) = 0.5 e ciò in base all’idea che a priori non v'è alcuna ragione per privilegiare l'una o l'altra delle due possibilità. L'evidenza indiziaria E conduce ad aggiornare tali probabilità iniziali, non perché esse fossero errate, ma perché siamo in presenza d'uno stato d'informazione di cui prima non si disponeva. Le probabilità finali prodotte dal Teorema di Bayes sono quindi: Pr(I|E) = Pr(I)Pr(E|I)/ Pr(E) = 0.5 ●Pr(E|I)/Pr(E) Pr(C|E) = Pr(C)Pr(E|C)/ Pr(E) = 0.5 ● Pr(E|C)/Pr(E) E’ interessante anche notare che il teorema di Bayes, pur rendendo possibile un’inferenza dagli effetti alle cause (cioè un’abduzione causale) nel caso si disponga della probabilità dell’inferenza inversa, rende trasparente una comune fallacia del ragionamento formale ma anche induttivo : la c.d. “fallacia consequentis” o fallacia dell’affermare il conseguente. Per tornare all’ esempio del fiammifero, dalla legge che tutti i fiammiferi sfregati si accendono possiamo inferire che se a è un fiammifero ed è sfregato molto probabilmente si accende. Ma è illecito operare l’inferenza dal fatto che il fiammifero a si è acceso alla conclusione che molto probabilmente è stato sfregato. Idem per l’inferenza dal fatto che il fiammifero non è stato sfregato cal fatto che probabilmente non si è acceso. Se vogliamo usare il simbolo >, che poi useremo largamente in seguito, un conto è S > F , altro è F > S, e altro ancora ¬S > ¬F. Osserviamo ora questo ragionamento, che purtroppo si può sentire nelle corti di giustizia: “Se Rossi fosse colpevole, allora l’evento E sarebbe molto probabile; se Rossi fosse innocente, allora E sarebbe molto improbabile; ma E si è verificato; perciò è molto improbabile che Rossi sia innocente, quindi è molto probabile che sia colpevole”. Lo schema del ragionamento è questo. Ammettendo –ma è più che discutibile - di voler rappresentare il fatto che E si verificato come Pr(E)=1, i passi sono 1)Pr(E|C) = 1- 2) Pr(-E|-C) = 1- ergo 3)Pr(-C|E) = 4)Pr(C|E)= 1- 5)Pr (C) = 1 - Come si può vedere il ragionamento poggia sulla illegittima transizione dalla verosimiglianza Pr(E|C) alla credibilità Pr(C|E) (passo 4, equivalente al passo 3). Nelle discussioni in ordine al caso Dreyfus ci si imbattè in una fallacia di questo tipo. L’accusa sostenne che un certo documento trovato dal controspionaggio francese in un cestino della carta straccia dell’ambasciata tedesca, e scritto dallo stesso Dreyfus per sua ammissione, contenesse dei messaggi in codice. Questo perché in quel documento le lettere dell’alfabeto comparivano, apparentemente, con una frequenza diversa da quella con cui comparirebbero nella prosa francese “normale”. Nel processo del 1894 il celebre scienziato forense Alphonse Bertillon cercò di calcolare la probabilità che quella particolare combinazione di lettere si fosse prodotta per caso, vale a dire supponendo che Dreyfus fosse innocente e non avesse scritto alcun messaggio cifrato. Poichè nei calcoli di Bertillon tale probabilità (verosimiglianza)Pr(E|-C), risultò estremamente bassa, si concluse che era anche estremamente bassa la probabilità che Dreyfus fosse innocente, cioè il valore di credibilità o probabilità a posteriori Pr(-C|E). Nel secondo processo di appello, nel 1904, una memoria scritta da tre“saggi”, fra i quali Henri Poincaré, faceva giustizia di questa fallacia (e dei calcoli di Bertillon), ed affermava il corretto rapporto delle verosimiglianze per la valutazione della prova. LEZIONE 4 Bayesiani e antibayesiani Abbiamo visto che si può essere bayesiani oggettivisti e soggettivisti. In comune tutti i bayesiani hanno la convizione che il teorema di Bayes sia l’unico strumento per la resa delle inferenze ampliative, che certo costituiscono un problema per chi considera l’inferenza logico-matematica il paradigma di ogni tipo di ragionamento. Ma nell’ambito dell’epistemologia si sono anche levate voci di dissenso. Ricorderemo solo Jonathan Cohen e Clark Glymour (altri nomi: Tverski, Kahnemann). Glymour in “Why I am not a Bayesian” sottolinea il divario tra l’effettiva pratica scientifica e l’idealizzazione del ragionamento offerta dai bayesiani. Diverso il caso della logica deduttiva, pur essendo questa pure basata su un’idealizzazione. Pochi scienziati in effetti nella storia della scienza hanno fatto ricorso a ragionamenti probabilistici e, quando sono ricorsi a questi, comunque, lo hanno fatto partendo da assegnazioni di probabilità che non erano arbitrarie. In effetti, dato che le assegnazioni a priori per i bayesiani soggettivisti sono arbitrarie, i soggettivisti devono essere pronti a giustificare i valori probabilistici di ogni conclusione tratta con metodi bayesiani. La risposta soggettivista alla difficoltà, come già sappiamo, è che i teoremi di convergenza,e in particolare il teorema di De Finetti, assicuraziono l’intersoggettività, per cui ciò che importa è la reiterazione della procedura di revisione delle credenze. Altre difficoltà comunque sono più nettamente tecniche. (1) Supponiamo di considerare un dato dì evidenza già noto e assolutamente certo, quindi tale che Pr(E)=1. Se Pr(E)=1, Pr(E|H)= Pr(E), ne segue, per il teorema di Bayes, Pr(H|E) = Pr (H )● Pr (E|H)/ Pr (E) = Pr (H). Quindi nel caso in cui si conosca con certezza l’evidenza E prima dell’ipotesi l’evidenza E non conferma nulla. Questo è strano perché la “vecchia evidenza” è sempre servita a confermare nuove teorie. Si pensi alla precessione del perielio di Mercurio, che era già nota prima della relatività e che fu usata per confermare la teoria della relatività. Una risposta possibile è che la probabilità 1 si assegna solo alle verità logiche e la probabilità 0 alle contraddizioni logiche. Se vedo una gallina blu rivedo le mie credenze circa il mio stato fisico e magari scopro di essere sotto l’azione di una droga, quindi non tratto questo dato come una contraddizione logica. Ma purtroppo il problema si ripropone con il valore della certezza pratica 1-, o con valori molto approssimati a 1. 2) Semplicità. Gli scienziati hanno sempre la propensione a scegliere le ipotesi più semplici rispetto alle altre. Le ipotesi più semplici sono intuitivamente più informative delle ipotesi meno semplici. Nessuna applicazione del teorema di Bayes rende conto di questa ragionevole preferenza per l’informatività delle ipotesi. Si può pensare che il ragionamento in ambito giudiziario possa trascurare le difficoltà in questione, che sono state evidenziate in ambito epistemologico. Ma così non è, come è stato convincentemente provato da Jonathan Cohen. La critica di Cohen al bayesianesimo è piu` radicale di quella di altri, in quanto investe gli stessi assiomi di Kolmogorov e l’utilità del loro impiego in ambito giudiziario. Cohen chiama "pascaliana" la trattazione classica della probabilità`, a cui contrappone una sua diversa concezione, che chiama "neobaconiana". Secondo Cohen le leggi del calcolo pascaliano applicate al diritto sono una fonte di preoccupanti paradossi. Basti pensare a questi tre esempi: 1) Dato che il valore massimo di probabilità è 1, come sappiamo, Pr(-A)= 1 - Pr (A). Ma ci sono casi in cui tanto A che -A ci paiono ambedue scarsamente credibili prima dell’acquisizione di nuova informazione. In tali casi, se la probabilità è il grado di credibilità allora la probabilità di A e quella di -A sono ambedue più basse di 0.5. (Un esempio è il famoso delitto della penna a sfera). Si noti, tra l’altro, che se il principio-guida nei processi civili è quello della preponderanza della probabilità, l’applicazione rigida di questa combinazione di principi porta a risultati che paiono contrari alle intuizioni etiche. Se la probabilità che Tizio sia un evasore fiscale in una città in cui la percentuale di evasori è del 51%, quella che sia un onesto contribuente è del 49%. In base al principio della preponderanza quindi dovrebbe essere condannato, ma c’è un’alta probabilità che la condanna sia ingiusta. Questo è un paradosso noto a volte come paradosso “dello spettatore abusivo”. Un organizzatore di rodei ha venduto 499 biglietti, ma sugli spalti ci sono 1000 spettatori. Quindi 501 sono entrati abusivamente. In base al principio della maggiore probabilità si potrebbe intentare causa contro uno spettatore qualsiasi in base al fatto che la probabilità che sia un abusivo è superiore a quello che non lo sia. 2) La probabilitàdi A B è normalmente piu` bassa di quella di A e quella di B, per il principio delle probabilità composte. Ma se due periti indipendentemente danno un giudizio convergente - per esempio sulla natura di una certa sostanza chimica - la probabilità che ambedue dicano la verità e superiore a quella che ciascuno singolarmente dica la verita`, dato che la loro convergenza rafforza, anzichè diminuire, tale probabilita`. Lo stesso grave problema riguarda le testimonianze Supponiamo che ogni teste abbia la scelta tra due asserti, S e -S. Se Pr(As) è 0.3, Pr(-As) è 0.7. Se due testimoni indipendenti poco credibili convergono su S, la probabilita`che ambedue dicano il vero si abbassa per il teorema delle probabilità composte (es. 0.3 ● 0.4=0.12) mentre dovrebbe intuitivamente aumentare. Mettere in dubbio il principio delle probabilità composte è esiziale per il bayesianesimo, dato che il teorema di Bayes è derivato immediatamente da tale principio. (3) Le testimonianze di secondo grado - cioè le testimonianze su testimonianzesono intuitivamente più deboli di quelle dirette ai fini dell’ accertamento dei fatti. Ma questo non è rappresentabile entro la probabilità pascaliana. In effetti non esiste una logica per trattare le probabilità di ordine superiore. (Questo fatto, incidentalmente, non è registrato da Cohen). Tutto ciò che si può dire è che “se a dice la verità, b è un testimone credibile”,”Se b è credibile, allora l’imputato ha commesso il fatto “ implicano per transitività (iii) se a dice il vero, l’imputato ha commesso il fatto . Ma per la logica deduttiva (iii) dovrebbe avere lo stesso grado di certezza di (i) e (ii), mentre intuitivamente è più debole perché basato su due livelli di testimonianze. La giurisprudenza esige che ogni passo della catena sia vero oltre ogni ragionevole dubbio, ma da un punto di vista matematico ciò non implica che si debba accettare ogni verità ottenuta per inferenza. La transitività in effetti vale se si intende che =0 in una ricostruzione probabilistica. Cohen inoltre osserva che alcuni giudizi probabilistici sono controfattuali, altri no. Volendo identificare le probabilità con le frequenze, un conto infatti sono le frequenze in una classe chiusa (p.es. gli attuali ospiti dell’Hotel Excelsior, di cui possiamo dire il 30% sono italiani, per cui la probabilità che uno degli ospiti sia italiano è del 30%), altre le frequenze virtuali in una classe aperta. Anche trattandole come limiti di frequenze, è difficile dire quali dovrebbero essere questi limiti quando le proprietà da esaminare dipendono da condizionali controfattuali: p.es. la probabilità di Tizio di morire in un incidente se fosse un paracadutista. Cohen insiste baconianamente sul fatto che la varietà del campione è tanto importante come la numerosità dello stesso. Questo è un requisito che i freqeuntisti tendono a sottovalutare. Un campione variato è un campione che si presume non sia sbilanciato (tarato o biased) a favore di qualche ipotesi. Keynes ha seguito Bacone introducendo il principio della “varietà limitata indipendente”. Ciò presuppone - detto in maniera semplificata - che c’è un numero finito e fisso di generi o specie naturali a cui i predicati appartengono e all’interno dei quali hanno delle connessioni stabili. Un caso nuovo osservato non ha nessun valore a meno che non mostri una combinazione di caratteristiche nuove (variate) rispetto ad altri osservati. (Tale sarebbe per esempio un orso bianco rispetto a un campione di orsi bruni). La persistenza di questi gruppi di caratteristiche dipende dall’ Uniformità della Natura: si tratta dell’idea che la collocazione spazio-temporale dei fenomeni non ha nessuna rilevanza per le altre proprietà stabili dei fenomeni stessi (altrimenti detto, le proprietà stabili riscontrate nei fenomeni sono spazio-temporalmente invarianti). Cohen ha avuto il merito di evidenziare che le intuizioni psicologiche circa le probabilità non concordano con le procedure matematiche. Questa divergenza vale anche per il teorema di Bayes.Abbiamo già visto che per applicare il teorema di Bayes occorre fornire un input costituito dalle probabilità a priori,e qui nei tribunali sorgono dei problemi. Il bayesiano soggettivista avrà buon gioco a dire che ciascuno puo` assegnare il valore che gli pare. Ma il problema è che nei tribunali la giuria deve raggiungere , se non l`unanimita`, almeno un ragionevole consenso. L`oggettivista insisterà sul fatto che 1) ci vogliono delle convenzioni per fissare le probabilità a priori (per esempio 1/2 in caso di incertezza) e 2) altri valori che entrano nella formula di Bayes dovrebbero essere derivate da fonti inoppugnabili (statistiche mediche). Anche in questo caso però sorgono dei problemi. Il modo intuitivo in cui il teorema viene applicato dagli utenti in effetti non è quello auspicato dai bayesiani. Torniamo alla regola di Bayes nella forma più articolata: Pr (H|E K) Pr H Pr(E K |H) ------------------- = ----------- • ---------------------Pr(-H | E K) Pr -H Pr(E K |-H) che connette la probabilità a posteriori (credibilità) con il rapporto a priori e il valore probatorio. Come è chiaro, esso descrive la valutazione a priori della probabilità che l’ipotesi sia vera rapportata a quella che sia falsa. La probabilità a posteriori di H rispetto a una certa evidenza quindi equivale al prodotto del rapporto a priori di H e del valore probatorio dell’evidenza. Ora anche se V (il valore probatorio) è alto, se il rapporto a priori è basso, la probabilità Pr(H|E) resta bassa. Orbene, nella “versione psicologica” della regola di Bayes, il rapporto a priori praticamente viene ignorato. Un esempio è il seguente (cito da un articolo di P.Cherubini) In una città ci sono due compagnie di taxi, i blu e i verdi. L’85% dei taxi circolanti sono blu, il 15% verdi. Una notte un taxi è coinvolto in un incidente, e fugge. Un testimone asserisce che si trattava di un taxi verde. Una prova di acuità visiva dimostra che con quella luminosità e a quella distanza, il testimone è in grado di riconoscere correttamente quei toni di blu e verde nell’80% dei casi. Qual è la probabilità che il taxi visto dal testimone fosse effettivamente verde? La risposta corretta è 41%. Infatti applicando la formula di Bayes due volte abbiamo,se O è la ragione di scommessa: O(taxi verde | testimonianza) = Pr( taxi verde|testimonianza / taxi blu|testimonianza) = 0,15/0,85 • 0,8/0,2 = 0,71 quindi per la relazione già stabilita per cui Pr(Q) = O (Q)/ O (Q) + 1, si ha che Pr(taxi verde | testimonianza) = 0,71/1,71 = 0,41 La probabilità che il taxi fosse effettivamente verde quindi è piuttosto bassa. Ma molte persone rispondono “80%”: usano la forza dell’evidenza testimoniale, ma non la modificano in base alla probabilità che il taxi fosse verde a priori (15%). Altre aggiustano un poco la loro stima: i taxi verdi sono rari, e a questi soggetti sembra allora ragionevole concludere che la probabilità che il taxi fosse verde è un po’ più bassa rispetto all’acuità visiva del teste (con risposte tra il 60% e l’80%). Quindi la maggior parte ritiene che sia più probabile che il taxi sia verde, mentre secondo una corretta applicazione del teorema è più probabile che sia blu. La tendenza a ignorare le probabilità a priori è stata molto discussa in giurisprudenza, tanto da meritarsi un nome specifico: “fallacia dell’accusatore” (Thompson e Schumann, 1987). È stata però discussa quasi esclusivamente in relazione al test del DNA. La maggior parte dei testi di statistica Bayesiana applicata al diritto dedica ampio spazio a questo test. Quando fu introdotto, alcuni esperti asserirono che il test del DNA non poteva generare falsi positivi, ma ormai da più di vent’anni è noto che non solo li può produrre, ma li ha prodotti (Thompson, 1997), tanto che il risultato del test deve essere accompagnato in aula dalla stima della “probabilità di corrispondenza nella popolazione” (la probabilità che a priori una persona presa a caso nella popolazione di riferimento abbia un profilo DNA che coincide con quello del test). Il test può essere usato in due modi diversi, a seconda che ci sia già un sospettato oppure no. (1) quando già esiste un sospettato, si può confrontare il profilo DNA del campione trovato sulla scena del crimine con quello del sospettato. Un’eventuale corrispondenza aumenta di molto le probabilità di colpevolezza del sospettato, perché il valore probatorio del test del DNA, pur variando da situazione a situazione e in base al tipo di profilo DNA usato, è spesso molto alto, e la probabilità a priori di colpevolezza non è irrisoria (assumendo che gli indizi che hanno reso “sospetto” il sospettato siano fondati). Ad esempio, data una “probabilità di corrispondenza nella popolazione”, cioè Pr(corrispondenza | non colpevole), pari a 1 su 1.000.000 se si assume, a titolo d’esempio, Pr(corrispondenza | colpevole) = 1, il valore probatorio del test (rapporto di Bayes) ha valore 1.000.000. Se un indagato ha probabilità di colpevolezza a priori di 0.001 (1 su 1000), la corrispondenza del profilo incrementa la sua probabilità di colpevolezza fino a circa 0,999. (2) Il secondo modo di usare il test consiste nel confrontare il profilo DNA del campione con una banca dati. In questo caso, una corrispondenza del profilo DNA rende “sospetta” una persona che prima non era stata messa in relazione con il crimine. Questo secondo modo di usare il test suscita vari problemi filosofici e statistici. Infatti, a causa della fallacia delle probabilità a priori, giudici, giurati e accusatori, informati da un perito sulla scarsissima probabilità di corrispondenza nella popolazione, tendono ad usare questo valore senza aggiustarlo in base alla probabilità a priori della colpevolezza.. Per esempio, se la probabilità di corrispondenza nella popolazione per un dato profilo è 1 su 1.000.000, e Tizio corrisponde a quel profilo, ritengono che la probabilità che Tizio sia colpevole sia di circa 1 su 1.000.000. Ciò è errato. Infatti, quando il sospetto è identificato esclusivamente in base ad una ricerca in un database di profili DNA, le sue chances di colpevolezza a priori sono irrisorie. Ad esempio, in un territorio con 10.000.000 di abitanti fisicamente in grado di perpetrare un certo crimine, la probabilità di colpevolezza a priori di ciascuno di loro, incluso il cittadino che corrisponde al profilo, è 1 su 10.000.000. In queste circostanze, la probabilità a posteriori di colpevolezza, lungi dall’essere la “quasi certezza”, è inferiore al 10%. Fortunatamente molti approfonditi trattati di statistica forense hanno affrontato questo problema, diffondendo una certa consapevolezza sulla fallibilità del teste sulle insidie nascoste in una sua lettura semplicistica, ma alcuni giustamente chiedono che, oltre alla probabilità di corrispondenza nella popolazione, l’esito del test sia sempre accompagnato in aula da una stima del rapporto di probabilità a priori (ad es., Meester e Sjerps, 2004). Nei paesi di lingua inglese si è discusso dettagliatamente sull'utilità del teorema di Bayes applicato in certi problemi di identificazione. Un tale, accusato di omicidio, era gia`a noto per vessazioni e violenze nei contronti della vittima. C’erano sue impronte sull`arma del delitto. L`impronta era incompleta, ma l`esperto assicurò che solo una persona su 1000 aveva quel tipo di impronta. Ora valutiamo 0 la probabilità a priori di trovare un’impronta del genere di qualche x , se xè innocente. Si assume inoltre che tutti coloro che usano il coltello lasciano un’impronta. I precedenti penali del sospettato elevano la probabilità di colpevolezza di un valore pari a 0.25. Se la probabilità iniziale di colpevolezza, per la convenzione suggerita dall’indifferenza, era stata valutata 0.5, il nuovo valore è completamente diverso: 0.999. Ma i dubbi sono in agguato. Si sa di un poliziotto che aveva piazzato le impronte di un innocente sullo sportello di una banca, quindi non è vero che la probabilità che un innocente lasci un impronta è pari a 0. Il Prof. L.H.Tribe nel corso delle discussioni su questo tema si disse contrario all`idea di insegnare il teorema di Bayes ai giurati, perché diceva che il concentrarsi sul raggiungimento delle soglie di certezza “oltre ogni ragionevole dubbio” faceva perdere di vista tutti gli elementi imponderabili che invece erano rilevanti. Inoltre Tribe richiamava l`attenzione sul fatto, più volte sottolineato in precedenza, che la difficoltà di pervenire ad una stima adeguata delle probabilità iniziali rende spesso inapplicabile il teorema di Bayes. LEZIONE 5 –Alternative al bayesianesimo giudiziario Il bayesianesimo è diventato l’ortodossia nella letteratura giudiziaria, ma non ha lasciato un segno tangibile nella pratica. Il successo di questo orientamento è dovuto all’affermarsi della convinzione che la conoscenza vada di pari passo con la possibilità di misurare quantitativamente i fenomeni, e che le credenze siano assoggettabili a misure quantitative. Una prima difficoltà, come abbiamo visto, è che la gente non tende a ragionare nel modo richiesto dal teorema. Questo naturalmente non significa che lo schema bayesiano è errato ma che, evidentemente, il ragionamento intuitivo tende ad essere fallace. Se è così però bisogna pensare a rieducarlo, il che non è facile. Dobbiamo sottoporre le giurie a corsi accelerati di calcolo delle probabilità con esercizi? Il teorema di Bayes in effetti offre un modello ideale di ragionamento, così come la logica deduttiva formalizzata, e quindi propone solo un modello normativo. Il problema dell’input per l’applicazione del calcolo, cioè delle assegnazioni a priori, è quello indicato concordemente come la difficoltà maggiore. Abbiamo già visto che , in caso di in certezza, nonostante la presunzione di innocenza, si potrebbe porre il valore della colpevolezza pari a ½. Ma si potrebbe anche risolvere il problema con una convenzione come quella proposta dal celebre antropologo-fiolosofo David Lempert. Lempert suggerisce che in tutti i casi, civili e penali, la probabilità iniziale dell’ipotesi di colpevolezza H sia stabilita da un quoziente 1/n , dove n è il numero di possibili colpevoli nel mondo per quel reato. P.es. supponiamo che il numero di possibili colpevoli al mondo per un certo specifico reato sia 1000. Allora la probabilità iniziale (a priori) di colpevolezza non è 0.5 ma 1/1000 (1: 999). Le informazioni successive restringono il numero dei possibili attori. Ecco dunque come può funzionare una macchina bayesiana. Prima abbiamo il valore probatorio V dell’evidenza E che, come si ricorderà, è dato da Pr E|H / Pr E| -H Poi alla luce di successivi elementi di informazione F,H, ecc. avremo Pr (E F)|H / Pr (E F)| -H Pr (E F G)|H / Pr (E F G) | -H ....... Il valore probatorio dell’evidenza quindi si modifica con l’aumento dell’informazione, e consequenzialmente si modifica, applicando il teorema di Bayes, la probabilità a posteriori di H data l’evidenza. Per esempio, se sappiamo che il colpevole aveva una macchina rossa, il numero dei possibili colpevoli si restringe da 1000 proporzionalmente, e il valore di Pr H condizionato alla nuova evidenza varia di conseguenza. Questo è ragionevole, ma è applicabile solo se H è un’ipotesi di colpevolezza i cui colpevoli costituiscono un dominio misurabile. Se,per esempio, H è l’ipotesi che un certo delitto sia stato compiuto da un animale, questa probabilità a priori non può essere calcolata perché non sappiamo quanti animali avrebbero potuto compierlo. In caso di ignoranza, potremmo fissare questo valore come uguale allo stesso valore che si dà nel caso degli uomini. Ma questo ci porta già a una difficoltà perché noi sappiamo anche che i delitti compiuto da animali sono molto più infrequenti di quelli compiuti da uomini. Ma di fatto il ragionamento probatorio presenta aspetti che non sono facilmente inquadrabili nello schema bayesiano. Abbiamo già accennato alle difficoltà delle testimonianze su testimonianze. Un testimone t dice che il testimone t’ ha detto E. Se la probabilità diretta di E è x, la probabilità di E alla luce della testimonianza di secondo grado è x-, cioè è più bassa di x.. Ma il teorema di Bayes non offre risorse per rappresentare q uesto passaggio. Il problema da discutere è il seguente.: ci sono alternative praticabili al bayesianesimo? Nel campo giudiziario si possono citano le proposte di tre studiosi, Cohen, Shackle e Shafer, che si presentano interessanti perchè hanno parecchi punti in comune. Sulla base delle critiche già avanzate Cohen ha elaborato una logica del sostegno induttivo in cui non valgono i principi della probabilità pascaliana . Non è stato l’unico ad abbandonare questa logica. La logica della sorpresa potenziale di Shackle, per esempio, adotta una regola non moltiplicativa per la congiunzione che è isomorfa a quella adottata da Cohen, ed è condivisa anche dalla logica dell’accettabilità di Isaac Levi ( si rifletta al proposito sul “paradosso della lotteria esposto a p.000). L`alternativa neobaconiana di Cohen non puo` essere illustrata qui nei dettagli. Basti dire che per Bacone l`inferenza ampliativa non fa leva sull’ induzione per enumerazione semplice (che Bacone trova puerile) ma sulla ricerca di campioni variati. Dato che per lui esiste solo un numero finito di forme (generi) un controesempio è molto piu` utile alla ricerca che non l’accumulazione di molteplici esempi a favore: la cosiddetta induzione eliminatoria consiste nel rafforzare un’ ipotesi eliminando tutte le ipotesi alternative. E’ sufficiente ricordare che la presunta legge di natura per cui tutti i cigni sono bianchi venne rimossa quando si scoprì che in Australia esisteva una tribù di cigni neri. Questo aspetto del suo pensiero metodologico fa di Bacone un Popperiano ante litteram. Le generalizzazioni hanno dei gradi di certezza diversi, a seconda della solidità del ragionamento con cui vengono raggiunte. Mill riprese questa idea con i c.d. “metodi induttivi”, che non sono metodi per la scoperta delle cause, ma metodi per provare l’esistenza di relazioni causali. Come Bacone, Mill insisteva sull’importanza della varietà degli esperimenti, mentre altri filosofi precarnapiani come B. Bolzano insistevano sulla numerosità degli stessi. Mill comunque ammetteva che nell’applicazione dei canoni induttivi si dava sempre un certo margine di incertezza, che egli però proponeva di calcolare come probabilità pascaliana. Cohen sostiene che c’è una nozione di forza probatoria -il concetto di “peso” di Keynes - che va aggiunto come correttivo all’apparato pascaliano . Il requisito carnapiano dell’evidenza totale, il requisito della specificità massimale di Hempel a suo giudizio sono sacrosanti in linea di principio, ma di fatto inapplicabili. L’idea di Keynes è che bisogna tener conto non solo della differenza tra conferme positive e negative per un’ ipotesi H (e questa dà la misura della probabilità), ma anche del volume complessivo dell’evidenza, che è il peso. Per fare un esempio, l’aver estratto 20 biglie rosse e 80 verdi, quindi in totale 100 biglie, consente di dire che la probabilità di estrarre una biglia rossa è di ¼. La stessa conclusione si deriva estraendo 200 biglie rosse e 800 verdi, ma il peso complessivo di questa somma di evidenze favorevoli e conrarie è ovviamente superiore. Secondo Keynes il “peso” non è quantificabile, anche se può darsi un ordinamento comparativo di pesi. Peso e probabilità quindi sono concetti relativamente indipendenti. Secondo Cohen uno dei limiti dell’approccio bayesiano è proprio la mancata attenzione alla esaustività delle conferme. Applicando il teorema di Bayes si può arrivare ad un valore molto alto, o molto basso, di probabilità anche dopo aver considerato solo una o poche conferme: ma l’aver considerato poche conferme implica che molte altre ne possono esistere, magari al momento irreperibili, in grado di ribaltare il giudizio. Se allo stesso giudizio invece si arriva dopo aver esaminato molte e variate conferme (per quanto non sia mai possibile ritenere che l’analisi sia esaustiva), il giudizio è meno esposto al rischio di variabilità, e quindi più solido. Per sviluppare la sua analisi Cohen deve però rinunciare al concetto classico, da lui detto “pascaliano” di probabilità, ed introdurre il concetto di probabilità “baconiana”. Il metodo baconiano è basato, come già detto, sull’ induzione eliminatoria: un asserto è considerato tanto più probabile quante più ipotesi alternative ad esso sono state considerate e poi eliminate per falisificazione. Come vedremo, questo è il tipico schema di procedimento abduttivo. Se non abbiamo considerato e falsificato nessuna ipotesi alternativa, la probabilità baconiana è minima (0): ciò implica, per esempio, che per la presunzione di innocenza la probabilità di colpevolezza è posta uguale a 0. Ma a differenza che nel sistema pascaliano, tale probabilità può crescere con l’accumularsi delle conferme, cioè eliminando le ipotesi alternative. In tal modo, tenendo conto dell’ammontare di evidenza favorevole, Cohen intende avvicinarsi alla nozione keynesiana di “peso”. Il concetto chiave in questa operazione è quello di legisimilitudine, con ciò intendendo l’approssimazione allo status di necessità che è proprio delle leggi. Secondo Cohen il peso keynesiano di Pr(H|E), se Pr(H|E)=n, dovrebbe risultare uguale alla legisimilitudine baconiana di E –> (Pr(H)=n), dove la freccia sta per la relazione implicativa. Glenn Shafer (A Mathematical Theory of Evidence, 1976) si pone pure sulla linea antipascaliana chiedendo la rinuncia al principio delle probabilità totali, da cui segue, come sappiamo, che Pr(-A)= 1-Pr(A). Il suo sistema cerca di catturare la “sospensione del giudizio”. Se abbiamo pochi elementi per ritenere vera l’ipotesi H, possiamo attribuire ad H una probabilità bassa, adesempio 0.1: ma nel sistema di Shafer questo non significa attribuire probabilità 0.9 a -H. Anche a -H possiamo attribuire probabilità bassa, ad esempio sempre 0,1, in quanto possiamo avere tanto pochi elementi per ritenere che -H sia vera quanto pochi ne avevamo per ritenere che H fosse vera. La restante probabilità, 0,8 nel nostro esempio, quantifica la propensione a non impegnarsi né su H né su -H, permanendo nel dubbio sulla stessa disgiunzione “H o non H”. La legge del terzo escluso sembra quindi messa in discussione in chiave probabilistica. Di fatto, tuttavia, la situazione che si presenta è spesso un’altra. Se H è un’alternativa con bassa probabilità, ciò che risulta con bassa probabilità di solito non è la negazione di H. cioè non-H, ma un’altra alternativa H’ che appare , allo stato dei fatti, l’unica alternativa ad H. E’ questo quanto accadde nel famoso delitto della penna a sfera, in cui le uniche due alternative ragionevoli sembravano avere bassa probabilità a priori. Ma non esaurivano la campo logico delle alternative possibili. C’era quindi un terzo evento sconosciuto B tale che Pr(H U H’ U B)=1. Le informazioni acquisite in seguito poi furono tali da falsificare H e avvalorare H’, abbassando significativamente il valore del terzo incognito B. Dal punto di vista tecnico la costruzione neobaconiana di Cohen si può considerare derivata da una teoria molto originale introdotta dell’economista R.S. Shackle. Shackle chiama la sua metrica sistema di misura dei “gradi di sorpresa potenziale” o “gradi di disbelief” (cioè di sfiducia”) . Dice Shackle: il grado di sorpresa potenziale “is the degree of surprise to which we expose ourselves, when we examine an imagined happening as to its possibility, in general or in the prevailing circumstances, and assess the obstacles, tensions and difficulties which arise in our minds when we try to imagine it occurring, that provides the indicator of degree of possibility. This is the surprise we should feel, if the given thing did happen; it is potential surprise”. (Shackle, 1961, p. 68) Per capire la differenza tra questa nozione e quella di grado di credenza o grado di probabilità, basta notare che, se B è il grado di sorpresa, tale grado non si distribuisce su una congiunzione di ipotesi. Il grado di sfiducia (sorpresa), per esempio, nel fatto che domani piova e che domani un cinese passeggi sulla luna, intuitivamente è pari o superiore al grado di sfiducia (sorpresa) che un cinese domani cammini sulla luna, e questo chiaramente è il grado di sfiducia (sorpresa) maggiore tra i gradi di sorpresa associati alle due ipotesi. Se il grado di sopresa fosse identico al grado di probabilità, il principio delle probabilità composte ci obbligherebbe a dire che il grado di sopresa delle congiunzione è uguale o minore al grado di sorpresa dei singoli asserti. Shafer ha avuto il merito di operare la formalizzazione delle idee esposte informalmente da Shackle , che poi ha applicato anche a sistemi esperti. La logica di Shafer viene chiamata “teoria della possibilità”(v.Appendice a questo capitolo) C’è un aspetto interessante della concezione di Shackle – Shaker, non analizzato da Cohen . Secondo Shackle credere in h ad un certo grado significa avere sfiducia in ¬h allo stesso grado. Sia dK il grado di sorpresa potenziale di h rispetto a K. Allora intuitivamente dK indica il grado di sfiducia, di non credenza, di informatività di h. La credenza, rappresentata dall’operatore di credenza (belief) b è il complemento di d (disbelief) bK(h) = dK (¬h) Il grado di sorpresa quindi è un’ interessante misura dell’informatività di un enunciato. Va detto che Popper ha svolto, con obiettivi radicati nella sua teoria, un programma che ha certe analogie con quello di Shackle-Cohen. Come si sa, secondo Popper le teorie interessanti sono quelle falsificabili. Il numero di falsificatori potenziali di h è per lui il contenuto informativo dell’ipotesi stessa h. La probabilità e il contenuto informativo sono grandezze inversamente proporzionali: nella proposta più semplice cont(h) = 1- Pr(h). Le tautologie sono prive di contenuto informativo, mentre le contraddizione sono massimamente informative, dato che implicano tutto. Se c’è un numero di ipotesi esaustive e digiunte h1…hn, il metodo popperiano ci impone di scegliere la più informativa h e tentare di falsificarla. Popper ha proposto delle misure di corroborazione, che è il grado di resistenza dell’ipotesi alla falsificazione. Più alta è la corroborazione, più l’ipotesi merita altri test. Altri autori come Levi e Hintikka invece chiedono la massimizzazione dell’utilità epistemica, che dipende dal prodotto della probabilità per il contenuto informativo. La grandezza così definita ha proprietà intermedie tra quelle della probabilità e dell’improbabilità e la logica di questa nozione presenta forti affinità con quella di Shackle . APPENDICE . Per semplicità si assuma che l’universo del discorso W sia un insieme finito e che tutti i suoi sottoinsiemi siano misurabili. Un evento si può trattare come un insieme –cioè l’insieme dei punti dello spazio-tempo in cui si verifica. Una distribuzione di possibilità è una funzione pos da W all’intervallo reale [0, 1] tale che: Axiom 1: pos( )=0 Axiom 2: pos (W=)=1 Axiom 3: pos(U ) = max(pos(U),pos()) per sottoinsiemi disgiunti U e V. Si noti la differenza tra l’assioma 3 e il principio delle probabilità totali nella teoria della probabilità. Supponiamo che U sia l’evento “estrazione di una donna”e V “estrazione di un re di picche”. I due eventi sono disgiunti, la probabilità di U è 1/13 , quella di V è 1/52, quindi la probabilità di uno o l’altro dei due è 5/52. Ma per la teoria di della possibilità, il grado di possibilità è fissato a 1/13, cioè dal grado di possibilità più alto tra i due eventi. La possibilità si dice dunque composizionale rispetto all’operatore di unione insiemistica. Ma non è tale rispetto all’operatore di intersezione. In generale, infatti, pos(U V ) < min(pos(U), pos(V)) Come nella cosiddetta logica modale, la necessità è il duale della possibilità. Esempio: “È necessario che 2+2+=4 sia vero” è lo stesso di ”È impossibile che 2+2 =4 sia falso”. Rappresentiamo in simboli il grado di necessità così: nec(U) = 1 –pos(-U) > 1 Contrariamente alla teoria della probabilità, per ogni evento U , abbiamo la diseguagliaza: pos(U) + pos(-U) > 1 Vale inoltre la seguente disgiunzione Per qualsiasi evento U, o pos(U)=1 , o nec(U) =0 Ci sono 4 casi: nec(U) =1 significa che U è necessaria, cioè certamente vera. Essa implica pos(U)=1 pos(U)=0 significa che U is impossibile, cioè certamente falsa. Ciò implica nec(U) =0 . pos(U)=1 significa che U è possibile, cioè che non sarei affatto sorpreso dell’occorrenza di U . nec(U) viene lasciato impregiudicato nec(U) =0 significa che U è non-necessario (contingente) cioè che non sarei affatto sorpreso del mancato verificarsi di U . pos(U) viene lasciato impregiudicato. La congiunzione di nec(U) =0 e . pos(U)=1 significa che U è possibile, cioè che non sarei affatto sorpreso dell’occorrenza corrisponde alla contingenza in senso proprio, col significato che io non credo niente circa U. Stante che consente l’indeterminatezza in questo modo, la teoria della possibilità è più vicina alla logica polivalente o alla logica intuizionista piuttosto che alla logica classica bivalente. Si può dimostrare in questo sistema: per ogni U, nec(U) < pos(U) e anche : nec(U V) = min (nec(U), nec(V) Recentemente il successo teoretico e applicativo della cosiddetta fuzzy logic suggerisce di ricercare in quest’area strumenti utili al ragionamento probatorio. Per cominciare è bene sottolineare, comunque, le differenze con la teoria della possibilità. Teoria della possibilità: La bottiglia è tutta piena o tutta vuota. “La possibilità che la bottiglia sia piena è 0.5” descrive un grado di credenza e si fa interpretare così: sono pronto a scommettere che è vuota nella misura in cui le ragioni di scommessa pro e contro (odds) sono uguali (scommetto 1 contro 1), ma non scommetterei mai che è piena. Fuzzy logic: Dire che “la bottiglia è piena” ha un livello di verità 0.5 indica che la bottiglia è, come dato reale, mezza piena!! La parola “piena” è un predicato sfumato con cui si descrive la quantità di liquido nella bottiglia. La fuzzy logic si appoggia su una fuzzy set theory , cioè su una teoria degli insiemi sfumati, il che fa pensare che da queste premesse si ottenga solo un fuzzy reasoning, quindi una classe di argomenti che non possiede canoni di validità precisi. Questo sembra molto lontano di quanto ci si attende nelle corti di giustizia. Si noti che della teoria della possibilità si può dare una trascrizione proposizionale in questo modo: ◊i(p q) invece di Pos (P Q) =i ◊i(p v q) invece di Pos (P Q) =i □i ( p q) invece di Nec(P Q) =i □i(p v q) invece di Nec (P Q) =i Questa notazione è usata da Cohen in “The probable and the Provable” e in altri saggi. I gradi di necessità vanno letti nella sua teoria in questo modo: ◊ip si legge “p ha almeno un grado i-esimo di legisimilitudine”. In questa logica ◊i p e ◊jq implica «i(p q) quando i < j : questo è un principio non-pascaliano, e risolve secondo Cohen le difficoltà della trattazione pascaliana della congiunzione, cioè del problema delle probabilità composte, a cui abbiamo accennato a suo tempo. LEZIONE 6. Fallacie statistiche. Le considerazioni sviluppate nei paragrafi precedenti non devono indurre a minimizzare l’importanza del ragionamento probabilistico nelle procedure giudiziare. Negli ultimi anni, infatti, proprio nei tribunali, c’è stato un uso crescente delle prove statistiche. Tests come quelli del DNA, per tacere di quelli già noti delle impronte digitali, dell’ identificazione di appartenenza di tessuti organici ecc. sono soggetti ad argomentazioni di tipo statistico. I bayesiani dicono che siamo sempre in grado di calcolare la probabilità della conclusione. Ma quando si esemplifica l’applicazione del teorema di Bayes per calcolare la probabilità di un’ipotesi H rispetto a un’evidenza E , di solito si tende a pensare ad H come un enunciato di tipo fattuale (p.es. “l’imputato ha commesso il fatto”) oppure a un enunciato quantificato in forma universale o esistenziale (“tutti gli elementi della banda hanno commesso il fatto”,o “qualche elemento della banda ha commesso il fatto”). Ma che dire quando H è un enunciato di forma statistica (“il 70% dei cigni sono bianchi”) o descrive una relazione causale (“i vapori nocivi hanno causato il decesso del Sig. Rossi”) ? In tal caso il teorema di Bayes dovrebbe consentire di calcolare Pr(H) , dove H però è a sua volta un enunciato statistico o (nel caso causale) è un asserto che è in qualche modo dipende da leggi di forma statistica. In primo luogo sembra che nessun campo offre una maggiore possibilità di errore, e quindi di manipolazione, di quello statistico. Basta dare una scorsa a due libri apparsi in epiche diverse ma con titoli analoghi : “Mentire con le statistiche” di Darrell Huff e „Wie man lügt mit Statistik“. [Come si mente con la statistica] di Walter Krämer: Piper. München-Zürich: 2000. pp.1-206. I due libri sembrano ispirarsi a una frase famosa di Mark Twain attribuita anche a Disraeli: “Esistono tre tipi di bugie: le bugie, le maledette bugie e le statistiche”. Questo tra l’altro prova l’interesse giudiziario per l’argomento, in quanto l’inganno operato con le statistiche risulta un tipo particolare di frode che è estremamente difficile smascherare. In questi casi infatti ciò il giudice mira a stabilire per sanzionare la frode non è un evento più o meno certo ma una coppia di fatti: (i) il fatto che un dato ragionamento è viziato (ii) il fatto che questo vizio di ragionamento è risultato di un’ azione intenzionale. Tutti sanno che i sondaggi di opinione hanno un ruolo importante nelle campagne elettorali non tanto per tastare il polso agli elettori ma per influenzare l’elettorato stesso. La causa dell’inganno è abbastanza chiara: ai questionari e ai sondaggi risponde solo chi vuole, con il che si deroga al requisito della randomizzazione del campione. Anche il sondaggio telefonico - che appare più coercitivo e quindi in apparenza più attendibile- ha creato clamorosi errrori previsionali. Gli stessi exit polls, che nelle intenzioni avrebbero dovuto anticipare le proiezioni elettorali, hanno prodotto risultati inattendibili, al punto che sono stati aboliti nelle ultime tornate elettorali. Altri errori derivano dalla vaghezza dei concetti impiegati nei confronti statistici. Per esempio, il concetto di disoccupazione è diverso da paese a paese, per cui le statistiche sulla disoccupazione fatte in Germania danno risultati diversi da quelli italiani senza che ciò implichi una significativa differenza nella realtà dell’occupazione. Idem per le nozioni di ricchezza e povertà, per le quali si stabiliscono soglie diverse da paese a paese. La soglia della povertà in Italia è fissata convenzionalmente in una spesa mensile pari a 582,20 euro per un single, 970,34 euro per una famiglia di due persone e 1581,65 euro per una famiglia di quattro persone. Nel 2007 risultavano al di sotto di tale soglia 6 milioni di persone, che è sicuramente un dato preoccupante. Nonostante questo, una capacità di spesa di 582 euro verrebbe considerata degna di un benestante nella maggior parte dei paesi africani, asiatici e sudamericani. Non vale neppure la pena di parlare delle inchieste sulla vita privata o sessuale della popolazione. In questi sondaggi non solo risponde solo chi vuole, ma risponde anche chi è in cerca di qualche occasione per vantarsi delle proprie performances, per sfogare le proprie frustrazioni con la mitomania, o semplicemente per il piacere di beffare l’intervistatore. Basti al proposito l'esempio del famoso rapporto Kinsey sul comportamento sessuale degli americani che, com' è noto, fece scalpore dando un'immagine dei comportamenti sessuali americani diversa da quella immaginata dai benpensanti. Al proposito basti osservare due cose : (1) che, non essendo obbligatorio per gli intervistati rispondere al sondaggio, il fatto stesso di scegliere di rispondere piuttosto che di non rispondere potrebbe dipendere da qualche atteggiamento verso la sessualità che non è quello della media dei soggetti (2) per semplificare il lavoro i Kinsey inclusero nella classe dei soggetti intervistati un numero piuttosto elevato di carcerati, i cui comportamenti sessuali erano spesso più trasgressivi di quelli praticati dalla media degli americani. Questi due fattori evidentemente non permettono di dire che in questa indagine veniva soddisfatto il requisito dell’ omogeneità della classe di riferimento , che si cerca di raggiungere con la randomizzazione. Lo stesso discorso vale per qualsiasi tema su cui gli intervistati hanno qualche motivo di vergognarsi delle inclinazioni che sono chiamati a manifestare. Quando, per esempio, si fanno dei sondaggi per stabilire la proporzione tra quanti amano la musica classica piuttosto che il rock, la risposta risulta lusinghiera per i musicisti di musica classica, ma è purtroppo incompatibile con quanto risulta dal consumo di dischi e di partiture di rock, rapportato al consumo di dischi e partiture di musica classica. Incidentalmente, questi sondaggi non tengono conto dal fatto che c’è una quota consistente di persone che detestano la musica in qualsiasi forma, anche se tali soggetti nei soondaggi tendono mascherare la loro antimusicalità. Naturalmente, come già sappiamo, il problema è trovare un campione che sia rappresentativo dell’universo, e si ritiene che questo si ottenga con un campione ampio e randomizzato. Ma è difficile soddisfare simultaneamente questa coppia di requisiti con i metodi usati dai sondaggisti.. In un paese poco sviluppato, per esempio, il metodo del sondaggio telefonico esclude chi non possiede un telefono, il che significa escludere una parte rilevante della popolazione. Altri inganni statistici sono dovuti al disinvolto impiego del concetto di media e di costruzioni teoriche come “l’italiano medio”, l”’operaio medio” ecc. Non parliamo del fatto che il lessico ormai di comune impiego nei giornali ha reso di uso corrente frasi inappropriate come “ogni italiana ha in media 1,5 figli”, suggerendo l’idea che oltre al primo figlio si possa avere anche mezzo figlio. In effetti la parola “media” ha diversi significati. Si dice, per esempio, che Milano è la più ricca città d’Italia. Cosa vuol dire? Chiaramente non si intende dire che tutti i milanesi sono più ricchi degli altri abitanti delle città d’Italia. Si intende dire, a quanto pare, che il reddito medio pro capite dei milanesi è superiore a quello medio delle altre città italiane. Ma il concetto di reddito medio deve essere chiarito. Un conto è dire che la media aritmetica è x, altro che la mediana è x. La differenza è percepita d agli statistici professionali ma non dal grande pubblico. Per restare nell’esempio, la ricchezza media dei milanesi si ottiene sommando i redditi di tutte le famiglie di Milano e dividendo per il numero di queste. La mediana invece è il valore intermedio entro la popolazione, nel senso che il 50% delle famiglie si trova al di sotto di quel valore, mentre il restante 50% si trova al di sopra. Le due cose non coincidono affatto. Basti pensare che ci sono paesi del terzo mondo in cui il 10% della popolazione è ricchissima, e questo porta in alto il valore medio del reddito, anche se il 90% della popolazione è in alcuni casi drammaticamente povera. Questa povertà è evidenziata dal fatto che il 50% della popolazione ha un reddito che è al di sotto del valore intermedio tra quello degli ultraricchi e quello degli ultrapoveri (la mediana) : e questo valore è molto più basso del valor medio. Nel caso delle cosiddette distribuzioni normali, rappresentate dalle famose curve a campana (per esempio la distribuzione dei ritardi del lotto) media e mediana spesso coincidono, ma questo non accade nelle statistiche dei fenomeni non casuali. Aggiungiamo che nelle misurazioni di grandezze (anche fisiche come i tavoli) si riscontra sempre un certo margine di errore possibile, anzi probabile. Se si fissa a 100, per esempio, il QI medio e nostro figlio ha un punteggio di 99, risulta al di sotto della media; ma dato che è probabile che ci sia un errore nel rilevamento, la cosa probabile è che abbia un valore diverso da 99. Il modo in cui si usano le statistiche per influenzare in modo più o meno fraudolento le vendite dei prodotti è ben noto ed è stato analizzato a lungo anche dagli psicologi. È più grave il fatto che le statistiche si usano anche con finalità politiche ed economiche importanti. Esempio. La percentuale di morti durante la guerra ispano-americana fu del 9 per mille. Nello stesso periodo i civili a new York ebbero un tasso di mortalità del 16 per mille. Il dato venne usato dai militari per sostenere che arruolarsi in marina rendeva quanto mai sicuri anche in tempo di guerra. Ma il confronto non aveva senso. I giovani marinai dovevano essere confrontati con i giovani della stessa fascia di età non militanti nella marina, non certo con una popolazione che comprendeva vecchi, malati. Il sofisma statistico più comune e più insidioso consiste nello scambiare correlazioni statistiche con correlazioni causali. Si tratta di una versione particolare e amplificata della vecchia fallacia “post hoc, propter hoc”. Per una comprensione del problema si dovrebbe disporre di una definizione precisa del concetto di causa, su cui torneremo in seguito. Ma questo concetto ha un nocciolo abbastanza intuitivo da rendere comprensibile la fallacia. Si osservi al proposito che nel suo scetticismo circa le cause Hume aveva ridotto le relazioni causali a relazioni tra fenomeni costantemente congiunti nell’esperienza. Il collante che unisce cause ed effetti secondo Hume non sta nel mondo esterno ma solo nella capacità associativa della mente. È singolare però che Hume non si rendesse conto che in base a questa teoria dovremmo classificare come causali relazioni che non sono tali. Per esempio, è chiaro che si dà una correlazione statistica e anche associativa (nel senso psicologico) tra il cantare del gallo e il sorgere del sole, ma chiunque può convenire sul fatto che questo nesso non è causale. Per fare un esempio più moderno, si pensi che il barometro è stato costruito in modo tale da segnalare anticipatamente il verificarsi dei temporali. Possiamo assumere senza problemi che ci sia una comprovata correlazione statistica tra i due tipi di fenomeni. Ma, chiaramente, l’abbassamento del barometro non ha mai causato nessuna tempesta: diciamo che non è una causa ma un indizio del futuro temporale. La parola indizio è usata con significati leggermente diversi in vari contesti ma il suo senso è chiaro: A è indizio di B quando la conoscenza di A aumenta la probabilità che B sia vero. Un indizio di colpevolezza non è una prova di colpevolezza, così come un’ alta pressione sanguigna è un indizio di un possibile futuro incidente cardiovascolare. Nel gergo della medicina si usa al proposito il termine “sintomo” e anche “fattore di rischio”, da non confondersi con la causa. L’illusione causale è creata dall’esistenza da quella che gli epistemologi chiamano biforcazione causale: nel caso dell’ultimo esempio c’è una causa comune D (una depressione atmosferica anteriore) che produce tanto B(l’abbassamento del barometro ) che T (la tempesta). Si noti che nelle correlazioni statistiche può essere difficile o inutile cercare un ordinamento temporale degli eventi. Di fatto, ciò che viene correlato nelle analisi non è mai un evento singolo (event-token) ma un tipo di evento o evento generico (p.es. quantità di sigarette consumate, incidenza di una malattia ecc.) e non ha senso attribuire un indice temporale a un tipo di evento. Tecnicamente, peraltro, le correlazioni statistiche intercorrono tra variabili, per cui la ricerca della causa comune della variabile x e y si risolve di fatto nella ricerca di una terza variabile z il cui variare è associato alla covariazione tra x e y. In molti casi di correlazioni statistica accettata oltre ogni ragionevole dubbio non si riscontra nessuna terza variabile rappresentabile come causa comune. Ma questo non significa che si sia autorizzati a concludere che l’antecedente statistico è anche un antecedente causale. Si danno infatti diverse possibilità: a) La covariazione rilevata è prodotta da una coincidenza. Con campioni molto piccoli questo è senz’altro possibile, anzi abbastanza comune. b) La covariazione tra x e y è in effetti causale, ma non è chiaro quale sia la causa e quale l’effetto . Per esempio c’è una correlazione tra ricchezza e possesso di tutoli obbligazionari, e si può sostenere che l’una è causa dell’altro, che vale il converso. Se si crede che abbia senso parlare di interazione causale, si possono anche sostenere ambedue le cose. c) La covarazione non è causale in nessuna delle due direzioni. Risulta per esempio una correlazione tra longevità e status matrimoniale, ma è falso sia dire che il matrimonio allunga la vita (ipotesi falsificata guardando alla longevità di sacerdoti cattolici o buddisti, sottomessi a regole che vietano il matrimonio) sia dire che la longevità è causa di matrimoni.4 Quando è applicata a macrofenomeni, la fallacia causale può portare a errori di valutazione che possono avere enormi conseguenze. Basta citare che la correlazione osservata tra sottosviluppo e sovrapopolazione in molti paesi ha diffuso per anni la convinzione che un’alta pressione demografica fosse il principale ostacolo allo sviluppo economico. Questa presunta cauisazione negli ultimi anni è risultata smentita dal fatto che i paesi più densamente popolati del mondo, Cina e India, hanno il tasso più alto di sviluppo economico. Purtroppo la mente umana sembra abbia una tendenza invincibile a trasformare le correlazioni statistiche in correlazioni causali. Questo è all’origine di ciò che si chiama superstizione, la quale dipende da un atteggiamento mentale che si riscontra anche in insospettabili uomini di scienza. Tra la gente delle Nuove Ebridi per esempio si diffuse la convinzione che i pidocchi facevano bene alla salute. Il motivo di questa singolare pregiudizio venne scoperto facilmente. Quasi tutti in quelle isole avevano i pidocchi. Ma nel momento in cui a qualcuno saliva la febbre per qualche tipo di patologia, i 4 Da una recente indagine pubblicata sul British Journal of Cancer risulta che i vegetariani hanno un rischio relativo di ammalarsi di tutti i tipi di cancro pari a 0,88 e che la probabilità di contrarre il cancro è minore del 12% rispetto ai carnivori. Per gli ittivori il rischio è ancora minore, pari a 0,80. Ma, come osservato da più parti, bisogna tener conto della correlazione tra il consumo di carne con altri fattori di rischio, come risulta da questa tabella: Indicatore Carnivori Ittivori Vegetariani Fumatori 54,7% 46% 44,1% Sovrappeso 37% 22,3% 20,3% Bevitori 33,7% 31,8% 24,9% Attività fisica 30,6% 38,9% 39,4% Il carnivoro risulta, in altre parole, poco salutista, e più incline degli altri a comportamenti considerati malsani e quindi tali da predisporre a un maggiore rischio di cancro. Questa considerazione lascia quindi impregiudicata la questione della capacità cancerogena della carne. pidocchi abbandonavano rapidamente il corpo divenuto troppo caldo e inospitale. Ciò che era vero, dunque, è che semmai la malattia è causa dell’assenza di pidocchi, ma non che i pidocchi sono causa di buona salute. Usando una simbologia in cui C sta per una qualsivoglia relazione causale, non-S C non-P è diverso da P C S. Vediamo dunque che la relazione causale non gode della proprietà contrappositiva. Le correlazioni causali spurie sono purtroppo non solo errate ma perniciose quando vengono usate spregiudicatamente nell’ambito della medicina. Da una statistica risulta,per esempio, che esiste una correlazione negativa tra check up e longevità. Siamo portati a concluderne che il check up accorcia l’esistenza. Ammesso che la statistica sia stata condotta correttamente, il presunto motivo della correlazione è che chi decide di sottoporsi a check up di solito non scoppia di salute, mentre chi non intende sottoporsi a check up è in condizioni di salute molto buone, per cui è più probabile che rientri nella classe dei longevi piuttosto che dei non-longevi. Molte statistiche sul cancro o sulle malattie cardiovascolari sono viziate dall’omissione di un fatto importante: che con il progredire dell’età, qualunque siano le condizioni date, aumenta la probabilità di ammalarsi di malattie di questi due tipi. Ne consegue che tutto ciò che può essere casualmente rilevante per allungare la vita, quindi sostanzialmente salutare, risulta statisticamente correlato con una maggiore incidenza di cancro o malattie cardiovascolari. Viceversa, in popolazioni con bassa speranza di vita queste malattie risulteranno meno frequenti o addirittura assenti. Questo tipo di errore è comune in quella disciplina dal dubbio carattere scientifico, che dilaga su giornali e riviste più o meno specializzate, dal nome di dietologia. Intorno alla dietologia gravitano interessi enormi, che spaziano dal campo medico-farmaceutico a quello alimentare. Sembra che in particolare negli ultimi decenni il colesterolo sia diventato, grazie a un’ intensa campagna di stampa, il nemico numero uno dell’organismo umano. Ciò che è passato nell’ immaginazione popolare della c.d. “teoria lipidica” è la catena causale : aumento di consumo di grassi animali - aumento di colesterolo -aumento di placche aterosclerotiche- maggiore rischio di ictus e infarti. Da ciò si è portati a derivare logicamente una seconda catena causale che a rigore non è logicamente equivalente alla prima: diminuzione consumo grassi animali - diminuzione di colesterolo -diminuzione di rischio di aterosclerosi - diminuzione di rischio di ictus e malattie coronariche. Sull’onda di queste associazioni di idee si è scatenata una campagna di demonizzazione dei grassi animali, che è andata di pari passo alla promozione della cosiddetta dieta mediterranea, ricca di carboidrati e povera di grassi animali. Il fatto che a partire dagli anni 90 il numero di obesi, anzichè diminuire, sia aumentato in modo da preoccupare i governi dei paesi occidentali, fa pensare che la campagna anti-grassi abbia fondamenti dubbi. Uno dei punti deboli della prima catena di sui sopra è la correlazione statistica tra consumo di grassi animali e formazione del colesterolo. Il colesterolo è stato scoperto nel 1812 ; prima fu ritrovato nel sangue e poi, dopo diversi anni, nelle placche coronariche: da ciò l’ardita conclusione per cui il colesterolo sarebbe causa delle placche coronariche. A partire dalla fine dell’800 si è continuato a registrare statisticamente un incremento della mortalità da infarto, al punto di configurarsi come una vera e propria epidemia. Su questo fenomeno vale la pena di prendere atto dell’enorme importanza ai fini statistici che ha la tassonomia - cioè il modo di classificare i fenomeni sotto indagine. Tra il 1900e il 1920 si elencavano quattro tipi di malattie cardiache 1) angina pectoris 2) pericardite 3) endocardite acuta 4) malattie cardiache organiche Nel 1949 venne introdotta una nuova tipologia,la "malattia arteriosclerotica con incluse le coronarie". Con la nuova tassonomia aumentarono a dismisura i casi registrati di malattie coronariche. Nel 1968 si ebbe una nuova revisione tassonomica e l'ipertensione arteriosa fu integrata tra le malattie coronariche (mentre prima era considerata indipendente). Questo fece innalzare le percentuali di malattie riscontrate, ma nel 1979 l'ennesima revisione separò di nuovo l'ipertensione dalle malattie coroniche e l'infarto del miocardio diminuì vistosamente. Dunque ciò che ha fatto aumentare la mortalità per malattie cardiovascolari in determinati periodi è stato la modificazione della tassonomia, mentre la diminuzione della mortalità per infarto registrata dal 64 all' 86 (-45%) potrebbe essere attribuibile al progresso farmacologico e soprattutto chirurgico (bypass, angioplastica). La spiegazione di questa riduzione con la riduzione dei fattori di rischio (dieta, fumo, ipertensione) è plausibile ma non è giustificata. Gli studi fatti su rapporto tra colesteromia e mortalità cardiovascolare hanno prodotto dati che confermano l'ipotesi della correlazione causale a patto di ignorare i numerosissimi risultati che danno una risposta opposta. In particolare, le nazioni esaminate da A. Keys (il padre della c.d. "dieta mediterranea") sono le seguenti: Italia, Grecia, Yougoslavia, Olanda, USA, Giappone, Finlandia. Se Keys avesse esaminato, invece di questi, paesi come Israele, Olanda , Germania, Svizzera, Francia, Svezia avrebbe riscontrato che quanto più alto era il consumo di grassi saturi tanto inferiore risultava il rischio di infarto. Del resto di recente ha fatto scalpore il c.d. "paradosso francese": la Francia ha notoriamente una cucina ricca di grassi animali e tuttavia l'incidenza di malattie cardiovascolari è più bassa che in Italia. Questo sarebbe sufficiente a refutare popperianamente l'ipotesi, ma invece venne lanciata un 'ipotesi di salvataggio, consistente nel dire che in Francia è alto il consumo di vino rosso, che sarebbe in grado di neutralizzare -grazie a una sostanza chiamata resvetrarolo - i nocivi effetti dei lipidi. Ma a parte il fatto che è stato dimostrato che per avere qualche efficacia il resvetrarolo dovrebbe essere preso in dosi iperboliche, resta da spiegare perchè gli italiani hanno pure un alto consumo di vino rosso ma una maggiore incidenza di malattie cardiache. Altra ipotesi di salvataggio è stata la distinzione tra colesterolo buono e cattivo, passato pure nella vulgata. Secondo un commento pubblicato sull’Herald Tribune e firmato da Gary Taubes, corrispondente della rivista Science, così si è introdotto un equivoco. E cioè: si è sempre confuso il colesterolo con le proteine che lo trasportano nel sangue, le lipoproteine, il carico con il mezzo di trasporto. E il colesterolo è diventato buono o cattivo a seconda che sia veicolato da lipoproteine ad alta densità (Hdl) o a bassa densità (Ldl). Potrebbe, dunque, non essere il colesterolo in sé il vero nemico (l’infarto colpisce anche persone con colesterolo normale), ma un’anomalia delle lipoproteine. Il bilancio di questa discussione non vuole in ogni caso essere pessimistico. In primo luogo, prima di accogliere un dato statistico come elemento di prova o di refutazione, bisogna acclarare che il dato sia stato ricavato secondo procedure che rispettino i canoni metodologici elaborati dalla stessa scienza statistica. La metodologia corretta impone al primo posto che oltre al campione sperimentale estratto da un certo universo in cui la proprietà indagata è presente si proceda ad estrarre un secondo campione (detto campione di controllo) in cui le proprietà indagata è assente. Il campione deve essere costruito con accorgimenti che elimino ogni rischio di inquinamento. L’esempio appropriato è quello delle ricerche sui farmaci eseguite in doppio cieco. La particolarità sta nel fatto che né il paziente né il medico conoscono la natura del farmaco effettivamente somministrato. Si differenzia quindi dallo studio "in cieco", dove solo il paziente è all'oscuro del procedimento che sta seguendo. Lo scopo del doppio cieco è quello di evitare che i risultati della ricerca vengano influenzati non solo dal paziente, ma dal medico stesso che sta effettuando la ricerca. Convinzioni, preconcetti, aspettative, o semplicemente informazioni specifiche che lo sperimentatore possiede possono condurlo a un involontario fraintendimento dei dati osservati . E’ noto che si vuole valutare l'efficacia di un farmaco occorre tenere conto dell'inevitabile effetto placebo. Per fare questo occorre prendere in considerazione due campioni omogenei di pazienti. A uno di essi (campione sperimentale) si somministra il farmaco oggetto di studio e all'altro (campione di controllo) un placebo. Ovviamente (e in ciò consiste il "cieco semplice") nessun paziente in entrambi i campioni deve sapere se sta assumendo il farmaco o il placebo. La procedura del "cieco semplice", tuttavia, si è dimostrata in alcuni casi insufficiente per il motivo già accennato, e cioè che i risultati possono essere falsati dall'atteggiamento psicologico degli stessi sperimentatori. . Se il medico sperimentatore sa di somministrare il farmaco piuttosto che il placebo, può involontariamente suggestionare il paziente. Per questo motivo, al fine di ottenere risultati attendibili, è necessario che neppure gli sperimentatori conoscano certe informazioni. In campo medico il doppio cieco è l'unica metodologia possibile e soltanto i farmaci e le terapie che superano tale procedura possono essere definiti efficaci. Il nucleo metodologico di queste procedure è quello di stabilire un raffronto tra la percentuale di U che hanno la propretà A (probabilità che, se x è U, x è A, cioè Pr (A|U) e quella di U che non hanno A (Pr(-A|U)). Bisogna confrontare per esempio la percentuale di fumatori (F) tra gli ammalati di cancro (C) – Pr(C|F) e la percentuale di non- fumatori (-F) tra gli ammalati di cancro (Pr(C|F). Se Pr(C|F) > Pr(C |-F) significa che F è statisticamente rilevante per C. La forza di questa correlazione è data dalla differenza - Pr(C|-F), -F) significa -F)/Pr(-F). In tal modo abbiamo effettuato una corretta statistica, ma non è ancora detto che il rapporto così stabilito sia causale. Un’idea sviluppata da Ronald Giere e da altri metodologi, molto discussa negli ultimi decenni, è quella di non concentrasi sulle frequenze attuali entro un singolo campione ma sulle frequenze entro popolazioni ipotetiche; più esattamente, sulle frequenze entro due popolazioni ipotetiche o controfattuali in cui le proprietà studiate appare posseduta da tutti o da nessuno. Per restare nell’esempio, bisogna immaginare una popolazione in cui tutti fumano e una in cui nessuno fuma. Se siamo in grado di stabilire che la percentuale di ammalati nella prima è maggiore che nella seconda allora siamo autorizzati a parlare di nesso causale, altrimenti no. Per poter dire che c’è un nesso causale tra fumo e cancro vogliamo poter dire con verità quanto segue: “se tutti fumassero ci sarebbe una frequenza di casi di cancro superiore a quella che si avrebbe se nessuno fumasse”. . Un primo problema è che l’alternativa “tutti-nessuno” può produrre risultati non intesi. Per fare un esempio, in un campione attuale chi ha un livello di reddito superiore alla media ha anche un livello di salute superiore alla media. Per stabilire un nesso causale dovremmo fare una verifica facendo due ipotesi controfattuali distinte:1) che tutti abbiano un reddito superiore alla media e 2) nessuno abbia un reddito superiore alla media : ma questo è impossibile per ragioni logiche per la definizione stessa di media. Ci sono anche ragioni non – logiche per dubitare delle ipotesi del tipo “tutti-nessuno”. Su qualcuno ritira i propri risparmi da una certa banca questo può far abbassare i tassi di interesse di una banca, ma certo la banca non fallisce per questo. Ma se tutti ritirano simultaneamente i risparmi da una banca la bancasemplicemente fallisce perché non èin grado di pagare i suoi debiti. Quindi i nessi causali non vengono in tutti i casi conservati passando da pochi esempi a tutti. La tesi di Giere si può parafrasare dicendo che c’è un rapporto causale fumocancro quando si è in grado di dire quanto segue: c’è un valore numerico z tale che se nessuno fumasse, Pr C = z, e se tutti fumassero Pr(C) > z .Questa proposizione si accerta in due passi: a) esaminando varie popolazioni in cui nessuno fuma ed estraendo campioni da esse per registrare la percentuale di ammalati, così da fissare il valore di z. b) esaminando popolazioni in cui tutti fumano ed estraendo campioni per vedere se la percentuale degli ammalati supera z. E chiaro che, campionamenti a parte, l’accertamento dei nessi causali viene così a dipendere dall’ accertamento della verità di condizionali controfattuali. E offrire una semantica per i controfattuali è stato un problema che i logici hanno cominciato ad affrontare verso il 1970 con risultati interessanti ma non perfettamente univoci. Una cosa comunque è della massima importanza. Nessuno più dei giuristi dovrebbe apprezzare l’importanza del ragionamento contrario ai fatti , dato che per secoli si è proposto nei tribunali come metodo di accertamento delle connessioni causali la c.d. formula della condicio sine qua non , che consiste nel chiedersi cosa sarebbe successo del presunto effetto se immaginiamo rimossa o assente la presunta causa. Prima di toccare questo argomento è opportuno discutere una forma di inferenza ampliativa che riveste pari importanza nell’ambito sia scientifico che giudiziario , l’inferenza abduttiva. 7. L’abduzione Prima di passare alla discussione dei condizionali controfattuali ricordiamo che , in presenza della verità di A e B, la loro forma è ¬A > ¬B , mentre la forma del condizionale classico è A > B. Parlando liberamente , nel primo caso si dice che A è condizione necessaria per B, nel secondo caso che A è condizione sufficiente per B. Questo linguaggio tuttavia è approssimativo. Se il fiammifero è sfregato, non ne segue al 100% che il fiammifero si accenderà; così come, se il fiammifero non è stato sfregato, non segue al 100% che non si è acceso. La conclusione nei due casi si può difendere, ma solo una volta che si sia accertata la presenza di un insieme di condizioni favorevoli al verificarsi del conseguente: p .es. presenza di sufficiente ossigeno, capocchia asciutta ecc. Quindi ciò che è sufficiente per l’effetto è l’antecedente congiunto con tutto questo insieme di condizioni ottimali K, di cui si può considerare parte anche la stessa legge di natura che consente l’inferenza. Per dire che congiunzione K alto grado di probabilità E abbiamo convenuto di scrivere (K : Pr(E/KC) 1-. Ora abbrevieremo questo asserto con si può abbreviare con C > E. Nel caso controfattuale avremo ( K Ma bisogna tener presente che questo K non è lo stesso K del caso precedente, perché non può contenere informazioni che sono incompatibili con ¬C. Per esempio, la proposizione che il fiammifero non è stato sfregato e non si è acceso deve essere rimossa da K, altrimenti sarebbe incompatibile con l’antecedente controfattuale. Ora, se per ipotesi > fosse un operatore contrappositivo , ¬C > ¬E sarebbe equivalente a E > C. Ma il condizionale controfattuale, così come la relazione di rilevanza statistica, non è contrappositiva. Quindi il condizionale E > C ha proprietà diverse tanto da C> E quanto da ¬C > ¬E. Chiameremo E > C condizionale abduttivo e per, capirne le condizioni di verità, faremo un passo indietro che ci riporta all’Organon di Aristotele. Nell’ Organon di Aristotele viene chiamata apagogè un tipo di ragionamento con conclusioni non necessarie ma meramente possibili. La apagogè non va confuso con la epagogè, che per Aristotele designa il ragionamento induttivo.Una traduzione a volte usata di apagogè, e forse appropriata, è “riduzione”. Un termine sinonimo a volte usato, e forse più felice, è quello di “retroduzione”. Il termine “abduzione”, che ha avuto fortuna soprattutto per impulso di Peirce, è stato coniata da Julius Pacius nel Rinascimento. In senso stretto, l’abduzione è una forma di ragionamento in cui la conclusione è accettata in virtù del fatto che spiega nel modo ottimale i dati disponibili. In senso lato, l’abduzione è il processo della formazione di ipotesi esplicative, e la logica dell’abduzione viene a coincidere con la stessa logica della scoperta scientifica. Dato che la logica di Aristotele è essenzialmente sillogistica, la differenza si può chiarire guardando a ciò che si ottiene ricombinando in modo diverso le proposizioni che entrano nel primo sillogismo della prima figura (BARBARA). A: 1) Tutti gli asini hanno la coda 2) Federico è un asino ========================= 1) Federico ha la coda Considerando che l’ordine delle due premesse non ha importanza, ci sono in effetti solo due ragionamenti diversi con due premesse e una conclusione che si possono formulare impiegando le stesse proposizioni : B: 1) Federico è un asino 2) Federico ha la coda ========================== 3)Tutti gli asini hanno la coda C: 1) Tutti gli asini hanno la coda 2) Federico ha la coda ========================== 3)Federico è un asino Il ragionamento B è un ragionamento “ampliativo”, che estrapola cioè dal campione all’universo, ed è un esempio di quello che viene chiamato ragionamento induttivo per enumerazione semplice. Certo un ragionamento induttivo come quello dell’esempio B presenta un’inferenza non “da alcuni a tutti” ma “da uno a tutti”, e sembra il tipico caso di un ragionamento che è considerato erroneo o addirittura tipico di menti insane. Eppure ci sono casi in cui l’applicazione di questo schema si potrebbe considerare ineccepibile. Eccone uno: 1) La bomba di Hiroshima era una bomba atomica 2) La bomba di Hiroshima era spaventosamente distruttiva ============================================= 3)Tutte le bombe atomiche sono spaventosamente distruttive La conclusione 3) doveva essere evidente a tutti dopo il bombardamento di Hiroshima e, a dir la verità, doveva essere nota anche prima, dato che la bomba era stata costruita con lo scopo di creare spaventose distruzioni: per crederla vera comunque non c’ era sicuramente bisogno di un secondo esperimento, come per esempio quello di Nagasaki.. Quanto all’esempio specifico presentato in B) si potrebbe anche osservare che se dicendo “Federico è un asino” intendo dire “Federico è un tipico asino” e poi aggiungo che un tipico asino è mortale, c’è poco da eccepire sul fatto che tutti i tipici asini (quindi tutti gli asini) sono mortali. Per molti decenni si è avuta la tendenza a identificare ragionamenti ampliativi e ragionamenti induttivi. Questo è errato per vari motivi. Molti ragionamenti controfattuali sono ampliativi senza perciò essere induttivi. Inoltre secondo alcuni (è il caso di Carnap) i più autentici ragionamenti induttivi non hanno conclusioni di forma universale ma di forma particolare: per esempio “il prossimo asino che verrà esaminato avrà la coda” (eduzione) oppure “ i prossimi cento asini che verranno esaminati avranno la coda”. Aggiungiamo che lo schema di ragionamento C) è molto diverso da quello induttivo, anche se condivide con B), oltre alla natura ampliativa, un certo grado di aleatorietà nella conclusione. C’è una differenza sostanziale tra B) e C). La conclusione “Federico è un asino” è usata per rispondere alla domanda “Qual è la ragione per credere che Federico ha la coda sapendo che tutti gli asini hanno la coda?” Il motivo per cui questo particolare sillogismo sembra poco cogente è che ci sono altri sillogismi con diverse conclusioni che possiamo costruire con la stessa struttura. Per esempio, dato che sappiamo che tutti i cani hanno la coda, allora sotto la premessa “Federico ha la coda” si potrebbe anche concludere a pari merito“Federico è un cane”. Quindi siamo di fronte a due conclusioni incompatibili, perché Federico (lo stesso Federico) non può essere tanto un asino che un cane e noi dobbiamo scegliere una delle conclusioni, ammesso che una scelta sia possibile. Quindi, in realtà, nel caso dell’abduzione possono manifestarsi dei casi di parità in cui è giocoforza dover scegliere: ciò che va scelta, infatti, non è una spiegazione qualsiasi dell’explanandum e nemmeno una plausibile spiegazione ma la migliore spiegazione possibile. Questa caratteristica, che distingue il ragionamento abduttivo dagli altri, può essere illustrata ricordando due fatti importanti : 1) che il modello nomologico-deduttivo di Hempel-Oppenheim ha una forma sillogistica (mentre il modello statistico-induttivo costituisce un’approssimazione a questa in cui la conclusione segue dalle premesse con grado 1-€) 2) Nelle spiegazioni in senso pieno si esige che le premesse siano vere e note come vere, mentre nel caso le premesse siano solo ipotetiche si parla di spiegazione potenziale. Supponiamo di chiedere la spiegazione di un fatto E (perchè E?). Allora. Come è noto, diciamo explanandum questo E, e lo riterremo spiegato quando è derivato da un explanans, che contiene essenzialmente un certo numero di leggi di natura e di condizioni iniziali che fungono da premesse minori del sillogismo L1….Ln (leggi) C1 …… Ci?….Ck condizioni –––––––––––––––––––––––––––––- –––––––––– Explanans E vero Explanandum Il punto interrogativo ? sta a indicare che l’elemento dell’Explanans così indicato non ha un preciso valore di verità , mentre gli altri sono veri. In questo caso diciamo che Ci è un fattore che fa parte di una spiegazione potenziale (meglio “possibile”) di E. È normale avere una pluralità di spiegazioni potenziali per los tesso explanandum. Per esempio può verificarsi una situazione così rappresentabile: L1….Ln vere (leggi) L1….Ln vere (leggi) C1a? , C2, ….Ck C1b?, C2,….Ck --------------------------------------------------------------------------------------------E (Explanandum) vero. Ci chiediamo per esempio: che cosa spiega il fatto che il fiammifero si è acceso? Sia C1a l’ipotesi “il fiammifero è stato sfregato” ; sia C1b l’ipotesi ” la capocchia del fiammifero è stata posta nella fiamma di una candela”. Allora potremmo retroduttivamente risalire da E a C1a, ma anche da E a C1b. Come operare la scelta? Dipende dalle altre informazioni circostanti. Se, per esempio, vicino al fiammifero che è stato acceso si trova una candela accesa ma nessuna superficie sufficientemente ruvida tipo carta vetrata, ecc. è plausibile pensare che il fiammifero sia stato acceso mediante la candela. In assenza di questa però, la retroduzione più plausibile è l’altra. Tenendo presente lo schema hempeliano. mentre il condizionale standard (nomologico) ha la forma C1> E, cioè (C1 & K) => E , il condizionale abduttivo ha forma E > C1 (il fiammifero si è acceso perchè sfregato). Secondo Peirce - il filosofo che ha proposto l’abduzione come grande tema epistemologico- l’inferenza abduttiva è un processo in base a cui “si osserva un fatto sorprendente C; ma se A fosse vero, C sarebbe la conclusione naturale; perciò si ha motivo di sospettare che A sia vero” . Si noti che Peirce qui usa un periodo ipotetico (“se A fosse vero…”), evidenziando che la proposizione A con cui poi si conclude il ragionamento abduttivo è, all’atto dell’ipotesi, solo una possibilità. Questa definizione ha fatto molto discutere. Nella conclusione del ragionamento compare A. Ma A compare già nelle premesse del ragionamento, il che fa dubitare del carattare ampliativo dell’inferenza – ansi crea odore di circolarità e ci pone legittimamente questo problema: da dove proviene l’ipotesi A ? In secondo luogo, l’operazione che coinvolge A si potrebbe applicare ad altre congetture A’, A”, A”’…. delle quali si potrebbe pure dire che, se fossero vere, renderebbe naturale la conclusione C. Ciò non sarebbe importante se A’, A” ecc. fossero logicamente interdipendenti con A: per esempio potrebbero essere sue varianti generiche o specifiche. Ma nei casi più interessanti queste alternative potrebbero essere indipendenti da A , o a- come di solito accade- incompatibili con A. La verità è che l’abduzione non è la ricerca di una qualsiasi spiegazione di un evento anomalo, ma la ricerca della migliore spiegazione entro una rosa di spiegazioni potenziali e alternative di uno stesso fenomeno. Questa intuizione è in un certo implicita in ciò che dice Peirce quando parla conclusione “spiegata in modo naturale”. Peirce in alcuni scritti suggerisce che la migliore spiegazione è la spiegazione più economica (cioè, diremmo oggi, la più semplice e la più informativa). L’ idea dell’economicità è seducente ma poco applicabile: in primo luogo non è ovvio che ci sia sempre una spiegazione classificabile come “la più semplice”, e secondariamente la semplicità sembra avere carattere che potremmo dire “interno ai paradigmi”: è più semplice pensare che la terra stia ferma al centro dell’universo o che abbia un doppio movimento di rotazione e rivoluzione? Peirce stesso, che è tornato a più riprese su questo controverso argomento, ha ammesso negli ultimi anni di aver dato inizialmente una versione troppo limitata dell’abduzione. L’abduzione è in realtà un processo complesso, che comprende tanto il lancio delle ipotesi che la loro valutazione. Bisogna dunque cominciare col distinguere nettamente due aspetti dell’abduzione o anche due tipi diversi di abduzione, una creativa e una selettiva. Un approccio all’abduzione che potremmo approssivamente classificare come popperiano è il seguente. La migliore spiegazione di un evento è l’unica che resiste alla falsificazione entro un ventaglio di ipotesi disgiunte. Supponiamo di sapere con certezza che in un ambiente isolato erano presenti Tizio, Caio e Sempronio. Si scopre il cadavere di Rossi, colpito da un solo proiettile di pistola. Il primo passo legittimo è una semplice inferenza ampliativa che possiamo considerare inattaccabile: ( R) “Se Rossi è stato colpito da un proiettile di pistola, qualcuno ha sparato a Rossi”. Scoprire il colpevole significa semplicemente passare dall’asserto generico “qualcuno ha sparato a Rossi” a un asserto vero della forma “b ha sparato a Rossi”, dove b è il nome di una persona (che potrebbe essere anche Rossi stesso, non essendo a priori escluso il suicidio). Ora, per la logica deduttiva, asserire “qualcuno ha sparato a Rossi” in quel particolare contesto di informazioni comporta eliminare ogni possibile valore di b salvo i quattro nomi citati: equivale ad asserire la disgiunzione “o Tizio o Caio o Sempronio o Rossi ha sparato a Rossi”, dove Sempronio è il miglior amico di Rossi. Supponiamo di poter escludere con assoluta certezza che Rossi si sia suicidato e poi eliminare, sempre con assoluta certezza, le ipotesi che Tizio e Caio hanno sparato. Allora la conclusione, per quanto sorprendente possa apparire, è che Sempronio ha sparato a Rossi. La procedura eliminatoria qui prospettata è conforme alla celebre massima di Sherlock Holmes secondo cui “escluso l’impossibile ciò che rimane, per quanto improbabile, deve essere la verità”5. Se è così l’abduzione si risolve in una serie di falsificazioni successive e l’ipotesi vincente è quella che sopravvive. Per completare la procedura occorre però un’integrazione importante. Nel caso l’ipotesi sopravvissuta fosse ancora oggetto di ragionevole dubbio (cioè quasi sempre,se non altro per errore nella procedura eliminatoria), essa è soggetta ad essere confermata induttivamente da altri elementi di informazione indipendenti che ne costituiscono la controprova: superata questa l’ipotesi si consoliderà guadagnando per sè la qualifica di “vera”. Si noti che questo va fatto anche nel caso che le ipotesi siano h1…hn e che emerga una fortissima evidenza a favore di h1, che ne porta molto in alto il suo valore di probabilità. In tal modo si abbassa il valore di probabilità delle altre ipotesi h2…hn, che potrebbe scendere al di sotto della soglia å. Ma anche in tal caso è opportuno cercare una controprova di h1 andando alla ricerca di elementi di informazioni che falsificano indipendentemente h2,…hn. Se si esclude l’introduzione della controprova, l’inferenza alla migliore spiegazione così delineata non si distingue dal procedimento baconiano dell’ induzione eliminatoria e si riconduce al processo che si può chiamare di determinazione della conoscenza. La determinazione consiste nel passaggio dal generico allo specifico, dall’indeterminato al determinato. Ogniqualvolta si passa dalla disgiunzione esclusiva “A o B” ad uno dei suoi disgiunti si produce un incremento di determinazione. Aumentare la determinazione della conoscenza significa aumentare l’ informazione disponibile; per converso l’ aumento di informazione disponibile riduce l’incertezza e quindi aumenta la determinazione della conoscenza. Se E è l’ explanandum con due possibili spiegazioni siamo di fronte ad una disgiunzione che nel caso più semplice è della forma “A è un elemento nell’explanans di E o B è un elemento nell’ explanans di E” . L’abduzione selettiva consiste nell’eliminare tutti i disgiunti salvo uno, e quindi nel“determinare l’ explanans” . Stando così le cose, non c’è motivo di negare che l’abduzione selettiva è una procedura di tipo razionale, stante che l’eliminazione dei disgiunti non ha niente di arbitrario ma obbedisce a principi ben acquisiti dalla logica e dalla filosofia della scienza. C’è da osservare che la conclusione del ragionamento abduttivo non è detto debba essere una proposizione singolare come “il fiammifero si è acceso” o “il mio cane scodinzola”. Potrebbe essere una proposizione quantificata esistenzialmente (p.es. “c’è vita su Saturno”) oppure una proposizione quantificata universalmente (“tutti i corpi presenti nella zona Y sono contaminati radioattivamente”) oppure la congiunzione di proposizioni di diversa forma logica. Nei casi che più interessano gli epistemologi, la conclusione abduttiva può essere non una delle condizioni fattuali C1…Cn ma una parte dell’explanans costituita dalle leggi L1…Ln, quindi può essere una legge o addirittura una vera e propria teoria. La matematica stessa, come ha sottolineato Polyà, non è affatto aliena da ragionamenti di tipo abduttivo. Osservando delle somme di numeri primi come 11,7, 13 … che danno sempre un numero pari, si può trarre la conclusione induttiva che sommando due numeri primi si ottiene un numero pari. La c.d. “congettura di Goldbach” è la conversa di questa e si formula in questo modo. (CG) “Ogni numero pari maggiore di due è la somma di due numeri primi”. La congettura (abduttiva) è stata confermata dai calcolatori fino alla grandezza di 4.10 11 , ma nessuno è riuscito a trasformare la congettura in un teorema matematico. Le proprietà di costruzioni come il triangolo di Pascal invece si possono dimostrare, anche in vari modi (si pensi per esempio che la somma dei numeri di ogni riga è una potenza in base 2). 1 =1 1 1 =2 1 2 1 =4 1 3 3 1 =8 Secondo Polyà non c’è nessuna differenza essenziale tra la scoperta matematica e quella delle scienze empiriche.In ambedue i casi si osservano dei casi sparsi o delle regolarità stabilite induttivamente, e si cerca di trovare delle connessioni che li spiegano. L’unica differenza è che in matematica, una volta che tali correlazioni vengono dimostrate rigorosamente, sono irreversibili, o in altri termini non sono soggette a controesempi. Leggendo le belle pagine dedicate da N.R. Hanson alla scoperta delle leggi di Keplero veniamo posti di fronte a quella che è giustamente considerata la più importante abduzione della storia del pensiero. Keplero giunse alla scoperta della sua prima legge cercando di liberarsi dell’ipotesi del cerchio ed eliminando le altre ipotesi suggerite dalle osservazioni (ovoide ) fino a restare con quella dell’ellissi che combacia con tutti i dati. Per rendersi conto della differenza tra la natura dell’induzione e quella dell’abduzione, basta osservare che l’induzione fornisce delle generalizzazioni empiriche che descrivono, per così dire, i “meccanismi” della natura, ma non può darci leggi teoriche (cioè leggi che contengono termini per enti inosservabili). In effetti, non ha senso assegnare un valore di probabilità alle inferenze garantite da leggi teoriche. Ha un senso chiedersi qual è la probabilità che il prossimo corvo sia nero, ma non qual è la probabilità che la prossima molecola sia costituita di atomi. Viceversa, la formulazione delle leggi teoriche è l’obiettivo più nobile delle procedure abduttive, e quello scientificamente più significativo. Tutto questo rende dubbia l’utilità di associare dei valori probabilistici alle conclusioni abduttive, come vorrebbero i bayesiani. Nell’ambito giudiziario è indubbio che si abbia a che fare con abduzioni che concludono a fatti o a insiemi di fatti, mentre è difficile immaginare un contesto in cui si concluda con leggi o generalizzazioni. A questo dobbiamo aggiungere una qualificazione che finora non abbiamo trattato. L’inferenza abduttiva più frequentata è quella che ci porta a concludere con la miglior spiegazione causale possibile: in altre parole è un’inferenza dagli effetti alle cause. Ma le cause, come abbiamo visto, sono preferibilmente da considerare non condizioni necessarie, non come condizioni sufficienti per l’effetto. Le due proprietà in effetti non si escludono, soprattutto nel modello statistico-induttivo. Supponiamo di avere un certo stock di ipotesi esaustive e disgiunte h1…hn. Ciascuna di queste, congiunte ad altri dati informativi, costituisce un explanans che implica l’explanandum E. Supponiamo inoltre di sapere che ¬h1…¬hn, congiunte a vari sottoinsiemi di K opportunamente strutturati, implicano tutte ¬E, cioè la negazione dell’explanandum. Dunque esse sono condizioni necessarie, o cause, per l’explanandum. Nell’abduzione causale si tratta dunque di fare una scelta che esige un doppio controllo nella fase creativa, dal momento che dobbiamo controllare che le varie h1…hn siano condizioni tanto sufficienti che necessarie per l’explanandum. Uno dei maggior studiosi contemporanei dell’abduzione, John Woods, ha visto una difficoltà concettuale nell’abduzione applicata nei processi. Infatti da un lato si richiede di condannare con un verdetto sulla base di fatti stabiliti “oltre ogni ragionevole dubbio”, dall’altro l’abduzione è un procedimento di tipo congetturale, quindi con una buona dose di incertezza: “ This is trouble bad enough to deserve a name. My choice is the Criminal Abduction Paradox. “ Bayesianamente potremmo semplicemente dire che se , date due ipotesi alternative H e H’ , Pr(H/E K) > Pr(H’|E K), allora H è più credibile di H’. Ma questa relazione ci dà una condizione minimale e necessaria, non certo sufficiente per scegliere H come conclusione abduttiva. Dobbiamo infatti tener conto, con buona pace dei bayesiani, di quanto segue: 1) La differenza tra i due valori probabilistici delle ipotesi deve essere significativamente alta. Se Pr(H|E K) - (Pr(H’|E K) è, poniamo, 0,1, bisogna tener conto che uno scarto così basso potrebbe essere dovuto a un errore di valutazione o a un errore di informazione. Ragione per cui passando da uno stock di informazione K a uno stock nuovo K’ , cioè a una nuova informazione, la differenza potrebbe ridursi facilmente a 0 o addirittura invertirsi di segno. 2) La creazione del ventaglio di ipotesi deve essere fatto in modo tale che tali ipotesi siano esaustive e disgiunte. Questo è molto più difficile di quanto si pensi. In genere si omette il requisito cartesiano (Regulae ad Directionem ingenii) che richiede che venga fatto un elenco combinatoriamente completo delle ipotesi entro cui scegliere. li. Per esempio nel delitto di Cogne è stato fatto osservare che la causa della morte poteva anche essere un agente non-umano (per esempio un’ aquila selvaggia, peraltro già nota nella zona per aggredire anche animali e bambini). Insegni al proposito il primo racconto giallo della storia, “il duplice delitto della Rue Morgue” di Allan Poe, in cui alla fine l’auore del delitto risulta essere un gorilla. 3) Quando due ipotesi alternative sono ambedue inizialmente molto improbabili accade che, se si acquisisce anche una piccola evidenza favore di un’altra ipotesi, per quanto poco plausibile, questa viene erroneamente scambiata per una falsificazione definitiva dell’ipotesi alternativa. Nel famoso delitto della penna a sfera –in cui si trattava di spiegare come una donna potesse morire con una penna a sfera nel cervello- per esempio, venne presa in considerazione la possibilità che la penna a sfera fosse entrata nel cervello della vittima per un incidente, ma considerata fin dall’inizio inattendibile (anche se si conoscevano rarissimi casi in cui questo era avvenuto). L’alternativa –che il figlio le avesse sparato la penna a sfera nel cervello con una balestra– era pure improbabile ma sembrava suffragata da una confessione , per quanto confusa, rilasciata dallo stesso. Altre ipotesi erano inconcepibili. Successivamente una serie di esperimenti effettuati su cadaveri di animali portavano ad escludere non la prima ma la seconda ipotesi, ragion per cui il figlio venne scagionato e venne stabilita la “verità” giudiziaria. Quando venne incriminato il figlio si ritenne che l’evidenza,o presunta tale, a favore di questa ipotesi, costituisse un’eliminazione dell’altra, in quanto ne abbassava la probabilità al di sotto della soglia di credibilità. In effetti questa non era un’applicazione del metodo eliminatorio attraverso la falsificazione popperiana. Ma anche quando fosse applicato questo metodo, bisogna tener conto che nell’eliminazione della ipotesi la valutazione delle probabilità e il calcolo di queste può essere errato; inoltre, spesso la falsificazione delle ipotesi è a sua volta probabilistica, quindi soggetta ad errore, e tali errori possono accumularsi in proporzione al numero delle ipotesi alternative. In realtà scegliere un’ipotesi con il metodo eliminatorio, anche se questa risulta valida al di là di ogni ragionevole dubbio, non è sufficiente. Per chiudere il cerchio, come abbiamo visto, ci vuole una controprova dell’ipotesi vincente, cioè una prova indipendente, che non abbia rapporti statistici o causali con le altre informazioni usate nel processo eliminatorio. Il celebre caso di Sally Clark mostra come sia rischioso condannare qualcuno in base a ragionamenti probabilistici. Sally Clark era un avvocato inglese (morta nel 2007) diventata famosa per un clamoroso caso giudiziario. Nel 1996 perde il primo figlio dopo 11 settimane dalla nascita, apparentemente a causa della rara Sudden Infant Death Sindrome (SIDS). Nasce il secondo figlio mentre la madre era ricoverata per alcolismo dovuto a una crisi depressiva da parto. Anche il secondo figlio muore per la stessa sindrome a 8 settimane dalla nascita. In ambedue le occasioni di morte la madre era sola nella stanza con i figli, uno dei quali presentava anche segni di soffocamento. Arrestata insieme al marito, nega sempre, anche se rifiuta di rispondere alle domande. Un pediatra, Roy Meadow, calcolò che la probabilità che due bambini di famiglia benestante morissero di questo tipo di morte era di 1 su 73 milioni. Dato che le alternative erano solo due –morte naturale o infanticidio- in tal modo si escludeva al di là di ogni ragionevole dubbio l’ipotesi della duplice morte naturale, quindi la madre appariva colpevole oltre ogni ragionevole dubbio. Più tardi alcuni test microbiologici condotti sui tessuti suggerivano l’ipotesi che il secondo figlio poteva essere morto di morte naturale. Inoltre si cominciò a sospettare dei calcoli su cui poggiava la cosiddetta evidenza statistica . Si passò quindi alla revisione del processo. Dopo il processo di appello la Clark venne scarcerata, ma nel frattempo la prigionia aveva compromesso la sua salute mentale e fisica. Nel 2007 venne trovata morta, a quanto pare a causa di intossicazione alcolica acuta. Dove stava l’errore di Meadow? Principalmente nell’assunzione di indipendenza che, come sappiamo, è la premessa per l’applicazione più elementare del principio delle probabilità composte, che consiste nel moltiplicare le probabilità di eventi congiunti. E’ certo che, dati due eventi indipendenti costituiti dalla morte per SIDS, la probabilità che si verifichino ambedue a poca distanza nello stesso ambiente (si aggiunge: benestante , quindi in ambiente salubre) è prossima a zero. Ma è il requisito di indipendenza che suscitava dubbj proprio in quel caso specifico. Qui erano in gioco le morti non di due bambini estranei tra loro ma di due fratelli (sibling) nati dagli stessi genitori e allevati nello stesso ambiente, in cui potevano essere intervenuti fattori comuni ambientali o genetici. In effetti fu fatto vedere da un matematico inglese, R.Hill, che, se la probabilità calcolata è basata sulla probabilità dell’indipendenza, tale indipendenza è di fatto improbabile. In base ad altri calcoli si stimò che la probabilità che i bambini fossero stati assassinati era del 50%, il che è sufficiente a scagionare l’accusata. Il ragionamento che alla fine scagionò la Clark è ineccepibile, ma possiamo anche vedere le cose in altro modo: la signora Clark era stata incarcerata non per una evidenza diretta ma per il tipo di evidenza che Woods chiama circostanziale (inferita per ragionamento) che, come abbiamo visto, è quella più soggetta ad errori. Ciò che è grave nel caso di Sally Clark non è tanto che ci fosse un errore nel ragionamento statistico, ma che nessuno si fosse preoccupato di trovare almeno un indizio supplementare e indipendente per l’ipotesi dell infanticidio. In ogni giallo che si rispetti alla fine l’assassino, individuato con un ragionamento abduttivo dal sagace detective, o confessa (quindi offre una prova indipendente) oppure si incontra una prova ulteriore e definitiva –la controprova- che lo inchioda alla sua colpevolezza. Nel dizionario etimologico alla voce “controprova”si incontra questa definizione doppia definizione:“Nei Tribunali, la prova per testimoni, che viene fatta per distrugere i risultati di quella già esaurita dalla parte contraria”; ma anche “novella prova fatta in modo diverso dalla prima, per accertare l’esattezza di questa”. E’ questa l’accezione che viene usata nel nostro contesto. Il ricorrere del sottotermine “contro-” nel termine “controprova”, che apparenta erroneamente il termine “controprova” ad altri come “controfattuale”o “controdeduzione”, non ha significato negativo. In termini italiani come “controfigura”, “contrappunto”, “controfirma”, il ricorrere del bisillabo “contro” non ha il senso dell’ opposizione ma del rafforzamento per duplicazione. Per esprimere lo stesso concetto a volte nel linguaggio scientifico a volte si usano termini apparentemente più neutri , come “riprova”, e nel linguaggio popolare locuzioni derivate alla lontana dal gergo scientifico come “la prova del nove”. 5In inglese lo stesso concetto è espresso dal termine “cross-check”, che Ricordiamo che “la prova del nove” consiste di una procedura che si può descrivere con un esempio . Supponiamo di moltiplicare 16 x 24 = 384 . Il risultato potrebbe contenere un errore di calcolo. Questo naturalmente è ridotto nell’impiego dei calcolatori elettronici, ma non è completamente escluso in quanto non sono mai esclusi difetti di costruzione o di alimentazione) Somma cifre primo numero (1+6 =) 7 Somma cifre secondo numero (2+4)=)6 Somma cifre prodotto dei 2 numeri dei quadranti superiori 42 4+2 =6 Somma cifre risultato "ipotetico" 3+8+4 = 15 5 indica il riscontro dell’esattezza. 8. Il ragionamento controfattuale e la nozione di inferenza razionale. Prima di proseguire cerchiamo di tratteggiare alcune considerazioni ai fini di bilancio provvisorio. Nessuno può negare che il calcolo della probabilità e i metodi statistici siano imprescindibili nella ricerca scientifica e nell’accertamento della verità giudiziaria. Il problema che abbiamo riscontrato è però il seguente: tanto nella scienza che nel diritto si fa largo impiego di ragionamenti non- deduttivi (chiamiamoli ampliativi includendo per semplicità anche i condizionali controfattuali) in cui non è affatto chiaro che la probabilità abbia un ruolo unificante. Abbiamo anzi visto che un uso incontrollato degli assiomi di Kolmogorov porta a risultati paradossali. Di qui l’ insistente ricerca di logiche alternative, come la logica neobaconiana di Cohen o la fuzzy logic di Zadeh. Aggiungiamo qui una considerazioni di solito trascurata. Spesso si fanno asserti come “la probabilità che si tratti di una coincidenza è å” oppure “la probabilità che i due eventi siano interdipendenti è molto alta”. Ma se si insiste nel trattare la indipendenza o la coincidenza (quindi la dipendenza) come una proprietà definibile in termini probabilistici, asserti come i suddetti diventano asserti del secondo ordine, cioè asserti probabilistici vertenti su asserti probabilistici. Orbene, il modo per calcolare probabilità del secondo ordine non è garantito dagli assiomi di Kolmogorov, e i tentativi di estendere questi assiomi con principi per la probabilità di secondo ordine sono per ora insufficienti. Sembra ci siano buoni motivi, dunque per evitare una definizione probabilistica (nel senso della probabilità classica) delle nozioni che entrano nei ragionamenti ampliativi, anche se ovviamente questi ragionamenti sono per strutturalmente esposti ad avere un certo margine di inesattezza. Bisogna prendere atto in ogni caso che manca a tutt’oggi una teoria comprensiva del ragionamento ampliativo che abbracci tutti questi tipi di ragionamento in modo soddisfacente. Senza pretendere di dire l’ultima parola, cercheremo rapidamente di abbozzare, se non una teoria, almeno alcuni punti fermi per stabilire ciò che si intende per inferenza razionale e inferenza ragionevole. Queste considerazioni serviranno come premesse per gli sviluppi successivi. Cominciamo con l’osservare che nell ‘inferenza non-deduttiva si danno casi in 1 +5 =6 Se i risultati delle due somme eseguite nei quadranti inferiori coincidono questo prova che non c’è stato nessun errore nella moltiplicazione cui gli stessi dati possono portare a conclusioni che sono egualmente plausibili ma incompatibili tra loro. Per illustrare questo fenomeno è utile ricorrere all’effetto gestaltico in psicologia. Il più noto dei disegni Gestaltici è il c.d. “cubo di Necker”. Nella letteratura epistemologica è diventato popolare l’effetto duck-rabbit (si trova in Wittgenstein , ma fu ripreso da Kuhn per illustrare l’idea della visione “carica di teoria”). in cui alcuni soggetti vedono un coniglio, mentre altri vedono un papero. In tutti i casi di effetti gestaltici ottici si ha motivo di credere che l’aggiunta o la sottrazione di informazione grafica o percettiva disambigui l’immagine iniziale. Si dice a volte che queste esperienze visive non sono verbalizzabili. Ma noi supporremo che esse possono descritte con enunciati veri o falsi. Per esempio nel caso del duck-rabbit possiamo dire: a) Nel quadro informativo K il disegno a è la rappresentazione un papero b) Nel quadro informativo K il disegno a è la rappresentazione di un coniglio Ma noi accettiamo anche il postulato che (I) Se un segno a rappresenta correttamente un oggetto O, non può rappresentare correttamente anche un O’ diverso da O. Questo perché una rappresentazione è corretta quando esiste una funzione, cioè una corrispondenza univoca, tra il segno e ciò che essa intende rappresentare. Diverse immagini possono rappresentare uno stesso oggetto, ma un’immagine non può rappresentare più oggetti simultaneamente. Quindi i due enunciati a) e b) non possono essere simultaneamente veri, anche se possono essere simultaneamente falsi. Qualcuno può pensare che il disambiguamento si abbia non aggiungendo ma cancellando informazione da K. Questo certo si può fare per le immagini – cancellando dei punti o dei segni da un disegno- ma con la verità è un’operazione più difficile. Io posso ipotizzare che in un certo mondo possibile qualcosa di attualmente vero non sia vero (come nel caso dei controfattuali o dei condizionali “come se”), ma non posso intenzionalmente eliminare dal mio stato conoscitivo informazione che ho già acquisito (non posso fingere di non sapere qualcosa che so). Si può discutere molto sul concetto stesso di informazione, che è stato oggetto di varie analisi. Se l’informazione non è identificata con lo stato epistemico di un soggetto ma una grandezza indipendente dai soggetti allora la distruzione di informazione è una possibilità innegabile. La distruzione di un data-base o di un libro – per non parlare di un’intera biblioteca, come l’antica biblioteca di Alessandria, comporta una perdita secca di informazione in questo secondo senso. Daremo per scontato, comunque, che la scienza procede conservando informazione passata e che, entro la scienza, l’informazione sia una grandezza che,come l’entropia, è destinata a crescere senza limiti. L’ accrescimento di informazione può portare a una modifica delle relazioni inferenziali tra proposizioni. Supponiamo che rispetto all’informazione K da A si inferisca B. Se K è esteso con nuova informazione K’ può darsi che da K+K’ non si riesca più a fare l’inferenza da A a B. Quando una relazione inferenziale ha questa proprietà si dice che è non-monotòna. Si ricorderà che abbiamo già incontrato una relazione di inferenza non monotona, che è quella operante nella spiegazione statistico-induttiva. Supponiamo infatti che l’explanandum E sia inferibile dall’explanans CL in modo tale che Pr(E| CL) =1-. Può darsi benissimo che aggiunginedo altri elementi informativi a CL il valore di probabilità sia più basso di 1-, cosicché la nuova informazione cancella l’inferenza esplicativa. I condizionali controfattuali soffrono dello stesso inconveniente: Infatti se può essere vero a) Se il fiammifero fosse stato sfregato si sarebbe acceso Non può esserlo b) Se il fiammifero fosse stato bagnato e sfregato si sarebbe acceso. Inoltre che crede vero a) potrebbe rifiutare a) se venisse a sapere che quel particolare fiammifero era, per esempio, difettoso oppure che mancava ossigeno nella stanza ecc. Si può mostrare ora come il ragionamento controfattuale può produrre un fenomeno simile a quello delle immagini gestaltiche. Supponiamo di avere un K che è il seguente (celebre esempio di Quine) 1) Compatrioti sono persone della stessa nazionalità 2) Bizet era francese 3) Verdi era italiano Supponiamo ora controfattualmente : 4) Bizet e Verdi erano compatrioti. L’insieme formato da 1-4 (K + 4) è incoerente e , per la logica classica, ne segue tutto. Se vogliamo distinguere controfattuali veri da controfattuali falsi dobbiamo identificare dei sottoinsiemi coerenti di K + 4). Possiamo eliminare da K 1),2) o3). Eliminando 2) otteniamo come conclusione (BI)“Bizet era italiano” mentre eliminando 3) abbiamo (VF) “Verdi era francese”. Le conclusioni sono ambedue legittime. Ma non possono essere simultaneamente tali perché lo sarebbe anche la loro congiunzione . Quindi dall’ipotesi che i due grandi operisti sono compatrioti seguirebbe che l’uno è italiano e l’altro francese, il che è un’assurdità. Ciò che è certo è che è vera la disgiunzione (BI v VF) Bizet era italiano o Verdi era Francese ma i casi in cui essa è vera ci riportano alla difficoltà originaria. Dunque BI e VF sono due condizionali falsi? Questo è quanto sostenuto da molti filosofi. Il problema si pone anche per condizionali leggermente diversi, che Goodman chiamava controidentici Per esempio (+) Se fossi Verdi avrei scritto “La donna è mobile” (Si noti che questo non è esattamente lo stesso di (++) Se Verdi fosse me, Verdi avrebbe scritto “La donna è mobile” Infatti (++) è falso perché io non ho mai scritto “La donna è mobile”) Dove entra in gioco l’effetto Gestalt è nella equiplausibilità delle conclusioni per certi valori di K. Per esempio, può darsi che K contenga “ io detesto ‘La donna è mobile’”. Se aggiungo questa vera informazione a K, ottengo (+-) Se fossi Verdi non avrei mai scritto “La donna è mobile”. che è incompatibile con (+) Questo è un caso in cui l’aumento di informazione crea un effetto gestaltico, anziché eliminarlo: è quindi effetto del carattere non-monotono dell’inferenza. Qualche premessa può essere utile. a)Uno dei fini distintivi della scienza è l’accrescimento dell’informazione. b) Lo scienziato, a differenza p.es. del giornalista o del critico d’arte, deve tener conto di tutta l’informazione disponibile e non solo di una parte, anche se selezionata. di questa . Una volta questo si chiamava requisito dell’evidenza totale Ovviamente questa non è l’unica massima che dirige l’attività scientifica, perché la scienza tende all’astrazione, che in un certo senso opera in direzione opposta : semplificazione dell’informazione. Inoltre il principio vale solo come idealizzazione, perché ovviamente non si può conseguire in tempo finito.Nello spirito del principio dell’evidenza totale si ha comunque che dovendo scegliere tra insiemi di enunciati da usare come premessa per un ragionamento si sceglierà quello più informativo. Ora una cosa di solito ignorata è che in tutti i casi, se da un certo insieme K si può derivare un controfattuale, si può anche derivare da K una conclusione incompatibile. Sia K per esempio L: Tutti i fiammiferi sfregati in condizioni ottimali si accendono Pr(B/A) = 1 1) Il fiammifero a non è stato sfregato 2) Il fiammifero a non si è acceso Supponiamo ora di aggiungere l’ipotesi controfattuale che nega 1): E’ falso che il fiammifero a è stato sfregato. I controfattuali asseribili con verità in realtà sono due: a)-Se il fiammifero a fosse stato sfregato si sarebbe acceso. b)-Se il fiammifero fosse stato sfregato sarebbe l’esempio di un fiammifero sfregato che non si accende 6. Ma è chiaro che, comunque si consideri b), a) e b) sono enunciati incompatibili esattamente come nel caso Bizet-Verdi. Quindi a rigore una conclusione inoppugnabile sarebbe questa disgiunzione: (*) O il fiammifero sfregato si sarebbe acceso o sarebbe l’esempio di un fiammifero sfregato in condizioni ottimali che non si accende. Per quale motivo si tende invece a concludere con a) ? La conclusione del controfattuale a) si ottiene eliminando il fatto 2), mentre (b) è ottenuta eliminando una legge. E, comunque si voglia definire il contenuto informativo, il contenuto informativo di una legge è sempre superiore a quello di un qualsiasi fatto singolare. Questo è il motivo per cui i condizionali ordinari non sono controfattuali gestaltici. Anche in casi in cui il contesto K è ridotto al minimo i controfattuali generano due conclusioni incompatibli. Esempio: §) Se Apollo fosse uomo sarebbe mortale §§)Se Apollo fosse uomo sarebbe l’esempio di un uomo immortale. Dunque il ragionamento controfattuale, per offrire conclusioni attendibili, consiste di fatto nella scelta di un sottoinsieme di K compatibile con h che contiene il massimo di informazione compatibile con h. Che accade quando questa scelta non è possibile perché le due conclusioni ci sembrano indifferent? L’aggiunta di informazione allo stock K può eliminare l’ambiguità e può risolvere anche il caso dei Si può discutere sul fatto che b) sia un vero condizionale. Esso ha il senso di un “ anche se”: “Anche se fosse stato sfregato non si sarebbe acceso” che è detto talora semifattuale o, come si può dire meglio, un semicondizionale. 6 controfattuali gestaltici. Riprendiamo il caso Bizet-Verdi. Supponiamo di scoprire una lettera di Verdi da cui si viene a sapere che Verdi odiava la Francia e la popolazione francese. Inoltre si viene a sapere che Bizet voleva chiedere la cittadinanza italiana. Inoltre aggiungiamo la legge L°: Chi odia una nazione, non accetta di essere cittadino di questa nazione. In tal caso non si può dire che le conclusioni sono egualmente plausibili. La conclusione “Verdi sarebbe stato francese” è incompatibile con questa informazione supplementare, quindi ci costringe a rimuovere più informazione che nell’altro caso. Dunque abbiamo stabilito che ciò che entra in gioco nell’ inferenza controfattuale è una scelta tra conclusioni conflittuali. Ma qual è la natura dell’inferenza che porta a ciascuna di tali conclusioni? Si può dire che c’è una legge logica o non-logica che fa da ponte tra antecedente e conseguente. Secondo alcuni filosofi è sufficiente il linguaggio probabilistico per rendere questo rapporto. Come già sappiamo, è disponibile la relazione Pr(B|A) = 1 (margine di errore) che può variare contestualmente, con cui vogliamo così esprimere l’ideale della conclusione “al di là di ogni ragionevole dubbio” che è richiesta dal diritto penale. In questa sede possiamo darne una versone modale: quasi tutti o tutti i mondi possibili in cui è vero A sono mondi in cui è vero B. Quando si impone una scelta tra conclusioni conflittuali possiam parlare di inferenza razionale. I controfattuali sono basati su inferenze razionali in cui l’antecedente è noto essere falso. Se l’antecedente è vero siamo di fronte a quelli che chiamiamo condizionali fattuali. Se il valore di verità dell’antecedente è sconosciuto parliamo di condizionali afattuali. (I latini parlavano di periodi ipotetici della irrealtà, della realtà e della possibilità). Si è visto dunque che i controfattuali ci pongono sempre di fronte alla scelta razionale tra conclusioni incompatibili. Ma anche nei condizionali fattuali, anche se meno evidente, si impone una scelta del genere. È questa la lezione che si ricava dal cosiddetto “ paradosso di Goodman”, che abbiamo già esaminato a suo tempo. Qui in base a due ragionamenti inoppugnabili, ci troviamo di fronte a due conclusioni incompatibili : gli smeraldi futuri saranno verdi /gli smeraldi futuri sarannno blu. Abbiamo gli elementi per compiere una scelta? Sì, se si considera che ogni stock di informazione dovrebbe contenere il principio di Uniformità della Natura (UN), che essendo di tipo infinitario (cioè si riferisce a un numero infinito di fatti) ha un massimo contenuto informativo. Allora in base a UN bisogna respingere qualsiasi conclusione che comporta latrasformazione cromatica degli smeraldi e accettare semplicemente che iprossimi smeraldi saranno verdi. Anche qui, dunque, la conclusione incontrovertibile è una disgiunzione. (Dopo il 2500 gli smeraldi sono blu o sono verdi), ma la razionalità consiste nell’eliminare un disgiunto incompatibile con una legge di alto contenuto informativo. Quindi si può legittimamente sostenere che il ragionamento induttivo, è ottenuto per selezione razionale di una conclusione. Qualcuno può pensare che non si diano casi di induzione gestaltica, analoghi a quello Bizet-Verdi, ma questo non è vero: anzi fa parte della vita quotidiana sperimentare che vale l’opposto. Un esempio è questo. Supponiamo che K contenga queste informazioni 1) Un certo aereo a ha i motori costruiti dalla casa X ed appartiene alla compagnia Y 2) La compagnia Y non ha mai avuto incidenti 3) I motori della casa X si sono rivelati difettosi Conclusione 1: I prossimi voli dell’aereo a sono rischiosi Conclusione 2: a sono sicuri. Perché scegliere 1 piuttosto che 2? Questo fenomeno gestaltico è ben noto alle compagnie aeree, che nascondono i dati sullla sicurezza dei propri voli perché molti si aspettano che gli incidenti siano ineluttabili e che le case aeree che non hanno mai avuto incidenti, anziché essere più sicure, sono le più rischiose. Infatti abbiamo due generalizzazioni in K che possono generare conclusioni incompatibili: 1) La compagnia X non ha mai avuto incidenti 2) Tutte le compagnie aeree prima o poi hanno incidenti Supponiamo che la compagnia X non abbia mai avuto incidenti. Si può concludere tanto che la compagnia X avrà presto un incidente quanto che non lo avrà. Che cosa può far pendere la bilancia da un lato? Per esempio un incidente della compagnia X! Altro esempio. Si supponga che qualcuno trasferisca una coppia di orsi bruni al Polo Nord e si chieda: di che colore saranno i cuccioli? Qui ho due leggi: a) Tutti gli animali che vivono al Polo sono bianchi. b) Tutti i cuccioli di orsi bruni sono bruni Domanda: I cuccioli di questa coppia saranno bianchi o neri? Prima facie sono legittime tutte e due le risposte. Si noti che la probabilità è sempre 1-, se dipende da qualche sottoinsieme di K. Ma la legge b) dipende dalla teoria darwiniana, che spiega la legge, quindi ha la precedenza. Il motivo per cui va respinto a) è che a) non è una vera legge, anche se può essere accidentalmente vera. La legge è un’altra, cioè che tutte le specie animali che hanno il Polo come habitat naturale sono tendenzialmente bianche, e questo non riguarda animali accidentalmente trasferiti al Polo. Chi ha visto chiaramente il ruolo dell’informazione di sfondo nel ragionamento è stato Hempel nel precisare la teoria della spiegazione statisticoinduttiva Hempel ha visto chiaramente che, a differenza della spiegazione nomologico-deduttiva, la spiegazione IS è sensibile alla quantità di informazione che compare nella premessa. Come abbiamo già visto, questo è ciò che si intende per “inferenza non-monotòna”. Nella spiegazione IS - come noi abbiamo richiesto- la conclusione deve seguire dalle premesse con probabilità 1-. Supponiamo per esempio che la domanda (il problema ) sia: Perché Rossi si è ristabilito in tre giorni dall’ operazione? Spiegazione: Perché è stato operato di appendicectomia e quasi tutti quelli che sono operati di appendicectomia, come lui, si ristabiliscono. Ma supponiamo di aggiungere - informazione supplementare che Rossi ha 95 anni. Allora qui dobbiamo tener conto di una seconda legge, L*: Quasi tutti coloro che hanno 95 anni non si ristabiliscono da operazioni chirurgiche. La spiegazione precedente quindi è errata. Se Rossi è soprravvissuto, non può essere per la ragione sopra menzionata. Questo è un effetto Gestalt? Decisamente sì: abbiamo due sottoinsiemi coerenti dello stesso insieme di informazioni che danno origine a conclusioni abduttive opposte . Hempel esige la regola dell’evidenza totale o meglio della sua variante che è il principio della massima specificità: ogni explanandum deve essere descritto don la massima specificità consentita dalle informazioni disponibili. In tal caso qualsiasi spiegazione deve tener conto del massimo di evidenza favorevole e contraria. Non è qui la sede per fare un discorso sulla diversa posizione dei positivisti e degli anti- o post- positivisti sul problema della spiegazione. Kuhn ha paragonato il mutamento teorico a un cambiamento gestaltico. Per lui possono esserci spiegazioni gestalticamente diverse dello stesso fenomeno (per esempio il tramonto del sole) in dipendenza da paradigmi diversi. Sono i paradigmi che selezionano l’evidenza, e non l’evidenza che seleziona i paradigmi. Il punto di vista qui sostenuto è antikuhniano. Si ritiene che i fenomeni gestaltici siano dovuti solo a insufficienza della conoscenza disponibile,e non alla relatività dei punti di vista. Il progresso della conoscenza risolve i casi perplessi, anche se può introdurne di nuovi. Il caso dell’abduzione presenta, proprio in tema di relatività, un problema supplementare rispetto alla deduzione e all’induzione. La selezione infatti è effettuata entro un insieme di ipotesi che sono fissate dal ricercatore stesso con un certo grado di arbitrarietà. Anche qui ci troviamo pure di fronte a situazioni gestaltiche, così come nel caso dell’induzione e del ragionamento controfattuale. Sherlock Holmes nelle sue indagini di tipo abduttivo si basa sullo slogan più volte ripetuto “Eliminati tutti i fattori quello che rimane, per quanto improbabile, deve essere la verità”. (“Il segno dei quattro” contiene un capitolo intitolato “The Science of Deduction”). Tuttavia in Holmes si ha da un lato il culto dei “duri fatti” in quanto opposti a spericolate ipotesi teoriche, dall’altro si trova una consapevolezza quasi postpositivista che non ci sono fatti che parlano da soli. “Le prove schiaccianti sono un vero imbroglio” replicò Holmes con aria pensierosa.“Sembrano indicare una cosa con la massima chiarezza, ma se si sposta appena un po’ il proprio punto di vista, possono indicare con altrettante chiarezza una cosa completamente diversa” (Il mistero di valle Boscombe). Riparafrasando le idee in termini familiari, Holmes sembra dire che ci sono casi in cui l’informazione disponibile suggerisce due conclusioni completamente diverse o addirittura opposte. Per trattare astrattamente la situazione in linguaggio modale: abbiamo uno stock di informazioni K e due sottoinsiemi K’ e K” tali che 1)Quasi tutti i mondi in cui è vero K ‘ sono mondi in cui Rossi è innocente 2)Quasi tutti i mondi in cui è vero K’’ sono mondi in cui Rossi è colpevole. Ma, rispetto al caso dell’inferenza induttiva o controfattuale, si pone un problema . Nel caso dell’induzione e del ragionamento controfattuale la nuova informazione elimina la disgiunzione di conclusioni incompatibili , mentre nel caso dell’abduzione l’informazione aggiuntiva potrebbe introdurre nuove ipotesi non prese in considerazione prima, eventualmente eliminando tutte le ipotesi iniziali. Dunque il problema primario da risolvere nel caso dell’abduzione è quello della esaustività delle ipotesi generate. In altri termini bisogna cercare di generare tutte le ipotesi possibili, senza trascurare le più improbabili, in modo tale che la probabilità della loro disgiunzione si approssimi a 1. Il problema della generazione è aggravato dal fatto che si esige non solo l’esaustività delle ipotesi ma la loro incompatibilità. Si pensi che si è ritenuto per anni che la teoria corpuscolare e quella ondulatoria fossero incompatibili. Ma oggi non siamo sicuri che le ipotesi fossero esclusive. La luce potrebbe essere qualcosa di differente da un’onda e da un corpuscolo (potrebbero essere una wavecle) , oppure potrebbe essere un ente tale da presentare simultaneamente aspetti tanto corpuscolari che ondulatori. Si noti, incidentalmente, che si possono anche dare dei casi di ridondanza esplicativa. Ci resta il dubbio, per esempio, sulle cause di un incidente automobilistico senza testimoni: improvvisa rottura dei freni o malore del guidatore? La probabilità (statistica) che si siano verificate insieme le due sfortunate circostanze è talmente bassa da superare la soglia di ciò che giudichiamo ragionevolmente possibile. Ma non si può logicamente escludere che si siano verificate insieme in quello specifico caso. Si noti che questo ci porta a riformulare meglio dal punto di vista combinatorio il ventaglio delle ipotesi. Invece di esaminare la disgiunzione h1 o h2 , dovremo esaminare la disgiunzione h1 o h2 o (h1 & h2). Il discorso sull’abduzione si salda con il discorso sulla percezione Gestaltica. Infatti Peirce ha insistito sul fatto che la categorizzazione dei dati percettivi non è qualcosa di immediato o automatico ma dipende da un ragionamento abduttivo compresso, dovuto ad automatismi psichici. Supponiamo di entrrare in una stanza chiusa, tocchiamo un tessuto e lo classifichiamo come lana. Questo significa operare, anche se in modo inconscio, un’abduzione, cioè inferire che la causa (la spiegazione) della sensazione è un tessuto di lana. Recentemente si è parlato anche di abduzione visuale. Il caso della percezione gestaltica del DuckRabbitt sarebbe quindi un caso di abduzione visuale in cui soggetti diversi derivano una conclusione sulla base di insiemi informativi differenti. Concludendo, le varie forme di ragionamento non dimostrativo che abbiamo esaminato hanno tutte in comune il fatto di comportare una scelta tra conseguenze in un certo senso incompatibili. La conclusione che viene scelta è quella derivata da un sottoinsieme di K che conserva il massimo di informazione disponibile. Ogni inferenza razionale quindi è tipo di inferenza basato sul criterio della minima perdita di informazione. Si può usare il termine ragionevole per indicare che il nesso inferenziale tra A e B non è stabilito solo con ragionamenti probabilistici o statistici ma con l’impiego effettivo di leggi di natura che facciano da ponte tra antecedente e conseguente7. 7 9 Questo punto non può essere approfondito in questa sede. Basti osservare che un alto valore di Pr(B|A) potrebbe essere derivato semplicemente da un ‘alta probabilità a priori di B, non a ragione di un nesso tra A e B. Naturalmente altri criteri di selezione potrebbero essere adottati, per esempio facendo leva su maggiore probabilità o maggiore verosimiglianza o maggiore semplicità della conclusione. Ma la quantità di informazione è il più importante, in quanto la massimizzazione di questa grandezza è uno degli obiettivi che distinguono la scienza da altri sistemi di pensiero. Resta solo da considerare che la teoria dei controfattuali dominante oggi, dovuta sostanzialmente a David K.Lewis, è molto diversa da quella sopra delineata. Infatti è basata non sul confronto tra le quantità di informazione ma sull’idea del confronto di somiglianza tra mondi possibili. Secondo Lewis, il condizionale A > B è vero in un mondo w se gli A-mondi più simili a w sono B –mondi. Esempio: “Se Hitler avesse invaso l’Inghilterra nel 1940 avrebbe vinto la guerra” significa “I mondi possibili più simili all’attuale in cui Hitler ha invaso l’Inghilterra nel 1940 sono mondi in cui Hitler ha vinto la guerra”. Purtroppo ci sono inferenze valide per Lewis che non lo sono per la teoria dell’ inferenza ragionevole sopra enunciata. “Se Bizet e Verdi fossero compatrioti la terra sarebbe sferica” è valido per Lewis in quanto i mondi possibili più simili al nostro in cui Bizet e Verdi sono compatrioti sono mondi in cui la terra è sferica. Ma il conseguente non è derivato dall’antecedente per vie di qualche legge logica o fisica, e l’inferenza non appare ragionevole. Del resto per la teoria di Lewis risulta valido un teorema che consente di inferire, da (A &B), sia A > B che B > A. La regola non riguarda i controfattuali ma condizionali fattuali, cioè con antecedente e conseguente vero, e dipende dall’inevitabile assunto che il mondo attuale è quello più simile a se stesso. Questa formula asserisce che ogni condizionale è vero purchè le due clausole siano vere –per esempio “se i prati sono verdi Giulio Cesare ha conquistato la Gallia” - il che in un certo senso banalizza tutta la teoria per la parte riguardante i condizionali fattuali. C’è un senso tuttavia in cui anche la teoria di Lewis si può pensare basata sulla conservazione dell’informazione. Secondo Lewis nel ragionamento controfattuale c’è un’asimmetria tra passato e futuro. Facendo un’ ipotesi controfattuale a suo avviso bisogna conservare tutti i fatti antecedenti cronologicamente all’ipotesi, ma non quelli cronologiamente successivi. A suo avviso i mondi possibili più simili all’attuale sono quelli che hanno in comune con il mondo attuale la maggior parte dei fatti che precedono il momento in cui dovrebbe verificarsi l’ipotesi controfattuale. Il prezzo da pagare per questa asimmetria però è la sospensione di leggi di natura, cioè l’ammissione di ipotetici miracoli. Se per esempio dico “Supponiamo che il barometro ieri non si sia abbassato ” secondo Lewis i mondi più simili all’attuale in cui l’ipotesi è vera sono mondi in cui viene conservata una depressione atmosferica precedente, il che significa che nei mondi più simili all’attuale in cui il barometro ieri non si è abbassato ciò si è verificato senza causa apparente. Viene quindi eliminata la legge di natura secondo cui la depressione è sempre seguita dall’abbassamento del barometro. Dal nostro punto di vista questo è però errato perché le leggi hanno un contenuto informativo maggiore dei fatti singoli, e quindi vanno sempre conservate nel caso in cui si sia di fronte ad una scelta. 9. La teoria controfattuale della causa e l’accertamento delle cause. L’abduzione, come abbiamo visto, è l’inferenza alla migliore spiegazione. Ma le spiegazioni più soddisfacenti sono le spiegazioni causali. Per questo motivo molti hanno semplificato il concetto di abduzione definendo l’abduzione semplicemente come l’inferenza dagli effetti alle cause. In effetti questa riduzione è lecita se facciamo coincidere la relazione esplicativa con la relazione causale. Questa identità in effetti è stata teorizzata da Hempel e dai neopositivisti, con il sostanziale consenso di deduttivisti come Popper. Come si è visto, dal punto di vista Hempeliano la relazione esplicativa è quella che intercorre tra explanans ed explanandum. Complessivamente l’explanans è una condizione sufficiente per l’explanandum, quindi i suoi elementi C1…Cn sono sufficienti per l’explanandum in congiunzione con altri elementi. L’inconveniente di questa dottrina è che qualsiasi correlazione statistica può essere classificata come causale, portandoci quindi a cadere nella più classica e fastidiosa fallacia di ragionamento causale. Il neopositivismo, che ha sempre professato qualche forma di riduzionismo causale , ha tentato di eliminare il linguaggio causale a favore di quello probabilistico, con tentativi spesso ingegnosi ma poco soddisfacenti. Per esempio la teoria probabilistica della causa di P.Suppes, ispirata da Reichenbach, si riduce ad asserisce che la causa è ciò che incrementa la probabilità dell’effetto, a meno che non esista un terzo evento antecedente che annulla il peso probabilistico della presunta causa. Sono molti i controesempi che si potrebbero opporre a questa tesi, alcuni dei quali dovuti a certe classi di valori probabilistici. Se , per esempio, l’evento successivo ha già un grado di probabilità pari a 1 (per esempio il sorgere del sole domani mattina) , non c’è niente che possa innalzare il suo valore di probabilità , e quindi risulta,paradossalmente, non causato da nulla. Che dire inoltre quando la presenta causa abbassa la probabilità dell’effetto: per esempio quando una pallina da golf urta contro un ramo e , a causa di questo, per un improbabile ma possibile colpo di fortuna, finisce in buca? La dottrina della condicio sine qua non, impiegata nei tribunali da secoli e probabilmente derivata dal diritto romano, non presenta questo difetto, anzi si può anche sostenere che i controfattuali, correttamente formulati, si possono presentare come strumento per l’eliminazione delle correlazioni spurie. Viene quasi spontaneo osservare che l’abbassamento del nostro barometro non può essere causa del temporale di stasera perché, se non ci fosse l’abbassamento del barometro a ragione dell’assenza di barometri, il temporale si verificherebbe egualmente. Questo esempio però è utile a far riflettere sulla forma logica di questo tipo di giudizi. L’asserto “l’abbassamento del mio barometro è causa di tempesta” implica il controfattuale (°°) Se il mio barometro non si fosse abbassato non ci sarebbe tempesta” Secondo la semantica d David Lewis, che ha rilanciato la teoria controfattuale della causa nel 1970, (°°) va reinterpretata così: Nei mondi possibili più simili all’attuale in cui il mio barometro non si è abbassato non c’è stata tempesta. È vero o falso? Dipende da come intendiamo la somiglianza. Secondo Lewis. Come abbiamo già detto, i mondi più simili all’attuale per Lewis sono quelli uguali all’attuale per quanto riguarda la storia passata fino al momento in cui il barometro si abbassa; in questi mondi c’è una depressione atmosferica antecedente ma, per qualche misterioso fenomeno (piccolo miracolo) il barometro che dovrebbe abbassarsi non si abbassa. Dunque la somiglianza consiste nella conservazione del passato, ma non nella conservazione delle leggi di natura. Tutto questo è inammissibile se vogliamo poter dire che le leggi (v. paragrafo precedente) servono a stabilire un rapporto consequenziale tra antecedente e conseguente. Quando si ipotizza la negazione di un fatto si sottintende che la classe delle leggi accettate resti stabile, in base al principio della conservazione di informazione. Questo non significa escludere che ancheuna legge potrebbe essere ipotizzata falsa. In questo caso si parla non di controfattuali ma di controlegali. P.es. “Se i pianeti ruotassero attoro al sole in orbite circolari anche la terra ruoterebbe in un’ orbita circolare” Queste ipotesi non sono oziose perché ci permettono di capire le conseguenze di teorie false che un tempo erano considerate vere. Si noti che anche per i controlegali vale il principio di conservazione dell’informazione, nel senso che viene rimossa solo la legge ipotizzata falsa e tutti gli enunciati interconnessi con essa, mentre vengono conservate tutte le leggi indipendenti dalla legge in questione (tra cui quelle di livello superiore come, per esempio, il principio di gravitazione universale). Nel caso dei controfattuali che intervengono nell’accertamento delle cause, invece, vengono ipotizzate delle mancate occorrenze di eventi singolari (tokeneventi). Gli eventi singolari sono eventi spazio-temporalmente determinati (es. “il gatto Bilbo miagola alle 10.30 del 20 settembre 2008”), mentre gli eventi generici (type -events) non hanno determinazioni spazio-temporali. Senza entrare in una complessa discussione filosofica, qui stiamo assumendo che le relazioni causali interevengono tra token-eventi, non tra eventi generici, leggi, proprietà, proposizioni o altri tipi di relata. In particolare, sono da considerare improprie asserzioni come “il sasso causò la rottura del vetro”, che fanno pensare a una ontologia aristotelica secondo cui le relazioni causali intervengono tra corpi o sostanze dotate di poteri causali. Per essere più precisi, un evento semplice nel senso individuato è una tripla [P, a,t] dove P è una proprietà, a è un oggetto , t è l’istante di inizio. Per esempio se P= essere aperto, a=l’ingresso principale dell’Università Statale di Milano, t= 8.10 di oggi, l’evento in questione è l’evento per cui il portone della Statale è aperto alle 8.10 di oggi. Un evento complesso è una generalizzazione di un evento semplice in cui intervengono relazioni multiple (p.es. “essere padre di”) anziché predicati semplici, una molteplicità di enti anziché un unico soggetto, e un intervallo I anziché un istante atomico t. Scriveremo Oe, dove e=[P, a,t] per indicare che l’evento e occorre , cioè si verifica. Questo asserto significa tre cose distinte: 1) Esiste realmente in t l’entità a 2) a ha la proprietà P in un intervallo iniziante con t 3) Prima di t a non ha la proprietà P In altri termini 2) e 3) asseriscono che t è l’istante d’inizio della verità di “a è P”. Da questa definizione segue che ipotizzare la negazione di Oe è una faccenda complessa. Infatti negare Oe significa negare i tre elementi della congiunzione di 1,2,3, cioè affermare uno dei tre almeno è falso. Quindi la negazione è ambigua perché significa che o è falso 1 o 2 o 3. Supponiamo per esempio di fare l’ipotesi che il mio barometro non si sia abbassato alle 20.30 di ieri (istante di inizio del suo reale abbassamento). Omettendo per semplicità di considerare la clausola 3, questa ipotesi è ambigua perché in realtà si riduce ad una disgiunzione: o non esisteva il mio barometro alle 20.30 di ieri o , se esisteva non si abbassato a partire dalle 20.30 di ieri. Si noti che il secondo disgiunto è pure ambiguo, perché può essere inteso nel senso che non si è abbassato affatto oppure che si è abbassato in qualche momento diverso. Per restare in questo esempio paradigmatico, chiediamoci se c’è un nesso causale tra l’abbassamento di questo barometro alle 20.30 e l’evento “tempesta verificatasi ieri a partire dalle 23 di ieri”. Per rispondere dobbiamo esaminare le risposte a due domande distinte: 1) Se non fosse esistito il barometro in quel momento dello spazio-tempo ci sarebbe stata la tempesta delle 23.30? Risposta : Sì, ci sarebbe stata 2) Se l’abbassamento del barometro non si fosse verificato alle 20.30 ci sarebbe stata la tempesta delle 23.30? Risposta : No, non ci sarebbe stata Le due domande controfattuali danno quindi delle risposte differenti, il che significa che il nesso causale ipotizzato è falso. Bisogna evidenziare che la relazione causale non va confusa con quella esplicativa, anche se molti neopositivisti tendevano a fare questa identificazione. Un celebre controesempio alla teoria hempeliana della spiegazione scientifica (quindi alla teoria hempeliana della causalità) è quello, dovuto a Bromberger, dell’asta della bandiera. La lunghezza dell’asta rende calcolabile esattamente, data una certa posizione del sole, la lunghezza dell’ombra, ma con la stessa esattezza si può risalire dalla lunghezza dell’ombra alla lunghezza dell’asta. Questo significa che la relazione di spiegazione può essere simmetrica, forse contro le intenzioni di Hempel. Tutto sommato questo non sembra così dannoso come alcuni sembrano pensare. Nei rapporti di interazione, privilegiati dai pensatori dialettici, ha un senso preciso spiegare a in termini di b e b intermini di a. Supponiamo, riprendendo un vecchio esempio di Vailati, che due sfere vengano fatte cadere simultaneamente entro un imbuto e si fermino una contro l’altra. È giusto dire che la posizione della prima spiega la posizione della seconda e la seconda spiega la posizione della prima. Ma è fuorviante, secondo noi, dire che la posizione della prima causa la posizione della seconda e anche viceversa. I motivi per negarlo sono almeno due: 1) per ammettere questo bisogna ammettere che esistono dei casi di causalità simultanea, mentre questo è escluso dal principio di azione ritardata 2)Se si ammette la transitività della causazione almeno entro intervalli brevi allora, se a causa b e b causa a , a causa a. Quindi bisogna ammettere l’autocausazione di a, il che è contrario ad ogni concepibile definizione di causa. Applicando il metodo proposto è facile invece verificare che il controfattuale “se il fiammifero non si fosse acceso alle 20.30 il pagliaio non si sarebbe incendiato alle 20.31” è vero in quanto riposa su una risposta univoca ai tre quesiti di cui sopra. In particolare, se non ci stato nessun fiammifero in quella collocazione il pagliaio non si sarebbe incendiato (in quelle condizioni). La lezione che si apprende da queste considerazioni è che normalmente la presenza o esistenza reale dell’oggetto che fa parte del token-evento influisce sull’accadimento dell’effetto. Infatti esso corrisponde a quella che Aristotele chiamava causa materiale. Quando ciò non accade siamo di fronte a una grave anomalia che ci impedisce di parlare di nesso causale. Gran parte della confusione nelle discussioni sulla causalità risiede nel fatto che c’è un numero ampio di nozioni causali di diversa forza e complessità. È diverso dire che un evento rispetto a un altro è causa scatenante , determinante, immediata, remota, … La teoria controfattuale della causa mira a individuare in un condizionale controfattuale semplicemente la nozione di causa che è minimale, quella cioè che è semplicemente il minimo comune denomiatore di tutte le nozioni di causa. In quanto tale esso funziona in molti più come come marchio per discriminare le relazioni causali da altri tipi di relazione che non come espressione di causalità pregnante. Per fare un esempio, prendiamo questi controfattuali veri in cui l’antecedente precede il conseguente: “Se Rossi non si fosse sposato non sarebbe divorziato” “Se Cesare non fosse nato, non sarebbe morto assassinato” “Se la fabbrica non avesse prodotto questo fiammifero, questo fiammifero non si sarebbe acceso”. In questi casi la nostra intuizione non suggerisce immediatamente la presenza di un nesso causale, parte per la banalità della relazione, parte per la distanza cronologica tra presunta causa e presunto effetto. Ma, se nessuno abitualmente si sente di enunciare proposizioni causali di questo tipo (a meno che non si intenda essere intenzionalmente scherzoso), bisogna anche ammettere che nessuno negherebbe che un certo nesso causale, anche se debole, sussista tra i suddetti eventi. Questo nesso può essere descritto come un nesso di rilevanza causale e gli antecedenti si possono chiamare fattori causali. Tutte le relazioni causali più importanti si lasciano descrivere come costruzioni basate su questa relazione basilare. Per esempio la relazione di causa determinante, che è la relazione causale piè forte, di può definire in questo modo: e1 è causa determinante di e2 = e1 è causalmente rilevante per e2 e e1 è un elemento nella spiegazione hempeliana di e2. Può anche essere che e1 non solo spieghi e2 ma che e1 sia inferibile abduttivamente da e2 come la spiegazione migliore di e2 . in questo caso diremo che e1 è causa completamente determinante per e2. e1 è causa diretta di e2 = e1 è causa determinante e non esistono altre cause determinanti intermedie tra e1 e e2. e1 è la causa di e2 = e1 è causa determinante di e2 e non esistono altre cause determinanti di e2 (almeno tra quelle che vengono prese in considerzione nell’attuale contesto di ricerca). Si noti che anche se il termine “causa” e “relazione causale” in italiano si prestano a molte ambiguità, ci sono termini che opportunamente parafrasati esprimono queste sfumature concettuali. Si pensi per esempio al verbo “determinare”, che indica per l’appunto la relazione di causa determinante. È il caso di osservare che l’affermrsi della concezione controfattuale della causa, anche nel diritto, ha avuto una storia abbastanza complessa. Osserviamo prima di tutto che Mill, rifacendosi sostanzialmente a Bacone, formulava quattro metodi per la scoperta delle cause, che come è noto sono i seguenti: 1)Metodo dell’accordo 2) Metodo della differenza 3) Metodo congiunto dellàaccordo e della differenza 4) Metodo delle variazioni concomitanti 5) Metodo dei residui. Studiando attentamente questi metodi ci si acccorge che il metodo più importante è il metodo della differenza. Per esempio se dopo una gita scolastica alcuni sono colpiti da qualche tipo di intossicazione elementare ci si può chiedere 1) che cosa hanno in comune i ragazzi intossicati? Questo è il metodo dell’accordo, ma è abbastanza chiaro che esso può portare a stabilire qualche correlazione spuria . Per esempio i ragazzi intossicati potrebbero avere mangiato tutti dei funghi, ma questa potrebbe non essere la causa perché si potrebbe poi osservare che molti ragazzi, anche alcuni non-intossicati, anche mangiato dei funghi. Forse si potrebbe scoprire anche che gli intossicati portano tutti scarpe marroni, ma questa non si può chiamare causa. 2) che cosa hanno in comune i ragazzi non intossicati che li differenza da ciò che hanno mangiato gli altri? Supponiamo di scoprire che la differenza è il fatto che non hanno mangiato alcune barrette di cioccolato che hanno mangiato gli altri. Questa è la differenza tra chi è stato intossicato e chi no. Allora queste barrette, non i funghi, sono state la probabile causa dell’intossicazione. Si noti che questa evidenza sostiene il controfattuale “se i ragazzi intossicati non avessero mangiato cioccolato di quel tipo non si sarebbero intossicati” perchè si ritiene stabilita la legge “Tutti i ragazzi che in condizioni pari a quelle della situazione vista non mangiano cioccolato del tipo analogo a quello del momento non si intossicano”. Con il metodo congiunto dell’accordo e della differenza riusciamo a stabilire la causa determinante. Supponiamo infatti di aver riscontrato che gli intossicati, e solo loro, hanno mangiato cioccolato. Infatti l’aver mangiato cioccolato spiega il verificarsi dell’intossicazione (in quanto descrive una condizione sufficiente per questa) e nello stesso tempo stabilisce la condizione necessaria per lo stesso fenomeno. Si noti che, se le correlazioni stabilite sono di tipo statistico, l’applicazione del metodo congiunto ci riporta al metodo statistico standard, visto a suo tempo, per cui dobbiamo estrarre dall’universo un campione sperimentale e confrontarlo con un campione di controllo: nel caso dell’esempio dobbiamo calcolare la percentuale di quanti hanno mangiato cioccolato tra gli intossicati e confrontarla con la percentuale di intossicati che non hanno mangiato cioccolato (che nel caso dell’esempio ha un valore pari a 0). Il Metodo delle Variazioni Concomitanti chiede di riconoscere come relazioni causali quelli in cui il presunto effetto varia in dipendenza dalla presunta causa. Per esempio potrebbe essere che l’intensità dell’intossicazione varia in funzione della quantità di cioccolato consumata dai singoli ragazzi. Anche questo si presta all’enunciazione di un controfattuale del tipo che è stato chiamato “controcomparativo”: per sempio, “se Pierino avesse mangiato meno cioccolato avrebbe avuto un minor grado di intossicazione”. In moti contesti scientifici in cui le leggi funzionali correlano valori numerici (esempio: misura della pressione e del volume nella legge di Boyle –Mariotte) i controcomparativi possono avere delle quantificazioni: p. es. “Se Pierino avesse mangiato grammi x di cioccolato avrebbe avuto un intossicazione al grado z”. Ma qui naturalmente l’esempio mostra che c’è una forzatura nell’usare dei valori numerici. Non ha molto senso stabilire dei gradi di intossicazione espressi numericamente, anche se naturalmente si possono trovare degli indici utili (p.es. numero di giorni di malattia, valori febbrili ecc.). In effetti il Metodo delle Variazioni concomitanti è un’utilissimo metodo di riprova della validità dei controfattuali causali, ma è un errore pensare che da solo conduca all’accertamento dei nessi causali. Ciò si può dire per due sostanziali motivi: 1) Nei casi di biforcazione causale la causa spuria, o indizio, può benissimo essere correlato funzionalmente con l’effetto, senza che ciò abbia a che vedere con il nesso causale. Il caso del barometro è ancora indicativo. A valori barometrici molto bassi possono corrispondere tempeste di particolare lunghezza e intensità e, volendo, si può redigere una tavola di correlazioni tra valori del primo e del secondo tipo. Ma , come abbiamo visto, il controfattuale in questione risulta falso perché è l’esistenza o inesistenza dell’oggetto barometro che va considerta per stabilire se la correlazione è spuria. 2) Ci sono molti casi di correlazione causale in cui la proporzionalità tra causa ed effetto o non sussiste o sussiste entro una fascia limitata di valori. Un bicchiere d’acqua lenisce la sete e due bicchieri ottengono un effetto proporzionalmente maggiore. Ma questo non si può dire di 10 bicchieri d’acqua,e far bere a qualcuno 100 bicchieri d’acqua si può considerare un metodo di tortura. Non bisogna inoltre dimenticare che la causa precede temporalmente l’effetto, mentre in molte correlazioni funzionali tra tipi di grandezze non ha senso stabilire la correlazione cronologica tra una variabile e l’altra. Così nei fenomeni economici a spirale, come della correlazione aumento dei prezzi-aumento deisalari, non viene fissato l’indice cronologico degli eventi, anche perché gli eventi sono continui e si verificano simultaneamente, quindi è difficile districarli. Per questo è importante che i giudizi causali siano sempre tra tokeneventi. Quanto al Metodo dei residui, questo asserisce che se un fenomeno complesso è stato parzialmente spiegato da una parte del fenomeno complesso C, quello che resta da spiegare in E è prodotto dalla parte di C. Ciò che interessa qui è valutare la concezione della causa di Mill. Secondo Mill la causa è necessaria all’effetto in un senso diverso da quello finora definito. Infatti la sua idea è che la causa è un elemento necessario per comporre un insieme di fattori che congiuntamente formano una condizione sufficiente per l’effetto. Questa nozione di causa viene a volte designata con l’acronimo NESS (Necessary Element of a Set of Sufficient conditions) e la si ritiene più debole di quella di condizione necessaria. Il filosofo del diritto Richard Wright ha recentemente sostenuto che NESS è la sola forma difendibile di causalità. Sullo sfondo c’è la questione della distinzione tra causalità prossima e causalità effettiva.I giuristi economisti continuano a basarsi sulla causalità probabilistica, per cui la causa è ciò che incrementa la probabilità dell’effetto (aumento del rischio). Secondo Wright la responsaibilità per danno si basa su tre elementi: a) comportamento illecito b) causa effettiva c) causa prossima Cosa si intende per causa prossima? Si tratta di un concetto normativo : una causa prossima è tipicamente definita come ” una causa che produce danno in una sequenza naturale, diretta e continua senza cause sopraggiunte che interrompono la catena causale. Wright aggiunge : “Alternativamente, una causa prossima è definita come una causa lesiva che ha come risultato un danno ragionevolmente prevedibile a un querelante ragionevolmente prevedibile”. Sul piano giuridico e morale, l'espressione « la causa » è un modo ellittico per indicare « la causa (responsabile) ».Hart e Honorè hanno chiarito un concetto analogo in questo modo: “Secondo questi principi del senso comune, tratti da un'analisi delle affermazioni comunemente utilizzate per attribuire la responsabilità, un fattore contribuente è « la causa », invece che una « mera condizione », se soddisfa due requisiti: (1) deve essere (a) un intervento umano volontario (n.d. R.) inteso a provocare una data conseguenza — ad esempio, sparare deliberatamente a qualcuno — o (b) un evento, azione o condizione anomala nel contesto particolare — per esempio, una tempesta anomala, o la guida disattenta — e (2) deve essere, in ordine temporale, l'ultimo intervento deliberato o evento indipendente anomalo (66). Libertari come Epstein sono contrari al questo approccio. . Supponiamo che sia vero"a minaccia di sferrare un pugno sul naso di b e c interviene per bloccare il colpo. Questo è un caso in cui l'intervento di c arreca un benefìcio a b, o un caso in cui, se c non avesse bloccato il colpo, il suo mancato intervento avrebbe causato un danno a b?" Epstein giustamente osserva che possiamo mantenere la distinzione tra « arrecare un beneficio » e « provocare un danno » solo dopo aver deciso se la persona che ha bisogno di aiuto ha diritto all'aiuto stesso. Qui entra in gioco la nozione di diritto e di dovere ( tenendo presente che i diritti di una persona sono i doveri degli altri nei suoi confronti), cioè una nozione che f a parte della sfera normativa, non di quella fisica o filosofica. Secondo Hart e Honorè, come già detto, la teoria della condicio va integrata con la considerazione degli elementi intenzionali , che sono quelli che caratterizzano l’azione umana. Dice Santoni De Sio : “Il ruolo delle azioni volontarie nelle spiegazioni causali è inoltre decisivo al punto da far degradare al ruolo di meri «mezzi» condizioni straordinarie che, in assenza dell’intervento umano, meriterebbero il titolo di causa. Una strada insolitamente ghiacciata è normalmente considerata causa di un incidente d’auto. Ma se, per esempio, il ghiaccio si è formato perché qualcuno, approfittando di una nottata insolitamente fredda, ha rovesciato alcuni secchi d’acqua sulla strada per fare avere un incidente stradale al suo nemico, la sua azione sarà considerata causa dell’incidente e la strada ghiacciata soltanto un mezzo da lui utilizzato”. Omettendo le considerazioni circa la responsabilità, su cui torneremo, qual è la distinzione logica tra il test NESS e il test controfattuale classico (detto anche “teoria but for”)? I due tests coincidono quando vi sia un insieme di condizioni realmente o ipoteticamente sufficiente, in una particolare occasione, per il verificarsi dell'evento. Tuttavia, il test NESS include più elementi del test controfattuale . determinate circostanze per la sufficienza di un qualsiasi insieme sufficiente di condizioni, perfino quando, per la presenza di altri insiemi realmente o ipoteticamente sufficienti, non è stata necessaria per il verificarsi dell' effetto in quelle circostanze. L’esempio che fa Wright è il seguente. Supponiamo che l'incendio a e l'incendio b siano, ciascuno indipendentemente dall'altro, sufficienti — cioè sufficienti in assenza l'uno dell'altro, ma in presenza di altre condizioni preesistenti — a distruggere una determinata casa, se il raggio dell'incendio si estende fino a raggiungerla. Pochi di noi, se non nessuno, sarebbero in disaccordo con le seguenti proposizioni: (1) l'incendio a è stato una causa della (ha contribuito alla) distruzione della casa, se l'incendio a ( ma non l'incendio b) ha raggiunto la casa e la casa non sarebbe stata distrutta senza l'incendio a; (2) gli incendi a e b sono stati entrambi causa della distruzione della casa, se l'hanno raggiunta simultaneamente e la casa non sarebbe stata distrutta se nessuno dei due incendi si fosse verificato; (3) l'incendio a è stato causa della distruzione della casa, ma l'incendio b non lo è stato, se l'incendio a ha raggiunto la casa prima dell'incendio b, perché la casa veniva distrutta prima dell'arrivo di quest'ultimo e non sarebbe andata distrutta se entrambi gli incendi non si fossero verificati. Orbene, Wright è convinto che il test but for comporta la conclusione ridicola che nessuno dei due incendi è stata causa del danno, perché in assenza del primo l’altro avrebbe distrutto la casa. Scrive il Nostro: “Nella situazione (2), nella quale entrambi gli incendi hanno raggiunto la casa simultaneamente, ci sono due insiemi sufficienti che si sovrappongono. Un insieme contiene l'incendio a, ma non l'incendio b, rendendo così l'incendio a elemento necessario di un insieme sufficiente; l'altro insieme contiene l'incendio b, ma non l'incendio a, rendendo l'incendio b un elemento necessario di un insieme sufficiente. Quindi, benché nessuno dei due incendi sia stato una condizione but for della distruzione dell'edificio, ciascuno di essi rappresenta una causa NESS supplementare”. Come già accennato, il test NESS è uno dei molti modi escogitati dagli epistemologi per realizzare un compromesso tra le ragioni a favore della causa come condizione necessaria e quelle a favore della causa come condizioni sufficiente. L’idea di “essere necessario per la sufficienza” tuttavia dovrebbe essere chiarita meglio in termini logici. Come si deve intendere? Per riprodurre un esempio di repertorio, l’accensione di un fiammifero in un pagliaio è condizione NESS per l’incendio del pagliaio. Per esplicitare il nesso causale, secondo la dottrina NESS questo significa dire che il complesso di tutte le circostanze occorrenti meno l’accensione delfiammifero non è sufficiente per l’incendio, mentre è tale se comprende l’accensione del fiammifero. Prendendo alla lettera la tesi di Wright, appare che la forma di “A causa B” -dove K e` un insieme di circostanze di sfondo che non contiene A e CS sta per la relazione di essere condizione sufficiente 8 - sia quindi costituita da una coppia di asserti con le due forme seguenti: (a) (A e K) CS B (b) è falso ((non-A e K) CS B) Vediamo innanzitutto quali sono le ragioni che possono giustificare il test NESS. È vero, inanzitutto, che il test NESS smaschera facilmente alcuni errori della dottrina della causa come condizione sufficiente, che di solito rientrano nello schema della fallacia “post hoc propter hoc”. Supponiamo che il signor Rossi nei giorni pari beva whisky con selz, nei giorni dispari beva Campari con selz, con il che regolarmente si ubriaca. Conclusione: applicando senza correttivi il Metodo dell´ Accordo di Mill, la causa del suo alcolismo non risulta essere nè il whisky né il gin ma il selz. Guardando alle clausole (a) e (b), K stia ora per “Rossi beve Campari o whisky”, A per “Rossi beve selz” e B per “Rossi si ubriaca”. Dato che il selz non annulla gli effetti dell’alcool, è vero (A e K) CS B . Ma la clausola (b) non è soddisfatta: è vero, non falso, che il Campari o il whisky senza selz (cioè non-A e K) rendono possibile inferire B. Il bere selz quindi non risulta causa dello stato di ubriachezza. Un’obiezione alla teoria NESS consiste però nel mostrare che la coppia di condizioni (a),(b) è soddisfatta anche da esempi indesiderati. Può essere, per esempio, che A da solo sia ceteris paribus sufficiente per B, senza che, però, la relazione tra A e B sia causale. Il cantare del gallo il 25 Aprile (A), supponiamo, è seguito infallibilmente ogni anno (al 100%) dal sorgere del sole esattamente 10 minuti dopo (B): è vero quindi A CS B. Per la legge logica dell’ a fortiori abbiamo però (A e K ) CS B, dove K è una qualsiasi congiunzione di enunciati veri che Senza entrare nei dettagli di una questione molto dibattuta, la relazione CS può essere qui identificata con una relazione implicativa dotata di un certo grado di necessità. In termini probabilistici, A CS B si può interpretare come l’asserto che B riceve da A un grado di probabilità prossimo o uguale a 1. 8 descrivono un arbitrario insieme di condizioni di contorno. Inoltre da non-A (mancato canto del gallo) e K non è inferibile B, con il che si soddisfa la clausola (ii). Il test NESS risulta quindi soddisfatto e si dovrebbe concludere che il cantare del gallo il 25 Aprile ogni anno è causa del sorgere del sole 10 minuti dopo. Un’ obiezione al precedente controesempio è che, nelle intenzioni di chisostiene il test NESS, K dovrebbe essere non un qualsiasi enunciato vero ma il complesso delle condizioni sussistenti che integrano A. In tal caso però K dovrebbe essere abbreviazione di una congiunzione infinita di enunciati veri inesprimibile nel linguaggio logico e nel linguaggio ordinario, e nessun test allora potrebbe controllare la verità di enunciati contenenti K. Se invece si vuole intendere che K sta per una congiunzione finita di condizioni che hanno qualche rilevanza per A e/o per B, la rilevanza di cui si parla o è di tipo causale o di tipo statistico: ma nel primo caso si dà per scontata la nozione di causa che si intende definire, nel secondo caso la correlazione potrebbe essere casualmente spuria, aprendo la porta a controesempi come quelli sopra esemplificati. 10. Problemi della teoria della conditio sine qua non. Come abbiamo visto, la concezione della causa come condizione sufficiente, anche se corretta in forma più o meno sofisticata, non sembra in grado di assicurare in tutti i casi una distinzione tra cause genuine e cause spurie, mentre un merito della concezione controfattuale della causa appare proprio la sua capacità di tracciare la differenza richiesta. Come si è visto, tuttavia, gli esperimenti mentali richiesti dalla vecchia teoria della conditio sine qua non vanno compiuti alla luce di una ben precisa nozione di evento e di occorrenza di evento. E’ opportuno ora valutare analiticamente le difficoltà della teoria controfattuale della causa. Primo problema: l’eccessiva debolezza della conditio sine qua non. L’impressione è che non tutte le condizioni necessarie sono cause. Supponiamo ci sia una catena di eventi di cui fanno parte la partenza di un aereo, il viaggio, un guasto e un incidente. Se non ci fosse stato un guasto, l’aereo non sarebbe caduto. Ma potrei anche dire con verità : se l’aereo non fosse partito non sarebbe caduto. Diremmo che la partenza è una causa dell’incidente? Una tesi abbastanza ovvia che si può sostenere è che non c’è una sola nozione di causa ma una pluralità di nozioni causali con differente grado di forza, di cui la conditio sine qua non costituisce il comune denominatore. Un conto è dire che x è causa determinante di y, altro è dire che è causa predisponente, causa concorrente, causa concomitante ecc. Si può suggerire che il compito specifico della filosofia della causalità è proprio quello di trovare un quadro concettuale semplice che ci consenta di distinguere queste diverse nozioni e valutare comparativamente il loro grado di forza. La più semplice nozione di causa è quella di rilevanza causale. Stabilire la rilevanza di A per B significa stabilire il puro e semplice asserto controfattuale ¬A > ¬B (cioè con l’asserto che stabilisce la proprietà di conditio sine qua non). Per tornare all’esempio, non si può negare che ci sia una qualche relazione causale tra la partenza dell’aereo e l’incidente. Forse in molti casi eviteremmo di dire che è una causa, ma non ci sentiremmo neppure di negarlo.Ne possiamo parlare comunque come di un fattore causale, e in alcuni casi potrebbero esserci in gioco delle conseguenze penali. Supponiamo per esempio che al momento della partenza ci sia un forte temporale (un uragano). Il pilota è incoraggiato a partire dalla compagnia anche se, a suo avviso, il volo in quelle circostanze era rischioso. Se segue incidente, è ’ difficile negare che il partire in quelle circostanze è stato rilevante casualmente per l’incidente, anche se in quel momento c’erano valutazioni diverse sulla rischiosità della partenza stessa. Si potrebbe dire che in quelle circostanze la partenza, oltre che un fattore causale, era una causa predisponente per l’incidente, nel senso che, oltre a essere una condizione necessaria per questo, riduceva, anche se di poco, il grado di sorpresa dell’ evento effetto. Nessi causali indiscutibili sono stati stabiliti anche in presenza di una bassa probabilità dell’effetto data la causa. E’ noto il caso di un giudice che ha ravvisato una responsabilità di omicidio nel caso di un uomo sieropositivo che ha avuto rapporti non protetti con la moglie, dopo aver escluso che questa avesse avuto altre possibilità di contrarre il virus in altro modo. Questo nesso è stato ravvisato anche se la probabilità di contrarre la malattia in casi del genere è al massimo del 4%. Ciò che importa è che risulta vero il controfattuale che stabilisce il rapporto di rilevanza causale. La nozione di causa che di solito si usa nel linguaggio ordinario è la nozione di causa determinante. Parlando liberamente, essa è una condizione tanto ceteris paribus necessaria che ceteris paribus sufficiente per l’evento-effetto. La determinazione si può definire come ciò che riduce a zero il grado di sorpresa dell’evento effetto dato l’evento causa. Certo possiamo raffinare ulteriormente la classificazione delle cause. Se, per esempio, non solo possiamo inferire l’effetto ma possiamo anche fare un’ inferenza in direzione conversa (abduttiva) allora il concetto di causa usato si rafforza ulteriormente e possiamo introdurre la nozione di causa completamente determinante. Qui si innesta un’annosa controversia sul rapporto tra condizioni di sfondo e cause. Se un fiammifero viene sfregato, l’accensione del fiammifero è resa possibile dal fatto che c’è sufficiente ossigeno, sufficiente fosforo sulla capocchia ecc. Queste a volte vengono chiamate condizioni di contorno o condizioni rilevanti, e qualcuno nega ad esse la qualifica di cause. Si tratta però di condizioni necessarie all’effetto e , dato che in contesti appropriati potrebbero giocare un ruolo importante, si possono chiamare cause concomitanti o concause rispetto alla causa principale. Secondo problema, la ridondanza causale. Questo in effetti è il problema evidenziato da Wright nell’ esempio dei due incendi. Seguendo la tradizione epistemologica, si distinguono due tipi di ridondanza: la sovradeterminazione e il sopravanzamento. Se ci sono più condizioni sufficienti (determinanti) per lo stesso identico evento, non possono essere qualificate come necessarie. La giurisprudenza americana registra il caso di un malcapitato che è stato ucciso da due criminali, uno che lo colpiva al cranio con una pietra mentre l’altro lo accoltellava. I due colpi erano ambedue mortali; ma qui è un problema applicare la formula della condicio (cioè il test but for) in quanto non possiamo dire che, se il primo (o il secondo) non avesse colpito, la vittima non sarebbe morta. Certo quasi sempre uno dei due, poniamo A, raggiunge l’obiettivo qualche frazione di secondo prima dell’altro B. Se riusciamo a stabilirlo con esattezza, in un caso del genere possiamo dire che la morte della vittima è stata provocata da A, perché se A non avesse agito in quel modo non si sarebbe verificata la morte della vittima in quel preciso istante t in cui si è verificata. Ma ci sono casi in cui non si riesce a stabilire questa priorità in modo preciso,e allora si può stipulare i due eventi effetto prodotti dalle due diverse cause sono (convenzionalmente) simultanei. Una scuola di pensiero molto accreditata risponde al problema della sovradeterminazione chiedendo di specificare meglio l’evento-effetto, in base all’idea che la causa lascia sempre una traccia nell’effetto e quindi il sommarsi di due cause diverse produce un effetto diverso. Così se una vittima, poniamo Kennedy, è colpito da due proiettili sparati uno da Oswald e il secondo da un killer nascosto, la sua morte sarà descrivibile come << morte con due proiettili in corpo>>. In questo caso, naturalmente, è vero dire che , se Oswald non avesse sparato, Kennedy non sarebbe morto con due proiettili in corpo. Ma questa strategia –che è in effetti è la stessa richiesta da Hempel con il criterio della specificità massimale, è ardua. Anche ammesso che le descrizioni siano effettuabili senza usare un linguaggio causale, chi ci dice che riusciamo sempre a effettuare questa distinzione? Pensiamo a due interruttori che simultaneamente accendono una lampadina. Come si fa seriamente a distinguere tra la lampadina come è accesa dall’interruttore A, da B o da tutti e due simultaneamente? Secondo Lewis e altri (M.Bunzl), quasi tutti (forse tutti) i casi di sovradeterminazione sono casi in cui una causa sopravanza l’altra. Il caso della lampadina non fa eccezione. Un elettrone proveniente dall’interruttore A sopravanzerà un elettrone proveniente da B. Al teoria di Lewis-Buzl in effetti dipende dal presupposto che ci sia sempre una grandezza che viene trasferita dalla causa all’effetto. Su questa idea di fondo si basano le cosiddette teorie del trasferimento, secondo cui nel rapporto causale c’è sempre una grandezza che si trasferisce dalla causa all’effetto. Ma questo non ha senso nel caso della causalità omissiva, quando si dice, per esempio, che il digiuno ha causato la perdita di peso. Comunque, l’idea di Lewis è che quando una causa sopravanza un’altra c’è una catena causale che va dalla causa all’effetto, mentre non c’è dalla causa sopravanzata all’effetto. Un esempio è quello famoso del viaggiatore nel deserto raccontato da Hart e Honorè. Due malviventi tentano indipendentemente di uccidere un viaggiatore nel deserto: uno gli perfora la borraccia piena d’acqua, l’altro mette del veleno nell’acqua. La vittima muore disidratata. L’ analisi apparentemente più ovvia è che il malvivente che ha perforato la borraccia ha impedito all’altro di bere acqua avvelenata, quindi ha sopravanzato la seconda causa, interrompendo una catena causale avviata dall’avvelenatore. Si noti, incidentalmente, che ambedue le operazioni sono ceteris paribus sufficienti per determinare la morte. La vittima muore disidratata e, se questa è la descrizione dell’evento, la causa è la perforazione e l’omicida è il perforatore, mentre l’altro può essere incriminato per tentato omicidio. Qui però bisogna considerare che normalmente veleno e disidratazione agiscono con tempi diversi. Supponiamo che il veleno usato agisca in tempi più lunghi della disidratazione. Se è così il perforatore ha anticipato la morte della vittima, e dovrebbe essere incriminato. Ma se il veleno è un tipo di veleno che agisce con tempi più brevi della disidratazione –come di solito accade - allora la rforazione ha rallentato la morte impedendo alla vittima di assorbire il veleno. Quindi il perforatore potrebbe vantarsi di essere un benefattore, anziché un omicida. Una proposta che si può avanzare in alternativa alla teoria di Lewis è quella di abbandonare l’idea della relazione causale come relazione a due posti. Questo non dovrebbe essere una novità perché la nozione di causa contributiva, o concausa, è una relazione a tre posti: a è concausa con b per c. Questa relazione però si può ridurre alla congiunzione di condizioni a due posti: a è causa di c & b è causa di c. Si possono però definire relazioni a tre posti che non sono riducibili definitoriamente a relazioni a due posti. La relazione di essere causa concorrente è di questo tipo: Definizione. a è causa concorrente con b per c quando “in assenza di a, se non ci fosse stato b non ci sarebbe stato c”. Questa locuzione si presta ad essere rappresentata come un controfattuale doppio:se non ci fosse stato a allora (se non ci fosse stato b non ci sarebbe stato c). Date le definizioni sopra poste, questo equivale a: “se non ci fosse stato a, b sarebbe stato causalmente rilevante per c”. Per esempio: “se il primo killer non avesse sparato allora, in assenza del secondo non ci sarebbe stata la morte di Kennedy”. Un problema ravvisabile è che in questo modo non si distingue, apparentemente, la sovradeterminazione dal sopravanzamento. Supponiamo che una causa sopravanzi un’altra, per esempio che la perforazione sopravanzi l’avvelenamento dell’acqua. Allora sarebbe vero tanto “in assenza della perforazione se non ci fosse stato l’avvelenamento non ci sarebbe stata la morte” quanto“ in assenza dell’ avvelenamento, se non ci fosse stata la perforazione non ci sarebbe stata la morte”. Certo così si apre il problema di distinguere tra causa sopravanzante e causa sopravanzata. Propongo di dire che la distinzione è possibile mediante quanto si aggiunge alla nozione basilare di concorrenza. Allo stesso modo in cui la nozione di causa determinante è più ricca di quella di rilevanza causale, la nozione di causa sopravanzante è più ricca di quella di causa concorrente. La differenza sta sostanzialmente in questo: se una causa è sopravanzata non c’è modo, in presenza della seconda causa, di inferirla dall’effetto abduttivamente, mentre questo è possibile per la causa sopravanzante. . Per fare un esempio, la perforazione della borraccia impedisce di dire che la spiegazione della morte della vittima è data dall’ avvelenamento (in quanto il presupposto di tale spiegazione è l’integrità dei recipiente usato), mentre l’avvelenamento dell’acqua non impedisce di spiegare la morte in termini di perforazione. Questo crea quindi un’asimmetria tra i due tipi di cause. Una causa sovradeterminante può benissimo avere rilevanza penale. Nel caso dei due o più fucilieri del plotone di esecuzione essi sono sufficienti (determinanti) per la morte e sono tutti cause concorrenti. Se il plotone ha agito fuori della legge i fucilieri sono tutti, quindi, imputabili di omicidio. Può essere che uno di questi abbia, come vuole la tradizione, una cartuccia a salve. In tal caso possiamo solo fare un’affermazione più debole che è una disgiunzione: o a ha ucciso b, o a’ ha ucciso b, o a” ha ucciso b o…” . Questo non esclude un nesso causale, ma lascia indeterminato il nome della causa. A questo insufficiente livello di informazione non è permesso incriminare i singoli fucilieri, ma consente di incriminare, per esempio, chi ha organizzato l’esecuzione. Un incremento di informazione sulla qualità delle cartucce consentirà di eliminare uno dei disgiunti e quindi di determinare esattamente le cause. Certamentente sulle cause sopravanzate si potrebbe discutere a lungo perché si può sostenere che hanno un carattere fantomatico. Sono una via di mezzo tra la realtà e l’immaginazione. Si pensi a un PC portatile con doppia alimentazione: batteria e corrente elettrica. Nel momento in cui cessa l’alimentazione della rete immediatamente entra in azione la batteria. La causa sopravanzata normalmente viene bloccata dalla sopravanzante e alla domanda circa le cause del funzionamento nrmale dell’apparecchio non nomineremmo la batteria. Ma forse neanche la escluderemmo, perché insieme alla causa sopravanzante essa costituisce il sistema di funzionamento dell’apparecchio. Se nell’arco di un’ ora manca la corrente due o tre volte diremo che le due alimentazioni in quell’intervallo di tempo hanno cooperato (concorso) al funzionamento della macchina. Recentemente il dibattito sul sopravanzamento è stato animato da Jonathan Schaffer con un articolo dedicato alla trumping preemption. (che possiamo tradurre con “ scavalcamento causale”). Esempio. Un maggiore e un sergente urlano simultaneamente un ordine a un plotone, per esempio di mettersi sull’attenti. I soldati lo eseguono, ma questo accade perché eseguono l’ordine del superiore, non dell’inferiore: il primo ordine “scavalca” il secondo. Si noti che questo fa cadere l’idea che le cause si possano discriminare con una differente descrizione degli eventi, e anche l’idea della catena causale che ci sarebbe dalla causa sopravanzante all’effetto. La proposta sopra delineata sembra che si applichi facilmente a questo esempio. Se si potesse inferire abduttivamente che i soldati si sono messi sull’attenti, poniamo, in seguito all’ordine del sergente, ciò escluderebbe la possibilità di spiegare il loro comportamento in termini di un ordine simultaneo del capitano o di qualsiasi militare di grado superiore al sergente: queste dovrebbero essere infatti spiegazioni migliori della prima, il che non è. Se viceversa potessimo fare un’ abduzione spiegando il fatto suddetto con un ordine del capitano , ciò non escluderebbe che sia stato anche impartito un ordine da suoi subordinati. Si noti, comunque, che in questa concezione i due ordini sono ambedue cause che concorrono al risultato. Dal punto di vista giudiziario le conseguenze sono che in caso di errore eventuali responsabilità esistono per ambedue gli agenti, anche se uno sopravanza o scavalca l’altro. Il che non significa, naturalmente, in questo come in altri casi di sopravanzaamento, che le responsabilità siano tali in pari misura e che la sanzione erogata deva essere la stessa. Resta da esaminare un altro problema circa le cause che Lewis lascia aperto, quello della causalità omissiva. Per intenderci è bene chiarire la distinzione tra causalità omissiva e causalità negativa o impediente. Chiamiamo causalità negativa o impediente quella in cui un certo evento ha come effetto un evento negativo: p.es. “lo sparo della guardia giurata ha impedito l’ingresso in banca dei banditi” significa che lo sparo è stato causa del mancato ingresso dei banditi. Chiameremo invece causalità omissiva quella in cui un evento negativo (o omissivo) è causa di qualche effetto: per esempio: “la mancata illuminazione delle scale lo fece cadere” oppure “il fatto che Giacomino ha omesso di lavarsii denti ha causato un rimprovero della madre”. Ovviamente una relazione causale può essere tanto omissiva che impediente. La medicina preventiva è spesso orientata alla ricerca non solo di cause impedienti ma anche di cause omissive: si dice per esempio che l’ evitare eccessi alimentari allunga l’esistenza o che elimina il richio di incorrere in una certa classe di malattie. Lewis non ha difficolta’ ad ammettere che sia legittimo parlare di omissioni come cause. Il problema retrostante ovviamente è, come aveva visto Mill, che ‘From nothing, from a mere negation, no consequences can proceed’. Ma di fatto lostesso Mill fa vedere che la causalità omissiva esiste ed è riconoscibile. Questo, incidentalmente, implica il rifiuto delle cosiddette “teorie del trasferimento” secondo cui ogni relazione causale consiste in un trasferimento di grandezza fisica (calore, velocità ecc.) da un corpo all’altro. Il primo problema della causalità omissiva è quello ontologico: riguarda cioè la natura degli eventi omissivi. In primo luogo secondo Lewis gli eventi omissivi sono eventi “altamente disgiuntivi”, cioè eventi i cui disgiunti sono “overly varied disjuncts”. Per esempio, se Fred omette di prendere precauzioni ciò significa che sta facendo qualcosa altro, p.es “ camminare - o - dormire”. Ma come si fa a dire che questa disgiunzione causa qualcosa? Un evento nella concezione di Lewis è una proprietà di una regione dello spazio-tempo. Quindi non esistono relazioni causali che coinvolgono disgiunzioni perchè non ha senso parlare di eventi disgiuntivi: non esiste per esempio l’evento “piove a Milano o nevica a Seattle”, perché l’evento esige continuità spazio-temporale. Inoltre è ovvio che la causazione deve intercorrere tra eventi distinti; ma come distinguere per esempio il fatto che Piero, mentre dorme, omette precauzioni contro l’incendio dal fatto che omette precauzioni anche contro i ladri? Come distinguere le omissioni genuine da altri fenomeni simili ma distinti? Per esempio l’universo manca di contenere eventi che violano le regolarità naturali, ma questo non è chiaramente un evento omissivo. Dopo un’articolata analisi delle varie possibilità di trattare la causalità omissiva nel quadro controfattuale onestamente Lewis ammette: “mi piacerebbe poter render conto della causazione per omissione entro il quadro generale dato in questo articolo e in Events (nello stesso volume). Purtroppo non vedo come farlo quadrare con tutto ciò che dico in generale circa gli eventi e circa la loro dipendenza causale” . E’ opportuno avvertire che la presenza o assenza di negazioni nella forma degli enunciati che li descrivono è irrilevante per qualificarli come positivi o negativi. Il buio è l’assenza di luce, il digiuno è l’assenza di alimentazione, il silenzio è l’assenza di rumore. Casi particolari di questi fenomeni sono di solito qualificati come eventi negativi, anche se la negazione non compare a rigore nella forma superficiale degli enuciati che li esprimono. È chiaro comunque che la distinzione che cerchiamo non può essere basata sulla forma superficiale dell’enunciat,o perchè a volte eventi positivi sono descritti negativamente e viceversa. Ci limiteremo qui a sottoscrivere l’idea che un evento negativo è tale relativamente a un evento positivo di cui è complementare, ed anche viceversa. Se [P,a,t] è un evento positivo, [-P,a,t] è un evento negativo rispetto al primo, ma anche la conversa è vera. Quando entra in gioco anche la causalità il problema si complica. Qui un’ osservazione diversa, su cui vale la pena di richiamare l’attenzione, riguarda il ruolo dell’ esistenza reale dei soggetti coinvolti negli eventi ai fini della relazione causale: nel caso dei soggetti umani la loro storia, cioè l’insieme di eventi in cui essi hanno un ruolo. Supponiamo che Gianni, dopo aver acceso il gas, si dimntichi di spegnerlo e questo causa un’esplosione. Gianni ha omesso di spegnere il gas: ma anche di me, che abito vicino a lui, si potrebbe dire che ho omesso di spegnere il gas. La differenza è che la mia storia personale (la mia esistenza) non aveva alcuna rilevanza per la storia che ha portato a quella esplosione, mentre questo non si può dire dell’esistenza di Gianni. Se io non fossi esistito nel momento in cui il gas è stato acceso l’esplosione ci sarebbe stata egualmente, mentre se Gianni non fosse esistito nel momento in cui il gas è stato acceso l’eplosione non ci sarebbe stata. La mia estraneità all’accaduto è quindi semplicemente provata dal fatto che nel periodo rilevante la mia biografia non si interseca con quella dell’ oggetto che compare nel presunto effetto. È bene ricordare che nella filosofia di Aristotele vengono elencati quattro tipi di cause (materiale, efficiente, finale e formale:valga il famoso esempio della statua ). Va osservato, però, che le quattro cause non sono sullo stesso piano in quanto la causa materiale è precondizione per il manifestarsi delle altre tre cause . Nella concezione degli eventi che intendiamo proporre, ispirata a quella di J.Kim,, l’esistenza reale del soggetto soggiacente ha un ruolo speciale, analogo a quello della causa materiale in Aristotele. Infatti, come ricordiamo, un Kim- evento è un tripla [P,a,t] dove P è un predicato, a è un soggetto, t è un istante. Ripetendo quanto già enunciato, dire che un evento [P,a,t] occorre -O[P, a,t]- implica dire che a esiste realmente nel momento t. Il requisito dell’esistenza reale non deve essere trascurato. Si può benissimo voler essere creduti quando si dice che Babbo Natale porta regali ai bambini, e questo si può anche considerare vero, ma questo non descrive l’occorrenza di un evento in quanto Babbo Natale nel mondo reale non esiste. Allo stesso modo, si può dire correttamente che l’etere cosmico spiegava molti fenomeni fisici, ma questo non descrive un evento perché è ormai provato che l’etere cosmico non ha esistenza reale. Ciò detto, interessa evidenziare quanto segue dall’ipotesi controfattuale in cui si suppone che un certo Kim-evento non sia occorso. Quando si ipotizza controfattualmente non-O[P, a, t] ciò significa, come già detto, considerare una disgiunzione di ipotesi. Quindi, per poter asserire che il controfattuale è vero bisogna provare che il conseguente segue dalla falsità di ciascuna delle due alternative singolarmente prese. In tal modo si provvede a un disambiguamento dell’ ipotesi di non-occorrenza. Un esempio può essere utile. Abbiamo già esaminato l’esempio del barometro. Dall’ ipotesi “controesistenziale” secondo cui il barometro di casa non esisteva realmente in t non segue la mancanza di una tempesta successiva, in quanto nessuna legge di natura conosciuta correla l’esistenza o l’inesistenza di barometri allo scatenarsi di tempeste. Basta questo per concludere che la correlazione causale tra abbassamento del barometro e tempesta è spuria. Usando il linguaggio caro agli aristotelici, il barometro non è causa materiale della tempesta, quindi non può offrire la base per qualsiasi altro tipo di rapporto causale. L’esistenza reale va distinta dall’esistenza “meramente quantificazionale” rappresentata in logica dal simbolo . L’esistenza reale, definita in vari modi nella letteratura specializzata, è rappresentata di solito con il simbolo E!. Per semplificare una complessa questione, anche tecnica, qui parleremo di “esistenza reale di a in t” intendendo che a è uno degli enti presenti nel momento t entro il mondo attuale. L’utilità di questa rappresentazione emerge anche da un altro particolare. Se P è una proprietà positiva (p.es. essere acceso), non-P è una proprietà negativa (essere spento). Se dico che si è verificato che la lampadina era accesa, posso rappresentare questo evento con la forma O[P, a, t], mentre se dico che si è verificato che la lampadina era spenta (non-accesa), questo ha la forma O[non-P, a, t]. Nel secondo caso diciamo che è occorso (ha avuto luogo) un evento che era negativo rispetto al primo. Si può dire anche che i due eventi che occorrono sono contrari l’uno rispetto all’altro, ma non incompatibili, perchè hanno qualcosa in comune: in ambedue infatti i casi esiste realmente il soggetto a cui P e non-P. Diverso è asserire non-O[P,a,t], cioè negare l’occorrenza dell’evento in questione. Certamente la logica retrostante dovrà autorizzare l’implicazione da O[non-P, a, t] a non-O[P, a, t ], ma non l’equivalenza dei due asserti. La differenza, come abbiamo visto, sta proprio nel fatto che O[non-P, a, t] comporta l’esistenza reale di a, mentre non-O[P, a, t ] non ha questo sottinteso. L’importanza giuridica e morale della causalità omissiva dovrebbe essere ovvia. Il codice penale prevede reati come l’omissione di soccorso, la negligenza professionale (tipica del campo medico: per esempio la sospensione di una cura, o addirittura la sospensione volontaria o involontaria delle terapie che tengono in vita un paziente. Un topos filosofico molto dibattuto comunque è quello della distinzione tra “doing harm”e “allowing harm”, rispetto alla quale si cita come caso esemplare la distinzione tra uccidere e lasciar morire. Il test but for nella versione che proponiamo sembra offrire una buon criterio di distinzione tra uccidere e lasciar morire. Si supponga per esempio che Tizio muoia perché Caio gli mette la testa sott’ acqua: se Caio non l’avesse fatto, si dirà, Tizio non sarebbe morto; e aggiungiamo - ottemperando alla definizione di occorrenza sopra proposta - non sarebbe morto nemmeno se Caio non fosse esistito in quel momento. Si immagini invece questo scenario: Tizio sta affogando in un fiume nel momento t, Caio si trova accidentalmente in quel posto, sa nuotare e non si getta per salvarlo. Caio quindi, possiamo dire, lascia morire Tizio. E’ vero dire, però, che se Caio non fosse esistito in quel momento t J Tizio sarebbe morto egualmente. Si noti che la conclusione cambia completamente se l’antefatto è stato che Caio ha buttato Tizio nell’acqua pochi minuti prima, in t*. In questo caso dall’ipotesi “controesistenziale” che Caio non esistesse nel momento in cui Tizio stava affogando segue che, ceteris paribus, non sarebbe esistito neppure in t* quindi non avrebbe buttato Tizio nell’acqua in t* e questi non avrebbe corso il rischio di affogare. Questo esempio offre l’occasione di riflettere sul significato della nozione di uccidere. Uccidere non significa causare la morte: significa accorciare la prevedibile durata della vita. La differenza emerge proprio per il modo in cui è stata definita la causalità in termini di Kim-eventi. Si supponga infatti che un medico prolunghi la vita di un comatoso di qualche ora o di qualche giorno. Se il paziente muore alle 10.00 del 24 Dicembre, il medico è causa di questo Kimevento: di fatto si può dire correttamente che la sua azione è stato causa ritardante, non anticipante, dell’evento stesso. Ma nessuno può dire che il medico abbia ucciso il paziente; si può anzi sostenere che si è comportato come un buon medico. Uccidere dunque significa “essere causa anticipante” della prevedibile fine della vita o, come si suol dire, “accorciare l’esistenza” di qualcuno. Sul tema dell’ equivalenza morale tra uccidere e lasciar morire è importante ricordare l’articolo 40, ultimo comma, del, il quale asserisce che "non impedire un evento, che si ha l'obbligo giuridico di impedire, equivale a cagionarlo". Per esempio, dato che un medico ha l’obbligo professionale di impedire che il paziente peggiori le sue condizioni di salute, secondo questa norma il non impedire tale peggioramento equivale a causarlo. Da un punto di vista logico la differenza tra non-impedire e causare è però piuttuosto chiara: se C è simbolo per una qualsivoglia relazione causale, la forma della prima relazione è non-(e1 C none2), e questa non equivale a e1 C e2 , che è la forma della seconda. Ma il codice evidentemente usa la nozione di causa in un senso diverso da quello fisico. Nelle prospettiva che abbiamo sostenuto il medico potrebbe dire: se non fossi esistito nel periodo in cui avrei dovuto impedire l’evento in questione il paziente avrebbe comunque peggiorato le sue condizioni di salute, quindi io non posso essere causa di tale peggioramento. Ciò che il precetto del codice intende dire è verosimilmente un’altra cosa: e cioè che il medico, non avendo fatto ciò che era doveroso fare, è responsabile o corresponsabile dei danni che provengono dal mancato intervento. Ciò che viene omesso in questi casi infatti non è un’azione qualsiasi ma un’azione che avrebbe dovuto essere eseguita. C’è indubbiamente una certa simmetria tra l’omissione di azioni e l’omissione di eventi fisici. Se accendo il motore e la macchina non parte, dico che la macchina ha mancato di partire proprio perché mi sarei aspettato l’opposto: la macchina avrebbe dovuto partire oppure ci si aspettava che la macchina partisse. Quando un’auto sta ferma in un parcheggio, invece, non si ha certo l’abitudine conversazionale di dire che la macchina ha mancato di partire: ma dire questo è innegabilmente vero e chiunque può enunciarlo senza essere contraddetto. Lo stesso accade per le azioni: di solito si dice che un soggetto omette di aprire l’ombrello quando piove perchè ci si aspetta che faccia l’opposto, ma non si dice che ha omesso di aprirlo quando c’è bel tempo, anche se a rigore non sarebbe scorretto fare questa asserzione. La simmetria non si riscontra però così nell’omissione di tipo etico. Se manca l’obbligo -cioè la necessità non fisica ma deontica -di compiere una determinata azione, non è solo inusuale ma improprio parlare di responsabilità . A volte nella letteratura si incontra la nozione di causa responsabile, ma questo significa confondere due nozioni che stanno a livelli concettuali diversi, quello morale e quello fisico. Questa confusione è stata indubbiamente incoraggiata dal fatto che, come ha fatto vedere convincentemente Hans Kelsen, la nozione primitiva (antropomorfa) di causa è scaturita da quella di responsabilità, al punto che ancor oggi è comune esprimersi con frasi come “i gas di scarico delle auto sono responsabili dell’inquinamento armosferico” oppure “il buco di ozono è imputabile all’azione delle bombolette spray”. Per capire il punto bisogna osservare che le intuizioni causali e le intuizioni circa le responsabilità morali possono essere seriamente divergenti, almeno se si impiegano nozioni di causa non adeguatamente definite. A parte il caso delle omissioni, il caso della ridondanza causale ne è l’esempio più vistoso. Se due killers sparano simultaneamente a un uomo, l’intuizione morale dice che sono ambedue responsabili, mentre la teoria della condicio applicata senza correttivi non ci dà una risposta chiara, come abbiamo già visto a proposito della teoria di Lewis. Dobbiamo anche aggiungere che i due problemicpiù importanti emersi a carico della teoria controfattuale - quello della causalità omissiva e quello della ridondanza - possono sommarsi: potremmo avere infatti casi di ridondanza in cui uno degli antecedenti causali è un evento omissivo. E’ conveniente ai fini classifiteorici intendere le azioni omissive come una sottoclasse degli eventi omissivi. Rispetto ad altri tipi di eventi, le azioni sono caratterizzate dalla volontarietà. Per usare le parole di Wright, “Un’azione è semplicemente un movimento fisico volontario oppure l’uso volontario di qualche parte del corpo; mentre un’omissione è la volontaria mancanza di movimento o di uso di qualche parte del corpo in modo specifico”. Naturalmente si può discutere sul fatto se certi fenomeni, come il latrato di un cane o certi riflessi condizionati, siano a no azioni nel senso descritto. Ciò che interessa ai nostri fini è che le azioni sono comunque una sottoclasse degli eventi, e quindi sono trattabili come Kim-eventi e soggette alla stessa trattazione sul piano delle relazioni causali. Secondo quanto abbiamo visto, ipotizzare non-Oe , dove e è un evento, è un esercizio complesso che in effetti porta all’analisi di una disgiunzione. Ricordiamo che un evento nel senso qui definito è una tripla [P, a, t] dove P può essere anche un predicato negativo, per esempio “non bruciare”. Supponiamo dunque che Rossi ometta il soccorso ad una persona, Bianchi, che poi decede per le ferite qualche ora dopo. Supponiamo anche che, conoscendo le condizioni di contorno, non ci siano dubbi sul fatto che, se Rossi non avesse omesso il soccorso, Bianchi non sarebbe morto. Questo però non esaurisce quanto c’è da sapere per stabilire il nesso causale perché, come abbiamo già rilevato, c’è il problema della presenza, o dell’esistenza, del soggetto del Kim-evento (Rossi) nel momento in cui questo si è verificato. A meno che non sia stato proprio Rossi a ridurre in quello stato Bianchi, bisogna concludere che l’omissione suddetta non è a rigore causa di morte, perché è lecito dire: ”se Rossi non fosse esistito in quel momento Bianchi sarebbe morto ugualmente”. A sostegno di questa conclusione si osservi, tra l’altro, che in certi casi le condizioni di contorno potrebbero essere state molto diverse da quelle standard: per esempio, si può immaginare una situazione in cui Rossi si trovava a pochi metri da una squadra inviata dalla Croce Verde a salvare la vita dell’incidentato, per cui Rossi, allo scopo di escludere il nesso causale, potrebbe anche aggiungere che la Croce Verde poteva - anzi dovevaintervenire, anche se poi per qualche ragione non lo ha fatto. Come abbiamo già in parte notato, dunque, tra causazione e responsabilità c’è una differenza logica. Può esserci causazione senza responsabilità e responsabilità senza causazione. Se Rossi era in condizioni di soccorrere Bianchi e non lo ha fatto, indipendentemente dal fatto che fosse in grado di prevedere o no l’esito della sua azione, tale azione era in ogni caso doverosa: ragione per cui se Bianchi decede, Rossi è responsabile di questo evento, purchè si dimostri che, se avesse soccorso Bianchi, Bianchi non sarebbe morto. Il caso è strutturalmente uguale a quello in cui, poniamo, Rossi vende una dose di eroina a Bianchi, Bianchi muore e si stabilisce che se Rossi non avesse venduto l’eroina a Bianchi Bianchi non sarebbe morto. Qui non solo Rossi è un fattore cuasale della morte di Bianchi ma ne è anche responsabile, perchè è proibito dalla legge vendere eroina. Come si sa, nella legge italiana esistono due tipi di reati omissivi: propri, che si configurano come il mancato compimento di un'azione imposta dalla norma penale; impropri, che si configurano come la mancata realizzazione di un'azione dovuta che comporta un danno materiale. L’omissione di soccorso è un reato omissivo improprio. L’azione di soccorso nei confronti di chi ne ha oggettivamente bisogno è doverosa anche se, per ipotesi, altri soggetti fossero stati in condizione di prestare soccorso in quella stessa circostanza. In una situazione che diremmo di ridondanza di responsabilità, simile ma diversa da quella della ridondanza causale, nessuno è esonerato dalle sue responsabilità semplicemente perché altri avrebbero potuto agire al suo posto. Possiamo aggiungere che la responsabilità sommata alla relazione causale appare moralmente più grave della responsabilità senza relazione causale, quale è normalmente presente nella responsabilità omissiva. La teoria sopra esposta quindi consente di giustificare una gradazione tra responsabilità. Si può anche ipotizzare che, data l’importanza del nesso causale, la legge esige un alto grado di rigore nell’accertare che il soccorso avrebbe, in quelle condizioni, portato un reale vantaggio al soggetto danneggiato Una recente sentenza della Cassazione riguardante la verifica del nesso di causalità e dell’attribuzione di responsabilità ha affermato il principio che“nel reato colposo omissivo improprio il rapporto di causalità tra omissione ed evento non può ritenersi sussistente sulla base del solo coefficiente di probabilità statistica, ma deve essere verificato alla stregua di un giudizio di alta probabilità logica, sicché esso è configurabile solo se si accerti che, ipotizzandosi come avvenuta l’azione che sarebbe stata doverosa ed esclusa l’interferenza di decorsi causali alternativi, l’evento, con elevato grado di credibilità razionale, non avrebbe avuto luogo ovvero avrebbe avuto luogo in epoca significativamente posteriore o con minore intensità lesiva” (Cass. pen., sez. IV, sent. 20 settembre 2007, n. 35115, Franzese). C’è solo da aggiungere che nei casi di causalità non-omissiva la dissociazione tra responsabilità e causalità non prende forme evidenti. Se un automobilista ubriaco passa con il rosso e uccide un passante è a tutti gli effetti causa della morte di questo (la vittima non sarebbe morta se non fosse stato ubriaco, e a fortiori se non fosse esistito in quel momento) e inoltre anche responsabile della morte di questo, stante che per lui era doveroso non guidare in stato di ubriachezza e non passare con il rosso. La considerazione della volontarietà della sua azione fa parte di una sfera di considerazioni diverse miranti a stabilire non tanto la sua responsabilità ma il tipo di reato per il quale deve essere giudicato colpevole: un omicidio può essere volontario o colposo, ma chi lo causa ne è responsabile, in quanto è vietato dalla legge. La tesi secondo cui causalità e responsabilità sono concetti indipendenti non è una novità filosofica. Alcuni filosofi si richiamano alla prevedibilità del danno. Citando dalla letteratura anglosassone (Copi-Cohen, Introduzione alla logica 1961) : “nei casi di presunta negligenza una persona può essere ritenuta responsabile se,in condizioni normali, avrebbe dovuto essere in grado di prevedere che il suo atto sarebbe stato decisivo nel provocare l’offesa”(trad.it.Il Mulino, Bologna,1997, p.622). Il difetto di questa tesi è che lega la responsabilità alla capacità soggttiva di prevedere. Ci sono soggetti ( che in buon italiano si dicono persone irresponsabili) i quali hanno una ridotta capacità di prevedere le conseguenze delle proprie azioni ; ma non si può pensare che la legge debba trattarli in modo differente da soggetti di normale intelligenza solo per le loro ridotte capacità mentali. Si guardi invece a questa semplice riflessione di David Aronovitch, che due anni or sono sul Times scriveva:“Responsabilità e causazione non sono la stessa cosa. Per esempio, se io ti faccio cadere sulla strada, tu sei causa della caduta di un ciclista dalla sua bici; se tu non fossi stato lì, lui non sarebbe caduto. Ma tu non sei responsabile della sua caduta. E io sospetto che sia possibile che si dia responsabilità senza causazione. Nei tradizionali plotoni di esecuzione, solo un membro del plotone riceve un una cartuccia a salve, mentre gli altri ricevono cartucce vere, senza che nessuno sappia chi ha la cartuccia vera. Pertanto non sapremmo dire chi ha causato la morte del condannato. Ma, ragionevolmente, potremmo ritenere responsabile della morte di questo un volontario che chiedesse di partecipare all’esecuzione”. Qui per distinguere tra causazione e responsabilità l’accento viene messo sulla volontarietà dell’azione, anziché sulla doverosità della stessa, diversamente da quanto abbiamo sostenuto nelle pagine precedenti. Sulla tesi di Aronovitch ci sarebbe molto da discutere: se il volontario del plotone di esecuzione è ammesso a prendere parte alla fucilazione è chiara la sua intenzione di uccidere in qual particolare momento, ma diremmo che è responsabile della morte del condannato? La rilevanza causale del suo sparo per la morte del condannato può essere positiva o nulla a seconda del tipo di cartuccia che si trovava in canna, ma secondo il punto di vista qui sostenuto in ogni caso la sua responsabilità è nulla perché non ha commesso nessuna trasgressione. Infatti il suo obbligo in quanto membro del plotone è quello di premere il grilletto insieme agli altri fucilieri, non di astenersi da questa azione. 11. Il relativismo e il problema della ricostruzione dei fatti. Il mito dei “duri fatti” è apparso, nell’epistemologia cosiddetta “postpositivista”, una delle eredità negative del positivismo dell’800. Ma già prima della seconda guerra mondiale sporadiche voci si opponevano a queste certezze. Nel 1935 appariva un libro originariamente misconosciuto, “Genesi e sviluppo di un fatto scientifico” (1935) scritto da un microbiologo ebreopolacco, Ludwig Fleck, metteva a fuoco storicamente, sotto l’influenza di Scheler, Weber e Mannheim, le ricerche sulla sifilide e la scoperta della reazione Wassermann in una chiave molto lontana da quella autorizzata dal neopositivismo. L’accento viene posto sul carattere sociale e collettivo della ricerca scientifica, svalorizzando il ruolo del singolo ricercatore nella misura in cui questo non può non essere condizionato da un modo di pensare, che Fleck chiama “stile di pensiero”(Denkstil) che dipende da una comunità o “collettivo di pensiero”. Le idee di Fleck rimasero praticamente sconosciute, almeno finché non furono in parte riscoperte (nonché adottate e adattate) dal filosofo della scienza americano – in realtà uno storico delle idee con interessi filosofici - Thomas Kuhn, autore della La struttura delle rivoluzioni scientifiche (1962). Il testo di Kuhn in effetti nasceva dal convergere di una pluralità di influenze, tra cui quella di Quine, del linguista B.L.Whorf e del filosofo Michael Polanyi. Va anche detto che il successo del saggio di Kuhn ha oscurato un testo filosoficamente più sigificativo apparso qualche anno prima, “Modelli della scoperta scientifica” di N.R.Hanson. Alle spalle di Hanson è evidente l’influenza del secondo Wittgenstein e della teoria del significato come uso, con cui si nega che il significato dei termini dipenda da un rapporto descrittivo con il mondo (teoria corrispondentista della verità). In realtà all’epoca del Circolo di Vienna la c.d. questione dei protocolli aveva già in parte anticipato le difficoltà del punto di vista tradizionale secondo cui le proposizioni rappresentano i fatti come una fotografia rappresenta un frammento di mondo. I protocolli sono registrazioni di sensazioni elementari che dovrebbero essere la base si cui poggia l’edificio della scienza. La posizione di Otto Neurath era che in ultima istanza la scelta era sempre tra proposizioni,in quanto il rapporto tra proposizioni e il cosiddetto mondo esterno non può essere a rigore un rapporto né di concordanza né di incompatibilità. La scienza veniva paragonata ad una nave che non tocca mai terra e deve riparare le proprie falle con il suo stesso materiale. Secondo Neurath l’unico criterio per la scelta degli asserti-base è la coerenza interna della costruzione, mentre Popper evidenzia il loro lato convenzionale: essi sono scelti in base ad una decisione metodologica della comunità scientifica. In ambedue i casi si nega l’esistenza dei duri fatti come elementi basilari del mondo, e si teorizza che in realtà si opera sempre con dati linguistici. Questi però hanno inevitabilmente un rapporto con il tipo di linguaggio impiegato, con le teorie presupposte e con i pregiudizi ambientali, e quindi perde senso l’idea di parlare di fatti neutri , oggettivi, o della cosiddetta evidenza . Alla luce delle considerazioni precedenti diventa comprensibile come negli anni 60 -70 si sia operato il rovescimento del rapporto tra fatti e teorie. Mentre per i neopositivisti i fatti condizionavano le teorie, la nuova concezione impone di dire che sono le teorie a condizionare i fatti. Kuhn chiama paradigma l’insieme dei preconcetti, dei modi di vedere e di pensare, condivisi in una certa epoca storica da una comunità scientifica nella fase diella cosiddetta scienza normale, in cui ci si muove sui tranquilli binari fissati dai manuali. Quando i paradigmi entrano in crisi si entra in una fase rivoluzionaria, al termine della quale emerge un paradigma alternativo, che impone un nuovo modo di vedere, e quindi modifica l’insieme di fatti che stanno alla base del paradigma. Il “vedere carico di teoria” è esemplificato da Hanson immaginando che un tolemaico (in realtà lui parla di Tycho Brahe) e un copernicano assistano a un tramonto sul mare. Anche se in un certo senso i due vedono la stessa cosa (perché la stimolazione retinica è la stessa) , il resoconto linguistico che daranno di ciò che vedono è diverso. Uno dirà che il sole si è abbassato, l’altro dirà che l’orizzonte si è alzato. Il sole del copernicano non è lo stesso sole dell’aristotelico: all’interno del paradigma tolemaico il sole è un oggetto per sua natura mobile, mentre nel primo paradigma è un oggetto per sua natura immobile. Il tramonto del sole appartiene alla categoria di quelli che si chiamavano “duri fatti” : essi sono più o meno coincidenti con quelli che abbiamo chiamato Kim eventi elementari , la cui forma, come sappiamo , è [a,P,t]. Kim accompagna la sua teoria con un criterio di identità per eventi che è questo: un evento [P,a,t] è identico a un altro [Q,b,t’] se e solo se P=Q, a=b, t=t’. Quindi se sono differenti i predicati che intervengono nei due eventi sono diversi gli eventi stessi. Questo crea una proliferazione sicuramente sgradevole di eventi. “Rossi guidava l’auto alle 20.30 di ieri alla Bicocca” è diverso da “Rossi guidava l’auto alle 20.30 di ieri ubriaco alla Bicocca” , anche se intuitivamente si riferiscono allo stesso evento. I Kim-eventi che li contengono sono dunque diversi, anche se intuitivamente sono solo una specificazione uno dell’altro. Ricorrendo alla venerabile distinzione tra connotazione e denotazione si può dire che le due descrizioni denotano lo stesso evento ma lo connotano in modo diverso. Questa distinzione si applica di solito a corpi tridimensionali e non a eventi. Posso connotare Cesare come “il conquistatore delle Gallie”(a) o il “massacratore delle Gallie”(a’) , con una notevole variazione di significato. Se a=a’ in questo caso il Kim-evento [a,P,t] è uguale al Kim-evento [a’,P,t]. In tal caso l’identità tra a e a’ stabilisce un’identità tra Kim-eventi, che però potrebbero essere in certi contesti usati con valori diversi. L’importanza di queste distinzioni emerge quando dai cosiddetti “hard facts” si passa ai “soft facts”, cioè i fatti morbidi, con un alto grado di dipendenza contestuale e linguistica. Per semplificare, diremo che i fatti morbidi sono in genere fatti relazionali, e cioè fatti che sono correlazioni tra Kim-eventi atomici. Esempio : il fatto a ha preceduto il fatto b, il fatto a ha causato il fatto b, il fatto a è inferibile dal fatto b eccetera. Quanto alle leggi di natura, i veteropositivisti li vedevano come “megafatti” che erano oggetto di scoperta, non di costruzione, e costituivano quindi non i mattoni ma le travi portanti dell’edificio scientifico. Questa immagine della scienza cominciò a dissolversi con l’irruzione della statistica nella fisica (si pensi alle leggi dei gas) e scomparve definitivamente con la meccanica quantistica, le cui leggi enunciati correlazioni anche per basse probabilità. Abbiamo già visto che il fattore linguistico-connotativo (che per semplicità chiameremo fattore intensionale) entra in gioco nella identificazione dei Kimeventi. Questa dipendenza ovviamente aumenta quando si passa a fatti relazionali, cioè a relazioni tra Kim-eventi. Per cominciare, la relazione causale tra Kim-eventi non ha lo stesso grado di evidenza che è presente nella relazione cronologica. Ci sono teorie della causalità, e adottarne una – per esempio la teoria della condicio – già significa introdurre una certa forma di relativizzazione. Secondariamente, a parte la scelta teorica circa la natura della relazione causale, il fattore intensionale può introdurre una distorsione. Il caso della vittima uccisa simultaneamente da due killers si presta ad esemplificare il caso. Se nel Kim-evento che è effetto usiamo la descrizione [a, Morto con due proiettili in corpo, t] allora si stabilisce la corretta relazione causale: Se Tizio non avesse sparato a non sarebbe morto con due proiettili in corpo , e idem dicasi per Caio. Questa costruzione sembra seguire dal criterio della massima specificità introdotto da Hempel per la spiegazione e da un criterio generale che è certamente condivisibile: “ (I)Si introduca il massimo di informazione rilevante per la soluzione del problema a cui è finalizzata la ricerca. Ma, come abbiamo già visto, il connotare in modo più specifico l’evento effetto può non funzionare in tutti i casi. Ciò che infatti fa inceppare il metodo non è il modo insufficiente in cui si descrivono gli eventi ma una insufficiente visione dei controfottuali che entrano in gioco. Più esattamente: se le descrizioni diverse di uno stesso evento danno origine a distorsioni nell’accertamento delle cause, una corretta teoria controfattuale della causa ha il compito di minimizzare il peso del fattore intensionale, fino a renderlo inoperante. Se è vero che l’accertamento delle cause è relativo al tipo di connotazione operato, e questo , a sua volta, relativo alle teorie o ai pradigmi, si può sostenere che una teoria adeguata della causa si può valutare come positiva nella misura in cui tende ad annullare il peso del fattore intensionale, realizzando così un tipo particolare di derelativizzazione. Abbiamo visto molte volte che l’aumento di informazione può aiutare a eliminare l’indeterminazione e il peso di altri tipi di relativizzazione. A commento della massima (I) bisogna dire che nell’ introduzione di informazione bisogna evitare due scogli opposti: il primo naturalmente è l’omissione di informazione, o selettività arbitraria, che fa incorrere nel rischio di travisamento dei fatti. Ma c’è anche il rischio opposto: l’eccesso di informazione irrilevante può creare serie difficoltà nella risposta a un problema, come chiunque può sperimentare facendo una ricerca in Internet con un motore di ricerca che ci costringe a considerare centinaia di dati per lo più irrilevanti. Rilevanza informativa e semplicità sono due grandezze interconnesse, al punto che filosofi come Elliott Sober hanno proposto l’ identificazione tra semplicità e informatività. Che significa ricostruire un fatto o una serie di fatti? Significa pervenire alla formulazione (di solito in forma narrativa) di un enunciato complesso che ottimizzi semplicità e quantità di informazione nel rispondere alla domanda “che cosa è accaduto nel luogo a durenta l’intervallo t’-t”?” Ricostruire una serie di fatti non è lo stesso che spiegarli o comprenderli. Per chiarire questo punto riprendiamo la tradizionale distinzione tra fatti riproducibile e non riproducibili. I primi sono quelli che entrano in gioco nelle cosiddette scienze sperimentali, in cui le leggi connettono fatti che sono normalmente oggetto di esperimento. Le leggi naturali connettono fatti che o sono umanamente riproducibili o, ricorrendo a una metafora, sono riproducibili dalla natura. Le cosiddette scienze “idiografiche” hanno a che fare con fatti irripetibili,e quindi a fortiori non riproducibili. Il problem solving giudiziario da questo punto di vista è assimilabile alla trattazione dei fatti nelle scienze idiografiche, e in particolare nella storiografia. Quali sono le differenze tra ricostruzione storiografica dei fatti e ricostruzione giudiziaria? Le differenze in prima approssimazione sembrano queste: 1) lo storico è impegnato nella ricerca su un frammento di realtà passata che lui stesso ha prescelto; 2) la ricerca storica è illimitatamente aperta alla revisione, mentre lo scopo del processo è quello di porre un termine alle ricerche ottenendo una ricostruzione fattuale che si propone di essere definitiva; 3) nel lavoro dello storico la selezione dei dati di partenza è largamente arbitraria in quanto spesso non è orientata da una domanda precisa a cui la ricostruzione è finalizzata; 4) la metodologia dello storico è “libera”, mentre quella del giudice è vincolata da regole procedurali. Nessuna di queste differenze è tale da nascondere le profonde affinità di obiettivi e di metodo. Vediamo dunque cosa si può imparare dalla più importante opera dedicata alla metodologia storica, il ponderoso lavoro di J.Topolski “Metodologia della ricerca storica”. Prima di tutto Topolski distingue tra il fatto come “ciò che è realmente accaduto” e la sua ricostruzione storiografica”, che sarebbe meglio chiamare “fatto storiografico”. L’idea di Topolski, influenzata dal materialismo dialettico, chiede che la ricerca storica crei una continua approssimazione del fatto storiografico alla cosiddetta verità. Non viene menzionato un criterio di razionalità suggerito sopra, cioè che l’esposizione del fatto deve rispondere al requisito di esporre il massimo di informazione in forma non-ridondante e semplice. In ambedue i tipi di indagini, comunque, è essenziale il ruolo delle ipotesi. In storiografia si parte da domande di spiegazione (perché?) e domande fattografiche (che cosa è accaduto?) e si avanzano delle risposte che sono le ipotesi da cui si parte. Analogamente accade nei processi, dove il capo d’accusa è considerato un’ipotesi. Per il controllo dell’ipotesi lo storiografo userà le fonti, il giudice le testimonianze e i reperti, ma la procedura è analoga.SecondoTopolski nella verifica delle ipotesi si distingue tra metodo diretto e metodo indiretto. Metodo diretto. Se le fonti parlano direttamente del fatto, si adotta un preciso principio che è il seguente: “Se la fonte è autentica e le informazioni credibili, allora i fatti dei quali queste informazioni parlano sono realmente o molto probabilmente avvenuti”. La conclusione che il fatto è avvenuto si può quindi ottenere per applicazione delle leggi logiche, e il fatto può essere considerato indubitabile e immagazzinato nello stock di informazione. Metodo indiretto. Ci sono due livelli di analisi. Il primo verte sull’autenticità della fonte e sulla credibilità dell’informazione e quindi consiste nell’applicazione del metodo diretto. Il secondo è la verifica dell’ipotesi H valutando le sue possibili conseguenzeA1…An. Se queste si sono veramente verificate allora H si può considerare eventualmente una buona spiegazione delle conseguenze. Come sappiamo. la spiegazione non è necessariamente una spiegazione causale: la correlazione potrebbe essere statistica o indiziaria. L’importante è che il ragionamento sia ottenuto applicando forme di inferenza razionale, cioè –come abbiamo visto – forme di inferenza che conservano il massimo di informazione disponibile. Questo è quanto propone Topolski. La differenza con quanto sostenuto nelle pagine precedenti è che H va valutata insieme a un insieme di ipotesi alternative esaustive e disgiunte H2…Hn che abbiano superato una certa soglia di credibilità. La ricerca di informazione ha lo scopo di raggiungere una risposta determinata, il che consiste nell’ eliminare la disgiunzione delle ipotesi fino a restare con un’ipotesi vincente . Abbiamo sottolineato che il risultato della procedura, che può essere portatrice di errori, va confermata da una controprova- che va conseguita su basi indipendenti da quelle impiegate nella procedura stessa. Va notato che gli epistemologi che aderiscono ad una teoria coerentista della verità (come Nicholas Rescher), secondo i quali la verità di una proposizione consiste nella sua coerenza con la conoscenza acquisita, preferiscono adottare un metodo diverso, anche se ovviamente in alcuni casi può produrre gli stessi risultati di quello qui esposto. Secondo i coerentisti si parte non da informazioni certe ma da dati, con o senza pedigree, pertinenti per una certa ipotesi H. si accerta la loro coerenza interna e in molti casi può accadere che tali dati (p.es. testimonianze) siano contraddittorie tra loro. Nell’ insieme dei dati si scelgono allora dei sottoinsiemi coerenti. Si accerta quindi la “plausibilità” di tali sottoinsiemi. I metodi per l’accertamento di tale plausibilità tuttavia sono diversi, e comunque tutti lontani dalla corrispondenza con la cosiddetta realtà, che per i coerentisti è secondaria. Rescher elenca vari metodi di scelta, uno dei quali è il metodo dell’utilità pragmatica. Ma è chiaro che l’adozione di tale metodo può portare a risultati arbitrari, o peggio ancora conformi agli interessi più o meno nobili di chi compie la selezione. Il metodo soggettivista-bayesiano esposto a p.31 è conforme alla metodologia coerentista. Nella diversa prospettiva qui suggerita invece si parte da uno stock di informazione, rilevante per gli obiettivi, che è ovviamente coerente (perché selezionata per aver superato il livello di soglia) e tendenzialmente completa, (nel senso che è la migliore approssimazione a una completezza ideale). Elementi di informazione non possono essere cancellati solo perché incompatibili con l’ipotesi testata. Se un’ipotesi è accettata in base a questo tipo di evidenza dopo essere stata confrontata con ipotesi rivali, la sua validità è assoluta rispetto ad essa : anche se ovviamente rivedibile una volta che il suo sostegno informativo venga esteso con nuovi elementi . In tema di ricostruzione dei fatti, dovranno quindi essere confrontate diverse ricostruzioni ipotetiche , procedendo poi all’ identificazione della migliore delle ipotesi. Nei casi di parità viene escluso il ricorso all’arbitrio del giudice: o si accetta la conclusione disgiuntiva o si ricorre a un’estensione della base informativa. Questo modo di procedere appare conforme alla prassi con cui nei tribunali veniva applicata la formula Non liquet con la quale il giudice chiedeva un supplemento di istruttoria nei casi in ui la ricostruzione dei fatti si presentasse incerta. 12. La scientificità come oggetto di prova. Nel momento il cui il giudice deve scegliere un perito o un collegio di periti, deve affrontare il problema di scegliere periti che non solo siano affidabili, ma competenti in discipline qualificabili come scientifiche. Per questo il giudice ha il problema di come far leva su criteri affidabili di scientificità. Come vedremo, però, in alcuni casi la scientificità non interessa il giudice per guidare le sue scelte, ma diventa essa stessa oggetto di controversia giudiziaria. In ambedue i casi è inevitabile un ricorso non alla scienza ma alla riflessione sulla scienza, cioè all’epistemologia. Si può presentare il nucleo della filosofia della scienza come il tentativo di rispondere alla domanda circa la demarcazione tra scienza e non-scienza. Autorevoli filosofi come Larry Laudan hanno messo in dubbio la possibilità di questa demarcazione. Ma essere scettici sulla possibilità della demarcazione significa essere scettici sulla stessa filosofia della scienza e forse sulla stessa scienza. Come è noto, è stato soprattutto Popper il filosofo che ha dato centralità a questo tema, guidato sicuramente da un certo gusto per la provocazione . La questione sollevata da Popper è stata spesso confusa con altre questioni diverse, anche se apparentate, discusse dai filosofi. Anche i neopositivisti del Circolo di Vienna si ponevano un problema di demarcazione, ma era il problema della demarcazione tra senso e non senso. Nella visione dei neopositivisti la classe di enunciati classificati come sensati coincideva con la scienza stessa. Nel dominio dell’insensato finivano così, a pari merito, la metafisica, i sistemi normativi, le valutazioni estetiche e morali, le esclamazioni dettate da emozioni occasionali. Sull’ identificazione tra scienza e sensatezza operata dai neopositivisti si è appuntata con successo la critica di Popper. Sono pochi ora a pensare che si ottenga qualche vantaggio negando sensatezza alla metafisica o al linguaggio normativo. Scienza e metafisica sono più intrecciate di quanto gli scienziati amino credere (c’ è sicuramente una metafisica rilevante per la scienza, come è stata a suo tempo quella di Aristotele); e, quanto alla sensatezza delle norme, senza scomodare il diritto basta osservare che la scienza fa largo impiego di regole inferenziali o procedurali che, pur essendo norme, sono pienamente sensate in contesto scientifico. Il cosiddetto principio di verificabilità, o criterio empirico di significanza, originariamente enunciato dai neopositivisti come criterio di sensatezza, ha fatto poca strada. Come si sa, la sua prima formulazione consisteva nel dire che un enunciato è sensato se e solo se è verificabile conclusivamente in linea di principio. Dato però che le leggi di natura, espresse da enunciati infinitari, sono inverificabili anche in linea di principio, dovrebbero finire nel calderone del non significante in compagnia della non-scienza, il che è ovviamente assurdo. Si sa che il criterio è stato riveduto e corretto in vari modi, il più raffinato dei quali era il criterio della conferma probabilistica.. Ma gli esiti sono comunque dubbi, considerando che il probabilismo non può sfuggire a conclusioni imbarazzanti, come il fatto che le leggi ricevono probabilità uguale a 0 (nel continuo carnapiano dei emtodi induttivi) e comunque molto bassa con i metodi induttivi della scuola di Hintikka. Prima di discutere il problema della demarcazione tra scienza e non-scienza è bene comunque sottolineare che vi sono altri problemi di demarcazione che dovrebbero interessare l’epistemologo. Uno interessante e poco battuto è quello tra scienza ed arte, e in subordine quello tra scienza e letteratura. I dialoghi di Galileo sono un’opera d’arte o un’opera scientifica? I disegni di Leonardo sono opere scientifiche o opere artistiche? La storiografia è arte o scienza ? Se rispondiamo che sono ambedue le cose tocchiamo con mano che forse la distinzione tra arte e scienza non è chiara come si vorrebbe. Un’altra distinzione su cui ci si trova a discutere, soprattutto nell’ambito di scienze come la psicologia, è la demarcazione tra costruzione mentale paranoica e costruzione mentale razionale. La storia della scienza è piena di personalità paranoiche ma soprattutto lo è la pseudoscienza (si veda M.Gardner ,”Fads and Fallacies in the name of Science”) Faccio solo l’esempio di W. Reich, il teorico della rivoluzione sessuale, che aveva inventato una macchina per catturare l’energia orgonica e che negli anni ‘50 cercò di convincere il governo americano che i dischi volanti stavano tentando un invasione della terra. La discussione sulla demarcazione tra scienza e non-scienza, sarebbe un passo importante se fosse possibile distinguere la scienza da altri sistemi di pensiero che hanno pretese conoscitive come la filosofia, la religione e l’ideologia. La demarcazione tra scienza e ideologia merita una parentesi. L’ideologia ha delle affinità con la religione e con le costruzioni mentali paranoiche. Nel modo di pensare ideologico viene identificato un nemico numero uno, che ha lo stesso ruolo di Satana nelle religioni, e ci si pone come obiettivo primario la lotta contro tale nemico ( può essere l’ebraismo nell’ideologia nazista, le multinazionali in quella terzomondista ecc.). La lettura della realtà viene effettuata in funzione della lotta all’arcinemico. L’ homo ideologicus attua una selezione dei dati informativi, nel senso che prende in considerazione tutto ciò che può essere impiegato nella lotta al nemico, mentre viene cancellato o minimizzato tutto ciò che interferisce con il perseguimento degli obiettivi polemici. Il modo di pensare ideologico è, da questo punto di vista, un caso speciale di sistema di pensiero paranoico: ciò che conta è la conservazione delnucleo delirante e la coerenza interna del sistema, che viene di solito ottenuta con la rimozione dell’evidenza contraria (si pensi all’ hegeliano “tanto peggio per i fatti”). Questo risultato, incidentalmente, è uno dei possibili esiti dell’adesione alle cosiddette “teorie coerentiste della verità”, che trovano concordi vari sostenitori dell’idealismo, e non solo questi (si veda p.es. Neurath, che era un membro del Circolo di Vienna). Dobbiamo a Neurath la metafora della nave: la scienza è paragonata ad una nave che non può mai toccare terra ed è costretta a riparare le proprie falle ricorrendo ai materiali che si trovano a bordo. La metafora della nave ha qualche punto in comune con quella popperiana della scienza su palafitte. Le palafitte non toccano mai uno strato roccioso, ma possono essere spinte più a fondo, rendendo possibile un ampliamento e un consolidamento dell’intera struttura. Ma, a differenza di Neurath, Popper ammette, anzi esige, che le teorie superino dei controlli rigorosi miranti alla loro falsificazione. I popperiani hanno buon gioco a dire che la religione e l’ideologia sono costruzioni extrascientifiche perché non falsificabili: gli asserti che li costituiscono non sono refutabili da nessun controesempio perché questi sistemi di pensiero autorizzano sempre delle Va detto che anche i neopositivisti avevano dalla loro uno strumento metodologico efficace, che è il principio dell’evidenza totale. Nella scienza qualsiasi ipotesi, sia categorica che probabilistica, deve essere controllata esaminando tutta l’informazione disponibile. In una variante più debole ma più appl icabile, ogni ipotesi va controllata esaminando tutta l’informazione rilevante per l’ipotesi stessa, dove la rilevanza può essere positiva o negativa. Qui il divario tra scienza e ideologia risulta piuttosto chiaro: le “verità” ideologiche sono sostenute da un uso selettivo dell’informazione, che a volte si può spinge fino a negare l’evidenza diretta (come quando qualcuno arrivò a negare l’urto degli aerei contro le due torri l’11 settembre del 2001). Lo stesso principio dell’evidenza totale dovrebbe essere applicato, almeno in teoria, nelle corti di giustizia. Qui i giudici, nel valutare un’ipotesi di colpevolezza, dovrebbero in linea di principio tener conto di tutta l’informazione che può essere positivamente o negativamente rilevante perl’ipotesi. Ne potremmo parlare come di criterio di non-selettività. La nonselettività si impone dunque come principio guida per tracciare una prima discriminante tra ciò che aspira legittimamente ad essere considerato scienza e ciò che non può avere questa pretesa. Ho detto “ciò che aspira ad essere considerato scienza” per rendere subito chiaro che non tutte le discipline insegnate nelle nostre facoltà con il nome di scienza, come le scienza motorie o le scienze teologiche, sono effettivamente scienze. Tanto meno qualcosa è scienza per avere nel proprio nome il suffisso “logia”, come la grafologia o ladietologia. Si può dire che alcune di queste, pur non essendo scienze, sono tuttavia discipline a carattere scientifico. La distinzione dovrebbe a mio avviso prendere il posto di quella, meno convincente, che spesso si fa tra scienze fisiche e scienze umano-sociali. Sarebbe facile tracciare che la distinzione tra discipline a carattere scientifico e altre discipline non scientifiche dicendo che chi opera nelle prime è dotato della cosiddetta mentalità scientifica. Ma questo da un lato sembra implicare una connotazione psicologica che purtroppo è difficile dettagliare, dall’altro sembra suggerire l’esistenza di un codice di comportamento scientifico (un’etica scientifica) che viene spesso invocato manon è mai stato scritto. Un’idea che potrebbe sembrare plausibile sta nel dire che una disciplina è scientifica quando, anche in assenza di una teoria dominante condivisa e confermata, impiega dei metodi di accertamento che sono caratteristici dellescienze in senso pieno come la fisica e la biologia: per esempio metodimatematici, statistici, tecnologie avanzate di misura e di calcolo eccetera. Si noti però che anche l’astrologia, per fare un esempio banale, fa uso di metodi matematici, anche se è piuttosto chiaro che non può essere considerata né una scienza né una disciplina scientifica. Come aveva visto Popper, nell’ambito delle non-scienze le pseudo-scienze sono particolarmente insidiose, perché si presentano ai profani come scienze: si assicurano così il successo da un lato per l’innata tendenza umana alla credulità, dall’altro per l’ambiguità che si è venuta a creare sul concetto stesso di scienza, purtroppo imputabile alle oscillazioni che ha avuto l’epistemologia sul tema della demarcazione. Il riferimento all’astrologia è naturalmente un richiamo a Popper, che ne aveva fatto un esempio paradigmatico di pseudoscienza insieme a due altre discipline sempre citate insieme ad essa, la psicoanalisi (di Freud, ma anche di Adler e Jung) e l’economia marxista. Il metodologo Adolf Grünbaum ha contestato questa pretesa nonfalsificabilità delle affermazioni freudiane, notando che più volte Freud è stato costretto a cambiare le sue teorie perché l’esperienza clinica le mostrava false. Per Grünbaum esiste un criterio più convincente per stabilire la scientificità della psicoanalisi, ed è quello del successo terapeutico. Per dimostrare la scientificità della psicoanalisi, dunque, bisognerebbe dimostrare 1) che essa riesce effettivamente a guarire le nevrosi e 2) che nessuna altra disciplina può farlo. Purtroppo, però, le cose non stanno così. Lo stesso Freud espresse qualche perplessità sulla possibilità di guarire effettivamente grazie all’analisi. D’altra parte, i sintomi delle nevrosi possono essere guariti anche con mezzi alternativi alla psicoanalisi, per cui nemmeno la seconda condizione sembra verificabile. Per Grünbaum non è giusto escludere a priori la scientificità della psicoanalisi; semplicemente, essa non è al momento confortata dai fatti. Per quanto Popper sia stato visto per diversi decenni come un positivista eretico, è abbastanza chiaro che la sua concezione ha un impianto diverso da quello che discende dal positivismo. In primo luogo i popperiani negano sia il ragionamento induttivo , sia l’esistenza di osservazioni neutre che, estrapolate induttivamente, stanno alla base della scienza. Secondariamente, se ciò che caratterizza la scienza è la falsificabilità, allora la scienza si distingue non per darci certezze poggianti sui fatti, ma al contrario per la sua fallibilità e per la sua rivedibilità perpetua. Negli anni ’50 l’attacco ai capisaldi del positivismo avviato da Popper è passato anche per vie diverse. Mi limito a citare la critica alla distinzione tra enunciati analitici e sintetici proposta da Quine già negli anni ‘40 e la critica alla distinzione tra enunciati osservativi e teorici, sostenuta da Sellars negli anni ‘50. L’ influenza più profonda dopo gli anni 40 è stata però quella del secondo Wittgenstein. Il secondo Wittgenstein ha proposto una concezione antropologica del linguaggio, per la quale l’unico criterio di significato non è offerto dalla corrispondenza con il mondo ma dalla presenza di regole d’uso condivise, anche se non codificate. Per usare una sua frase famosa, “i limiti del mondo sono i limiti del linguaggio”. Indipendentemente da Wittgenstein, antropologi come Sapir e Whorf proponevano una forma estrema di relativismo, per il quale lingue naturali diverse, come per esempio l’inglese e l’esquimese, determinano diverse percezioni del mondo e, essendo tra loro intraducibili, determinano mondi inconfrontabili tra loro. Il passo compiuto da Hanson e poi da Kuhn con la cosiddetta “svolta relativistica” è stato una conseguenza di queste premesse. Dato che teorie scientifiche diverse impiegano regole d’uso diverse per termini acusticamente uguali come “luce”, “sole”, “spazio”, se ne conclude che ogni teoria scientifica, nel momento in cui condiziona il pensiero di una generazione di scienziati, determina una visione del mondo incommensurabile con le visioni che storicamente la precedono. Il passaggio da una teoria a un’altra, che Kuhn chiama mutamento di paradigma, è una rivoluzione scientifica, nel senso che propone un nuovo modo di vedere le cose, e con ciò modifica lo stesso insieme di dati osservativi che i positivisti mettevano a base della scienza. Esempio standard è quello della rivoluzione copernicana. Si nega quindi non solo l’effettiva applicazione del ragionamento induttivo, ma anche l’applicazione della falsificazione teorizzata da Popper. Dato che è il paradigma stesso che funziona come filtro per i dati empirici, non può essere falsificato da questi. Nella cosiddetta “nuova filosofia della scienza”, emersa negli anni 60, il requisito dell’evidenza totale è stato abbandonato come uno dei miti del positivismo, e condannato insieme ad altre idee considerati pregiudizi positivisti, come quello del progresso cumulativo della conoscenza, l’ideale della matematizzazione e dell’uso sistematico della logica simbolica. Se la scienza è una costruzione che non poggia sull’evidenza sperimentale ma si regge sul consenso, non è per sua struttura diversa da altre costruzioni umane che si reggono sul consenso, e in particolare alla religione e alle ideologie. Insieme alle classiche dicotomie tra analitico e sintetico, descrittivo e normativo, osservativo e teorico viene a cadere così anche la più antica e venerabile delle dicotomie, che è quella tra doxa ed episteme, cioè tra credenza e conoscenza. Il confine tra scienza e non-scienza, e quindi anche tra scienza e pseudo-scienza, diventava così labile che l’esponente più oltranzista di questa corrente, Paul Feyerabend, volle che una delle sue foto ufficiali avesse come sfondo lo zodiaco usato dagli astrologi. Con l’anarchismo di Feyerabend non solo si nega recisamente l’esistenza di un metodo scientifico, ma si afferma in positivo che “tutto va bene”: ciò che importa infatti è solo la libera competizione tra discipline, sistemi di pensiero e punti di vista diversi (fossero pure la fantascienza o la magia nera) senza farsi domande sulle loro credenziali di scientificità. In vista di questo obiettivo la metodologia normativa e la stessa riflessione sui confini della scienza diventa un ostacolo al progresso della conoscenza complessiva. Feyerabend va apprezzato per aver portato alle estreme conseguenze un modo di pensare che si presta a incoraggiare orientamenti che sono lontani dalla scienza o esplicitamente antiscientifici. La deregulation Feyerabendiana aveva fortuna, forse non a caso, negli stessi anni della deregulation reaganiana. Forse non a caso una volta Reagan se ne uscì con la splendida boutade: “i fatti sono stupidaggini”. Non è forse nemmeno un caso che a seguito dell’ondata postpositivista negli anni ‘80 si sia assistito al dilagare in Europa dell’ermeneutica, dell’heideggerismo, del pensiero di Nietzsche e, in Italia, del cosiddetto pensiero debole. Il decostruzionismo di Rorty negli Stati Uniti esemplificava in forma brillantemente anglosassone lo stesso orientamento. Questi sviluppi riguardano il pensiero filosofico. Nell’ambito delle scienze l’influenza del postpositivismo delle scienze avanzate è più difficile da valutare. In Europa, soprattutto tra gli economisti, ha avuto credito la cosiddetta metodologia dei programmi di ricerca di Lakatos, che ha proposto un “falsificazionismo sofisticato” che è una ragionevole mediazione tra la filosofia di Popper e quella di Kuhn. La metodologia di Lakatos è più descrittiva che normativa. Un programma di ricerca non viene abbandonato per una falsificazione singolare, ma solo quando, essendo incapace di progresso e carico di problemi irrisolti, viene spodestato da un nuovo programma di ricerca che è più ricco di contenuto, nel senso che è in grado di risolvere un più ampio numero di problemi. Viene così assicurata la razionalità dello sviluppo della scienza, che appariva perduta nella prospettiva kuhniana, spesso tacciata di irrazionalismo o di sociologismo. I dati osservativi nella concezione di Lakatos non hanno un ruolo di primo piano. Si insiste invece sulla razionalità del consenso, anche se la razionalità di cui parla Lakatos è una razionalità impersonale, di tipo hegeliano. Su questo terreno bisognerebbe anche ricordare contributi diversi da quello di Lakatos, poco studiati in Italia, come la teoria del consenso razionale di Lehrer-Wagner. In questa si mostra come una comunità di scienziati razionali può partire da assegnazioni probabilistiche soggettive a un certo enunciato h, ma correggere questa assegnazione iniziale ponderandola con il grado di fiducia nell’autorità e nella competenza di altri scienziati. Si mostra tramite un modello matematico come la progressiva correzione delle valutazioni probabilistiche iniziali porti a un valore unico, che è il risultato di una discussione critica e non di un consenso dovuto alla “persuasione” , alla retorica o a pressioni di ambienti politici o economici. L’idea di razionalità che viene qui sottinteso, in un certo senso, è quello di una razionalità procedurale. La razionalità del consenso, in altri termini,non dipende da qualche aggancio ai dati empirici ma dipende da una procedura che corregge le eventuali aberrazioni delle valutazioni individuali. Nel modello di Lehrer-Wagner il rispetto di quella che Galileo chiamava la “sensata esperienza” è sostituita dal rispetto per l’ autorità di altri ricercatori. Questo però è un larvato riconoscimento del principio di autorità. Il principio di autorità, purtroppo, anche se ufficialmente riprovato, contiene ad operare di fatto nella scienza quotidiana, per esempio quando si tratta di affidare a un referee la scelta un articolo su una rivista internazionale o di promuovere un giovane ricercatore. Neppure la metodologia popperiana in realtà è in grado di eluderlo, stante che la falsificazione o mancata falsificazione delle ipotesi riposa su asserti-base che in ultima analisi dipendono da una decisione degli scienziati stessi. Eppure, come in fondo ha evidenziato lo stesso fallibilismo di Popper, grandi scienziati umanamente possono sbagliare, e anzi umanamente sbagliano, soprattutto quando non parlano ex cathedra. Basti ricordare, e non è una battuta, che lord Kelvin dichiarò solennemente nel 1895 che era impossibile per un corpo più pesante dell’aria levarsi in volo, e questo pochi anni prima che i fratelli Wright nel 1903 facessero volare il primo aereo a motore. Negli ultimi anni anche il peso del post-positivismo e di quella che è stata chiamata “la svolta relativistica” si è notevolmente ridimensionato. Filosofi della generazione più giovane come Bas van Fraassen e Clark Glymour non hanno esitato a dichiarare il loro debito verso il neo- empirismo, mentre figure influenti come quella di Hilary Putnam hanno tentato una sintesi di sapore kantiano. Non si può neppure dire, però, che si sia verificato un ritorno a Carnap o al Circolo di Vienna, che appaiono irrimediabilmente remoti, anche se nessuno mette in discussione la loro grandezza. Il panorama attuale della filosofia della scienza, messa in ombra dall’emergere della scienza cognitiva, è piuttosto desolante, non tanto per la mancanza di forti personalità, quanto per la rinuncia a ridiscutere proprio i temi che hanno caratterizzato sin dall’origine la disciplina, tra cui anche quello della distinzione tra scienza e non-scienza. E’ positivo che una richiesta di riflessione sul tema della demarcazione provenga dall’ambiente giudiziario. In primo luogo, l’interesse del giudice naturalmente è quello di appoggiarsi all’operato di periti che abbiano credenziali scientifiche. Dato che l’obiettivo è la ricerca di un accertamento veridico dei fatti, è comprensibile che un criterio di verità basato sul consenso o sulla coerenza interna sia da molti considerato insufficiente. E’ comprensibile quindi che per questo motivo molti ritengono opportuno che le corti di giustizia tornino a ispirarsi alla vecchia concezione corrispondentista (aristotelica), secondo cui la verità è corrispondenza ai fatti. Su questa legittima aspirazione ad avere criteri solidi di verità bisogna fare alcune precisazioni. Nel veteropositivismo si partiva dall’idea che la scienza parte dalla scoperta dei fatti, e questi fatti sono scoperti allo stesso modo in cui vengono scoperte le tombe etrusche sotto uno strato di terra. Su questa immagine si appoggiava il mito positivistico degli “hard facts” o “duri fatti”, che dovevano essere i mattoni elementari con cui si costruisce l’edificio della scienza. In questa visione c’è indubbiamente una certa dose di ingenuità, non tanto nell’aspirazione alla scoperta quanto nel concetto stesso di fatto che viene presupposto. Cominciamo col dire che i fatti possono essere fatti semplici, di solito identificati con eventi atomici (come il fatto che ora piove), ma possano essere aggregati di fatti elementari, come p.es. “la partecipazione degli studenti della scuola x a una manifestazione pacifista ”. Secondariamente, ci sono fatti difficilmente riducibili a eventi, come per esempio il fatto “maggiore incidenza di casi di cancro nella fabbrica x rispetto alla media nazionale”. Qui entriamo, come già detto, nella sfera dei “soft facts”, cioè fatti con un certo grado di dipendenza dal linguaggio e dal contesto. Ma il relativismo nasconde un grosso equivoco. Una cosa è dire che la verità di un enunciato è relativa a un contesto o a un punto di vista, (cosa difficilmente contestabile) altro è dire che la derelativizzazione è un compito impossibile in linea di principio. Per fare un esempio banale, dire che la porta d’ingresso si trova sulla destra può essere vera per Tizio e falso per Caio, ma questo non significa che non si riesca a riformulare la stessa proposizione con enunciati derelativizzati che non dipendono dalla posizione di Tizio o di Caio. In particolare, se un enunciato, per esempio “la probabilità di Tizio di ammalarsi di diabete è 0,5” è vera rispetto a uno insieme di informazioni X , tale verità cessa di essere relativa una volta che venga resa esplicita questa relatività. Lo stesso vale per la ricostruzione dei fatti effettuata da un giudice. Una volta specificato che la ricostruzione è operata rispetto a uno insieme di informazioni acquisite X, tale verità cessa di essere relativa se si prova che il rapporto tra essa e l’insieme X è unico e incontrovertibile. L’interesse in tal modo si sposta sulle proprietà dell’insieme X, che naturalmente non può essere un qualsivoglia insieme. Se X è un campione statistico, sappiamo qual è la risposta che si dà nella metodologia statistica: il campione deve essere il più possibile ampio e randomizzato. Vorrei solo notare che il conseguimento della derelativizzazione obbedisce a un principio che Grice ha codificato tra le regole della conversazione: “Si introduca il massimo di informazione rilevante per le risposte a cui è finalizzata la ricerca”. Ci si accorgerà che questa è una variante del principio dell’evidenza totale a cui abbiamo accennato all’inizio. Senza entrare in dettagli complessi, si usa il concetto di informazione, anziché quello di dato empirico, intendendo per “elemento di informazione” un dato la cui certezza supera la soglia del ragionevole dubbio e che pertanto non è lecito mettere in discussione (cioè è “indiscutibile”) nel corso di una certa indagine. Possiamo dire che tra gli obiettivi distintivi della scienza c’è l’incremento di informazione, perché solo l’incremento di informazione consente di risolvere problemi vecchi, di vedere problemi nuovi, e di eliminare il grado di incertezza e di errore presente in teorie deboli. Oltre al problema dei criteri di scientificità nella valutazione delle prove è degno di nota che la stessa scientificità può essere oggetto di discussione nei tribunali. Non si può non citare al proposito un caso storico esemplare in cui i tribunali hanno avuto a che fare con la questione della scientificità. Il riferimento è alla memorabile causa McLean v. Arkansas curata dal giudice Overton negli nni 90: oggetto del dibattito era la tesi creazionista del disegno intelligente, che era contrapposta alla tesi darwiniana e proposta per l’insegnamento nelle scuole superiori. Si noti che i creazionisti hanno usato (o abusato) del termine “scienza” chiamando la loro dottrina “scienza della creazione”. Il processo come è noto, si è concluso con la condanna della tesi creazionista e con il conseguente divieto dell’insegnamento di questa dottrina nelle scuole. La testimonianza del darwinista Michael Ruse è stata della massima importanza nel guidare le decisioni della corte(9). Ruse ha annoverato in varie sedi una serie di qualità che una teoria dovrebbe possedere per essere qualificata come scientifica: questo elenco nasce da una sintesi tra l’epistemologia popperiana e quella positivista (10). Schematicamente, Ruse proponeva di considerare scientifica una teoria quando è a) consistente (non contraddittoria), internamente ed esternamente b) parsimoniosa, cioè propone entità o spiegazioni nella misura strettamente necessaria allo scopo, applicando il c.d. rasoio di Occam c) utile, in quanto descrive e spiega i fenomeni osservati d) provabile e falsificabile empiricamente e) basata su esperimenti ripetibili e controllabili f) correggibile e dinamica, in quanto deve essere possibile l’applicazione dei. cambiamenti alla luce di nuovi dati g) progressiva, in quanto una nuova teoria deve essere migliore delle teorie precedenti e nello stesso tempo spiegare quanto era spiegato da queste h) provvisoria, nel senso che non proclama certezze ma ammette la sua faliibilità Secondo le opinioni degli esperti, la teoria del Disegno Intelligente (ID) mancherebbe di molte delle suddette proprietà: (9) Testimony of Dr. Michael Ruse, Professor of Philosophy, University of Guelph, Ontario Canada (Plaintiffs Witness) - transcript paragraph formatted version. Reperibile al sito internet http://www.antievolution.org/projects/mclean/new_site. (10 ) V. per es. But is it Science?: The Philosophical Question in The Creation Evolution Controversy, a cura di M.Ruse, New York, 1996. 1. manca di consistenza: l'ID è infatti basata sul presupposto che la complessità e improbabilità dell’evoluzione debbano implicare un progettista intelligente, ma nello stesso tempo asserisce che l'identità e le caratteristiche di tale progettista non possono, nè devono, essere identificate o quantificate (quindi si descrivono le proprietà di un soggetto le cui proprietà sono contestualmente dichiarate ignote) 2.viola il principio di parsimonia: la presenza di un progettista non è necessaria e dunque la sua introduzione rende l'ID non parsimoniosa; 3.non è utile: l’ ID non ha infatti capacità predittiva, cioè non consente di predire in anticipo il verificarsi di uno specifico fenomeno e i suoi dettagli date le condizioni iniziali; 4. non è falsificabile: il progettista viene infatti posto oltre il dominio dell'osservabile, ragione per cui le assunzioni circa la sua esistenza non possono essere avallate né confutate dall'osservazione; 5.non è correggibile, nè dinamica, provvisoria o progressiva: l´ÍD introduce un elemento, il progettista, di cui non si deve rendere conto, in quanto al di là dell'oggetto della scienza, e dunque la teoria non dovrebbe essere cambiata in nessun caso a seguito di nuove scoperte. Guardando a questa controversia in modo più distaccato, c’é da osservare che la teoria del Disegno Intelligente ha potuto prosperare perchè la teoria darwiniana si presentava a sua volta con diversi punti deboli, in parte riconosciuti inizialmente dallo stesso fondatore. Non va neppure dimenticato che per molto tempo Popper ha negato legittimità alla teoria darwiniana perché formulata in modo non falsificabile. Anche dopo il ripensamento di Popper su questo punto, resta il fatto che la teoria evoluzionista si presente dotata di potere esplicativo ma non di potere predittivo, e sotto questo aspetto non differisce molto dalla teoria del Disegno Intelligente. In effetti solo le correzioni apportate alla teoria di Darwin dai cosiddetti neodarwinisti, dai teorici della sintesi evolutiva (Dobzhansky, Mayr e Simpson) e da recenti sviluppi come la teoria dell’equilibrio punteggiato di Eldredge e Gould hanno dato alla teoria della selezione naturale una piena rispettabilità scientifica ( 11). (11) La letteratura su questo argomento è sterminata. Per una sintesi in lingua italiana si veda T. PIEVANI, Creazione senza Dio, Torino, 2006. Larry Laudan ha opposto un commento negativo alla sentenza Overton, osservando che alcune delle ipotesi del creazionismo, come quelle circa i fossili e l’età della terra, sono controllabili, ma di fatto errate (12). Dunque la tesi ID sarebbe a suo giudizio un esempio di scienza “debole” ma non di pseudoscienza. Laudan in questa polemica esprime un orientamento postpositivista, diverso da quello più tradizionale di Ruse. La questione non è solo accademica ma ha dei risvolti pratici e politici rilevanti. Una pseudoscienza non può essere oggetto di insegnamento nelle scuole, anche perchè creerebbe un precedente pericoloso, mentre presentare un’ ipotesi scientifica alternativa a quella dominante, anche se parzialmente screditata, potrebbero essere legittimo e addirittura didatticamente utile. Concludo osservando che nella lista di requisiti di scientificità sopra riportati manca una menzione al requisito dell’evidenza totale o a qualche sua variante, come quello che abbiamo chiamato criterio di non-selettività. Al proposito notiamo che il criterio di specificità massimale richiesto da Hempel a integrazione della teoria della spiegazione Statistico-Induttiva si può presentare come un’applicazione del principio di evidenza totale ( 13). Si noti un aspetto non secondario della questione: cioè che per formulare una descrizione massimamente specifica di un qualsiasi dato da spiegare occorre usare un linguaggio con alto grado di precisione e di esattezza (esattezza di cui, incidentalmente, non si fa cenno nell’elenco, come se non fosse uno dei caratteri distintivi del linguaggio scientifico). Una banale obiezione al requisito dell’evidenza totale è che il suo soddisfacimento è impossibile in linea di principio per qualsiasi agente umano o meccanico, stante che la descrizione della totalità dell`evidenza non si può concludere in un tempo finito. Ma critiche di questo tipo sono applicabili a qualsiasi tipo di idealizzazione: a parità di ragionamento, per esempio, non si potrebbe mai costruire un macchina di Turing perchè per definizione esige un nastro infinito. Allo stesso modo in cui si chiede sensatamente di raggiungere la certezza oltre ogni ragionevole dubbio, si può anche chiedere di raggiungere un’approssimazione ragionevolmente adeguata al requisito dell’evidenza totale e a quello di non-selettività. (12) Science at the Bar - Causes for Concern, in Science, Technology & Human Values, 1982, n. 4, p.16-19. (13) Il criterio di specificità massimale richiede che il fatto da spiegare sia descritto in modo massimamente specifico. Trascuriamo pure il fatto che oggi sono disponibili metodi computerizzati che sono in grado di selezionare in tempi ragionevolmente brevi (a rischio sicuramente di errore) tutti gli elementi informativi pertinenti. Ciò che comunque è umanamente possibile è fissare un insieme finito di elementi infomativi K che abbia le seguenti caratteristiche: 1) Si ha motivo di ritenere che ciò che è escluso da K non aumenti in maniera significativa l’informazione rilevante per il problema; 2) Vanno resi espliciti i criteri con cui viene esclusa da K una qualsiasi classe di dati 3) Si evidenzia che il risultato dell’indagine non è assoluto ma relativo a K , con ciò intendendo che il risultato è rivedibile alla luce di eventuale nuova informazione che estende K ed è compatibile con K; 4) I casi di parità tra ipotesi diverse alla luce di K non autorizzano una scelta arbitraria tra le ipotesi. Tale scelta può essere autorizzata solo da ulteriori indagini che estendono K. Questi principi accomunano la procedura di accertamento scientifica e quella di accertamento giudiziario. Su un punto, però, si deve riscontrare una differenza. Un’ ipotesi scientifica può essere razionalmente condivisa anche a fronte di elementi informativi che sono dissonanti con l’ipotesi stessa. Le teorie , come diceva Lakatos, navigano in oceani di anomalie, e la razionalità consiste nell’accettare una certa ipotesi semplicemente perché, rebus sic stantibus, non potrebbe essere rimpiazzata da un’ipotesi migliore. Si noti comunque che c’è una grande differenza tra il nascondere o negare l’evidenza e sostenere una teoria ammettendo che alcune sue parti risultano debolmente provate, o addirittura incompatibili con l’evidenza disponibile (basta leggere Darwin per avere uno splendido esempio dell’onestà intellettuale che caratterizza il vero scienziato). Il giudice non può godere del privilegio di sostenere una tesi ammettendo che è in conflitto con una parte dei fatti noti. Il verdetto che è chiamato ad emettere non ha carattere dubitativo e nella motivazione della sentenza non dovrebbe comparire menzione di evidenza contraria. D’altro canto, se il verdetto è ottenuto cancellando evidenza, questo si può fare a prezzo di aprire la porta all’errore giudiziario e di screditare la reputazione dello stesso giudice.