Claudio Pizzi LEZIONI DI LOGICA DELLA PROVA (a.a.2013-2014) LEZIONE 1. Il calcolo delle probabilità LEZIONE 2. Concezioni della probabilità LEZIONE 3. Il bayesianesimo LEZIONE 4 Bayesiani e antibayesiani LEZIONE 5 Alternative al bayesianesimo giudiziario LEZIONE 6. Fallacie statistiche LEZIONE 7. L’abduzione LEZIONE 8. Il ragionamento controfattuale e la nozione di inferenza razionale. LEZIONE 9. La teoria controfattuale della causa e l’accertamento delle cause. LEZIONE 10. Problemi della teoria dellaconditio sine qua non. LEZIONE 11. Il relativismo e il problema della ricostruzione dei fatti. LEZIONE 12. La scientificità come oggetto di prova. LEZIONE 1.Il calcolo delle probabilità Ci sono motivi per credere che la nascita del calcolo delle probabilità sia stata in qualche misura favorita dalla cosiddetta “piccola glaciazione”, un mutamento climatico verificatosi in un arco di tempo che va dall'inizio del XIV secolo alla metà del XIX secolo. In questo periodo venne registrato un raffreddamento del clima che raggiunse il suo acme intorno al 1600 e cominciò a decrescere verso il 1800. Non stupisce constatare che, nel periodo in cui grandi filosofi come Cartesio e Bacone morivano per un’infreddatura, i pittori davano la preferenza a ritratti e situazioni ambientate in interni. I nobili limitavano il tempo destinato alla caccia e alle attività all’aria aperta, dedicando una buona parte del loro tempo alle letture e ai giochi di società. Questi ultimi erano frequentemente giochi d’azzardo con uso dei dadi, come il gioco della barca o quello del tric-trac (antenato delbackgammon). Di solito si fa risalire la prima trattazione della probabilità a un libro di Girolamo Cardano dedicato al gioco d’azzardo, ilLiber de ludo aleae (scritto nel 1560, ma pubblicato solo nel 1663) che contiene tra l’altro una sezione dedicata a metodi per barare con successo. Ma l’aneddotica vuole che il primo progresso memorabile in questi studi sia stato originato da una serie di quesiti che il cavaliere de Méré pose all’austero giansenista Blaise Pascal. Per esempio: “se lanciamo due dadi, quanti lanci sono necessari per avere almeno il 50% di probabilità di ottenere due sei almeno una volta”? Le risposte di Pascal, da lui discusse anche con Fermat, si trovano pubblicate alla fine dellaLogique de Port Royal (1662). Il salto di qualità rispetto a trattazioni precedenti come quella di Cardano fu che per la prima volta Pascal cercava di trattare la nozione di probabilità in modo astratto, cioè svincolato dalla discussione di esempi specifici. È anche degno di nota che Pascal considerasse la probabilità applicabile alla valutazione delle prove giudiziarie, idea che venne sviluppata da Leibniz nel suoNova methodus discendae docendaeque jurisprudentiae (1667). Nel 1655 il sommo fisico Christian Huygens, dopo aver conosciuto il cavaliere de Méré a una cena, venne a sapere di questi studi e se ne interessò al punto tale da pubblicare nel 1657 il primo trattato conosciuto di calcolo delle probabilità,“De ratiociniis in ludo aleae”. Per la prima volta veniva introdotta una nozione che avrebbe avuto fortuna, quella di speranza matematica. Lasperanza matematica o utilità attesa di un evento singolare è il prodotto del guadagno che ci si attende di conseguire grazie al verificarsi di un certo evento per la probabilità che tale evento si verifichi. In molti campi di applicazione gli eventi singolari si possono vedere come esiti diesperimenti casuali, di esperimenti cioè che invece di produrre un esito univoco possono produrre diversi esiti alternativi tra loro. Il lancio dei dadi può essere considerato un esperimento casuale di particolare tipo. Per un' ovvia estensione del concetto di speranza matematica, la speranza matematica o utilità attesa di una pluralità di esiti alternativi di esperimenti casuali è la somma dei valori della speranza matematica dei singoli esiti alternativi. Per esempio, supponiamo di fare una partita a Testa e Croce con un altro giocatore, che possiamo anche identificare con “il banco” o “l’allibratore”. Il gioco prevede un solo lancio di moneta: si stipula con il banco che se esce Testa riceverò da lui€50 e se esce Croce riceverò€0, cioè non vincerò nulla. Se presupponiamo che la probabilità di entrambi gli esiti sia la stessa (1/2, cioè 0,5), questo è un gioco per me molto vantaggioso perchè nel peggiore dei casi non perderò niente! In assenza totale di rischio, si dice che la posta in gioco è nulla. In questo gioco si può calcolare la speranza matematica, outilità attesa, per me dell’insieme di esiti nel modo seguente: (*) 50 • 0,5 + 0 • 0,5 (cioè il guadagno di "Testa" per la sua probabilità più il guadagno di "Croce" per la sua probabilità) dà come valore €25 + 0, cioè €25. Il gioco sopra esemplificato può esistere solo nell'immaginazione. E' chiaro che nessun allibratore dotato di ragione accetterebbe di giocare con me alle condizioni viste. Un allibratore razionale mi chiederà di stipulare con lui un contratto che gli dia qualchechance di guadagno. Per esempio mi chiederà di fare una puntata di €50 a queste condizioni: in caso di vincita io guadagnerò, come prima, €50, mentre in caso contrario dovrò dare all'allibratore €50, cioè quanto ho scommesso. Se esce Testa ora avrò un guadagno netto di €50 e se esce Croce invece perderò€50, che costituiscono il guadagno dell' allibratore. In tal caso, sempre presupponendo che le due alternative abbiano lo stesso grado di probabilità, il calcolo della speranza matematica del gioco prende questa forma: (**) 50 • 0,5 + (-50) • 0,5 = 25 + (-25) = 0 La speranza matematica complessiva del gioco quindi è zero, sia per me che per l'allibratore. Quando ciò si verifica un gioco si dice equo. Quando un gioco è equo, chi puntasse la stessa somma su due alternative equiprobabili avrebbe un guadagno pari a zero, qualunque sia l'esito del gioco: nel caso dell'esempio, guadagnerebbe €50 e simultanemante perderebbe €50. Come chiunque sa, i giochi d'azzardo gestiti dallo Stato (lotto e roulette in primo luogo) non sono affatto equi nel senso ora definito. Nel caso precedente il calcolo è stato fatto in base alla stima che i due eventi fossero indifferenti o equiprobabili. Ma le cose sarebbero diverse, per esempio, venissimo a sapere che la moneta è sbilanciata a favore di Testa in modo tale che la probabilità di Testa si può stimare a 0,6 e la probabilità di Croce a 0,4. In tal caso, nelle condizioni in cui si scommette una somma di denaro pari a quella di (**), il calcolo darebbe un risultato diverso, cioè (°) 50 • 0,6 + (-50) • 0,4 = 30 + (-20) = 10 Si noti che il rapporto tra probabilità matematica e speranza matematica è bidirezionale, nel senso che conoscendo la speranza matematica del gioco e i guadagni attesi dell’evento e dell'evento complementare possiamo derivare la probabilità degli stessi. Per esempio, se partiamo dalla eguaglianza (°), ponendo come valore incognito x la probabilità di Testa e quindi 1-x quella di Croce avremmo (1) 50 • x + (-50) • (1-x) = 10 (2) 50 • x + (-50) + 50 • x = 10 (3) 100 • x = 10 + 50 = 60 (4) x = 60/100 = 30/50= 0,6 In (4) dunque la probabilità dell’uscita di Testa viene espressa come un quoziente tra due somme di denaro, 30 e 50: intuitivamente, il rapporto tra l'utilità attesa o sperata dell'uscita di Testa (€30) e quanto si incassa nel caso di uscita di Testa (€50). La conclusione suggerisce fortemente la possibilità di definire la nozione di probabilità in termini di rapporti tra somme di danaro, idea che è diventata quasi un luogo comune nella corrente novecentesca nota come “soggettivista”(per cui v. La lezione 2). Naturalmente è lecito chiedersi da dove provenga l'assegnazione di un valore come 0,6 all' uscita di Testa come nell'esempio (°). Il calcolo delle probabilità non può dare una risposta a questa domanda, a cui si può rispondere solo applicando considerazioni extracalcolistiche. Siamo di fronte al cosiddetoo "problema delle probabilità iniziali". L' assegnazione del valore 0,6 può derivare da valutazioni aprioristiche o semplicemente soggettive, ma può anche derivare dalla conoscenza di fatti oggettivi determinati dalle proprietà della moneta, per esempio dall’osservazione delle frequenze statistiche dell’uscita di Testa in un grande numero di lanci. Si noti che quando Huygens inaugurava queste ricerche la statistica muoveva i suoi primi passi sull’onda degli interessi delle compagnie di assicurazione, alle quali premeva conoscere con esattezza la speranza di vita dell’assicurato al momento della stipula della polizza. È degno di nota, comunque, come ha osservato Ian Hacking in “The Emergence of Probability”, che la probabilità fin dall’inizio reca il marchio di una “dualità” concettuale di fondo che è il suo peccato originale: da un lato appare definibile in termini di gradi di credenza soggettiva, dall’altro si lascia rappresentare come una misura di frequenze statistiche oggettive c( hances). Lo stesso Pascal mostrava una certa ambivalenza nel momento in cui da un lato studiava statisticamente le distribuzioni di risultati nei giochi di azzardo, dall’altro usava il celebre argomento della scommessa per mostrare la superiore razionalità di chi sceglie di credere in Dio. L’ argomento è ben noto ma si può ricostruire così. Possiamo visualizzare le alternative di guadagno positivo o negativo in dipendenza dell’atteggiamento verso la religione in modo combinatorio (ponendo: PO = piaceri e onori di questo mondo , R = rinuncia ai piaceri e onori di questo mondo, Par = Paradiso, Inf= Inferno). L’anima è immortale L’anima è mortale Vivere da ateo PO + Inf PO Vivere da credente R + Par R Possiamo assegnare alle due alternative circa la mortalità dell'anima diversi valori di probabilità in dipendenza dall'atteggiamento del soggetto verso l'immortalità dell' anima. Semplificando, si possono impiegare solo i valori probabilistici estremi 1 (cioè 100%) e 0. Le valutazioni comparative delle utilità, anche se difficili da esprimere in termini monetari, sono però oggettive: non c’è dubbio che per tutti gli umani PO è migliore di R; ma d’altro canto PO+Inf è l'alternativa peggiore di PO, R, R+Par (c'è qualcosa di peggio che soggiornare all’inferno per un tempo infinito? Questo è ciò che attende l'ateo nel caso che le sue credenze siano errate, nonostante effimeri piaceri e onori). Inoltre R+Par è certo migliore di PO, perchè la vita in Paradiso dura un tempo infinito. In base al principio c.d. delminimax (grosso modo la “logica del meno peggio”) bisogna scegliere quella condotta che offre complessivamente la maggiore utilità attesa: e per Pascal si può solo concludere che la condotta dotata di una maggiore utilità attesa è quella che consiste nel vivere da credente. Per capire l' argomento bisogna assegnare Probabilità 1 o 0 alle due alternative circa la mortalità dell'anima secondo la prospettiva, atea o religiosa, che si suppone di adottare, moltiplicarle per il valore di utilità, calcolare la somma dei valori alternativi e fare un confronto delle utilità attese. Si vedrà che l'utilità attesa del vivere da ateo si riduce a 0+( PO • 1) (=PO), mentre quella del vivere da credente si riduce a (R+ Par) • 1 + 0 (= R + Par), dopo di che l'esito della confronto appare ovvio. Questo argomento ha fatto considerare Pascal il padre di quel ramo delle scienze formali oggi nota come teoria delle decisioni, che recentemente ha conosciuto uno sviluppo paragonabile a quello della statistica tra 800 e 900, agganciandosi anche alla c.d. teoria dei giochi. Nella statistica, in linea di principio, non dovrebbero entrare né decisioni nè valutazioni di tipo soggettivo. In tema di probabilità statistica o “oggettiva” di un evento, va però subito detto che questa va distinta dalla probabilità teorica dell’evento stesso. Il modo in cui va determinata tale probabilità teorica, come vedremo, è un problema filosofico: per ora possiamo dire che è quella che si può stabilirea priori in base a una considerazione idealizzata delle proprietà dell’oggetto che entra negli esperimenti. Se la probabilità teorica p dell’uscita di testa è, poniamo, 0,5, le percentuali di testam che vengono effettivamente osservate dopo un certo numero di lanci n, espresse dalla frazione m/n, possono essere inferiori, superiori o uguali a 0,5. La differenza in valore assoluto tra frequenza osservatam/n e la probabilità teorica p, che si rappresenta come |m/n - p|, è detta scarto e le sue proprietà sono stata oggetto di uno studio matematico rigoroso. Il famoso teorema di Bernoulli, detto anchelegge debole dei grandi numeri, asserisce che con l’aumentare del numero n di esperimenti aumenta la probabilità che lo scarto diventi più piccolo di un qualsiasi numero positivo ε preso piccolo a piacere. In parole povere, con l’aumentare degli esperimenti è sempre più probabile che lo scarto diventi sempre più piccolo. Si noti che il teorema consiste in un asserto probabilistico circa i rapporti tra probabilità teoriche e frequenze. Contrariamente a quanto molti sono inclini a pensare, la proposizionenon asserisce che nella realtà dei fatti le frequenze a lungo andare tendono a coincidere con le probabilità teoriche. Questo secondo asserto non è una proposizione matematica - viene a volte chiamatoPostulato empirico del caso- e descrive una proprietà innegabile del mondo reale, che è quella di presentare una persistente uniformità spaziotemporale delle manifestazioni fenomeniche. Grazie a questa caratteristica del mondo, chiamata dai filosofi Uniformità della Natura, di fatto le frequenze osservate tendono immancabilmente a convergere verso la probabilità teorica. Ma, ripetiamo, questa è una verità di fatto, non una verità matematica. I nomi più importanti da ricordare negli sviluppi del calcolo delle probabilità tra il 600 e l’ 800 sono oltre a quelli già menzionati, quelli di De Moivre, di Bernoulli e di Laplace. Altri nomi sono quelli di Thomas Simpson e Carl Friedrich Gauss, che nell’800 posero le basi della cosiddetta teoria degli errori. Già agli inizi del 700 era chiaro che il calcolo comunque si appoggiava a due regole di calcolo fondamentali, che vennero considerate veri e propri principi basilari fino a raggiungere la loro forma definitiva nell’ assiomatizzazione insiemistica formulata da A. Kolmogorov (1932). Ne parleremo come di Principio delle Probabilità Totali e delle Probabilità Composte: il primo utilizzabile per sommare probabilità, il secondo per moltiplicare probabilità. Siano E1 ed E2 due eventi (es. E1:piove, E2:tira vento) , E1 ∪ E2 la loro unione (piove oppure tira vento), E1 ∩ E2 la loro intersezione (piove e tira vento) –E1 il complemento di E1 (non piove). Queste entità sono da intendere tecnicamente comeinsiemi, e precisamente come insiemi dei casi possibili in cui si verifica un dato evento. Volendo intendere queste grandezze come proposizioni e non come eventi, si preferisce di solito usare un’altra notazione, cioè E1 v E2, E1 & E2, ¬E1. Pr sia una funzione che associa ad ogni evento un numero razionale o irrazionale tra 0 e 1 (funzione di probabilità). Questo si esprime dicendo che, per ogni evento E i, (Pr) Per ogni Ei , 0 < Pr(Ei) < 1 Dato che –Ei indica il complemento di Ei (per esempio “non piove” rispetto a “piove”) nessun evento può avere probabilità maggiore dell’ evento totale Ei ∪ -Ei (es. piove o non piove), e questo perchè tale evento complesso ha lo stesso grado di certezza delle verità logico-matematiche. Quindi integreremo (Pr) con questo secondo principio, detto di "Normazione a 1": (N) Per ogni Ei, Pr (Ei ∪ -Ei ) =1. Fatte queste premesse, il principio delle probabilità totali asserisce questo: (PT) Pr (E 1 ∪ E2) = Pr E1 + Pr E2 – Pr(E1 ∩ E2) Per calcolare il valore della probabilità dell’evento composto sulla sinistra bisogna conoscere i valori di input che si trovano sulla destra, che sono le c.d. “probabilità iniziali”. Nel caso del nostro esempio è difficile determinare la probabilità che piova, che tiri vento o che piova e tiri vento insieme, a meno di ricorrere a qualche statistica metoreologica. Ma altri esempi sono meno difficoltosi perché possiamo ricorrere a valutazioni “a priori” : per esempio, pochi troveranno da ridire sul fatto che in un mazzo di 52 carte non truccato la probabilità di sorteggiare un asso è 1/13 e quella di sorteggiare una carta di picche è 1/4. In base a queste premesse possiamo tentare di risolvere un problema come questo: qual è la probabilità di sorteggiare un asso o una carta di picche? La risposta è questa: la probabilità richiesta è la probabilità di sorteggiare un asso (1/13) più la probabilità di sorteggiare una carta di picche (1/4) meno la probabilità di sorteggiare un asso di picche (1/52). Quindi abbiamo (1/13 +1/4) – 1/52 = (4/52+ 13/52) – 1/52 = 16/52=0,3076923. Se gli eventi E1 ed E2 sono incompatibili il calcolo delle probabilità totali viene semplificato perché Pr(E1 ∩ E2)= 0. In particolare, se E2 è –E1, avremo (°)Pr (E1 ∪ -E1) = Pr (E1) + Pr(-E1) Quindi, stante che, per (N), Pr (E1 ∪ -E1) =1, avremo (°°) 1 = Pr(E1) + Pr(-E1). Da ciò naturalmente segue (°°°) Pr(-E1) = 1 – Pr(E1) Se il Principio delle Probabilità Totali consente di calcolare la probabilità di eventi disgiunti, il Principio delle Probabilità Composte invece consente di calcolare le probabilità di eventi congiunti. Per cominciare indicheremo con Pr(E2| E1) la probabilità di E2 dato E1 (detta probabilità subordinata o condizionata): per esempio la probabilità che piova sapendo che tira vento. Allora il Principio delle Probabilità Composte asserisce questo: (PC) Pr(E 1 ∩ E2) = Pr(E1) • Pr(E2| E1) Dato che E1 ∩ E2 = E2 ∩ E1, vale però anche a pari titolo (PC*) Pr(E 1 ∩ E2) = Pr(E2) • Pr(E1| E2) L'eguaglianza Pr(E2| E1) = Pr(E2) significa che i due eventi E1 ed E2 sono indipendenti, o in altre parole che E1 non influenza E2 e E2 non influenza E1. Se vale l’indipendenza tra E1 e E2, però, la formula (PC) si riduce a (PC**) Pr(E1 ∩ E2) = Pr(E1) • Pr(E2) Esempio1: Qual è la probabilità che in un lancio di due dadi non truccati escano due 3? Pr E 1= 1/6, Pr(E2) = 1/6, Pr(E2| E1)=1/6 (perché i due eventi sono indipendenti): quindi Pr( 1E ∩ E2) = 1/6 • 1/6 = 1/36 Esempio 2: La probabilità che c’è maltempo (M) e la probabilità che piova (P) non sono indipendenti, anzi la pioggia implica il maltempo! Quindi Pr(M|P) =1. Quindi per (PC) la probabilità che piova e ci sia maltempo (Pr(P ∩ M) è uguale a Pr(P) • Pr(M|P) = Pr(P) • 1 =Pr(P). Dal principio delle probabilità composte seguono alcune conseguenze interessanti. La prima è che la nozione di probabilità condizionata o subordinata risulta definibile in termini di probabilità assoluta. Infatti, se A e B sono eventi qualsiasi, come ripetiamo, (PC) Pr(A ∩ B) = Pr(A) • Pr(B|A) Ma da ciò abbiamo (se Pr(A) ≠ 0) (ProbC) Pr(B|A) = Pr(A ∩ B) Pr (A) Sostituendo A con B e viceversa abbiamo (ProbC*) Pr(A|B) = Pr(A ∩ B) Pr (B) (se Pr(B) ≠ 0) da cui abbiamo a pari titolo (PC*) Pr(A ∩ B) = Pr(B ∩ Α)= Pr(B) • Pr(A|B) Facendo in (ProbC) una semplice sostituzione utilizzando l'eguaglianza PC* deriviamo il cosiddetto Teorema di Bayes: (TB) Pr(B|A) = Pr(B) • Pr(A|B) (se Pr(A) ≠ 0) Pr(A) Volendo eliminare la frazione sulla destra la stessa formula si può riscrivere così: (TB-) Pr(B|A) = Pr(B) • Pr(A|B) • Pr 1/A (se Pr(A) ≠0) Questa formula si può trasformare in formule equivalenti più complesse. Se -B è un’ipotesi alternativa incompatibile con B (p.es. “pari” e “dispari”), abbiamo ovviamente per il principio delle probabilità composte Pr(A ∩ -B) = Pr(-B) • Pr(A|-B) Osserviamo poi che, per la teoria degli insiemi, A = (A∩B) ∪ (A ∩ -B), come si vede da una semplice diagrammazione. Si noti ora che grazie a questa identità il denominatore della frazione in (TB) è equivalente, per PC*, a Pr ((A ∩ B) ∪ (A ∩ -B)). Per il teorema delle probabilità totali, essendo incompatibili i due eventi A ∩ B e A∩ -B, questo equivale alla somma Pr( B) • Pr(A|B) + Pr(-B) • Pr(A|-B) . Allora la formula TB prende la seguente forma più complessa: (TB*) Pr(B|A) = ____Pr(B) • Pr(A|B) (se Pr(A) ≠ 0) Pr( B) • Pr(A|B) + Pr(-B) • Pr(A|-B) Ovviamente, se le ipotesi incompatibili sono non solo due man (B1...Bn), la formula TB* si può generalizzare a n ipotesi. Il teorema di Bayes TB (insieme alle sue varianti come TB*) è considerato un pilastro del calcolo delle probabilità, anche se in realtà si può vedere che è semplicemente una forma più complessa del principio delle probabilità composte. Il suo nome deriva a dal matematico che ne diede la prima formulazione in un saggio pubblicato postumo nel 1763 (in realtà, Bayes non era un matematico ma un reverendo presbiteriano nato nel 1702 e morto nel 1761). Secondo un luogo comune, Il Teorema di Bayes ha per il calcolo della probabilità la stessa importanza che ha il teorema di Pitagora per la geometria. Conoscendo o assumendo i valori di Pr(B) e Pr(A), infatti, è possibile calcolare la probabilità di B dato A in termini della probabilità inversa di A dato B, grandezza che viene talvolta chiamata verosimiglianza likelyhood). ( È quindi possibile calcolare, per esempio, la probabilità della causa dato l’effetto, o dell’ipotesi esplicativa explanans) ( dato un certo fatto da spiegare (l’ explanandum) una volta che sia nota la probabilità dell’effetto data la causa o dell’explanandum dato l’explanans. Alcune considerazioni sul calcolo delle probabilità sono a questo punto opportune. La funzione di probabilità in effetti è solo una speciale funzione di misura. Le grandezze misurate si possono pensare nella fattispecie come le dimensioni di classi di punti dello spazio-tempo: la classe totale dei punti (quella in cui sono vere le tautologie) ha probabilità 1, la classe vuota (in cui sono vere le contraddizioni) ha probabilità 0. Un’ interpretazione più restrittiva ma più efficace sta nel vedere le classi corrispondenti agli eventi come classi di mondi possibili in cui tali eventi potrebbero verficarsi. Gli eventi contingenti (non necessari e nonimpossibili) hanno probabilità intermedie tra 0 e 1. Dovrebbe essere chiaro che il calcolo delle probabilità non è altro che un insieme di metodi per calcolare le misure di eventi complessi (uniti o congiunti) partendo dalle misure di eventi più semplici. Si tratta dunque semplicemente di un meccanismoinput-output che, dati certi valori in ingresso, produce altri valori in uscita. Questo ci pone di fronte a un problema che il calcolo in quanto tale non è in grado di risolvere. Per quanti calcoli si possano fare, dobbiamo sempre prendere le mosse da uninput costituito da certi valori probabilistici iniziali, i quali non si possono a loro volta calcolare partendo da altri valori probabilistici. Riprendendo uno spunto già accennato all'inizio, il problema di stabilire le probabilità iniziali, cioè i valori in input, in quanto tale non ha risposte di tipo matematico. La sua soluzione dipende da assunzioni filosofiche ben precise circa la nozione stessa di probabilità. A seconda della risposta che viene data cambiano i critieri di assegnazione dei valori diinput, il che può avere conseguenze considerevoli anche sulle applicazioni del calcolo. È inevitabile quindi esaminare le alternative elaborate dai filosofi per rispondere a questa basilare e difficile domanda: che cosa è la probabilità? Vedremo anche che il calcolo delle probabilità classico (che è quello che è stato qui presentato) ha dato adito a critiche proprio nella sua applicazione al diritto. Sono state proposte altre assiomatizzazioni delle funzioni di probabilità e quindi, dato che gli assiomi definiscono implicitamente il loro oggetto, altre nozioni di probabilità. Le seguenti curiosità probabilistiche, alcune delle quali hanno aspetti sicuramente paradossali, hanno sicuramente offerto spunti per l’elaborazione di costruzioni alternative a quella classica. Curiosità probabilistiche. A) Se la probabilità di avere un figlio maschio dato che si hanno già avuti due figli maschi è ½, qual è la probabilità di avere tre figli maschi in fila? La risposta è 1/2 • 1/2•1/2, cioè 1/8. Si noti che qualunque successione di maschi e femmine in un qualsiasi ordine dà sempre come probabilità 1/8. A parità di ragionamento, qualunque successione di uscite di numeri rossi e neri alla roulette (ignorando lo zero, che è verde) ha sempre la stessa probabilità di qualsiasi altra sequenza ordinata di uscite della stessa lunghezza. Attenzione però. Dato che gli eventi sopra esemplificati sono indipendenti, la domanda “qual è la probabilità di avere un figlio maschiodato che si sono già avuti due figli maschi” non è 1/8 ma 1/ 2. Analogamente, la probabilità che esca un numero rosso alla roulette dato che sono usciti 10 numeri neri è sempre invariabilmente 1/ 2. Va anche considerato che la probabilità di avere tre figli maschi in fila, già calcolata come 1/8, è la stessa di avere tre figli in uno degli ordini possibili: MMF,MFF,MFM,FFF.FFM.FMM,FMF. Se si astrae dall'ordine invece le cose cambiano: la probabilità di avere tre maschi è sicuraente più bassa di quella di avere, poniamo, due maschi e una femmina in un ordine non specificato. B) L'autorevole ginecologo Robert Winston, esperto nei problemi della fertilità, ha immaginato che un medico senza scrupoli potrebbe pubblicare su un quotidiano la seguente inserzione, rivolta ai coniugi desiderosi di avere un figlio maschio :«Dietro invio di 500 euro, riceverete da me la ricetta infallibile per avere un maschio. Soddisfatti o rimborsati». Il rimborso, naturalmente, ha lo scopo di garantire l'affidabilità del metodo. La ricetta sarà una bella pillola di zucchero colorata. In tal modo il furfante potrà incassare su, poniamo, 1000 adesioni, 500.000 euro. Poiché il 50% dei neonati saranno in ogni caso maschi, egli dovrà rimborsare agli altri 500 aspiranti un totale di 500 • 500 =250.000 euro, con un incasso differenziale di 250.000 euro. Anche sottraendo il risibile costo delle pillole di zucchero, il suo guadagno sarà molto alto. Anzi, per ogni femmina nata egli potrà tranquillamente aggiungere ai 500 rimborsati altri 250 euro di consolazione e guadagnare comunque, nel lungo periodo, una somma di tutto rispetto. 3). Per dimostrare l’esistenza di doti paranormali in qualche soggetto presente nel pubblico potete procedere come racconta Richard Dawkins. «Prima di tutto vediamo se il sensitivo si trova nella metà destra o nella metà sinistra della sala» esordii. Quindi invitai la gente ad alzarsi e pregai il mio assistente di lanciare una moneta. A tutte le persone sul lato sinistro della sala fu chiesto di «volere» che venisse fuori testa, a tutte quelle sul lato destro di «volere» che venisse fuori croce. Ovviamente uno dei due schieramenti perse, e venne invitato a sedersi. Quelli che erano rimasti in piedi furono divisi in due: metà che «volevano» che uscisse testa e metà che «volevano» che uscisse croce. Ancora una volta i perdenti furono fatti sedere e ancora una volta si procedette a dividere i vincenti; finché, dopo sette o otto lanci di monetina, com'era inevitabile, rimase in piedi una sola persona. «Un grande applauso per il nostro sensitivo!» esclamai. Non era forse un sensitivo uno che era riuscito a «influenzare» la moneta otto volte di seguito? 4) La probabilità che due persone scelte a caso abbiano lo stesso compleanno, sulla base di considerazioni sia a priori che a posteriori, è 1/365. Ora prendiamo una stanza in cui siano presenti solo 23 individui: i matematici possono dimostrare che vi sono più di 50 probabilità su cento che almeno due di essi siano nati lo stesso giorno. La dimostrazione è questa. Lasciamo perdere gli anni bisestili, che complicano inutilmente le cose, e supponiamo che io scommetta con voi che delle 23 persone presenti, come minimo, due siano nate lo stesso giorno. Tanto per stare al gioco, voi scommettete, contro di me, chenon ci siano compleanni comuni. Faremo il calcolo in modo da arrivare ai 23 individui gradualmente: cominceremo da uno solo e aggiungeremo gli altri uno alla volta. Se a un certo punto troveremo un «gemello», io avrò vinto la scommessa, smetteremo di giocare e non staremo a curarci dei rimanenti individui. Se invece arriveremo al ventitreesimo senza avere trovato il «gemello», il vincitore sarete voi. Quando nella stanza c'è solo il primo soggetto, che chiameremo A, le probabilità che non vi sia alcun «gemello» sono, banalmente, pari a 1 (365 probabilità su 365). Aggiungiamo adesso il soggetto B: le probabilità diventano che vi siano due gemelli sono 1 su 365, quindi la probabilità chenon vi siano «gemelli»cioè l’evento complementare - è data da 364/365. Facciamo entrare ora una terza persona, C: c’è 1 una probabilità su 365 che C sia nato lo stesso giorno di A e una su 365 che sia nato lo stesso giorno di B, sicché le probabilità che non sia «gemello» né di A né di B sono 363/365 (non può essere «gemello» di entrambi, perché sappiamo già che A e B non sono nati lo stesso giorno). Per sapere quali siano complessivamente, finora, le probabilità che non si verifichi un «gemellaggio», dobbiamo prendere 363/365 e moltiplicarlo per le probabilità che non si sia verificato un gemellaggio nei casi precedenti, ovvero, nell'esempio specifico, moltiplicarlo per 364/365. Lo stesso ragionamento vale quando aggiungiamo la quarta persona, D. Le probabilità totali che non vi siano «gemelli» a questo punto diventano 364/365 • 363/365 • 362/365. E così via, fino a quando nella stanza non avremo 23 persone. Ogni nuova persona ci porta un nuovo termine da aggiungere alle moltiplicazioni da fare per calcolare le probabilità che il «gemello» non si presenti. Se si procede con tali moltiplicazioni fino raggiungere 23 termini (l'ultimo dei quali sarà 343/365), l'esito sarà 0,49: ed è questa la probabilità che non vi siano nella stanza individui nati lo stesso giorno. Vi sono quindi probabilità lievemente superiori al 50 per cento (0,51) dell’evento complementare, cioè che almeno due persone in una compagnia di 23 siano «gemelle». Basandosi sull'intuizione, la maggior parte delle persone scommetterebbe contro il «gemellaggio», ma sbaglierebbe. È proprio questo il tipo di errore intuitivo che ci induce a considerare arcane alcune coincidenze che sono normalissime. 4) Paradosso della lotteria (H.Kyburg, 1961). Supponiamo ci sia una lotteria con un milione di biglietti, uno solo dei quali sarà estratto. Comprando un biglietto si ha la certezza pratica di perdere (stabilendo che la certezza pratica è data da 0,999999). Così chiunque compri un biglietto ha la stessa certezza pratica di perdere. Appare dunque razionale accettare la conclusione che nessun biglietto vincerà, mentre si sa che certezza che qualche biglietto vincerà, e questa è una contraddizione. Questo paradosso, evidenziato da Henry Kyburg, mira a evidenziare le difficoltà del concetto di accettazione razionale. Infatti appaiono consistenti tra loro questi tre principi: i) è razionale accettare una proposizione che è molto probabilmente vera ii) non è razionale accettare una coppia di proposizioni contraddittorie iii) se è razionale accettare A e accettare A’, è razionale accettare la congiunzione ( A & A’). (Nel caso dell’esempio: se è razionale accettare la perdita di Tizio alla lotteria perchè praticamente certa e anche la perdita di Caio perchè praticamente certa, allora è razionale accettare la perdita di Tizio e di Caio). Di questi tre principi, è il terzo ad essere più critico, ed infatti è stato lo stesso Kyburg a proporre la sua eliminazione. Il paradosso mette sotto accusa la nozione di certezza pratica, che può essere identificata con la nozione di certezza oltre ogni ragionevole dubbio. Questa nozione, come è noto, è di uso corrente nei processi penali quando si tratta di valutare il peso delle prove. D’ora in avanti rappresenteremo la certezza pratica di un evento E come Pr(E)= 1 - ε, dove ε è per definizione un valore trascurabile, che in alcuni casi speciali può essere posto uguale a 0. LEZIONE 2. Concezioni della probabilità La più semplice e intuitiva definizione di probabilità è ancor oggi quella chiamata “classica”, la cui formulazione si deve al grande astronomo Pierre Simon de Laplace (1742-1826), detto il “Newton francese”. Secondo la concezione laplaceana, laprobabilità di un evento E è il rapporto tra il numero dei casi favorevoli al verificarsi di E e il numero dei casi possibili,purchè egualmente possibili. Se, per esempio, mi chiedo qual è la probabilità di estrarre un numero pari al lotto sulla ruota di Milano con una sola estrazione, i passi da fare per determinare questo valore sono i seguenti: (a) osservare che i casi possibili sono 90; (b) osservare che tali casi sono equipossibili; (c) osservare che le possibilità di estrarre un numero pari entro le 90 possibilità sono 45, quindi i casi favorevoli sono 45. La risposta è data dunque dal rapporto tra 45 e 90, ossia 0,5. Se i casi non sono equipossibili la risposta non si può dare. Se, per esempio, mi chiedo qual è la probabilità che un certo aereo cada nella prossima settimana, i casi possibili sono due (cade/non cade), ma fortunatamente in condizioni normali non c‘è motivo di ritenere che i due casi sono equipossibili. La clausola della equipossibilità è una fonte di dubbi filosofici. Se “equipossibile” vuol dire “equiprobabile” la definizione complessiva diventa circolare perché si definisce la probabilità in termini di probabilità. La soluzione per Laplace è offerta dal cosiddetto “principio di indifferenza” o di “ragione insufficiente”: sono equipossibili quelle alternative per le quali non abbiamo motivo di attenderci il verificarsi dell’una piuttosto che dell’altra. È degno di nota che Laplace intendesse estendere l’impiego del calcolo delle probabilità dal dominio dei fatti naturali a quello dei fatti umano-sociali, compresa la probabilità delle testimonianze nei processi e delle sentenze nei tribunali. Da questo punto di vista seguiva una linea di ricerca già avviata da Leibniz, che prima di darsi alla filosofia aveva praticato studi di giurisprudenza. La fiducia di Laplace nel meccanicismo newtoniano e nell’infallibile determinismo che lui riteneva ad esso connaturato è espresso dalla brillante metafora del “demone di Laplace”: un demone onnisciente che conosca con esattezza al momento attuale la posizione e la velocità di ogni particella è in grado di predire con precisione assoluta tutti gli eventi futuri e retrodire tutti gli eventi passati. Nella mente del demone onnisciente esistono solo certezze. La probabilità è in effetti un prodotto della nostra ignoranza, che è ciò che distingue la condizione umana dalla condizione divina : “parlando rigorosamente, quasi tutte le nostre conoscenze non sono che probabili: e anche quelle pochissime che stimiamo certe, persino nelle scienze matematiche, ci sono date dall’induzione e dall’analogia che, strumenti principali per giungere alla verità, si fondano sulle probabilità “. Così Laplace scrive nella prima pagina del celebre “Saggio filosofico sulle probabilità”. Come è noto, la possibilità dell’esistenza di un demone di Laplace è negata dal c.d. Principio di Indeterminazione di Heisenberg (1925) e più generalmente dalla meccanica quantistica, che esclude che sia possibile misurare con precisione illimitata posizione e velocità di ogni particella (per tacere di altre coppie di proprietà dette “coniugate”). A prescindere dall’indeterminismo quantistico, comunque risulta che di fatto, anche se non in linea di principio, gli eventi singoli sono imprevedibili anche in fenomeni caotici con alto grado di complessità. L’urto di milioni di molecole in un millimetro cubo di gas rende di fatto imprevedibile la loro posizione un secondo dopo che la posizione di tutte fosse accertata, per assurda ipotesi, con totale esattezza. Quindi, anche se in teoria un demone laplaceano potrebbe in teoria prevedere la posizione futura di tutte le molecole, da un punto di vista pratico non c’è differenza tra l’indeterminazione dei fenomeni quantistici e dei fenomeni prodotti dal caos deterministico. Secondo la concezione classica, dunque, la determinazione delle probabilità è una proceduraaprioristica, o in altri termini non dipende da informazioni derivate dall’esperienza ma dallo stato di conoscenza del soggetto. In quanto tale la concezione classica ha tutti i numeri per essere mal vista dagli empiristi, secondo i quali ogni conoscenza genuina deve provenire dall’esperienza stessa. Bisogna comunque ammettere che, senza considerare i pregiudizi filosofici, l’ idea di basare la conoscenza non sull’esperienza di qualcosa ma sull’ignoranza di qualcosa è una fonte di difficoltà e di paradossi. Supponiamo per esempio che una persona che estrae una pallina da un’urnaa sappia che l’urna a contiene un numero uguale di palline bianche e nere, mentre tutto ciò che sa circa l’urnab è che contiene palline bianche e nere, senza sapere se sono in numero uguale o diverso. Secondo il principio di indifferenza, questa persona in ambedue i casi deve assegnare ½ all’estrazione di una pallina bianca (o nera), mentre è chiaro che nei due casi il grado di incertezza è diverso. Nell'esempio che precede si rimane nel contesto dei giochi d'azzardo, ma bisogna riconoscere che è proprio fuori da questo ambito che l’applicazione della teoria laplaceana è problematica. Alcune difficoltà dipendono dal fatto che è arduo enumerare tutte le alternative possibili entro un dato esperimento, ed è ancora più difficile dire se esse sono equipossibili nel senso descritto dal principio di indifferenza. Fa capolino qui il fastidioso germe del soggettivismo: soggetti diversi possono avere informazioni diverse circa le varie alternative, cosicchè le alternative che appaiono indifferenti ad uno possono apparire differenti a qualcun altro. A ciò vanno aggiunte difficoltà di natura squisitamente matematica, come i c.d. “paradossi di Bertrand”. Esempio. Supponiamo di sapere che un’auto ha impiegato un tempo compreso tra 1 e 2 minuti (quindi tra 60 e 120 secondi) per percorrere 1 Km. Diremo che per noi è indifferente stimare il tempo di percorrenza tra i 60-90 secondi e tra i 90-120 secondi: quindi la probabilità che la lunghezza del viaggio appartenga al primo intervallo è uguale a quella che appartenga al secondo. Il valor medio di questa stima del tempo impiegato è quindi di 90 secondi per 1Km. Basta un breve calcolo per vedere che in 3600 secondi (cioè un'ora) l'auto percorrerebbe 40 Km: quindi secondo la stima delle probabilità sopra enunciata l'auto ha in media una velocità di 40 Km all'ora. Supponiamo di venire poi a sapere da altra fonte che la velocità della macchina era compresa tra i 30 Km/h e i 60 Km/h. Applicando il principio di indifferenza, quindi, per noi la probabilità che viaggiasse tra 30 km/h e 45 km/h è la stessa che viaggiasse tra 45 km/h e 60 km/h. Secondo questa stima però il valor medio della velocità dell'auto è di 45 Km all'ora, non di 40. John Maynard Keynes nel suoTreatise of Probabilities (1921) ha individuato un’ampia classe di problemi inerenti al principio di indifferenza, evidenziando che molte difficoltà sono prodotte non solo da aspetti matematici del problema, ma anche da aspetti linguistici. Se, per esempio, entro in una libreria buia e mi chiedo qual è la probabilità di toccare un libro nero, posso dire che in condizioni di ignoranza le alternative che mi sono indifferenti sono due (nero/non nero), e in questo caso la probabilità verrà posta uguale a 1/2. Me se tengo conto del fatto che i colori dell’iride sono 7, dovrei dire allora che tale probabilità è 1/7. Per cui dovremmo avere 1/2=1/7, il che è assurdo. A queste difficoltà concettuali si aggiungono difficoltà di applicazione pratica. Come già accennato, nel quadro classico l’applicazione del calcolo della probabilità è giustificata solo nei casi in cui si danno alternative equipossibili, o presunte tali. Per un laplaceano ortodosso non avrebbe senso chiedersi, poniamo, qual è la probabilità di restare avvelenati mangiando un fungo o quella di morire sotto i ferri di una certa operazione chirurgica, perché le alternative da esaminare non sono equipossibili. Secondo Keynes ed altri che hanno tentato di modernizzare la concezione classica, nei casi in cui i calcoli numerici non sono applicabili possiamo sempre ricorrere a valutazioni di tipo qualitativo in modo da poter dire, poniamo, che un’alternativa è più probabile di un’altra e ambedue sono più probabili di una terza (probabilità comparativa). Ma la nascita della statistica alla fine del ‘700 e il diffondersi della mentalità empirista, per la quale non esistono conoscenzea priori (e nemmeno sintetiche a priori, con buona pace dei kantiani), spingeva verso una definizione oggettiva o statistica della probabilità. Per l’800 vanno ricordati i nomi di R.L. Ellis e J.Venn, per il ‘900 quelli di R.von Mises e H.Reichenbach, che vengono spesso accomunati sotto la denominazione di frequentisti. Da un punto di vista strettamente empirista l’affermazione che le varie alternative - per esempio nel lancio di un dado - sono equipossibili, ha un senso solo se si può provare sperimentalmente che il dado in questione non è stato truccato e che non presenta asimmetrie tali da favorire qualcuna delle facce a scapito delle altre. In realtà, l’unico modo per raggiungere la certezza dell’equipossibilità sta nel lanciare il dado in questione un numero “molto grande” di volte e verificare poi che le percentuali di uscite di tutte le facce “tendono”, a lungo andare, a pareggiarsi. Ciò ci autorizza a dire che se la sequenza di lanci si prolungasse per un tempo infinito, le varie alternative sarebbero equipossibili. Con ciò però si compie un salto da un campione finito di dati a un insieme ipotetico infinitamente grande di dati – e siccome nessun comune mortale può avere esperienza di un insieme infinito, questo mal si concilia con l’oggettività sperimentale richiesta dagli empiristi. Secondo R. Ellis questo ricorso al concetto di una serie infinita di esperimenti, cioè a qualcosa di non sperimentabile in linea di principio, doveva intendersi come un’ idealizzazione non diversa da tutte le altre idalizzazioni impiegate nella scienza (p.es. quando si parla del movimento di un corpo su un piano con attrito pari a zero). John Venn chiamavaserie queste successioni in cui le fluttuazioni di frequenze registrate ad ogni esperimento si stabilizzano così da convergere verso un valore che si può chiamare illimite della serie stessa. Il passo compiuto da Richard von Mises è stato per l’appunto quello di identificare questo limite con la probabilità del tipo di evento in questione (non, si badi, del singolo evento, dato che la probabilità può essere calcolata solo considerando delle percentuali entro classi di eventi dello stesso tipo). Si noti che, ovviamente, il limite di cui si parla qui è diverso da ciò che in matematica si chiama limite delle successioni numeriche convergenti, dato che quest’ ultimo si può calcolare rigorosamente con metodi matematici. Nelle successioni empiriche un calcolo matematico di questo genere è impossibile. A rigore non c'è neppure modo di dimostrare che tale limite esiste, perché non c’è contraddizione nel ritenere che la parte sconosciuta della serie, infinitamente grande, della serie abbia proprietà diverse da quella conosciuta. Più generalmente, estraendo un campione da un universo di dimensioni illimitate, non abbiamo nessuna garanzia che le proprietà riscontrate nel campione siano le stesse presenti nell’universo. Ma questo è il vecchio problema dell’Uniformità della Natura. Non c’è una garanzia logica che il futuro di una successione di eventi sarà uguale al passato o che una certa convergenza registrata entro una successione si conservi anche nel seguito della successione (come assserisce il Postulato Empirico del Caso), anche se è perfettamente irragionevole supporre il contrario. Von Mises divenne un esponente di spicco del circolo di Berlino, sorto alla fine degli anni 20 per gemmazione dal circolo di Vienna. L’idea basilare di von Mises è che si può parlare di probabilità di un evento E quando si ha ragione di pensare che entro un certo “collettivo” (insieme di eventi o dati dello stesso tipo) le frequenze osservate di E, se protratte illimitatamente, tendano verso un limite. Von Mises non tardava tuttavia a rendersi conto che, perché si possa calcolare la probabilità, non tutti i collettivi si prestano al calcolo del limite. Una successione di pietre miliari che presenti delle pietre bianche ogni cento metri e una pietra rossa ogni chilometro rende facile calcolare che la probabilità di trovare una pietra rossa è 1/10, ma non ha molto senso parlare di probabilità di un risultato che è prevedibile, e quindi necessario, in quanto la sequenza è costruita esattamente con lo scopo di alternare pietre bianche e rosse in quel modo. Se, per ipotesi, si togliessero dalla successione tutte le pietre che si trovano al 10° posto, la probabilità di incontrare pietre rosse scenderebbe dal 10% a 0. In realtà la successione in oggetto è priva di una qualità essenziale per stabilire il limite delle frequenze osservate, quella di essereirregolare o casuale. Von Mises ha cercato di definire con grande accuratezza la nozione di collettivo irregolare, puntando sull’idea che un collettivo è irregolare quando il limite stimato è insensibile alle c.d. “scelte di posto” effettuate secondo qualche regola prefissata (per esempio, il limite risulta uguale entro una sottosuccessione determinata dalla scelta dei posti pari). Nonostante questo importante contributo matematico, che lo ha portato a definire anche operazioni su collettivi, von Mises non ha potuto evitare che la sua teoria andasse incontro a banalizzazioni. La nozione di irregolarità, come quella di regolarità, dipende da quella diregola. A meno che non si definisca rigorosamente il concetto di regola, si può trovare sempre una regola stramba che genera un sottosuccessione tale da modificare il valore del limite. Più in generale, come avevano già osservato Schlick e Wittgenstein, data qualsiasi successione finita di numeri, per quanto bislacca, (p.es. 1, 177, 176) troviamo sempre una regola altrettanto bislacca che possiamo considerare generatrice della successione (si tratta di un paradosso a volta indicato come “paradosso di Wittgenstein”). Lo stesso discorso che si fa per le regole si fa anche per predicati qualsiasi. Il ragionamento induttivo, come è noto, consiste nel riscontrare nel campione una certa proprietà e proiettarla sull’universo: per esempio, dopo aver osservato un campione di smeraldi che sono solo solo verdi, inferiamo che tutti gli smeraldi sono verdi. Ma allo stesso modo in cui ci regole abnormi ci sono anche predicati abnormi, come ravvisato da N.Goodman nel c.d. “paradosso delgrue-bleen”. Il predicato “verde ed esaminato prima del 3000” implica un predicato bizzarro ma perfettamente legittimo come “verde ed esaminato prima del 3000 oppure blu ed esaminato dopo il 3000”(grue o verdlù) . Si noti però che se è vero che tutti gli smeraldi sonoverdlù, questa è una disgiunzione in cui il primo disgiunto risulta falso dopo il 3000, per cui dopo tale data il secondo disgiunto risulta necessariamente vero. Dunque dopo aver osservato milioni di smeraldi verdi concludiamo che dopo il 3000 tutti gli smeraldi saranno blu. Con ciò non si fa altro che ribadire un’idea già brillantemente argomentata da Hume, e cioè che l’uniformità della natura non è giustificata né da ragionamenti deduttivi né da ragionamenti induttivi. Infatti il paradosso di Goodman evidenzia che non c’è nessuna contraddizione logica nel pensare che gli smeraldi nel 3000 si trasformino da verdi in blu (anzi si fa vedere con un argomento logico che ci sarà questa mutazione). Von Mises vedeva nella meccanica quantistica lo sbocco naturale della sua teoria dei collettivi, ma trascurava il fatto che in meccanica quantistica si parla di probabilità di eventi singoli (p.es. la probabilità che un atomo isolato si trovi in una certa condizione) e non ditipi di eventi, come richiesto dalla sua versione del frequentismo. Hans Reichenbach ha fatto progredire la scuola frequentista mostrando che si può, comunque, definire la probabilità come limite delle frequenze senza ricorrere all’idea di collettivo di von Mises. Abbandonando la nozione di collettivo, Reichenbach chiedeva, in primo luogo, che quella che lui chiamaclasse di riferimento (quella, cioè, entro cui vengono rilevate le frequenze) oltre ad essere il più possibile estesa sia formata da elementi che sonosimili per aspetti rilevanti a quelli dell’elemento dotato del predicato di cui intendiamo calcolare la probabilità. Tale classe di riferimento può essere finita (come quando si vuole determinare la probabilità che a Milano nel 2013 nasca un bambino maschio) oppure infinita, come nel caso già visto dei lanci di moneta. In questa prospettiva non ha senso parlare di probabilità se non si specifica una classe di riferimento prefissata. Questa classe di riferimento è quello che gli statistici chiamano l’ universo rispetto al quale vengono prelevaticampioni via via crescenti. Per fare un esempio, se voglio sapere qual è la probabilità che il Sig. Rossi abbia un incidente automobilistico, sceglierò una classe di riferimento costituita da oggetti "dello stesso tipo" di Rossi. Includerò in questa classe, in primo luogo, elementi che siano esposti al rischio di avere un incidente automobilistico. Escluderò quindi pietre, macachi, pappagalli e mi atterrò a soggetti umani, anzi a soggetti umani simili a Rossi per aspetti importanti: escluderò pertanto soggetti a lui simili per avere calzini blu (perché l’avere calzini blu piuttosto che di altro colore è irrilevante per l’attributo) oppure per il fatto che come lui leggono libri gialli. Viceversa la classe di riferimento dovrà contenere soggetti, per esempio, che siano simili a lui per il sesso, per l’età e per il tipo di macchina che possiedono. Nella terminologia di Reichenbach la classe di riferimento ideale deve essere omogenea, cioè deve essere insensibile, nel rilevamento delle frequenze, rispetto a partizioni operate secondo attributi che influenzano la frequenza dell’attributo in questione. Non compariranno, quindi, nella classe dell’ esempio precedente, soggetti che sono proprietari di macchine che, pur essendo della stessa marca di quella di Rossi, abbiano un difetto ai freni: infatti nella sottoclasse costituita da questi soggetti si potrebbe riscontrare una frequenza diversa negli incidenti automobilistici rispetto alla classe complementare. Una volta individuata una classe di riferimento che sia il più possibile estesa e omogenea di entidel tipo di Rossi, si calcola il limite a cui tendono le frequenze osservate di incidenti automobilistici subiti da tali soggetti entro campioni via via più estesi tratte dalla classe di riferimento. Si identifica poi questo limite con la probabilità richiesta. Si noti che questo non è esattamente la stessa cosa che calcolare la probabilità che il Sig. Rossi nella sua singolarità abbia un incidente, ma possiamo identificare la probabilità di questo evento singolare (event- token) con quella dell'evento tipico e( vent- type) di cui l’evento singolo si può considerare rappresentativo: ciò mediante un artificio concettuale che Reichenbach chiamaposit (“asserzione che noi consideriamo come vera anche se il suo valore di verità è sconosciuto”). Questa distinzione tra eventi singolari specifici e tipi di evento ricorrerà più volte nelle pagine seguenti. Ogni campione prelevato dalla classe di riferimento deve avere le proprietà di quello che gli statistici chiamato "campione non-tarato" (non-biased) o “campione randomizzato”, che ha un ruolo essenziale nella pratica statistica. La scelta del campione è essenziale in quanto la presenza di una taratura del campione può dare origine a distorsioni gravi nel rilevamento delle frequenze. E' chiaro comunque che se la classe di riferimento è disposta in modo da risultare irregolare, saranno tali anche i campioni estrati da questa. Con ciò si torna al requisito della casualità, o irregolarità, richiesto da von Mises. Il requisito della casualità sembra dare una riposta anche a un'obiezione talvolta sollevata contro la teoria frequentista. Si può sostenere, infatti, che l’ordine in cui si distribuiscono i dati nella classe infinita, infatti. può determinare limiti diversi. Per esempio, se la classe dei numeri naturali si presenta nell’ordine standard la probabilità di incontrare un numero primo diventa sempre più bassa con l’aumento del segmento inziale considerato: ma tale limite potrebbe essere completamente diverso disponendo i numeri naturali in blocchi crescenti in cui l’ordine viene invertito. In realtà non esiste un ordine unico associato a una determinata classe di riferimento. Qual è, per esempio, l’ordine in cui “oggettivamente” sono disposte tutte le automobili rosse fabbricate in Italia? Un secondo problema attiene la probabilità di eventi singoli, dato che in questa concezione appare privo di senso chiedersi, poniamo, qual è la probabilità dell'uscita di testa al 40° lancio. Queste domande sono però di uso corrente, soprattutto nella meccanica quantistica. Questo problema è stato sottolineato in particolare da Karl Popper, che si è fatto portabandiera di una particolare versione del frequentismo dettapropensionismo. Secondo questa concezione la probabilità è la propensione di un dispositivo a manifestare certe proprietà in condizioni specifiche date. Una terza difficoltà riguarda l'impossibilità di costruire classi di riferimento dotate delle proprietà richieste quando si vuole conoscere la probabilità di eventi rari o addirittura unici. Basta pensare che quando si inviò per la prima volta una spedizione sulla Luna si assegnava un'alta probabilità al successo dell'impresa, ma questa non poteva sicuramente essere calcolata sulla base della frequenza statistica dell'evento, che non essendosi mai verificato prima avrebbe dovuto ricevere probabilità pari a 0 (e quindi essere ritenuto impossibile). Una quarta difficoltà, spesso trascurata dagli stessi matematici, riguarda il fatto che per dimostrare che i limiti delle frequenze sono valori di probabilità, e non grandezze di altro genere, bisogna dimostrare che tali limiti soddisfano gli assiomi di Kolmogorov, e in particolare i due principi delle probabilità totali e delle probabilità composte. È stato provato tuttavia che questa dimostrazione non è banale, anzi che a rigore non è possibile. Se è così, avrebbero ragione quanti distinguono, come più volte enfatizzato da Keynes o da Carnap, tra due nozioni diverse di probabilità - una epistemica e una statistica- che sarebbero ditinte anche per il fatto di avere probabilità matematiche diverse. Arriviamo dunque alla necessità di esaminare in dettaglio la concezione detta “epistemica” della probabilità, di cui la concezione classica di Laplace è stata la prima anticipazione. Qualcuno, come Popper, ha voluto raggruppare tutte le varie articolazioni della concezione epistemica sotto l’etichetta di “concezione soggettivista”, con l’intento di sottolineare l’opposizione tra il concep,ire la probabilità come proprietà oggettiva del mondo e il concepirla come qualcosa dipendente dalla coscienza di uno o più soggetti. Nella concezione epistemica tuttavia sono riconoscibili almeno due orientamenti diversi, incompatibili per il diverso atteggiamento che comportano verso le proprietà degli enunciati probabilistici. Secondo i cosiddetti logicisti (Boole, Jevons, Johnson, Keynes, Heffreys, Carnap) gli enunciati probabilistici, se veri, sono logicamente veri. In essi viene enunciato un certo rapporto tra un’ ipotesi H (p.es. il prossimo corvo sarà nero) e un certo stock di evidenza E disponibile a suo favore (p.es. il fatto che 100.000 corvi osservati sono neri e nessun corvo osservato è di colore diverso). Keynes parla per esempio del suddetto rapporto come grado di credenza razionale, e la logica del probabile diventa quindi una logica della ragionevolezza. Se è vero che la scelta dell’ informazione da inglobare nell’evidenza Evaria da soggetto a soggetto, la relazione in sè è puramente logica e in quanto tale non soggettiva. Carnap ha sviluppato da queste idee di fondo dei metodi per calcolare gradi di probabilità condizionale di H dato E, che lui fa coincidere con la conferma induttiva di H data da E. A differenza di Keynes e altri logicisti, tuttavia, Carnap introduceva due coefficienti parametrici,λ ed η, esprimenti diverse valutazioni possibili del fattore logico-linguistico (λ) e del fattore costituito dal peso dell’esperienza η). ( Se, per restare nell`esempio dei corvi, svalutiamo l`evidenza sperimentale ponendo uguale a 0 il coefficiente η , allora la probabilità che il prossimo corvo sia nero dipende unicamente dai predicati esprimibili nel linguaggio presupposto. Se il linguaggio, per esempio, contiene nomi per i soli 7 colori dell’iride, tale probabilità è di 1/7, mentre se si ammette un numero piu` ampio di nomi per le sfumature dei vari colori (scarlatto, porpora,...) allora il valore di tale probabilità sarà molto più basso. Comunque sia, indipendentemente da come vien fissato il valore parametrico, la conclusione avrà sempre la forma Pr(H|E) =x ; questa esprime un partial entailment, cioè un`implicazione parziale di cui l`implicazione logica è solo il caso speciale in cui Pr(H|E) = 1. Come si è detto, Carnap identifica le funzioni di probabilità con le funzioni di conferma: in questo modo la logica della probabilità viene a coincidere con la logica della conferma induttiva. Sfortunatamente, dato che ciò che viene confermato di solito è una legge, cioè una generalizzazione infinitaria (p.es. “Tutti i corvi sono neri”), per ragioni puramente matematiche tale grado di conferma per le leggi tende ad essere molto basso se il numero di individui dell’universo è molto grande, ed è addirittura uguale a 0 se si assume che il numero di individui dell’universo è infinito. (Per capire questo apparente paradosso, si rifletta sulla domanda: “sapendo che un’ urna infinita contiene palline di sette colori, qual è la probabilità di estrarre un numero infinito di palline rosse e nessuna di colore diverso?”). Questo difetto è stato corretto da J. Hintikka e dalla sua scuola introducendo nuovi coefficienti parametrici, ma ottenendo sempre valori bassi per le generalizzazioni infinitarie: cosa che, del resto, appare in linea con concezioni epistemologiche come quella popperiana, per la quale, come è noto, le leggi sono solo ipotesi destinate ad incappare prima o poi in qualche falsificazione. Essenziale per capire la linea Johnson-Keynes-Carnap è il fatto che, nonostante si ammetta la variabilità dei risultati delle conclusioni probabilistiche con conseguente abbandono dell’univocità, le credenze di cui si postula la misura sono credenze razionali, cioè credenze proprie di un soggetto idealizzato in grado di fare inferenze. La variabilità, come già detto, dipende dall’arbitrarietà dei valori diλ ed η, cioè del parametro logico e quello empirico. La valutazione di questi parametri (espressi da numeri reali tra 0 e 1) può variare a seconda degli scopi e del contesto scientifico. Se è così, però, non c’è da stupirsi se negli ultimi anni Carnap fosse incline a considerare il logicismo compatibile con un orientamento a cui abbiamo già accennato – il soggettivismo. Nella corrente detta soggettivista (Ramsey, de Finetti, Savage) il requisito di razionalità dettato da Keynes e Carnap viene abbandonato, così come l'idea che gli asserti probabilistici veri siano verità logiche. I valori probabilistici esprimono solo gradi di credenza di soggetti umani concreti, che possono tener conto dell`evidenza disponibile nel modo che preferiscono. I gradi di credenza sono misurati considerando ogni soggetto alla stregua di un giocatore, razionale o irrazionale, che sia impegnato in un gioco di scommesse contro un secondo giocatore (allibratore). Se un giocatore è convinto, per esempio, che la probabilità di sorteggiare un certo numero al lotto sia di 1/50 anzichè di 1/90, non c'è nessun argomento che possa impedirgli di fare questa valutazione. Come abbiamo notato all’inizio, l’idea di definire la probabilità in termini di rapporti tra somme di denaro non è una novità, dato già nel ‘700 era chiaro che la nozione di probabilità si poteva defnire il termini di speranza matematica. L’ unico criterio di razionalità che si richiede a un giocatore è lacoerenza interna del suo sistema di credenze, dove la nozione di coerenza esprime il fatto che il giocatore coerente evita di andare incontro ad una perdita certa. Per dare una veste matematica a questa intuizione sono praticabili metodi diversi, anche se i soggettivisti non sono concordi sul fatto che le probabilità siano da esprimere invariabilmente mediante valori numerici. In ogni caso, il metodo più semplice per misurare il grado di credenza è dato dalla misura del quoziente di scommessa, cioè dal rapporto tra quanto si scommette (posta) e quanto si incassa in caso di vincita. Un'altra misura è data dalla ragione di scommessa (odds), che è il rapporto tra il guadagno netto che si ottiene in caso di vincita e la posta. Chi scommette su un certo cavallo, magari alla sua prima corsa, 10 euro per averne 100 in caso di vincita (quoziente di scommessa 1 / 10, o ragione di 1 a 9) mostra una bassa propensione a rischiare denaro su questo cavallo, quindi un basso grado di credenza nella sua vittoria; mentre il contrario vale per chi scommette 90 euro per incassarne 100 in caso di vincita (quoziente 9/10, o ragione di 1 9 a 1 ). La coerenza di un sistema di scommesse consiste nell’escludere che nel bilancio finale si vada incontro a una perdita certa, come sarebbe il caso dello sprovveduto che facesse due scommesse: una scommessa di 100 euro su testa per averne 200 e anche una seconda scommessa di 150 euro su croce per averne 200. In complesso, costui affronterebbe una spesa complessiva di 250 euro per incassare al massimo 200 euro. Un sistema di scommesse incoerente viene nel gergo chiamatoDutch Book (allibramento olandese). Ramsey e de Finetti hanno fatto vedere che il requisito della coerenza delle scommesse implica il soddisfacimento degli assiomi di Kolmogorov, anzi equivale ad esso. Un indubbio vantaggio del soggettivismo, che spiega in parte il suo recente successo, è dovuto al fatto che risolve in modo indolore il problema della probabilità iniziali, dato che in questa prospettiva queste rispecchiano solo le convinzioni iniziali di un soggetto dato. Può naturalmente destare sconcerto il fatto che un soggettivista radicale ammetta anche valutazioni di probabilità che il senso comune tenderebbe a considerare forsennate, come per esempio assegnare probabilità 0,5 all’idea che la terra è piatta. Ma dal suo punto di vista esistono due principi importanti che, oltre alla coerenza, possono riconciliare il soggettivismo con il senso comune. Il primo è il già ricordato teorema di Bayes. Tale teorema ci garantisce un modo per calcolare il passaggio da una certa assegnazione di probabilità, poniamo H, alla probabilità revisionata (updated) di H data una certa evidenza E. Possiamo calcolare, per esempio, la probabilità che tutti i corvi siano neri dato che 100 corvi sono neri (Pr H|E ) una volta che si conosca, oltre alla probabilità di H e quella di E, la probabilità inversa che 100 corvi siano neri dato che tutti i corvi sono neri (Pr E |H, che ovviamente è 1 per ragioni logiche). In tal modo il teorema di Bayes, a volte impropriamente chiamato teorema della probabilità delle cause, ci consente di rappresentare molte forme – secondo i soggettivisti tutte – di ragionamento ampliativo, con ciò intendendo il ragionamento plausibile in cui le premesse non implicano deduttivamente la conclusione. Oltre alla coerenza, che è un criterio minimale di razionalità, secondo i soggettivisti c’è da tenere conto di un secondo principio, valorizzato specialmente da de Finetti. E’ il cosiddetto principio discambiabilità, formulato per la prima volta in modo esplicito da W.E. Johnson con il nome di “principio di simmetria”. In esso si dice che l`ordine in cui si presentano gli elementi che costituiscono l’ evidenza positiva a favore di una certa ipotesi è indifferente, nel senso che non influenza la suddetta valutazione. Supponiamo di lanciare per dieci volte una moneta che sappiamo essere truccata. I lanci non saranno indipendenti in quanto gli esiti di ogni lancio forniranno indicazioni sulla probabilità che esca testa nel lancio successivo. D’altro canto, stabilito il numero di volte in cui esce testa in dieci lanci della moneta, sapere inquali lanci sia uscito testa non è rilevante per la probabilità che l'undicesimo lancio dia ancora testa. In altri termini, si verifica una invarianza permutazionale nel senso che la probabilità si abbia testa dopo una sequenza di 10 esiti con un certo numero di teste è sempre la stessa a prescindere daquali siano esattamente le volte in cui è uscita testa. Pertanto, se per esempio è uscita testa per 3 volte su 10, non importa se ciò si è verificato nei primi tre tentativi, oppure nel primo, settimo, decimo. De Finetti ha fatto vedere che l’impiego contestuale del teorema di Bayes e del principio di scambiabilita`è sufficiente ad assicurare la ricostruzione del ragionamento statistico con risultati identici a quelli cercati dai frequentisti. 1 Come si dirà più avanti, se x/y è il quoziente di scommessa, la ragione di scommessa è espressa da x/y / -x/y Il soggettivismo è diventato il paradigma dominante nelle ricerche probabilistiche degli ultimi trent’anni. Le critiche a cui va incontro sono state oggetto di un ampio dibattito che non ha minato le sue radici ma sembra aver contribuito al suo raffinamento. Alcune difficoltà del soggettivismo riguardano l’impiego del rapporto tra somme di denaro come misura della probabilità. E’ ovvio che, anche per un nababbo con un ricco conto in banca, rischiare 50 euro per averne 100 non è la stessa cosa che rischiare 50.000 euro per averne 100.000. Eppure nei due casi il rapporto tra le due quantità è sempre invariabilmente ½ : dovrebbe quindi misurare lo stesso grado di credenza. A questo problema si può ovviare con strategie diverse. Una è quella, proposta già da Ramsey negli anni ‘30, che consiste nel parlare non di scommesse ma di preferenze tra beni dotati di un certo valore di utilità. In tal modo si è stabilito uno stretto rapporto tra la teoria della probabilità e la già ricordata teoria delle decisioni. La seconda strategia, sottoscritta dallo stesso de Finetti, consiste nel rinunciare all’assegnazione di valori numerici in tutti i casi. In questa prospettiva sarebbe sufficiente avere una relazione “è più probabile di”, definita su proposizioni, le cui proprietà siano descritte da un certo numero di assiomi, che in ogni caso risultano tali da rendere derivabili gli assiomi di Kolmogorov. Si noti che la probabilità comparativa ha una rilevanza dal punto di vista giudiziario, perché una comune obiezione all’impiego del calcolo delle probabilità è che nelle aule dei tribunali non ha molto senso impiegare valori numerici esatti, per esempio dicendo che l’imputato ha avvelenato la vittima con il 93% di probabilità. Come vedremo, questo è soltanto una dei molti problemi sollevati dall’impiego del linguaggio probabilistico e del calcolo delle probabilità in ambito giudiziario. Sempre sul terreno giudiziario, si è fatta spesso sentire contro il soggettivismo un’obiezione che è stata condivisa da autorevoli filosofi del diritto (in Italia da M.Taruffo, che propende per una visione logicista della probabilità): se si aderisce al soggettivismo, le valutazioni probabilistiche diventano soggettive, con il rischio che un tribunale assolva un imputato che un altro può condannare in base a una diversa valutazione soggettiva delle prove. Questa obiezione è importante perché non è rivolta contro l’impiego del calcolo delle probabilità nei tribunali ma contro la filosofia soggettivista. Vediamo come potrebbe rispondere un soggettivista a questa obiezione. Paolo Garbolino ha dato una dettagliata analisi di come dovrebbe procedere una corte di giustizia che volesse applicare la concezione soggettivista. 1) accusa e difesa dovrebbero esporre le rispettive ricostruzioni dei fatti, intese come insiemi di credenze soggettive, evidenziando la loro coerenza interna. 2) il giudice sceglierà poi la versione dei fatti che gli sembra più probabile, in base al principio del libero convincimento del giudice. Garbolino sottolinea che, piaccia o meno, questo è ciò che “di fatto accade”, anche se i soggetti coinvolti potrebbero in buona fede sentirsi guidati da obiettivi più elevati, come la nobile aspirazione ad “accertare la verità”. Di qui una possibile obiezione antisoggettivista: è meglio, uno potrebbe dire, una ricostruzione probabilisticamente incoerente che risulta vera piuttosto che una coerente ma falsa. Il soggettivista risponde che nessuno può garantire che una certa ricostruzione sia vera, anche se si può dire che è più o meno approssimata al vero (Popper parla di verisimilitudine, che è cosa diversa dalla verosimiglianza). Molti soggettivisti rifiutano di usare la nozione stessa di verità associandosi polemicamente alla domanda di Ponzio Pilato Quid ( est veritas?). Quanto alla verisimilitudine, il soggettivista si chiede però che vuol dire “verisimile”. Se si intende con ciò “credibile” si ricade nel soggettivismo. Se si intende “approvabile” (quindi in accordo con il parere di esperti qualificati), che è il senso antico che aveva la parola “probabile” nel Medio Evo, si regredisce a una concezione prepascaliana della probabilità. Sembra che non resti che la probabilità in termini di frequenze relative, ma il soggettivista si oppone al frequentismo non solo evidenziando le difficoltà interne che abbiamo già discusso, ma osservando che tanto Carnap che Reichenbach hanno introdotto dei parametri per ponderare le conclusioni dei ragionamenti induttivi, introducendo quindi surrettiziamente delle variabili la cui determinazione può essere solo soggettiva. Negli ultimi anni i contrasti che hanno diviso gli epistemologi sul significato della nozione di probabilità hanno lasciato posto a un atteggiamento più flessibile e pluralista. Si ammette, in altre parole, che in alcuni contesti potrebbe essere utile applicare la nozione classica, in altri quella statistica, in altri ancora quella soggettivista, fermo restando che la sintassi impiegata e le regole del calcolo sono fuori discussione e devono restare tali. LEZIONE 3. Il bayesianesimo Si è visto nelle lezioni precedenti che il teorema di Bayes è per il soggettivista l’unico strumento disponibile per effettuare inferenze non-deduttive. Tali inferenze, che si chiamano a volteampliative, nella tradizione logica venivano classificate in due sottocategorie: quella delle inferenzeinduttive e quella delle inferenze abduttive. L’induzione e l’abduzione vengono spesso presentate come processi inferenziali conversi tra loro. Si guardi a questi due esempi : (1) Se il fiammifero è stato sfregato, si è acceso (2) Se il fiammifero si è acceso, (vuol dire che) è stato sfregato . Nella (1) si passa da un evento ipotetico ad un altro, che può dirsi spiegato in termini del primo, in base ad una legge stabilita induttivamente. Dato che tra i due eventi sussiste ungap temporale e che la legge in questione ("tutti i fiammiferi sfregati si accendono") appare descrivere un nesso causale, si può anche dire che il rapporto tra i due venti ipotizzati è una rapporto causale. Nella proposizione (2) l’inferenza procede invece nella direzione inversa. L’antecedente enuncia un evento del quale il conseguente descrive una spiegazione causale attendibile. In ambedue i casi la conclusione non segue dalla premessa con necessità ma solo con un certo grado di probabilità: grado la cui esatta determinazione può certo essere problematica. L'intuizione comunque suggerisce che nel secondo esempio il grado di probabilità della conclusione è più basso di quello della conclusione citata nel primo esempio. La conclusione di (2) è in effetti lecita una volta che si possa escludere che esistono spiegazioni del fatto in oggetto migliori di quella citata: è infatti una inferenza “alla miglior spiegazione” (IBE: Inference to the Best Explanation). Si noti che in esempi diversi da quello precedente il rapporto tra i gradi di probabilità associabili ai due tipi di conclusione è completamente diverso o addirittura opposto : si pensi per esempio alla differenza tra “se ha avuto un figlio in questi giorni ha avuto un rapporto sessuale circa nove mesi fa” (probabilissimo) e “se ha avuto un rapporto sessuale nove mesi fa ha avuto un figlio in questi giorni” (poco probabile). L’importanza del teorema di Bayes è comunque evidente in base al fatto che ci dà una regola- la chiameremoregola di Bayes – che consente di calcolare, una volta fissate certe assegnazioni di valori, la probabilità della conclusione di un condizionale induttivo (di forma Pr(B|A)) in base alla probabilità della conclusione di un condizionale abduttivo (di forma Pr(A|B)), e viceversa. Come vedremo in seguito, la classificazione delle inferenze ampliative in induttive e abduttive appare insufficiente se si tiene conto di un terzo tipo di inferenza- l’inferenza controfattuale - che era ignorato nella tradizione aristotelica e postaristotelica ma che ha un’importanza che la logica contemporanea ha messo adeguatamente in luce. È giunto il momento di vedere come si applica il teorema di Bayes nella trattazione dell’inferenza ampliativa, sottolineando fin dall’inizio che insistere sulla centralità del teorema di Bayes non è solo prerogativa dei soggettivisti, ma di una categoria di metodologi che vengono genericamente raggruppati sotto l’etichetta di bayesiani. Per i bayesiani la probabilità è sempre un grado di credenza calcolabile che dipende dal grado di probabilità, esprimibile numericamente, delle prove disponibili. Data questa definizione ampia di “bayesiano”, anche epistemologi non soggettivisti come il logicista Carnap o il frequentista Reichenbach si possono chiamare bayesiani. Il bayesianesimo giuridico (“nuova dottrina delle prove”) è quella corrente di pensiero che ritiene che ogni inferenza mirante a stabilire delle prove nell'indagine giudiziaria vada ricostruita razionalmente come un’applicazione del teorema di Bayes . Una premessa necessaria è che, come è noto, c’è una differenza sostanziale tra indizio e prova. In un processo penale la prova è l’insieme di evidenze in grado di stabilire che una certa ipotesi (in particolare, una ipotesi di reato) è valida oltre ogni ragionevole dubbio, mentre un indizio è ciò che aumenta in qualche misura la probabilità dell’ipotesi in questione. Nei processi civili si ha invece un diverso standard di certezza probatoria, nel senso che la soglia per ritenere accettabile un'ipotesi è collocata a un livello più basso, richiedendosi semplicemente che la probabilità dell'ipotesi superi lo 0,5. La procedura proposta dai bayesiani si può descrivere così. Per fare un esempio, supponiamo si debba la stabilire la probabilità che Rossi abbia avvelenato il caffè alla luce di certe evidenze disponibili. Il detective comincia assegnando un certo valore a priori alla probabilità di H (Rossi ha avvelenato il caffè) prima di esaminare le evidenze E1, E2, E3… En - dove E1 , supporremo, è il fatto che Rossi ha comprato una dose di veleno. Egli assegna anche un valorea priori a Pr(E 1| H), cioè alla probabilità che Rossi abbia comprato il veleno se ha, per ipotesi, avvelenato il caffè (verosimiglianza olikelyhood). Naturalmente questo valore sarà molto alto. Si assegna poi anche un valore a Pr(E1) e quindi, grazie al teorema di Bayes, si può calcolare Pr(H | E1). Dunque con questo metodo si passa dalla probabilità di Ha quella revisionata (updated) di H |E1. Chiamiamo Pr(H’) questa probabilità revisionata. Si passa poi con lo stesso procedimento a calcolare Pr (H’|E2), dove E2 è il secondo elemento di evidenza, ripetendo poi la procedura per ogni evidenza 3E …En. Questa iterazione di revisioni porta alla fine a calcolare un certo valore Pr(H’’’’| En). Se questo valore terminale ha superato la soglia richiesta dalla natura del processo, la conclusione va accettata come valida.Se non soi riesce a raggiungere tale soglia si parla, come è noto, diinsufficienza di prove. Si può anche dimostrare che più aumenta il numero delle condizionalizzazioni (revisioni) effettuate più le valutazioni soggettive tendono a convergere verso un valore unico, ridimensionando quindi l’ arbitrarietà delle iniziali valutazioni a priori. Un importante teorema noto come teorema di DeFinetti è stato considerato dai bayesiani la carta vincente per ridurre il peso dell’ arbitrarietà delle valutazioni iniziali e rispondere alle più ovvie critiche provenienti da altre scuole di pensiero. De Finetti ha dimostrato che, se la sequenza delle prove è scambiabile e se le credenze di un ricercatore sono coerenti, allora il valore che viene assegnato all’ipotesi dopo un numero alto di esperimenti dello stesso tipo (p.es. lanci della stessa moneta) si approssima progressivamente a quello della frequenza statistica relativa. Più in generale, il soggettivista può appoggiarsi al fatto che quanto più aumentano le prove a favore di una certa ipotesi tanto più diminuisce il peso delle assegnazioni a priori. Sulla scambiabilità, tuttavia, come osserva Jonathan Cohen, c’è un problema. Due eventi E1 e E2 che siano evidenze per H sono scambiabili purchè siano nella stessa misurairrilevanti per H: ma la rilevanza è una nozione probabilistica e quindi la stessa nozione di scambiabilità risulta essere una nozione probabilistica – e quindi, per i soggettivisti, sempre dipendente da assegnazioni soggettive di probabilità. Le applicazioni del teorema di Bayes sono ad ampio raggio. In primo luogo questo teorema, che può essere usato come regola, può essere riformulato in diverse varianti semplici e complesse, che qui presentiamo in una tabella sinottica. -----------------------------------------------------------------------------------------------------REGOLE DI BAYES: (se Pr(E) ≠0) (TB) Pr(H|E) = Pr(H) • Pr(E|H) Pr(E) (TB) Pr(H|E) = Pr(H) • Pr(E|H) • 1/Pr(E) (TB*) Pr(H|E) = (se Pr(E) ≠0) ____Pr(H) • Pr(E|H) Pr( H) • Pr(E|H) + Pr(-H) • Pr(E|-H) (se Pr(E) ≠0) (OB) Pr(H|E) = Pr H • Pr(E| H) • 1/Pr E Pr(-H |E) Pr-H • Pr(E|-H) • 1/Pr E (si ottiene da TB dividendo i due membri dell'eguaglianza per due valori identici) Pr(H |E) = Pr H • Pr(E| H) Pr(-H |E) Pr( - H) • Pr(E|- H) (si ottiene semplificando OB) (OB’) (OBK) Pr(H|E ∩ K) Pr(-H |E ∩K) (K è la conoscenza di sfondo) = PrH • Pr(E ∩ K|H) Pr (-H ) • Pr(E ∩ K|-H) La frazione O(H|E) = Pr(H |E) indica la ragione di scommessa (odds) Pr(-H |E) . Per esempio 9/10 / 1/10 = 9:1 (9 a 1). 2 Un esempio di come si applica il teorema di Bayes in medicina è offerto dallo studio statistico dei falsi positivi, dei falsi negativi e delle loro conseguenze per i pazienti. I falsi positivi si verificano quando un test medico dà esito positivo in modo falso o scorretto o, in altre parole, iltest indica che il paziente soffre di una malattia che in effetti non ha. Per cominciare, possiamo usare il teorema di Bayes per determinare la probabilità di essere malati a fronte di un risultato positivo deltest, vero o falso che sia. Supponiamo che un test per una certa malattia produca, statisticamente, i risultati seguenti: 1) Se un paziente sottoposto a test ha la malattia, il test produce un risultato positivo il 99% delle volte, cioè con probabilità 0,99 (produce al 99% un vero positivo) 2) Se un paziente sottoposto a test non ha la malattia, il test produce un risultato positivo il 5% delle volte, cioè con probabilità 0,05 (produce al 5% un falso positivo). Ingenuamente qualcuno potrebbe pensare che ciò significa che solo il 5% dei risultati sono sbagliati, ma questo è un errore. Supponiamo che la malattia sia rarissima, per esempio che colpisca solo lo 0,1% della popolazione, cosicchè un paziente scelto a caso ha una probabilitàa priori pari a a 0,001 di avere la malattia. Possiamo usare la regola di Bayes per calcolare sia la probabilità di essere veramente malati a fronte di un test positivo (vero o falso) sia la probabilità di essere veramente sani a fronte di un test positivo (vero o falso). Sia M = il paziente è malato (quindi –M = il paziente è sano) P = il test è positivo (quindi –P = il test è negaitvo) Schematizzando, possiamo descrivere così le probabilità di malattia o non-malattia a fronte dei risultati dei tests: Pr (M|P) : probabilità di essere malati a fronte di in un test positivo Pr(-M|P): probabilità di essere sani a fronte di un test positivo Pr (M|-P): probabilità di essere malati a fronte di un test negativo Pr (-M|-P): probabilità di essere sani a fronte di un test negativo Allora, per quanto detto, valgono questi dati che descrivono le c.d.verosimiglianze: 1) Pr (P|M) = 0,99 (positivo se malato : vero positivo) (vero positivo) 2) Pr (P|-M) = 0,05 (positivo se sano: falso positivo)) (falso positivo) 3) Pr (M) = 0,001 (rarità della malattia) 2 N.B.Si può dimostrare che il quoziente si può definire in termini di odds in base a Pr(H|E) = O(H|E)/O(H|E) + 1 P.es. 9/1 / 9/1 + 1/1 = 9/1 / 10/1 = 9/10 La dimostrazione è la seguente, impiegando per semplicità probabilità non condizionate. 1) Pr(H) = O(H) • (1- Pr(H)) 2) Pr(H) = O(H) - (O(H) • Pr(H)) 3) Pr(H)/Pr(H) = O(H)/Pr(H) - (O(H) • Pr(H))/Pr(H) 4) 1= O(H)/Pr(H) - O(H) 5)1 + O(H) = O(H)/Pr(H) 6)Pr(H) (1 + O(H)) = O(H) 7) Pr(H) = O(H) /1 + O(H) Prima di procedere ricordiamo ora la particolare versione della regola di Bayes che è (TB*) Pr(M|P) = ____Pr(M) • Pr(P|M) Pr( M) • Pr(P|BM + Pr(-M) • Pr(P|-M) (se Pr(A) ≠ 0) La probabilità che il paziente abbia effettivamente la malattia nelle condizioni sopra esposte, a fronte di un test positivo (vero o falso che sia), per la regola di Bayes è (TB*) Pr(M| P) = ___ _Pr(M) • Pr(P| M) (se Pr(M) ≠ 0) Pr(M) • Pr(P | M) + Pr(-M) • Pr(P|- M) 0.99 • 0.001 0.001 • 0.99 + 0.999 • 0.05 = 0.019 In base al principio delle probabilità totali, che si applica anche a probabilità condizionali, la probabilità che il paziente sia sano (-M) alla luce di un test positivo è il complemento della probabilità appena calcolata. In altre parole Pr (-M|P) = 1- Pr (M| P). Nel caso dell’esempio tale probabilità, ossia Pr(-M |P), è circa 1-0,019 = 0.98 (98%). Quindi la probabilità di essere sani nonostante iltest dica il contrario risulta altissima, quale che sia l’apparente accuratezza del test. Se l’incidenza della malattia è rara, quindi, la grande maggioranza dei pazienti che risultano positivi al test sono in realtà sani! Restando sempre nell’esempio di una malattia che sia rara nella stessa misura di cui sopra, se il test è accurato e produce quasi sempre un risultato negativo in pazienti sani, diciamo con probabilità 0,999, avremmo Pr(P| -M) = 0,999, cioè un valore prossimo a 1: molto diverso dal precedente 0,05. In tal caso, avremo, per “malato se positivo” Pr(M | P) = ≈ 0,5 0,99 • 0,001 0,99 •0,001 + 0.001 • 0,999 (e si noti che Pr (-M |P) sarebbe la stessa di “malato se positivo” in quanto 1- 0,5 = 0,5). Vediamo che cosa succede se la malattia non è rara ma frequente, per esempio si abbia che Pr M = 0,6. Allora 0.99 • 0.6 = 0.9224 0,6 • 0.99 + 0.999 • 0.05 La probabilità di essere malati a fronte di un test positivo è in tal caso alta in modo soddisfacente. E’ ovvio che, quando il paziente è sano, untest adeguato dovrebbe mirare a dare esito non positivo ma negativo. Sono da evitare dunque i falsi negativi, cioè i casi in cui il test è negativo (-P) ma il paziente è veramente malato (M). Si noti che i falsi negativi sono più pericolosi dei falsi positivi. La ragione è che con il falso positivo si rischia di curare qualcuno per una malattia che non ha, mentre con i falsi negativi si rischia di omettere le cure a qualcuno che è seriamente malato. Il teorema di Bayes ci aiuta naturalmente anche a calcolare la probabilità di essere malati in presenza di un test negativo, vero o falso che sia ( Pr (M|- P)), date le stesse informazioni sulla rarità della malattia e sull'acccuratezza del test. Fatte le debite sostituzioni con gli stessiinputs precedenti e stante che, se Pr (P | M) = 0.99, Pr(- P | M) = 0.01, avremo Pr(M| -P) = Pr(M) • Pr(-P|M) Pr(-P|M) •Pr(M) + Pr(-P|-M) •Pr(-M) ≈ 0,0000105 = 0,01• 0,001 0,01 • 0,001 + 0,95 • 0,999 Quindi, se una malattia è rara, la probabilità di incappare in un falso negativo è fortunatamente bassa. Ma se, per ipotesi, il 60% della popolazione fosse esposto alla malattia, la probabilità di essere vittima di un falso negativo sarebbe più elevata. In questo caso avremmo Pr(M) = 0,6 , donde Pr(M| -P) = Pr(M) • Pr(-P|M) = 0,01•0,6_______ Pr(-P|M) •Pr(M) + Pr(-P|-M) •Pr(-M) 0,01 • 0,6 + 0,95 • 0,4 ≈ 0,0155 In caso di malattia diffusa o epidemica, quindi, la probabilità di essere vittima di un falso negativo, pur essendo sempre abbastanza bassa, sale a 0,0155, cioè a 1,55%. Si noti che tutti i valori probabilistici inseriti come inputs nella regola di Bayes sono derivati da statistiche, non da stime soggettive. Passiamo ora dalla medicina al diritto. Qui ritorniamo alla distinzione già tracciata traindizi e prove, dove, in termini probabilistici, per “prova” si intende nei processi penali qualcosa che attribuisce all’ipotesi un grado di probabilità prossimo alla certezza, mentre si intende di solito per “indizio” ogni elemento di informazione che rende più probabile l’ipotesi. Cominciamo con il discutere una regola giudiziaria basata su quello che si potrebbe dire bayesianesimo ingenuo. In quasi tutti i paesi occidentali nel diritto penale si chiede normalmente che le conclusioni vengano raggiunte “oltre ogni ragionevole dubbio” (BARD: Beyond Any Reasonable Doubt) che si potrebbe parafrasare dicendo che la probabilità deve essere sopra una soglia di 1-ε , per qualche ε prefissato inteso come grandezza "trascurabile". Questa soglia, in prima approssimazione, fissa la differenza tra ciò che si può ritenere provato con certezza e ciò che non lo è. La regola che si può formulare è allora questa: (R) Il giudice al termine del processo decide nel merito sulla sola base del valore di probabilità dell’ipotesi: in altre parole accetta il thema probandum se la sua probabilità è superiore alla soglia di 1- ε e lo respinge altrimenti. La convinzione di tutti i bayesiani è che, potendosi sempre assegnare dei valori di probabilità alle conclusioni di tutte le inferenze ampliative, si possa anche calcolare con esattezza se gli asserti che interessano il giudice superano o meno la soglia dell’ “oltre ogni ragionevole dubbio”, sopra fissata a 1-ε. Sull’ esatta determinazione del valore diε bisogna osservare che ci sono state diverse controversie. Il valore di certezza pratica in molti contesti è fissato convenzionalmente in 0,999999, per cui ε sarebbe uguale a 0,000001. Adottare la condotta (R) con questo valore diε è quello che diremmo un comportamento razionale. Ma non c`è dubbio che un livello così alto di certezza, se è giustamente richiesto, poniamo, per la sicurezza aerea, non è quasi mai raggiungibile in un processo penale. Il dilemma, naturalmente, è il seguente: se punire un numero troppo alto di innocenti ( introducendo soglie più basse di probabilità) o lasciare in libertà un numero troppo alto di malfattori (introducendo una soglia eccessivamente alta di probabilità). Come afferma Richard Eggleston, il diritto inglese assegna alla giuria l`onere di stabilire cosa sia una misura "ragionevole" di probabilità in quel particolare contesto. Si parla infatti non di indubitabilità ma di "convinzione oltre ogniragionevole dubbio" : ma che cosa è un dubbio ragionevole? Il dubbio cartesiano è razionale ma non ragionevole. In ogni caso della scomparsa di qualche persona, per esempio, potremmo considerare tra le varie ipotesi quella per cui lo scomparso sia stato rapito dagli extraterrestri. Infatti, in tali casi prendiamo in considerazione un’ ipotesi che è una possibilità logica ma è certo una possibilità fisica, stante che non disponiamo di leggi fisiche che riguardano soggetti extraterrestri. Ipotesi diverse, come quella di una rocambolesca sostituzione di persone o di una diabolica messinscena (su cui torneremo), rientrano nel repertorio giornalistico e anche giudiziario, ma è dubbio se siano da considerare ragionevoli. Riteniamo sia utile continuare a usare la formula R lasciando nel vago il valore diε come quello di un valore trascurabile non specificato. Si tratta di una procedura di idealizzazione che nonè l`eccezione ma la regola anche nella scienza. Il valore di 0,999999 potrà essere tenuto presente, ma come valore su cui converge la convinzione di una giuria ideale formata da soggetti perfettamente raziocinanti e dotati di informazione completa, una volta che non sia influenzata da fattori di qualche genere. Lord Dennig scrisse :"Nei processi penali l`accusa deve essere provata oltre ogni ragionevole dubbio, ma possono esserci dei gradi all`interno di questo standard" . La solidità della prova dovrebbe essere proporzionata alla gravità del reato. Sono state anche fatte delle ricerche sui valori di probabilità che vari soggetti chiamati a giudicare stimano sufficienti in rapporto a diversi reati. Per la prova di omicidio, per esempio, i giudici richiederebbero 0,92 mentre i giurati si acconterebbero di 0,86. Un'altra idea a volte sostenuta è che quando il grado di prova è "oltre ogni ragionevole dubbio" ciascun elemento di prova deve a sua volta risultare tale oltre ogni ragionevole dubbio. Questo è veramente eccessivo, perché le singole prove potrebbero non essere certe mentre la loro combinazione complessiva potrebbe portare l’ipotesi al livello di credibilità richiesto. Nei processi civili, come già detto, ci si conforma a uno standard diverso da quello di "oltre ogni ragionevole dubbio" richiesto per i processi penali, ma le opinioni sul grado di probabilità richiesto sono divergenti. Il minimo che si chiede è che la probabilità di A superi la probabilità di -A, cioè il 50%., anche se si tende a usare la locuzione più vaga "preponderanza della probabilità". Sempre Lord Denning sossteneva che, allo stesso modo in cui c'è una variabilità del concetto di ragionevole dubbio, c`è una variabilità anche nel concetto di “preponderanza di probabilità”. Una regola pratica condivisa è per esempio questa: il tribunale può accontentarsi di un minor grado di probabilità quando ritiene che la reputazione dell`imputato sia talmente cattiva che una condanna in più non potrebbe peggiorarla. Come si vede, le soglie per l’ accettazione delle prove non possono essere fissate in modo rigido, dovendosi tener conto dei danni e dei vantaggi derivanti dal comminare o meno una certa sanzione. Una complicazione è che i processi penali e civili possono essere intrecciati: può capitare per esempio che un tribunale civile impedisca la trasmissione del patrimonio a un soggetto che si sospetta abbia assassinato la donna che ha steso il testamento. Qui si dovrebbero usare contestualmente due criteri diversi, quello richiesto per i processi civili e quello richiesto per i processi penali, ma è arduo stabilire come deve essere realizzata questa combinazione. Una classe importanti di problemi nell’impiego del calcolo delle probabilità è posta dalla credibilità dei testimoni. Una volta stabilito che i testi sono indipendenti, la credibilità della testimonianze dovrebbe essere ottenuta moltiplicando le varie probabilità applicando il principio delle Probabilità Composte. Come vedremo in seguito, questa applicazione del calcolo è problematica, ma il problema primario è che comunque presuppone che si sappia come valutare probabilisticamente l’attendibilità delle singole testimonianze. Si noti che non si tratta solo di stabilire la probabilità che il teste stia dicendo qualcosa di falso in buona fede o mala fede. Bisogna considerare anche la probabilita` che abbia visto bene, che sia intimidito o ricattato da altri, che si ricordi esattamente ciò che ha visto, che non venga frainteso e che non sia ostacolato nel raccontare ciò che intende raccontare. La sociologia dei mass-media ha reso familiare questo fenomeno: che quando un presunto fatto viene trasmesso reiteratamente e a tutto campo dai media, si trova quasi sempre qualcuno che è disposto a testimoniare della veridicità del fatto stesso – e si noti che costui non è necessariamente subornato o in mala fede. Lo scrittore Norman Mailer ha inventato la parola “fattoide” per indicare qualche informazione che non esisteva prima di comparire su un giornale o in TV. Lo spazio concettuale dell’uomo medio, che è quotidianamente condizionato dai media, è saturo di fattoidi, che sono in grado di orientare i suoi comportamenti anche sul piano politico. Vale certamente il principio per cui una falsità più volte ripetuta tende a diventare inerzialmente una “verità”. Come diceva Goebbels: “ripetete una falsità 10, 100, 1000 volte e quella diventerà la verità”. Tali verità costruite socialmente influenzano, anche a livello inconscio, soggetti che in prima apparenza non si direbbero suggestionabili. Basti pensare al caso di due testimoni indipendenti che vedono in cielo due aerei militari in successione; ma il primo dei due dichiara di aver visto un aereo seguito da un altro, mentre il secondo dichiara di aver visto un aereoinseguito da un altro. Il secondo, sia pure in buona fede, potrebbe essere condizionato dal fattoide diffuso daimedia secondo il quale in quello stesso giorno si sarebbe svolta poco tempo prima una battaglia aerea in una zona limitrofa. Quanto detto diminuisce l’interesse per le testimonianze di testimoni isolati, le cui testimonianze cioè non siano convergenti con quelle di altri testimoni indipendenti. In ogni caso, comunque, ci sono dei criteri per valutare la versione di un testimone singolo: 1) coerenza interna della versione 2) coerenza con le versioni di altri testimoni 3) coerenza con fatti non controversi 4) "credito " del testimone (che esclude, per esempio, soggetti condannati per falsa testimonianza o soggetti con disturbi psicofisici) 5) accuratezza dell’osservazione del testimone (che, per esempio, potrebbe fingere un difetto fisico alla vista o all'udito). Il requisito della coerenza non va inteso solo in senso logico-formale ma in un senso più ampio che chiama in causa le possibilità fisiche e tecniche. Sfortunatamente queste possibilità variano in funzione della collocazione geografica e dell’epoca storica. Dire "Andò e tornò da Roma in un giorno" un secolo fa sarebbe stato considerato incoerente con le leggi fisiche, oggi sicuramente no. I testimoni a volte mentono quando è in gioco la loro reputazione o la loro dignità personale. Si noti che il testimone giura di dire "la verita`, tutta la verita`, niente altro che la verita`". Questo implica che l'omissione nell' esposizione di fatti rilevanti comporti lo spergiuro, ma di fatto tale omissione non è considerata reato a meno che non comporti la falsità di una parte della testimonianza. In realtà molti testimoni non si sentono in colpa se pensano di mentire o di nascondere la verità a fin di bene. Un errore comune, in ogni caso, è pensare che i testimoni siano completamente veridici o completamente mendaci. Si tende a sottovalutare la facilità con cui molta gente dimentica le cose più banali, anche la stessa lingua madre. E si tende anche a trascurare il fatto che i mentitori più astuti conoscono l’arte di mescolare verità e menzogne, o dire “mezze verità”, in modo da risultare il più possibile credibili. Che dire quando un testimone enuncia un fatto eccezionale o improbabile? Secondo Hume e Laplace anche la veridicità del testimone in questo caso deve essere giudicata improbabile. Esempio tratto dalla cronaca: quello di un testimone che ha dichiarato di aver preso un candelotto di dinamite da suo fratello e di esserselo dimenticato in tasca. La probabilità che costui dica il vero è risibile. Ma a volte i testimoni raccontano in modo veridico dei fatti assurdi, e l`assurdità di quello che raccontano si potrebbe usare per provare la loro buona fede, dato che chi mente di solito non ha interesse a raccontare qualcosa che si stenta a credere. Un problema importante connesso a quello appena menzionato riguarda ciò che si intende esattamente per improbabile. Nel linguaggio corrente è improbabile ciò che è sorprendente, e probabile ciò che non lo è. Ma se in una mano di bridge mi vengono servite 13 carte di picche questo è sorprendente, anche se a rigore ha la stessa probabilità di qualsiasi altra distribuzione. Dunque ci vuole cautela nell'usare concetti come quello di sorpresa reale o potenziale (di cui parleremo ancora ) o di "indice di sorpresa" , dato che sembrano sganciati dalla nozione matematica di probabilità. L'idea di Eggleston è che la probabilità, anche nei giochi d’azzardo, deve essere stabilita a fronte di tutte le alternative possibili. Se, per esempio, le carte dell’esempio sopra esposto sono state distribuite ieri e il fatto viene raccontato oggi a gioco finito, dobbiamo considerare anche l'alternativa che le carte siano state truccate oppure che il teste che riporta il fatto a distanza di un giorno sia menzognero: alternative che non sono affatto trascurabili. Si pensi al famoso argomento di Hume sui miracoli. Che cosa è più probabile, si chiede Hume? Che ci sia una violazione di una legge di natura o che qualcuno dica il falso perchè ha avuto le traveggole o perchè è un mitomane? Ora, in tema di testimonianze, il teorema di Bayes si rivela uno strumento prezioso. Nel caso più semplice, abbiamo due testimoni per valutare l’attendibilità di un certo enunciato S. Supponiamo di porre As = Il teste A afferma che si è verificato S Bs = Il teste B afferma che si è verificato S S = la dichiarazione S è vera -S = la dichiarazione S è falsa. Utilizziamo qui la nozione diragione di scommessa (in inglese odds: da non confondere con il quoziente di scommessa) su B dato A. Come già visto, questa grandezza è interdefinibile con quella di probabilità condizionata e si può esprimere come il rapporto matematico tra Pr(B|A) e Pr(–B|A), cioè come il rapporto tra due quozienti di scommessa : Pr(B|A) ––––––– Pr(–B|A) (per esempio 10/100 –––––––- = 1/9 (ragione di 1 a 9 ) 90/100 Più in generale, sarà utile definire gliodds semplicemente così: O(B|A) = Pr(B|A)/ 1-Pr(B|A) Utilizziamo ora questa variante del teorema di Bayes, in cui la formula di Bayes compare sia al numeratore che al denominatore in due esemplificazioni diverse, una con H e l’altra con –H: (OB) Pr(H|E) = Pr H • Pr(E| H) • 1/Pr E Pr(-H |E) Pr- H • Pr(E|- H) • 1/Pr E Sulla sinistra compare la ragione di scommessa (odds) anzichè la semplice probabilità condizionata di H rispetto ad E. La formula equivale naturalmente per semplificazione algebrica a Pr(H |E) = Pr H • Pr(E| H) Pr(-H |E) Pr( - H) • Pr(E|- H) Chiameremo Pr H /Pr –H rapporto a priori, e Pr(E|H)/ Pr(E|-H) valore probatorio dell’evidenza E orapporto di Bayes. Quanto alla probabilità a posteriori Pr (H|E), a volte viene chiamata credibilità. Quindi la probabilità di un’ipotesi espressa dalla ragione di scommessa si riduce sostanzialmente a un prodotto tra il rapporto a priori e il valore probatorio dell’evidenza. Tornando all’esempio, avremo quindi come caso speciale, ponendo H=S e E= As∩ Bs, quanto segue : (*) Pr(S|As ∩ Bs) = Pr(S) • Pr(As ∩ Bs| S) Pr(-S|As ∩Bs) Pr(-S) • Pr(As ∩ Bs| -S). Viene così espressa in termini di ragioni di scommessa la risposta a questa domanda:qual è la probabilità che S sia vera se viene riferita dai testi ? La frazione Pr(S)/Pr(-S) entro la formula indica la ragione iniziale di scommessa su S prima che si sentano i testi, cioè sostanzialmente il valorea priori della probabilità di S. Circa As e Bs bisogna stabilire se si considerano i testi indipendenti oppure no. Nel primo caso Pr(As∩ Bs|S) si riduce, applicando il teorema delle probabilità composte, a Pr(As|S) • Pr(Bs|S). Altrimenti bisogna ricorrere ad una espressione più lunga che il lettore puo` calcolare da sè. Al proposito valgono alcune osservazioni. Come sappiamo, per applicare il teorema di Bayes bisogna fare qualche assunzione circa l’assegnazione delle probabilità iniziali. In casi di incertezza tra due alternative si assume spesso convenzionalmente, ispirandoci al principio di indifferenza, che la probabilità iniziale sia 0,5. Ma potrebbero esserci più di due versioni possibili dei fatti, poniamo cinque. In questo caso, quindi, i due testimoni sarebbero due tra cinque testimoni possibili e dovremmo porre Pr (As|S) = Pr(Bs|S) = 1/5. Altri problemi di rilievo matematico riguardano non le premesse ma la conclusione, e in particolare il requisito dell’alta probabilità della conclusione. È importante osservare che la richiesta di alta probabilità della conclusione è stata proposta anche nell’ambito della metodologia delle scienze fisiche. Il cosiddetto modello hempeliano di spiegazione SI (ossia Statistico-Induttiva) esige che’explanandum l venga derivato dall’explanans con un alto grado di probabilità. Accade quindi che le difficoltà che sono state riscontrate nella teoria hempeliana si applicano immediatamente alla regola R di pagina 00. Infatti, mentre nella logica deduttiva l’aggiunta di altre informazioni alle premesse non altera la conclusione, questo non si verifica nella logica probabilistico-induttiva. Nel linguaggio dei logici, questa inferenza ènon-monotòna. Se, per esempio Pr(H| E) = 1- ε, per valori non banali di E e E’ può accadere che Pr (H|E ∩ E' ) < (1 – ε). In altri termini, nuova informazione indipendente può abbassare il livello di probabilità della conclusione. Supponendo che la probabilità che un verdetto raggiunto sia molto alta, questo significa che il risultato però rischia di essere revocato in dubbio alla luce di nuova informazione sconosciuta: ma questa instabilità è imbarazzante, perché sembra che non ci consenta di dire che la conclusione valga oltre ogni ragionevole dubbio. Come si può considerare indubitabile una conclusione se si ammette che altre informazioni potrebbero renderla incerta? A ciò si aggiunge che non è in genere transitiva la relazione implicativa che possiamo definire così: (Def. =>) A => B =Df Pr(B|A) = 1- ε. Non abbiamo infatti nessuna garanzia che, se è vero A =>B, ossia Pr(B|A) = 1-ε, ed è vero B => C, ossia Pr(C|B) = 1- ε, allora è vero A => C , cioè (Pr(C|A)=1- ε. Quindi una catena di ragionamenti ciascuno dei quali è ragionevolmente certo potrebbe avere una conclusione che non è ragionevolmente certa. Questo problema è strettamente connesso a quello evidenziato da Kyburg nel c.d. “paradosso della lotteria”. La difficoltà di raggiungere una conclusione stabile naturalmente risulta più grave nella visione soggettivista del bayesianesimo. Infatti i soggettivisti negano che ci debba essere necessariamente un consenso intersoggettivo (a fortiori “oggettivo”) sulla assegnazioni iniziali. I soggettivisti più radicali (in genere seguaci di De Finetti) respingono per ragioni di principio anche la possibilità di distinguere tra valutazioni ragionevoli e valutazioni che dipendono dai gusti o dalle preferenze individuali, introducendo un elemento supplementare di incertezza. Per i soggettivisti non si giustifica il fatto che le assegnazioni iniziali in caso di ignoranza siano 0.5 per ogni soggetto, e non c’è garanzia che ci sia uniformità nel giudizio collettivo. Il soggettivista ha gioco facile nel rilevare che il bayesianesimo di stampo logicista è naufragato insieme al sogno di Carnap di creare una teoria formale espressa nel linguaggio della logica matematica. La visione di Carnap inoltre presuppone la neutralità dei dati su cui si valutano le ipotesi, idea notoriamente respinta dall’epistemologia c.d. postpositivista, secondo cui i fatti sono sempre condizionati da teorie o pregiudizi presupposti. Un ulteriore punto debole del soggettivismo starebbe nel fatto che ignora il momento della dialettica probatoria, cioè il fatto che la ricostruzione del fatto avviene attraverso la discussione e la controversia. Mettendo l’accento sulla della dialettica probatoria, recentemente Alberto Mura ha proposta una terza via, oltre al logicismo e al soggettivismo bayesiano, che ha chiamatobayesianesimo critico. Per capire la differenza, riprendiamo l’idea già accennata secondo cui è normale definire probabilisticamente la nozione di rilevanza (dipendenza) in questo modo: 1) A è positivamente rilevante per B quando Pr(B|A) > Pr (B) 2) A è negativamente rilevante per B quando Pr(B|A) < Pr(B) 3) A è irrilevante per B quando Pr (B|A)=PrB Su queste idee si basano tutte le teorie probabilistiche della causa come quella di Suppes e Salmon, a cui si accennerà in seguito. Ma, se le probabilità iniziali sono soggettive, ne segue anche che anche i nessi di rilevanza risultano tali. Essi quindi non sarebbero oggetto di conoscenza ma diventerebbero materia di opinione. In tal modo si perde la speranza di costruire un consenso razionale nella ricostruzione dei fatti e di adempiere, come osserva Mura, lo stesso obbligo di motivazione della sentenza, che deve basarsi su ragioni universalmente condivisibili. Inoltre, come già anticipato, si può mostrare che in tal modo si rende impossibile addirittura applicare lo stesso principio di indifferenza. Viceversa, bisogna ammettere che le valutazioni di rilevanza possono essere in molti casi antecedenti a quelle di probabilità e tali da condizionare la revisione delle probabilità richiesta dal teorema di Bayes. Una critica di questo tenore era già stata menzionata a proposito della critica di Cohen al principio di scambiabilità di de Finetti. Sempre in tema di dialettica probatoria, va osservato che nel ragionamento giudiziario è a volte essenziale far leva sulle cosiddette “massime d’esperienza”, che non sono leggi di natura ma sono però generalizzazioni affidabili. Per esempio la massima “un teste disinteressato normalmente dice la verità” in termini probabilistici si potrebbe tradurre con (ME) Pr (x dice la verità| x è disinteressato) > 1/2 E’ dubbio infatti che si possa rendere con (ME’) Pr (x dice la verità| x è disinteressato) = 1- ε dato che diverse cause possono influire sulla veracità dei testi. Una variante della stessa massima sarebbe forse meglio resa da (ME’’) Pr (x dice la verità| x è disinteressato) > Pr (x dice la verità| x è interessato) Tali probabilità si possono discutere, ma in ogni caso non possono essere considerate prodotti di valutazioni soggettive. Il bayesianesimo critico asserisce che i giudizi di probabilità sono opinioni non definitive ma aperta all’altrui critica, sostenute con l’obiettivo di convincere gli altri a raggiungere il consenso. Ciò presuppone che nel dialogo vengano date per scontate assunzioni e informazioni condivise. Di fatto le applicazioni del teorema di Bayes, come già osservato, sono di solito appoggiate a dati la cui origine non è necessariamente soggettiva: potrebbero essere, per esempio, dati accettati con solide basi statistiche (questo è quanto accade, come si è visto, nelle ricerche mediche) o provenienti da testimonianze di cui solo nessuno potrebbe ragionevolmente dubitare. Parlando dei vari usi che si possono fare del teorema di Bayes, cominciamo con il ricordare che la formula di Bayes introdotta nella prima lezione è solo la più semplice di varie formulazioni equivalenti o estese. Due di queste sono già state impiegate. Un’altra si ottiene tenendo conto dell’ informazione disponibile K (Background Knowledge) nella valutazione di probabilità. Abbiamo già visto che se Pr(A) è molto alta, Pr( A ∩ K) potrebbe essere più bassa dato che l' informazione accessoria può avere un suo peso non trascurabile. C' è una differenza tra valutare la probabilità di un evento astratto o generico (p.es. la probabilità che un qualsiasi fiammifero si accenda quando è sfregato) e la probabilità di un evento spcificorebus sic stantibus, cioè in circostanze note e ben determinate (che possono essere anche inibitorie: per esempio presenza di umidità sulla capocchia del fiammifero). Questa distinzione è sostanzialmente la distinzione, a cui già si è accennato, tra tipo di evento ed evento singolo e( vent-type vs. even-token). Si è sostenuto che se ci si riferisce atoken-eventi la valutazione delle probabilità dovrebbe essere sempre fatta tenendo conto della conoscenza di sfondo K che varia da situazione a situazione, quindi tenendo conto che il valore probabilistico di K si può eventualmente annullare in contesti adeguati. In effetti quindi una formulazione più generale della precedente formula di Bayes in termini di ragioni di scommessa sarebbe Pr(H|E ∩ K) Pr(-H |E ∩K) = PrH • Pr(E ∩ K|H) Pr (-H ) • Pr(E ∩ K|-H) Questa probabilità è la probabilità a posteriori di H (credibilità) alla luce dell’informazione E∩ ∩ K. Se K non trasmette informazione, lo si può porre uguale a x=x o a qualsiasi verità logica equivalente (donde Pr(K)=1) . In tal caso il suo peso si annulla e si ritorna alla formula originaria. Quello che viene chiamatorapporto di Bayes o valore probatorio dell’evidenza E per H, cioè il rapporto tra verosimiglianze, ora prende questa forma: Pr(E ∩ K|H) (RB) V = –––––––––––Pr(E ∩ K| -H) Intuitivamente V esprime la forza con cui, nella situazione K, E sostiene H piuttosto che la sua negazione – H. Nella formula RB, V può avere valori maggiori di 1, minori di 1 o uguali a 1(quindi non è una funzione di probabilità, perchè questa ha come massimo valore 1). Per esempio un rapporto come 0.9 / 0.1 , ossia 9, esprime un alto grado di forza della prova per l’ipotesi Halla luce di E, mentre un rapporto inverso 0.1/ 0.9 = 1/9, rappresenta un basso grado di forza dell’ipotesi alla luce di E. Supponiamo che l’evidenza che si ritiene importante per la colpevolezza sia data dall’impronta digitale dell’imputato su un coltello. Allora valutiamo la probabilità che il rilascio dell’ impronta si verifichi se l’imputato è colpevole ( Pr(E ∩K|H) ) confrontandola con la probabilità che ciò si verifichi se l imputato è innocente, ossia Pr(E∩ ∩K|-H). Il rapporto tra questi due valori esprime il valore probatorio dell evidenza E in quelle particolari circostanze. Si noti che tale valore probatorio potrebbe derivare da statistiche ben precise, come avviene spesso in medicina. Per esempio, nel caso in cui Pr(E|K∩ ∩ H) esprime il vero positivo (p.es. se Tizio ha la sifilide la Wassermann mostra certi valori a e b) e Pr(E|K ∩ -H) il falso positivo (p.es. se Tizio non ha la sifilide la reazione Wassermann mostra certi valoria e b ), V esprime il rapporto tra le verosimiglianze dei due tipi di evento. Il valore probatorio della Wasserman per l’ipotesi che Tizio abbia la sifilide è dunque il rapporto tra veri positivi e falsi positivi. Certo il valore di Pr (H|E) e Pr(E|H) dipende sempre dalla probabilitàa priori Pr(H). Se, per esempio, tale probabilità a priori è molto bassa, anche il valore di Pr(H|E) tende ad essere molto basso anche a fronte di prove sostanziose. Questa proprietà ha un rilievo soprattutto in campo giudiziario. La c.d. “presunzione di innocenza” per esempio dovrebbe indurre ad assegnare probabilità 0 all’ipotesi della colpevolezza (C), con il risultato che Pr(C|E) =0 , il che vuol dire che nessuna prova può dimostrare la colpevolezza dell’imputato!! Naturalmente l’argomento si potrebbe discutere. Riflettendo bene sulla precedente formula, assegnare probabilità 0 all’ipotesi di colpevolezza significare affermare che èimpossibile che l’imputato sia colpevole. Questo non è quanto si intende con la presunzione di innocenza. Ciò che si intende dire semmai è che vale Pr(C) < Pr( -C), cioè che è più probabile sia innocente che colpevole, che è quanto basta per ritenere chea priori non sia meritevole di nessuna condanna. D’altro canto questa valutazione comparativa non fissa un valore determinato e di per sè rende inapplicabile il teorema di Bayes. Il modo di procedere potrebbe essere diverso. Come abbiamo già suggerito, applicando intuitivamente il principio di indifferenza, è più trasparente partire da un'opinione iniziale (antecedente alla considerazione degli indizi disponibili) che assegni uguale probabilità a colpevolezza C e innocenza I: Pr (C) = Pr (I) = 0.5 e ciò in base all’idea chea priori non v'è alcuna ragione per privilegiare l'una o l'altra delle due possibilità. L'evidenza indiziaria E conduce a revisionare tali probabilità iniziali non perché esse siano errate, ma perché siamo in presenza d'uno stato d'informazione di cui prima non si disponeva. Le probabilità finali prodotte dal Teorema di Bayes sono quindi: Pr(I|E) = Pr(I)Pr(E|I)/ Pr(E) = 0.5 • Pr(E|I)/Pr(E) Pr(C|E) = Pr(C)Pr(E|C)/ Pr(E) = 0.5 • Pr(E|C)/Pr(E) Ritornando alla distinzione iniziale tra inferenza induttiva e abduttiva, uno dei meriti del teorema di Bayes è che ci consente, come già detto, di calcolare la probabilità della causa dato l’effetto conoscendo la probabilità inversa, quella dell’effetto data la causa. Ma al proposito è interessante notare che il teorema di Bayes rende trasparente una comune fallacia del ragionamento formale ma anche induttivo: la c.d. fallacia “ consequentis” o fallacia dell’affermare il conseguente. Per tornare all’ esempio del fiammifero, dalla legge che tutti i fiammiferi sfregati si accendono possiamo inferire che sea è un fiammifero ed è sfregatomolto probabilmente si accende. Ma è illecito operare l’inferenza dal fatto che il fiammiferoa si è acceso alla conclusione che molto probabilmente è stato sfregato. Idem per l’inferenza dal fatto che il fiammifero non è stato sfregato al fatto che probabilmente non si è acceso. Se vogliamo usare il simbolo >, che poi useremo largamente in seguito, un conto è S > F, altro è F > S, e altro ancora ¬S > ¬F. Osserviamo ora questo ragionamento, che purtroppo si può sentire nelle corti di giustizia: “Se Rossi fosse colpevole, allora l’evento E sarebbe molto probabile; se Rossi fosse innocente, allora E sarebbe molto improbabile. Ma E si è verificato; perciò è molto improbabile che Rossi sia innocente, quindi è molto probabile che sia colpevole”. Lo schema del ragionamento è questo. Ammettendo (solo per comodità) di voler rappresentare il fatto che E si verificato come Pr(E)=1, i passi del ragionamento sarebbbero 1)Pr(E|C) = 1- ε 2) Pr(-E|-C) = 1- ε ergo 3)Pr(-C|E) = ε 4)Pr(C|E)= 1- ε e, ponendo Pr(E)=1 5)Pr (C) = 1 - ε Come si può vedere il ragionamento poggia sulla illecita transizione dalla verosimiglianza (o valore probatorio dell’evidenza) Pr(E|C) - passo 1 - alla credibilità Pr(C|E) (passo 4, equivalente al passo 3). Ricordando la definizione di =>, si passa da 1) C => E a 4) E => C. Nelle discussioni in ordine al caso Dreyfus ci si imbattè in una fallacia di questo tipo. L’accusa sostenne che un certo documento trovato dal controspionaggio francese in un cestino della carta straccia dell’ambasciata tedesca, e scritto dallo stesso Dreyfus per sua ammissione, contenesse dei messaggi in codice. Questo perché in quel documento le lettere dell’alfabeto comparivano, apparentemente, con una frequenza diversa da quella con cui comparirebbero nella prosa francese “normale”. Nel processo del 1894 il celebre scienziato forense Alphonse Bertillon cercò di calcolare la probabilità che quella particolare combinazione di lettere si fosse prodotta per caso, vale a dire supponendo che Dreyfus fosse innocente e non avesse scritto alcun messaggio cifrato. Poichè nei calcoli di Bertillon tale probabilità Pr(E|-C) (valore probatorio) risultò estremamente bassa, si concluse che era anche estremamente bassa la probabilità che Dreyfus fosse innocente, cioè che era basso il valore di credibilità o probabilitàa posteriori Pr(-C|E). Ma questo significa confondere Pr(E|-C) con Pr(-C|E). Nel secondo processo di appello, nel 1904, una memoria scritta da tre “saggi”, fra i quali Henri Poincaré, faceva giustizia di questa fallacia e dei calcoli di Bertillon, con il che ristabiliva il corretto rapporto tra valore probatorio e credibilità ai fini della valutazione della colpevolezza dell’ imputato. LEZIONE 4 Bayesiani e antibayesiani Abbiamo visto che si può essere bayesiani oggettivisti e soggettivisti. In comune tutti i bayesiani hanno in primo luogo la convizione che il teorema di Bayes sia l’unico strumento per la rappresentazione delle inferenze ampliative, che certo costituiscono un problema per chi vede nell’inferenza logico-matematica il paradigma di ogni tipo di ragionamento. Secondariamente, hanno in comune la convinzione che l’applicazione del teorema di Bayes consenta sempre di assegnare un valore numerico tra 0 e 1 a qualsiasi rapporto tra premesse e conclusioni di un ragionamento ampliativo, per quanto complesso. Il bayesianesimo ha guadagnato un crescente consenso in vari settori della scienza soprattutto nella seconda metà del XX secolo. Ma proprio nell’ambito dell’epistemologia si sono levate anche voci di dissenso. Ricorderemo solo al proposito i nomi di Clark Glymour e di Jonathan Cohen e (altri nomi: Tverski e Kahnemann). Clark Glymour in “Why I am not a Bayesian” sottolinea il divario tra l’effettiva pratica scientifica e l’idealizzazione del ragionamento offerta dai bayesiani. Glymour osserva che pochi scienziati in effetti nella storia della scienza hanno fatto ricorso a ragionamenti probabilistici e , in questo caso, non ne hanno fatto uso partendo da assegnazioni di probabilità che erano arbitrarie, come i soggettivisti ritengono lecito. La risposta soggettivista alla difficoltà, come già sappiamo, è che i teoremi di convergenza,e in particolare il teorema di De Finetti, assicurano in una certa misura l’intersoggettività, purchè si effettui una reiterazione della procedura di revisione delle credenze. Altre difficoltà evidenziate da Glymour tuttavia sono più specifiche. (1) Supponiamo di considerare un dato dì evidenza già noto E che sia assolutamente certo, quindi tale che (per semplificare) valga Pr(E)=1. Se Pr(E)=1, Pr(E|H)= Pr(E): ne segue, per il teorema di Bayes, Pr(H|E) = Pr (H ) • Pr (E|H)/ Pr (E) = Pr (H ) • 1/ 1 = Pr (H). Quindi, nel caso in cui si conosca con certezza un’ evidenza E prima di formulare una qualsiasi ipotesi , l’evidenza E non conferma né questa ipotesi né qualsiasi altra ipotesi. Questo è strano perché la “vecchia evidenza” è sempre servita a confermare nuove teorie. Si pensi al fenomeno della precessione del perielio di Mercurio, che era già noto prima che Einstein formulasse la teoria della relatività e che fu poi usata per confermare la teoria stessa. Una risposta possibile alla difficoltà potrebbe essere che la probabilità 1 si assegna solo alle verità logico – matematiche e la probabilità 0 alle contraddizioni logico-matematiche. Se vedo, o penso di vedere, una gallina blu, rivedrò le mie credenze circa il mio stato fisico e magari scoprirò di essere sotto l’azione di una droga, ma non tratterò questo dato come una contraddizione logica. Ma l’ obiezione non è decisiva: purtroppo il problema segnalato da Glymour si ripropone con il valore della certezza pratica 1-ε , o con valori molto approssimati a 1. (2) Semplicità. Gli scienziati hanno sempre la propensione a scegliere le ipotesi più semplici rispetto alle altre. Le ipotesi più semplici sono intuitivamente più informative delle ipotesi meno semplici. Nessuna applicazione del teorema di Bayes può rendere conto di questa ragionevole preferenza per ipotesi semplici o informative. Si può pensare che il ragionamento in ambito giudiziario possa trascurare le difficoltà in questione, che sono state evidenziate in ambito epistemologico. Ma così non è, come è stato convincentemente provato da Jonathan Cohen. La critica di Cohen al bayesianesimo è più radicale di quella di altri, in quanto investe gli stessi assiomi di Kolmogorov e l’utilità del loro impiego in ambito giudiziario. Cohen chiama "pascaliana" la trattazione classica della probabilità`, a cui contrappone una sua diversa concezione, che chiama "neobaconiana". Secondo Cohen le leggi del calcolo pascaliano applicate al diritto sono una fonte di preoccupanti paradossi. Basti pensare a questi tre problemi: a) Per il principio delle probabilità totali, dato che il valore massimo di probabilità è 1, come sappiamo, Pr(A)= 1 - Pr (A). Ma ci sono casi in cui tanto A che -A ci paiono ambedue scarsamente credibili prima dell’acquisizione di nuova informazione. In tali casi, se la probabilità misura il grado di credibilità, allora la probabilità di A e quella di -A sono ambedue più basse di 0.5. Per esempi di questo fenomeno tratti dalla casistica giudiziaria c’è solo l’imbarazzo della scelta. Si noti, tra l’altro, che se il principio-guida nei processi civili deve essere quello della preponderanza della probabilità, l’applicazione rigida dei teoremi del calcolo delle probabilità porta a risultati che appaiono contrari alle intuizioni etiche. Se la probabilità che Tizio sia un evasore fiscale in una città in cui la percentuale di evasori è del 51%, quella che sia un onesto contribuente è del 49%. In base al principio della preponderanza quindi dovrebbe essere condannato, ma così c’è un’alta probabilità che la condanna sia ingiusta. L’esempio è solo un caso speciale di un paradosso a volte come paradosso “dello spettatore abusivo”. Un organizzatore di rodei ha venduto 499 biglietti, ma sugli spalti ci sono 1000 spettatori. Quindi 501 sono entrati abusivamente. In base al principio della maggiore probabilità si potrebbe intentare causa contro uno spettatore qualsiasi in base al fatto che la probabilità che sia un abusivo è superiore a quello che non lo sia. b) Una seconda difficoltà è generata dal principio delle probabilità composte. La probabilità di A∩ B è normalmente piu` bassa di quella di A e quella di B, per il principio delle probabilità composte. Ma se due periti indipendentemente danno un giudizio convergente - per esempio sulla natura di una certa sostanza chimica - la probabilità che ambedue dicano la verità e superiore a quella che ciascuno singolarmente dica la verità: infatti la loro convergenza rafforza, anzichè diminuire, tale probabilita`. Lo stesso grave problema riguarda le testimonianze. Supponiamo che ogni teste abbia la scelta tra due asserti, S e -S. Se due testimoni indipendenti, magari non molto credibili, concordano nell affermare S, la probabilita`che ambedue dicano il vero si abbassa per il teorema delle probabilità composte (p. es. 0.3 ° 0.4 = 0.12) mentre dovrebbe intuitivamente aumentare. Mettere in dubbio il principio delle probabilità composte è esiziale per il bayesianesimo, dato che il teorema di Bayes è derivato immediatamente da tale principio, anzi risulta ad esso equivalente. c) Le testimonianze di secondo grado - cioè le testimonianze su testimonianze - sono intuitivamente più deboli di quelle dirette ai fini dell’ accertamento dei fatti. Ma questo non è rappresentabile entro la probabilità pascaliana. In effetti non esiste una logica per trattare le probabilità di ordine superiore. (Questa lacuna, incidentalmente, non è registrata da Cohen). Tutto ciò che si può dire è tutt'al più quanto segue: (i) se a dice il vero, b è un testimone credibile (ii) se b è credibile, allora l’imputato ha commesso il fatto implicano per la c.d. transitività del sillogismo (iii) se a dice il vero, l’imputato ha commesso il fatto. Ma per la logica deduttiva (iii) dovrebbe avere lo stesso grado di certezza di (i) e (ii), mentre intuitivamente è più debole perché basato su due livelli di testimonianze. Il problema in effetti riguarda ogni tipo di inferenza ottenuto per transitività. La giurisprudenza esige che ogni passo della catena inferenziale sia vero oltre ogni ragionevole dubbio, ma ciò non implica che si debba accettare oltre ogni ragionevole dubbio ogni conclusione ottenuta per transitività. La transitività in effetti vale se si pone ε=0 (cioè per implicazioni dotate di certezza matematica) ma non è affatto garantito, come già visto, che la transitività valga per altri valori diε. Un problema analogo in effetti è già stato affrontato nella prima lezione quando si è introdotto il cosiddetto paradosso della lotteria . In quel caso abbiamo visto che l accettabilità basata sulla quasi-certezza non si conserva passando da un singolo A e un singolo B alla congiunzione A & B: ora dobbiamo aggiungere che lo stesso fenomeno si registra purtroppo per l’accettazione rispetto alla transitività. Cohen inoltre osserva che alcuni giudizi probabilistici, a differenza di altri, dipendono da premesse controfattuali. Volendo identificare le probabilità con le frequenze, un conto infatti sono le frequenze in una classe chiusa (p.es. gli attuali ospiti dell’Hotel Excelsior, di cui possiamo dire il 30% sono italiani, per cui la probabilità che uno degli ospiti sia italiano è del 30%), altre le frequenze virtuali in una classe aperta. Come è noto, i frequentisti propongono in questi casi di trattare le probabilità come limiti di frequenze; ma è difficile dire quali dovrebbero essere questi limiti quando le proprietà da esaminare dipendono da condizionali controfattuali: p.es. la probabilità di Tizio di morire in un incidentese fosse un paracadutista. Cohen insiste baconianamente sul fatto che lavarietà del campione è tanto importante quanto lanumerosità dello stesso. Questo è un requisito che i frequentisti tendono a sottovalutare (in quanto si pensa spesso che la numerosità assicuri automaticamente la varietà) anche se Reichenbach insiste su quella che abbiamo chiamato “omogeneità” della classe di riferimento (l’universo da cui sono tratti i campioni). Un campione variato (randomizzato) è un campione che si presume non sia sbilanciato (tarato obiased) in modo tale da favorire o pregiudicare l’ ipotesi sottotest. Keynes si è ispirato a Bacone introducendo il principio della “varietà limitata indipendente”. Con ciò si presuppone -in parole povere - che c’è un numero finito e fisso di generi o specie naturali a cui si riferiscono i predicati e all’interno dei quali hanno delle connessioni stabili. Un caso nuovo osservato quindi non ha nessun valore a meno che non mostri una combinazione di caratteristiche nuove (variate) rispetto ad altri osservati. Tale sarebbe, per esempio, un orso bianco rispetto a un campione di orsi bruni. La persistenza di questi gruppi di caratteristiche dipende sostanzialmente dall’ Uniformità della Natura: si tratta dell’idea che la collocazione spazio-temporale dei fenomeni non ha nessuna rilevanza per le altre proprietà stabili dei fenomeni stessi o, altrimenti detto, che le proprietà stabili riscontrate nei fenomeni sono spazio-temporalmente invarianti. Cohen ha avuto sicuramente il merito di evidenziare che le intuizioni psicologiche circa le probabilità discordano dai risultati delle procedure matematiche richieste dalla teoria classica della probabilità. Questa divergenza, che abbiamo già notato nella prima lezione, vale anche per le applicazioni del teorema di Bayes. Abbiamo già visto che per applicare il teorema di Bayes occorre fornire uninput costituito dalle probabilitàa priori, e già qui nei tribunali, oltre che nella scienza, emergono dei problemi. Il bayesiano soggettivista avrà buon gioco a dire che il problema non esiste perchè ciascuno può assegnare il valore che gli pare. Ma il problema è ovviamente quello già osservato: nei tribunali la giuria deve raggiungere, se non l`unanimita`, almeno un ampio consenso nelle conclusioni. L`oggettivista insisterà su due fatti: 1) ci vogliono delle convenzioni condivise per fissare le probabilitàa priori (per esempio 1/2 in caso di incertezza) e 2) altri valori che entrano nella formula di Bayes dovrebbero essere derivati da fonti inoppugnabili (p.es. statistiche mediche). E’ stato osservato che il modo intuitivo in cui il teorema di Bayes viene applicato dagli utenti in effetti non è quello auspicato dai bayesiani. Torniamo alla regola di di Bayes nella forma più articolata in termini diodds che, come abbiamo visto, è : Pr (H|E ∩ K) Pr(-H | E ∩ K) = Pr (H) Pr (-H) • • Pr(E ∩ K |H) Pr(E ∩ K |-H) Questa variante connette la probabilitàa posteriori (credibilità) con il rapportoa priori e il valore probatorio. Come già osservato, un merito della nozione di ragione di scommessa su H (O(H)) è che la probabilità si può esprimere in termini di Odds semplicemente così: Pr(H) = O(H)/O(H) +1 Ora anche se V (il valore probatorio) è alto, nel caso in cui il rapportoa priori è basso, la probabilità Pr(H| E) resta bassa. Orbene, chi applica la “versione psicologica” della regola di Bayes tende sistematicamente a ignorare il valore a priori. Un esempio è offerto dal seguente problema (cito da un articolo di P.Cherubini ): In una città ci sono due compagnie di taxi, i blu e i verdi. L’85% dei taxi circolanti sono blu, il 15% verdi. Una notte un taxi è coinvolto in un incidente, e fugge. Un testimone asserisce che si trattava di un taxi verde. Una prova di acuità visiva dimostra che con quella luminosità e a quella distanza, il testimone è in grado di riconoscere correttamente quei toni di blu e verde nell’80% dei casi. Qual è la probabilità che il taxi visto dal testimone fosse effettivamente verde? La risposta corretta è 41%. Infatti poniamo Pr(K)=1(in quanto K qui non interessa), poniamo Pr(taxi verde) =0.15 e Pr(-taxi verde)= 0.85; inoltre poniamo Pr(testimonianza | taxi verde) =0.8 e Pr(testimonianza | - taxi verde) = 0.2. Applicando la regola di Bayes abbiamo, se O è la ragione di scommessa: O(taxi verde | testimonianza) (cioè Pr( taxi verde| testimonianza) / Pr(taxi blu|testimonianza)) = 0.15/0.85 • 0.8/0.2 = 0.71 quindi, alla luce della relazione stabilita per cui Pr(Q) = O(Q)/ O(Q) + 1, si ha che Pr(taxi verde | testimonianza) = 0.71/1.71 = 0.41. La probabilità che il taxi fosse effettivamente verde alla luce della testimonianza quindi è piuttosto bassa. Ma molte persone, stando agli esperimenti, rispondono “80%”: usano la forza dell’evidenza testimoniale, ma non la modificano in base alla probabilitàa priori che il taxi fosse verde (15%). Altre aggiustano un poco la loro stima: i taxi verdi sono rari, e a questi soggetti sembra allora ragionevole concludere che la probabilità che il taxi fosse verde è un po’ più bassa rispetto all’acuità visiva del teste (con risposte tra il 60% e l’80%). Quindi la maggior parte ritiene che sia più probabile che il taxi sia verde, mentre secondo una corretta applicazione del teorema è più probabile che sia blu. La tendenza a ignorare le probabilità a priori è stata molto discussa in giurisprudenza, tanto da meritarsi un nome specifico: fallacia dell’accusatore (Thompson e Schumann, 1987). Il problema è stato però discusso quasi esclusivamente in relazione al test del DNA. La maggior parte dei saggi di statistica Bayesiana applicata al diritto dedica ampio spazio a questo test. Quando fu introdotto, alcuni esperti asserirono che il test del DNA non poteva generare falsi positivi, ma ormai da più di vent’anni è noto che non solo li può produrre, ma li ha effettivamente prodotti (Thompson, 1997). La possibilità di sbagliare è così elevata che il risultato deltest del DNA deve essere accompagnato in aula dalla stima della “probabilità di corrispondenza nella popolazione” : cioè la probabilità a priori che una persona innocente scelta a caso nella popolazione di riferimento abbia un profilo DNA che coincide con quello del test . Supponiamo che un certo Signor Rossi risulti avere un profilo DNA corrispondente a quello del presunto criminale. Bisogna premettere che il test può essere usato in due modi diversi, a seconda che ci sia già un sospettato oppure no. (1) quando già esiste un sospettato per un certo crimine (per esempio Rossi) si può confrontare il profilo DNA del campione trovato sulla scena del crimine con quello del sospettato. Un’ eventuale corrispondenza aumenta di molto le probabilità di colpevolezza del sospettato, perché il valore probatorio del test del DNA, pur variando da situazione a situazione e in base al tipo di profilo DNA usato, è spesso molto alto e la probabilità a priori di colpevolezza non è irrisoria (assumendo, naturalmente, che gli indizi che hanno reso “sospetto” il sospettato siano fondati). Se poniamo per semplicità Pr (corrispondenza | colpevole) = 1 e se fissiamo una “probabilità di corrispondenza nella popolazione” (cioè Pr(corrispondenza | innocente), pari a 1 / 1.000.000, il valore probatorio del test (rapporto di Bayes : 1/ [1/1.000.000]) ha valore 1.000.000, quindi è decisamente alto. Ora, se un indagato ha probabilità di colpevolezzaa priori di 0.001 (1 / 1000), si può provare che sulla base di questi dati la corrispondenza del profilo fa crescere la sua probabilità di colpevolezza da 0.001 fino a circa 0.999.(Infatti, definendo gliodds (ragione di scommessa) come già visto, O(H|E) = 1000000/999 = 1001 . Poi come sappiamo, calcoliamo Pr(H|E) in base all’eguaglianza Pr(H|E) = O(H|E)/O(H|E) +1 Il risultato che si ottiene è quindi la quasi-certezza. (2) Il secondo modo di usare il test si ha in mancanza di un sospettato: consiste nel confrontare il profilo DNA del campione rilevato con i campioni archiviati in una banca-dati data-base). ( In questo caso, la scoperta di una corrispondenza del profilo DNA rende “sospetta” una persona, Rossi, che prima non era stata messa in relazione con il crimine. Questo secondo modo di usare iltest suscita vari problemi filosofici e statistici. Per capire la difficoltà si osservi che quando il sospettato è identificato esclusivamente nel modo suddetto, le suechances di colpevolezza a priori, cioè prima che iniziasse la ricerca,sono irrisorie, quindi le sue probabilità di innocenza altissime. Per fare un esempio, in un territorio con 10.000.000 di abitanti fisicamente in grado di commettere un certo crimine, la probabilità di colpevolezzaa priori di ciascuno di loro, compreso Rossi, è 1 / 10.000.000 (mentre nell'esempio precedente per il sospettato era fissata a 1/1000). In queste circostanze, a parità di altri dati, dopo il riscontro con il data-base la probabilità a posteriori della colpevolezza di Rossi, lungi dall’essere la “quasi-certezza” come nel caso precedente, è inferiore al 10%. Ora anche se giudici, giurati e accusatori vengono informati da un perito della scarsa probabilità di corrispondenza nella popolazione, tendono ad accettare il valore fornito dal perito senza revisionarlo in base alla probabilitàa priori della colpevolezza. Per esempio, se la probabilità di corrispondenza nella popolazione per un dato profilo è 1/ 1.000.000 (la stessa del caso descritto in 1)) e Rossi corrisponde a quel profilo, ritengono erroneamente che la probabilità che Rossi sia innocente sia di circa 1 su 1.000.000 e quindi che sia colpevole con altissima probabilità, mentre abbiamo visto che la probabilità della sua colpevolezza non supera il 10%. Come si noterà, l’errore che si commette dipende dallo stesso fenomeno che abbiamo evidenziato discutendo le probabilità di essere vittima di un falso positivo: le probabilità apriori dell’ incidenza della malattia influenzano enormemente il calcolo del valore finale. Nei paesi anglofoni si è discusso dettagliatamente sull'utilità del teorema di Bayes applicato a certi problemi di identificazione. Esempio. Un tale, accusato di omicidio, era già noto per vessazioni e violenze nei contronti della vittima. C’ era una sua impronta digitale sull`arma del delitto. L`impronta era incompleta, ma l`esperto assicurò che solo una persona su 1000 aveva quel tipo di impronta. Si valuta abitualmente pari a 0 la probabilità a priori di trovare un’impronta del genere di un soggetto, se questi è innocente. Si assume inoltre che tutti coloro che usano il coltello lasciano un’impronta. I precedenti penali del sospettato portavano la sua probabilità di colpevolezza a un valore pari a 0.25. In base a quanto già detto circa la presunzione di innocenza, la probabilità a priori di colpevolezza si poteva ragionevolmente stabilire come pari a 0.5. Il valore a posteriori della colpevolezza risultava però completamente diverso: 0.999. Ma i dubbi erano in agguato. La conclusione seguiva ineccepilmente dalle premesse, ma queste erano, come spesso accade, tutt’altro che scontate. Per quanto sia quasi incredibile, per esempio, si è effettivamente verificato il caso di un poliziotto che aveva piazzato le impronte di un innocente sullo sportello di una banca: quindi è falso che la probabilità che un innocente lasci un impronta è pari a 0. Di fronte a queste difficoltà nell’applicazione dell’ inferenza bayesiana è stata più volte avanzata la proposta di “rieducare” l’intuizione degli operatori giudiziari insegnando loro ad usare correttamente il teorema di Bayes. Il Prof. L.H.Tribe nel corso delle discussioni su questo tema si disse contrario a questa proposta, ritenendo che il concentrarsi sul raggiungimento delle soglie di certezza “oltre ogni ragionevole dubbio” faccia perdere di vista tutti gli elementi imponderabili che invece sono rilevanti per la conclusione e che potrebbero portare a una conclusione con valore diverso da quello della quasi-certezza. Tribe non mancava di richiamare inoltre l`attenzione sul fatto, più volte sottolineato in precedenza, che la difficoltà di pervenire ad una stima adeguata delle probabilità iniziali rende spesso inapplicabile il teorema di Bayes. Ma a ciò aggiungiamo qui una considerazione peggiorativa. Infatti risulta che anche quando viene applicato correttamente e con assegnazioni iniziali non dovute al capriccio soggettivo, il teorema di Bayes può portare a risultati controintuitivi. Valga per tutti questo esempio, che è centrato sull’attendibilità di una certa evidenza testimoniale. Sia H: C’ è stata ieri una sparatoria alla Bicocca E: un amico mi racconta che c’è stata ieri una sparatoria alla Bicocca. Vogliamo sapere qual è la probabilità che la sparatoria ci sia stata realmente, supponendo che mi sia stata riferita dall’amico. Il valore di Pr (H|E) si può calcolare in due modi, uno statistico e uno bayesiano. Primo metodo: Pr(H|E) = N|narrazioni vere del mio amico| N| narrazioni del mio amico| dove N|…| indica il numero di casi. Si tratta quindi solo di rilevare la percentuale di casi in cui il mio amico ha raccontato il vero rispetto alla totalità casi in cui ha fatto il racconto di qualche avvenimento, vero o falso che sia. Il mio amico è uno abbastanza sincero: sappiamo che per ogni 8 racconti veri ce ne sono 2 falsi o, in altri termini, che 8 su 10 sono veri. Quindi Pr(H|E) = 0,8 Secondo metodo. Stabiliamo i seguenti ragionevoli valori diinput per la formula di Bayes. 1)Pr(H) = 0,01 e Pr(-H) = 0,99 (infatti è poco probabile che un fatto come quello narrato si verifichi, soprattutto alla Bicocca) 2) Pr(E|H)= 0,008 (infatti è molto improbabile che si verifichi un fatto simile e ancora più improbabile che un amico assista al fatto e me lo racconti) 3) P(E/-H) = 0,002. (la probabilità che l'amico mi racconti un fatto simile nel casonon si sia verificato è molto bassa: so che è un tipo abbastanza sincero) Naturalmente Pr(-H) = 1-P(H) = 0,99. Inseriamo ora questi valori nella formula di Bayes nella variante Pr(H|E) = (Pr(E|H)Pr(H)) / (Pr(E|H)P(H)+Pr(E|-H)P(-H)) Pr(H|E) = (0,008 0,01) / (0,0080,01 + 0,002 0,99) = 0,038835 Dunque la probabilità che ieri ci sia stata una sparatoria alla Bicocca dato che un testimone affidabile mi riferisce questo fatto non arriva nemmeno al 4%, semplicemente perchè il fatto aè priori sorprendente. Questo non è intuitivo, perchè non c'è motivo di dubitare del verificarsi di fatti sorprendenti che siano oggetto di testimonianze degne di fede. LEZIONE 5 –Alternative al bayesianesimo giudiziario Il bayesianesimo è diventato l’ortodossia nella letteratura giudiziaria, ma non ha lasciato un segno tangibile nella pratica. Il successo di questo orientamento è dovuto all’affermarsi della convinzione che la conoscenza vada di pari passo con la possibilità di misurare quantitativamente i fenomeni e che le credenze siano assoggettabili a misure quantitative. Una prima difficoltà, come abbiamo visto, è che l’uomo della strada ordinariamente non tende a ragionare nel modo richiesto dal teorema. L’idea, a volte suggerita , di sanare questa discrepanza rieducando l’intuizione del personale interessato, non è di facile attuazione. Dobbiamo sottoporre le giurie a corsi accelerati di calcolo delle probabilità con esercizi? Il teorema di Bayes in effetti offre un modello ideale, cioè normativo di ragionamento, così come lo propone la logica deduttiva formalizzata, e quindi non ha la pretesa di descrivere il modo in cui ordinariamente si ragiona. Ammettiamo pure, comunque, che sia possibile familiarizzare la mente umana, o almeno quella degli addetti ai lavori, con le procedure richieste dal rigore matematico. L’ applicazione delle regole di Bayes ai casi specifici appare comunque problematica. Il problema dell’input per l’applicazione del calcolo, cioè delle assegnazioni a priori, è quello indicato concordemente come la difficoltà maggiore. Torniamo all’esempio posto dalla rappresentazione probabilistica della presunzione di innocenza. Abbiamo già visto che una soluzione plausibile potrebbe essere quella di porre il valore della colpevolezza o innocenza dell’imputato pari a ½. Questo è ragionevole, ma si potrebbe anche risolvere il problema con una convenzione come quella proposta dal celebre antropologo-filosofo David Lempert. Lempert suggerisce che in tutti i casi, civili e penali, la probabilità iniziale dell’ipotesi di colpevolezza H sia stabilita da un quoziente 1/ n , dove n è il numero di possibili colpevoli nel mondo per quel reato. P.es. supponiamo che il numero di possibili colpevoli al mondo per un certo specifico reato sia 1000. Allora la probabilità iniziale a( priori) di colpevolezza non è 0,5 ma 1/1000 (odds 1: 999). Le informazioni successive restringono il numero dei possibili attori. Ecco come partendo da quesa base si potrebbe applicare un meccanismo bayesiano. In primo luogo stabiliamo il valore probatorio V dell’evidenza E che, come si ricorderà, è dato dalla frazione Pr (E|H) / Pr (E| -H). Poi alla luce di successivi elementi di informazione F,G, ecc. avremo Pr (E ∩ F)|H / Pr (E ∩ F)| -H Pr (E ∩ F ∩ G)|H / Pr (E ∩ F ∩ G) | -H ....... Il valore probatorio dell’evidenza quindi si modifica con l’aumento dell’informazione, e consequenzialmente si modifica, applicando il teorema di Bayes, la probabilitàa posteriori di H data l’evidenza disponibile (credibilità). Per esempio, se dopo aver fissato il valore di V acquisiamo l’informazione che il colpevole aveva una macchina rossa, il numero dei possibili colpevoli si restringe da 1000 a un valore più basso, cosicchè il valore di Pr (H) condizionato alla nuova evidenza probatoria varia proporzionalmente. Tutto questo è ragionevole, ma è applicabile solo se H è un’ipotesi di colpevolezza i cui colpevoli costituiscono un dominio finito e misurabile. Se, per esempio, H è l’ipotesi che un certo delitto sia stato compiuto da un animale, questa probabilità a priori non può essere calcolata perché non sappiamo quanti animali avrebbero potuto compierlo. In caso di ignoranza, potremmo fissare questo valore come uguale allo stesso valore che si dà nel caso degli uomini. Ma questo ci porta già a una difficoltà perché sappiamo anche che i delitti compiuti da animali sono molto più rari di quelli compiuti da uomini. Il bilancio della discussione dunque è che nell’assegnazione delle probabilità iniziali non si riescono a definire criteri inoppugnabili nemmeno nei casi in cui sarebbe lecito affidarsi al principio di indifferenza. A prescindere dal problema appena considerato, comunque, abbiamo visto che di fatto il ragionamento probatorio presenta aspetti che non sono facilmente inquadrabili nello schema bayesiano. L’esempio riportato ala fine della precedente lezione mostra che non solo c’è una discrepanza tra il ragionamento bayesiano e quello ordinario, ma che c’è una discrepanza tra i risultati del modo di ragionare bayesiano e quelli raggiunti su base statistica. Le critiche di Cohen e Glymour, già ricordate, fanno pensare che il teorema di Bayes sia insufficiente per un motivo ancora più radicale, e cioè che lo stesso calcolo delle probabilità nell’assiomatizzazione classica (di Kolmogorov) sia alla radice dei problemi. Dunque, allo stesso modo in cui la logica deduttiva ha abbandonato il rigido monismo predicato dai neopositivisti per offrire una pluralità di logiche (modali, polivalenti, fuzzy) in grado di cogliere certi aspetti del ragionamento ordinario, bisogna valutare la possibilità che si diano modelli alternativi di ragionamento più o meno- conformi al modo intuitivo di ragionare. Il problema da discutere è il seguente: ci sono alternative effettivamente praticabili, in campo scientifico e giudiziario, alla teoria matematica classica della probabilità? La risposta può essere data solo in via ipotetica perché il pluralismo logico e matematico affermatosi nella seconda metà del '900 non ha portato all’affermazione di un modello alternativo dominante. E’ doveroso comunque citare almeno le proposte di tre studiosi, Cohen, Shackle e Shafer, che si presentano interessanti perchè hanno parecchi punti in comune. Questa convergenza fa pensare che questa direzione di ricerca meriti il massimo approfondimento. Sulla base delle critiche già prospettate nelle precedenti lezioni, Cohen ha elaborato una logica del sostegno induttivo in cui non valgono i principi della probabilità che lui chiama pascaliana . Cohen non è stato l’unico ad abbandonare la logica classica della probabilità.. Al proposito si rifletta sul “paradosso della lotteria” esposto nella Lezione 1, che suggerisce che l’accettazione di A e l’accettazione di B non implichi l’accettazione di A & B, per A e B qualsiasi non specificati. L`alternativa neobaconiana di Cohen non può essere illustrata qui nei dettagli. Si è già osservato che per Bacone l`inferenza ampliativa non fa leva sull’ induzione per enumerazione semplice (che Bacone trova puerile) ma sulla ricerca di campioni variati. Dato che per Bacone (come per Keynes) esiste solo un numero finito di forme (generi), un controesempio è molto piu` utile alla ricerca che non l’accumulazione di molteplici esempi a favore. Quella che è volte chiamata induzione eliminatoria consiste nel rafforzare un’ ipotesi eliminando tutte le ipotesi alternative. E’ sufficiente ricordare che la presunta legge di natura per cui tutti i cigni sono bianchi venne eliminata quando si scoprì che in Australia esisteva una tribù di cigni neri: l’errore era dovuto al fatto che il campione era numeroso ma non era sufficientemente variato. Questo aspetto del suo pensiero metodologico fa di Bacone (come è stato detto) un Popperianoante litteram, con ciò intendendo che il momento della falsificazione nel suo pensiero ha un ruolo più importante di quello della conferma o delle verifica. L’idea base è che le generalizzazioni raggiunte con i ragionamenti ampliativi hanno dei gradi di certezza diversi, a seconda della solidità del ragionamento con cui vengono raggiunte. John Stuart Mill riprese questa idea con i c.d. “metodi induttivi”, che in realtà non sono metodi per la scoperta delle cause ignote, ma metodi per provare o refutare l’esistenza di relazioni causali ipotizzate. Come Bacone, Mill insisteva sull’importanza della varietà degli esperimenti, mentre altri filosofi precarnapiani come B. Bolzano insistevano sulla numerosità degli stessi. Mill ammetteva che nell’applicazione dei canoni induttivi si dava sempre un certo margine di incertezza, che egli però proponeva di calcolare nei termini della probabilità classica, cioè quella che Cohen chiama pascaliana. Cohen sostiene che c’è una nozione di forza probatoria -il concetto di peso” “ di Keynes - che va aggiunto come correttivo all’apparato pascaliano . Il requisito carnapiano dell’Evidenza Totale, così come il requisito della specificità massimale di Hempel, a suo giudizio sono sacrosanti in linea di principio, ma di fatto inapplicabili. L’idea di Keynes è che bisogna tener conto non solo della differenza tra conferme positive e negative per un’ ipotesi H (e ciò dà la misura della probabilità di H), ma anche del volume complessivo dell’evidenza positiva o negativa, che lui chiamapeso dell’evidenza. Per fare un esempio, l’aver estratto 20 biglie rosse e 80 verdi, quindi in totale 100 biglie, consente di dire che la probabilità di estrarre una biglia rossa è di ¼. La stessa conclusione si deriva estraendo 200 biglie rosse e 800 verdi, ma il peso complessivo di questa somma di evidenze favorevoli e contrarie è ovviamente superiore. Secondo Keynes il “peso” non è quantificabile, anche se niente impedisce di definire un ordinamento comparativo di pesi. Peso e probabilità quindi sono concetti relativamente indipendenti. Secondo Cohen uno dei limiti dell’approccio bayesiano è la mancata attenzione alla esaustività delle conferme. Applicando il teorema di Bayes si può arrivare a un valore molto alto, o molto basso, di probabilità anche dopo aver considerato solo una o poche conferme: ma l’aver considerato poche conferme implica che molte altre ne possono esistere, magari al momento irreperibili, in grado di ribaltare il giudizio (si veda nelle pagine precedenti la critica del Prof. Tribe al metodo bayesiano). Se allo stesso giudizio invece si arriva dopo aver esaminato molte e variate conferme, per quanto non sia mai possibile ritenere che l’analisi sia esaustiva, il giudizio è meno esposto al rischio di oscillazione, e quindi più solido. Per sviluppare la sua analisi Cohen deve però rinunciare al concetto classico, da lui detto “pascaliano”, di probabilità, ed introdurre il concetto di probabilità “baconiana”. Il metodo baconiano è basato, come già detto, sull’ induzione eliminatoria: un asserto è considerato tanto più probabile quante più ipotesi alternative ad esso sono state considerate e poi eliminate per falsificazione. Come vedremo, questo tra l’altro è il tipico schema di procedimento verso la migliore spiegazione, che abbiamo già chiamato abduttivo. Se non abbiamo considerato e falsificato nessuna ipotesi alternativa, la probabilità baconiana è minima (0): ciò implica, per esempio, che per la presunzione di innocenza la probabilità di colpevolezza è inizialmente posta uguale a 0. Ma, a differenza che nel sistema pascaliano, tale probabilità può crescere con l’accumularsi delle conferme, che derivano dall’ eliminazione delle ipotesi alternative. In tal modo, tenendo conto dell’ammontare di evidenza favorevole, Cohen intende tener conto della nozione keynesiana di “peso”. Il concetto chiave in questa operazione è quello dilegisimilitudine, con ciò intendendo l’approssimazione allo status di necessità che è proprio delle leggi. Secondo Cohen il peso keynesiano di E in Pr(H|E), se Pr(H|E)= n, dovrebbe risultare uguale alla legisimilitudine baconiana di E --> (Pr(H)=n), dove la freccia sta per la relazione implicativa. Nella logica neo-baconiana di Cohen vengono meno molti principi pascaliani, tra cui il principio delle probabilità composte, che viene sostituito con una sua variante in cui la probabilità di una congiunzione è maggiore o uguale a quello del congiunto più improbabile (v. Appendice). Glenn Shafer (A Mathematical Theory of Evidence, 1976) si pone pure sulla stessa linea antipascaliana chiedendo la rinuncia al principio delle probabilità totali, da cui segue, come sappiamo, che Pr(-A)= 1-Pr(A). Il suo sistema cerca di catturare l’idea di “sospensione del giudizio”. Se abbiamo pochi elementi per ritenere vera l’ipotesi H, possiamo attribuire ad H una probabilità bassa, ad esempio 0.1: ma nel sistema di Shafer questo non significa attribuire probabilità 0,9 a -H. Anche a -H possiamo attribuire probabilità bassa, ad esempio sempre 0,1, in quanto possiamo avere tanto pochi elementi per ritenere che -H sia vera quanto pochi ne avevamo per ritenere che H fosse vera. La restante probabilità, 0,8 nel nostro esempio, quantifica la propensione a non impegnarsi né su H né su -H, permanendo nel dubbio sulla stessa disgiunzione “H o non H”. La legge del terzo escluso sembra quindi messa in discussione in chiave probabilistica. Le anomalie che l'accompagnano si possono ricostruire anche senza invocare la sospensione di giudizio, che chiama in causa un atteggiamento psicologico del soggetto. Se H è un’alternativa con bassa probabilità, ciò che risulta con alta probabilità potrebbe essere non la la negazione di H, cioè non-H, ma una terza alternativa sconosciuta H’ che appare , allo stato dei fatti, l’unica alternativa ad H. E’ questo quanto accadde nel famoso delitto della penna a sfera, in cui le uniche due alternative ragionevoli sembravano avere bassa probabilità a priori. Ma queste non esaurivano la campo logico delle alternative possibili. Si poteva ritenere che ci fosse quindi un terzo evento sconosciuto B tale che Pr(H1 ∩ H2 ∩ B)=1. Le informazioni acquisite in seguito poi furono tali da falsificare H1 e avvalorare H2, abbassando significativamente il valore del terzo incognito B. Dal punto di vista tecnico la costruzione neobaconiana di Cohen si può considerare omologa di una teoria molto originale introdotta dell’economista R.S. Shackle. Shackle ha introdotto un sistema di misura dei “gradi di sorpresa potenziale” o “gradi didisbelief” (cioè di “incredulità” o “sfiducia”) . Dice Shackle: il grado di sorpresa potenziale “is the degree of surprise to which we expose ourselves, when we examine an imagined happening as to its possibility, in general or in the prevailing circumstances, and assess the obstacles, tensions and difficulties which arise in our minds when we try to imagine it occurring, that provides the indicator of degree of possibility. This is the surprise we should feel, if the given thing did happen; it is potential surprise”. (Shackle, 1961, p. 68) Per capire la differenza tra questa nozione e quella di grado di credenza o grado di probabilità, basta notare che, se B è il grado di sorpresa, tale grado non si distribuisce uniformemente su una congiunzione di ipotesi. Il grado di sfiducia (sorpresa), per esempio, nel fatto che domani piovae che domani un cinese passeggi sulla luna, intuitivamente è pari o superiore al grado di sfiducia (sorpresa) che un cinese domani cammini sulla luna, Se il grado di sopresa fosse identico al grado di probabilità, il principio delle probabilità composte ci obbligherebbe a dire che il grado di sopresa delle congiunzione è uguale o minore al grado di sorpresa dei singoli asserti. Shafer ha avuto il merito di operare la formalizzazione delle idee esposte informalmente da Shackle, che poi ha applicato anche a sistemi esperti. La logica di Shafer viene chiamata “teoria della possibilità”(v.Appendice a questo capitolo). C’è un aspetto interessante della concezione di Shackle – Shafer, non analizzato da Cohen . Secondo Shackle credere (to believe) in h ad un certo grado significa avere sfiducia (disbelief) in ¬h allo stesso grado. Sia dK(h) il grado di sorpresa potenziale dih rispetto a K. IntuitivamentedK(h) indica il grado di sfiducia o di non- credenza o di informatività di h rispetto a K. Il grado di credenza, rappresentato dall’operatore di credenza(belief) b è il grado di d (disbelief) nel complemento di h: bK(h) = dK (¬h) Il grado di sorpresa si può considerare un’ interessante misura dell’informatività di un enunciato. Va detto che Popper ha svolto, con obiettivi e metodi inquadrabili nella sua teoria, un programma che ha certe analogie con quello di Shackle-Cohen. Come si sa, secondo Popper le teorie interessanti sono quelle falsificabili. Il numero di falsificatori potenziali dih è per lui il contenuto informativo dell’ipotesi stessa h. La probabilità e il contenuto informativo sono grandezze inversamente proporzionali: nella proposta più semplice, sottoscritta da Popper, cont(h) = 1- Pr(h). In questa prospettiva tautologie pertanto hanno contenuto informativo nullo, mentre le contraddizioni sono massimamente informative, dato che implicano tutto. Se c’è un numero di ipotesi esaustive e digiunte h1…hn, il metodo popperiano ci impone di scegliere la più informativa (cioè la più improbabile) e tentare di falsificarla. Popper ha proposto delle misure (non numeriche) dicorroborazione, che non è la conferma probabilistica ma è il grado di resistenza dell’ipotesi alla falsificazione mediante test severi. Entrando in gioco la nozione di “severità” o “rigore dei test” non è possibile dare dei valori numerici ai gradi corroborazione, anche se è possibile stabilire dei confronti . Altri autori come Levi e Hintikka invece chiedono un obiettivo leggermente diverso, che è la massimizzazione dell’utilità epistemica, che dipende dal prodotto della probabilità per il contenuto informativo. La analogia tra il concetto di speranza matematica (utilità attesa) e quello di utilità epistemica dovrebbe essere ovvia. La grandezza così definita risulta avere proprietà intermedie tra quelle della probabilità e dell’improbabilità e la logica di questa nozione presenta forti affinità con quella di Shackle . APPENDICE . La teoria della possibilità è stata introdotta da Lofti Zadeh come integrazione della c.d.fuzzy logic, ideata dallo stesso Zadeh (1958). Per semplicità si assuma che l’universo del discorso W sia un insieme finito e che tutti i suoi sottoinsiemi siano misurabili. Un evento si può trattare come un insieme –cioè l’insieme dei punti dello spazio-tempo in cui si verifica l’evento stesso. Una distribuzione di possibilità è una funzionepos da W all’intervallo reale [0, 1] tale che: Axiom 1: pos(∅)=0 Axiom 2: pos (W)=1 Axiom 3: pos(U ∪ V) = max (pos(U), pos(V)) per sottoinsiemi disgiuntiU e V. Si noti la differenza tra l’assioma 3 e il principio delle probabilità totali nella teoria della probabilità. Supponiamo che U sia, in un gioco di carte l’evento “estrazione di una regina”e V “estrazione di un re di picche”. I due eventi sono disgiunti, la probabilità di U è 1/13 , quella di V è 1/52, quindi la probabilità di estrarre uno o l’altro dei due è 5/52. Ma per la teoria di della possibilità, il grado di possibilità è fissato a 1/13, cioè dal grado di possibilità più alto tra i due eventi. La possibilità si dice dunque composizionale rispetto all’operatore di unione insiemistica. Ma non è tale rispetto all’operatore di intersezione. In generale, infatti, Nec (U ∩ V ) < min(nec (U), nec(V)) Come nella cosiddetta logica modale, la necessità è il duale della possibilità. Esempio: “È necessario che 2+2+=4 sia vero” è lo stesso di ”È impossibile che 2+2 =4 sia falso”. Rappresentiamo in simboli il grado di necessità così: nec(U) = 1 – pos(-U) Contrariamente alla teoria della probabilità, per ogni evento U, abbiamo la diseguaglianza: pos(U) + pos(-U) >1 Vale inoltre la seguente disgiunzione. Per qualsiasi evento U, o pos(U)=1 , o nec(U) =0 Ci sono 4 casi: nec(U) =1 significa cheU è necessaria, cioè certamente vera. Essa implica pos(U)=1 pos(U)=0 significa che U is impossibile, cioè certamente falsa. Ciò implica nec(U) =0 pos(U)=1 significa che U è possibile, cioè che non sarei affatto sorpreso dell’occorrenza di U- . nec(U) viene lasciato impregiudicato nec(U) =0 significa che U è non-necessario (contingente) cioè che non sarei affatto sorpreso del mancato verificarsi di U . pos(U) viene lasciato impregiudicato. La congiunzione di nec(U) =0 e pos(U)=1 corrisponde alla contingenza in senso proprio ("possibile che " e "possibile che non"), col significato che U mi è indfferente, cioè che io non credo niente circa U. Stante che consente l’indeterminatezza in questo modo, la teoria della possibilità è più vicina alla logica polivalente o alla logica intuizionista piuttosto che alla logica classica bivalente. Si può dimostrare in questo sistema: per ogni U, nec(U) < pos(U) e anche : nec(U ∩ V) = min (nec(U), nec(V) Recentemente il successo teoretico e applicativo della cosiddettafuzzy logic suggerisce di ricercare in quest’area strumenti utili al ragionamento probatorio. Per cominciare è bene sottolineare, comunque, le differenze tra la teoria della possibilità e lafuzzy logic. Teoria della possibilità: La bottiglia è sempre tutta piena o tutta vuota. “La possibilità che la bottiglia sia piena è 0.5” descrive un certo grado di credenza e si lascia interpretare così: sono pronto a scommettere che è vuota nella misura in cui le ragioni di scommessa pro e contro(odds) sono uguali (scommetto 1 contro 1), ma non scommetterei mai che è piena. Fuzzy logic: Dire che “la bottiglia è piena” ha un livello di verità 0.5 indica che la bottiglia è, come dato reale, mezza piena!! La parola “piena” è un predicato sfumato con cui si descrive la quantità di liquido nella bottiglia. La fuzzy logic si appoggia su una fuzzy set theory , cioè a una teoria degli insiemi sfumati, il che fa pensare che da queste premesse si ottenga solo unfuzzy reasoning, quindi una classe di argomenti che non possiede canoni di validità precisi. Questo sembra molto lontano di quanto ci si attende nelle corti di giustizia. Si noti che della teoria della possibilità si può dare una trascrizione proposizionale in questo modo: <>i(p &q) invece di Pos (P& Q) =i <>i(p v q) invece di Pos (P v Q) =i []i ( p &q) invece di Nec(P&Q) =i [] i(p v q) invece di Nec (P v Q ) =i Questa notazione è usata da Cohen in “The probable and the Provable” e in altri saggi. I gradi di necessità vanno letti nella sua teoria in questo modo:[]ip si legge “p ha almeno un grado i-esimo di legisimilitudine”. In questa logica <>i p e <>jq implica «<>i(p & q) quando i < j” : questo è un principio non-pascaliano, e risolve secondo Cohen le difficoltà della trattazione pascaliana della congiunzione, cioè del problema delle probabilità composte, a cui abbiamo accennato a suo tempo. LEZIONE 6. Fallacie statistiche. Le considerazioni sviluppate nei paragrafi precedenti non devono indurre a minimizzare l’importanza del ragionamento probabilistico nelle procedure giudiziare. Negli ultimi anni, infatti, proprio nei tribunali c’è stato un uso crescente delle prove statistiche. Tests come quelli del DNA, per tacere di quelli già noti delle impronte digitali, dell’ identificazione di appartenenza di tessuti organici ecc. sono soggetti ad argomentazioni di tipo statistico. I bayesiani dicono che siamo sempre in grado di calcolare la probabilità della conclusione una volta date le premesse. Riflettiamo però su quanto segue. Quando si esemplifica l’applicazione del teorema di Bayes per calcolare la probabilità di un’ipotesi H rispetto a un’evidenza E, di solito si tende a pensare ad H come un enunciato di tipo fattuale (p.es. “l’imputato ha commesso il fatto”) oppure a un enunciato quantificato di forma universale o esistenziale (“tutti gli elementi della banda hanno commesso il fatto” o “qualche elemento della banda ha commesso il fatto”). Ma che dire quando H è un enunciato di forma statistica (“il 70% dei cigni sono bianchi”) o descrive una relazione causale tra fatti specifici(“i vapori nocivi hanno causato il decesso del Sig. Rossi”) ? In tal caso il teorema di Bayes dovrebbe consentire di calcolare con metodi probabilistici il valore a posteriori di Pr(H) dove H però è a sua volta un enunciato statistico o (nel caso causale) è un asserto che, anche se non ha esplicitamente forma statistica, in qualche misura dipende da leggi di forma statistica. Sembra dunque di essere di fronte alla necessità di calcolare una probabilità di secondo grado, per la quale non disponiamo di regole o principi adeguati nell’ambito del calcolo classico della probabilità. C'è quindi una difficoltà nel raggiungere con metodi bayesiani una valore statistico corretto. La disponibilità di correlazioni statistiche corrette è in ogni caso una fonte di problemi etici e giuridici non indifferenti. L'importanza di questo tema non può essere sopravvalutata sia dal punto di vista sociale che da quello giuridico. Per fare un solo esempio, si discute molto sul ruolo che possono averer i media nell'influenzare i comportamenti del pubblico. Questo problema è molto più vecchio di quanto si possa pensare.Il sociologo David Phillips parla di “effetto Werther” con riferimento a “I Dolori del Giovane Werther” di Goethe, in cui si narra il suicidio del giovane protagonista in seguito ad una delusione amorosa. Questo romanzo ebbe un grande successo e la sua divulgazione fu seguita da un incredibile numero di suicidi in tutta l’Europa. La correlazione statistica registrata allora (in un'epoca in cui le statistiche non erano analizzate con metodi quantitativi sofisticati di oggigiorno) risultò talmente evidente che alcuni Paesi proibirono la diffusione del testo. Un effetto analogo lo si osservò in Italia dopo la pubblicazione -nel 1802 - del romanzo diUgo Foscolo “Le Ultime Lettere di Jacopo Ortis”. Qualcosa di analogo si è verificato negli ultimi anni con il diffondersi, molto più preoccupante, degli omicidi-suicidi, in cui spesso vittima dell'omicidio è una donna (femminicidio). Questo crea il problema di appurare le eventuali responsabilità morali e penali di direttori di giornali sensazionalistici che danno ampio spazio a questo tipo di delitto sapendo che la pubblicazione sarà seguita, per ragioni semplicemente statistiche, da un certo numero di episodi imitativi. Si noti che tale responsabilità sussiste anche a prescindere dal fatto che la correlazione in oggetto venga qualificata come una correlazione causale compiendo a un passaggio che, come vedremo, è altamente problematico. L'esempio precedente fa riferimento alla disponibilità di correlazioni statistiche corrette. Ma la difficoltà maggiore è offerta dal fatto che nessun campo offre una maggiore possibilità di errore, e quindi di manipolazione, di quello statistico. Basta dare una scorsa a due libri apparsi in epoche diverse ma con titoli analoghi: “Mentire con le statistiche” di Darrell Huff e „Wie man lügt mit Statistik“ [Come si mente con la statistica] di Walter Krämer ( Piper, München-Zürich, 2000). I due libri sembrano ispirarsi a una famosa battuta di Mark Twain attribuita anche a Disraeli: “Esistono tre tipi di bugie: le bugie, le maledette bugie e le statistiche”. Questo tra l’altro prova l’interesse giudiziario dell’argomento, in quanto l’inganno operato con le statistiche risulta un tipo particolare di frode estremamente insidiosa, che si può smascherare solo con argomenti di tipo metodologico. In questi casi, infatti, ciò il giudice per sanzionare la frode mira a stabilire non è evento più o meno certo ma una coppia di fatti distinti: (i) il fatto che un dato ragionamento è scorretto (ii) il fatto che il vizio di ragionamento è risultato di un’ azione intenzionale e non di un errore involontario di ragionamento. Tutti sanno che i sondaggi di opinione hanno un ruolo importante nelle campagne elettorali non tanto per tastare il polso agli elettori ma per influenzare l’elettorato stesso. La causa dell’inganno è abbastanza chiara: ai questionari e ai sondaggi risponde solo chi vuole, con il che si deroga al requisito della randomizzazione del campione. Anche il sondaggio telefonico - che appare più coercitivo e quindi in apparenza più attendibile - ha creato clamorosi errrori previsionali, e ciò indipendentemente dal fatto che il metodo del sondaggio telefonico esclude chi non possiede un telefono, il che in un paese molto arretrato vorrebbe dire escludere una parte rilevante della popolazione. Ricordiamo anche che gliexit polls, i quali nelle intenzioni avrebbero dovuto anticipare con proiezioni adeguate i risultati elettorali, hanno prodotto risultati inattendibili, al punto che sono stati aboliti nelle ultime tornate elettorali. Altri errori derivano dalla vaghezza dei concetti impiegati nei confronti statistici. Per esempio, il concetto di disoccupazione è diverso da paese a paese, per cui le statistiche sulla disoccupazione fatte in Germania danno risultati diversi da quelli italiani senza che ciò implichi una significativa differenza nella realtà dell’occupazione. Idem per le nozioni di ricchezza e povertà, per le quali si stabiliscono soglie diverse da paese a paese. La soglia della povertà in Italia è stata fissata convenzionalmente (anno 2010) in un reddito che consenta una spesa mensile pari a 582,20 euro per unsingle, 970,34 euro per una famiglia di due persone e 1581,65 euro per una famiglia di quattro persone. Nel 2010 in Italia risultavano al di sotto di tale soglia 6 milioni di persone, che è sicuramente un dato preoccupante. Nonostante questo, una capacità di spesa di 582 euro verrebbe considerata più che ragguardevole nella maggior parte dei paesi africani, asiatici e in alcuni paesi del centro America. Non vale neppure la pena di parlare delle inchieste sulla vita privata o sessuale della popolazione. In questi sondaggi non solo risponde solo chi vuole, ma risponde anche chi è in cerca di qualche occasione per vantarsi delle proprie performances, per sfogare le proprie frustrazioni con la mitomania, o semplicemente per il piacere di beffare l’intervistatore. Per citare un altro tipo di distorsione, basti al proposito ricordare l'esempio del famoso rapporto Kinsey sul comportamento sessuale degli americani che, com' è noto, fece scalpore dando un'immagine dei comportamenti sessuali americani piuttosto diversa da quella immaginata dai benpensanti. Al proposito vennero fatte osservare due cose : (1) che, non essendo obbligatorio per gli intervistati rispondere al sondaggio, il fatto stesso di scegliere di rispondere piuttosto che di non rispondere potrebbe essere spia di qualche atteggiamento verso la sessualità che non è quello della media dei soggetti (2) per semplificare il lavoro, i Kinsey avevano incluso nella classe dei soggetti intervistati un numero piuttosto elevato di carcerati, i cui comportamenti sessuali sono di solito più trasgressivi di quelli praticati dalla media della popolazione. Questi due fattori evidentemente non permettono di dire che in questa indagine veniva soddisfatto il requisito dell’ omogeneità del campione, che si cerca di raggiungere di solito o con la randomizzazione o con una scelta oculata degli elementi tale da non sbilanciare il campione a favore di qualche componente. Lo stesso discorso vale per qualsiasi tema su cui gli intervistati hanno qualche motivo di vergognarsi delle inclinazioni che sono chiamati a manifestare. Quando, per esempio, si fanno dei sondaggi per stabilire la proporzione tra quanti amano la musica classica piuttosto che il rock, la risposta risulta lusinghiera per la musica classica, ma è purtroppo incompatibile con quanto risulta dal consumo di dischi e di partiture di rock rapportato al consumo di dischi e partiture di musica classica. Incidentalmente, questi sondaggi non tengono conto dal fatto che c’è una quota consistente di persone che detestano la musica in qualsiasi forma, anche se tali soggetti nei sondaggi tendono mascherare la loro antimusicalità dichiarandosi appassionati di musica classica. Altri inganni statistici sono dovuti al disinvolto impiego del concetto di valor medio e di costruzioni teoriche come “l’italiano medio”, l”’operaio medio” ecc. Non parliamo del fatto che il lessico ormai di comune impiego nei giornali ha reso di uso corrente frasi inappropriate come “ogni italiana ha in media 1,5 figli”, suggerendo l’idea che oltre al primo figlio si possa avere anche mezzo figlio. In effetti la parola “media” ha diversi significati. Si dice spesso, per esempio, che Milano è la più ricca città d’Italia. Cosa vuol dire? Chiaramente non si intende dire che tutti i milanesi sono più ricchi degli altri abitanti delle città d’Italia. Si intende dire, a quanto pare, che il reddito medio pro capite dei milanesi è superiore a quello medio delle altre città italiane. Ma il concetto di reddito medio deve essere chiarito. Un conto è dire che la media aritmetica è x, altro che la mediana è x. La differenza è percepita dagli statistici professionali ma non dal grande pubblico. Per restare nell’esempio, la ricchezza media dei milanesi si ottiene sommando i redditi di tutte le famiglie di Milano e dividendo per il numero di queste. La mediana invece è il valore di una grandezza x che separa una metà della popolazione dall’altra metà; nella fattispecie dell’esempio, è il valore di reddito x del quale si può dire che il 50% delle famiglie si trova al di sotto di x, mentre il restante 50% si trova al di sopra di x. Media e mediana non coincidono affatto. Basti pensare che ci sono paesi del terzo mondo in cui il 10% della popolazione è ricchissima: questo porta in alto il valore medio del reddito, anche se il 90% della popolazione è in alcuni casi drammaticamente povera. Succede dunque che c’è un 50% della popolazione che ha un reddito bassissimo, il che significa che la mediana si colloca molto al di sotto della media. Nel caso delle cosiddette distribuzioni normali, rappresentate dalle famose curve a campana (per esempio la distribuzione dei ritardi del lotto) media e mediana spesso coincidono, ma questo non accade nelle statistiche dei fenomeni non casuali. Aggiungiamo che nelle misurazioni di grandezze (anche fisiche come i tavoli) si riscontra sempre un certo margine di errore possibile, anzi probabile. Se si fissa a 100, per esempio, il QI medio e risulta che nostro figlio ha un punteggio di 99, si dovrebbe concludere che la sua intelligenza è al di sotto della media; ma dato che è probabile che ci sia un errore nel rilevamento, la cosa più probabile è che abbia un valore diverso da 99. Il modo in cui si usano le statistiche per influenzare in modo più o meno fraudolento le vendite dei prodotti è ben noto ed è stato analizzato a lungo anche dagli psicologi. È certo più grave il fatto che le statistiche si usano anche con finalità politiche ed economiche importanti. Esempio. La percentuale di morti tra i soldati durante la guerra ispano-americana fu del 9 per mille. Nello stesso periodo i civili a new York ebbero un tasso di mortalità del 16 per mille. Il dato venne usato dai militari per sostenere che arruolarsi in marina rendeva quanto mai sicuri anche in tempo di guerra. Ma il confronto non aveva senso. I giovani marinai dovevano essere confrontati con i giovani della stessa fascia di età non militanti nella marina, non certo con una popolazione che comprendeva vecchi e malati. Ma veniamo al sofisma statistico più comune e più insidioso, che consiste nello scambiare correlazioni statistiche con correlazioni causali. Se ne parla come di “fallacia della correlazione” o “fallacia causale”. Inutile dire che stabilita una correlazione causale, è facile fare un ulteriore salto alle attribuzioni di responabilità morale e penale. (Per tornare ai suicidi, è capitato di leggere affermazioni comela dichiarazione dell'On. Di Pietro :“Monti ha sulla coscienza i suicidi di chi non ce la fa ad arrivare a fine mese” ). Per una comprensione del problema si dovrebbe disporre di una definizione precisa del concetto di causa, su cui torneremo in seguito. Ma questo concetto ha un nocciolo abbastanza intuitivo da rendere comprensibile la fallacia. Si osservi al proposito che nel suo scetticismo circa le cause Hume aveva ridotto le relazioni causali a relazioni tra fenomeni costantemente congiunti nell’esperienza. Il collante che unisce cause ed effetti secondo Hume non sta nel mondo esterno ma solo nella capacità associativa della mente. È singolare però che Hume non si rendesse conto che in base a questa teoria dovremmo classificare come causali relazioni che chiaramente non sono tali. Per esempio, è chiaro che si dà una correlazione statistica e anche associativa (nel senso psicologico) tra il cantare del gallo e il sorgere del sole, ma chiunque può convenire sul fatto che questo nesso non è causale. Per fare un esempio più moderno, si pensi che il barometro è stato costruito in modo tale da segnalare anticipatamente il verificarsi dei temporali. Possiamo assumere senza problemi che ci sia una comprovata correlazione statistica tra i due tipi di fenomeni. Ma, chiaramente, l’abbassamento del barometro non ha mai causato nessuna tempesta: diciamo infatti che non è una causa ma unindizio del futuro temporale. Come già detto, la parola “indizio” è usata con significati leggermente diversi in vari contesti ma il suo senso è chiaro: A è indizio di B quando la conoscenza di A aumenta la probabilità che B sia vero. Un indizio di colpevolezza non è una prova di colpevolezza, così come un’ alta pressione sanguigna è un indizio di un possibile futuro incidente cardiovascolare ma non ne è la prova e non è detto che ne sia la causa. Nel gergo della medicina si usa al proposito il termine “sintomo” e anche “fattore di rischio”, da non confondersi con la causa. L’elenco di correlazioni statistiche spacciate in buona fede o mala fede per correlazioni causali è impressionante. Dal fatto che i figli del Sol Levante mangiano pesce crudo e sono particolarmente longevi si è voluto trarre la convinzione che l’ingerire pesce crudo allunghi la vita; quando a parità di ragionamento si potrebbe anche concludere, considerando che il tumore allo stomaco è molto più diffuso in Giappone che in Occidente, che l’ingerire pesce crudo accorcia la vita in quanto è causa di questa gravissima malattia. A prescindere da questo, le statistiche rilevano che il consumo di carne è aumentato in Giappone progressivamente negli ultimi decenni, a scapito del consumo di pesce, parallelamente a un progressivo aumento della vita media; per cui si potrebbe anche concludere, a parità di ragionamento, che il consumo di pesce riduce la longevità anziché aumentarla. Un esempio degno di nota, sempre nel campo alimentare, è quello recentemente studiato da una rivista inglese di medicina: è provato che c'è una correlazione statistica tra consumo di cioccolato in una nazione e numero di premi Nobel vinti da quella nazione, fatto da cui i produttori di cioccolato hanno riportato la convinzione che il cioccolato sviluppa l'intelligenzia o addirittura la genialità. La diffusione di errori analoghi nella filosofia politica ha avuto conseguenze di enorme portata psicologica e pratica. L’osservazione secondo cui la presenza di diseguaglianze sociali è sempre stata concomitante alla presenza della proprietà privata dei mezzi di produzione ha condotto Marx a elaborare una teoria per cui il primo fenomeno fosse causato dal secondo, traendo poi la conclusione che l’eliminazione del secondo avrebbe condotto infallibilmente all’eliminazione del primo. In base a un ragionamento analogo, alcuni gruppi anarchici dell’800 rilevavano che le ingiustizie sociali erano riscontrabili in tutte le società in cui era presente l’istituto della famiglia, fatto da cui traevano la conclusione che l’abolizione della famiglia (ritenuta causa dei mali sociali) avrebbe portato automaticamente all’eliminazione delle ingiustizie. L’illusione causale è creata normalmente dall’esistenza da quella che gli epistemologi chiamano biforcazione causale: nel caso dell’ esempio del barometro c’è una causa comune D (una depressione atmosferica anteriore) che produce tanto B (l’abbassamento del barometro) che T (la tempesta). Nella grande maggioranza dei casi il rilevamento di una biforcazione causale consente di spiegare correlazioni statistiche anche bizzarre evitando di trarre conclusioni causali ingiustificate. Per esempio una vecchia indagine compiuta negli USA sulla popolazione femminile riscontrò una correlazione statistica significativa tra cancro polmonare e il portare calze di seta. Ipotizzare un rapporto causale tra le calze di seta e il cancro polmonare, in una direzione o nell'altra, appariva poco sensato. Ma la correlazione si spiegava molto bene osservando che tanto il portare calze di seta quando il fumare sigarette erano comportamenti delle signore della classe medio – alta,e che era nota una correlazione statistica tra fumo di sigarette e cancro polmonare. La confusione tra correlazione statistica e correlazione causale è fonte di veri e propri paradossi, il più citato tra i quali è il c.d. “paradosso di Simpson”. Può accadere che A sia correlato con B, ma simultaneamente anche con C, che però normalmente inibisce B, Si sa, per esempio, che la gravidanza aumenta il rischio di trombosi. La pillola anticoncezionale aumenta pure il rischio di trombosi, ma diminuisce la probabilità di una gravidanza , quindi dovrebbe diminuire il rischio di trombosi. Da una stessa premessa dovrebbe quindi trarre sia una conclusione che la conclusione opposta. Si noti che nelle correlazioni statistiche può essere difficile o inutile cercare un ordinamento temporale degli eventi. Di fatto, come sappiamo, ciò che viene correlato nelle analisi non è mai un evento specifico (eventtoken) ma un tipo di evento o evento generico (p.es. quantità di sigarette consumate, incidenza di una malattia ecc.) e non ha senso attribuire un indice temporale a un tipo di evento. Tecnicamente, peraltro, le correlazioni statistiche intercorrono tra variabili, per cui la ricerca della causa comune della variabile x e y si risolve di fatto nella ricerca di una terza variabile z il cui variare è associato alla covariazione tra x e y. In molti casi di correlazioni statistica accettata oltre ogni ragionevole dubbio non si riscontra nessuna terza variabile rappresentabile come causa comune. Ma questo non significa che si sia autorizzati a concludere che l’antecedente statistico è anche un antecedente causale. Si Danno infatti diverse possibilità: a) La covariazione rilevata è prodotta da una coincidenza. Con campioni molto piccoli questo è senz’altro possibile, anzi abbastanza comune. b) La covariazione tra x e y è in effetti causale, ma non è chiaro quale sia la direzione causale, cioè quale sia la causa e quale l’effetto. Per esempio c’è una correlazione tra ricchezza e possesso di titoli obbligazionari, e si può sostenere sia che la prima è causa della seconda sia che vale il converso. Se si crede che abbia senso parlare di interazione causale, si possono anche sostenere ambedue le cose,e cioè che c’è un’interdipendenza causale tra i due tipi di fenomeni. c) La covarazione non è causale in nessuna delle due direzioni. Risulta per esempio una correlazione tra longevità e status matrimoniale, ma è falso sia dire che la longevità è causa di matrimoni sia dire che il matrimonio allunga la vita (ipotesi falsificata guardando alla longevità di sacerdoti cattolici o buddisti, sottomessi a regole che vietano il matrimonio). In questi casi può accadere che si scopra con il progresso della ricerca una terza variabile che appare “nascosta” in fasi precedenti dell’indagine. Quando è applicata a macrofenomeni, la fallacia causale può portare a errori di valutazione che possono avere enormi conseguenze. Basta citare che la correlazione osservata tra sottosviluppo e sovrapopolazione in molti paesi ha diffuso per anni la convinzione che un’alta pressione demografica fosse il principale ostacolo allo sviluppo economico. Questa presunta causazione negli ultimi anni è risultata smentita dal fatto che i paesi più densamente popolati del mondo, Cina e India, hanno da qualche anno (siamo nel 2012) il tasso più alto di crescita del Prodotto Interno Lordo pro capite. Purtroppo sembra che la mente umana abbia una tendenza invincibile a trasformare le correlazioni statistiche in correlazioni causali, dando ragione, almeno sul piano psicologico, alla tesi sostenuta da Hume. Questa inclinazione è all’origine di ciò che comunemente si chiama superstizione. Gli esempi sono innumerevoli. Tra i più curiosi si può citare il fatto che nella popolazione delle Nuove Ebridi era diffusa la convinzione che i pidocchi facevano bene alla salute. Il motivo di questa singolare pregiudizio venne scoperto facilmente. Quasi tutti in quelle isole avevano i pidocchi. Ma nel momento in cui a qualcuno saliva la febbre per qualche tipo di patologia, i pidocchi abbandonavano rapidamente il corpo divenuto troppo caldo e inospitale. Ciò che di vero si può dire di fronte a questo fenomeno, dunque, è semmai che la malattia è causa dell’assenza di pidocchi, ma non che i pidocchi sono causa di buona salute. Usando una simbologia in cuiV sta per una qualsivoglia relazione causale, “non-SV non-P” è diverso da “P V S”. Vediamo dunque che la relazione causale non gode della proprietà che i logici chiamano contrappositiva. Le correlazioni causali spurie sono purtroppo non solo errate ma perniciose quando vengono usate spregiudicatamente nell’ambito della medicina. Da una statistica di qualche anno fa risultava, per esempio, che esiste una correlazione negativa tra check up e longevità, che suggerisce la conclusione che ilcheck up accorcia l’esistenza. Ammesso che la statistica sia stata condotta correttamente, il presunto motivo della correlazione è presumibilmente che chi decide di sottoporsi acheck up di solito non scoppia di salute, mentre chi non intende sottoporsi acheck up è in condizioni di salute molto buone, per cui è più probabile che rientri nella classe dei longevi piuttosto che dei non-longevi. Molte statistiche sul cancro o sulle malattie cardiovascolari sono spesso viziate dall’omissione di un’ informazione importante: che con il progredire dell’età, qualunque siano le condizioni date, aumenta la probabilità di ammalarsi di malattie di questi due tipi. Ne consegue che tutto ciò che può essere casualmente rilevante per allungare la vita, quindi sostanzialmente salutare, risulta statisticamente correlato con una maggiore incidenza di cancro o malattie cardiovascolari. Viceversa, tutto ciò che ha una significativa probabilità di ridurre la speranza di vita (p.es. sport pericolosi, malnutrizione ecc.) abbasserà anche la probabilità di incorrere in queste patologie. In particolare, ci si può attendere che in popolazioni con bassa speranza di vita queste malattie risulteranno meno frequenti o addirittura assenti. Questo tipo di errore è comune in quella disciplina dal dubbio carattere scientifico, che dilaga su giornali e riviste più o meno specializzate con il nome di dietologia. Intorno al nutrizionismo e alla dietologia gravitano interessi enormi, che spaziano dal campo medicofarmaceutico a quello alimentare. Sembra che in particolare negli ultimi decenni il colesterolo sia diventato, grazie a una martellante campagna di stampa, il nemico numero uno delle salute per i suoi presunti effetti nocivi sulle arterie. Ciò che è passato nell’ immaginario popolare è la c.d. “teoria lipidica” e in particolare la seguente la catena causale : aumento di consumo di grassi animali - aumento di colesterolo - aumento di placche aterosclerotiche - maggiore rischio di ictus e infarti. Da ciò si è indotti a pensare che valga una seconda catena causale che a rigore non è logicamente equivalente alla prima: diminuzione del consumo grassi animali - diminuzione di colesterolo - diminuzione del rischio di aterosclerosi - diminuzione del rischio di ictus e malattie coronariche. Per cogliere la differenza basta osservare che dalle statistiche risulta che il maggior rischio di ictus e infarti è correlato non solo a un livello molto alto di colesterolo nel sangue (ipercolesterolemia) ma anche a un livello molto basso dello stesso (ipocolesterolemia), cosicchè anche un eccessivo abbassamento del livello di colesterolo potrebbe essere additato come causa dello stesso tipo di malattie, anziché come rimedio. A partire dagli anni 90 si è scatenata una campagna di demonizzazione dei grassi animali, che è andata di pari passo alla promozione dell’ alimentazione fat-free e della cosiddetta dieta mediterranea, ricca di carboidrati e povera di grassi animali. Il fatto che a partire dagli anni 90 il numero di obesi, anzichè diminuire, sia aumentato, soprattutto negli USA, in modo tale da preoccupare i governi dei paesi occidentali, fa pensare che la campagna anti-grassi abbia fondamenti dubbi. Uno dei punti deboli della prima catena di sui sopra è la correlazione statistica tra consumo alimentare di grassi animali e formazione del colesterolo. Ciò che risulta in realtà è che circa l’80% del colesterolo è prodotto dal fegato, mentre solo il 20% sarebbe introdotto con l’alimentazione. In realtà l’eliminazione completa dei grassi animali dagli alimenti, a quanto risulta da alcuni studi, di fatto stimola l’attività produttiva del fegato annullando una parte dei benefici della riduzione dei lipidi alimentari. E' abbastanza chiaro comunque che tale sovraproduzione è proporzionale allaquantità di cibo ingerito quotidianamente e non necessariamente alla qualità dello stesso. La confusione tra quantità e qualità è un esempio abbastanza comune della fallacia della correlazione, anche se sembra non avere attirato l'attenzione dei metodologi. Il colesterolo è stato scoperto nel 1812; prima fu ritrovato nel sangue e poi, dopo diversi anni, nelle placche coronariche: da ciò l’ardita conclusione per cui il colesterolo sarebbe causa delle placche coronariche. A partire dalla fine dell’800 si è continuato a registrare statisticamente un incremento della mortalità da infarto, al punto di configurarsi come una vera e propria epidemia. Su questo fenomeno vale la pena di prendere atto dell’enorme importanza ai fini statistici che ha la tassonomia - cioè il modo di classificare i fenomeni sotto indagine. Tra il 1900 e il 1920 si elencavano quattro tipi di malattie cardiache: 1) angina pectoris 2) pericardite 3) endocardite acuta 4) malattie cardiache organiche Nel 1949 venne introdotta una nuova tipologia, la "malattia arteriosclerotica con incluse le coronarie". Con la nuova tassonomia aumentarono a dismisura i casi registrati di malattie coronariche. Nel 1968 si ebbe una nuova revisione tassonomica e l'ipertensione arteriosa Fu classificata tra le malattie coronariche (mentre prima era considerata indipendente). Questo fece innalzare ancora le percentuali di malattie coronariche riscontrate, ma nel 1979 l'ennesima revisione separò di nuovo l'ipertensione dalle malattie coroniche e la mortalità per queste malattie diminuì vistosamente. Dunque, stando alle apparenze, ciò che ha fatto aumentare la mortalità per malattie cardiovascolari in determinati periodi è stato la modificazione della tassonomia, mentre la diminuzione della mortalità per infarto registrata dal 64 all' 86 (-45%) potrebbe essere attribuibile al progresso farmacologico e soprattutto chirurgico (bypass, angioplastica). La spiegazione di questa riduzione con la riduzione dei fattori di rischio (dieta, fumo, ipertensione) è plausibile ma non è giustificata. Gli studi fatti sul rapporto tra ipercolesteromia e mortalità cardiovascolare hanno prodotto dati che potrebbero suffragare l'ipotesi della correlazione causale: a patto però di ignorare i numerosissimi risultati che, se venissero considerati, darebbero una risposta opposta. In particolare, le nazioni esaminate da Ancel Keys (il padre della c.d. "dieta mediterranea") sono le seguenti: Italia, Grecia, Yugoslavia, USA, Giappone, Finlandia. Se Keys avesse esaminato, invece di questi, paesi come Israele, Olanda, Germania, Svizzera, Francia, Svezia avrebbe riscontrato che quanto più alto era il consumo di grassi saturi tanto inferiore risultava il rischio di infarto. E’ stato violato dunque il vecchio principio caro ai neopositivisti dell’Evidenza Totale, cioè del fatto che per fornire una spiegazione corretta non si può selezionare arbitrariamente una parte dell’evidenza rilevante per il fenomeno. Del resto, di recente ha fatto scalpore il c.d. "paradosso francese": la Francia ha notoriamente una cucina ricca di grassi animali e tuttavia l'incidenza di malattie cardiovascolari è più bassa che in Italia. Questo sarebbe sufficiente a refutare popperianamente la tesi lipidica, ma invece venne lanciata un 'ipotesi di salvataggio della tesi consistente nel dire che in Francia è alto il consumo di vino rosso, che sarebbe in grado di neutralizzare - grazie a una sostanza chiamata resveratrolo - i nocivi effetti dei lipidi. Ma, a parte il fatto che è stato dimostrato che per raggiungere la quota di resveratrololo giudicata acconcia bisognerebbe ingollare quotidianamente almeno 25 litri di vino, resta da spiegare perchè gli italiani hanno pure un alto consumo di vino rosso ma una maggiore incidenza di malattie cardiache. Resta parimenti da spiegare come mai gli Esquimesi, che non consumano nè vino né vegetali avendo una dieta esclusivamente carnivora, sembra non essere affetti da aterosclerosi. Altra ipotesi di salvataggio è stata la distinzione tra colesterolo buono e cattivo, ora parte integrante del lnguaggio usato nella pratica medica. Secondo un commento pubblicato sull’Herald Tribune e firmato da Gary Taubes, corrispondente della rivista Science, così si è introdotto un equivoco. E cioè: si è sempre confuso il colesterolo con le proteine che lo trasportano nel sangue, le lipoproteine, che è un po’ come confondere il carico con il mezzo di trasporto. E il colesterolo è diventato “buono”o “cattivo” a seconda che sia veicolato da lipoproteine ad alta densità (Hdl) o a bassa densità (Ldl). Potrebbe, dunque, non essere il colesterolo in sé il vero nemico (l’infarto colpisce anche persone con colesterolo normale) bensì un’anomalia delle lipoproteine. E per completare il quadro delle ipotesi si dovrebbe anche tener conto dell’ipotesi secondo cui la formazione di placche potrebbe essere dovuta non al colesterolo ma a un difetto genetico delle pareti delle arterie. Il bilancio di questa discussione non intende creare scetticismo sulla statistica ma solo evidenziare che se si vuole usare un dato statistico come elemento di prova o di refutazione, bisogna acclarare che il dato sia stato ricavato applicando procedure che rispettino i canoni metodologici elaborati dalla stessa scienza statistica. La metodologia corretta impone in primo luogo di seguire il criterio per cui, oltre al campione sperimentale estratto da un certo universo in cui la proprietà indagata è presente, si proceda adesaminare un secondo campione (detto campione di controllo) in cui le proprietà indagata è assente. Il campione, come è ovvio, deve essere costruito con accorgimenti che eliminino ogni rischio di inquinamento. L’esempio appropriato è quello delle ricerche sui farmaci eseguite in “doppio cieco”. La particolarità sta nel fatto che né il paziente né il medico devono conoscere la natura del farmaco effettivamente somministrato. Si differenzia quindi dallo studio "in cieco semplice", dove solo il paziente è all'oscuro del procedimento che sta seguendo. Per illustrare il punto, è noto che si vuole valutare l'efficacia di un farmaco occorre tenere conto dell'inevitabile effetto placebo. Per fare questo occorre prendere in considerazione due campioni omogenei di pazienti. A uno di essi si somministra il farmaco oggetto di studio (campione sperimentale) mentre all'altro si somministra un placebo (campione di controllo). Ovviamente (e in ciò consiste il "cieco semplice") nessun paziente a cui sono somministrati entrambi i campioni deve sapere se sta assumendo il farmaco o il placebo. La procedura del "cieco semplice", tuttavia, si è dimostrata in alcuni casi insufficiente per il motivo che i risultati possono essere falsati dall'atteggiamento psicologico degli stessi sperimentatori. Se il medico sperimentatore sa di somministrare il farmaco piuttosto che il placebo potrebbe involontariamente suggestionare il paziente. Per questo motivo, al fine di ottenere risultati attendibili, è necessario che neppure gli sperimentatori conoscano informazioni rilevanti circa il farmaco. In campo medico il doppio cieco è l'unica metodologia possibile e soltanto i farmaci e le terapie che superano tale procedura possono essere definiti efficaci. Il nucleo metodologico di queste procedure è quello di stabilire un raffronto tra la percentuale di U che hanno la propretà A (probabilità che, se x è U, x è A, cioè Pr (A|U)) e la percentuale di non-U che hanno A (Pr A|-U). Bisogna confrontare, per esempio, la percentuale di fumatori (F) tra gli ammalati di cancro (C) (Pr(C| F) con la percentuale di non- fumatori (-F) tra gli ammalati di cancro (Pr(C|-F). Se Pr(C|F) > Pr(C|-F), significa che F “fa una differenza”, cioè è statisticamente rilevante per C. Ricordando che Pr (C|F) significa Pr(C ∩ F)/Pr(F) , mentre Pr(C|-F) significa Pr(C ∩ -F)/Pr(- F), la forza di questa correlazione è data dalla differenza Pr(C|F) - Pr(C|- F) , cioè dalla differenza tra la quantità di fumatori ammalati di cancro e nonfumatori ammalati di cancro. In astratto, la differenza Pr(C|F) - Pr(C|- F) costituisce quindi una misura della correlazione statistica tra F e C. Ovviamente non ogni valore di questa grandezza si può considerare significativo. Per questo gli statistici hanno introdotto dei test di significatività anche molto sofisticati, come il c.d. “metodo del chi-quadrato”. E' importante comunque ribadire che, una volta stabilito che la misura della correlazione è significativa, non è ancora detto che il rapporto di rilevanza così stabilito sia causale. Un’idea sviluppata da Ronald Giere e da altri metodologi, molto discussa negli ultimi decenni per giustificare il passaggio dalla correlazione statistica a quella causale è quella di non concentrasi sulle frequenze attuali entro un singolo campione ma sulle frequenze entro popolazioni ipotetiche; più esattamente, sulle frequenze entro due popolazioni ipotetiche o controfattuali in cui la proprietà che si suppone rilevante sia posseduta datutti o da nessuno. Per restare nell’esempio, bisogna immaginare una popolazione in cui tutti fumano e una in cui nessuno fuma. Se siamo in grado di stabilire che la percentuale di ammalati nella prima è maggiore che nella seconda allora secondo Giere siamo autorizzati a parlare di nesso causale, altrimenti no. Per poter dire che c’è un nesso causale tra fumo e cancro vogliamo poter dire con verità quanto segue: “se tutti fumassero ci sarebbe una frequenza di casi di cancro superiore a quella che si avrebbe se nessuno fumasse”. Un primo problema è che l’alternativa “tutti-nessuno” può produrre risultati non intesi. Per fare un esempio, in un campione non ipotetico ma attuale chi ha un livello di reddito superiore alla media ha anche un livello di salute superiore alla media. Per stabilire un nesso causale dovremmo fare una verifica facendo due ipotesi controfattuali distinte:1) che tutti abbiano un reddito superiore alla media e 2) nessuno abbia un reddito superiore alla media . Ma questo è impossibile per ragioni logiche data la definizione stessa di media: è impossibile infatti che tutti abbiano un reddito superiore alla media! Ci sono anche ragioni non -logiche per dubitare delle ipotesi del tipo “tutti-nessuno”. Su qualcuno di noi ritira i propri risparmi da una certa banca questo può far abbassare i tassi di interesse di una banca, ma certo la banca non fallisce per questo. Ma se tutti ritirano simultaneamente i risparmi da una banca la banca semplicemente fallisce perché non è in grado di pagare i suoi debiti. Quindi i nessi causali non vengono universalmente conservati passando da campioni con pochi esemplari a campioni con tutti gli esemplari. Per essere più precisi, la tesi di Giere si può parafrasare dicendo che c’è un rapporto causale fumo-cancro quando si è in grado di dire quanto segue: c’è un valore numerico z tale che se nessuno fumasse, Pr (C) = z, e se tutti fumassero Pr(C) > z . La verità di questa proposizione si accerta in due passi: a) esaminando varie popolazioni in cui nessuno fuma ed estraendo da esse campioni diversi così da fissare il valore di z. b) esaminando popolazioni in cui tutti fumano ed estraendo campioni per vedere se la percentuale degli ammalati di cancro supera o non supera z. E chiaro che, campionamenti a parte, l’accertamento dei nessi causali viene così a dipendere dall’ accertamento della verità di condizionali controfattuali. E offrire una semantica per i controfattuali è stato un problema che i logici hanno cominciato ad affrontare verso il 1970 con risultati interessanti ma non perfettamente univoci. Una cosa comunque è della massima importanza. I giuristi dovrebbero essere i primi ad apprezzare l’importanza del ragionamento controfattuale o contrario ai fatti , dato che per secoli si è proposta nei tribunali come metodo di accertamento delle connessioni causali la c.d. Formula della conditio sine qua non , che consiste nel chiedersi cosa sarebbe successo del presunto effetto se immaginiamo rimossa o assente la presunta causa. Prima di toccare questo argomento è però opportuno discutere una forma di inferenza ampliativa che riveste pari importanza nell’ambito sia scientifico che giudiziario, l’inferenzaabduttiva.