C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo CAPITOLO 5. BREVE EXCURSUS SULLA PROBABILITÀ NEL XX SECOLO. 5.1. Il frequentismo. Si tratta dell’approccio alla probabilità che è poi confluito principalmente nei corsi di laurea in Statistica. Oggi, tra alcuni statistici, si preferisce non parlare di probabilità, ma dedurla direttamente dalla presentazione di problemi statistici. I maggiori sostenitori di questo modo di intendere la probabilità, nei primi anni del XX secolo sono di cultura tedesca. 5.1.1. Richard Von Mises. 1 Il matematico austriaco è nato nella città che era nota col il nome di Lemberg, sotto l’Imperial Regio Governo, ed oggi con quello di Lvov in Ucraina. Ha avuto una vita movimentata, pilota militare, insegnante in molti paesi e poi di trasferitosi ad Harvard, USA nel 1944. I suoi contributi Richard Von Mises 1883 - 1953 matematici riguardano la matematica applicata, oltre al calcolo della probabilità. Interessanti anche le sue posizioni sul positivismo. Le sue idee relative alla pro- babilità sono principalmente esposte nel saggio Wahrscheinlichkeit Statistik und Wahrheit. Einführung in die neue Wahrscheinlichkeitslehere und ihre Anwendung, del 1928, quando Von Mises era a Berlino, primo direttore dell’Istituto di Matematica applicata. Il testo era stato preceduto da un articolo del 1919. Del testo sono state pubblicate numerose edizioni con variazioni. Quella definitiva è del 1951. Nel 1957 ne è apparsa una traduzione in Inglese, dal titolo Probability, Statistics and Truth. Le idee generali cui si ispira Von Mises sono abbastanza complesse. Per lui il calcolo delle probabilità non è matematica ‘pura’, ma è il risultato di una matematizzazione e l’esempio che fa è quello della Fisica matematica o della Geometria. Questi due esempi, che hanno una tradizione più consolidata, vengono comunemente accettati come gli studi di specifici contenuti, ad esempio nel caso della Geometria, lo spazio e le sue generalizzazioni. Così, per Von Mises, il calcolo delle probabilità ha per oggetto esclusivamente lo studi di fenomeni ‘di massa’ e degli eventi ripetibili. Con questa scelta, una delle obiezioni al frequentismo, quella dei fenomeni singolari, cade immediatamente. Come negli esempi fatti di teorie matematizzate, il linguaggio comune e quello specifico, pur avendo una reciproca ‘risonanza’, sono distinti. Allo stesso modo bisogna distinguere il significato scientifico e quello comune di una stessa parola. Per questo la rilevanza di un termine nel linguaggio scientifico non è e non può essere ‘misurata’ dal complesso dei suoi legami con altre nozioni, sempre relative al linguaggio comune. La scienza dovrà essere costruita come una teoria basata su 1 Per l’intero capitolo ci si avvale di Costantini (1970). 157 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo concetti esatti e semplici, che così permettono una riproduzione ed una gestione delle loro proprietà, anche se inadeguate a ‘rinchiudere’ nei termini formali, la ricchezza dell’esperienza comune. Il caso della parola ‘probabilità’ ricade nelle considerazioni che precedono. Essa viene (e veniva) usata in varie accezioni. Ad esempio (politico) ‘È probabile che la spedizione militare NATO in Afganistan finisca con un successo entro tre anni’ non vuole dire che si sta valutando in modo scientifico la probabilità di un evento che per sua stessa natura, è singolare, quindi, non rientra nell’abito del calcolo (scientifico) delle probabilità, come inteso da Von Mises. Pertanto, per parlare di probabilità c’è bisogno di delimitare il campo ove indagare, tralasciando quei casi che non rientrano nelle condizioni poste. Il concetto scientifico di probabilità è applicabile solo in presenza di eventi ripetuti (e ripetibili) in modo uniforme. Un esempio ‘scientifico’ è rappresentato dalle tavole di mortalità: in base alla concezione frequentista non ha senso, né correttezza, affermare che la probabilità che l’individuo A muoia tra il 65mo e 66mo compleanno è x, ma solo che la probabilità di morte di tutti coetanei di A tra il 65mo e il 66mo compleanno è x. Il ‘costo’ di questo approccio è stato notevole, perché le critiche alla proposta di Von Mises furono molto vivaci. Il nostro giunse ad ammettere che sarebbero possibili ‘estensioni’ che comprendano fenomeni che sono esclusi dalla sua proposta originale. Il concetto base espresso dal frequentiamo è quella di collettivo. Si può pensare ad esso come una successione di eventi uniformi che differiscono per certi attributi osservabili. La probabilità si riferisce osservabilità di un attributo in un collettivo. Un semplice esempio è quello del lancio di un dado. Una serie di lanci di un dado è un collettivo. Gli attributi osservabili sono allora i numeri di punti sulla faccia del dado e le frequenze delle uscite delle singole facce nei lanci. Si supponga che la faccia con tre punti, in 6000 lanci si presenti con frequenza assoluta 1020. La frequenza relativa dell’attributo 3 nei 6000 lanci è: 1020/6000 = 17/100. Continuando i lanci può accadere che la frequenza relativa si stabilizzi attorno ad un certo valore, oppure continui a presentare ampi sbalzi di valore. Solo nel primo caso si potrà parlare di probabilità, mentre nel secondo il passaggio dalla frequenza relativa alla probabilità appare inappropriato. Ma l’osservazione sperimentale, osserva Von Mises, ci assicura che in tutti i fenomeni di massa la frequenza relativa di un certo attributo si stabilizza con l’aumentare del numero delle osservazioni. È questa ‘proprietà della natura’ che permette la costruzione del calcolo delle probabilità. Sono evidenti, in questa posizione, le premesse metafisiche che saranno poi usate per criticare la proposta frequentista. Si giunge in tale modo alla definizione: la probabilità di un certo attributo in un collettivo dato è il limite al quale tende la frequenza relativa dell’attributo con l’aumentare del numero di osservazioni. 158 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo La dizione ‘probabilità di un evento’ è una comoda abbreviazione di ‘probabilità di un certo attributo in un collettivo dato’, escludendo così immediatamente gli eventi singolari, cioè non ripetibile o non riconducibile ad un collettivo. Non ogni insieme (di esperienze, eventi) è un collettivo, per esserlo devono essere soddisfatte le seguenti condizioni: deve essere una successione illimitata (quindi è rilevante l’aspetto ordinale) ed inoltre la frequenza relativa di ciascun attributo deve tendere ad un limite fissato, interpretando le parole ‘tendere’ e ‘limite’ in un senso non precisato e non coincidente con quello usuale in analisi. Ulteriore condizione per i collettivi è il cosiddetto principio di casualità o principio dell’impossibilità di un sistema di gioco: deve essere possibile eliminare secondo una regola assegnata, alcuni elementi del collettivo senza che la frequenza relativa dell’attributo in osservazione cambi. Per meglio chiarire l’ultima condizione si supponga di percorrere una strada statale in cui sono posizionati a distanza di un kilometro cartelli indicatori della distanza, mentre nel tratto tra un cartello e l’altro sono presenti 9 cippi numerati I – IX in modo che il primo disti dal primo cartello 100 m e i successivi sono posizionati 100 m uno dal successivo e dal precedente, con l’esclusione del cippo numerato IX che è a 100 m dal ‘successivo’ cartello indicatore. Un generico tratto di strada si può considerare come la successione …VII VIII IX C I II III IV V VI VII VIII IX C I II… Il problema è la richiesta di determinare la probabilità che fermandosi in un punto a caso il segnalatore di distanza più vicino sia un cartello. Il problema si può risolvere considerando un dado con dieci facce ed in questo caso la probabilità potrebbe essere 1/10. Diversamente se si considera una lunga strada come collettivo, la frequenza relativa dei cartelli è prossima a 1/10. Se però ora si decidesse di eliminare tutti i cippi con i numeri I, II e III, la frequenza relativa dei cartelli aumenterebbe a 1/7. Il principio di casualità esclude che questa situazione rappresenti un collettivo. Se in una successione di osservazioni questo principio non viene rispettato, allora si parla di chance di un attributo, distinguendola dalla probabilità. Von Mises passa poi ad illustrare operazioni sui collettivi per poter ‘imitare’ operazioni sugli eventi, fornendo regole sul comportamento delle probabilità sui collettivi risultanti. Da questa sintetica presentazione si intuisce che l’approccio frequentista, pur se migliorato e più specificato rispetto a quello degli studiosi del secolo precedente, presenta il fianco a numerose critiche, che sono state espresse anche da altri studiosi che si riconoscevano nell’approccio frequentista . Hans Reichenbach 1891 - 1953 5.1.2. Reichenbach. Nato ad Amburgo studia presso varie università tedesche seguendo così corsi di Matematica, Fisica e Filosofia con i più illustri scienziati e 159 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo filosofi tedeschi del suo tempo. Fa fatica a sostenere la sua tesi di dottorato, sulla filosofia della probabilità, Der Begriff der Wahrscheinlichkeit für die mathematische Darstellung der Wirklichkeit, proprio perché il contenuto è innovativo sia dal punto di vista matematico che da quello filosofico. Finalmente viene accettata all’Università di Erlangen. Partecipa alla I guerra mondiale e al ritorno tenta la strada universitaria. Nel frattempo si occupa di trasmissioni radiofoniche e per questo ottiene un notevole successo. Nel 1928 viene assunto come professore di Filosofia della Fisica all’Università di Berlino e nello stesso anno fonda un circolo culturale, noto col nome di Circolo di Berlino, ispirandosi al Circolo di Vienna, organizzato da Schilck a Vienna a partire dal 1922, Tra i due circoli culturali si ebbero intensi e fecondi scambi ed una certa identità di intenti Moritz Schlick 1882 - 1936 rinnovativi. Nel 1935 pubblica Wahrscheinlichkeitslehere. Eine Untersuchung über die logischen und mathematischen Grundlagen der Wahrscheinlichkeitsrechnung, mentre era insegnante al Politecnico di Istanbul essendo fuggito dalla Germania per la sua parentela con ebrei e per la sua posizione assai critica nei riguardi del Nazionalsocialismo espressa in ogni sua trasmissione radiofonica. Reichenbach accetta la tesi fondamentale di Von Mises (di cui era stato studente), in base alla quale la probabilità è il limite della frequenza relativa. È però molto critico sull’idea del collettivo, e vede le condizioni poste per individuare un collettivo come inutili limitazioni, giustificabili per ragioni di semplicità di calcolo, ma non ‘intrinseche’ alla nozione di probabilità. Inoltre rifiuta il concetto ‘vago’ di limite con cui viene presentata la nozione dal suo insegnante, e propone di adottare la nozione standard in Analisi matematica. Ai collettivi sostituisce generiche successioni (conservando quindi l’aspetto ordinale), che nel suo approccio prendono il nome di classi di riferimento. In tale modo per parlare di probabilità in maniera accettabile, secondo Reichenbach, c’è comunque bisogno di una classe di riferimento. Ben presto si rende conto che nel suo approccio rientrano casi poco ‘trattabili’ e per questo introduce il concetto di “successioni normali” in cui il ruolo della probabilità diviene rilevante. Di fatto queste condizioni differenziano sostanzialmente i due approcci frequentisti: per Von Mises lo studio delle successioni con le varie qualità è condizione necessaria per la probabilità, per l’Amburghese la probabilità non è legata ad alcuna successione, ma serve solo per individuarne opportune classificazioni. Reichenbach propone anche una soluzione per il problema degli eventi singolari con il cosiddetto ‘Metodo del posit’. Esso si basa sull’utilizzazione, nei casi singolari di affermazioni probabilistiche che, comunque fanno riferimento a classi di riferimento qualora si debbano prendere delle decisioni che riguardano casi singolari, facendo ‘finta’ che ci sia una classe di riferimento cui appartiene l’evento singolare. Un esempio chiarisce meglio. Si consideri un esperimento e sulla base di una 160 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo opportuna classe di riferimento legata all’esperimento, si determini la frequenza relativa dell’evento B data da ¼. Alla domanda se in un successivo esperimento si verificherà B, non è possibile utilizzare la probabilità, trattandosi di un evento singolare. Tuttavia, riferendosi alla precedente classe di riferimento, alla domanda Reichenbach risponde negativamente, perché se si dovesse ripetere più volte si otterrebbe la probabilità ¼. L’affermazione negativa non può essere scambiata come una asserzione vera, ma un ‘posit’. Cioè si pone ‘non B’, come una scommessa in un gioco aleatorio. Il tentativo, che per alcuni casi, come la puntata sull’uscita di un numero, può sembrare ragionevole, diviene improponibile in ambito scientifico. Inoltre le scelte del posit non dovrebbero essere fatte solo su una classe di riferimento, ma su una ‘classe di riferimento’ di classi di riferimento, altrimenti acquista caratteri di una probabilità assegnata a priori, sulla base di una definizione classica o di una affermazione soggettiva. Un altro aspetto che differenzia Reichenbach da Von Mises è che per esprimere la sua teoria il discepolo utilizza i metodi della logica simbolica. Inoltre tratta temi che non sono stati presi in considerazione dal Maestro. Nella proposta frequentista è inevitabile scontrarsi col problema della induzione. Il fatto ideale di potere prolungare all’infinito una successione di esperimenti richiede che si possa giungere ad un risultato concreto, sulla base dell’induzione sperimentale. Resta poi aperto il problema delle probabilità iniziali perché l’approccio mediante la frequenza non giustifica pienamente come assegnare probabilità (limiti) sulla base delle quali provare la convergenza delle frequenze relative. Il limite diviene quindi un motivo di ‘irrealtà’ che non può giustificarsi sulla base della sola esperienza concreta. Von Mises non affronta questo problema, Reichenbach sì, consapevole che la sua soluzione è indispensabile per dare saldezza scientifica alla proposta. La strada è quella di svolgere una inferenza induttiva ed è tramite essa che si può individuare il limite. Ma come fare a giustificare una inferenza induttiva resta difficile. Non si può attribuire validità alla inferenza induttiva e quindi si deve cercare almeno di giustificarla. Il nostro ritiene che l’unica via induttiva non riconducibile al calcolo delle probabilità sia l’induzione per enumerazione. Ma d’altra parte questo tipo di induzione è il metodo principale che permette di passare dalla frequenza relativa alla probabilità, in quanto le successioni di eventi sono definite sulla base degli ordinali (finiti). Di conseguenza se si riuscisse a trovare una giustificazione probabilistica della induzione per enumerazione si potrebbero trovare i valori della probabilità usate poi nel calcolo ed anche una giustificazione completa dei metodi induttivi. Per saldare questo anello mancante, Reichenbach usa un assunto che ricorda il posit: si pone l’ipotesi che la frequenza relativa sia uguale alla probabilità, pur senza impegnarsi sul fatto che tale identità sia vera o no. Per il nostro autore questa regola è la traduzione formale del normale atteggiamento induttivo dello scienziato. In fondo, già l’idea di una ‘benignità’ o ‘uniformità’ della natu- 161 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo ra, per cui ci si attende che aumentando il numero di prove si diminuisca l’influenza di fattori ‘estranei’ all’evento stesso, con la conseguenza che il valore della frequenza relativa debba ‘stabilizzarsi’ avvicinandosi di più al valore ‘vero’, presuppone l’esistenza di un limite cui la frequenza relativa tenda, ovvero che esista la probabilità dell’evento, anche tale limite potrebbe non essere noto. Reichenbach, ad un primo stadio, accetta che esista la probabilità di ogni evento ripetibile e tramite il ‘posit’ anche l’identificazione della frequenza relativa con la probabilità. Il comportamento del ricercatore quindi è quello di colui che accetta per ‘vero’ il valore trovato con gli esperimenti fatti. C’è però da chiarire come questa assunzione temporanea, frutto di un certo numero di esperimenti possa essere utilizzata e condurre al successo. La risposta del nostro sta nel modo con cui si usa la regola di induzione, perché è essa che permette di sostituire il primo posit con altri, via via più vicini riuscendo in tal modo a determinare, tramite l’inferenza induttiva, un numero di osservazioni n tale che fissato a piacere un ε > 0, e posto fn per la frequenza relativa con n osservazioni, per ogni numero naturale k, la frequenza |fn+k – fn| < ε. Questo posit fn viene detto posit cieco, perché ottenuto per induzione e non per sperimentazione. È evidente il legame con la condizione di Cauchy per la convergenza delle successioni. Non è, però, univocamente determinato, dato che si potrebbe considerare una qualunque successione infinitesima (regola) c : N → R ed assumere come nuovo posit cieco fn+c(n). Sulla base di questa genericità della successione infinitesima, è implicita l’idea che si stia introducendo una relazione di equivalenza, di fatto legata alla equivalenza tra successioni aventi lo stesso limite, per cui non ha importanza quale successione infinitesima si scelga. In questo Reichenbach non si accorge che anche se tutte le successioni infinitesime convergono a 0, non è detto (ed è stato dimostrato) che ciò avvenga uniformemente. Esistono, cioè, regole appartenenti alla classe tali che, data una qualsiasi frequenza relativa calcolata su una arbitraria successione finita e un arbitrario numero reale appartenente all’intervallo [0,1], il numero reale scelto è limite al quale tende la frequenza relativa osservata. Non ha, quindi, senso pensare ad un unico limite. L’equivalenza empirica della classe di regole su cui si basa l’approccio dell’Amburghese, e che giustificherebbe la scelta del posit cieco fn, è assai discutibile. Alcuni sviluppi successivi ‘correggeranno’ le carenze, anche se la fiducia totale di Reichenbach sul procedimento induttivo resta difficilmente accettabile . In conclusione, l’approccio frequentista è stato ampiamente accettato e rielaborato, in particolare modo dagli statistici inglesi. A Pearson e Fisher, cui si devono alcuni dei test statistici più utilizzati nelle applicazioni e, per un abbastanza lungo periodo nella Karl Pearson 1857 - 1936 prima metà del XX secolo si può dire che il frequentismo sia stato l’approccio dominante alla probabilità ed alla statistica. Tuttavia, 162 Ronald Fisher 1890 - 1962 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo come visto in precedenza, gli asserti di base dell’opzione frequentista sono stati a più riprese criticati, sia all’interno della teoria, sia all’esterno. La teoria si basa su degli assunti metafisici non giustificabili sperimentalmente e su debolezze di carattere matematico, anche queste debitamente messe in luce. L’approccio di Von Mises utilizza una nozione di limite che non si presta, per la sua vaghezza, ad essere messo alla base di una teoria scientifica, dato che, sostanzialmente l’autore si basa sulle capacità di discriminazione dell’osservatore, conferendo così a questo aspetto centrale per l’approccio frequentista, un inatteso valore soggettivo. Reichenbach abbandona la vaghezza su questo tema riconducendo il limite alla precisazione che il concetto ha avuto nella Analisi matematica. Però anche questa posizione è criticabile in quanto determinare il limite delle successioni aleatorie si presta a critiche, poiché, di fatto, il limite introdurrebbe una ‘regolarità’ nelle successioni aleatorie che in questo modo perderebbero il loro carattere aleatorio. Von Mises parla del calcolo delle probabilità come di una scienza naturale matematizzata che studia i fenomeni di massa, tuttavia i teoremi ottenuti hanno una impronta decisamente analitica e ben poco fanno riferimento all’esperienza con tali fenomeni, anzi la definizione di collettivo, ed in particolare il principio di casualità, sembrano artifici per potere trattare in modo analitico l’argomento. Il distacco dall’esperienza è ancora maggiore con Reichenbach. Ma anche il concetto di classe di riferimento, usato poi in modo discutibile con il posit, presta il fianco a varie critiche. Per quanto riguarda l’induzione, esso si configura come un principio a priori, del tutto avulso dall’approccio frequentista che nell’Ottocento e in Von Mises avevano presentato. Nonostante queste critiche, l’opzione frequentista ha avuto ed ha una grande importanza scientifica, perché basata sul fatto che non sia possibile giungere alla determinazione della probabilità prescindendo completamente dall’esperienza. Tuttavia esistono situazioni in cui la probabilità serve come giudizio ‘cautelativo’ e per i quali non sono disponibili dati sperimentali o i dati esistenti non sono sufficientemente attendibili, si pensi ai rischi connessi alla istallazione di nuove centrali nucleari. In questi casi una valutazione frequentista non è possibile. 5.2. La corrente logicista nel XX secolo. Come visto, pur riconoscendo l’utilità, in opportune condizioni, dell’approccio frequentista, sono stati molti gli studiosi che hanno lamentato il fatto che numerose situazioni venivano escluse dal calcolo delle probabilità. 163 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo Una corrente di pensiero che cerca di colmare le lacune precedenti, prende spunto dall’analisi del linguaggio e dal suo rapporto con la conoscenza. Ma poi da essa traggono origine due distinti filoni di pensiero che per la loro importanza verranno trattati separatamente: il logicismo propriamente detto ed il soggettivismo. Ad essi saranno dedicati due diversi capitoli. I personaggi di maggior spicco della prima corrente di pensiero sono Wittgenstein e Keynes, anche se tra i due non c’è una perfetta coincidenza di posizioni. Le loro opere apparvero quasi contemporaneamente . John Maynard Keynes 1883 - 1946 5.2.1. Wittgenstein. Il filosofo austriaco, che però svolse la maggior parte del suo lavoro in Inghilterra, nel Tractatus logico-philosophicus pubblicato nel 1921, dedica poche (e pregnanti) pagine alla probabilità. La probabilità è una relazione esistente tra fatti noti e un fatto non conosciuto. Spesso l’incognito è un avvenimento futuro, ma potrebbe essere anche presente o passato, senza che ciò alteri l’impostazione. Intanto bisogna spostare l’attenzione dall’evento (o fatto) alla proposizione che lo definisce ed in questo modo la probabilità diviene una relazione logica che lega una proposizione ad altre prese come supporto della prima. Wittgenstein osserva che in questo modo si può costruire una teoria della probabilità evitando un qualsiasi richiamo all’esperienza, sia personale (soggettiva) che oggettiva (data dalla frequenza e dall’esperimento). Lo strumento per giungere a questa conclusione è dato dalle tavole di verità del calcolo delle proposizioni. Si tratta di un strumento, oggi ben noto e che Wittgenstein stesso ha contribuito ad individuare come proceduta semantica, assieme a Peirce e Schröder (cfr. 1.1.6.). Seguendo il linguaggio del filosofo, data una proposizione composta si dicono “fondamenti della p q ¬q (p∨¬q) (q∧p) ¬(q∧p) (p∨¬q) → ¬(q∧p) V V F V V F F V F V V F V V F V F F F V V F F V V F V V verità” di essa i valori di verità delle proposizioni componenti cui corrisponde il valore ‘vero’ della proposizione composta. Ad esempio sia data la proposizione t: (p∨¬q) → ¬(q∧p), con le tavole di verità si individuano i fondamenti della verità delle proposizione composta t sono le coppie ordinate 〈V,F〉, 〈F,V〉 e 〈F,F〉. Se si preferisce parlare in termini i costituenti booleani (cfr. 1.1.6.) si possono indicare i fondamenti della verità della proposizione composta t nelle tre proposizioni composte (p∧¬q), (¬p∧q) e (¬p∧¬q). Tenendo a mente questo esempio, siano ora r e s due proposizioni e siano Vr i fondamenti della verità di r e Vrs le proposizioni che sono, contemporaneamente, i fondamenti della verità di r 164 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo e di s. Con Vrs/Vr, si indica il rapporto tra il numero delle proposizioni che sono fondamenti della verità di r e il numero delle proposizioni che sono contemporaneamente fondamenti della verità di r e di s. Tale rapporto viene detto la misura della probabilità che la proposizione r conferisce alla proposizione s. Come si vede, si tratta più di una probabilità condizionata che di una probabilità ‘semplice’. Si voglia, ad esempio, determinare la misura della probabilità che (p∨q) conferisce alla proposizione t di cui si è esibita la tavola di verità. I fondamenti della verità di (p∨q) sono le proposizioni (p∧q). (p∧¬q) e (¬p∧q). Tra queste (p∧¬q), (¬p∧q) sono anche fondamenti della verità della proposizione t, quindi (p∨q) conferisce probabilità 2/3 alla proposizione t. Da questa definizione si ottengono alcune proprietà fondamentali: la probabilità di una tautologia è 1 o più in generale di ogni proposizione s che sia conseguenza logica della proposizione r; la probabilità di una contraddizione 0; ma tale valore si ottiene anche se le proposizioni contengono lettere proposizionali distinte, quelle che Wittgenstein chiama proposizioni indipendenti. La concisione del Tractatus non permette di approfondire le idee del filosofo in modo soddisfacente, ad esempio una possibile interpretazione del suo testo affermerebbe che due proposizioni elementari darebbero l’una all’altra probabilità ½. Ora questa affermazione potrebbe essere interpretata dicendo che ad ogni proposizione elementare si dovrebbe assegnare la probabilità ½. Ovviamente questa posizione è insostenibile: alla proposizione ‘La Terra gira attorno al Sole’ che è un enunciato elementare, si dovrebbe assegnare la stessa probabilità che alla proposizione ‘Il Milan vincerà il campionato di calcio 2011’. Il problema, in questo caso, sembra legato al fatto che la probabilità condizionata non si presta bene a definire la probabilità degli eventi semplici o elementari. Poche righe dopo questa affermazione non chiara, Wittgenstein enuncia il principio di indifferenza, ricollegandosi così alle proposte di Bradley e la formulazione che ne dà l’austriaco sembra assai ‘ingenua’ e non resiste alle possibili critiche già fatte proprie dal logicista ottocentesco. Stupisce nel Tractatus la mancanza di qualsiasi collegamento tra il principio e il problema della assegnazione di probabilità alle proposizioni semplici o elementari. Restano quindi irrisolti gli stessi problemi che avevano afflitto i logicisti del secolo precedente, ma rispetto ad essi è ora disponibile appieno lo strumento delle tavole di verità. 5.2.2. Keynes. Lo studioso inglese è sicuramente più noto al grande pubblico come economista. È questa una ‘tradizione’ tipicamente inglese che ha visto numerosi pensatori esprimersi nel campo della economia e della filosofia. La celebrità al nostro è venuta quando la politica economica degli USA, dopo la grande crisi del 1929, ha adottato le idee dell’inglese, portando in qualche anno gli Stati Uniti a riconquistare un benessere che ne ha fatto una delle nazioni più ricche della Terra. 165 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo L’opera probabilistica di Keynes è A treatise on probability, apparsa nel 1921, in cui egli presenta un approccio che, in un certo senso, è una sorta di passo indietro rispetto a quanto proposto da Wittgenstein. C’è concordanza tra le opere dei due autori sul significato del termine ‘probabilità’, ma Keynes è meno profondo e con vere e proprie insufficienze formali, per quanto riguarda gli aspetti logici e nella formalizzazione della probabilità come relazione logica. Dal punto di vista epistemologico, però, la proposta dell’Inglese è più completa e presenta, inoltre un primo tentativo di assiomatizzare Rudolf Carnap 1891 - 1970 le concezioni logiciste che verranno poi riprese ed approfondite da Carnap. L’importante sviluppo avuto in seguito è un buon motivo per illustrare alcune in- tuizioni del trattato di Keynes. Per lui ci sono due tipi di conoscenza: una diretta ed una indiretta, la prima è frutto di esperienza personale; la seconda viene ricavata dalla prima mediante metodi inferenziali di varia natura. Il calcolo delle probabilità è una tipica conoscenza indiretta ed inoltre per esso interessano anche i vari gradi di conoscenza. Ma le inferenze avvengono su proposizioni, quindi l’oggetto del calcolo delle probabilità non sono i fatti ma le proposizioni. Tutte le proposizioni, di per sé, sono vere o false, però quello che riusciamo a conoscere di esse dipende dalle conoscenze che possediamo. Così quando si parla di probabilità si sottintende sempre che la valutazione è effettuata sulla base delle conoscenze. Così ogni affermazione ha sempre un carattere relativo e la probabilità risulta da un rapporto tra una proposizione ed un intero corpus di conoscenze, che possono essere attuali, cioè già possedute, ma anche ipotetiche. Un esempio che Keynes propone è il fatto che di per sé un luogo non possiede un carattere di ‘vicinanza’, se non rispetto ad un altro luogo, così come una proposizione in sé non può essere più o meno probabile, se non in riferimento ad altre. In questo modo, i termini certezza e probabilità descrivono, semplicemente, vari gradi di credenza razionale (evitando così una versione soggettivista) che siamo autorizzati ad avere delle proposizioni. Ne consegue che il calcolo delle probabilità è una parte della logica in quanto è il calcolo dei gradi di certezza razionale: Esso coinvolge relazioni tra proposizioni (premesse) che si assumono come conosciute, anche ipoteticamente, e che vengono indicate col termine “prova” o ‘evidenza’, ed altre proposizioni (conclusioni). La modalità conoscitiva è quindi puramente indiretta. Se un insieme di conoscenze h giustifica una credenza razionale a di grado α, allora si dice che c’è una relazione di probabilità di grado α tra a ed h e si scrive a|h = α. Da questa scrittura si può apprezzare la ‘vicinanza’ della nozione di probabilità offerta dallo studioso inglese con la probabilità condizionata. Tuttavia il calcolo delle probabilità si differenzia dalla logica perché questa seconda disciplina permette di ricavare conclusioni vere da premesse vere (almeno questo era il sentire generale al tempo di Keynes, non ancora influenzato dai risultati della critica dei fondamenti della matematica), tale 166 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo prerogativa non è propria del calcolo delle probabilità, cioè il senso di una conclusione ottenuta col calcolo delle probabilità è solo parzialmente contenuto in quello delle premesse. In conclusione per Keynes non è possibile dare una definizione di probabilità, cioè essa non è esprimibile in termini più semplici; si tratta tuttavia di una relazione logica che lega l’evidenza alla conclusione. Però, mentre le categorie in cui si muove la logica sono verità e falsità, quelle relative alla probabilità sono le categorie di conoscenza, ignoranza e credenza razionale. L’Inglese suppone anche l’esistenza di una sorta di intuizione probabilistica che permetterebbe di giungere alla conoscenza diretta di relazioni probabilistiche, ma questa proposta, che pure risolverebbe il problema di assegnazione di probabilità alle proposizioni semplici, è assai poco convincente. Così mentre per Wittgenstein la probabilità non ha nulla di misterioso, con Keynes si ritorna ad una situazione poco chiara. Anche in questo caso si pone il problema della assegnazione di probabilità agli eventi semplici, risolta, apparentemente, con l’intuizione probabilistica 5.2.3. Il principio di indifferenza. L’autore Inglese ha però il merito di avere affrontato in modo chiaro il principio di indifferenza, fornendone una sua versione. Si consideri una proposizione di cui si sappia che può essere esclusivamente vera o falsa: ‘La cinquantamilionesima cifra decimale di π è 8’. Allo stato attuale delle conoscenza di 26 milioni di cifre decimali di π, non è noto se la proposizione è vera. Non ci sono neppure ragioni valide per concludere che la proposizione sia falsa. D’altra parte le frasi ‘La cinquantamilionesima cifra decimale di π è 8’ e ‘La cinquantamilionesima cifra decimale di π non è 8’ sono mutuamente esclusive e sono anche esaustive. Il principio di indifferenza ci porta a concludere che la probabilità di entrambe deve essere ½. Schematizziamo le frasi precedente con C(8) e ¬C(8). Ora, per la particolare natura del problema, possiamo dire che le frasi C(0), C(1), …, C(8), C(9) sono mutuamente e globalmente esclusive nonché esaustive. Il ragionamento precedente si applica anche a C(i) con i ≠ 8 e per l’applicazione del principio di indifferenza siamo nelle condizioni di affermare che la probabilità di ciascuna delle affermazioni C(i) e di ¬C(i) deve essere ½ per entrambe. In tal modo il principio di indifferenza porta ad un risultato paradossale, essendo la congiunzione di C(0)∨C(1)∨…∨C(7)∨C(9) equivalente a ¬C(8), si avrebbe che la probabilità di ¬C(8) dovrebbe essere contemporaneamente uguale a ½ e a 9/2! L’accettazione ‘ingenua’ del principio di indifferenza porta a questa e ad altre analoghe conclusioni paradossali in vari esempi di problemi probabilistici. D’altra parte se non si assegnano le probabilità iniziali, il calcolo che ne discende resta ‘vuoto’. Le conclusioni inaccettabili possono avere la loro motivazione nella espressione discorsiva del principio di indifferenza: cosa significa che ‘non si hanno ragioni per ritenere’, o una dizione analoga con cui si presenta il principio stesso? Il principio 167 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo quindi reca con sé una indeterminazione che bisognerebbe chiarire. Bisognerebbe inoltre analizzare accuratamente le alternative che si presentano. Questi due aspetti non ammettono una risposta chiara ed univoca. Ciascuno, sulla base delle proprie convinzioni o di una ‘intuizione probabilistica’ può offrire le proprie risposte, ma si tratta di pareri soggettivi. Si pensi a coloro che decidono di scommettere loro beni sul sorteggio di particolari numeri nell’estrazione del lotto. Keynes osserva che i paradossi sono legati perché nel principio di indifferenza ci sono aspetti puramente meccanici ed altri puramente intuitivi. L’indeterminazione riguarda soprattutto le alternative in quanto, come mostra l’esempio delle cifre, almeno una delle due alternative: è 8, non è 8, può essere scomposta in altre più semplici. Le contraddizioni secondo il nostro autore, scompariranno quando le alternative non saranno ulteriormente scomponibili, lui parla di alternative finali. Con l’assunzione di questa clausola aggiuntiva del carattere finale delle alternative, si può applicare il principio di indifferenza senza ricavarne conclusioni paradossali. Ma il problema di indeterminazione resta, solo spostato più avanti, nella indagine se quanto proposto sia effettivamente un’alternativa finale. Keynes però ritiene che anche l’affermazione che ‘non ci sono ragioni’ sia causa di indeterminazione e per superare questo ostacolo introduce l’idea di rilevanza. Con un linguaggio privo del concetto di probabilità condizionata, la sua idea di rilevanza si può assimilare a quello di ‘l’evento E conferma l’evento H’ espresso in 3.2.2.5. Ma questo richiede esplicitamente la probabilità condizionata. Se si accettasse la proposta di Keynes, alla luce delle nostre conoscenze odierne, ci si avvicinerebbe maggiormente ad una possibili applicazione del principio di indifferenza, con tutte le modifiche del caso, per determinare le probabilità iniziali, anche se in filigrana traspare lo stesso circolo vizioso che è implicito nell’approccio classico e deterministico di Laplace. 5.2.4. L’assiomatizzazione di Keynes. Il tentativo di fornire una assiomatizzazione proposta della studioso inglese, precede di alcuni anni altre proposte assiomatiche che poi verranno accettate più ampiamente. Il suo tentativo, come si diceva prima, apre la strada ad altre, anche se di per sé si tratta di una proposta non impeccabile. Nella presentazione originale viene usato il segno di addizione per la disgiunzione, la moltiplicazione, spesso sottaciuta per la congiunzione ed il soprassegno per la negazione (simbolo che era stato utilizzato da De Morgan e che permane tuttora su certi manuali scolastici, nonostante le difficoltà tipografiche). Si conserveranno in questo scritto i segni delle operazioni di addizione e moltiplicazione, ma si indicherà la negazione con ‘¬’. Keynes introduce poi alcune definizioni preliminari. Date le ipotesi h e la proposizione a, con a | h si indica un numero reale appartenente all’intervallo [0,1]. Keynes parla di relazione di probabilità tra la proposizione a e la premessa h. Se a | h = 1, si ha la relazione di certezza; se a | h = 0 si ha la relazione di impossi- 168 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo bilità. Si dice che la congiunzione ah è inconsistente se a | h = 0 (definizione che è compatibile con la nozione di probabilità condizionata). Viene detto ‘gruppo h’ l’insieme delle proposizioni a tali che a | h = 1. Keynes presenta come definizione una proprietà di carattere logico relativa al connettivo di equivalenza: afferma che se b | ah = 1 e a | bh = 1, allora (a≡b) | h = 1. A questo punto introduce alcuni assiomi indicandoli con l’appellativo di ‘preliminari’. 1. Se a e h sono proposizioni o congiunzioni di proposizioni e disgiunzioni di proposizioni e se h non è inconsistente, esiste una ed una sola relazione di probabilità P tra la conclusione a e la premessa h. 2. se (a≡b) | h = 1 e se x è una proposizione, allora x | ah = x | bh 3. ((¬a+¬b)≡¬(ab)) | h = 1; ((aa)≡a) | h = 1; ((¬¬a)≡a | h = 1; ((ab) + ((¬a)b) ≡ b) | h = 1; se a | h = 1, allora ah ≡ h. L’autore introduce definizioni che riguardano le operazioni di addizione, moltiplicazione, sottrazione e quoziente di relazioni di probabilità: ab | h + (a(¬b)) | h = a | h; ab | h = (a| bh)·(b|h) = (b|ah)·(a|h) se PQ = R, P = R/Q se P+Q = R, P = R - Q A questi seguono gli assiomi 4. Se P, Q, R sono relazioni di probabilità tali che esistono i prodotti PQ e PR e le somme P + Q e P + R, allora: 4a. Se esiste PQ, esiste QP e PQ = QP. Se esiste P+Q esiste Q+P e P+Q = Q+P; 4b. PQ < P a meno che Q = 1 o P = 0; P+Q > P, a meno che Q = 0; PQ = P se Q = 1 o P = 0; P+Q = P se Q = 0. 4c. se PQ PR, allora Q R a meno che P = 0. Se P + Q P + R allora Q R e inversamente 2. 5. [±P±Q] + [±R±S] = [±P±R] – [±Q±S] = [±P±R] + [±Q±S] = [±P±Q] – [±R±S] in ogni caso in cui le somme tra parentesi esistono. 6. P(R±S) = PR±PS se esistono la somma R±S e i prodotti PR e PS. 2 Il simbolo sta ambiguamente per > o ≥ oppure < o ≤, ma nei vari casi assunta una di questa relazioni, il simbolo va poi sostituito coerentemente. Quindi si tratta di più affermazioni sintetizzate grazie alla ambiguità. 169 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo Fornisce infine le due ultime definizioni. Indipendenza. Se a | bh = a | h e b | ah = b | h, le probabilità a | h e b | h sono indipendenti. Irrilevanza. Se a | bh = a | h, b è irrilevante rispetto a a | h. È difficile valutare in modo positivo questa assiomatizzazione, in quanto ci sono banalità che non dovrebbero trovare posto in una simile presentazione e che riguardano proprietà dei numeri reali rispetto alle operazioni su di essi. Altre cose riguardano prevalentemente l’aspetto logico e sarebbero da trattare a parte. Il contenuto ‘probabilistico’ della proposta di Keynes, senza stare a distinguere tra assiomi e definizioni, è contenuto nell’assioma 1 che garantisce l’unicità della probabilità una volta assegnate premesse a conclusione; l’assioma 2 che grazie alla definizione in cui interviene il connettivo ≡, stabilisce sulla base di due proposizioni la cui equivalenza appartiene al gruppo h, esse conferiscono uguale probabilità alle ulteriori conclusioni. Hanno poi un contenuto probabilistico le definizione di certezza, impossibilità ed il fatto che comunque la probabilità sia un numero compreso tra 0 e 1. Le definizioni di addizione e moltiplicazione di probabilità nonché il quinto caso dell’assioma 3, in cui si afferma che la probabilità di una proposizione è 1 comporta che la conclusione è conseguenza logica delle premesse. Il sistema assiomatico, in questo stadio, è sicuramente migliorabile. In conclusione l’analisi qui mostrata dell’approccio logicista ha cercato di metterne in luce i pregi, ma allo stesso tempo i difetti di carattere ‘tecnico’ ed anche epistemologico. 5.3. Il soggettivismo nel XX secolo. Considerare l’approccio soggettivista una sottospecie di logicismo è assai riduttivo. Con esso, infatti viene a meno un carattere comune dell’approccio classico-deterministico, frequentista ed anche logicista, cioè il fatto che la probabilità sia un dato oggettivo, ottenuto o ottenibile in vari modi, ma comunque indipendente dal soggetto. Con questo diverso approccio si nega tale oggettività, accettando invece che la probabilità sia legata alla speranza o grado di credenza che ha un individuo nel verificarsi di un certo evento. Tuttavia il legame con l’approccio logicista è costituito dalla importanza data al fatto linguistico. La differenza fondamentale col logicismo è il totale rifiuto del principio di indifferenza quale strumento per la determinazione delle probabilità iniziali. Queste, secondo la corrente qui in esame, sono determinate sulla scorta delle convinzioni individuali. Anche se le ragioni che spingono un individuo ad accettare certe valutazioni di probabilità non sono oggetto di valutazioni matematiche, ma eventualmente rientrano nel campo antropologico, il calcolo delle probabilità inizia una volta che tali valutazioni siano avvenute e quindi una volta accettatele, si 170 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo preoccupa di costruire una ‘struttura’ coerente a partire da esse. 5.3.1. Ramsey. Nel 1926 esce il testo di Ramsey dedicato alla probabilità: Truth and probability. Nella sua breve vita lo studioso inglese ha dato importanti contributi alla Logica, ai fondamenti della Matematica alla teoria dei grafi ed alla Filosofia, alla Economia, con una ampia produzione, commisurata col numero di anni in cui ha potuto lavorare scientificamente. La sua amicizia con Keynes non gli ha impedito di sottoporre Frank Ramsey 1903 - 1930 l’opera dell’amico ad una critica severa che ebbe l’esito di ‘dirottare’ Keynes sui temi economici. Il testo di Ramsey si apre con una netta affermazione: «La probabilità è di importanza fondamentale non solo nella logica, ma anche nella fisica, e non possiamo essere sicuri a priori che l’interpretazione di essa più utile nella logica sia appropriata anche nella fisica. Veramente la generale differenza di opinioni tra gli studiosi di statistica, che adottano per la maggior parte la teoria della frequenza della probabilità, e i logici che per maggior parte la respingono, rende probabile che le due scuole stiano in realtà discutendo di cose diverse e che il termine ‘probabilità’ sia usato dai logici in un senso e dagli studiosi di statistica in un altro» Poco tempo prima di morire, scriveva ancora sul tema, apportando un nuovo punto di vista: «Il difetto del mio saggio sulla probabilità stava nel fatto che in esso la credenza parziale veniva considerata come un fenomeno psicologico che spettava allo psicologo definire e misurare. Ma questo genere di psicologia fa 3 ben poca strada e una scienza progredita non dovrebbe assolutamente accettarlo» Dagli scritti di Ramsey sembra che non ci sia una critica alla concezione frequentista, viste le sue importanti applicazioni alle scienze della natura, ma non condivide la vaghezza logicista dell’approccio di Keynes, anche se riconosce il ruolo della Logica. Restando nell’approccio di Keynes, presa come ipotesi ‘il libro è rosso’ e come conclusione ‘ il libro è nero’ non si comprende come legare le due proposizioni con una relazione di probabilità. Data la semplicità della situazione se effettivamente la probabilità misurasse queste relazioni, essa dovrebbe essere in grado di individuare anche la misura della probabilità in questo caso rosso-nero. Ma essendo due proposizioni elementari, il principio di indifferenza non è in grado di risolvere il problema. Quindi bisogna rinunciare all’approccio logicista e Ramsey propone di considerare la probabilità come il grado di credenza per cui la teoria delle probabilità diviene qualcosa di analogo alla logica delle credenze parziali, o dell’argomentazione non conclusiva. Essa andrebbe d’accordo con le affermazioni matematiche e le inferenze ‘tradizionali’ che riguarderebbero un’importante forma di certezza, ma ne sarebbe una generalizzazione. Il ruolo della logica è anche quello di ‘garanzia di coerenza’. Ad esempio con una moneta, è accettabile che per il soggetto l’uscita di testa e di croce abbiano valutazioni di probabilità diverse, basandosi l’individuo sulla presunzione che la moneta sia truccata, ma non sono accettabili entrambi i valori maggiori di ½. Il principio di indifferenza diviene del tutto inutile e così si evita il possibile circolo vizioso che inficia l’approccio logicista. Il punto fondamentale è che le credenze parziali siano misurabili e che alcune credenze siano misu3 Entrambe le citazioni sono prese da Costantini (1970). 171 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo rabili in termini precisi a partire da altre. Per Ramsey questa misura esprime, in termini seppure imprecisi, il grado con cui il soggetto è disposto ad agire in base a questa credenza. Questa situazione è assai prossima a quella della fisica quando deve eseguire misure di grandezze che poi entrano in gioco come base per ulteriori esperienze. Il gioco è, da lungo tempo, uno strumento per misurare il grado di credenza di un individuo: basta proporre al soggetto una scommessa sull’evento e vedere quanto è disposto a puntare in rapporto ad una vincita sperata. La ‘tradizione’ inglese delle scommesse e dei bookmaker può avere influito su queste posizioni. Il concetto di scommessa va però definito in termini propri e scientifici e poi, da questo, il grado di credenza. La trattazione si sposta su un piano ‘etico’. Infatti Ramsey parla di bene, come la cosa che il soggetto desidera e pone assiomi che riguardano uguaglianza e che in ultima analisi permettono di stabilire una corrispondenza biunivoca con i numeri reali. Una volta fissata questa, la scommessa diviene una scelta di beni. Vi sono poi scelte semplici e altre dette condizionate. Nella scelta semplice l’individuo sceglie fra due o più beni, in quella condizionata egli può venire in possesso di un bene solo se si realizza una condizione (una proposizione) di cui non si sa se sia vera o no. Una proposizione p è eticamente neutra se due alternative possibili differenti solo per la verità di p, portano all’individuo una medesima quantità di beni. A questo punto Ramsey fornisce una serie di definizioni il cui obiettivo è quello di definire il grado di credenza. Si dice che un individuo ha un grado di credenza pari a ½ in una proposizione eticamente neutra p se non ha preferenze tra le scelte B1 se p, B2 se ¬p e B2 se p, B1 se ¬p, ma ha una preferenza nella scelta tra B1 e B2. A partire da questa si definisce l’uguaglianza tra differenze di beni. La differenza tra B1 e B2 è uguale alla differenza tra B3 e B4 se essendo p una proposizione eticamente neutra nella quale il soggetto ha grado di credenza ½, egli è indifferente tra le scelte B1 se p, B4 se ¬p e B2 se p, B3 se ¬p. Di qui, con opportuni assiomi sulla scelta dei beni si costruisce la corrispondenza biunivoca con i numeri reali, per cui, d’ora in poi si identificano beni e numeri reali. Finalmente si definisce il grado di credenza come segue: Se un individuo è indifferente tra la scelta di B1 per certo e B2 se p, B3 se ¬p, il suo grado di credenza in p è dato da g.c. p = B1 − B2 . In un certo senso il grado di credenza coinciB2 − B3 de col rapporto che uno scommettitore accetterebbe di scommettere su p. Si passa poi al grado condizionato di credenza di una proposizione p data una proposizione q, in termini analoghi. Con questo impianto Ramsey riesce a provare alcuni teoremi: T1 g.c. p + g.c. ¬p = 1; T2 g.c. p|q + g.c. ¬p|q = 1; T3 g.c. (p∧q) = g.c. p × g.c. q|p 172 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo T4 g.c. (p∧q) + g.c. (p∧¬q) = g.c. p che illustrano il fatto che il calcolo delle probabilità fornisce le leggi di coerenza per le credenze parziali nel senso che se non fossero rispettati sarebbero poi in contraddizione con gli assiomi della scelta dei beni. Ne risulta che il compito ultimo del calcolo delle probabilità è quello di escludere che due valori di probabilità siano in contrasto tra loro, pur basandosi su una scelta arbitraria delle probabilità iniziali, provando, eventualmente che questa scelta iniziale è incoerente (ovvero il soggetto sarebbe destinato ad una perdita certa). 5.3.2. De Finetti. L’opera di Ramsey passò quasi inosservata, forse ‘oscurata’ dei suoi contributi nei Fondamenti della Matematica e nella Teoria dei Grafi. Pochi anni dopo la pubblicazione dell’opera dell’Inglese, apparvero i primi risultati ottenuti, indipendentemente, da De Finetti. I lavori: Fondamenti logici del calcolo delle probabilità, apBruno De Finetti 1906 - 1985 parve sul Boll. Un.Mat.It. nel 1930 e Sul significato soggettivo delle probabilità, su Fund. Math. nel 1931 presentano il nucleo centrale delle sue idee. In seguito De Finetti, ebbe modo di ripensare e migliorare la presentazione iniziale, pubblicando vari articoli e libri, tradotti anche in molte lingue, sull’approccio soggettivista, tanto che nel mondo ne è spesso indicato come l’unico autore, dimenticando Ramsey. Le conclusioni dei due autori sono abbastanza simili, ben diversi i punti di partenza. In un certo senso si può dire che per l’autore inglese il motivo che lo ha spinto ad analizzare il problema è stato la vaghezza delle posizioni di Keynes. Per De Finetti, invece, è stato l’uso spesso scorretto dello schema bernoulliano diffusosi come conseguenza della adozione ‘incontrollata’ del frequentismo. De Finetti, inoltre, è un integralista, nel senso che non accetta la contemporanea presenza di vari modi di intendere la probabilità (carattere questo rimasto ben presente in alcuni suoi seguaci). La probabilità, per l’Italiano, è solo l’espressione di uno stato d’animo di un soggetto di fronte ad avvenimenti incerti, di stretta pertinenza della psicologia. Qualsiasi tentativo di renderla oggettiva è destinato a fallire ed a creare confusioni e ‘pseudo-problemi’ che sono di ostacolo alla formulazione della teoria. Ci sono due tipi di logiche: quella del certo e quella del probabile che hanno tra loro rapporti, ma sono diverse e non identificabili. Il calcolo delle probabilità non entra e non può entrare nel merito della valutazione dei casi possibili, e neppure suggerisce come si possa assegnare le probabilità iniziali. Queste sono frutto dell’individuo e del suo stato di conoscenze, che non è fissato una volta per tutte, ma è variabile. L’unica condizione è una regola di coerenza per cui se valuta ¼ la probabilità di uscita testa nel lancio della moneta, è obbligato a considerare ¾ la probabilità da assegnare all’uscita di croce. Così tutte le stime di probabilità degli eventi iniziali presentate in modo classico 173 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo e basate sulla configurazione geometrica, oppure frequentista o logicista possono essere utilizzate dal soggetto, come criteri sussidiari, ma anche scartate senza che questo pregiudichi il calcolo. L’identificazione della probabilità con la frequenza relativa, secondo lo schema bernoulliano, per De Finetti è un errore dovuto al fatto che non esistono eventi ripetibili e l’accettazione dell’infinito è al di fuori della portata reale del soggetto. Per garantire la coerenza si adopera di nuovo la scommessa. Sia dato un evento E, e il soggetto sia obbligato a scegliere di scambiare il possesso di una somma pS (la puntata) per ricevere la somma S (la vincita, anche se S potrebbe essere un numero negativo). Il gioco deve essere equo, cioè non ci deve essere qualcuno estraneo che guadagna sia in caso si verifichi l’evento E sia che non si verifichi. La valutazione della puntata è lasciata al soggetto e dipende dalle sue convinzioni e conoscenze. Non basta però una sola scommessa, in quanto il gioco, se è aleatorio, può presentare due o più alternative. Per fare una scommessa sull’uscita di una faccia di un dado a sei facce, bisogna essere disposti a fare anche scommesse sull’uscita delle altre facce presenti. Il sistema di credenze può essere incoerente (come avviene nella maggior parte dei giocatori di lotto, schedine, gratta e vinci, ecc.) cioè si concluderà con una perdita certa, oppure essere coerente, cioè la scommessa si può concludere con un guadagno possibile. Il principio di coerenza così formulato è la base da cui derivare i teoremi delle probabilità totali e delle probabilità composte. Ad esempio, siano E1, E2, …, En eventi incompatibili e di cui almeno uno deve verificarsi (una partizione di Ω). Siano p1, p2, …, pn le probabilità degli eventi valutate dal soggetto, in corrispondenza delle somme S1, S2, …, Sn (positive o negative, incognite) corrispondenti ai casi possibili. Siano G1, G2, …, Gn i guadagni corrispondenti. Si ottiene un sistema lineare considerando i guadagni, nella seguente forma 1 − p1 − p2 G1 = (1 − p1 )S1 − p2 S 2 − ... − pn S n G = − p S + (1 − p )S − ... − p S − p1 1 − p2 2 1 1 2 2 n n , con ... ... ... Gn = − p1S1 − p2 S 2 − ... + (1 − pn )S n − p1 − p2 ... − pn ... − pn =1-(p1 + p2 + … + pn) (dimo... ... ... 1 − pn strabile per induzione). Se il determinante è diverso da 0, allora si possono fissare arbitrariamente le somme in modo da ottenere guadagni arbitrari, ma in questo caso non si ha una partizione di Ω. In questo modo il soggetto andrebbe incontro ad una perdita certa, contrariamente al principio di coerenza. Se invece il determinante è zero, la scommessa è coerente, ma questo comporta (p1 + p2 + … + pn) = 1, vale a dire il teorema delle probabilità totali. Per ottenere il teorema delle probabilità composte, bisogna prima definire la probabilità dell’evento E condizionato al verificarsi dell’evento H. La scommessa in questo caso può essere valida o non valida. La seconda condizione è data dal non verificarsi di H, caso in cui la scommessa si ritiene annullata. Si pensi, ad esempio, alla scommessa che il Milan vinca la coppa dei campioni 2011 nel 174 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo caso arrivi alla finale. Se nella fase di qualificazione, la squadra viene esclusa dalla finale, la scommessa viene annullata. In base a questo sia R la posta, rR la somma che lo scommettitore è disposto a pagare. Il suo guadagno potrà essere R – rR in caso che si verifichino l’evento H e l’evento E, -rR nel caso che si verifichi l’evento H, ma non l’evento E, 0 nel caso che la scommessa sia annullata per il non verificarsi di H (e quindi riceva indietro la posta). Si è quindi in presenza di tre casi (il che apre un interessante legame con le logiche a più valori di verità). Siano ora p la probabilità di (E∧H), q la probabilità di H e r la probabilità di E|H. Si considerino poi le tre scommesse: la prima su (E∧H) con in palio P, la seconda su H con in palio Q e la terza su E|H con in palio la somma R. Si hanno i tre casi incompatibili (ed esaustivi) (E∧H), (¬E∧H) e ¬H. A queste corrispondono i 1− p 1− q 1− r G1 = P + Q + R − pP − qQ − rR guadagni G2 = Q − pP − qQ − rR il cui determinante − p 1 − q − r = p –qr. G = − pP − qQ − p −q 0 3 Come prima il caso in cui il determinante sia diverso da zero, allora si possono fissare arbitrarie somma e quindi la scommessa non è coerente. Se il determinante è zero, allora la scommessa è coerente, quindi p = qr. In questa forma non si apprezza il risultato, ma scrivendo p(E∧H) = p(H)·p(E|H), si ha la forma del teorema della probabilità composta (che in altri approcci) è la definizione di probabilità dell’evento condizionato. Se ora l’indipendenza è data dalla condizione p(E) = p(E|H), si ottiene immediatamente che qualora gli eventi E ed H siano indipendenti p(E∧H) = p(E)·p(H). Si osservi che per mostrare che l’indipendenza come è qui formulata con la probabilità condizionata è una relazione simmetrica comporta la accettazione del teorema di Bayes. Di qui si vede immediatamente che la nozione di indipendenza è soggettiva, legata alla valutazione di probabilità dell’individuo. Da questo approccio si può comprendere meglio l’asserto di Ramsey che i teoremi del calcolo delle probabilità sono condizioni di coerenza per le assegnazioni delle probabilità iniziali. L’opera di De Finetti, che qui si è esposta in modo assai sintetico, è assai profonda e dà modo al matematico italiano di provare vari altri risultati del consueto calcolo delle probabilità a partire dalla sua scommessa coerente. L’approccio soggettivista è stato ripreso da altri studiosi, specie italiani che hanno adottato le idee di De Finetti. Tra gli autori stranieri si citano Koopman e Savage. L’approccio soggettivo è stato, come tutti gli altri, oggetto di vari tipi di critiche. Intanto l’idea di bene (ed in ultima analisi di scommessa e di grado di credenza) viene messa in crisi sul fatto che il soggetto, implicitamente, viene pensato dotato Leonard Savage 1917 - 1971 di un capitale infinito. Infatti se l’individuo avesse uno stipendio mensile di 1.000 euro, una famiglia di 4 persone da mantenere, difficilmente sarebbe disposto a scommettere 175 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo 5.000.000 di euro sul lancio di una moneta anche se la vincita possibile sarebbe di 10 milioni di euro, anche se in 10.000 lanci precedenti della stessa moneta le frequenze assolute di testa e croce fossero state 5.000 per entrambe le facce. Una tale scommessa, coerente dal punto di vista della probabilità soggettiva sarebbe irrazionale per il soggetto. Se si adotta pienamente l’approccio soggettivista, bisogna tenere conto anche di questi aspetti ‘psicologici’ che influiscono sulla assegnazione delle probabilità iniziali. Un altro rischio che è stato messo in luce è che un approccio completamente soggettivista può portare alla introduzione di aspetti irrazionali e, si può dire, completamente prescientifici. Anche in altre discipline, in fin dei conti anche nella stessa geometria euclidea, si può trovare un primo stadio in cui il parere del singolo costituisce le basi, ma poi la teoria si sgancia da questi aspetti per adattarsi ai dettami del discorso scientifico. Con il soggettivismo inteso non correttamente (e senza i vincoli della coerenza) si può giungere alla negazione del razionalismo scientifico. Un’ultima osservazione. Negli anni in cui si sviluppa il soggettivismo nell’ambito logico e dei fondamenti, si presenta il contributo dell’intuizionismo (o più generalmente delle teorie costruttivistiche) che modificano la logica classica, in particolare il principio del terzo escluso. La coincidenza potrebbe sembrare fortuita, ma si tratta, forse, di una crisi generale del pensiero occidentale, come è stata teorizzata da alcuni filosofi. 5.4. L’assiomatizzazione del calcolo delle probabilità. Con gli anni ’30 del XX secolo, si può dire che siano state enunciati in modo abbastanza consolidato, i vari possibili approcci alla probabilità, e le discussioni che ne sono seguite sono servite a renderle più chiare. Anche nell’ambito dei Fondamenti della Matematica gli anni ’30 sono estremamente importanti per la presentazione, in tale periodo di vari teoremi limitativi . D’altra parte proprio in quegli anni si registravano notevoli risultati. Ad esempio le ricerche di Gosset, passato alla storia con il nome di Student, assieme ai risultati di Pearson e Fisher, avevano dato grande sviluppo alle applicazioni della probabilità e della statistica, ma erano ben pochi quelli che cercavano di fornire un quadro William Gosset 1876 - 1937 ‘ragionevole’ in cui collocare e armonizzare i vari approcci. Anzi sembrava che l’attenzione dei vari studiosi fosse incentrata nel trovare le pecche (o presunte tali) degli indirizzi di pensione diversi dai propri. 5.4.1. Kolmogorov. Proprio in quegli stessi anni lo studioso russo Kolmogorov prendeva una netta 176 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo posizione che avrebbe avuto grande influenza sul calcolo delle probabilità. Le sue idee fondamentali si possono riassumere in due punti: 1) Il calcolo delle probabilità è unico, anche se vi sono diverse interpretazioni del concetto di probabilità 2) deve essere possibile trascurare le polemiche su fondamenti e sviluppare in maniera puramente formale il calcolo delle probabilità. La metafora è quella della geometria: l’indagine sulla natura degli enti geometrici pur essendo filosoficamente rilevante, lascia spazio ad una presentazione assiomatica delle geometria nella versione di Euclide o in quella più formalizzata della fine dell’800 ed è sulla base di questa che poi si ottengono i teoremi. Così tralasciando il significato ‘ultimo’ di probabilità, deve essere possibile sviluppare un calcolo e sulla base degli assiomi formali, ricavarne i teoremi, anche perché, seguendo sempre l’esempio geometrico, gli assiomi servono a definire implicitamente i concetti stessi. In questo filone di indagine c’erano stati diversi tentativi, si può dire, a partire da Boole. Reichenbach nel 1932 presenta un articolo su Mathematischen Zeitschriften dal titolo Axiomatik der Wahrscheinlichkeitsrechnung. Altri tentativi, oltre a quelli citati di Keynes, si devono a L. Bohlmann nel 1901 e a S. Bernstein nel Sergei Bernstein 1880 - 1968 1917. Nel 1933 compare, in tedesco, Grundbegriffe der Wahrscheinlichkeitsrechnung. In esso, Kolmogorov non si limita a fornire gli assiomi per una teoria, ma mostra pure come sia possibile a partire da essi, giungere ai vari teoremi (o meglio a dimostrare le varie proprietà) che sono assunte dai diversi approcci. Un motivo del successo del suo approccio è stato quello di distinguere tra eventi elementari ed eventi in generale, fornendo, di fatto, le basi per la costruzione di un’algebra di eventi. I tempi erano anche maturi per utilizzare un linguaggio insiemistico che prescindesse, almeno in parte, dai vari concetti che hanno origine dal linguaggio naturale, al fine di presentare in modo ‘strutturale’ il calcolo delle probabilità. L’algebra degli eventi che così si crea utilizza ampiamente l’approccio logico-insiemistico di Boole, depurato dalla infelice scelta della somma logica. 5.4.2. Gli assiomi di Kolmogorov. Presentiamo l’assiomatizzazione, mettendone in luce alcuni aspetti critici. Sia dato un insieme Ω i cui elementi sono detti eventi elementari. Sia F ⊆ P(Ω) un opportuno sottinsieme dell’insieme dei sottinsiemi di Ω, i cui elementi saranno detti eventi casuali (o più semplicemente eventi). Fissati questi aspetti si richiedono i seguenti assiomi K1. F è un campo di insiemi. 177 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo K2. Ω∈F K3. Per ogni E∈F esiste un numero reale non negativo p(E), detto la probabilità di E. K4. p(Ω) = 1. K5. Se E, H∈F, e (E∩H) = ∅, allora p(E∪H) = p(E) + p(H). Il primo punto critico è implicito nella nozione di ‘campo di insiemi’. O meglio, si stabilisce che un generico sottinsieme di P(Ω) è un campo di insiemi se ogni volta che E, H∈F, allora anche (E∩H), (E∪H) e (E-H) sono elementi di F. Con l’aggiunta dell’assioma K2, si ha che F è una sottoalgebra di Boole di P(Ω). Facendo riferimento alla presentazione assiomatica delle algebre di Boole data in 1.1.5. come struttura astratta, è facile constatare che identificando Ω con 1, ∅ con 0, le operazioni di unione ed intersezione con le operazioni ∨ e ∧, e la sottrazione da Ω all’operazione -, rispettivamente, le restrizione a F delle operazioni di algebra di Boole su P(Ω) sono operazioni su F. Essendo le algebre di Boole definite mediante formule universali seguite da uguaglianze di termini, esse sono verificate anche quando gli elementi coinvolti sono appartenenti a F ed il risultato, per la condizione di ‘campo di insiemi’ è ancora un elemento di F. Si possono quindi conglobare gli assiomi K1 e K2 in uno solo, che affermi il fatto che F sia una sottoalgebra di Boole. Potrebbe venire il dubbio che la differenza di due insiemi sia ‘più generale’ del ‘complemento’ a Ω, ma si osservi che (E – H) altro non è che (E∩(Ω-H)). Una cosa che non è detta e che non è possibile decidere a partire dagli assiomi dati è se gli eventi elementari sono elementi di F, oppure quali tra essi sono elementi di F. Banalmente, data la natura di F la risposta immediata è che nessun evento elementare appartiene a F, essendo F un insieme di sottinsiemi di Ω e, a meno che Ω non abbia, di per sé, una struttura insiemistica complessa del tipo degli ordinali di Von Neumann, in generale ciò non accade. Si può tuttavia ovviare al problema considerando come eventi elementari i singoletti di essi. In tale modo si può associare ad ogni evento elementare un evento casuale. Dal punto di vista delle algebre di Boole, ciò significa considerare ‘atomi’ (cfr. nota John Von Neumann 1903 - 1957 3 in 1.1.4.). Il fatto se F è una sottoalgebra di Boole atomica o no e se ha degli atomi, può sembrare poco interessante. Si osservi però che se F è atomica allora esiste un Ω’ ⊆ Ω tale che F sia (isomorfa) a P(Ω’). Una volta chiarita la necessaria struttura sugli eventi, gli assiomi K3 – K5 riguardano la ‘misura’. Di fatto, l’assioma K3 è formulato in modo poco soddisfacente. La sequenza dei quantificatori ‘per ogni’ – ‘esiste’ permette solo di istituire una relazione (corrispondenza) p ⊆ (F×R0+), in quanto non è detto, né è ricavabile immediatamente dagli assiomi, che l’associazione tra evento e numero reale 178 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo non negativo sia funzionale. La scrittura usata nell’assioma K3 è di tipo funzionale, ma è possibile provare ciò in due modi: o c’è un teorema che rafforza l’assioma K3 introducendo un quantificatore universale unico (cioè per ogni evento c’è un unico numero reale ad esso associato), oppure si fa ricorso all’assioma di scelta in base al quale (in una delle sue formulazioni equivalenti) data una relazione p ⊆ (F×R0+), esiste (e in generale non è unica) una funzione p* tale che p* ⊆ p e dom(p*) = dom(p). Tutto questo sarebbe evitato se si chiedesse l’esistenza di una funzione p: F → R0+. Nel seguito con 3* si indicherà l’assioma (più forte di K3) di esistenza della funzione p. Con l’assioma K3 (o K3*) si abbandona, a stretto rigore di termini, l’ambito delle strutture algebriche (cosa che avviene anche per gli spazi vettoriali). Gli altri due assiomi qualificano la funzione p come una misura. A questo punti si definisce (Definizione 1) campo o spazio di probabilità, la coppia ordinata 〈F,p〉 ove F è un campo di insiemi e p è una funzione soddisfacente gli assiomi K3 – K5. In base ai tre assiomi della misura si possono ottenere alcune importanti conseguenze. T1. ∅∈F e p(∅) = 0. Come primo passo, da K2 si ha che Ω∈F, e per K1, (Ω-Ω)∈F, ma (Ω-Ω) = ∅. Si ha poi (∅∩∅) = ∅ e pure (∅∪∅) = ∅, quindi da K3*, p(∅)∈R e per K5, p(∅) = p(∅∪∅) = p(∅) + p(∅), da cui p(∅) = 0. T2. Per ogni E∈F, p(E∪(Ω-E)) = 1, inoltre p(Ω-E) = 1 – p(E). Intanto per K2 e K1, si ha che (Ω-E), Ω = (E∪(Ω-E))∈F, inoltre, per motivi insiemistici (E∩(Ω-E)) = ∅, quindi per K5 e K2, 1 = p(Ω) = p(E∪(Ω-E)) = p(E) + p(Ω-E). T3. Per ogni E,H∈F, se E ⊆ H, allora p(E) ≤ p(H). Infatti si può scrivere H = (E ∪(H-E)) con (E∩(H-E)) = ∅, quindi p(H) = p(E) + p(H-E) ≥ p(E), in quanto, p(H-E) ≥ 0. Come corollario di questo risultato, essendo per ogni E∈F, si ha ∅ ⊆ E ⊆ Ω, si ha 0 = p(∅) ≤ p(E) ≤ p(Ω) = 1. Una generalizzazione di K5 è data dalla ‘finita addittività’ di p. T4. Siano E1, …, En∈F, tali che per ogni coppia di indici 1 ≤ i,j ≤ n, con i ≠ j, (Ei ∩Ej) = ∅, allora n n p U Ei = ∑ p(Ei ) . Si dimostra, per induzione, che l’unione (finita) di elementi di F è ancora un i =1 i =1 elemento di F, sfruttando la proprietà associativa della unione insiemistica. La base induttiva è ovvia. Si assume che l’unione di k eventi casuali sia un evento casuale, allora anche l’unione di k+1 eventi casuali la si può ricondurre all’unione di due elementi di F, quindi ancora un elemento di F. Il passaggio alla probabilità è analogo: si assume l’asserto per k eventi casuali, poi, dato che 179 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo k U E ∩ E = ∅ e k +1 j =1 j k +1 k k +1 U E j = U E j ∪ Ek +1 , si ha p U E j = j =1 j =1 j =1 k p U E j + p (Ek +1 ) = j =1 k +1 k ∑ p (Ej ) + p (Ek +1 ) = ∑ p E j . L’asserto risulta così provato per ogni numero naturale positivo. j =1 j =1 ( ) Grazie a queste richieste assiomatiche ed alle proprietà provate, si può ‘istituire’ una corrispondenza linguistica tra fatti insiemistici e il linguaggio probabilistico Relazione insiemistica E∈F (E∩H) = ∅ Linguaggio probabilistico E è un evento casuale Gli eventi casuali E ed H sono incompatibili n I Ei = ∅ i =1 Gli eventi casuali E1, …, En sono incompatibili. n H = I Ei i =1 H è l’evento che si verifica quando si verificano contemporaneamente gli eventi E1,…,En. n U Ej =Ω j =1 Gli eventi causali E1, …, En sono esaustivi. n H = U Ej j =1 (Ω-E) E=∅ E=Ω E⊆H Una partizione di Ω H è l’evento che si verifica quando si verifica almeno uno degli eventi E1,…,En. L’evento causale che si verifica quando non si verifica E. E è impossibile E è certo Quando si verifica E deve verificarsi necessariamente H. Un esperimento. Questa ‘traduzione’ mette ordine in tante dizioni tradizionali, dandone una ‘giustificazione’ insiemistica, che era impossibile prima della seconda metà del secolo XIX. La presentazione di Kolmogorov procede introducendo la nozione di probabilità condizionata Definizione 2. Siano E e H eventi casuali, e si abbia p(H) ≠ 0, allora si pone pH(E) = p (E ∩ H ) . p (H ) Si prova immediatamente che p(E∩H) = p(H)·pH(E); inoltre si dimostra che se 〈F,p〉 è un campo di probabilità, in base alla Definizione 1, allora per ogni evento casuale H tale che p(H) ≠ 0, si ha che anche 〈F,pH〉 è un campo di probabilità. Kolmogorov sull’argomento della indipendenza afferma che si tratta di uno degli argomenti più importanti della filosofia della probabilità. Egli ne dà una definizione che ne fa una proprietà degli eventi e non degli eventi e della probabilità. Definizione 3. Dati n esperimenti (partizioni di Ω), essi sono indipendenti se comunque scelti in ciascuno di essi un evento casuale, la probabilità che gli n eventi casuali scelti si verifichino contemporaneamente è il prodotto delle probabilità dei singoli eventi. 180 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo Da questa formulazione, nel caso particolare di due eventi si ha la nozione solita di indipendenza, ma nel caso di più di due, non si ottiene la nozione ‘standard’ di indipendenza stocastica. La proposta di Kolmogorov su questo tema non è soddisfacente perché la nozione di indipendenza di eventi casuali è connessa a quella più particolare di esperimento (in cui è implicitamente presente la condizione di incompatibilità). Per chiarire la cosa bisognerebbe introdurre in modo assiomatico anche le nozioni di prova ed esperimento. Gli assiomi di Kolmogorov non permettono di ‘estendere’ il risultato di T4 ad una successione infi∞ ∞ nita di eventi a due a due incompatibili. Per permettere di identificare p U Ei e ∑ p E j è indij =1 i =1 ( ) spensabile aggiungere un nuovo assioma. K6. Sia f: N → F una successione di eventi casuali tali che per ogni k∈N, f(k+1) ⊆ f(k) e ∞ I f (i ) = ∅ , allora lim p ( f (n )) = 0 . i =1 n →∞ In base a K6, nel caso che F sia un insieme finito la proprietà espressa dall’assioma, si prova come un teorema ottenuto dagli assiomi precedenti. Più interessante è provare che se vale K6, allora si può provare ∞ T5 Sia f: N → F una successione di eventi casuali, tale che U f (i ) ∈F, e per ogni i,j indici tali i =1 ∞ ∞ che i ≠ j, (f(i)∩f(j)) = ∅, allora p U f (i ) = ∑ p ( f ( j )) . Si osservi che al secondo membro è indij =1 i =1 cata una serie a termini non negativi, e essa può solo convergere o divergere. Per dimostrare ∞ l’asserto, sia H = U f (i ) , allora si pone g(0) = H, e per ogni numero naturale positivo n, sia g(n) i =1 n = H − U f (i ) , essendo F un campo di insiemi, per ogni n si ha g(n)∈F. In tale modo si prova i =1 che g: N → F è quindi una successione di eventi casuali. Inoltre si ha g(1) ⊆ g(0); g(2) ⊆ g(1), e, più in generale, per ogni m, g(m+1) ⊆ g(m), come si può provare con una semplice dimostrazione ∞ per induzione. Si ha inoltre I g ( j ) = ∅ . Infatti se tale intersezione non fosse vuota e sia x un elej =0 mento della intersezione, allora per ogni k∈N, si avrebbe x∈g(k). In particolare si avrebbe x∈g(0), ∞ cioè, essendo g(0) = H, x∈ U f (i ) . Esiste allora m∈N tale che x∈f(m) e tale evento casuale, per i =1 181 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo m le condizioni di incompatibilità è l’unico per cui ciò accade. Ne segue che x∈ U f (i ) , quindi i =1 m x∉ H − U f (i ) , vale a dire x∉g(m), in contrasto con l’ipotesi (assurda) che per ogni indice k, i =1 ∞ x∈g(k). Si ottiene così che I g ( j ) = ∅ . j =0 Per il nuovo assioma K7, si ha che lim p ( g (n )) = 0 , vale a dire, per ogni ε > 0, esiste h∈N, tale n →∞ h+ r che per ogni r∈N, |p(g(h+r))| < ε. Ciò comporta che p H − U f (i ) < ε. D’altra parte i =1 h+ r h+ r H = H − U f (i ) ∪ U f (i ) i =1 i =1 h+ r p (H ) − p U f (i ) = i =1 e h+r h+ r H − U f (i ) ∩ U f (i ) = ∅ , i =1 i =1 quindi per K5, h+ r h+r p H − U f (i ) , di qui p (H ) − ∑ p( f (i )) < ε. Si rammenti che ε > 0 è arbii =1 i =1 n trario e che si è così provato che p(H) = lim p ∑ p ( f (i )) . Tale risultato viene spesso citato col n →∞ i =1 nome di σ-addittività. Questa dimostrazione non è possibile senza la condizione che l’unione infinita di eventi casuali sia un evento casuale. Tale condizione caratterizza, tra i campi di insiemi, i cosiddetti campi di insiemi di Borel. Kolmogorov introduce poi esplicitamente il concetto di variabile aleatoria (reale). Emile Borel 1871 - 1956 Borel aveva scritto, in un ampio periodo che va dal 1905 al 1950 circa una cinquantina di opere sulla probabilità. Aveva sempre evitato di ‘prendere posizione’ nella disputa tra i vari approcci al concetto, preoccupandosi di mostrare (emulo di Laplace) il valore pratico del calcolo delle probabilità in vari tipi di applicazioni. Le opere in cui maggiormente riassume le sue posizioni sono Le jeu, la chance et les théories scientifiques contemporaines (1941), Les probabilités et la vie (1943). Secondo il Francese, le probabilità sono analoghe alle misure delle grandezze fisiche, cioè non è possibile conoscerle senza una intrinseca approssimazione. Questo tipo di approssimazione è pare integrante del nostro modo di conoscere e per provarlo si rifà ad un paradosso di Zenone di Elea, noto col nome di Paradosso Sorite. Lo si può presentare con il concetto di mucchio: un chicco di grano non è un mucchio e non si può neppure affermare che due chicchi di grano costituiscano un mucchio. Esiste un numero ‘di soglia’ oltre al quale un insieme di chicchi di grano si può considera- 182 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo re un mucchio? Possiamo dire che 325.647 chicchi di grano non costituiscono un mucchio, ma 325.648 chicchi sì? Ebbene, se è impossibile fissare un numero di soglia, è anche impossibile conoscere cosa significhi la dicitura ‘un mucchio di grano’. Queste parole non hanno un significato, sebbene, in casi estremi tutti siano d’accordo sull’attribuzione di un significato. Lo stesso avviene con i concetti connessi alla probabilità. Il contributo fondamentale di Borel alla probabilità è conseguenza delle sue ricerche sulla teoria della misura, connessa coi problemi sullo studio delle funzioni e dell’integrazione. Negli assiomi di Kolmogorov traspare la teoria della misura negli assiomi K3 – K5, ma più ancora il suo debito con Borel è conclamato nell’assioma K6. In seguito Kolmogorov avrebbe affermato che la condizione di σ-additività che fa della probabilità una misura (nel senso della analisi), l’avrebbe accettata perché altrimenti non sarebbero stati semplici le considerazioni sulle variabili aleatorie. A questa scelta si può applicare lo stesso giudizio che Venn dà dell’opera di Laplace e Poisson: non sono le proprietà intrinseche della probabilità che fanno scegliere gli assiomi, ma le necessità analitiche. Questa scelta è stata ampiamente criticata (e rifiutata dai soggettivisti), perché si tratta di introdurre una ‘sovrastruttura’ ideale che è stata decisa indipendentemente (che fa intervenire l’infinito). Infatti senza avere fissato prima un campo di insiemi di Borel non è possibile definire la probabilità come funzione. Se si deve affrontare un problema di probabilità su un dado (o un qualunque gioco) gli eventi elementari sono in numero finito, allora l’algebra di Boole P(Ω) è un campo di insiemi finito (e quindi per una osservazione precedente, di Borel). Ma se l’insieme Ω è infinito, ci possono essere, oltre a P(Ω) vari campi di insiemi di Borel, che possono differire per gli eventi elementari che si considerano ad essi appartenenti (via i singoletti). Dato allora un problema specifico che, ad esempio, coinvolga i numeri reali, quale campo di insiemi di Borel si considera per definire la probabilità? La coppia campo di insiemi – probabilità è allora definibile solo in modo interdipendente. Ne risulta così che nella definizione di misura è presente una forma subdola di circolo vizioso. Si potrebbe pensare che si possa ‘fissare’ P(R) come campo di insiemi di Borel ‘standard’ e definire su di esso una misura che possa andare bene per tutti i problemi di probabilità che coinvolgono i numeri reali. In questo caso si assume che i singoletti abbiano misura nulla. Purtroppo ciò non è possibile in base ad un teorema di Ulam in cui riprova che una misura siffatta esiste ed è quella identicamente nulla, quindi non soddisferebbe K4. In seguito si è compreso che il problema è legato strettamente alla cardinalità Stanislaw Ulam 1909 - 1984 dell’insieme dei numeri reali, grazie alla ‘scoperta’ dei cardinali misurabili. L’approccio assiomatico è oggi molto utilizzato, nonostante le critiche che esso 183 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Capitolo 5. Probabilità nel XX secolo porta con sé. Sicuramente lo strumentario analitico che permette offre la possibilità di trattare e risolvere vari tipi di problemi, ma appare come la proposta moderna di una forma di determinismo. 184 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Indice Indice degli Autori Pagina della prima citazione In blu con ritratto, In nero con sola data In rosso senza data Nome Agostino Alessandro VII→Chigi Anassagora Anna di Inghilterra Apollonio di Perge Arbuthnot Arcesila Archimede Aristotele Arnauld Bacon F. Bagni Baily Baldi Barra Bartolomeo di Medina Battelli Bayes Bernolli Jacob (I) Bernoulli Daniel Bernoulli Johann (I) Bernoulli Nicolas (I) Bernstein S. Beth Bohlman Boole Borel Bourbaki Bradley Buffon Canton Cantor Cardano Carnap Carneade Cartesio Cauchy Cayley Chigi Church T. Clairaut Condorcet Costantini Cournot Cramer D’Alembert Dall’Aglio De Carcavi Pierre Dedekind De Finetti Defoe De Fontenelle De Fournival De Liguori De Méré De Moivre De Morgan Deparcieux De Witt Diofanto Dupré de Saint Maure Duvillard Ellis Euclide Eulero Feller Fermat Feyerabend Fisher Galilei Gauss Giansenio→Jansen Gibbon Gosset Grandi Graunt Gregorio di Nazianzio Grimaldi Hacking Halley Hamilton W.R. Hamilton W.S. Hasse Henry Hudde Hume Huygens Pag data 46 354-430 118 496 – 428 a. C. 82 1665 - 1714 69 III sec. a.C. 81 1667 - 1735 45 315-241 a.C. 62 287 – 212 a.C. 4 384-322 a.C. 56 1612-1694 67 1561-1626 60n 140 137 45 46 20 79 1702 - 1761 60 1654-1704 138 1700 - 1782 85 1667 - 1748 61 1687-1759 177 1880 - 1968 13 1908-1964 177 1 1815-1864 182 1871 - 1956 1 148 1846 - 1924 97 1707 - 1788 100 6 1845-1918 45 1501-1576 166 1891 - 1970 45 219-129 a.C. 53 1596-1650 150 1789 - 1857 142 1821 - 1895 46 1599-1667 185 59 132 115 46n 150 98 115 47n 47 25 173 58 97 45 47 47 87 143 140 57 53 140 140 151 28 4 33n 47 60n 162 45 93 46 58 176 139 57 46 139 58n 69 142 154 7 45 57 59 53 1713 - 1765 1743 - 1794 1801 - 1877 1704 - 1752 1717-1783 1600 - 1684 1831-1916 1906 - 1985 1660-1731 1657 - 1757 1201-1260 1696-1787 1667 - 1754 1806 - 1871 1625 -1672 III sec. d.C. IV sec. a.C. 1707-1783 1906 - 1970 1601-1665 1924-1994 1890 - 1962 1564-1642 1777 - 1855 1737-1794 1876 - 1937 1671 - 1742 329-390 1656-1742 1805 - 1865 1788 - 1856 1898-1979 1628-1704 1711-1776 1629 - 1695 C Marchini - Appunti di Matematiche complementari AA 2010 – 2011 Indice Innocenzo X →Pamphili Jansen Jevons Kant Kersseboom Keynes Kneale Kolmogorov Lagrange Lakatos Laplace Leibniz Luigi XVIII Malebranche Messène Moheau Montmort Napoleone Newton Nicole Pacioli Pamphili Paola Pascal Pearson Peirce C. Poisson Price Ramsey Rasiowa Reichenbach Robartes (Lord Radnor) Roberval Gilles Personne Russell Savage Schlick Schröder Sciacchitano Seneca Shannnon Sikorski Simi Simpson Stifel Stirling Stone Sussmilch 46 148 115 140 164 58 145 122 64 92 57 117 84 140 140 84 116 59 56 45 46 47n 33 162 13 141 100 171 4 159 88 48 6 175 160 13 60n 131 Tartaglia Taylor Todhunter Tommaso d’Aquino Tonelli Toti Rigatelli Ulam Van Schooten Venn Von Ettinghausen Von Linné Von Mises Von Neumann Wallis Wargentin Waring Wilkins Wittgenstein 1585-1638 1835 - 1882 1724-1804 1883 - 1946 1903 - 1987 1736 - 1813 1922-1974 1749 - 1827 1646-1716 1638 - 1715 1678 - 1719 1642-1727 1625- 1695 1445-1517 1574-1655 1623-1662 1857 - 1936 1839-1914 1781 - 1840 1903 - 1930 1917-1994 1891 - 1953 1602-1675 1872-1970 1917 - 1971 1882 - 1936 1841-1902 4 a.C – 65 d.C. 1916-2001 1920-1983 14 4 45 140 33 1487-1567 93 1692 - 1770 14 1903-1989 140 186 33 33 45 46 19 45 183 53 4 73 98 157 178 140 140 89 57 13 1500-1557 1685-1731 1225-1274 1885-1946 1909 - 1984 1615-1660 1834-1923 1796 - 1878 1707 - 1778 1883 - 1953 1903 - 1957 1736 - 1798 1889-1951