capitolo 5. breve excursus sulla probabilità nel xx secolo.

C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
CAPITOLO 5. BREVE EXCURSUS SULLA PROBABILITÀ NEL XX SECOLO.
5.1. Il frequentismo.
Si tratta dell’approccio alla probabilità che è poi confluito principalmente nei corsi di laurea in Statistica. Oggi, tra alcuni statistici, si preferisce non parlare di probabilità, ma dedurla direttamente
dalla presentazione di problemi statistici. I maggiori sostenitori di questo modo di intendere la probabilità, nei primi anni del XX secolo sono di cultura tedesca.
5.1.1. Richard Von Mises. 1 Il matematico austriaco è nato nella città che era nota col il nome di Lemberg, sotto l’Imperial Regio Governo, ed oggi con quello
di Lvov in Ucraina. Ha avuto una vita movimentata, pilota militare, insegnante
in molti paesi e poi di trasferitosi ad Harvard, USA nel 1944. I suoi contributi
Richard Von Mises
1883 - 1953
matematici riguardano la matematica applicata, oltre al calcolo della probabilità.
Interessanti anche le sue posizioni sul positivismo. Le sue idee relative alla pro-
babilità sono principalmente esposte nel saggio Wahrscheinlichkeit Statistik und Wahrheit. Einführung in die neue Wahrscheinlichkeitslehere und ihre Anwendung, del 1928, quando Von Mises era
a Berlino, primo direttore dell’Istituto di Matematica applicata. Il testo era stato preceduto da un articolo del 1919. Del testo sono state pubblicate numerose edizioni con variazioni. Quella definitiva
è del 1951. Nel 1957 ne è apparsa una traduzione in Inglese, dal titolo Probability, Statistics and
Truth.
Le idee generali cui si ispira Von Mises sono abbastanza complesse. Per lui il calcolo delle probabilità non è matematica ‘pura’, ma è il risultato di una matematizzazione e l’esempio che fa è quello
della Fisica matematica o della Geometria. Questi due esempi, che hanno una tradizione più consolidata, vengono comunemente accettati come gli studi di specifici contenuti, ad esempio nel caso
della Geometria, lo spazio e le sue generalizzazioni. Così, per Von Mises, il calcolo delle probabilità ha per oggetto esclusivamente lo studi di fenomeni ‘di massa’ e degli eventi ripetibili. Con questa
scelta, una delle obiezioni al frequentismo, quella dei fenomeni singolari, cade immediatamente.
Come negli esempi fatti di teorie matematizzate, il linguaggio comune e quello specifico, pur avendo una reciproca ‘risonanza’, sono distinti. Allo stesso modo bisogna distinguere il significato
scientifico e quello comune di una stessa parola. Per questo la rilevanza di un termine nel linguaggio scientifico non è e non può essere ‘misurata’ dal complesso dei suoi legami con altre nozioni,
sempre relative al linguaggio comune. La scienza dovrà essere costruita come una teoria basata su
1
Per l’intero capitolo ci si avvale di Costantini (1970).
157
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
concetti esatti e semplici, che così permettono una riproduzione ed una gestione delle loro proprietà,
anche se inadeguate a ‘rinchiudere’ nei termini formali, la ricchezza dell’esperienza comune. Il caso
della parola ‘probabilità’ ricade nelle considerazioni che precedono. Essa viene (e veniva) usata in
varie accezioni. Ad esempio (politico) ‘È probabile che la spedizione militare NATO in Afganistan
finisca con un successo entro tre anni’ non vuole dire che si sta valutando in modo scientifico la
probabilità di un evento che per sua stessa natura, è singolare, quindi, non rientra nell’abito del calcolo (scientifico) delle probabilità, come inteso da Von Mises. Pertanto, per parlare di probabilità
c’è bisogno di delimitare il campo ove indagare, tralasciando quei casi che non rientrano nelle condizioni poste. Il concetto scientifico di probabilità è applicabile solo in presenza di eventi ripetuti (e
ripetibili) in modo uniforme. Un esempio ‘scientifico’ è rappresentato dalle tavole di mortalità: in
base alla concezione frequentista non ha senso, né correttezza, affermare che la probabilità che
l’individuo A muoia tra il 65mo e 66mo compleanno è x, ma solo che la probabilità di morte di tutti
coetanei di A tra il 65mo e il 66mo compleanno è x.
Il ‘costo’ di questo approccio è stato notevole, perché le critiche alla proposta di Von Mises furono
molto vivaci. Il nostro giunse ad ammettere che sarebbero possibili ‘estensioni’ che comprendano
fenomeni che sono esclusi dalla sua proposta originale.
Il concetto base espresso dal frequentiamo è quella di collettivo. Si può pensare ad esso come una
successione di eventi uniformi che differiscono per certi attributi osservabili. La probabilità si riferisce osservabilità di un attributo in un collettivo. Un semplice esempio è quello del lancio di un dado. Una serie di lanci di un dado è un collettivo. Gli attributi osservabili sono allora i numeri di punti sulla faccia del dado e le frequenze delle uscite delle singole facce nei lanci. Si supponga che la
faccia con tre punti, in 6000 lanci si presenti con frequenza assoluta 1020. La frequenza relativa
dell’attributo 3 nei 6000 lanci è: 1020/6000 = 17/100. Continuando i lanci può accadere che la frequenza
relativa si stabilizzi attorno ad un certo valore, oppure continui a presentare ampi sbalzi di valore.
Solo nel primo caso si potrà parlare di probabilità, mentre nel secondo il passaggio dalla frequenza
relativa alla probabilità appare inappropriato.
Ma l’osservazione sperimentale, osserva Von Mises, ci assicura che in tutti i fenomeni di massa la
frequenza relativa di un certo attributo si stabilizza con l’aumentare del numero delle osservazioni.
È questa ‘proprietà della natura’ che permette la costruzione del calcolo delle probabilità. Sono evidenti, in questa posizione, le premesse metafisiche che saranno poi usate per criticare la proposta
frequentista.
Si giunge in tale modo alla definizione: la probabilità di un certo attributo in un collettivo dato è il
limite al quale tende la frequenza relativa dell’attributo con l’aumentare del numero di osservazioni.
158
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
La dizione ‘probabilità di un evento’ è una comoda abbreviazione di ‘probabilità di un certo attributo in un collettivo dato’, escludendo così immediatamente gli eventi singolari, cioè non ripetibile o
non riconducibile ad un collettivo.
Non ogni insieme (di esperienze, eventi) è un collettivo, per esserlo devono essere soddisfatte le seguenti condizioni: deve essere una successione illimitata (quindi è rilevante l’aspetto ordinale) ed
inoltre la frequenza relativa di ciascun attributo deve tendere ad un limite fissato, interpretando le
parole ‘tendere’ e ‘limite’ in un senso non precisato e non coincidente con quello usuale in analisi.
Ulteriore condizione per i collettivi è il cosiddetto principio di casualità o principio
dell’impossibilità di un sistema di gioco: deve essere possibile eliminare secondo una regola assegnata, alcuni elementi del collettivo senza che la frequenza relativa dell’attributo in osservazione
cambi.
Per meglio chiarire l’ultima condizione si supponga di percorrere una strada statale in cui sono posizionati a distanza di un kilometro cartelli indicatori della distanza, mentre nel tratto tra un cartello
e l’altro sono presenti 9 cippi numerati I – IX in modo che il primo disti dal primo cartello 100 m e i
successivi sono posizionati 100 m uno dal successivo e dal precedente, con l’esclusione del cippo
numerato IX che è a 100 m dal ‘successivo’ cartello indicatore. Un generico tratto di strada si può
considerare come la successione …VII VIII IX C I II III IV V VI VII VIII IX C I II…
Il problema è la richiesta di determinare la probabilità che fermandosi in un punto a caso il segnalatore di distanza più vicino sia un cartello. Il problema si può risolvere considerando un dado con
dieci facce ed in questo caso la probabilità potrebbe essere 1/10. Diversamente se si considera una
lunga strada come collettivo, la frequenza relativa dei cartelli è prossima a 1/10. Se però ora si decidesse di eliminare tutti i cippi con i numeri I, II e III, la frequenza relativa dei cartelli aumenterebbe
a 1/7. Il principio di casualità esclude che questa situazione rappresenti un collettivo. Se in una successione di osservazioni questo principio non viene rispettato, allora si parla di chance di un attributo, distinguendola dalla probabilità.
Von Mises passa poi ad illustrare operazioni sui collettivi per poter ‘imitare’ operazioni sugli eventi, fornendo regole sul comportamento delle probabilità sui collettivi risultanti.
Da questa sintetica presentazione si intuisce che l’approccio frequentista, pur se migliorato e più
specificato rispetto a quello degli studiosi del secolo precedente, presenta il fianco a numerose critiche, che sono state espresse anche da altri studiosi che si riconoscevano nell’approccio frequentista .
Hans Reichenbach
1891 - 1953
5.1.2. Reichenbach. Nato ad Amburgo studia presso varie università tedesche seguendo così corsi di Matematica, Fisica e Filosofia con i più illustri scienziati e
159
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
filosofi tedeschi del suo tempo. Fa fatica a sostenere la sua tesi di dottorato, sulla filosofia della
probabilità, Der Begriff der Wahrscheinlichkeit für die mathematische Darstellung der Wirklichkeit,
proprio perché il contenuto è innovativo sia dal punto di vista matematico che da quello filosofico.
Finalmente viene accettata all’Università di Erlangen. Partecipa alla I guerra mondiale e al ritorno tenta la strada universitaria. Nel frattempo si occupa di trasmissioni radiofoniche e per questo ottiene un notevole successo. Nel 1928 viene assunto come professore di Filosofia della Fisica all’Università di Berlino e nello stesso
anno fonda un circolo culturale, noto col nome di Circolo di Berlino, ispirandosi al
Circolo di Vienna, organizzato da Schilck a Vienna a partire dal 1922, Tra i due
circoli culturali si ebbero intensi e fecondi scambi ed una certa identità di intenti
Moritz Schlick
1882 - 1936
rinnovativi. Nel 1935 pubblica Wahrscheinlichkeitslehere. Eine Untersuchung über die logischen
und mathematischen Grundlagen der Wahrscheinlichkeitsrechnung, mentre era insegnante al Politecnico di Istanbul essendo fuggito dalla Germania per la sua parentela con ebrei e per la sua posizione assai critica nei riguardi del Nazionalsocialismo espressa in ogni sua trasmissione radiofonica.
Reichenbach accetta la tesi fondamentale di Von Mises (di cui era stato studente), in base alla quale
la probabilità è il limite della frequenza relativa. È però molto critico sull’idea del collettivo, e vede
le condizioni poste per individuare un collettivo come inutili limitazioni, giustificabili per ragioni di
semplicità di calcolo, ma non ‘intrinseche’ alla nozione di probabilità. Inoltre rifiuta il concetto ‘vago’ di limite con cui viene presentata la nozione dal suo insegnante, e propone di adottare la nozione standard in Analisi matematica. Ai collettivi sostituisce generiche successioni (conservando
quindi l’aspetto ordinale), che nel suo approccio prendono il nome di classi di riferimento. In tale
modo per parlare di probabilità in maniera accettabile, secondo Reichenbach, c’è comunque bisogno di una classe di riferimento. Ben presto si rende conto che nel suo approccio rientrano casi poco
‘trattabili’ e per questo introduce il concetto di “successioni normali” in cui il ruolo della probabilità
diviene rilevante.
Di fatto queste condizioni differenziano sostanzialmente i due approcci frequentisti: per Von Mises
lo studio delle successioni con le varie qualità è condizione necessaria per la probabilità, per
l’Amburghese la probabilità non è legata ad alcuna successione, ma serve solo per individuarne opportune classificazioni.
Reichenbach propone anche una soluzione per il problema degli eventi singolari con il cosiddetto
‘Metodo del posit’. Esso si basa sull’utilizzazione, nei casi singolari di affermazioni probabilistiche
che, comunque fanno riferimento a classi di riferimento qualora si debbano prendere delle decisioni
che riguardano casi singolari, facendo ‘finta’ che ci sia una classe di riferimento cui appartiene
l’evento singolare. Un esempio chiarisce meglio. Si consideri un esperimento e sulla base di una
160
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
opportuna classe di riferimento legata all’esperimento, si determini la frequenza relativa dell’evento
B data da ¼. Alla domanda se in un successivo esperimento si verificherà B, non è possibile utilizzare la probabilità, trattandosi di un evento singolare. Tuttavia, riferendosi alla precedente classe di
riferimento, alla domanda Reichenbach risponde negativamente, perché se si dovesse ripetere più
volte si otterrebbe la probabilità ¼. L’affermazione negativa non può essere scambiata come una asserzione vera, ma un ‘posit’. Cioè si pone ‘non B’, come una scommessa in un gioco aleatorio. Il
tentativo, che per alcuni casi, come la puntata sull’uscita di un numero, può sembrare ragionevole,
diviene improponibile in ambito scientifico. Inoltre le scelte del posit non dovrebbero essere fatte
solo su una classe di riferimento, ma su una ‘classe di riferimento’ di classi di riferimento, altrimenti acquista caratteri di una probabilità assegnata a priori, sulla base di una definizione classica o di
una affermazione soggettiva.
Un altro aspetto che differenzia Reichenbach da Von Mises è che per esprimere la sua teoria il discepolo utilizza i metodi della logica simbolica. Inoltre tratta temi che non sono stati presi in considerazione dal Maestro.
Nella proposta frequentista è inevitabile scontrarsi col problema della induzione. Il fatto ideale di
potere prolungare all’infinito una successione di esperimenti richiede che si possa giungere ad un
risultato concreto, sulla base dell’induzione sperimentale. Resta poi aperto il problema delle probabilità iniziali perché l’approccio mediante la frequenza non giustifica pienamente come assegnare
probabilità (limiti) sulla base delle quali provare la convergenza delle frequenze relative. Il limite
diviene quindi un motivo di ‘irrealtà’ che non può giustificarsi sulla base della sola esperienza concreta. Von Mises non affronta questo problema, Reichenbach sì, consapevole che la sua soluzione è
indispensabile per dare saldezza scientifica alla proposta. La strada è quella di svolgere una inferenza induttiva ed è tramite essa che si può individuare il limite. Ma come fare a giustificare una inferenza induttiva resta difficile. Non si può attribuire validità alla inferenza induttiva e quindi si deve
cercare almeno di giustificarla. Il nostro ritiene che l’unica via induttiva non riconducibile al calcolo
delle probabilità sia l’induzione per enumerazione. Ma d’altra parte questo tipo di induzione è il
metodo principale che permette di passare dalla frequenza relativa alla probabilità, in quanto le successioni di eventi sono definite sulla base degli ordinali (finiti). Di conseguenza se si riuscisse a trovare una giustificazione probabilistica della induzione per enumerazione si potrebbero trovare i valori della probabilità usate poi nel calcolo ed anche una giustificazione completa dei metodi induttivi. Per saldare questo anello mancante, Reichenbach usa un assunto che ricorda il posit: si pone
l’ipotesi che la frequenza relativa sia uguale alla probabilità, pur senza impegnarsi sul fatto che tale
identità sia vera o no. Per il nostro autore questa regola è la traduzione formale del normale atteggiamento induttivo dello scienziato. In fondo, già l’idea di una ‘benignità’ o ‘uniformità’ della natu-
161
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
ra, per cui ci si attende che aumentando il numero di prove si diminuisca l’influenza di fattori ‘estranei’ all’evento stesso, con la conseguenza che il valore della frequenza relativa debba ‘stabilizzarsi’ avvicinandosi di più al valore ‘vero’, presuppone l’esistenza di un limite cui la frequenza relativa tenda, ovvero che esista la probabilità dell’evento, anche tale limite potrebbe non essere noto.
Reichenbach, ad un primo stadio, accetta che esista la probabilità di ogni evento ripetibile e tramite
il ‘posit’ anche l’identificazione della frequenza relativa con la probabilità. Il comportamento del
ricercatore quindi è quello di colui che accetta per ‘vero’ il valore trovato con gli esperimenti fatti.
C’è però da chiarire come questa assunzione temporanea, frutto di un certo numero di esperimenti
possa essere utilizzata e condurre al successo. La risposta del nostro sta nel modo con cui si usa la
regola di induzione, perché è essa che permette di sostituire il primo posit con altri, via via più vicini riuscendo in tal modo a determinare, tramite l’inferenza induttiva, un numero di osservazioni n
tale che fissato a piacere un ε > 0, e posto fn per la frequenza relativa con n osservazioni, per ogni
numero naturale k, la frequenza |fn+k – fn| < ε. Questo posit fn viene detto posit cieco, perché ottenuto
per induzione e non per sperimentazione. È evidente il legame con la condizione di Cauchy per la
convergenza delle successioni. Non è, però, univocamente determinato, dato che si potrebbe considerare una qualunque successione infinitesima (regola) c : N → R ed assumere come nuovo posit
cieco fn+c(n). Sulla base di questa genericità della successione infinitesima, è implicita l’idea che si
stia introducendo una relazione di equivalenza, di fatto legata alla equivalenza tra successioni aventi
lo stesso limite, per cui non ha importanza quale successione infinitesima si scelga. In questo Reichenbach non si accorge che anche se tutte le successioni infinitesime convergono a 0, non è detto
(ed è stato dimostrato) che ciò avvenga uniformemente. Esistono, cioè, regole appartenenti alla
classe tali che, data una qualsiasi frequenza relativa calcolata su una arbitraria successione finita e
un arbitrario numero reale appartenente all’intervallo [0,1], il numero reale scelto è limite al quale
tende la frequenza relativa osservata. Non ha, quindi, senso pensare ad un unico limite.
L’equivalenza empirica della classe di regole su cui si basa l’approccio dell’Amburghese, e che giustificherebbe la scelta del posit cieco fn, è assai discutibile. Alcuni sviluppi successivi ‘correggeranno’ le carenze, anche se la fiducia totale di Reichenbach sul procedimento induttivo resta difficilmente accettabile .
In conclusione, l’approccio frequentista è stato ampiamente accettato e rielaborato, in particolare modo dagli statistici inglesi. A
Pearson e Fisher, cui si devono alcuni dei test statistici più utilizzati nelle applicazioni e, per un abbastanza lungo periodo nella
Karl Pearson
1857 - 1936
prima metà del XX secolo si può dire che il frequentismo sia stato
l’approccio dominante alla probabilità ed alla statistica. Tuttavia,
162
Ronald Fisher
1890 - 1962
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
come visto in precedenza, gli asserti di base dell’opzione frequentista sono stati a più riprese criticati, sia all’interno della teoria, sia all’esterno. La teoria si basa su degli assunti metafisici non giustificabili sperimentalmente e su debolezze di carattere matematico, anche queste debitamente messe
in luce. L’approccio di Von Mises utilizza una nozione di limite che non si presta, per la sua vaghezza, ad essere messo alla base di una teoria scientifica, dato che, sostanzialmente l’autore si basa
sulle capacità di discriminazione dell’osservatore, conferendo così a questo aspetto centrale per
l’approccio frequentista, un inatteso valore soggettivo. Reichenbach abbandona la vaghezza su questo tema riconducendo il limite alla precisazione che il concetto ha avuto nella Analisi matematica.
Però anche questa posizione è criticabile in quanto determinare il limite delle successioni aleatorie
si presta a critiche, poiché, di fatto, il limite introdurrebbe una ‘regolarità’ nelle successioni aleatorie che in questo modo perderebbero il loro carattere aleatorio.
Von Mises parla del calcolo delle probabilità come di una scienza naturale matematizzata che studia
i fenomeni di massa, tuttavia i teoremi ottenuti hanno una impronta decisamente analitica e ben poco fanno riferimento all’esperienza con tali fenomeni, anzi la definizione di collettivo, ed in particolare il principio di casualità, sembrano artifici per potere trattare in modo analitico l’argomento. Il
distacco dall’esperienza è ancora maggiore con Reichenbach. Ma anche il concetto di classe di riferimento, usato poi in modo discutibile con il posit, presta il fianco a varie critiche.
Per quanto riguarda l’induzione, esso si configura come un principio a priori, del tutto avulso
dall’approccio frequentista che nell’Ottocento e in Von Mises avevano presentato.
Nonostante queste critiche, l’opzione frequentista ha avuto ed ha una grande importanza scientifica,
perché basata sul fatto che non sia possibile giungere alla determinazione della probabilità prescindendo completamente dall’esperienza. Tuttavia esistono situazioni in cui la probabilità serve come
giudizio ‘cautelativo’ e per i quali non sono disponibili dati sperimentali o i dati esistenti non sono
sufficientemente attendibili, si pensi ai rischi connessi alla istallazione di nuove centrali nucleari. In
questi casi una valutazione frequentista non è possibile.
5.2. La corrente logicista nel XX secolo.
Come visto, pur riconoscendo l’utilità, in opportune condizioni, dell’approccio frequentista, sono
stati molti gli studiosi che hanno lamentato il fatto che numerose situazioni venivano escluse dal
calcolo delle probabilità.
163
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
Una corrente di pensiero che cerca di colmare le lacune precedenti, prende spunto dall’analisi del
linguaggio e dal suo rapporto con la conoscenza. Ma poi da essa traggono origine due distinti filoni
di pensiero che per la loro importanza verranno trattati separatamente: il logicismo propriamente detto ed il soggettivismo. Ad essi saranno dedicati due
diversi capitoli.
I personaggi di maggior spicco della prima corrente di pensiero sono Wittgenstein e Keynes, anche se tra i due non c’è una perfetta coincidenza di posizioni. Le loro opere apparvero quasi contemporaneamente .
John Maynard Keynes
1883 - 1946
5.2.1. Wittgenstein. Il filosofo austriaco, che però svolse la maggior parte del suo lavoro in Inghilterra, nel Tractatus logico-philosophicus pubblicato nel 1921, dedica poche (e pregnanti) pagine alla probabilità.
La probabilità è una relazione esistente tra fatti noti e un fatto non conosciuto. Spesso l’incognito è
un avvenimento futuro, ma potrebbe essere anche presente o passato, senza che ciò alteri
l’impostazione. Intanto bisogna spostare l’attenzione dall’evento (o fatto) alla proposizione che lo
definisce ed in questo modo la probabilità diviene una relazione logica che lega una proposizione ad
altre prese come supporto della prima. Wittgenstein osserva che in questo modo si può costruire una
teoria della probabilità evitando un qualsiasi richiamo all’esperienza, sia personale (soggettiva) che
oggettiva (data dalla frequenza e dall’esperimento). Lo strumento per giungere a questa conclusione
è dato dalle tavole di verità del calcolo delle proposizioni. Si tratta di un strumento, oggi ben noto e
che Wittgenstein stesso ha contribuito ad individuare come proceduta semantica, assieme a Peirce e
Schröder (cfr. 1.1.6.).
Seguendo il linguaggio del filosofo, data una proposizione composta si dicono “fondamenti della
p
q ¬q (p∨¬q) (q∧p) ¬(q∧p) (p∨¬q) → ¬(q∧p)
V V
F
V
V
F
F
V F
V
V
F
V
V
F
V
F
F
F
V
V
F
F
V
V
F
V
V
verità” di essa i valori di verità delle
proposizioni componenti cui corrisponde il valore ‘vero’ della proposizione composta. Ad esempio sia data
la proposizione t: (p∨¬q) → ¬(q∧p),
con le tavole di verità si individuano i
fondamenti della verità delle proposizione composta t sono le coppie ordinate ⟨V,F⟩, ⟨F,V⟩ e ⟨F,F⟩.
Se si preferisce parlare in termini i costituenti booleani (cfr. 1.1.6.) si possono indicare i fondamenti
della verità della proposizione composta t nelle tre proposizioni composte (p∧¬q), (¬p∧q) e
(¬p∧¬q). Tenendo a mente questo esempio, siano ora r e s due proposizioni e siano Vr i fondamenti della verità di r e Vrs le proposizioni che sono, contemporaneamente, i fondamenti della verità di r
164
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
e di s. Con Vrs/Vr, si indica il rapporto tra il numero delle proposizioni che sono fondamenti della
verità di r e il numero delle proposizioni che sono contemporaneamente fondamenti della verità di r
e di s. Tale rapporto viene detto la misura della probabilità che la proposizione r conferisce alla
proposizione s. Come si vede, si tratta più di una probabilità condizionata che di una probabilità
‘semplice’.
Si voglia, ad esempio, determinare la misura della probabilità che (p∨q) conferisce alla proposizione t di cui si è esibita la tavola di verità. I fondamenti della verità di (p∨q) sono le proposizioni
(p∧q). (p∧¬q) e (¬p∧q). Tra queste (p∧¬q), (¬p∧q) sono anche fondamenti della verità della proposizione t, quindi (p∨q) conferisce probabilità 2/3 alla proposizione t.
Da questa definizione si ottengono alcune proprietà fondamentali: la probabilità di una tautologia è
1 o più in generale di ogni proposizione s che sia conseguenza logica della proposizione r; la probabilità di una contraddizione 0; ma tale valore si ottiene anche se le proposizioni contengono lettere
proposizionali distinte, quelle che Wittgenstein chiama proposizioni indipendenti.
La concisione del Tractatus non permette di approfondire le idee del filosofo in modo soddisfacente, ad esempio una possibile interpretazione del suo testo affermerebbe che due proposizioni elementari darebbero l’una all’altra probabilità ½. Ora questa affermazione potrebbe essere interpretata
dicendo che ad ogni proposizione elementare si dovrebbe assegnare la probabilità ½. Ovviamente
questa posizione è insostenibile: alla proposizione ‘La Terra gira attorno al Sole’ che è un enunciato
elementare, si dovrebbe assegnare la stessa probabilità che alla proposizione ‘Il Milan vincerà il
campionato di calcio 2011’. Il problema, in questo caso, sembra legato al fatto che la probabilità
condizionata non si presta bene a definire la probabilità degli eventi semplici o elementari.
Poche righe dopo questa affermazione non chiara, Wittgenstein enuncia il principio di indifferenza,
ricollegandosi così alle proposte di Bradley e la formulazione che ne dà l’austriaco sembra assai
‘ingenua’ e non resiste alle possibili critiche già fatte proprie dal logicista ottocentesco. Stupisce nel
Tractatus la mancanza di qualsiasi collegamento tra il principio e il problema della assegnazione di
probabilità alle proposizioni semplici o elementari. Restano quindi irrisolti gli stessi problemi che
avevano afflitto i logicisti del secolo precedente, ma rispetto ad essi è ora disponibile appieno lo
strumento delle tavole di verità.
5.2.2. Keynes. Lo studioso inglese è sicuramente più noto al grande pubblico come economista. È
questa una ‘tradizione’ tipicamente inglese che ha visto numerosi pensatori esprimersi nel campo
della economia e della filosofia. La celebrità al nostro è venuta quando la politica economica degli
USA, dopo la grande crisi del 1929, ha adottato le idee dell’inglese, portando in qualche anno gli
Stati Uniti a riconquistare un benessere che ne ha fatto una delle nazioni più ricche della Terra.
165
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
L’opera probabilistica di Keynes è A treatise on probability, apparsa nel 1921, in cui egli presenta
un approccio che, in un certo senso, è una sorta di passo indietro rispetto a quanto proposto da Wittgenstein. C’è concordanza tra le opere dei due autori sul significato del termine
‘probabilità’, ma Keynes è meno profondo e con vere e proprie insufficienze formali, per quanto riguarda gli aspetti logici e nella formalizzazione della probabilità
come relazione logica. Dal punto di vista epistemologico, però, la proposta
dell’Inglese è più completa e presenta, inoltre un primo tentativo di assiomatizzare
Rudolf Carnap
1891 - 1970
le concezioni logiciste che verranno poi riprese ed approfondite da Carnap.
L’importante sviluppo avuto in seguito è un buon motivo per illustrare alcune in-
tuizioni del trattato di Keynes. Per lui ci sono due tipi di conoscenza: una diretta ed una indiretta, la
prima è frutto di esperienza personale; la seconda viene ricavata dalla prima mediante metodi inferenziali di varia natura. Il calcolo delle probabilità è una tipica conoscenza indiretta ed inoltre per
esso interessano anche i vari gradi di conoscenza. Ma le inferenze avvengono su proposizioni, quindi l’oggetto del calcolo delle probabilità non sono i fatti ma le proposizioni. Tutte le proposizioni, di
per sé, sono vere o false, però quello che riusciamo a conoscere di esse dipende dalle conoscenze
che possediamo. Così quando si parla di probabilità si sottintende sempre che la valutazione è effettuata sulla base delle conoscenze. Così ogni affermazione ha sempre un carattere relativo e la probabilità risulta da un rapporto tra una proposizione ed un intero corpus di conoscenze, che possono
essere attuali, cioè già possedute, ma anche ipotetiche. Un esempio che Keynes propone è il fatto
che di per sé un luogo non possiede un carattere di ‘vicinanza’, se non rispetto ad un altro luogo,
così come una proposizione in sé non può essere più o meno probabile, se non in riferimento ad altre. In questo modo, i termini certezza e probabilità descrivono, semplicemente, vari gradi di credenza razionale (evitando così una versione soggettivista) che siamo autorizzati ad avere delle proposizioni. Ne consegue che il calcolo delle probabilità è una parte della logica in quanto è il calcolo
dei gradi di certezza razionale: Esso coinvolge relazioni tra proposizioni (premesse) che si assumono come conosciute, anche ipoteticamente, e che vengono indicate col termine “prova” o ‘evidenza’, ed altre proposizioni (conclusioni). La modalità conoscitiva è quindi puramente indiretta. Se un
insieme di conoscenze h giustifica una credenza razionale a di grado α, allora si dice che c’è una relazione di probabilità di grado α tra a ed h e si scrive a|h = α. Da questa scrittura si può apprezzare
la ‘vicinanza’ della nozione di probabilità offerta dallo studioso inglese con la probabilità condizionata.
Tuttavia il calcolo delle probabilità si differenzia dalla logica perché questa seconda disciplina permette di ricavare conclusioni vere da premesse vere (almeno questo era il sentire generale al tempo
di Keynes, non ancora influenzato dai risultati della critica dei fondamenti della matematica), tale
166
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
prerogativa non è propria del calcolo delle probabilità, cioè il senso di una conclusione ottenuta col
calcolo delle probabilità è solo parzialmente contenuto in quello delle premesse.
In conclusione per Keynes non è possibile dare una definizione di probabilità, cioè essa non è esprimibile in termini più semplici; si tratta tuttavia di una relazione logica che lega l’evidenza alla
conclusione. Però, mentre le categorie in cui si muove la logica sono verità e falsità, quelle relative
alla probabilità sono le categorie di conoscenza, ignoranza e credenza razionale. L’Inglese suppone
anche l’esistenza di una sorta di intuizione probabilistica che permetterebbe di giungere alla conoscenza diretta di relazioni probabilistiche, ma questa proposta, che pure risolverebbe il problema di
assegnazione di probabilità alle proposizioni semplici, è assai poco convincente. Così mentre per
Wittgenstein la probabilità non ha nulla di misterioso, con Keynes si ritorna ad una situazione poco
chiara. Anche in questo caso si pone il problema della assegnazione di probabilità agli eventi semplici, risolta, apparentemente, con l’intuizione probabilistica
5.2.3. Il principio di indifferenza. L’autore Inglese ha però il merito di avere affrontato in modo
chiaro il principio di indifferenza, fornendone una sua versione.
Si consideri una proposizione di cui si sappia che può essere esclusivamente vera o falsa: ‘La cinquantamilionesima cifra decimale di π è 8’. Allo stato attuale delle conoscenza di 26 milioni di cifre
decimali di π, non è noto se la proposizione è vera. Non ci sono neppure ragioni valide per concludere che la proposizione sia falsa. D’altra parte le frasi ‘La cinquantamilionesima cifra decimale di
π è 8’ e ‘La cinquantamilionesima cifra decimale di π non è 8’ sono mutuamente esclusive e sono
anche esaustive. Il principio di indifferenza ci porta a concludere che la probabilità di entrambe deve essere ½. Schematizziamo le frasi precedente con C(8) e ¬C(8). Ora, per la particolare natura del
problema, possiamo dire che le frasi C(0), C(1), …, C(8), C(9) sono mutuamente e globalmente esclusive nonché esaustive. Il ragionamento precedente si applica anche a C(i) con i ≠ 8 e per
l’applicazione del principio di indifferenza siamo nelle condizioni di affermare che la probabilità di
ciascuna delle affermazioni C(i) e di ¬C(i) deve essere ½ per entrambe.
In tal modo il principio di indifferenza porta ad un risultato paradossale, essendo la congiunzione di
C(0)∨C(1)∨…∨C(7)∨C(9) equivalente a ¬C(8), si avrebbe che la probabilità di ¬C(8) dovrebbe essere contemporaneamente uguale a ½ e a 9/2!
L’accettazione ‘ingenua’ del principio di indifferenza porta a questa e ad altre analoghe conclusioni
paradossali in vari esempi di problemi probabilistici. D’altra parte se non si assegnano le probabilità
iniziali, il calcolo che ne discende resta ‘vuoto’. Le conclusioni inaccettabili possono avere la loro
motivazione nella espressione discorsiva del principio di indifferenza: cosa significa che ‘non si
hanno ragioni per ritenere’, o una dizione analoga con cui si presenta il principio stesso? Il principio
167
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
quindi reca con sé una indeterminazione che bisognerebbe chiarire. Bisognerebbe inoltre analizzare
accuratamente le alternative che si presentano. Questi due aspetti non ammettono una risposta chiara ed univoca. Ciascuno, sulla base delle proprie convinzioni o di una ‘intuizione probabilistica’ può
offrire le proprie risposte, ma si tratta di pareri soggettivi. Si pensi a coloro che decidono di scommettere loro beni sul sorteggio di particolari numeri nell’estrazione del lotto.
Keynes osserva che i paradossi sono legati perché nel principio di indifferenza ci sono aspetti puramente meccanici ed altri puramente intuitivi. L’indeterminazione riguarda soprattutto le alternative in quanto, come mostra l’esempio delle cifre, almeno una delle due alternative: è 8, non è 8, può
essere scomposta in altre più semplici. Le contraddizioni secondo il nostro autore, scompariranno
quando le alternative non saranno ulteriormente scomponibili, lui parla di alternative finali. Con
l’assunzione di questa clausola aggiuntiva del carattere finale delle alternative, si può applicare il
principio di indifferenza senza ricavarne conclusioni paradossali. Ma il problema di indeterminazione resta, solo spostato più avanti, nella indagine se quanto proposto sia effettivamente
un’alternativa finale.
Keynes però ritiene che anche l’affermazione che ‘non ci sono ragioni’ sia causa di indeterminazione e per superare questo ostacolo introduce l’idea di rilevanza. Con un linguaggio privo del concetto
di probabilità condizionata, la sua idea di rilevanza si può assimilare a quello di ‘l’evento E conferma l’evento H’ espresso in 3.2.2.5. Ma questo richiede esplicitamente la probabilità condizionata.
Se si accettasse la proposta di Keynes, alla luce delle nostre conoscenze odierne, ci si avvicinerebbe
maggiormente ad una possibili applicazione del principio di indifferenza, con tutte le modifiche del
caso, per determinare le probabilità iniziali, anche se in filigrana traspare lo stesso circolo vizioso
che è implicito nell’approccio classico e deterministico di Laplace.
5.2.4. L’assiomatizzazione di Keynes. Il tentativo di fornire una assiomatizzazione proposta della
studioso inglese, precede di alcuni anni altre proposte assiomatiche che poi verranno accettate più
ampiamente. Il suo tentativo, come si diceva prima, apre la strada ad altre, anche se di per sé si tratta di una proposta non impeccabile. Nella presentazione originale viene usato il segno di addizione
per la disgiunzione, la moltiplicazione, spesso sottaciuta per la congiunzione ed il soprassegno per
la negazione (simbolo che era stato utilizzato da De Morgan e che permane tuttora su certi manuali
scolastici, nonostante le difficoltà tipografiche). Si conserveranno in questo scritto i segni delle operazioni di addizione e moltiplicazione, ma si indicherà la negazione con ‘¬’. Keynes introduce poi
alcune definizioni preliminari. Date le ipotesi h e la proposizione a, con a | h si indica un numero
reale appartenente all’intervallo [0,1]. Keynes parla di relazione di probabilità tra la proposizione a
e la premessa h. Se a | h = 1, si ha la relazione di certezza; se a | h = 0 si ha la relazione di impossi-
168
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
bilità. Si dice che la congiunzione ah è inconsistente se a | h = 0 (definizione che è compatibile con
la nozione di probabilità condizionata).
Viene detto ‘gruppo h’ l’insieme delle proposizioni a tali che a | h = 1.
Keynes presenta come definizione una proprietà di carattere logico relativa al connettivo di equivalenza: afferma che se b | ah = 1 e a | bh = 1, allora (a≡b) | h = 1.
A questo punto introduce alcuni assiomi indicandoli con l’appellativo di ‘preliminari’.
1. Se a e h sono proposizioni o congiunzioni di proposizioni e disgiunzioni di proposizioni e se h
non è inconsistente, esiste una ed una sola relazione di probabilità P tra la conclusione a e la premessa h.
2. se (a≡b) | h = 1 e se x è una proposizione, allora x | ah = x | bh
3.
((¬a+¬b)≡¬(ab)) | h = 1;
((aa)≡a) | h = 1;
((¬¬a)≡a | h = 1;
((ab) + ((¬a)b) ≡ b) | h = 1;
se a | h = 1, allora ah ≡ h.
L’autore introduce definizioni che riguardano le operazioni di addizione, moltiplicazione, sottrazione e quoziente di relazioni di probabilità:
ab | h + (a(¬b)) | h = a | h;
ab | h = (a| bh)·(b|h) = (b|ah)·(a|h)
se PQ = R, P = R/Q
se P+Q = R, P = R - Q
A questi seguono gli assiomi
4. Se P, Q, R sono relazioni di probabilità tali che esistono i prodotti PQ e PR e le somme P + Q e P
+ R, allora:
4a. Se esiste PQ, esiste QP e PQ = QP. Se esiste P+Q esiste Q+P e P+Q = Q+P;
4b. PQ < P a meno che Q = 1 o P = 0; P+Q > P, a meno che Q = 0; PQ = P se Q = 1 o P =
0; P+Q = P se Q = 0.
4c. se PQ PR, allora Q R a meno che P = 0. Se P + Q P + R allora Q R e inversamente 2.
5. [±P±Q] + [±R±S] = [±P±R] – [±Q±S] = [±P±R] + [±Q±S] = [±P±Q] – [±R±S] in ogni caso in cui
le somme tra parentesi esistono.
6. P(R±S) = PR±PS se esistono la somma R±S e i prodotti PR e PS.
2
Il simbolo sta ambiguamente per > o ≥ oppure < o ≤, ma nei vari casi assunta una di questa relazioni, il simbolo
va poi sostituito coerentemente. Quindi si tratta di più affermazioni sintetizzate grazie alla ambiguità.
169
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
Fornisce infine le due ultime definizioni.
Indipendenza. Se a | bh = a | h e b | ah = b | h, le probabilità a | h e b | h sono indipendenti.
Irrilevanza. Se a | bh = a | h, b è irrilevante rispetto a a | h.
È difficile valutare in modo positivo questa assiomatizzazione, in quanto ci sono banalità che non
dovrebbero trovare posto in una simile presentazione e che riguardano proprietà dei numeri reali rispetto alle operazioni su di essi. Altre cose riguardano prevalentemente l’aspetto logico e sarebbero
da trattare a parte. Il contenuto ‘probabilistico’ della proposta di Keynes, senza stare a distinguere
tra assiomi e definizioni, è contenuto nell’assioma 1 che garantisce l’unicità della probabilità una
volta assegnate premesse a conclusione; l’assioma 2 che grazie alla definizione in cui interviene il
connettivo ≡, stabilisce sulla base di due proposizioni la cui equivalenza appartiene al gruppo h, esse conferiscono uguale probabilità alle ulteriori conclusioni. Hanno poi un contenuto probabilistico
le definizione di certezza, impossibilità ed il fatto che comunque la probabilità sia un numero compreso tra 0 e 1. Le definizioni di addizione e moltiplicazione di probabilità nonché il quinto caso
dell’assioma 3, in cui si afferma che la probabilità di una proposizione è 1 comporta che la conclusione è conseguenza logica delle premesse.
Il sistema assiomatico, in questo stadio, è sicuramente migliorabile.
In conclusione l’analisi qui mostrata dell’approccio logicista ha cercato di metterne in luce i pregi,
ma allo stesso tempo i difetti di carattere ‘tecnico’ ed anche epistemologico.
5.3. Il soggettivismo nel XX secolo.
Considerare l’approccio soggettivista una sottospecie di logicismo è assai riduttivo. Con esso, infatti viene a meno un carattere comune dell’approccio classico-deterministico, frequentista ed anche
logicista, cioè il fatto che la probabilità sia un dato oggettivo, ottenuto o ottenibile in vari modi, ma
comunque indipendente dal soggetto. Con questo diverso approccio si nega tale oggettività, accettando invece che la probabilità sia legata alla speranza o grado di credenza che ha un individuo nel
verificarsi di un certo evento. Tuttavia il legame con l’approccio logicista è costituito dalla importanza data al fatto linguistico.
La differenza fondamentale col logicismo è il totale rifiuto del principio di indifferenza quale strumento per la determinazione delle probabilità iniziali. Queste, secondo la corrente qui in esame, sono determinate sulla scorta delle convinzioni individuali.
Anche se le ragioni che spingono un individuo ad accettare certe valutazioni di probabilità non sono
oggetto di valutazioni matematiche, ma eventualmente rientrano nel campo antropologico, il calcolo
delle probabilità inizia una volta che tali valutazioni siano avvenute e quindi una volta accettatele, si
170
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
preoccupa di costruire una ‘struttura’ coerente a partire da esse.
5.3.1. Ramsey. Nel 1926 esce il testo di Ramsey dedicato alla probabilità: Truth and probability.
Nella sua breve vita lo studioso inglese ha dato importanti contributi alla Logica, ai
fondamenti della Matematica alla teoria dei grafi ed alla Filosofia, alla Economia,
con una ampia produzione, commisurata col numero di anni in cui ha potuto lavorare scientificamente. La sua amicizia con Keynes non gli ha impedito di sottoporre
Frank Ramsey
1903 - 1930
l’opera dell’amico ad una critica severa che ebbe l’esito di ‘dirottare’ Keynes sui
temi economici. Il testo di Ramsey si apre con una netta affermazione:
«La probabilità è di importanza fondamentale non solo nella logica, ma anche nella fisica, e non possiamo essere
sicuri a priori che l’interpretazione di essa più utile nella logica sia appropriata anche nella fisica. Veramente la
generale differenza di opinioni tra gli studiosi di statistica, che adottano per la maggior parte la teoria della frequenza della probabilità, e i logici che per maggior parte la respingono, rende probabile che le due scuole stiano
in realtà discutendo di cose diverse e che il termine ‘probabilità’ sia usato dai logici in un senso e dagli studiosi
di statistica in un altro»
Poco tempo prima di morire, scriveva ancora sul tema, apportando un nuovo punto di vista:
«Il difetto del mio saggio sulla probabilità stava nel fatto che in esso la credenza parziale veniva considerata come un fenomeno psicologico che spettava allo psicologo definire e misurare. Ma questo genere di psicologia fa
3
ben poca strada e una scienza progredita non dovrebbe assolutamente accettarlo»
Dagli scritti di Ramsey sembra che non ci sia una critica alla concezione frequentista, viste le sue
importanti applicazioni alle scienze della natura, ma non condivide la vaghezza logicista
dell’approccio di Keynes, anche se riconosce il ruolo della Logica. Restando nell’approccio di Keynes, presa come ipotesi ‘il libro è rosso’ e come conclusione ‘ il libro è nero’ non si comprende
come legare le due proposizioni con una relazione di probabilità. Data la semplicità della situazione
se effettivamente la probabilità misurasse queste relazioni, essa dovrebbe essere in grado di individuare anche la misura della probabilità in questo caso rosso-nero. Ma essendo due proposizioni elementari, il principio di indifferenza non è in grado di risolvere il problema. Quindi bisogna rinunciare all’approccio logicista e Ramsey propone di considerare la probabilità come il grado di credenza per cui la teoria delle probabilità diviene qualcosa di analogo alla logica delle credenze parziali, o dell’argomentazione non conclusiva. Essa andrebbe d’accordo con le affermazioni matematiche e le inferenze ‘tradizionali’ che riguarderebbero un’importante forma di certezza, ma ne sarebbe una generalizzazione. Il ruolo della logica è anche quello di ‘garanzia di coerenza’. Ad esempio con una moneta, è accettabile che per il soggetto l’uscita di testa e di croce abbiano valutazioni
di probabilità diverse, basandosi l’individuo sulla presunzione che la moneta sia truccata, ma non
sono accettabili entrambi i valori maggiori di ½. Il principio di indifferenza diviene del tutto inutile
e così si evita il possibile circolo vizioso che inficia l’approccio logicista.
Il punto fondamentale è che le credenze parziali siano misurabili e che alcune credenze siano misu3
Entrambe le citazioni sono prese da Costantini (1970).
171
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
rabili in termini precisi a partire da altre. Per Ramsey questa misura esprime, in termini seppure imprecisi, il grado con cui il soggetto è disposto ad agire in base a questa credenza. Questa situazione
è assai prossima a quella della fisica quando deve eseguire misure di grandezze che poi entrano in
gioco come base per ulteriori esperienze.
Il gioco è, da lungo tempo, uno strumento per misurare il grado di credenza di un individuo: basta
proporre al soggetto una scommessa sull’evento e vedere quanto è disposto a puntare in rapporto ad
una vincita sperata. La ‘tradizione’ inglese delle scommesse e dei bookmaker può avere influito su
queste posizioni. Il concetto di scommessa va però definito in termini propri e scientifici e poi, da
questo, il grado di credenza. La trattazione si sposta su un piano ‘etico’. Infatti Ramsey parla di bene, come la cosa che il soggetto desidera e pone assiomi che riguardano uguaglianza e che in ultima
analisi permettono di stabilire una corrispondenza biunivoca con i numeri reali. Una volta fissata
questa, la scommessa diviene una scelta di beni. Vi sono poi scelte semplici e altre dette condizionate. Nella scelta semplice l’individuo sceglie fra due o più beni, in quella condizionata egli può
venire in possesso di un bene solo se si realizza una condizione (una proposizione) di cui non si sa
se sia vera o no. Una proposizione p è eticamente neutra se due alternative possibili differenti solo
per la verità di p, portano all’individuo una medesima quantità di beni. A questo punto Ramsey fornisce una serie di definizioni il cui obiettivo è quello di definire il grado di credenza.
Si dice che un individuo ha un grado di credenza pari a ½ in una proposizione eticamente neutra p
se non ha preferenze tra le scelte B1 se p, B2 se ¬p e B2 se p, B1 se ¬p, ma ha una preferenza nella
scelta tra B1 e B2.
A partire da questa si definisce l’uguaglianza tra differenze di beni. La differenza tra B1 e B2 è uguale alla differenza tra B3 e B4 se essendo p una proposizione eticamente neutra nella quale il soggetto
ha grado di credenza ½, egli è indifferente tra le scelte B1 se p, B4 se ¬p e B2 se p, B3 se ¬p. Di qui,
con opportuni assiomi sulla scelta dei beni si costruisce la corrispondenza biunivoca con i numeri
reali, per cui, d’ora in poi si identificano beni e numeri reali. Finalmente si definisce il grado di credenza come segue: Se un individuo è indifferente tra la scelta di B1 per certo e B2 se p, B3 se ¬p, il
suo grado di credenza in p è dato da g.c. p =
B1 − B2
. In un certo senso il grado di credenza coinciB2 − B3
de col rapporto che uno scommettitore accetterebbe di scommettere su p. Si passa poi al grado condizionato di credenza di una proposizione p data una proposizione q, in termini analoghi. Con questo impianto Ramsey riesce a provare alcuni teoremi:
T1
g.c. p + g.c. ¬p = 1;
T2
g.c. p|q + g.c. ¬p|q = 1;
T3
g.c. (p∧q) = g.c. p × g.c. q|p
172
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
T4
g.c. (p∧q) + g.c. (p∧¬q) = g.c. p
che illustrano il fatto che il calcolo delle probabilità fornisce le leggi di coerenza per le credenze
parziali nel senso che se non fossero rispettati sarebbero poi in contraddizione con gli assiomi della
scelta dei beni. Ne risulta che il compito ultimo del calcolo delle probabilità è quello di escludere
che due valori di probabilità siano in contrasto tra loro, pur basandosi su una scelta arbitraria delle
probabilità iniziali, provando, eventualmente che questa scelta iniziale è incoerente (ovvero il soggetto sarebbe destinato ad una perdita certa).
5.3.2. De Finetti. L’opera di Ramsey passò quasi inosservata, forse ‘oscurata’ dei suoi contributi nei
Fondamenti della Matematica e nella Teoria dei Grafi. Pochi anni dopo la pubblicazione dell’opera dell’Inglese, apparvero i primi risultati ottenuti, indipendentemente, da De Finetti. I lavori: Fondamenti logici del calcolo delle probabilità, apBruno De Finetti
1906 - 1985
parve sul Boll. Un.Mat.It. nel 1930 e Sul significato soggettivo delle probabilità,
su Fund. Math. nel 1931 presentano il nucleo centrale delle sue idee. In seguito
De Finetti, ebbe modo di ripensare e migliorare la presentazione iniziale, pubblicando vari articoli e
libri, tradotti anche in molte lingue, sull’approccio soggettivista, tanto che nel mondo ne è spesso
indicato come l’unico autore, dimenticando Ramsey.
Le conclusioni dei due autori sono abbastanza simili, ben diversi i punti di partenza. In un certo
senso si può dire che per l’autore inglese il motivo che lo ha spinto ad analizzare il problema è stato
la vaghezza delle posizioni di Keynes. Per De Finetti, invece, è stato l’uso spesso scorretto dello
schema bernoulliano diffusosi come conseguenza della adozione ‘incontrollata’ del frequentismo.
De Finetti, inoltre, è un integralista, nel senso che non accetta la contemporanea presenza di vari
modi di intendere la probabilità (carattere questo rimasto ben presente in alcuni suoi seguaci).
La probabilità, per l’Italiano, è solo l’espressione di uno stato d’animo di un soggetto di fronte ad
avvenimenti incerti, di stretta pertinenza della psicologia. Qualsiasi tentativo di renderla oggettiva è
destinato a fallire ed a creare confusioni e ‘pseudo-problemi’ che sono di ostacolo alla formulazione
della teoria.
Ci sono due tipi di logiche: quella del certo e quella del probabile che hanno tra loro rapporti, ma
sono diverse e non identificabili. Il calcolo delle probabilità non entra e non può entrare nel merito
della valutazione dei casi possibili, e neppure suggerisce come si possa assegnare le probabilità iniziali. Queste sono frutto dell’individuo e del suo stato di conoscenze, che non è fissato una volta per
tutte, ma è variabile. L’unica condizione è una regola di coerenza per cui se valuta ¼ la probabilità
di uscita testa nel lancio della moneta, è obbligato a considerare ¾ la probabilità da assegnare
all’uscita di croce. Così tutte le stime di probabilità degli eventi iniziali presentate in modo classico
173
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
e basate sulla configurazione geometrica, oppure frequentista o logicista possono essere utilizzate
dal soggetto, come criteri sussidiari, ma anche scartate senza che questo pregiudichi il calcolo.
L’identificazione della probabilità con la frequenza relativa, secondo lo schema bernoulliano, per
De Finetti è un errore dovuto al fatto che non esistono eventi ripetibili e l’accettazione dell’infinito
è al di fuori della portata reale del soggetto.
Per garantire la coerenza si adopera di nuovo la scommessa. Sia dato un evento E, e il soggetto sia
obbligato a scegliere di scambiare il possesso di una somma pS (la puntata) per ricevere la somma S
(la vincita, anche se S potrebbe essere un numero negativo). Il gioco deve essere equo, cioè non ci
deve essere qualcuno estraneo che guadagna sia in caso si verifichi l’evento E sia che non si verifichi. La valutazione della puntata è lasciata al soggetto e dipende dalle sue convinzioni e conoscenze. Non basta però una sola scommessa, in quanto il gioco, se è aleatorio, può presentare due o più
alternative. Per fare una scommessa sull’uscita di una faccia di un dado a sei facce, bisogna essere
disposti a fare anche scommesse sull’uscita delle altre facce presenti. Il sistema di credenze può essere incoerente (come avviene nella maggior parte dei giocatori di lotto, schedine, gratta e vinci,
ecc.) cioè si concluderà con una perdita certa, oppure essere coerente, cioè la scommessa si può
concludere con un guadagno possibile. Il principio di coerenza così formulato è la base da cui derivare i teoremi delle probabilità totali e delle probabilità composte. Ad esempio, siano E1, E2, …, En
eventi incompatibili e di cui almeno uno deve verificarsi (una partizione di Ω). Siano p1, p2, …, pn
le probabilità degli eventi valutate dal soggetto, in corrispondenza delle somme S1, S2, …, Sn (positive o negative, incognite) corrispondenti ai casi possibili. Siano G1, G2, …, Gn i guadagni corrispondenti. Si ottiene un sistema lineare considerando i guadagni, nella seguente forma
1 − p1 − p2
G1 = (1 − p1 )S1 − p2 S 2 − ... − pn S n
G = − p S + (1 − p )S − ... − p S
− p1 1 − p2
 2
1 1
2 2
n n
, con

...
...
...
Gn = − p1S1 − p2 S 2 − ... + (1 − pn )S n
− p1 − p2
... − pn
... − pn
=1-(p1 + p2 + … + pn) (dimo...
...
... 1 − pn
strabile per induzione). Se il determinante è diverso da 0, allora si possono fissare arbitrariamente le
somme in modo da ottenere guadagni arbitrari, ma in questo caso non si ha una partizione di Ω. In
questo modo il soggetto andrebbe incontro ad una perdita certa, contrariamente al principio di coerenza. Se invece il determinante è zero, la scommessa è coerente, ma questo comporta (p1 + p2 + …
+ pn) = 1, vale a dire il teorema delle probabilità totali.
Per ottenere il teorema delle probabilità composte, bisogna prima definire la probabilità dell’evento
E condizionato al verificarsi dell’evento H. La scommessa in questo caso può essere valida o non
valida. La seconda condizione è data dal non verificarsi di H, caso in cui la scommessa si ritiene
annullata. Si pensi, ad esempio, alla scommessa che il Milan vinca la coppa dei campioni 2011 nel
174
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
caso arrivi alla finale. Se nella fase di qualificazione, la squadra viene esclusa dalla finale, la scommessa viene annullata. In base a questo sia R la posta, rR la somma che lo scommettitore è disposto
a pagare. Il suo guadagno potrà essere R – rR in caso che si verifichino l’evento H e l’evento E, -rR
nel caso che si verifichi l’evento H, ma non l’evento E, 0 nel caso che la scommessa sia annullata
per il non verificarsi di H (e quindi riceva indietro la posta). Si è quindi in presenza di tre casi (il
che apre un interessante legame con le logiche a più valori di verità). Siano ora p la probabilità di
(E∧H), q la probabilità di H e r la probabilità di E|H. Si considerino poi le tre scommesse: la prima
su (E∧H) con in palio P, la seconda su H con in palio Q e la terza su E|H con in palio la somma R.
Si hanno i tre casi incompatibili (ed esaustivi) (E∧H), (¬E∧H) e ¬H. A queste corrispondono i
1− p 1− q 1− r
G1 = P + Q + R − pP − qQ − rR

guadagni G2 = Q − pP − qQ − rR
il cui determinante − p 1 − q − r = p –qr.
G = − pP − qQ
− p −q
0
 3
Come prima il caso in cui il determinante sia diverso da zero, allora si possono fissare arbitrarie
somma e quindi la scommessa non è coerente. Se il determinante è zero, allora la scommessa è coerente, quindi p = qr. In questa forma non si apprezza il risultato, ma scrivendo p(E∧H) =
p(H)·p(E|H), si ha la forma del teorema della probabilità composta (che in altri approcci) è la definizione di probabilità dell’evento condizionato. Se ora l’indipendenza è data dalla condizione p(E)
= p(E|H), si ottiene immediatamente che qualora gli eventi E ed H siano indipendenti p(E∧H) =
p(E)·p(H). Si osservi che per mostrare che l’indipendenza come è qui formulata con la probabilità
condizionata è una relazione simmetrica comporta la accettazione del teorema di Bayes.
Di qui si vede immediatamente che la nozione di indipendenza è soggettiva, legata alla valutazione
di probabilità dell’individuo.
Da questo approccio si può comprendere meglio l’asserto di Ramsey che i teoremi del calcolo delle
probabilità sono condizioni di coerenza per le assegnazioni delle probabilità iniziali.
L’opera di De Finetti, che qui si è esposta in modo assai sintetico, è assai profonda e dà modo al
matematico italiano di provare vari altri risultati del consueto calcolo delle probabilità a partire dalla
sua scommessa coerente.
L’approccio soggettivista è stato ripreso da altri studiosi, specie italiani che hanno
adottato le idee di De Finetti. Tra gli autori stranieri si citano Koopman e Savage.
L’approccio soggettivo è stato, come tutti gli altri, oggetto di vari tipi di critiche.
Intanto l’idea di bene (ed in ultima analisi di scommessa e di grado di credenza)
viene messa in crisi sul fatto che il soggetto, implicitamente, viene pensato dotato
Leonard Savage
1917 - 1971
di un capitale infinito. Infatti se l’individuo avesse uno stipendio mensile di 1.000
euro, una famiglia di 4 persone da mantenere, difficilmente sarebbe disposto a scommettere
175
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
5.000.000 di euro sul lancio di una moneta anche se la vincita possibile sarebbe di 10 milioni di euro, anche se in 10.000 lanci precedenti della stessa moneta le frequenze assolute di testa e croce fossero state 5.000 per entrambe le facce. Una tale scommessa, coerente dal punto di vista della probabilità soggettiva sarebbe irrazionale per il soggetto. Se si adotta pienamente l’approccio soggettivista, bisogna tenere conto anche di questi aspetti ‘psicologici’ che influiscono sulla assegnazione delle probabilità iniziali.
Un altro rischio che è stato messo in luce è che un approccio completamente soggettivista può portare alla introduzione di aspetti irrazionali e, si può dire, completamente prescientifici. Anche in altre discipline, in fin dei conti anche nella stessa geometria euclidea, si può trovare un primo stadio
in cui il parere del singolo costituisce le basi, ma poi la teoria si sgancia da questi aspetti per adattarsi ai dettami del discorso scientifico.
Con il soggettivismo inteso non correttamente (e senza i vincoli della coerenza) si può giungere alla
negazione del razionalismo scientifico.
Un’ultima osservazione. Negli anni in cui si sviluppa il soggettivismo nell’ambito logico e dei fondamenti, si presenta il contributo dell’intuizionismo (o più generalmente delle teorie costruttivistiche) che modificano la logica classica, in particolare il principio del terzo escluso. La coincidenza
potrebbe sembrare fortuita, ma si tratta, forse, di una crisi generale del pensiero occidentale, come è
stata teorizzata da alcuni filosofi.
5.4. L’assiomatizzazione del calcolo delle probabilità.
Con gli anni ’30 del XX secolo, si può dire che siano state enunciati in modo abbastanza consolidato, i vari possibili approcci alla probabilità, e le discussioni che ne sono seguite sono servite a renderle più chiare. Anche nell’ambito dei Fondamenti della Matematica gli anni ’30 sono estremamente importanti per la presentazione, in tale periodo di vari teoremi limitativi .
D’altra parte proprio in quegli anni si registravano notevoli risultati. Ad esempio
le ricerche di Gosset, passato alla storia con il nome di Student, assieme ai risultati
di Pearson e Fisher, avevano dato grande sviluppo alle applicazioni della probabilità e della statistica, ma erano ben pochi quelli che cercavano di fornire un quadro
William Gosset
1876 - 1937
‘ragionevole’ in cui collocare e armonizzare i vari approcci. Anzi sembrava che
l’attenzione dei vari studiosi fosse incentrata nel trovare le pecche (o presunte tali)
degli indirizzi di pensione diversi dai propri.
5.4.1. Kolmogorov. Proprio in quegli stessi anni lo studioso russo Kolmogorov prendeva una netta
176
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
posizione che avrebbe avuto grande influenza sul calcolo delle probabilità. Le sue idee fondamentali si possono riassumere in due punti:
1) Il calcolo delle probabilità è unico, anche se vi sono diverse interpretazioni del concetto di probabilità
2) deve essere possibile trascurare le polemiche su fondamenti e sviluppare in maniera puramente
formale il calcolo delle probabilità. La metafora è quella della geometria: l’indagine sulla natura
degli enti geometrici pur essendo filosoficamente rilevante, lascia spazio ad una presentazione assiomatica delle geometria nella versione di Euclide o in quella più formalizzata della fine dell’800
ed è sulla base di questa che poi si ottengono i teoremi. Così tralasciando il significato ‘ultimo’ di
probabilità, deve essere possibile sviluppare un calcolo e sulla base degli assiomi formali, ricavarne
i teoremi, anche perché, seguendo sempre l’esempio geometrico, gli assiomi servono a definire implicitamente i concetti stessi.
In questo filone di indagine c’erano stati diversi tentativi, si può dire, a partire da
Boole. Reichenbach nel 1932 presenta un articolo su Mathematischen Zeitschriften dal titolo Axiomatik der Wahrscheinlichkeitsrechnung. Altri tentativi, oltre a
quelli citati di Keynes, si devono a L. Bohlmann nel 1901 e a S. Bernstein nel
Sergei Bernstein
1880 - 1968
1917.
Nel 1933 compare, in tedesco, Grundbegriffe der Wahrscheinlichkeitsrechnung. In esso, Kolmogorov non si limita a fornire gli assiomi per una teoria, ma mostra pure come sia possibile a partire da
essi, giungere ai vari teoremi (o meglio a dimostrare le varie proprietà) che sono assunte dai diversi
approcci.
Un motivo del successo del suo approccio è stato quello di distinguere tra eventi elementari ed eventi in generale, fornendo, di fatto, le basi per la costruzione di un’algebra di eventi.
I tempi erano anche maturi per utilizzare un linguaggio insiemistico che prescindesse, almeno in
parte, dai vari concetti che hanno origine dal linguaggio naturale, al fine di presentare in modo
‘strutturale’ il calcolo delle probabilità. L’algebra degli eventi che così si crea utilizza ampiamente
l’approccio logico-insiemistico di Boole, depurato dalla infelice scelta della somma logica.
5.4.2. Gli assiomi di Kolmogorov. Presentiamo l’assiomatizzazione, mettendone in luce alcuni aspetti critici.
Sia dato un insieme Ω i cui elementi sono detti eventi elementari. Sia F ⊆ P(Ω) un opportuno sottinsieme dell’insieme dei sottinsiemi di Ω, i cui elementi saranno detti eventi casuali (o più semplicemente eventi). Fissati questi aspetti si richiedono i seguenti assiomi
K1. F è un campo di insiemi.
177
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
K2. Ω∈F
K3. Per ogni E∈F esiste un numero reale non negativo p(E), detto la probabilità di E.
K4. p(Ω) = 1.
K5. Se E, H∈F, e (E∩H) = ∅, allora p(E∪H) = p(E) + p(H).
Il primo punto critico è implicito nella nozione di ‘campo di insiemi’. O meglio, si stabilisce che un
generico sottinsieme di P(Ω) è un campo di insiemi se ogni volta che E, H∈F, allora anche (E∩H),
(E∪H) e (E-H) sono elementi di F. Con l’aggiunta dell’assioma K2, si ha che F è una sottoalgebra
di Boole di P(Ω). Facendo riferimento alla presentazione assiomatica delle algebre di Boole data in
1.1.5. come struttura astratta, è facile constatare che identificando Ω con 1, ∅ con 0, le operazioni
di unione ed intersezione con le operazioni ∨ e ∧, e la sottrazione da Ω all’operazione -, rispettivamente, le restrizione a F delle operazioni di algebra di Boole su P(Ω) sono operazioni su F. Essendo
le algebre di Boole definite mediante formule universali seguite da uguaglianze di termini, esse sono verificate anche quando gli elementi coinvolti sono appartenenti a F ed il risultato, per la condizione di ‘campo di insiemi’ è ancora un elemento di F. Si possono quindi conglobare gli assiomi K1
e K2 in uno solo, che affermi il fatto che F sia una sottoalgebra di Boole. Potrebbe venire il dubbio
che la differenza di due insiemi sia ‘più generale’ del ‘complemento’ a Ω, ma si osservi che (E – H)
altro non è che (E∩(Ω-H)).
Una cosa che non è detta e che non è possibile decidere a partire dagli assiomi dati è se gli eventi
elementari sono elementi di F, oppure quali tra essi sono elementi di F. Banalmente, data la natura
di F la risposta immediata è che nessun evento elementare appartiene a F, essendo F un insieme di
sottinsiemi di Ω e, a meno che Ω non abbia, di per sé, una struttura insiemistica complessa del tipo
degli ordinali di Von Neumann, in generale ciò non accade. Si può tuttavia ovviare al problema considerando come eventi elementari i singoletti di essi. In
tale modo si può associare ad ogni evento elementare un evento casuale. Dal
punto di vista delle algebre di Boole, ciò significa considerare ‘atomi’ (cfr. nota
John Von Neumann
1903 - 1957
3 in 1.1.4.). Il fatto se F è una sottoalgebra di Boole atomica o no e se ha degli
atomi, può sembrare poco interessante. Si osservi però che se F è atomica allora
esiste un Ω’ ⊆ Ω tale che F sia (isomorfa) a P(Ω’).
Una volta chiarita la necessaria struttura sugli eventi, gli assiomi K3 – K5 riguardano la ‘misura’.
Di fatto, l’assioma K3 è formulato in modo poco soddisfacente. La sequenza dei quantificatori ‘per
ogni’ – ‘esiste’ permette solo di istituire una relazione (corrispondenza) p ⊆ (F×R0+), in quanto non
è detto, né è ricavabile immediatamente dagli assiomi, che l’associazione tra evento e numero reale
178
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
non negativo sia funzionale. La scrittura usata nell’assioma K3 è di tipo funzionale, ma è possibile
provare ciò in due modi: o c’è un teorema che rafforza l’assioma K3 introducendo un quantificatore
universale unico (cioè per ogni evento c’è un unico numero reale ad esso associato), oppure si fa ricorso all’assioma di scelta in base al quale (in una delle sue formulazioni equivalenti) data una relazione p ⊆ (F×R0+), esiste (e in generale non è unica) una funzione p* tale che p* ⊆ p e dom(p*) =
dom(p).
Tutto questo sarebbe evitato se si chiedesse l’esistenza di una funzione p: F → R0+. Nel seguito con
3* si indicherà l’assioma (più forte di K3) di esistenza della funzione p.
Con l’assioma K3 (o K3*) si abbandona, a stretto rigore di termini, l’ambito delle strutture algebriche (cosa che avviene anche per gli spazi vettoriali).
Gli altri due assiomi qualificano la funzione p come una misura.
A questo punti si definisce (Definizione 1) campo o spazio di probabilità, la coppia ordinata ⟨F,p⟩
ove F è un campo di insiemi e p è una funzione soddisfacente gli assiomi K3 – K5.
In base ai tre assiomi della misura si possono ottenere alcune importanti conseguenze.
T1. ∅∈F e p(∅) = 0. Come primo passo, da K2 si ha che Ω∈F, e per K1, (Ω-Ω)∈F, ma (Ω-Ω) = ∅.
Si ha poi (∅∩∅) = ∅ e pure (∅∪∅) = ∅, quindi da K3*, p(∅)∈R e per K5, p(∅) = p(∅∪∅) =
p(∅) + p(∅), da cui p(∅) = 0.
T2. Per ogni E∈F, p(E∪(Ω-E)) = 1, inoltre p(Ω-E) = 1 – p(E). Intanto per K2 e K1, si ha che (Ω-E),
Ω = (E∪(Ω-E))∈F, inoltre, per motivi insiemistici (E∩(Ω-E)) = ∅, quindi per K5 e K2, 1 = p(Ω) =
p(E∪(Ω-E)) = p(E) + p(Ω-E).
T3. Per ogni E,H∈F, se E ⊆ H, allora p(E) ≤ p(H). Infatti si può scrivere H = (E ∪(H-E)) con
(E∩(H-E)) = ∅, quindi p(H) = p(E) + p(H-E) ≥ p(E), in quanto, p(H-E) ≥ 0.
Come corollario di questo risultato, essendo per ogni E∈F, si ha ∅ ⊆ E ⊆ Ω, si ha 0 = p(∅) ≤ p(E)
≤ p(Ω) = 1.
Una generalizzazione di K5 è data dalla ‘finita addittività’ di p.
T4. Siano E1, …, En∈F, tali che per ogni coppia di indici 1 ≤ i,j ≤ n, con i ≠ j, (Ei ∩Ej) = ∅, allora
 n  n
p U Ei  = ∑ p(Ei ) . Si dimostra, per induzione, che l’unione (finita) di elementi di F è ancora un
 i =1  i =1
elemento di F, sfruttando la proprietà associativa della unione insiemistica. La base induttiva è ovvia. Si assume che l’unione di k eventi casuali sia un evento casuale, allora anche l’unione di k+1
eventi casuali la si può ricondurre all’unione di due elementi di F, quindi ancora un elemento di F.
Il passaggio alla probabilità è analogo: si assume l’asserto per k eventi casuali, poi, dato che
179
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
 k


 U E  ∩ E  = ∅ e
k +1 
  j =1 j 




 k +1    k

 k +1 
 U E j  =   U E j  ∪ Ek +1  , si ha p U E j  =
 j =1    j =1 
 j =1 


 




 k

p U E j  + p (Ek +1 ) =
 j =1 


k +1
 k

 ∑ p (Ej ) + p (Ek +1 ) = ∑ p E j . L’asserto risulta così provato per ogni numero naturale positivo.
 j =1

j =1


( )
Grazie a queste richieste assiomatiche ed alle proprietà provate, si può ‘istituire’ una corrispondenza
linguistica tra fatti insiemistici e il linguaggio probabilistico
Relazione insiemistica
E∈F
(E∩H) = ∅
Linguaggio probabilistico
E è un evento casuale
Gli eventi casuali E ed H sono incompatibili
 n 
 I Ei  = ∅
 i =1 
Gli eventi casuali E1, …, En sono incompatibili.
 n 
H =  I Ei 
 i =1 
H è l’evento che si verifica quando si verificano
contemporaneamente gli eventi E1,…,En.
 n

 U Ej  =Ω
 j =1 


Gli eventi causali E1, …, En sono esaustivi.
 n

H =  U Ej 
 j =1 


(Ω-E)
E=∅
E=Ω
E⊆H
Una partizione di Ω
H è l’evento che si verifica quando si verifica
almeno uno degli eventi E1,…,En.
L’evento causale che si verifica quando non si
verifica E.
E è impossibile
E è certo
Quando si verifica E deve verificarsi necessariamente H.
Un esperimento.
Questa ‘traduzione’ mette ordine in tante dizioni tradizionali, dandone una ‘giustificazione’ insiemistica, che era impossibile prima della seconda metà del secolo XIX.
La presentazione di Kolmogorov procede introducendo la nozione di probabilità condizionata
Definizione 2. Siano E e H eventi casuali, e si abbia p(H) ≠ 0, allora si pone pH(E) =
p (E ∩ H )
.
p (H )
Si prova immediatamente che p(E∩H) = p(H)·pH(E); inoltre si dimostra che se ⟨F,p⟩ è un campo di
probabilità, in base alla Definizione 1, allora per ogni evento casuale H tale che p(H) ≠ 0, si ha che
anche ⟨F,pH⟩ è un campo di probabilità.
Kolmogorov sull’argomento della indipendenza afferma che si tratta di uno degli argomenti più importanti della filosofia della probabilità. Egli ne dà una definizione che ne fa una proprietà degli eventi e non degli eventi e della probabilità.
Definizione 3. Dati n esperimenti (partizioni di Ω), essi sono indipendenti se comunque scelti in
ciascuno di essi un evento casuale, la probabilità che gli n eventi casuali scelti si verifichino contemporaneamente è il prodotto delle probabilità dei singoli eventi.
180
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
Da questa formulazione, nel caso particolare di due eventi si ha la nozione solita di indipendenza,
ma nel caso di più di due, non si ottiene la nozione ‘standard’ di indipendenza stocastica.
La proposta di Kolmogorov su questo tema non è soddisfacente perché la nozione di indipendenza
di eventi casuali è connessa a quella più particolare di esperimento (in cui è implicitamente presente
la condizione di incompatibilità). Per chiarire la cosa bisognerebbe introdurre in modo assiomatico
anche le nozioni di prova ed esperimento.
Gli assiomi di Kolmogorov non permettono di ‘estendere’ il risultato di T4 ad una successione infi∞
∞ 
nita di eventi a due a due incompatibili. Per permettere di identificare p U Ei  e ∑ p E j è indij =1
 i =1 
( )
spensabile aggiungere un nuovo assioma.
K6. Sia f: N → F una successione di eventi casuali tali che per ogni k∈N, f(k+1) ⊆ f(k) e
∞
I f (i ) = ∅ , allora lim p ( f (n )) = 0 .
i =1
n →∞
In base a K6, nel caso che F sia un insieme finito la proprietà espressa dall’assioma, si prova come
un teorema ottenuto dagli assiomi precedenti.
Più interessante è provare che se vale K6, allora si può provare
∞

T5 Sia f: N → F una successione di eventi casuali, tale che  U f (i ) ∈F, e per ogni i,j indici tali
 i =1

∞
∞

che i ≠ j, (f(i)∩f(j)) = ∅, allora p U f (i ) = ∑ p ( f ( j )) . Si osservi che al secondo membro è indij =1
 i =1

cata una serie a termini non negativi, e essa può solo convergere o divergere. Per dimostrare
∞

l’asserto, sia H =  U f (i ) , allora si pone g(0) = H, e per ogni numero naturale positivo n, sia g(n)
 i =1


 n

=  H −  U f (i )  , essendo F un campo di insiemi, per ogni n si ha g(n)∈F. In tale modo si prova
 i =1


che g: N → F è quindi una successione di eventi casuali. Inoltre si ha g(1) ⊆ g(0); g(2) ⊆ g(1), e,
più in generale, per ogni m, g(m+1) ⊆ g(m), come si può provare con una semplice dimostrazione
∞
per induzione. Si ha inoltre I g ( j ) = ∅ . Infatti se tale intersezione non fosse vuota e sia x un elej =0
mento della intersezione, allora per ogni k∈N, si avrebbe x∈g(k). In particolare si avrebbe x∈g(0),
∞

cioè, essendo g(0) = H, x∈  U f (i ) . Esiste allora m∈N tale che x∈f(m) e tale evento casuale, per
 i =1

181
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
m

le condizioni di incompatibilità è l’unico per cui ciò accade. Ne segue che x∈  U f (i ) , quindi
 i =1


m

x∉  H −  U f (i )  , vale a dire x∉g(m), in contrasto con l’ipotesi (assurda) che per ogni indice k,
 i =1


∞
x∈g(k). Si ottiene così che I g ( j ) = ∅ .
j =0
Per il nuovo assioma K7, si ha che lim p ( g (n )) = 0 , vale a dire, per ogni ε > 0, esiste h∈N, tale
n →∞

 h+ r  
che per ogni r∈N, |p(g(h+r))| < ε. Ciò comporta che p H −  U f (i )  < ε. D’altra parte
 i =1



 h+ r    h+ r  
H =   H −  U f (i )  ∪  U f (i ) 

 i =1
   i =1
 

 h+ r 
p (H ) − p U f (i ) =
 i =1

e
h+r
h+ r



  H −  U f (i )  ∩  U f (i )  = ∅ ,

 


 i =1
   i =1


quindi
per
K5,
h+ r

 h+r  
p H −  U f (i )  , di qui p (H ) − ∑ p( f (i )) < ε. Si rammenti che ε > 0 è arbii =1
 i =1


 n

trario e che si è così provato che p(H) = lim p ∑ p ( f (i )) . Tale risultato viene spesso citato col
n →∞  i =1

nome di σ-addittività.
Questa dimostrazione non è possibile senza la condizione che l’unione infinita di
eventi casuali sia un evento casuale. Tale condizione caratterizza, tra i campi di
insiemi, i cosiddetti campi di insiemi di Borel.
Kolmogorov introduce poi esplicitamente il concetto di variabile aleatoria (reale).
Emile Borel
1871 - 1956
Borel aveva scritto, in un ampio periodo che va dal 1905 al 1950 circa una cinquantina di opere sulla probabilità. Aveva sempre evitato di ‘prendere posizione’
nella disputa tra i vari approcci al concetto, preoccupandosi di mostrare (emulo di Laplace) il valore
pratico del calcolo delle probabilità in vari tipi di applicazioni. Le opere in cui maggiormente riassume le sue posizioni sono Le jeu, la chance et les théories scientifiques contemporaines (1941),
Les probabilités et la vie (1943).
Secondo il Francese, le probabilità sono analoghe alle misure delle grandezze fisiche, cioè non è
possibile conoscerle senza una intrinseca approssimazione. Questo tipo di approssimazione è pare
integrante del nostro modo di conoscere e per provarlo si rifà ad un paradosso di Zenone di Elea,
noto col nome di Paradosso Sorite. Lo si può presentare con il concetto di mucchio: un chicco di
grano non è un mucchio e non si può neppure affermare che due chicchi di grano costituiscano un
mucchio. Esiste un numero ‘di soglia’ oltre al quale un insieme di chicchi di grano si può considera-
182
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
re un mucchio? Possiamo dire che 325.647 chicchi di grano non costituiscono un mucchio, ma
325.648 chicchi sì? Ebbene, se è impossibile fissare un numero di soglia, è anche impossibile conoscere cosa significhi la dicitura ‘un mucchio di grano’. Queste parole non hanno un significato, sebbene, in casi estremi tutti siano d’accordo sull’attribuzione di un significato.
Lo stesso avviene con i concetti connessi alla probabilità.
Il contributo fondamentale di Borel alla probabilità è conseguenza delle sue ricerche sulla teoria
della misura, connessa coi problemi sullo studio delle funzioni e dell’integrazione. Negli assiomi di
Kolmogorov traspare la teoria della misura negli assiomi K3 – K5, ma più ancora il suo debito con
Borel è conclamato nell’assioma K6.
In seguito Kolmogorov avrebbe affermato che la condizione di σ-additività che fa della probabilità
una misura (nel senso della analisi), l’avrebbe accettata perché altrimenti non sarebbero stati semplici le considerazioni sulle variabili aleatorie.
A questa scelta si può applicare lo stesso giudizio che Venn dà dell’opera di Laplace e Poisson: non
sono le proprietà intrinseche della probabilità che fanno scegliere gli assiomi, ma le necessità analitiche.
Questa scelta è stata ampiamente criticata (e rifiutata dai soggettivisti), perché si tratta di introdurre
una ‘sovrastruttura’ ideale che è stata decisa indipendentemente (che fa intervenire l’infinito). Infatti senza avere fissato prima un campo di insiemi di Borel non è possibile definire la probabilità come funzione. Se si deve affrontare un problema di probabilità su un dado (o un qualunque gioco) gli
eventi elementari sono in numero finito, allora l’algebra di Boole P(Ω) è un campo di insiemi finito
(e quindi per una osservazione precedente, di Borel). Ma se l’insieme Ω è infinito, ci possono essere, oltre a P(Ω) vari campi di insiemi di Borel, che possono differire per gli eventi elementari che si
considerano ad essi appartenenti (via i singoletti). Dato allora un problema specifico che, ad esempio, coinvolga i numeri reali, quale campo di insiemi di Borel si considera per definire la probabilità? La coppia campo di insiemi – probabilità è allora definibile solo in modo interdipendente. Ne
risulta così che nella definizione di misura è presente una forma subdola di circolo vizioso. Si potrebbe pensare che si possa ‘fissare’ P(R) come campo di insiemi di Borel ‘standard’ e definire su
di esso una misura che possa andare bene per tutti i problemi di probabilità che coinvolgono i numeri reali. In questo caso si assume che i singoletti abbiano misura nulla. Purtroppo ciò non è possibile in base ad un teorema di Ulam in cui riprova che una misura
siffatta esiste ed è quella identicamente nulla, quindi non soddisferebbe K4. In seguito si è compreso che il problema è legato strettamente alla cardinalità
Stanislaw Ulam
1909 - 1984
dell’insieme dei numeri reali, grazie alla ‘scoperta’ dei cardinali misurabili.
L’approccio assiomatico è oggi molto utilizzato, nonostante le critiche che esso
183
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 5. Probabilità nel XX secolo
porta con sé. Sicuramente lo strumentario analitico che permette offre la possibilità di trattare e risolvere vari tipi di problemi, ma appare come la proposta moderna di una forma di determinismo.
184
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Indice
Indice degli Autori
Pagina della prima citazione
In blu con ritratto,
In nero con sola data
In rosso senza data
Nome
Agostino
Alessandro VII→Chigi
Anassagora
Anna di Inghilterra
Apollonio di Perge
Arbuthnot
Arcesila
Archimede
Aristotele
Arnauld
Bacon F.
Bagni
Baily
Baldi
Barra
Bartolomeo di Medina
Battelli
Bayes
Bernolli Jacob (I)
Bernoulli Daniel
Bernoulli Johann (I)
Bernoulli Nicolas (I)
Bernstein S.
Beth
Bohlman
Boole
Borel
Bourbaki
Bradley
Buffon
Canton
Cantor
Cardano
Carnap
Carneade
Cartesio
Cauchy
Cayley
Chigi
Church T.
Clairaut
Condorcet
Costantini
Cournot
Cramer
D’Alembert
Dall’Aglio
De Carcavi Pierre
Dedekind
De Finetti
Defoe
De Fontenelle
De Fournival
De Liguori
De Méré
De Moivre
De Morgan
Deparcieux
De Witt
Diofanto
Dupré de Saint Maure
Duvillard
Ellis
Euclide
Eulero
Feller
Fermat
Feyerabend
Fisher
Galilei
Gauss
Giansenio→Jansen
Gibbon
Gosset
Grandi
Graunt
Gregorio di Nazianzio
Grimaldi
Hacking
Halley
Hamilton W.R.
Hamilton W.S.
Hasse
Henry
Hudde
Hume
Huygens
Pag data
46 354-430
118 496 – 428 a.
C.
82 1665 - 1714
69 III sec. a.C.
81 1667 - 1735
45 315-241 a.C.
62 287 – 212
a.C.
4
384-322 a.C.
56 1612-1694
67 1561-1626
60n
140
137
45
46
20
79 1702 - 1761
60 1654-1704
138 1700 - 1782
85 1667 - 1748
61 1687-1759
177 1880 - 1968
13 1908-1964
177
1
1815-1864
182 1871 - 1956
1
148 1846 - 1924
97 1707 - 1788
100
6
1845-1918
45 1501-1576
166 1891 - 1970
45 219-129 a.C.
53 1596-1650
150 1789 - 1857
142 1821 - 1895
46 1599-1667
185
59
132
115
46n
150
98
115
47n
47
25
173
58
97
45
47
47
87
143
140
57
53
140
140
151
28
4
33n
47
60n
162
45
93
46
58
176
139
57
46
139
58n
69
142
154
7
45
57
59
53
1713 - 1765
1743 - 1794
1801 - 1877
1704 - 1752
1717-1783
1600 - 1684
1831-1916
1906 - 1985
1660-1731
1657 - 1757
1201-1260
1696-1787
1667 - 1754
1806 - 1871
1625 -1672
III sec. d.C.
IV sec. a.C.
1707-1783
1906 - 1970
1601-1665
1924-1994
1890 - 1962
1564-1642
1777 - 1855
1737-1794
1876 - 1937
1671 - 1742
329-390
1656-1742
1805 - 1865
1788 - 1856
1898-1979
1628-1704
1711-1776
1629 - 1695
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Indice
Innocenzo X
→Pamphili
Jansen
Jevons
Kant
Kersseboom
Keynes
Kneale
Kolmogorov
Lagrange
Lakatos
Laplace
Leibniz
Luigi XVIII
Malebranche
Messène
Moheau
Montmort
Napoleone
Newton
Nicole
Pacioli
Pamphili
Paola
Pascal
Pearson
Peirce C.
Poisson
Price
Ramsey
Rasiowa
Reichenbach
Robartes (Lord Radnor)
Roberval Gilles Personne
Russell
Savage
Schlick
Schröder
Sciacchitano
Seneca
Shannnon
Sikorski
Simi
Simpson
Stifel
Stirling
Stone
Sussmilch
46
148
115
140
164
58
145
122
64
92
57
117
84
140
140
84
116
59
56
45
46
47n
33
162
13
141
100
171
4
159
88
48
6
175
160
13
60n
131
Tartaglia
Taylor
Todhunter
Tommaso d’Aquino
Tonelli
Toti Rigatelli
Ulam
Van Schooten
Venn
Von Ettinghausen
Von Linné
Von Mises
Von Neumann
Wallis
Wargentin
Waring
Wilkins
Wittgenstein
1585-1638
1835 - 1882
1724-1804
1883 - 1946
1903 - 1987
1736 - 1813
1922-1974
1749 - 1827
1646-1716
1638 - 1715
1678 - 1719
1642-1727
1625- 1695
1445-1517
1574-1655
1623-1662
1857 - 1936
1839-1914
1781 - 1840
1903 - 1930
1917-1994
1891 - 1953
1602-1675
1872-1970
1917 - 1971
1882 - 1936
1841-1902
4 a.C – 65
d.C.
1916-2001
1920-1983
14
4
45
140
33 1487-1567
93 1692 - 1770
14 1903-1989
140
186
33
33
45
46
19
45
183
53
4
73
98
157
178
140
140
89
57
13
1500-1557
1685-1731
1225-1274
1885-1946
1909 - 1984
1615-1660
1834-1923
1796 - 1878
1707 - 1778
1883 - 1953
1903 - 1957
1736 - 1798
1889-1951