CAPITOLO 3. PROBABILITÀ NEL XVIII SECOLO.

C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
CAPITOLO 3. PROBABILITÀ NEL XVIII SECOLO.
3.1. Dopo Bernoulli. 1
In realtà l’avverbio di tempo è parzialmente scorretto. Prima che comparisse a stampa la Ars conjenctandi, nell’ambiente dei matematici interessati a sviluppare il nuovo campo, alcune delle idee di
Bernoulli erano già trapelate, ma non completamente, in particolare la legge debole dei grandi numeri non era nota. Si assiste così alla ricerca di alcuni ricercatori, appena più giovani di Bernoulli
che cercano di dare il loro contributo, ed alcuni di questi avevano sposato un’idea diffusa
nell’ambiente, che il lavoro del matematico di Basilea non avrebbe visto la luce.
Prima di illustrare le opere di maggior contenuto probabilistico prodotte nel periodo, è bene citare
cosa ha fatto Leibniz nel campo.
Secondo il parere di alcuni storici, l’opera del filosofo è stata fondamentale ed innovativa per quanto riguarda il calcolo combinatorio. Anche l’interesse che mostrò per lo sviluppo della teoria della
probabilità, testimonia la sua curiosità ed apertura alle novità matematiche. Non si possono però individuare suoi contributi specifici. Leibniz si è però sempre interessato ai giochi di qualunque tipo
visti da lui come una palestra dell’ingegno. Egli credeva che gli uomini mostrano il loro ingegno
principalmente nel campo dei loro divertimenti e che, pertanto potrebbe essere utile che i più grandi
matematici ponessero attenzione anche ai giochi dei ragazzi. Per questo auspicava che prima o poi
apparisse un trattato sistematico sui giochi, dando priorità a quelli che si avvalgono solo dei numeri,
poi quelli che fanno intervenire la posizione, come gli scacchi ed infine quelli che richiedono il moto, come il biliardo. Le situazioni che sono alla base del gioco, per Leibniz, sarebbero utili per migliorare l’invenzione matematica o, come si espresse altrove, per perfezionare l’arte delle arti, vale
a dire l’arte del pensiero.
Passiamo in rassegna alcuni contributi che apparvero nel periodo a cavallo della morte di James
Bernoulli.
3.1.1. La Provvidenza Divina. Da varie fonti si sa che attorno al 1692 apparve un
testo, The Laws of Chance, che venne inizialmente attribuito ad un certo Motte,
segretario della Royal Society e contenente la traduzione inglese dell’opera di Huygens. Dai registri della Royal Society si desume che nessun Motte sia mai stato
John Arbuthnot
1667 - 1735
1
membro della società. In altre fonti di poco posteriori al 1692, la stessa opera, nel-
In questo capitolo mi avvalgo ampiamente di Todhunter (1865).
81
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
la stessa data, viene attribuita a Arbuthnot. Il personaggio è notevole in quanto si tratta di un valente
medico, che fu medico personale della regina Anna (1665 – 1714). È famoso anche nella storia della letteratura come scrittore satirico che ebbe grande successo. Era inoltre un matematico dilettante.
L’opera citata sopra di cui sembra esser stato l’autore, contiene, prevalentemente, la traduzione in
inglese di De ratiociniis in ludo alee di Huygens. Sono indicati alcuni esempi tratti dai giochi allora
maggiormente di moda, in cui si applicano i risultati di Huygens. Inoltre presenta la soluzione di alcuni problemi ottenendo, si può ritenere, in modo indipendente, i risultati che appariranno su Ars
conjectandi.
Nel 1710 Arbuthnot inizia la pubblicazione di un saggio di circa 190 pagine, che apparirà sulle Philosophical Transaction in tre parti (1710. 1711 e 1712), dal titolo An Argument for Divine Providence, taken from the constant Regularity observ’d in the Births of both Sexes.
In essa Arbuthnot scrive:
«Among innumerable Footsteps of Divine Providence to be found in the Works of Nature, there is a very remarkable one to be observed in the exact Balance that is maintained, between the Numbers of Men and Women;
for by this means it is provided, that Species may never fall, nor perish, since every Male have its Female, and of
a proportionable Age. This Equality of Males and Females is not the Effect of Chance but Divine Providence;
working for a good End, which I thus demonstrate:… »
Si è riportato il brano per mostrare, ancora una volta, come le considerazioni di tipo matematico si
mescolassero strettamente ad altre di varia natura.
L’argomentazione di Arbuthnot utilizza due diversi metodi statistici, non entrambi applicati in modo accettabile ed anche l’affermazione che sia possibile interpretare l’azione della Divina Provvidenza per mezzo di analisi statistiche, appare almeno discutibile. Si può schematizzare il ragionamento dello Scozzese come una attività effettuata con un insieme di n monete sulle cui due facce sia
scritto M e F. I coefficienti binomiali presenti nello svolgimento di (M + F)n, forniscono il numero
dei possibili esiti del lancio delle n monete. In questo modo si consideri, ad esempio, il coefficiente
associato al monomio MkFn-k, che indica quanti sono i possibili lanci che portino a k maschi e (n-k)
n
n!
femmine,   =
, e lo si divida per 2n, che è, come noto la somma dei coefficienti binok
(
)
k
!
n
−
k
!
 
miali dello sviluppo, in quanto presenti anche nello sviluppo del binomio (1 + 1)n, quindi la somma
di
=
tutti
i
casi
possibili.
n ⋅ (n − 1) ⋅ (n − 2) ⋅ ...⋅ (n − k + 1)
2n k!
<
nk
2n k!
In
questo
modo
il
numero
n!
n
2 k ! (n − k )!
=
è la probabilità che si abbiano k maschi e (n-k) femmine.
Al crescere di n, l’ultima frazione scritta diviene sempre più piccola (come si può osservare mediante un confronto di infiniti ) e quindi considerando il grande numero delle nascite la probabilità che
nascano più maschi o più femmine diviene sempre minore, quindi si può supporre che vi sia perfetta
82
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
equiprobabilità con un numero sufficientemente ampio di nascite. Sappiamo da Bernoulli che il coefficiente
 n

 Int n
2

binomiale
maggiore
si
ottiene
con
il
termine
centrale
dello
sviluppo

n!
n
n
=
 Int n ! n − Int n ! , Al crescere di n, la differenza tra Int 2 e n − Int 2

2
2
( )
( )(
( ) (
( ))
( )) diventa
poco apprezzabile, quindi la probabilità maggiore si ha sulla condizione di equiprobabilità.
Il ragionamento fin qui funziona e se si intendesse proporre un gioco basato sulle possibili uscite nel
lancio di più monete, puntando su una particolare configurazione, il giocatore vedrebbe diminuire le
sue possibilità di vittoria all’aumentare del numero delle monete. Ma Arbuthnot a questo punto pretende che valga lo stesso se egli puntasse sulla uscita non di una perfetta parità tra M e F, ma su una
parità approssimativa tra M e F. Infatti egli conclude affermando: «It is very improbable (if mere chance
governed) they would never reach as far as the extremities» e conclude che pertanto «constant regularity in the
birth of both sexes» non può essere regolata dal caso.
Ora se è vero che sia molto improbabile che si abbiano i casi estremi, tutti maschi oppure tutte
femmine, Arbuthnot non è in grado di dare una stima quantitativa alla considerazione qualitativa
della improbabilità. La cosa riuscirà più tardi a Nicolas Bernoulli che quantificherà la ‘costante regolarità’ in 18 35 di probabilità di nascere maschio, sebbene ci sia una probabilità non nulla che nascano bimbi tutti dello stesso sesso, questa diviene sempre minore al crescere di n.
Arbuthnot presenta i registri delle nascite a Londra per un periodo di 82 anni. Dal conteggio risulta
che in ogni anno sono nati più maschi che femmine. Ma anche questo fatto non lo scalza dalla sua
posizione fideistica. Scrive infatti:
«To judge of the wisdom of the contrivance, we must observe that the external accidents to which males are subject (who must seek their food with danger) do make a great havoc of them, and that this lot exceeds that of the
other sex, occasioned by diseases incident to it, as experience convinces us. To repair that loss, provident nature,
by the disposal of its wise Creator brings forth more males than females, and that in almost proportion. »
Ciò ha poco a fare col calcolo delle probabilità, ma spinge il nostro autore a presentare un secondo
tipo di calcolo. Se ci fosse la stessa probabilità di nascere maschio o femmina; allora quale sarebbe
la probabilità che in ogni anno ci siano più maschi che femmine? Essa è circa ½, per ciascun anno. I
registri delle nascite di Londra mostrano che per 82 anni consecutivi ci sono stati ‘anni maschili’
cioè con predominanza di nascite di maschi, e nessun ‘anno femminile’. Ma la probabilità che que1
sto avvenga per 82 anni successivi è 82 (che dell’ordine di 2·10-25). In più si aggiunga che la pre2
dominanza maschile si ‘aggira’ entro limiti molto stretti. Questa probabilità è così piccola che possiamo concludere che non c’è uguale probabilità di nascere maschio o femmina. Tale argomento lo
si considera il primo esempio di un test di significatività statistica.
Ma Arbuthnot non abbandona la volontà di provare nei fatti il disegno divino. Poiché non è possibile assumere l’equiprobabilità, allora nelle cose è presente una scelta preordinata e non il caso.
83
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
L’importanza di questa opera è così evidente: la sua scrittura e pubblicazione sono precedenti la
comparsa della Ars conjectandi, ma condividono con essa un punto importante: l’uso della probabilità a posteriori ed una larvata presenza della legge dei grandi numeri. Come si vede, a parte le possibili correzioni, lo Scozzese utilizza un argomento a posteriori, nota la frequenza delle nascite di
ciascun sesso. Inoltre si può ritenere la sua opera una prima applicazione della probabilità alle
scienze statistiche; è anche di interesse il fatto che in essa appaia ciò che può essere considerato un
primo esempio di test statistico di significatività. L’altro merito di Arnbuthnot di avere posto tale
problema delle nascite all’attenzione degli studiosi e saranno numerosi gli scritti sul tema.
L’opera ebbe vasta risonanza, e la si interpretò come un caposaldo della possibile applicazione della
nuova scienza di Newton anche alla religione, tenendo conto che il fisico sosteneva la presenza di
Dio ovunque, tanto da ritenere lo Spazio come una specie di organo di senso di Dio stesso.
Il problema delle nascite pone interessanti quesiti di natura epistemologica. La prima domanda è se
una costanza statistica in un fenomeno naturale debba essere intesa come il risultato de caso che si
manifesta con una probabilità. La risposta di Arbuthnot è negativa, anzi lui conclude che è un disegno della Provvidenza Divina. Se questa posizione si sono schierati in buon numero i sostenitori del
pensiero di Newton. Le argomentazioni di Nicolas Bernoulli vanno in direzione contraria, mostrando che è possibile individuare un modello aleatorio che fornisce gli ‘stessi’ risultati. La seconda
questione è che la scoperta di una regolarità statistica come quella scoperta nel caso delle nascite è
il ‘motore primo’ per interrogarsi sulle cause del fenomeno, quindi mette in luce la regolarità e pretende di essere spiegata con argomentazioni convincenti, di varia natura e non si accontenta di un
generico ‘Dio lo vuole’. La terza considerazione è sulla natura della probabilità. L’indagine sulla
natura della probabilità, in quegli anni, stava assumendo aspetti di soggettivismo, in base al quale
non esiste in re una sostanza che possa chiamarsi probabilità, ma per spiegarne la natura ci potevano essere vari approcci. Quello più diffuso era che la probabilità è (connessa con) la mancanza di
conoscenza in un soggetto che potenzialmente è in grado di comprendere il fenomeno, questo in
Francia o più in generale sul continente europeo. Nel Regno Unito si preferiva pensare non tanto ad
una mancanza di conoscenza, ma ad una mancanza di capacità interpretative.
La Legge debole di grandi numeri ha fornito una via interpretativa più matematica del fenomeno.
3.1.2. Monmort. Si deve a Pierre de Montmort (1678 - 1719) un Essai
d’Analyse sur le Jeux de Hazards. Aveva studiato con Malebranche, aveva
preso gli ordini e divenendo canonico della cattedrale di Parigi. Lasciava gli
ordini religiosi per sposarsi. Nel 1708, prima che apparisse la Ars conjectandi,
Nicolas Malebranche
1638 - 1715
Montmort pubblicava la sua opera. Di lui si disse che come un novello Colom-
84
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
bo aveva rivelato un mondo nuovo ai matematici. La sua opera ha avuto una seconda edizione nel 1713, a testimonianza dell’interesse suscitato. Le due edizioni
sono diverse perché nella seconda sono incluse numerose pagine sul calcolo combinatorio, nonché un epistolario con Nicolas e con Johann (I) Bernoulli (1667 –
1748). Oltre ai Bernoulli fu anche in contatto con Leibniz che ne lodò l’opera, con
alcune riserve.
Johann Bernoulli
1667 - 1748
Nella prefazione, Monmort ci riferisce che Jacob Bernoulli è stato impegnato nella scrittura di un
lavoro intitolato De arte conjectandi, e che la morte prematura gli ha impedito di portare a termine
il lavoro. L’autore ci informa che la sua opera è stata sollecitata da alcuni amici che volevano determinare se nel gioco del Faraone, chi tiene banco avesse qualche vantaggio. Per questo, afferma,
ha composto un’opera per compensare la perdita del lavoro di Bernoulli.
Il lavoro è diviso in quattro parti (nella seconda edizione). La prima è dedicata alla teoria delle combinazioni, la seconda tratta di alcuni giochi di carte, la terza di giochi con i dadi, la quarta presenta
le soluzioni di vari problemi sulle probabilità, includendo quelli di Huygens. A queste parti vanno
aggiunti gli epistolari.
Montmort decide di non trattare le applicazioni della probabilità a argomenti morali, politici o economici, sia perché era noto che Bernoulli ci aveva lavorato, sia perché nel frattempo erano usciti altri trattati sugli argomenti da lui evitati. Inoltre le applicazioni a questi campi non matematici sono
assai complessi. Per questi motivi la sua opera è più ‘ristretta’. Ma così facendo ha la possibilità di
ridurre al minimo le richieste teoriche e di poter fare astrazione da tutte quelle circostanze che hanno per sfondo la libertà dell’uomo.
La prima parte dello Essai (nella seconda edizione) è dedicata al calcolo combinatorio, ma sono
numerosi gli argomenti che richiedono già la probabilità. Una delle idee del nostro è quello di associare il triangolo numerico a problemi di ‘testa o croce’. Il simbolo che usa per le combinazioni di
classe r di n oggetti assomiglia al coefficiente binomiale, ma invece di avere le due parentesi rotonde è un piccolo rettangolo. Ad esempio per giustificare i coefficienti che si ottengono sviluppando il
binomio (a+b)4, suppone di usare quattro monete a due facce colorate in bianco e nero. Studia allora
in quanti modi diversi sia possibile ottenere una certa combinazione di bianchi e neri. Così per quattro neri ‘è una sola possibilità, 4 per tre bianchi e 1 nero, e così via. Quindi produce una connessione tra gli aspetti di probabilità e il risultato algebrico, che all’epoca ha ricevuto attenzione. Poi estende il problema ai coefficienti multinomiali (cioè quelli che risultano considerando invece di binomi, polinomi con più termini) e ne fornisce una interpretazione probabilistica.
Introduce poi un problema di un lancio di più dadi uguali chiedendosi quanti sono i casi i cui appaiono a volte 1, b volte 2, c volte 3, e così via e determina in questo modo la formula delle permu-
85
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
tazioni con ripetizione, compatibili con la fissata partizione dei dadi. Presenta poi vari problemi legati a dadi e a carte e introduce tecniche di sommazione mediante le differenze finite.
La seconda parte è principalmente dedicata al gioco del Faraone, e ad altri giochi di carte allora in
gran voga. Per risolvere i problemi che pone, anche abbastanza complessi, trova le somme di opportune serie numeriche, ad esempio una serie che ha per termini i numeri delle disposizioni della stes-
sa classe di insiemi di oggetti di cardinalità diversa (compatibili con la classe). In altri casi tiene fisso il numero di oggetti e fa variare la classe delle disposizioni.
La terza parte riguarda giochi di dadi (o cose simili, come i noccioli). La quarta tratta di vari problemi, in particolare risolve quelli lasciati da Huygens, ma si occupa anche di rendite vitalizie in
presenza di interessi composti. Infine riprende il problema di de Méré, riproducendo anche la lettera
di Pascal del 14 Agosto 1654. Nel problema della divisione della posta introduce una nuova ‘variabile’ data dalla ‘perizia’ dei due giocatori, vale a dire la loro probabilità di vincere la partita successiva e con queste nuove variabili fornisce nuove formule.
A Montmort si deve l’introduzione di un problema legato alla divisione della posta, relativo alla
probabilità che la partita termini con la vittoria di uno dei due contendenti prima o esattamente allo
n-esimo gioco. Questo problema è noto come il problema della durata del gioco. Ad esso hanno dedicato attenzione i più importanti studiosi di probabilità nel XVIII secolo. L’autore però non riesce
a risolverlo adeguatamente, ed in alcuni casi speciali scrive formule senza una adeguata dimostrazione.
La quinta e ultima parte dell’opera di Montmort è, probabilmente, la più interessante dal punto di
vista storico e tecnico. Essa riproduce lettere per lo più scambiate dall’autore con alcuni esponenti
della famiglia Bernoulli, in particolare Nicolas, i quali mostrano come fosse intenso lo scambio di
informazioni tra gli studiosi del tempo. Si trova in essa, ad esempio, una soluzione del problema
delle nascite. Nicolas scrive:
«Consideriamo 14.000 dadi, ciascuno con 35 facce, 18 bianche e 17 nere che debbano essere lanciati assieme e il
numero dei casi è veramente molto grande, in quanto i numeri delle facce bianche e di quelle nere dovrebbero
avvicinarsi o avvicinarsi di più di ciascuna altra [proposta] al numero delle nascite dei maschi nei registri»
Gli argomenti principali della corrispondenza sono legati ai giochi ed ai problemi su di essi proposti
dallo stesso Montmort. Se ne trae l’impressione di una comunità vivace, attenta alle reciproche soluzioni che talvolta sono commentate. È anche interessante cogliere gli aspetti di dibattito tra i so86
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
stenitori di Newton e di Leibniz, dibattito in cui l’autore si trova ad essere coinvolto per le sue ampie conoscenze di colleghi. Scrive infatti a Nicolas Bernoulli:
Si è riportato il testo per mostrare anche la grafia del Francese di inizio ‘700. Sempre nella stessa
lettera afferma, mostrando quanto sia importane per lui la Matematica:
«Sarebbe auspicabile che qualcuno volesse prendersi la pena di insegnarci come ed in che ordine si sono succedute le scoperte in Matematica e a chi noi dobbiamo essere riconoscenti. Si fa la storia della Pittura, della Musica
della Medicina, ecc. Una buona storia della Matematica, e in particolare della Geometria sarebbe un’opera ben
più interessante e più utile: quale piacere non ci sarebbe a vedere il legame, la connessione dei metodi, l’incastro
delle differenti teorie, ad iniziare dai primi tempi fino ai nostri in cui questa scienza si trova portata ad un così
grande grado di perfezione. Mi sembra che un’opera siffatta potrebbe essere considerata in qualche maniera come la storia dello spirito umano; poiché è in questa scienza più che in ogni altra cosa, che l’uomo fa conoscere
l’eccellenza che questo dono dell’intelligenza che Dio gli ha accordato per innalzarlo al di sopra di ogni altra
creatura»
L’opera di Montmort è quindi una vasta rassegna di problemi specifici, alcuni dei quali risolti con
sagacia, altri con metodi criticabili, ma non si trova in essa lo ‘scatto’ teorico che distingue la Ars
conjectandi. Tratta, quindi casi in cui è possibile una stima a priori della probabilità.
Se si considera che nel momento della concezione dell’opera, il materiale a disposizione era ben
poco: qualche lettera di Pascal e di Fermat e il breve saggio di Huygens, vediamo questo ampio saggio come un tentativo di sistemazione, per offrire un
punto di partenza agli studi successivi. L’autore però non fu fortunato perché
poco tempo dopo la pubblicazione della prima edizione comparve il saggio
Abraham De Moivre
1667 - 1754
ben più complesso ricco e denso di De Moivre che pur essendo nato in Francia
visse in Inghilterra, per problemi religiosi. L’inglese fu sicuramente un mate-
matico di maggior capacità del francese ed ebbe anche il vantaggio di vivere più a lungo; d’altra
parte Montmort ebbe maggiore fortuna materiale, dato che De Moivre morì in povertà.
3.1.3. De Moivre. Il primo lavoro dedicato alla probabilità fu presentato nelle Philosophical Transaction del 1711, quindi contemporaneamente al lavoro di Arbuthnot, occupando interamente alcuni
numeri della rivista, quindi anche le sue idee si sono evolute indipendentemente dalla pubblicazione
della Ars conjectandi. Il titolo prescelto è De Mensura Sortis, seu, de Probabilitate Eventuum in
Ludis a Casu Fortuito Pendentibus, scritto in latino. In seguito diede una forma più completa alle
sue considerazioni pubblicando in Inglese il trattato The Doctrine of Chances: or, a Method of Calculating the Probabilities of Events in Play. Il testo ebbe fortuna editoriale come mostra il fatto che
la prima edizione apparve nel 1718, la seconda nel 1738 e la terza, postuma, pubblicata nel 1756.
Non si tratta però di una semplice proposizione di materiali, bensì di successivi arricchimenti del
testo, passando dalle 175 pagine della prima edizione alle 348 pagine della terza.
Il brano che segue è tratto dalla Prefazione della prima edizione della Doctrine:
87
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
In esso ricorda di avere scritto 7 anni prima il De Mensura su invito di Robartes (in seguito Lord
Radnor), dopo avere letto la prima edizione dell’opera di Montmort.
La Prefazione di 14 pagine continua dando una specie di riassunto dell’intera opera, citando e ringraziando a più riprese Montmort e si conclude citando che tra la pubblicazione di De Mensura e
della Doctrine, è apparsa la Ars conjectandi e con l’invito a Nicholas e Johan Bernoulli a proseguire
l’opera di Jacob secondo le linee della quarta parte dell’opera, con l’applicazione alla Economia e
alla Politica.
Con De Moivre inizia a prendere corpo l’idea che per trattare la probabilità occorra una matematica
diversa da quella usata per studiare altri argomenti. Questo fatto, di per sé oggi chiaro, tanto che
nella attuale organizzazione scientifica delle discipline matematiche al calcolo della probabilità e
statistica è dedicato un settore scientifico disciplinare (anzi due, in quanto si distingue tra statistica
matematica e statistica applicata) era una rottura della situazione che aveva iniziato a delinearsi dalla fine del XVII secolo in poi, con l’avvento della Analisi matematica, vista come strumento onnicomprensivo che spiegava proprietà geometriche, ma anche fisiche essendo la fisica intesa in senso
ampio come lo studio del ‘Mondo’, come si vede nel caso di Arbuthnot ed altri.
Il lavoro pubblicato sulle Transactions consisteva di una introduzione in cui spiegava come si potesse determinare la probabilità e poi 26 problemi, di cui alcuni confluiranno nella Doctrine. De
Moivre li trae dalla letteratura che conosce, Pascal/Fermat, Huygens, Montmort, ed altri ancora
88
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
proposti da Robartes. Sette sono dedicati al problema della durata del gioco. Il valore storico del De
Mensura consiste nel fatto di avere pubblicato per primo alcuni problemi che erano già nel manoscritto di Bernoulli ed altri che erano nell’epistolario di Montmort, ma non erano ancora apparsi a
stampa.
Dalla terza edizione della Doctrine, pubblicata postuma apprendiamo alcuni particolari della vicenda umana di De Moivre:
«The Author of this Work by the failure of his Eye-sight in extreme old age, was obliged to entrust the Care of a
new Edition of it to one of his Friends; to whom he gave a Copy of the former, with some marginal Corrections
and Additions, in his own hand writing. To these the Editor has added a few more, where they were thought necessary: and has disposed the whole in better Order; by restoring to their proper places some things that had been
accidentally misplaced, and by putting all the Problems concerning Annuities together; as they stand in the late
improved edition of the Treatise on that Subject. An Appendix of several useful Articles is likewise subjoined:
the whole according to a Plan concerted with the Author, above a year before his death.»
La distanza della terza edizione pubblicata nel 1756 dalla prima 1718, e l’estensione delle aggiunte
che fanno passare dalle 175 della prima alle 258 pagine della seconda ed alle 348 della terza edizione, permettono di apprezzare il fatto che De Moivre ha trascorso gran parte della vita a migliorare
ed approfondire il tema della probabilità.
Nella lunga introduzione (33 pagine) della terza edizione si presentano le regole più importanti
dell’argomento e di esse si danno alcuni esempi di applicazioni. Per la collocazione nel testo, alcuni
risultati sono dati senza dimostrazione, ma poi la dimostrazione compare nel seguito; di altri la dimostrazione manca completamente. Il testo è articolato in 74 problemi, ciascuno introdotto con esempi che erano di conoscenza comune sul gioco o su altre situazioni, poi però in alcuni commenti
ed osservazioni compaiono risultati di matematica (in generale) o di calcolo delle probabilità (in
particolare). Se ne mostrerà qualche esempio.
De Moivre introduce una notazione che verrà poi sempre usata: se con x si indica la probabilità della realizzazione di un evento, con (1- x) si indica la probabilità che l’evento indicato non si realizzi,
assumendo implicitamente che la probabilità di eventi mutuamente escludentisi sia data dalla somma delle probabilità e che nel caso particolare questa somma sia 1. Osserva poi che la probabilità
del realizzarsi contemporaneo di eventi è data dal prodotto delle probabilità (non lo sfiora il problema che gli eventi possano non essere stocasticamente indipendenti) e afferma:
«and innumerable cases of the same nature, belonging to any number of Events, may be solved without any
manner of trouble to the imagination, by the force of a proper notation»
L’affermazione è sorprendente, soprattutto riferendosi alla prima edizione, se si
pensa che la notazione algebrica, con tutta la sua forza espressiva e deduttiva, cui
fa riferimento De Moivre, era in quegli anni diversa da quella che conosciamo
noi, in quanto si può datare dal 1770, data di pubblicazione delle Meditationes algebricae di Waring.
In virtù di quanto proposto, spesso la trattazione si avvale di calcolo letterale. E
89
Edward Waring
1736-1798
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
così le soluzioni di problemi prendono la forma di espressioni algebriche da risolvere con l’ausilio
degli strumenti idonei. In certi casi la soluzione viene data in ‘forma chiusa’ altre volte con approssimazioni. Un esempio è quello di considerare log 2 =
7
nearly , con il logaritmo naturale, un altro
10

z2 
è assumere e z = 21 + z +  , approssimazione accettabile solo in un intorno del numero e.

2 

I problemi che presenta sono spesso relativi a dadi e a giochi; le soluzioni che offre sono spesso
‘generali’ cioè traggono spunto dal gioco ma si possono applicare a casi ottenuti variando i parametri considerati e hanno il vantaggio di riunire e risolvere problemi simili presenti in letteratura. Di
fatto sembra che cerchi di fare una classificazione generale di problemi noti. Si mostra inoltre aggiornato sui risultati dei matematici suoi contemporanei in quanto fa uso di tecniche per la somma
delle serie che desume da Montmort, da Jacob Bernoulli ed altri. Si deve a De Moivre il nome di
numeri di Bernoulli ai coefficienti Bk che compaiono nella espressione
m −1 n
∑ k =
k =0
1 n  n + 1
Bk m n +1− k .
∑ 
n + 1 k = 0  k 
È interessante anche il fatto che desuma le leggi generali del calcolo combinatorio come applicazione di problemi quindi compiendo un percorso diverso da quello usato anche in questi appunti.
In una osservazione indica un risultato importante. Considera la serie a segni alterni
1
e per essa prova che la somma è 1 − . La serie con gli stessi termini ma solo con l’addizione era
e
cosa nota ai tempi di Jacob Bernoulli ed essendo una serie telescopica è facile vedere che ha per
somma 2. La dizione, usata frequentemente, “ad infinitum” al suo tempo è ormai ‘tradizionale’ ad
indicare le serie. Si noti che l’esempio dato è abbastanza ‘pericoloso’ nel senso che trattandosi di
una serie a segni alterni e trattandosi di una scrittura che lascia intendere l’uso delle proprietà aritmetiche elementari, in base ad un successivo risultato sulle serie, permetterebbe una ‘riorganizzazione’ dei termini con l’ausilio della proprietà commutativa, che convergerebbe ad un numero qualunque.
De Moivre prende spunto da un’altra batteria di problemi che possono presentarsi come segue: si
considerino n urne contrassegnate da lettere dell’alfabeto (o da numeri) e si considerino altrettante
biglie contrassegnate nello stesso modo. Si distribuiscono a caso le biglie nelle urne e poi si controlla quante sono le biglie che si trovano nel ‘posto giusto’. In questo caso, partendo da situazioni
semplici, l’autore fa uso di una serie ‘telescopica’ e poi introduce dei simboli: +a per dire che la bi-
90
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
glia con l’etichetta a è nell’urna con etichetta a e –a per dire che ciò non avviene e così via. In questo modo individua scritture che apparentemente sembrano somme algebriche (letterali), ma poi organizza il tutto in modo simbolico e conclude:
«In the 35th and 36th Problems, I explain a new sort of Algebra, whereby some Questions relating to Combination are solved by so easy a Process, that their solution is made in some measure an immediate consequence of
the Method of Notation. I will not pretend to say that this new Algebra is absolutely necessary to the Solving of
those Questions which I make to depend on it, since it appears that Mr. Montmort, Author of the Analyse des
Jeux de Hazard, and Mr. Nicholas Bernoulli have solved, by another Method, many of the cases therein proposed: But I hope I shall not be thought guilty of too much Confidence, if I assure the Reader, that the Method I
have followed has a degree of Simplicity, not to say of Generality, which will hardly be attained by any other
Steps that by those I have taken.»
In questa ‘confessione’ appare evidente la ricerca che De Moivre compie, non tanto per arricchire di
qualche ulteriore esempio un catalogo di problemi risolti sui giochi d’azzardo, ma l’esigenza di metodi innovativi per lo sviluppo dell’argomento e che siano specificamente connessi al tema della ricerca. Nel caso in considerazione si avvale dello strumento Algebra, che, come detto prima, stava
compiendo gli ultimi passi per una completa simbolizzazione.
Un problema di De Moivre ebbe una vasta eco e fu affrontato numerose volte da molti matematici
successivi, fino alla fine del secolo. Si tratta del seguente: Ho un dado con (p+1) facce e vinco la
posta se esce una delle f facce prescelte (con f < (p+1)), in n lanci. Il problema è determinare la speranza di vittoria. In questo esempio lui ottiene una formula generale, ragionando su casi particolari.
Il nostro autore sembra molto soddisfatto dei risultati ottenuti riguardo ad un altro problema che
verrà indicato, in seguito, come problema della durata del gioco. Il problema generale che viene
presentato è il seguente: si suppone che il giocatore A abbia m gettoni e che B ne abbia n; si suppone inoltre che le loro rispettive probabilità di vincita nella singola partita, siano a e b. Chi perde la
singola partita deve consegnare un gettone al vincitore. Si chiede di determinare la probabilità che
entro un certo numero di partite il gioco termini, in quanto uno dei giocatori abbia vinto tutti i gettoni del suo avversario.
L’attenzione di De Moivre però viene ‘dirottata’ in una direzione inaspettata, rispetto al tipo di problemi che finora ha trattato, cioè sul fatto che il gioco non termini entro il numero di partite concordato. Fornisce allora quella che chiama “Una regola generale per determinare quale sia la probabilità che il gioco non sia determinato in un dato numero di partite”, ma la tratta nel caso i due giocatori inizino con lo stesso numero di gettoni. Il testo dice:
«Let n be the number of Pieces of each Gamester. Let also n+d be the number of Games given; raise a+b to the
Power n, then cut off the two extream Terms, and multiply the remainder by aa + 2ab + bb: then cut off again
the two Extreams, and multiply again the remainder by aa + 2ab + bb, still rejecting the two Extreams; and so
on, making as many Multiplications as there are Units in ½d; make the last Product the Numerator of a Fraction
whose Denominator let be (a+b)n+d, and that Fraction will express the Probability require,…; still observing that
if d be an odd number, you write d – 1 in its room. »
Poi offre un esempio con n = 4 e d = 6, trovando che la probabilità che il gioco non termini in 10
91
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
partite è quello che oggi possiamo scrivere come
164a 6b 4 + 232a5b5 + 164a 4b6
(a + b )10
.
Si noti che nella scrittura del quadrato di a+b non utilizza l’esponente 2 , ma Waring deve ancora
arrivare!
La dimostrazione della formula è lasciata al lettore, ed inoltre l’autore osserva che è un inutile appesantimento del calcolo scrivere a e b nei singoli prodotti, in quanto il tutto si potrebbe realizzare
considerando solo gli esponenti con cui a e b compaiono (considerando cioè coppie ordinate e regole appropriate per gestirle) per poi ricostruire la formula finale re-interpretando le coppie come potenze di a e b. Con questa proposta De Moivre anticipa analisi sulla ‘forma’ delle espressioni che
saranno il centro della ricerca inglese in Algebra all’inizio del XIX secolo.
Dallo studio della probabilità che il gioco non termini, ricava poi la probabilità che il gioco termini
considerando il complementare a 1 della probabilità trovata. Ma ciò equivale a considerare, stavolta,
solo i termini che sono stati eliminati, per cui, nel caso n = 4 e d = 6, considerare la formula
a 4 + b 4 
4ab
14a 2b 2 48a3b3 
⋅
1
+
+
+
(a + b )4  (a + b )2 (a + b )4 (a + b )6 
Da questa formula è facile comprendere come generalizzare al caso di valori diversi per n e per d,
almeno per quanto riguarda la parte letterale. Il problema, caso mai è come trovare i coefficienti
numerici che compaiono a numeratore delle singole frazioni. Per essi De
Moivre propone due diverse strategie: una fornendo regole di tipo ricorsivo
che permettono di trovare ciascun coefficiente conoscendone i precedenti ed
una in ‘forma chiusa’ cioè con un calcolo diretto per ciascun coefficiente. Il
tutto senza dimostrazione. E ciò costringerà Laplace a cercare, con i mezzi
Pierre-Simon de Laplace
1749 - 1827
resi disponibili nel suo tempo, di dimostrare quanto anticipato in Doctrine.
In altri problemi che sono ‘variazioni’ sul problema della durata del gioco,
De Moivre utilizza strumenti matematici che sono innovativi. Si tratta di trovare le somme di serie
date per ricorrenza. Lui opera mediante i metodi delle differenze finite. Per questo argomento rimanda ad una sua precedente opera Miscellanea Analytica, scusandosi col lettore per l’assenza delle
dimostrazioni.
Finora non si è messa in luce l’influenza del Teorema di Bernoulli nelle considerazioni e nelle tecniche utilizzate per risolvere i problemi proposti. Questo può essere frutto di una scelta dettata da
una possibile incompleta comprensione della forza innovativa della legge dei grandi numeri o una
scelta di coerenza con quanto presentato nel De Mensura, di cui la terza edizione della Doctrine è
un ampliamento ed approfondimento secondo le proprie linee di ricerca.
92
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
Ma le due interpretazioni offerte, forse, sono troppo semplicistiche. Infatti in un problema, il 73-mo,
che viene formulato nel modo seguente:
«A and B playing together, and having a different number of Chance to win one Game, which number of
Chances I suppose to be respectively as a to b, engage themselves to a Spectator S, that after a certain number of
Games is over, A shall give him as many pieces ad he wins Games, over and above
wins Games, over and above the number
a
n , and B as many as he
a+b
b
n ; to find Expectation of S.»
a+b
Ma quando le probabilità di vittoria di A e B in un singolo gioco sono in proporzione a e b, noi sappiamo dal teorema di Bernoulli che c’è una probabilità prossima a 1 che con un gran numero di tentativi il rapporto tra i numeri delle partite vinte da A e quelle vinte da B, rispettivamente, approssimi
il rapporto tra a e b. Ebbene, nella soluzione del problema 73, De Moivre fa uso di ciò che potrebbe
essere detto l’inverso del teorema di Bernoulli, mostrando così la sua familiarità con l’argomento.
Tornando all’apparato di Bernoulli con un urna con sassolini bianchi e neri e composizione incognita, si vuole stimare il rapporto tra i numeri di sassolini di ciascun colore presenti nell’urna, mediante
la frequenza delle pescate. Per trovare un stima precisa si può applicare all’inverso il teorema di
Bernoulli perché è in questo caso la probabilità che stima la composizione, oppure utilizzando il
Teorema di Bayes. De Moivre afferma:
«I’ll take the liberty to say, that this is the hardest Problem that can be proposed on the Subject of Chance, for
which reason I reserved it for the last, but I hope to be forgiven if my Solution not fitted to the capacity of all
Readers; however I shall derive from it some Conclusions that may be of use to every body: in order thereto, I
shall here translate a Paper of mine which was printed November 12, 1733, and communicated to some Friends,
but never yet made public reserving myself the right of enlarging my own Thoughts, as occasion shall require. »
Fa seguire a questo una sezione (di circa 11 pagine) sulle approssimazioni di somme di termini delle
potenze del binomio, intitolato “A Method of approximating the Sum of the Terms of the Binomial (a + b)n expanded into a Series, from whence are deduced some practical Rules to estimate the Degree of Assent which is given
to Experiments”
che contiene, come risultato più importante, in cui usa la formula di James Stirling
n
(1692 – 1770) (la possibilità di approssimare n! con
n
2πn   ). Mediante tale formula (o meglio
e
una sua modificazione equivalente) De Moivre indica per primo una approssimazione della distribuzione binomiale mediante un nuovo ente, la distribuzione normale.
Il compito è arduo e per farlo apprezzare vale al pena di fare qualche esempio. La distribuzione binomiale si può introdurre come quella che calcola la probabilità che in n lanci di dado, o moneta o
altro, si ottengano k successi, conoscendo la probabilità di successo in un singolo lancio. Ovviamente si suppone che il risultato di ogni lancio può essere solo “successo” o “fallimento”; che il risultato di ciascuna prova sia indipendente dai risultati dai lanci precedenti ed inoltre che la probabilità p
93
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
di risultato favorevole un (solo) lancio sia costante in ciascuna prova (ed analogamente per la probabilità di insuccesso q = 1 – p, in una singola prova).
Consideriamo, ad esempio, un dado a quattro facce (un tetraedro regolare) etichettate con le lettere
dell’alfabeto, A, B, C, D. Siamo interessati all’uscita di A. Ora si può assumere che il dado non sia
truccato e che la probabilità dell’uscita di A sia ¼. Si considerino 5 lanci e si voglia conoscere la
probabilità di avere (esattamente) tre successi in 5 lanci. Jacob Bernoulli ci insegna nella dimostrazione del suo teorema:
«In questo modo si trova che la speranza di nessuna osservazione sfavorevole è pari a r nt , di un’osservazione
t nt
sfavorevole  nt  s ⋅ r nt −1 , di due osservazioni sfavorevoli  nt  s 2 ⋅ r nt − 2 , di tre osservazioni sfavorevoli
 
 
nt
nt
1
2
t
t
 nt  s 3 ⋅ r nt − 3 , ecc. . Tralasciando il denominatore comune tnt, il grado di probabilità o il numero di casi in cui si
 
 3  t nt
può verificare che tutte le osservazioni, tutte meno una, tutte meno due, tutte meno tre… siano favorevoli è rispettivamente…»
Quindi, nel nostro semplice caso in cui t = 4, n =
5
1
3
, r = 1, s = 3, si ha che: p = ,q = e nel no4
4
4
 5  3 2 1 3 5 3 2 1 3
   
⋅4    
stro caso, la probabilità di avere tre facce A è data da  4  ⋅   ⋅   =   ⋅   ⋅   . Il

  4   4   2  4   4 
 2 
5
1 3
termine ora individuato è un termine dello sviluppo di  +  , e quindi la somma di tutte le pro4 4
babilità che si ottengono è 15 = 1. Sulla base del Lemma 3 di Bernoulli, sappiamo che il termine
massimo dello sviluppo si ha in corrispondenza della potenza nr-esima di r nello sviluppo di
(r+s)nt. In questo caso essendo r = 1 e n = 5/4, in corrispondenza della potenza intera più vicina a
5/4, cioè 1. Così il massimo valore della probabilità si ha per una sola uscita di A in 5 lanci. La presenza di un valore razionale è un buon incentivo a cercare un’espressione del coefficiente binomiale
an-
che con numeri
reali (o almeno
razionali).
Se ora si indica
con X il numero
X Probabilità
0
0,237305
1
0,395508
2
0,263672
3
0,087891
4
0,014648
5
0,000977
probabilità k successi
0,5
0,4
probabilità
applicabile
0,3
0,2
di uscite di A in 5 lanci, si ottiene
0,1
che i possibili valori di X sono 0, 1,
0
0
2, 3, 4, 5 (un esempio di variabile a-
1
2
3
k
94
4
5
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
leatoria discreta). In base al risultato precedente si hanno i valori di probabilità elencati in tabella. Il
grafico ad istogrammi che rappresenta la tabella è un grafico ‘discreto’, data la natura del problema.
Se ora si volesse determinare la probabilità di 30 uscite di A in 50 lanci, basta considerare t = 4,
n=
50
1
3
, r = 1, s = 3, p = ,q = . Sempre sfruttando il Lemma 3 di Bernoulli, sappiamo che il
4
4
4
massimo termine sarà corrispondente a nr, cioè a 50/4, o meglio al numero intero più vicino, in questo caso, 12. La variabile aleatoria X assumerebbe tutti i valori da 0 a 50, estremi compresi e la pro 50  3 20 1 30  50  3 20 1 30
   
⋅4    
babilità sarebbe data da  4  ⋅   ⋅   =   ⋅   ⋅   . Il grafico delle probabilità

 4 4
 20   4   4 
 20 
dei valori della variabile aleatoria è ora
probabilità di k successi
0,14
probabilità
0,12
0,1
0,08
0,06
0,04
0,02
0
successi
La probabilità per X = 30 è data da 1,29·10-7. Con questo secondo esempio si coglie meglio
l’intuizione di De Moivre: approssimare la distribuzione binomiale con una
funzione continua quella che sarà poi detta curva di Gauss. L’espressione analitica di essa è f ( x ) =
1
2πσ 2
−
e
( x − µ )2
2σ 2
in cui compaiono i parametri µ e σ,
con importante significato probabilistico. La via usata da De Moivre è però
Karl Friedrich Gauss
1777 - 1855
quella di darne una espressione mediante serie.
Così facendo ‘migliora’ il risultato di Bernoulli, in quanto riduce le 25.550 estrazioni da fare a sole
1.000. Il risultato sarà ripreso e migliorato da Laplace e passerà alla storia come Teorema di De
Moivre –Laplace o Teorema del limite centrale. Riprenderà l’argomento nella Miscellanea Analytica.
La Doctrine si conclude con una parte sulle rendite vitalizie, che ebbe tanto successo da essere pubblicata in seguito, separatamente, e anche tradotta in Italiano.
95
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
Prima di lasciare De Moivre, si tratta brevemente testo delle Miscellanea, citato in precedenza. Il
testo, apparso a Londra nel 1730, in latino, aveva per titolo completo Miscellanea Analytica de Seriebus et Quadraturis…, consta di 272 pagine (in quarto). Esso contiene argomenti di matematica
senza riferimento al calcolo delle probabilità ed altri che sono richiamati esplicitamente nel Doctrina, in particolare quello che diventerà il Teorema di limite centrale.
Per quest’ultimo argomento scrive:
«Aliquot post diebus quam Liber qui inscribitur, Miscellanea Analytica, in lucem prodiisset, Doctissimus
Stirlingius me literis admonuit Tabulam ibi a me exhibitam de summis Logarithmorum, non satis autoritatis
habere ad res firmanda quæ in speculatione niterentur, utpote cui Tabulæ subesset error perpetuus in quinta
quaque figura decimali summarum: quæ cum pro humanitate sua monuisset, his subjunxit seriem celerrime
convergentem, cujus ope summæ logarithmorum tot numerorum naturalium quot quis sumere voluerit obtineri
possent; res autemsic exposita fuerat. »
Si noti nel testo l’uso dell’infinito potenziale “tot numerorum naturalium quot quis sumere voluerit”
De Moivre considera il logaritmo naturale (o neperiano, come dice lui) della formula di Stirling (da
lui modificata), a sinistra compare il logaritmo del fattoriale
1
1
1
1
1

log 2 + log 3 + log 4 + ... + log (m − 1) =  m −  log m − m +
−
+
−
+ ...
3
5
2
12m 360m 1260m 1680m 7

+1−
1
1
1
1
+
−
+
....
12 360 1260 1680
a destra una serie infinita. Nella conclusione, De Moivre dice una cosa inesatta, ma si ‘salva’ perché
utilizza l’espressione, ricavata dalla formula di Stirling, della somma del secondo pezzo della serie
come + 1 −
1
1
1
1
1
+
−
+
.... = log 2π , che per valori ‘piccoli’ di m ammazza la diver12 360 1260 1680
2
genza della serie.
Si noti la ‘audacia’ di De Moivre. La formula considerata permette di scrivere come serie il fattoriale di un numero naturale, in termini di una sua approssimazione (al finito). Quando però si considera la serie ‘generale’ questa è necessariamente una serie divergente, ed usarla per approssimare un
qualcosa può essere scorretto, proprio a causa della sua crescita. Ma la formula indicata ha un comportamento che la consiglia come strumento per costruire tavole numeriche. Infatti essa decresce
velocemente solo fintanto che il numero che vi compare è dell’ordine della dozzina e poi cresce in
modo estremamente lento e questo permette di ottenere buone approssimazioni.
n
1 1
Con questo risultato è in grado di approssimare i coefficienti binomiali di  +  e di ridurre il
2 2
numero di sorteggi richiesti da Bernoulli.
96
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
Di interesse storico è una parte, Responsio ad quasdam Criminationes, di 83 pagine, suddiviso in
sette capitoli, in cui è esplicitata, la controversia tra Montmort e De Moivre. Di fatto è una polemica
in cui si sente solo la voce di De Moivre, dato che il suo ‘avversario’ già morto da diversi anni.
L’autore Franco-Inglese tratta con puntigliosità i vari motivi in cui ha portato nuove risposte o ha
fornito risposte corrette ad affermazioni del probabilità Francese. Nel caso in cui entrambi fossero
arrivati a risultati simili, De Moivre propone dimostrazioni indipendenti da quanto
proposto dall’autore dello Essai. Nella discussione si fanno anche riferimenti a Nicolas Bernoulli e a de Fontenelle, che aveva scritto il necrologio di Montmort.
De Moivre è famoso per una formula che esprime le potenze del binomio (cosφ
Bernard de Fontenelle
1657 - 1757
+ i senφ), che è presente in uno scritto del 1707 e che ha il pregio di ‘inserire’
la trigonometria tra gli argomenti dell’Analisi matematica. Per quanto riguarda
la probabilità, i principali suoi contributi riguardano il problema della durata del gioco, la teoria delle serie definite per ricursione, e soprattutto l’anticipazione del Teorema di limite centrale che ‘migliora’ ed estende il Teorema di Bernoulli. Per questo si vede De Moivre come l’autore che dopo
Bernoulli e prima di Laplace ha fatto progredire l’argomento più di ogni altro.
Non è però facile identificare l’ispirazione della sua importante opera con le categorie degli approcci moderni alla probabilità.
3.2. Altri indirizzi nello studio della probabilità.
In un qualche modo, la prima metà del XVIII secolo presenta studi che o sono influenzati fortemente dai giochi o che risentono, prima come notizia e poi come risultati dell’opera di Jacob Bernoulli.
Nel frattempo lo sviluppo della Analisi matematica sta assumendo aspetti ‘tumultuosi’ ad opera di
grandi personaggi che affrontano, forse con mezzi non completamente adeguati, ma con risultati rilevanti, problemi sempre più complessi e significativi.
Anche i grandi matematici si interessano di probabilità, ma sempre in maniera marginale. Ma per
uno sguardo storico di alcuni momenti ‘salienti’ della probabilità, in questo capitolo ci si sofferma
su alcuni personaggi, assai diversi come ‘professione’ e come vicende personali, che hanno in comune il fatto di essere nati nel XVIII secolo.
3.2.1. Buffon. George-Louis Leclerc è un personaggio di grande rilievo e di cultura
vasta e prodigiosa. Nasce in una famiglia agiata, e dalla madre eredita intelligenza
e una fortuna. Con i soldi della madre il padre acquista una contea, quella di BufGeorge Buffon
1707 - 1788
fon e Montbard. Il nostro fu costretto dal padre a studiare legge, mentre tre dei suoi
97
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
fratelli presero gli ordini religiosi. Durante gli studi i suoi risultati scolastici non furono particolarmente brillanti. Divenuto conte di Buffon a 18 anni per la morte del padre, con un patrimonio assai
ingente, è improvvisamente posto al centro dell’attenzione dei salotti culturali e nobiliari. Riceve
incarichi dalla corona, in particolare per i risultati prodigiosi avuti nella cura dei suoi poderi, il re lo
nomina Direttore dell’orto botanico di Parigi nel 1739 e da quel momento il suo interesse sarà focalizzato sulla botanica. La sua opera maggiore costituita dai 44 volumi della Storia naturale, un trattato enciclopedico, non limitato alla botanica, e che per la pubblicazione richiese ben 55 anni. In questa opera è tra i primi a lasciare da parte
l’esigenza della classificazione, anche perché in quegli stessi anni il suo coetaneo
Carl von Linné
1707 - 1778
Linneo stava producendo il suo magistrale sistema tassonomico. Buffon si occupa
piuttosto di individuare i processi che sovrintendono l’attività degli esseri viventi.
Le sue osservazioni daranno origine ai primi tentativi di spiegare l’evoluzione delle specie viventi.
Delineati in maniera poco approfondita il personaggio e la sua importanza culturale, vediamone i contributi al calcolo delle probabilità. A venti anni decide di lasciare i corsi di giurisprudenza perché attratto dalla Matematica. In quel periodo è
in corrispondenza con il ginevrino Cramer e attraverso gli scambi epistolari coglie
lo spirito della ricerca in Matematica, tanto da decidersi a studiarla sistematicamente iniziando a 21 anni. Conosce un nobile inglese, e da lui ha notizia delle o-
Gabriel Cramer
1704 - 1752
pere di Newton. Nel giro di pochi anni traduce il Method of Fluxions and infinite series in Francese.
La sua opera maggiore nel campo della probabilità è l’analisi di un
D
C
D'
C'
gioco che egli presenta nel 1733 sotto forma di memoria Mémoire
sur le jeu de franc-carreau e poi riprende in seguito sotto altri aspetti. Si tratta di un contributo di straordinaria innovazione nei metodi
e nei risultati 2. Si consideri una tassellazione del piano a quadrati
congruenti e si lanci una moneta (di diametro minore del lato della
A'
A
B'
B
quadrato). Fa ‘franc carreau’ chi lanciando la moneta la fa cadere
all’intero di un quadrato senza sovrapposizione coi bordi 3. Per
semplificare il problema si consideri un unico quadrato e si scartino i casi in cui la moneta ne cade
totalmente fuori. È semplice vedere che in questo caso la determinazione dei casi favorevoli e dei
casi possibili ha a che fare con aree di quadrati. Se il lato del quadrato è l e il raggio della moneta è
2
Per l’opera in probabilità di Buffon mi avvalgo di un articolo di Michel Henry: Émergence de la probabilité et enseignement : définition classique, approche fréquentiste et modélisation, di cui però non ho gli estremi bibliografici.
3
Un software che mostra come si svolge il gioco e che produce una esperienza mediante un generatore di numeri casuali con una moneta di diametro 2 cm (0,1 €) e una ‘scacchiera’ 3×4 di quadrati di lato 5 cm si trova all’indirizzo
http://www.zoneflash.net/animation.php?r=flash3-0041. Con un esperimento fatto durante la scrittura di questi appunti,
con 300 lanci, la frequenza dei franc carreau è stata 166, quindi la frequenza relativa 0,38667.
98
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
r, quando il centro della moneta cade nel quadrato omotetico di lato (l-2r), si ha il ‘franc carreau’.
Quindi, il rapporto tra le aree dei quadrati viene preso come probabilità di esito favorevole nel gioco. Ad esempio se l = 5 e r = 1, allora la probabilità di fare franc carreau è data da
(5 − 2)2
52
=
9
= 0 ,36 . Se invece di un quadrato che ne sono 12 la probabilità rimane la stessa perché
25
bisogna moltiplicare per 12 l’area di ogni ‘quadratino’ e di ogni ‘quadratone’. In questo caso Buffon
usa una probabilità uniforme su tutti i punti del piano. La novità, è che i casi favorevoli e i casi possibili sono ora elementi geometrici e continui. Quindi la situazione ereditata dal problema della partizione della posta si è evoluta ed applicata ad un nuovo contesto. Si parla di probabilità geometrica, dizione che può essere mal intesa in quanto in calcolo delle probabilità si considera anche un tipo di distribuzione geometrica.
Trattando matematicamente questo gioco e sviluppando l’idea della probabilità geometrica, Buffon,
per primo introduce nella teoria derivate e differenziali, allontanando così definitivamente la disciplina dal primo approccio intuitivo basato sul considerazioni aritmetico-algebriche.
Nel 1777, quando è ormai un affermato botanico, ritorna al calcolo delle probabilità con lo Essai
d’Arithmétique Morale, supplemento ad un volume della Storia naturale, con il problema della caduta dell’ago su un parquet a strisce, naturale evoluzione del ‘franc careau’. Di fatto, come prima
nel gioco con la moneta bastava ridursi ad un quadrato, qui basta una sola striscia di altezza t. Si
consideri un pavimento di parquet a liste tutte della stessa altezza disposte parallelamente e si lasci
cadere un ago. Si vuole determinare la frequenza dell’evento: l’ago di lunghezza l interseca le linee
di separazione tra le liste.
Si considera la lunghezza dell’ago minore della altezza della striscia; la posizione dell’ago è caratterizzata dalla distanza x del suo centro dalla linea di separazione ad esso più vicina e dall’angolo
acuto β che la retta che ‘contiene’ l’ago forma con le linee di separazione. Si tratta di due variabili
aleatorie indipendenti, quindi si dovrà calcolare il prodotto delle probabilità delle due variabili. In
termini odierni si possono considerare la funzione di distribuzione della variabile aleatoria continua
t
22
2
x tra 0 e t/2 è data da dx in modo che ∫ dx = 1 e analogamente la funzione di ripartizione tra 0 e
t
0t
π/2 di β è data da
razione se x ≤
2
π
dβ . Inoltre l’ago, posizionato col centro a distanza x interseca la linea di sepa-
l
senβ . In conclusione la probabilità che l’ago attraversi una linea è data
2
dall’integrale del prodotto delle distribuzioni, quindi
99
π 2 (l 2 )senβ 4
∫
∫
0
0
tπ
π 2 4lsenβ
dxdβ = ∫
0
2tπ
dβ =
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
=
2l
[− cos β ]π0 2 = 2l . Siccome l e t sono dati, si usa l’esperimento di Buffon come Metodo Monte
tπ
tπ
Carlo per calcolare il valore (del reciproco) di π, simulando la caduta dell’ago sulla striscia mediante un generatore di due numeri casuali.
L’argomentazione di Buffon è più geometrica di quella mostrata qui con un trattamento ‘moderno’,
per l’uso delle funzioni di distribuzione di variabili aleatorie continue; l’autore parte da un rettangolo per gestire un’unica variabile aleatoria e poi con argomentazioni complesse giunge alla striscia.
In ogni modo usa integrali e così di nuovo mostra come gli strumenti dell’Analisi matematica servono in modo fondamentale nello studio del calcolo delle probabilità. Inoltre questi ed altri problemi in cui intervengono variabili aleatorie continue sono stati resi possibili proprio dall’introduzione
dei metodi dovuti a Buffon.
3.2.2. Da Leibniz a Bayes. Thomas nasce in una famiglia in cui il padre è un pastore della chiesa
nonconformista e vive lontano da Londra in piccoli paesi. Fin da giovane opera all’interno della
chiesa del padre come assistente. Per l’isolamento geografico in cui vive non si può escludere che la
prima istruzione l’abbia ricevuta in famiglia. Giunto al momento dell’entrata all’Università, si vede
impedire l’accesso a Cambridge e a Oxford, in quanto non venivano accettati i nonconformisti, ma
può iscriversi a Edimburgo. Qui segue corsi di carattere religioso ed esce dall’università come apprendista, senza cioè avere preso gli ordini. Non si hanno documenti che attestino gli studi matematici di Bayes al tempo universitario. Ma da una lettera si deduce che abbia approfondito il metodo
delle flussioni di Newton e della sua scuola, metodo che lo lascia insoddisfatto. Nel 1733 diviene
ministro della chiesa presbiteriana.
Dal punto di vista delle innovazioni tecniche, si può affermare che l’opera di Bayes è di scarso valore, ma il giudizio cambia decisamente quando si considera la sua interpretazione di un semplice risultato algebrico.
La produzione scientifica del Reverendo è stata assai scarsa, paragonata a quella dei suoi contemporanei, ed è rimasta sconosciuta a tutti quando l’autore era in vita. Infatti un suo amico, il Reverendo
Richard Price, scrittore affermato e produttivo in vari campi, tra cui le scienze, spedisce a John Canton una lettera in cui presenta due memorie trovate tra le carte di Bayes dopo la sua morte, che gli
sembrano meritevoli di essere note. Queste due memorie appaiono sulle Philosophical Transactions, rispettivamente nei volumi degli anni 1763 e 1764, pubblicate negli anni successivi, 1764 e
1765. La prima col titolo: En Essay towards solving a Problem in the Doctrine of Chances, di 78
pagine, comprendente una lunga introduzione di Price, disponibile in internet, e la seconda: A Demonstration of the Second Rule in the Essay towards the Solution of a Problem in the Doctrines of
100
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
Chances published in the Philosophical Transactions, Vol. LIII, di 29 pagine. Dalla introduzione di
Price abbiamo utili informazioni sullo scopo del lavoro:
«He [Bayes] had, you know, the honour of being a member of that illustrious Society, and was much esteemed
by many as a very able mathematician. In an introduction which he has writ to this Essay, he says, that his design
at first in thinking on the subject of it was, to find out a method by which we might judge concerning the probability that an event has to happen, in given circumstances, upon supposition that we know nothing concerning it
but that, under the same circumstances, it has happened a certain number of times, and failed a certain other
number of times. He adds, that he soon perceived that it would not be very difficult to do this, provided some
rule could be found, according to which we ought to estimate the chance that the probability for the happening of
an event perfectly unknown, should lie between any two named degrees of probability, antecedently to any experiments made about it; and that it appeared to him that the rule must be to suppose the chance the same that it
should lie between any two equidifferent degrees; which, if it were allowed, all the rest might be easily calculated in the common method of proceeding in the doctrine of chances.»
Lo scopo è quindi chiaro, risalire dalla frequenza alla probabilità incognita, portando così a compimento in modo corretto quanto intuito da Bernoulli.
3.2.2.1. Probabilità come relazione. C’è una sottile differenza nella dicitura “given circumstances” si
intravede un modo per considerare la probabilità come una relazione tra eventi.
A questo punto di vista era giunto Leibniz nella tesi per la sua laurea di primo livello in giurisprudenza, il De Conditionibus, 1665, in quanto trattava dei diritti condizionali. Dal punto di vista logico odierno, il contenuto della tesi è la considerazione delle proposizioni del tipo ‘se…, allora…’
applicate a questioni di proprietà terriera. Nello studio di questo tipo di proposizioni, il giovane tedesco assegna valori numerici, 1, se nell’implicazione l’antecedente implica necessariamente il conseguente, 0, se la condizione è impossibile e poi parla di frazioni che indichino i casi intermedi tra i
due definendoli gradi di dimostrazione per il diritto o gradi di probabilità. La sua posizione si evolse
ben presto quando venne in contatto con le opere di Pascal.
Per Leibniz la teoria della probabilità coincide con la logica degli eventi contingenti. La sua prima
formazione giuridica lo ispirò a presentare la probabilità come “la proporzione di ciò che sappiamo”
e spesso scrive che la probabilità ci è nota a partire dai dati, oppure relativa e derivata da fatti noti.
Il fatto che per lungo tempo il concetto di probabilità condizionata non abbia avuto una chiara denotazione con simboli appositi ha reso complesso intendere e riconoscere in quali punti emergesse il
concetto. A ben guardare, il problema della ripartizione della posta è già di questo tipo, e i vari esempi di situazioni iniziali diverse, sono i dati da cui si parte.
Torniamo a Bayes. Il suo saggio più ampio si apre con una trattazione delle leggi generali della probabilità, che risulta abbastanza oscura, soprattutto se confrontata con quanto proposto sugli stessi
argomenti da De Moivre. Ha però il pregio di aprirsi con una serie di definizioni in cui chiarisce
termini e uso delle parole
«DEFINITION 1. Several events are inconsistent, when if one of them happens, none of the rest can.
2. Two events are contrary when one, or other of them must; and both together cannot happen.
3. An event is said to fail, when it cannot happen; or, which comes to the same thing, when its contrary has hap-
101
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
pened.
4. An event is said to be determined when it has either happened or failed.
5. The probability of any event is the ratio between the value at which an expectation depending on the happening of the event ought to be computed, and the chance of the thing expected upon it’s happening.
6. By chance I mean the same as probability.
7. Events are independent when the happening of any one of them does neither increase nor abate the probability
of the rest.»
3.2.2.2. Una digressione sugli eventi indipendenti. Importante la nozione di evento indipendente,
anche se la versione di Bayes sembra basata più sul buon senso che su una definizione precisa ( o
forse si tratta solo della mancanza di una notazione adeguata).
Apro una parentesi perché il concetto di indipendenza tra eventi è sicuramente uno dei più difficili
anche dal punto di vista didattico. In questa parentesi non si tiene conto di quale natura abbia la
probabilità o come possa essere definita. Intanto di per sé, anche così come lo formula Bayes non è
detto in modo corretto. Il fatto è che l’indipendenza non è una proprietà di (coppie) di eventi, ma è
una condizione che lega tra loro eventi e probabilità. Sui testi moderni si preferisce dire che due eventi sono stocasticamente indipendenti quando la probabilità che entrambi gli eventi si verifichino
contemporaneamente è ottenuta come prodotto delle loro probabilità.
Molto spesso gli eventi sono descritti mediante proposizioni e talora si giudica della indipendenza
sulla base del contenuto cognitivo e/o del contenuto logico delle proposizioni. Un esempio: lancio
una moneta ed ho un risultato, poi lancio ancora la moneta ed ottengo un altro risultato. Posso concludere che l’evento ‘Testa’ al primo lancio e l’evento ‘Testa’ al secondo lancio siano indipendenti?
Qui la conoscenza comune garantirebbe la ‘indipendenza’. Ma bisogna chiedersi sulla base di cosa.
Ovviamente le condizioni dell’esperimento non si sono modificate dal primo al secondo caso, ed è
sulla base di questa certezza esperienziale che traggo la conclusione.
Poi però bisogna capire cosa significa l’avverbio ‘Ovviamente’ con cui si è aperto il periodo precedente. Sofisticate analisi fisiche hanno mostrato che lanciando la stessa moneta nelle condizioni ottimali: tappeto soffice su cui si lancia, moneta di buona composizione metallica, ecc., si produce
una lievissima alterazione della moneta stessa, sia perché prendendola tra le dita si trasferisce una
parte di ‘grasso’ cutaneo, sia perché anche il rimbalzo provoca piccole scheggiature. Se al grasso si
può ovviare con un paio di guanti, il problema non cambia, perché anche i guanti si deteriorano e la
moneta non viene più lanciata nelle stesse condizioni. Si può ovviare con apparecchi meccanici, ma
anche questo comporta un contatto tra la moneta e l’apparecchio che a lungo andare lascia il segno.
Cambiare la moneta è escluso perché bisognerebbe provare che tutte le caratteristiche fisiche dei
due oggetti sono le stesse. Il fatto che l’alterazione sia apprezzabile solo dopo molti lanci, non risolve il problema, dato che già dal primo lancio iniziano modifiche che non siamo in grado di cogliere
strumentalmente, ma cambiano comunque le condizioni dell’esperimento. Ovviamente se la moneta
102
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
che si lancia è una di quelle di cioccolato, ci accorgiamo prima dei mutamenti subiti.
Un altro esempio: Si considerino le frasi: ‘Domenica prossima piove in piazza del Duomo a Milano’ e ‘Domenica prossima nella partita a Roma tra Lazio e Milan vince il Milan’. Non credo sia facile calcolare la probabilità degli eventi descritti, ma anche in questo caso alla frase ‘Domenica
prossima piove in Piazza del Duomo a Milano e a Roma nella partita tra Lazio e Milan vince il Milan’ si può assegnare la probabilità ottenuta come prodotto delle probabilità dei due eventi separati.
Il buon senso ci conferma nell’ipotesi che ciascuno dei due eventi non fa aumentare né diminuire la
probabilità dell’altro, quindi si tratta di eventi indipendenti.
Ma la cosa merita riflessione: prima bisognerebbe sapere in qualche modo che sono indipendenti
calcolando le tre probabilità coinvolte e solo dopo ciò concludere l’indipendenza, questo però, a sua
volta, richiede di conoscere come sono state individuate le probabilità di tali eventi e quindi porta
ad interrogarsi sull’interpretazione che si dà alla probabilità. Invece spesso dall’analisi della descrizione mediante frasi si decide che sono indipendenti e in conseguenza di ciò si utilizza il prodotto.
Introduciamo un poco di simboli di natura insiemistica che permettano di evitare lunghi giri di frasi.
Due eventi E ed H sono stocasticamente indipendenti rispetto alla assegnata probabilità p se
p(E∩H) = p(E)p(H).
Siano E e H stocasticamente indipendenti. Se con (Ω-E) e (Ω-H) si denotano i rispettivi eventi
complementari, allora p(Ω-E) = 1 – p(E) e p(Ω-H) = 1-p(H). In queste considerazioni uso proprietà
‘standard’ della probabilità e degli eventi come vengono introdotte solitamente nei testi odierni. Si
osservi inoltre che il ‘trattamento insiemistico’ degli eventi permette di affermare che (E∩(Ω-H)) )
= (E-H) e che ((E-H)U(E∩H)) = E, essendo ((E-H)∩(E∩H)) = ∅. Si ha quindi p(E) = p(E-H) +
p(E∩H), da cui p(E∩(Ω-H)) = p(E-H) = p(E) – p(E∩H) = p(E) - p(E)·p(H) = p(E)·(1 – p(H)) =
p(E)·p(Ω-H). Di qui si conclude che dalla indipendenza stocastica di E ed H ne deriva anche quella
di E e del complementare di H. Applicando ora lo stesso argomento, prima ad H e poi ad E, si conclude che H e il complementare di E sono stocasticamente indipendenti e pure il complementare di
E ed il complementare di H sono stocasticamente indipendenti, rispetto alla data assegnazione di
probabilità.
In modo analogo se E e H sono stocasticamente indipendenti e pure lo sono E e K ed inoltre (H∩K)
= ∅, allora E e (HUK) sono stocasticamente indipendenti. Infatti p(E∩(HUK)) = p((E∩H)U(E∩K))
= p(E∩H) + p(E∩K), in quanto essendo (H∩K) = ∅, anche ((E∩H)∩(E∩K)) = ∅. Si ha poi, per le
ipotesi di indipendenza stocastica, p(E∩H) + p(E∩K) = p(E)·p(H) +p(E) p(K) = p(E)·(p(H)+p(K)) =
p(E)·p(HUK).
Per chiarire il ruolo della probabilità nel concetto di indipendenza, si consideri il seguente esempio:
è dato un dado a sei facce e si considerino i due eventi E: ‘escono facce non maggiori di 3’ e H: ‘e-
103
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
scono facce pari’. In questo caso, supposta una probabilità uniforme, in cui ciascuna faccia ha la
stessa probabilità di uscire, si ha che l’evento descritto da ‘esce una faccia non maggiore di 3 e pari’
si può anche parafrasare con ‘esce 2’. In questo modo si ha che p(E∩H) = 1/6; p(E) = ½ = p(H). dato che 1/6 ≠ ¼ si conclude che gli eventi non sono indipendenti. Ma se il dado è truccato nel senso
che non potranno mai uscire 1 e 6 ( quindi hanno probabilità 0) e che le altre facce hanno la stessa
probabilità p’ (in questo caso ¼) allora p’(E) = ½ e p’(H) = ½ , ed anche p’(E∩H) =¼. In questo secondo caso gli eventi E ed H sono indipendenti, in rapporto alla probabilità p’. Gli eventi non sono
cambiati, è cambiata la probabilità.
Una confusione che spesso si coglie è che l’indipendenza venga scambiata con la disgiunzione (o
inconsistenza come la definisce Bayes) di eventi. Infatti se due eventi si escludono a vicenda ed
hanno probabilità non nulle, il loro verificarsi contemporaneo ha probabilità nulla, mentre il prodotto delle due probabilità non è nullo. È però vero che se H è un evento tale che p(H) = 0, allora qualunque sia l’evento E, con tale assegnazione di probabilità, gli eventi E ed H sono stocasticamente
indipendenti.
Quando si hanno più eventi le cose ‘peggiorano’, in quanto si hanno due diversi tipi di indipendenza. Ragioniamo su un esempio semplice considerando solo tre eventi A, B, C. I tre eventi sono mutuamente indipendenti se comunque presa una coppia di eventi distinti questi sono indipendenti. Si
dicono, invece, globalmente indipendenti se la probabilità del loro verificarsi contemporaneamente
è uguale al prodotto delle loro probabilità.
Si consideri un’urna contenente 9 palline numerate da 1 a 9. Sia ora A: ‘si estrae una pallina tra 1, 2
e 7’; B: ‘si estrae una pallina tra 3, 5 e 7; C: ‘si estrae una pallina tra 4, 6 e 7. Si assume una distribuzione uniforme, sicché la probabilità per l’estrazione di ciascuna pallina è 1/9. Siccome ciascuno
dei tre eventi riguarda casi distinti, allora p(A) = 1/3 = p(B) = p(C). Consideriamo ora la contemporanea realizzazione di A e B che si può descrivere come ‘si estrae la pallina 7’ ed in questo caso la
probabilità della realizzazione contemporanea è uguale al prodotto delle probabilità di A e di B. I
dati sono posti in modo che anche per le coppie di eventi A/C e B/C si abbia lo stesso. Si conclude
che i tre eventi sono mutuamente indipendenti. Ma non lo sono globalmente. Infatti, la contemporanea presenza di tutti e tre si concretizza ancora in ‘si estrae la pallina 7’, con probabilità 1/9, ma il
prodotto delle loro probabilità è 1/27.
3.2.2.3. Una digressione sulle probabilità condizionate. Un’altra nozione in gioco è quella di probabilità condizionata. Si noti bene che anche se poi la scrittura e spesso anche la lettura dei simboli
può portare ad una diversa interpretazione, è la probabilità condizionata, non gli eventi che servono
104
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
come ‘ingredienti’ 4. Sempre usando la notazione vista prima, si può definire la probabilità condizionata di E dato H come il numero reale k tale che kp(H) = p(E∩H). Tale fattore è univocamente
determinato se p(H) ≠ 0, altrimenti qualunque numero reale andrebbe bene alla bisogna, in quanto
,con una piccola dimostrazione si prova che p(E∩H) ≤ p(H), quindi l’uguaglianza precedente diverrebbe k·0 = 0. Per tale motivo si chiede che l’evento ‘condizionante’, H sia contingente, ovvero che
p(H) ≠ 0. In questo caso si può introdurre la scrittura p(E|H) =
p(E I H)
. Solitamente p(E|H) si
p(H)
legge (male) come la probabilità di E dato H che implicitamente suggerisce, come si diceva prima,
anche per l’uso dello stesso simbolo p applicato agli eventi, che si tratti ancora della probabilità di
un ben preciso evento. Ciò può essere motivato agli occhi del lettore inesperto come l’introduzione
(nel membro di sinistra) di una nuova operazione tra gli eventi, analoga alla intersezione che compare nel membro di destra. Forse un uso più accorto dei simboli toglierebbe questa impressione, ad
esempio scrivendo p(E|H) =
p(E I H) 5
. Con questa scelta, gli eventi E e H sono stocasticamente
p(H)
indipendenti se p(E|H) = p(E), in quanto la probabilità dell’evento intersezione porta in caso di indipendenza, a scriverlo come il prodotto delle probabilità dei due eventi. L’affermazione di Bayes:
“Events are independent when the happening of any one of them does neither increase nor abate the probability of the
rest”
può essere letta in tale maniera nel caso di due eventi e nel caso di più eventi, resta il problema
di capire se con più eventi intendesse mutuamente o globalmente indipendenti. I due modi di affermare l’indipendenza sono equivalenti, qualora gli eventi coinvolti siano contingenti. Infatti dalla definizione di probabilità condizionata si ha p(E|H)·p(H) = p(E∩H) = p(H|E)·p(E), quindi se p(E|H) =
p(E), dall’uguaglianza tra il primo e il terzo membro della catena di uguaglianze e per la proprietà
di cancellazione, si ha p(H|E) = p(H), pertanto p(E∩H) = p(E)·p(H). Con questa argomentazione si
si conclude anche che la dissimmetria tra gli eventi indipendenti stabilita con la condizione di indipendenza p(E|H) = p(E) è del tutto eliminabile.
Alcune proprietà della probabilità condizionata che sono conseguenza immediata della definizione,
sono le seguenti: se H è un evento contingente ed E è un qualunque evento,
1. p((E∩H)|H) = p(E|H);
2. p(H|Ω) = p(H);
3. p((EUH)|H) = 1;
4. p((Ω-E)|H) = 1 – p(E|H);
4
Su questo aspetto, però, le posizioni delle varie interpretazioni si differenziano notevolmente, in quanto negli approcci
soggettivisti moderni si introducono gli eventi condizionati.
5
Per ‘pigrizia’ tipografica si utilizzerà la scrittura tradizionale, ma il lettore pensi ad un p diverso quando si usa la probabilità condizionata.
105
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
5. p(E) = p(H)·p(E|H) + p(K)·p(E|K), se {H,K} è una partizione di Ω con eventi contingenti.
Con queste semplici affermazioni, in particolare da 3. e 4. si può concludere che, fissato un evento
contingente H, p(-|H) è una funzione di probabilità su Ω (qualunque cosa questo voglia dire) dedotta
da quella assegnata, e nel caso particolare che H = Ω, per 2., p(-|Ω) coincide con la probabilità assegnata precedentemente. Inoltre, ancora per 3. se K comporta H (tradotto in H ⊆ K), allora p(K|H) =
1 ed in particolare questo implica la conservazione della ‘verità’, dato che si ottiene p(Ω|H) = 1 e
p(H|H) = 1.
Da 5., essendo {H,K} una partizione di Ω, si ha che K = (Ω – H) ed allora si può scrivere:
p(E) = p(H)·p(E|H) + p(Ω-H)·p(E|(Ω-H)) = p(H)·(p(E|H) + (1 – p(H))·p(E|(Ω-H)) =
= p(H)·(p(E|H) – p(E|(Ω-H)) + p(E|(Ω-H)
3.2.2.4. Analisi dello Essay. Riprendiamo l’analisi dell’articolo di Bayes. Dopo le definizioni, si
presenta una serie di proposizioni, accompagnate da testi che spesso sono chiarimenti o esempi, ma
che non hanno il valore di dimostrazioni.
La proposizione 1 parla della probabilità totale di eventi inconsistenti, la 2 della probabilità
dell’evento complementare. Qui si offre l’esempio della
«Prop. 3. The probability that two subsequent events will both happen is a ratio compounded of the probability
of the 1st, and the probability of the 2d on supposition the 1st happens.
Suppose that, if both events happen, I am to receive N, that the probability both will happen is P/N, that the 1st
will is a/N (and consequently that the 1st will not is N−a/N ) and that the 2d will happen upon supposition the
1st does is b/N.
Then (by definition 5) P will be the value of my expectation, which will become b is the 1st happens. Consequently if the 1st happens, my gain is b − P, and if it fails my loss is P. Wherefore, by the foregoing proposition,
a/N is to N−a/N, i.e. a is to N − a as P is to b − P. Wherefore (componendo inverse) a is to N as P is to b. But
the ratio of P to N is compounded of the ratio of P to b, and that of b to N. Wherefore the same ratio of P to N is
compounded of the ratio of a to N and that of b to N, i.e. the probability that the two subsequent events will both
happen is compounded of the probability of the 1st and the probability of the 2d on supposition the 1st happens.
Corollary. Hence if of two subsequent events the probability of the 1st be a/N, and the probability of both together be P/N, then the probability of the 2d on supposition the 1st happens is P/a . »
In questo brano compare la probabilità condizionata, così come si è definita all’inizio di 3.2.2.3.
Possiamo tradurre con i simboli visti prima l’affermazione: p(E∩H) = p(E)·p(H|E).
L’argomentazione passa attraverso una situazione di gioco con una posta ed il valore atteso della
partita. Ma il corollario specifica che se p(E) = a/N e p(E∩H) = P/N, allora p(H|E) = P/a.
La proposizione 4 e il corollario che segue sono relative ai valori attesi.
La proposizione 5 presenta la determinazione della probabilità di un evento mediante la risoluzione
di una semplice equazione. Dice il testo:
«Prop. 5 If there be two subsequent events, the probability of the 2d b/N and the probability of both together
P/N, and it being 1st discovered that the 2d event has also happened, the probability I am right is P/b»
Scritto diversamente, si suppone che p(H) = b/N, p(E∩H) = P/N e si trova che p(E|H) = P/b. Di fatto sembra una riscrittura di quanto affermato nella Proposizione 3, ma serve per accertare che il ruolo e del primo evento o del secondo sono del tutto interscambiabili. A questo lui non poteva arrivare
106
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
perché li pensava svolgersi nel tempo (evidente nella proposizione 4) come afferma l’uso di “subsequent”. A questa proposizione Price si sente in dovere di aggiungere una nota esplicativa.
« What is proved by Mr. Bayes in this and the preceding proposition is the same with the answer to the following question. What is the probability that a certain event, when it happens, will be accompanied with another to
be determined at the same time? In this case, as one of the events is given, nothing can be due for the expectation
of it; and, consequently, the value of an expectation depending on the happening of both events must be the same
with the value of an expectation depending on the happening of one of them. In other words;
D
s
the probability that, when one of two events happens, the other will, is the same with the
probability of this other. Call x then the probability of this other, and if b/N be the probability of the given event, and p/N the probability of both, because p/N = b/N × x, x = p/b = the
W
probability mentioned in these propositions.» :
C
La nostra notazione attuale della contemporanea presenza di due eventi nasconde con l’intersezione, grazie anche alla semplicità dei risultati, riuscendo ad e-
A
o
B
spungere il tempo dalle considerazioni. Se si legge, come fa Bayes, la sequenza degli avvenimenti
nel tempo e sia E il primo e H il secondo, la Proposizione 3 fornisce una regola per passare dalla
probabilità di E a quella di H, senza per questo ritenere che ci sia un rapporto di causa ed effetto tra
E e H, ma anche senza escluderlo. Nella Proposizione 5 risale alla probabilità di E conoscendo quella di H e ciò sembrava abbastanza inusuale, come una sorta di pretesa di conoscere la causa dagli
effetti. Ecco spiegata la preoccupazione di Price di giustificare il risultato sulla base della ovvietà
del calcolo richiesto.
La Proposizione 6 è una generalizzazione dei risultati precedenti a più eventi, sotto condizione della
indipendenza globale.
La Proposizione 7 ripete un risultato di Bernoulli sul ruolo dei coefficienti binomiali. La scrittura
usata da Bayes è ‘strana’: per indicare (a+b)p+q usa a + b | p + q .
La seconda sezione si apre con un problema di probabilità geometrica, con un biliardo quadrato,
presentato mediante 2 postulati, il primo che il biliardo sia liscio, che vi siano due biglie W e O e
che la probabilità di ciascuna biglia di occupare una posizione qualunque sia la stessa per ogni punto del biliardo, senza uscire dal biliardo.. Il secondo ‘postulato’ è più relativo a denotazioni che a
condizioni. chiede che lanciata la biglia W individui una posizione. Seguendo i simboli usati da Bayes, si rappresenta la situazione nel seguente disegno. Si lancia ora la biglia O e si considera caso
favorevole se essa si situa tra AD e os. Si ripete p+q volte il lancio di O (con p+q = n).
La ragione per cui Bayes introduce questo problema non credo sia legato ad un gioco specifico in
voga nel tempo, quanto, piuttosto, per potersi avvalere della probabilità geometrica per utilizzare
variabili continue che non sarebbero consentite con i casi discreti.
Il Lemma 1 afferma una cosa ovvia, cioè che la probabilità che il punto o si trovi in un predeterminato sottointervallo [f,b] di AB è data dal rapporto della misura questo sottointervallo e dalla misura
del lato del quadrato:
b− f
. La dimostrazione è lunga e complessa ed anche non del tutto chiara.
a
107
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
Di qui, col Lemma 2 si conclude che la probabilità che si realizzi l’evento favorevole per la seconda
biglia è dato dal rapporto tra Ao e AB (intendendone le misure), ma in realtà quelle che considera è
il rapporto tra le aree del rettangolo AosD e ABCD.
La Proposizione 8 è pressoché incomprensibile, come enunciato e come dimostrazione. In essa si
afferma quanto segue:
«If upon BA you erect the figure BghikmA whose property is this, that (the base BA being divided into any two
parts, as Ab, and Bb and at the point of division b a perpendicular being erected and terminated by the figure in
m; and y, x, r representing respectively the ratio of bm, Ab, and Bb to AB, and E being the coefficient of the term
which occurs in apbq when the binomial (a + b)p+q is expanded) y = Exprq. I say that before the ball W is thrown,
the probability the point o should fall between f and b, any two o=points named in the line AB, and withall that
the event M should happen p times and fail q in p+q trials, is the ratio of fghikmb, the part of the figure BghikmA
intercepted between the perpendiculars fg, bm raised upon the line AB, to CA the square upon AB. »
Buona parte della scarsa comprensibilità dipende dal fatto che Bayes si attiene allo stile di Newton
di non utilizzare gli integrali (e quindi neppure i differenziali), ma di parlare di aree di figure. Di
conseguenza la dimostrazione ha un aspetto geometrico e si avvale dell’assurdo. Come sia fatta la
figura BghikmA resta un mistero. È evidente che c’è di mezzo il coefficiente binomiale. Così quando si richiede il rapporto di due aree, si sta chiedendo il quoziente di due integrali.
In termini moderni (e forse più comprensibili) si può considerare una probabilità condizionata. Se si
lancia W la probabilità che o si trovi ad una distanza da A compresa tra x e x + dx è data, per il
lemma 2 da
x + dx − x dx
. La probabilità che lanciando la seconda biglia essa si trovi p volte nel=
a
a
p
q
 n  x  
x
la striscia di ‘base’ Ao, e q (= n – p) volte fuori è data da    1 −  . I due eventi sono in p  a   a 
p
dipendenti (?) quindi i due eventi contemporaneamente hanno probabilità
q
dx  n  x   x 
   1 −  .
a  p  a   a 
Così si trova che la probabilità che i due eventi si realizzino contemporaneamente nella striscia di
p
q
1 nf x  
x


estremi b e f è data da   ∫   1 −  dx , che assume il ruolo della probabilità dell’evento
a  p  b a   a 
composto
Il corollario afferma:
«Cor. Before the ball W is thrown the probability that the point o will lie somewhere between A and B, or
somewhere upon the line AB, and withall that the event M will happen p times, and fail q in p + q trials is the ratio of the whole figure AiB to ZCA. But it is certain that the point o will lie somewhere upon AB. Wherefore,
before the ball W is thrown the probability the event M will happen p times and fail q in p + q trials is the ratio
of AiB to CA.»
Ancora una volta la ‘osservanza’ newtoniana e geometrica non aiuta Di fatto applica il procedimento precedente, ma osserva che la probabilità che lanciando la prima biglia essa si situi all’interno del
piano è 1, quindi di qui ricava la probabilità che lanciando la seconda biglia avrà successo p volte e
108
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
p
insuccesso q volte è data da
q
1  n a  x  
x
  ∫   1 −  dx , che così diviene la probabilità del secondo
a  p 0  a   a 
evento
Il risultato, noto col nome di Teorema di Bayes, quello che si rivelerà il più importante dell’intera
produzione del reverendo, ma che nel testo originale non è messo in grande rilievo, è la successiva
Proposizione 9, qui presentata assieme alla sua ‘dimostrazione’
«If before any thing is discovered the place of the point o, it should appear that the event M had happened p
times and failed q in p + q trials, and from hence I guess that the point o lies between any two points in the line
AB, as f and b, and consequently that the probability of the event M in a single trial was somewhere between the
ratio of Ab to AB and that of Af to AB: the probability I am in the right is the ratio of that part of the figure AiB
described as before which is intercepted between perpendiculars erected upon AB at the points f and b, to the
whole figure AiB.
For, there being these two subsequent events, the first that the point o will lie between f and b; the second that
the event M should happen p times and fail q in p+q trials; and (by cor. prop. 8.) the original probability of the
second is the ratio of AiB to CA, and (by prop. 8.) the probability of both is the ratio of fghikmb to CA; wherefore (by prop. 5) it being first discovered that the second has happened, and from hence I guess that the first has
happened also, the probability I am in the right is the ratio of fghimb to AiB, the point which was to be proved.»
La traduzione in ‘leibniziano’ per il combinato delle Proposizione 8, del suo Corollario e della Proposizione 5 se la probabilità che n lanci della biglia O ottengano p successi e q insuccessi, rispetto
p
alla posizione di W è data da
q
1  n a  x  
x
  ∫   1 −  dx , si ha grazie alla Proposizione 5, che se z è la
a  p  0  a   a 
probabilità che W si trovi nella striscia di base [b,f], allora è z×probabilità di O =
p
q
p
q
p
q
1 nf x  
x
1  n a  x  
x
1 nf x  
x
  ∫   1 −  dx , quindi z×   ∫   1 −  dx =   ∫   1 −  dx , da cui
a  p  b a   a 
a  p 0  a   a 
a  p  b a   a 
f
p
q
∫ x ( a − x ) dx
z = ba
.
p
q
∫ x (a-x) dx
0
Il risultato di Bayes scritto in questo modo sembra piuttosto uno specifico calcolo di integrali. E
forse è questa sua veste che l’ha ‘nascosto’ agli occhi dell’autore.
Lo Essay procede calcolando l’equivalente di alcuni integrali mediante le serie nella Proposizione
10. Poi Price presenta, senza dimostrazione tre regole. La prima permette di risolvere il problema di
Bernoulli della definizione completamente a posteriori della probabilità, in quanto afferma:
«If noting is known concerning an event but that it has happened p times and failed q in p + q or n trials, and
from hence I guess the probability that of its happening in a single time lies somewhere between any two degrees
of probability as X and x, the chance I am right in my guess is (n + 1)×EXd into the difference between the series
q − 1 X p +3
X p +1
X p+2
and the series x p +1 − q x p + 2 + q × q − 1 × x p + 3 − &c. , E being the coefficient
−q
+q×
×
− &c.
p +1
p+2
2
p+3
p +1
p+2
2
p+3
of apbq when (a+b)n is expanded.»
Quindi si risale dalla frequenza alla probabilità, senza bisogno di ipotizzare ‘limiti’ come li chiama
Bernoulli, che sono legati alla conoscenza della probabilità a priori.
109
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
Le due successive regole sono dello stesso tenore, ma cercano di dare risultati approssimati delle
stime in casi particolari. Price aggiunge un’appendice in cui mostra applicazioni delle regole stesse.
La seconda pubblicazione, apparsa l’anno successivo 1765 consiste nelle dimostrazioni delle regole
che Price aveva tolto preferendo lasciare spazio alla sua appendice con esempi.
3.2.2.5. Il teorema di Bayes in seguito 6. L’elaborazione successiva del calcolo delle probabilità ha
sfrondato vari aspetti presenti nella Proposizione 9, quali la ‘ambientazione geometrica’, l’uso delle
variabili continue, le difficoltà del calcolo degli integrali, eccetera restituendone la struttura essenziale. Oggi il teorema di Bayes si presenta con riferimento a due qualunque eventi (contingenti) E e
H nella forma p(H | E) =
p(H) ⋅ p(E | H)
. Introducendo le definizioni delle probabilità condizionate
p(E)
si ha immediatamente il risultato: p(H | E) =
p(E I H)
p(E I H)
. Moltiplicando la prima
; p(E | H) =
p(E)
p(H)
per p(E) e la seconda per p(H) si ottiene in entrambi i casi la probabilità dell’evento intersezione.
Una generalizzazione semplice si ha se si considera una partizione di Ω in eventi (a due a due dip(H k ) ⋅ p(E | H k )
sgiunti) H1,…,Hs.. In tal caso il teorema fornisce l’uguaglianza p(H k | E) =
.
s
∑ p(H j ) ⋅ p(E | H j )
j =1
Per alcune correnti di pensiero a riguardo della natura della probabilità, questo risultato è insignificante e lo si trova citato, se va bene, col nome di formula di Bayes.
La semplicità però non è una ‘patente’ che affermi la non rilevanza di un risultato. Infatti esso è lo
strumento principe negli approcci soggettivisti (detti appunto anche Bayesiani) alla epistemologia,
alla statistica e alla logica induttiva.
Il teorema di Bayes mette in un rapporto quantitativo esplicito la probabilità ‘diretta’ di un’ipotesi
condizionale su un assegnato insieme di dati, p(E|H), con la probabilità ‘inversa’ dei dati sulla base
dell’ipotesi p(H |E)
I soggettivisti accettano l’idea che le credenze che si possono definire ‘razionali’ siano governate
dalle leggi della probabilità. Per i pensatori di questa corrente il concetto di probabilità condizionale
è fondamentale nelle loro teorie ed anche nei loro modelli connessi con l’apprendimento su basi
empiriche. Il teorema semplifica il calcolo delle probabilità condizionali, che sono centrali
nell’approccio soggettivista, indicando come possa venire confermata un’ipotesi sulla base dei dati
resi probabili, dall’assumere la verità dell’ipotesi.
Vediamo un semplice esempio. Tre industrie H1 H2 e H3 scaricano alcuni rifiuti liquidi nella stessa
6
In questo paragrafo mi avvalgo di una voce specifica sul teorema di Bayes della Enciclopedia della Filosofia della Università di Standford (reperibile in rete).
110
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
fognatura che poi sbocca su un fiume, dopo averli trattati ciascuna col proprio impianto di depurazione. La industria H1 è responsabile del 30% di rifiuti scaricati nella fogna, la H2 del 35% e del rimanente è responsabile l’industria H3. Gli impianti di ciascuna azienda trattengono percentuali di
inquinanti: Quello della H1 trattiene il 90%, quello della H2 il 92% e quello della H3 il 95%. Deteminare la probabilità che un campione di acqua di fiume prelevato a valle dello sbocco della fogna
sia inquinato.
Questo esempio è semplice, ma serve a mettere in luce una delle maggiori difficoltà cognitive del
Teorema di Bayes. Sia E l’evento: ‘il campione è inquinato’. Con Hi si denota l’evento ‘l’industria
Hi inquina’, e con p(Hi) la percentuale di rifiuti rilasciata dalla industria e con p(E|Hi) la percentuale
di inquinanti presenti dopo il trattamento nello scarico di Hi dopo il trattamento. Si può considerare
l’insieme dei tre eventi H1, H2 e H3 come una partizione di Ω. Generalizzando quanto affermato in
5. di 3.2.2.3, si calcola la probabilità di E come p(E) = p(H1)·p(E|H1) + p(H2)·p(E|H2) +
p(H3)·p(E|H3) = 0,3·0,1 + 0,35·0,08 + 0,35·0,05 = 0,0755 = 7,55%.
Ma alle guardie ecologiche, una volta individuato un campione inquinato, interessa sapere qual è
l’industria che, con la maggiore probabilità, può avere provocato l’inquinamento, per eventuali sanzioni da comminare in rapporto all’inquinamento di cui sono responsabili.
Per il teorema di Bayes sappiamo che
p(H i | E) =
p(H i ) ⋅ p(E | H i )
. Si ha p(H1|E) =
p(E)
0 ,3 ⋅ 0 ,1
0 ,35 ⋅ 0 ,08
0,35 ⋅ 0 ,05
= 39 ,74% ; p(H2|E) =
= 37 ,09% e p(H3|E) =
= 23,18% .
0 ,0755
0 ,0755
0 ,0755
A parte i semplici conti si osserva che nell’interpretazione della situazione delineata, ci sono delle
cause, lo scarico di rifiuti liquidi, ed un effetto, l’inquinamento. La richiesta di conoscere, in base
alla presenza dell’inquinamento (effetto) chi l’ha provocato (causa) procede in senso opposto al
principio di causalità. Secondo qualche studioso il teorema di Bayes rappresenta uno dei culmini
della irrazionalità, intendendo la razionalità come la ‘ricostruzione’ del mondo sulla base della causalità.
Ma si osservi che l’utilità principale del Teorema di Bayes consiste nell’inferire la cause in base ai
loro effetti, in quanto spesso è abbastanza semplice individuare la probabilità di un effetto in caso di
possibile presenza o assenza di una causa. Si pensi a quanto avviene nelle diagnosi mediche, tipico
esempio di indagine in cui si vorrebbe risalire alle cause, a partire dagli effetti noti. Lo strumento
utilizzato oggi in modo massiccio è l’uso di test diagnostici che vengono accettati in base alla loro
sensibilità e specificità. Con sensibilità di un test si considera il tasso di ‘positivi veri’, cioè la fre-
quenza relativa dei pazienti con esito positivo del test e presenza della malattia. La specificità, invece, è data dal tasso del ‘negativi veri’, cioè della percentuale di individui non ammalati in cui il test
111
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
fornisce risultato negativo. Sia ora H l’evento: ‘il paziente presenta i sintomi della malattia’. Con E
si consideri l’evento: ‘il testo diagnostico dà esito positivo’. In base alla sensibilità ed alla specificità del test si hanno p(E|H) e p((Ω-E)|(Ω-H)) ed è nota (sotto forma di frequenza) p(H) come percentuale di ammalati e p(E), la probabilità che il test dia esito positivo. In base a ciò si può individuare
la probabilità che il test sia ‘positivo falso’, cioè individui la malattia in una persona sana, ovvero
p((Ω-H)|E). Applicando il teorema di Bayes si ottiene il risultato:
Si ha infatti p(H|E) =
p(H) ⋅ p(E | H)
e p((Ω-H)|E) = (1 – p(H|E)), che fornisce la probabilità che il
p(E)
test risulti positivo per una persona non ammalata.
Con numeri, in una ampia popolazione il 3% (cioè P(H)=0,03) sia affetto da anemia mediterranea,
si conosca la sensibilità del test, 95% (cioè P(E|H) = 0,95) e specificità del test 6% (cioè p(E|(Ω-H))
= 0,06). In questo caso {H, (Ω-H)} è una partizione di Ω. Si ha così come conseguenza di 5. di
3.2.2.3, p(E) = p(H)·(p(E|H) – p(E|(Ω-H)) + p(E|(Ω-H) = 0,03·(0,95 – 0,06) + 0,06 = 0,0867. A questo punto si calcola p(H|E), la probabilità che in presenza di test positivo, ci sia la malattia, come
p(H|E) =
0 ,03 ⋅ 0 ,95
= 0,32872, mentre la probabilità che in caso di esito positivo non ci sia la malat0 ,0867
tia, è data da p((Ω-H)|E) = (1 – 0,32872) = 0,67128. Quindi il tipo di test non è affidabile.
Nel ragionamento induttivo e più in generale nell’approccio soggettivista, e nel tentativo di ricostruire razionalmente la metodologia scientifica capita di cercare come incrementare l’evidenza di
certe tesi. Allora l’affermazione che il fatto E corrobora o conferma H può essere inteso come
l’avere appreso (la verità di) E incrementi l’evidenza per la verità di H. I soggettivisti caratterizzano
l’evidenza totale in termini di probabilità soggettive e possono analizzare l’incremento di evidenza
con il confronto tra la probabilità e la probabilità condizionale.
Assegnata quindi una probabilità p, ed eventi contingenti, si dice che l’evento E conferma, (smentisce o è irrilevante per) l’evento H se e solo se p(H|E) è maggiore (minore, uguale) di p(H). Dati poi
due eventi E’ e E”, si dice che E’ conferma maggiormente H di E” se P(H|E’) > p(H|E”).
Si hanno alcune ovvie proprietà:
1) se E conferma H, allora H conferma E. Infatti se p(H|E) > p(H), allora essendo
p(H | E) =
p(E | H)
p(H) ⋅ p(E | H)
ne segue che
> 1 , quindi p(E|H) > p(E). Ad esempio, se
p(E)
p(E)
una persona accetta che E fornisce evidenza ad H, è sicuramente portata a provare se entrambi sono veri, piuttosto che lo sia uno solo delle due.
2) Se E conferma H, allora E smentisce (Ω-H). Infatti p((Ω-H)|E) = (1 – p(H|E)), ma essendo
p(H) < p(H|E), si ha (1 – p(H|E)) < (1 – p(H)) = p(Ω-H). Quindi la evidenza permette di distinguere tra la verità e la falsità dell’ipotesi che viene testata.
112
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
3) Se H implica E, allora E conferma H. Ciò perché p(E|H) = 1, quindi dal teorema di Bayes
p(H | E) =
p(H)
, ma il denominatore è minore di 1 e quindi p(H|E) > p(H). Questa banale
p(E)
proprietà è assunta dai soggettivisti come la spiegazione razionale del procedimento di conferma ipotetico-deduttiva. Si parla talora di H-D modello, cioè modello basato su una ipotesi
(H) e un esperimento progettato (D: design). In base a questo modello le ipotesi vengono
confermate da qualsiasi evidenza che esse implicano. In ambito soggettivista però la conferma ottenuta mediante l’uso del Teorema di Bayes è sempre e comunque relativizzata ad
una persona ed alla probabilità soggettiva che questa sceglie. Ugualmente questo spiega il
motivo per cui gli scienziati, soggettivisti o no sono sempre alla ricerca di esperimenti progettati in modo da andare in accordo col modello H-D.
4) Se E’ ed E” sono eventi contingenti tali che p(E’|H) = p(E”|H), allora E’ conferma maggiormente H di quanto faccia E” se p(E’) < p(E”). Infatti si ha p(H | E' ) =
p(H | E" ) =
p(H) ⋅ p(E' | H)
;
p(E' )
p(H) ⋅ p(E"| H)
. Le due frazioni hanno gli stessi numeratori, ma il denominatore
p(E" )
della prima è minore di quello della seconda, quindi p(H|E’) > p(H|E”). Per il Teorema di
Bayes si può provare facilmente anche il viceversa. I soggettivisti spiegano in questo modo
la ragione per cui gli scienziati sembrano attribuire maggiore grado di conferma ad evidenze
sorprendenti, anche se in generale non è detto che evidenze improbabili confermino maggiormente l’evidenza. In un certo senso se si tiene fisso il valore di p(E|H), il grado di conferma di H varia inversamente alla probabilità dell’evento E. Così se H implica sia E’ che
E”, per il teorema di Bayes si ha che l’evento meno probabile è quello che conferma maggiormente l’ipotesi.
5) Se E, H sono eventi contingenti allora E conferma H se e solo se p(E|H) > p(E|(Ω-H)). Infatti
1>
se
E
conferma
H,
allora
si
ha
p(H)
<
p(E|H),
quindi
p(H )
p(E )
p(H ) ⋅ p(E | H ) + p(Ω − H ) ⋅ p(E | (Ω − H ))
=
=
. Pertanto p(H)·p(E|H) +
p(H | E ) p(E | H )
p(E | H )
p(Ω-H)·p(E|(Ω-H)) < p(E|H), da cui (1-p(H))·p(E|(Ω-H)) < (1- p(H))·p(E|H); essendo il fattore (1 – p(H)) positivo si ha che p(E|(Ω-H)) < p(E|H). Viceversa, se p(E|(Ω-H)) < p(E|H),
allora
p(H )
p(E )
p(H ) ⋅ p(E | H ) + (1 − p(H )) ⋅ p(E | (Ω − H )) (p(H ) + 1 − p(H )) ⋅ p(E | H)
=
=
=
<
p(H | E ) p(E | H )
p(E | H )
p(E | H )
1 pertanto p(H) < p(H|E). Questa affermazione coglie bene una caratteristica della teoria ba-
113
C Marchini - Appunti di Matematiche complementari AA 2010 – 2011
Capitolo 3. Probabilità nel XVIII secolo
yesiana della conferma. Siccome c’è una frequenza maggiore di bambini battezzati nella fede cristiana (E) da parte di genitori cristiani (H) che da parte di genitori non cristiani, il fatto
che un bambino sia battezzato nella fede cristiana conferma l’ipotesi che i genitori siano cristiani.
Si può concludere che, nonostante la semplicità dimostrativa del teorema di Bayes, soprattutto
nella forma ‘astratta’ le sue applicazioni sono decisamente importanti e non solo nel campo della probabilità e della statistica.
114