Diapositiva 1 - amedeo lucente

certo…anzi probabile
Atto di nascita: 1733
0.14
fu introdotta nella teoria
della probabilità da
Abraham De Moivre
come approssimazione
della distribuzione
binomiale
curva di Gauss
0.12
0.1
0.08
0.06
y
0.04
0.02
-10
-9.25
-8.5
-7.75
-7
-6.25
-5.5
-4.75
-4
-3.25
-2.5
-1.75
-1
-0.25
0.5
1.25
2
2.75
3.5
4.25
5
5.75
6.5
7.25
8
8.75
9.5
0
media µ
Distribuzione binomiale
Sia dato un evento E di probabilità p(E)=0,47 si fanno 10 prove e si calcola la
probabilità che l’evento E si verifiche 0 volte, 1 volta, 2 volte, ….10 volte
n. successi
probabilità
0.3
0
0,001748875
0.25
1
0,015508889
2
0,061889245
3
0,146354442
0.15
4
0,227125525
0.1
5
0,241695842
6
0,178611707
7
0,090509436
8
0,030098657
9
0,005931392
10
0,000525991
0.2
Series1
0.05
0
1
2
3
4
5
6
7
8
9
10
11
P(E) = 0,47
n= numero delle prove = 20
0.2
n. successi
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
probabilità
3,05856E-06
5,42462E-05
0,000456999
0,002431578
0,009164296
0,026005852
0,057654484
0,102255123
0,147353491
0,174229284
0,169955736
0,137014058
0,091127275
0,049729833
0,02205002
0,007821517
0,002167519
0,000452268
6,68447E-05
6,23972E-06
2,76667E-07
0.18
0.16
0.14
0.12
0.1
Series1
0.08
0.06
0.04
0.02
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21
n. successi
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
probabilità
1,63604E-14
7,25413E-13
1,57606E-11
2,23623E-10
2,3301E-09
1,90101E-08
1,26435E-07
7,04766E-07
3,35927E-06
1,39019E-05
5,05452E-05
0,000162993
0,000469759
0,001217691
0,00285386
0,006073876
0,01178246
0,020897193
0,033974367
0,050742252
0,069746662
0,088358305
0,103286766
0,111505648
0,111242663
0,10259512
26
0,087481325
27
0,068958026
28
0,050231554
29
0,03379273
30
0,020976997
31
0,012001447
32
0,006319158
33
0,003056608
34
0,001355289
35
0,000549422
36
0,00020301
37
6,81184E-05
38
2,06655E-05
39
5,63878E-06
40
1,37512E-06
41
2,97425E-07
42
5,65188E-08
43
9,32474E-09
44
1,31554E-09
45
1,55548E-10
46
1,49934E-11
47
1,13157E-12
48
6,2717E-14
49
2,27008E-15
50
4,02618E-17
0.12
0.1
0.08
0.06
Series1
0.04
0.02
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51
La curva fu poi ripresa in un
ambito matematico diverso da
Carl Friedrich Gauss (17771855) tanto che oggi è ricordata
come curva di Gauss o curva
degli errori. Gauss la descrisse
come distribuzione delle misure
atte a determinare la posizione
degli astri.
0.14
0.12
Riportiamo sull’asse
orizzontale le misure di
una certa grandezza fatte
con uno strumento di
precisione e sull’asse
verticale la frequenza con
cui si sono verificate
queste misure.
0.1
0.08
Series1
0.06
0.04
0.02
0
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79
Media = valore della misura
Quello che è eccezionale è che la
curva gi Gauss caratterizza anche la
distribuzione delle principali
grandezze antropometriche di una
popolazione di individui, come il
peso, l’altezza ecc…
In questo grafico ad esempio in ascissa sono riportati i pesi di 4.017.264
bambini nati da gravidanze singole nel 1991 negli Stati Uniti e in ordinate
il numero dei neonati aventi un determinato peso. Le informazioni sono
state raccolte utilizzando i certificati di nascita. Il valore del peso centrale
che è la moda è anche la media dei pesi.
Uno dei primi che nei suoi lavori fece grande uso della curva di
Gauss fu Adolphe Quételet che è ritenuto uno dei padri della statistica
sociale.
La statistica nasce attorno alla seconda metà del Seicento con il nome
di ARITMETICA SOCIALE o CALCOLO SOCIALE o SCIENZA
NUMERICA DELLA SOCIETA’ e DEGLI STATI. Si studiavano mediante
indagini statistiche eventi naturali come le nascite , le morti, ma anche
gli atti volontari come i matrimoni, i crimini e i suicidi. Tutto ciò per la
promozione di una politica statale più informata e quindi più efficace. Di
qui probabilmente il nome di Statistica, i suoi praticanti furono chiamati
“statisti” e verso la fine del XIX secolo “statistici”.
La Statistica si sviluppa poi in modo particolare nel corso dell’Ottocento
appunto con Quételet.
Ma le basi della statistica matematica moderna furono poste tra il 1890
e il 1930. Fra i fondatori della moderna statistica matematica
ricordiamo Pearson, Spearman, Yule, Gosset, Fisher.
Adolphe Quételet (Gand 1796- Bruxelles 1874)
Astronomo, matematico interlocutore di
matematici illustri come Fourier, Poisson,
Laplace, è indubbiamente la figura più
importante nello sviluppo della statistica
scientifica.
Cerca di portare in Statistica il rigore dei
metodi usati in astronomia e l’impiego
sistematico della matematica. Nel 1834
fonda la Statistical Society di Londra.
Per Quételet la matematica avrebbe dato
un ordine all’apparente caos sociale, nel
senso che – pensava - in campo sociale
esistono delle leggi come nel mondo
naturale che possono essere scoperte con
la statistica. Per lui la statistica divenne
una Physique sociale.
Ad esempio Quételet si occupò di eventi come il
crimine e il suicidio e scoprì che l’attività criminale
variava di poco di anno in anno. E a proposito di tale
regolarità Quételet osservava: “ essa ci insegna che l’azione
dell’uomo è limitata in tale ambito e che le grandi leggi della
natura sono per sempre al di fuori della sua influenza; essa
dimostra inoltre che nel mondo morale possono esistere delle
leggi di conservazione allo stesso modo in cui si trovano nel
mondo fisico”.
Sulla base delle leggi sociali scoperte la società era vista
come un’entità a se stante, indipendente dai capricci e dalle
idiosincrasie degli individui che la costituiscono. Ci sono delle
leggi sociali ineluttabili per quanto possa sembrare diverso
ed irrazionale il comportamento dei singoli uomini. C’è una
regolarità collettiva.
Questa visione della ineluttabilità delle leggi sociali
diventa visione filosofica e in campo politico
costituisce anche il fondamento della politica liberale
del laissez faire: dato che la società era governata da leggi
statistiche il suo governo si doveva limitare ad un ruolo
ancillare, lo Stato doveva solo favorire e assecondare la
naturale evoluzione sociale.
“L’uomo può essere considerato un enigma solo come
individuo, come massa è un problema matematico”.
L’ homme moyen
Nell’ultimo periodo del suo lavoro Quételet elabora il concetto di homme
moyen. Questo essere astratto definito nei termini della media di tutte le
sue qualità umane in un determinato paese costituiva il “tipo” nazionale
rappresentativo della società nella scienza sociale analogo al baricentro
in fisica. I calcoli relativi a l’homme moyen physique non poneva
particolari problemi in quanto si trattava di misurare le altezze, i pesi, le
dimensione delle membra e dei vari organi e di farne poi la media.
Maggiori ostacoli presentava invece la definizione dell’ homme moyen
moral perché non si poteva misurare il coraggio, la criminalità e i buoni
sentimenti. Lo stesso risultato si poteva ottenere registrando gli atti
coraggiosi o criminali dell’intera società e quindi si poteva attribuire
all’uomo medio una tendenza al crimine equale al numero dei delitti
commessi diviso il numero della popolazione. In questo modo un insieme
di atti separati commessi dai singoli individui veniva trasformato in una
grandezza costante, la propensione che era attribuita all’uomo medio.
Per determinare le caratteristiche dell’uomo medio Quételet
fece una serie di esperimenti in cui usò la curva a campana
di Gauss. Infatti dimostrò che i caratteri antropometrici
come il peso, l’altezza, la lunghezza degli arti ecc.. Hanno
una distribuzione gaussiana
Quételet misurò le circonferenza toraciche di 5738
soldati scozzesi e le raggruppò in intervalli di ampiezza un
pollice,ottenendo sedici gruppi. Quételet osservò che la
distribuzione delle frequenze approssimava la distribuzione
gaussiana.
Quételet concluse che se le misurazioni delle circonferenze
toraciche si comportavano nel modo indicato dalla teoria
degli errori di Gauss, allora le misure delle circonferenze
toraciche dei soldati potevano essere interpretate come
repliche sottoposte a errori di misurazioni della misura
toracica dell’uomo medio.
La stessa cosa vale per il peso, l’altezza ecc..
variabile di Gauss
0.14
0.12
In ordinata y: i valori
della densità di
probabilità della x
0.1
0.08
0.06
y
0.04
0.02
deviazione
standard
σ
0
-10
-9.25
-8.5
-7.75
-7
-6.25
-5.5
-4.75
-4
-3.25
-2.5
-1.75
-1
-0.25
0.5
1.25
2
2.75
3.5
4.25
5
5.75
6.5
7.25
8
8.75
9.5
y
In ascissa x: valori di
una variabile
x
0.45
µ= media
0.4
0.35
0.3
I valori di µ e di
σ individuano
perfettamente la
curva
0.25
0.2
0.15
dev.st.=1
dev.st.=2
dev.st=3
0.1
0.05
0
1 6 111621263136414651566166717681
h= densità di
probabilità
probabilità
∆x= 10
Statura
(cm)
frequenza Frequenza
Relativa
(probabilità p)
(140-150]
5
0,05
(150-160]
9
0,09
(160-170]
20
0,20
(170-180]
32
0,32
(180-190]
20
0,20
(190-200]
9
0,09
(200-210]
5
0,05
100
1,00
totale
Le probabilità p sono le aree dei
rettangoli, le altezze h dei rettangoli sono
le densità di probabilità: h ∆x= area=p
Al tendere a 0 di ∆x
l’istogramma diventa la curva a
campana che ha quindi in
ascissa x i valori delle altezze e
in ordinate y i valori della
densità di probabilità.
Probabilità di trovare
individui di altezza
compresa fra x1 e x2
y
x
x1
x2
variabile di Gauss
0.14
0.12
In ordinata y: i valori
della densità di
probabilità della x
0.1
0.08
0.06
y
0.04
0.02
σ
0
-10
-9.25
-8.5
-7.75
-7
-6.25
-5.5
-4.75
-4
-3.25
-2.5
-1.75
-1
-0.25
0.5
1.25
2
2.75
3.5
4.25
5
5.75
6.5
7.25
8
8.75
9.5
y
In ascissa x: valori di
una variabile
x
0.45
µ= media
0.4
0.35
0.3
0.25
0.2
0.15
dev.st.=1
dev.st.=2
dev.st=3
0.1
0.05
0
1 6 111621263136414651566166717681
Il problema della stima della media o di una
proporzione di una popolazione
- Indagine completa
- Indagine campionaria: la inferenza statistica
-Teorema del limite centrale: sia data una popolazione la
cui media sia µ (e la cui proporzione sia P). Estraiamo da
essa tutti i possibili campioni di dimensione n (grandi
campioni con n≥30) e di ogni campione calcoliamo la media
m (o la frequenza f). Otteniamo una distribuzione di medie
campionarie (o di proporzioni campionarie).
-Esempio se la popolazione ha dimensione N=10 e n= 2
allora i campioni sono 45
-Se N = 100 e n= 10 allora i campioni sono 1,73103 1013
Sia la popolazione costituita da 4 elementi a, b, c, d
Tutti i possibili campioni di dimensione 2 sarebbe costituito da:
a, b
a, c
a, c
b, c
b, d
c, d
Valgono i seguenti risultati:
1) tali distribuzioni sono gaussiane
2) la media delle medie campionarie coincide con la media
µ della popolazione
3) la media delle frequenze campionarie coincide con la
proporzione P della popolazione
4) La deviazione standard della distribuzione delle medie
campionarie è
dove σ è la deviazione standard della
popolazione.
5) La deviazione standard della distribuzione delle
frequenze campionarie è
dove P è la Proporzione della popolazione.
95%
Densità di
frequenza
delle medie
campionarie
Medie campionarie
Media della popolazione
Livello di
fiducia
Un ingegnere addetto al
controllo di quantità
vuole stimare il peso
medio di una scatola di
cereali riempita da una
certa macchina in un
certo giorno. Estrae un
campione casuale di
100 scatole ne calcola
la media campionaria
m = 300,5 grammi e la
deviazione standard s=
15 grammi.
dove σ è la deviazione standard della popolazione e n la
dimensione del campione .
L’intervallo di confidenza al 95% è [300,5 –(1,96)(1,5);300,5+(1,96)(1,5)] cioè
(297,56;303,44)
La media campionaria m proviene dalle code del 5% della distribuzione delle
medie campionarie, così l’intervallo di confidenza al 95% non contiene la
media della popolazione.
- Una stima è tanto più precisa quanto più piccolo è l’intervallo di
confidenza
- È tanto più affidabile quanto maggiore è il livello di fiducia
- Da notare che mantenendo costante la dimensione del campione,
aumentando il livello di fiducia aumenta anche l’intervallo di confidenza,
cioè aumentando l’attendibilità della stima diminuisce la sua precisione.
-Tuttavia si può
conciliare l’aumento
dell’attendibilità con
l’aumento della
precisone o a
precisione invariata,
aumentando la
dimensione del
campione.
Infatti all’aumentare
della dimensione del
campione diminuisce
la deviazione standard
della distribuzione che
si concentra
maggiormente attorno
alla media
Dimensione del
campione n= 250
dimensione del
campione n=100
La verifica delle ipotesi, i test di significatività
Il nostro ingegnere potrebbe procedere in modo diverso per vedere se la
produzione procede sotto controllo. Supponiamo che l’azienda dichiari di
produrre scatole di cereali del peso di 300 grammi, per cui la produzione
sarà sotto controllo se la media è 300 grammi. Si tratta di verificare
questa ipotesi al livello di fiducia del 95%.
H0: µ = 300 si dice ipotesi nulla, l’ipotesi alternativa H1: µ ≠ 300.
Ogni giorno per sapere se la produzione è sotto controllo l’ingegnere
estrae a caso un campione di 100 scatole, ne calcola il peso medio m e
la deviazione standard s
Supponiamo che la media del campione sia 303 grammi. Si pone il
problema seguente:
La differenza 3 grammi rientra nella normale variabilità campionaria
oppure è significativa del fatto che in realtà stiamo producendo scatole di
peso medio superiore a 300 grammi?
Zona
accettazione
Zona rifiuto
σ è la deviazione standard
della popolazione ed è
stimata dalla deviazione
standard del campione.
L’intervallo verde indica la
zona di accettazione
dell’ipotesi nulla.
Le semirette rosse indicano
la zona del rifiuto
dell’ipotesi nulla.
P=95%
α/2=2,5%
α/2=2,5%
P=0,95 si dice livello di fiducia
α = 0,05 = 1-p = 1-0,95 = area delle due code si dice livello di significatività.
Ogni decisione che si prende è soggetta ad un
errore, si hanno due tipi di errori:
1. Si rifiuta H0 quando è vera. L’errore si commette
quando la media campionaria m cade nella zona di
rifiuto. La probabilità dell’errore è α. L’errore si dice di1°
specie
2. Si accetta H0 quando è falsa. Si dice che si commette
un errore β di 2° specie
Si prendono invece decisioni giuste quando
1. Si accetta H0 quando è vera (La probabilità è il livello
di fiducia p)
2. Si rifiuta Ho quando è falsa (La probabilità è 1- β che è
detta potenza del test).
E’ chiaro che la cosa migliore sarebbe costruire un
test in modo da rendere minime le probabilità degli
errori α e β, ma vediamo se ciò è possibile.
E’ più agevole discutere la cosa nel caso in cui le ipotesi
alternative siano 2.
Supponiamo che due persone A e B stiano giocando ai dadi
con la regola che A perde ogni volta che esce la faccia 1.
supponiamo che in 100 lanci la faccia 1 si sia presentata 27
volte, per cui A ha perso con una frequenza pari a 0,27.
Considerato che la probabilità che esca 1 è 0,167, A
sospetta che B stia giocando con un dado truccato, magari
con uno di quei dadi in cui 1 esce con probabilità 0,25. E’
possibile sottoporre a verifica tale sospetto?
Le ipotesi in conflitto sono:
1. Ipotesi nulla H0: p=0,167 il dado non è truccato
2. Ipotesi alternativa H1: p= 0,25, il dado è truccato
Si deve assumere una regola di decisone che potrebbe
essere la seguente:
Se dopo una serie di 100 lanci la frequenza con cui esce 1 è
f< 0,20 allora si accetta H0, altrimenti si accetta H1.
La situazione per quanto riguarda gli errori di 1° e di 2° specie
è allora la seguente.
Distribuzione delle
frequenze campionarie di
campioni di
100 lanci
Zona rifiuto
Zona accettazione
Aumentando la
dimensione dei
campioni è
possibile
diminuire sia α
sia β
Esempio in campo giudiziario
L’impossibilità di diminuire contemporaneamente α e β a parità di dimensione del
campione è chiarita bene dal seguente esempio in campo giudiziario.
Sia H0: l’imputato è innocente
H1: l’imputato è colpevole
α= errore di 1° specie, è la probabilità di condannare un innocente cioè la
probabilità di rifiutare H0 e quindi accettare H1 quando H0 è vera
β = errore di 2° specie, è la probabilità di assolvere un colpevole cioè la
probabilità di accettare H0 (l’imputato è innocente) quando invece è vera H1 cioè
l’imputato è colpevole.
Le riforme a carattere garantista che vogliono diminuire il rischio di condannare
un innocente (α) portano necessariamente al rischio di aumentare β cioè ad
aumentare il rischio di assolvere un colpevole.
Il T test
Caso dell’efficacia di un medicinale (ad esempio per abbassare la
pressione)
Pressione sistolica
Paziente
Placebo
medicinale
Differenze d
1
211
181
30
2
210
172
38
3
210
196
14
4
205
191
14
5
197
167
30
6
190
161
29
7
191
180
11
8
177
160
17
9
173
149
24
10
170
119
51
11
163
156
7
Si calcola la media delle differenze e si ottiene m=
24,1 e la deviazione standard delle differenze =
13,15
L’ipotesi che vogliamo verificare è che tale differenza sia
nulla, che corrisponde alla ipotesi della inefficacia del
medicinale. Vogliamo verificare tale ipotesi al livello di
significatività del 5%.
H0: µ=0
H1: µ>0
In questo caso, dato che il campione è piccolo (<30), si
adopera non la distribuzione gaussiana ma un’altra (la t di
Student) che l’approssima.
Agli inizi della probabilità
Nel 1654 il cavalier Antonio de Méré si
rivolse a Blaise Pascal per sapere perché mai
puntando sull’uscita del 6 nel gioco del dado, in 4 lanci
la pratica del gioco rendeva evidente che fosse più
facile vincere che perdere mentre puntando sull’uscita
del doppio 6 su 24 lanci di due dadi fosse viceversa
più facile perdere che vincere.
Secondo i calcoli che faceva Antonio de Méré avrebbe
dovuto succedere il contrario.
La risposta che diede Pascal fu molto semplice: fai
bene i calcoli e vedrai che la teoria conferma la pratica.
Infatti nel primo caso si perde se nei 4 lanci esce sempre un numero diverso da 6.
La probabilità di perdere è quindi 5/6*5/6*5/6*5/6= (5/6)4 = 0,483 che è minore della
probabilità di vincere che è 1-(5/6)4=0,517.
Nel caso di 24 lanci di due dadi si perde se in ogni lancio non esce il doppio 6. La
probabilità che nei 24 lanci non esca mai il doppio 6 è: (35/36)24=0,508 per cui la
probabilità di vincere è 1-0,508=0,492 che è minore della probabilità di perdere.
E’ con Pierre-Simon Laplace che la
probabilità cessa di essere una
curiosità matematica. I lavori che Laplace
pubblicò a partire dal 1794, in particolare la
Théorie analitique des probabilités del 1812
trasformarono una serie di problemi legati
principalmente ai giochi d’azzardo e alle rendite
vitalizie delle assicurazioni nella teoria classica
della probabilità che divenne una disciplina
scientifica d’avanguardia.
E’ interessante illustrare le motivazioni che
spingono Laplace a questa fatica. Laplace era
un convinto sostenitore di una visione
meccanicistica e deterministica del mondo, che
secondo lui era regolato da ferree leggi
esprimibili in termini matematici.
Scrive nel celeberrimo Essai philosophique sur les probabilités
pubblicato nel 1814 e a partire dalla seconda edizione, premesso
come introduzione alla Théorie:
“Dobbiamo dunque considerare lo stato presente dell’universo
come l’effetto del suo stato anteriore e come la causa del suo stato
futuro. Un’Intelligenza che, per un dato istante, conoscesse tutte le
forze da cui è animata la natura e la situazione rispettiva degli
esseri che la compongono, se per di più fosse abbastanza
profonda da sottomettere questi dati all’analisi, abbraccerebbe
nella stessa formula i movimenti dei più grandi corpi dell’universo e
dell’atomo più leggero: nulla sarebbe incerto per essa, e l’avvenire
come il passato sarebbe presente ai suoi occhi. Lo spirito umano
offre, nella perfezione che ha saputo dare all’astronomia, un pallido
esempio di quest’intelligenza. Le sue scoperte in meccanica e in
geometria, unite a quelle della gravitazione universale, l’hanno
messo in grado di abbracciare nelle stesse espressioni analitiche
gli stati passati e quelli futuri del sistema del mondo.”
Ma il punto è che l’uomo è ben lontano dalle capacità
dell’Intelligenza da lui immaginata. Infatti poco oltre
Laplace afferma:
“La regolarità che l’astronomia ci presenta nel movimento delle
comete, ha luogo senza dubbio in tutti i fenomeni. La curva
descritta da una semplice molecola di aria o di vapore è regolata
con la stessa certezza delle orbite planetarie: non v’è tra esse
nessuna differenza, se non quella che vi pone la nostra ignoranza.
La probabilità è relativa in parte a questa ignoranza, in parte alle
nostre conoscenze”.
Secondo Laplace l’uomo non è l’Intelligenza che lui si è figurato e
pertanto molte volte non è in grado né di conoscere tutte le forze di
cui la natura è animata, né le posizioni delle particelle che la
compongono, né infine, conoscendo tanto le une quanto le altre, di
sottoporre all’analisi matematica i dati in suo possesso. In questi
casi si deve ricorrere alla probabilità. Quindi alla base della
probabilità troviamo la nostra ignoranza.
Definizione classica o laplaciana di Probabilità
Sia E un evento, siano n i casi possibili e m quelli
favorevoli ad esso, allora
P(E) = m/n .
La definizione è valida nell’ipotesi che tutti i casi possibili
siano ritenuti egualmente possibili.
Esempio:
Probabilità che lanciando un dado non truccato esca il
numero 6 è 1/6 in quanto i casi possibili sono 6 e quelli
favorevoli all’evento sono 1.
Per tutto l’Ottocento la definizione di probabilità fu quella classica di
Laplace, tuttavia a partire dagli ultimi anni dell’Ottocento specie in
fisica e in Biologia gli esempi di eventi per i quali si doveva ricorrere
alle osservazioni per determinare le probabilità si andavano
moltiplicandosi.
Definizione frequentista o statistica di
probabilità
Frequenza assoluta: numero delle volte che un evento si
verifica. Es: lancio il dado 10 volte, il numero 6 si verifica 3
volte. 3 è la frequenza assoluta di 6
Frequenza relativa: è il rapporto fra la frequenza assoluta
e il numero delle prove fatte. Nell’esempio precedente: la
frequenza relativa di uscita di 6 è 3/10 = 0,3
La probabilità di un evento in senso frequentista è il
limite al quale tende la frequenza relativa quando il numero
delle prove tende all’infinito oppure la probabilità di un
attributo in una certa popolazione è il limite al quale
tende la frequenza relativa dell’attributo quando la
frequenza è calcolata su campioni estratti dalla
popolazione di grandezza via via crescente e tendente
all’infinito.
Tuttavia perché la definizione sia valida occorre
che l’evento sia ripetibile e le singole prove sia
indipendenti o che i campioni via via usati siano casuali
cioè tali che i componenti abbiano tutti la stessa
probabilità di essere estratti.
Esempio: supponiamo di lanciare un dado un gran numero di volte,
diciamo mille, e di constatare che il 2 si è presentato 173 volte, per
cui 173/1000=0,173 è la frequenza relativa dell’uscita del numero 2.
Proseguendo nei lanci la frequenza relativa assumerà valori diversi
ma tenderà a stabilizzarsi attorno ad un certo valore che viene
assunto come valore della probabilità dell’evento.
L’esperienza ci mostra che in tutti i fenomeni di massa la frequenza
relativa di un certo attributo si stabilizza al crescere del numero delle
osservazioni ed è proprio questo fatto che in qualche modo giustifica
la definizione frequentista di probabilità.
Un ponte fra le definizione di probabilità in senso
classico e in senso frequentista fu gettato agli inizi
del Novecento da Guido Castelnuovo che nel suo Calcolo
delle probabilità del 1919 introdusse la famosa legge
empirica del caso che dice:
“In una serie di prove ripetute un gran numero di volte e
nelle stesse condizioni, ciascuno degli eventi possibili si
manifesta con una frequenza relativa che è presso a
poco uguale alla sua probabilità. L’approssimazione
cresce ordinariamente col crescere del numero delle
prove”.
n. Lanci
Esempio di
simulazione al
computer del lancio di
un dado.
Frequenza con cui si presenta il
numero 3 al crescere del numero
dei lanci.
Probabilità classica di uscita
di 3 = 1/6 = 0,166667
Un contributo determinante alla
formulazione di questa definizione
fu data da Richard von Mises
tedesco che pubblicò un trattato
sulla probabilità dal titolo
impronunciabile nel 1928.
100
200
300
400
500
600
700
800
900
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
Frequenza
assoluta
14
35
52
69
86
95
108
128
141
156
318
478
636
810
974
1172
1329
1481
1657
Frequenza
relativa
0,140000
0,175000
0,173333
0,172500
0,172000
0,158333
0,154286
0,160000
0,156667
0,156000
0,159000
0,159000
0,159000
0,162000
0,162333
0,167429
0,166125
0,164556
0,165700
MATEMATICA ATTUARIALE
Le aziende per testare la vita media dei loro prodotti, per esempio
lampadine e frigoriferi, eseguono dei test di durata; vale a dire che scelgono un
campione casuale della loro produzione e li fanno funzionare finché non si
guastano. In questo modo se 100 lampadine scelte a caso da una produzione
sono accese in media 60 ore (si registra la vita di ogni lampadina e poi si fa la
media) possiamo dire che la vita media di una lampadina di quel tipo è di 60 ore
(in realtà si fa una stima per intervalli).
In matematica attuariale e per le molte applicazioni nel campo delle
assicurazioni ha molta importanza stabilire quale sia la vita media di un
individuo di età x oppure sapere quale è la probabilità che un individuo che oggi
ha 40 anni possa vivere ancora 20 anni.
E’ chiaro che per calcolare la vita media delle persone non si può seguire il
metodo delle lampadine cioè scegliere 100 individui e poi seguirli finché non
muoiono tutti. Sarebbe troppo lungo. Queste valutazioni si fanno ricorrendo alle
tavole demografiche o tavole di sopravvivenza.
La prima rudimentale ma interessante tavola di sopravvivenza
risale alla prima metà del XVII secolo e fu composta dall’inglese
J. Graunt che reperì i dati dai registri parrocchiali. Un tretennio
più tardi l’astronomo inglese Edmund Halley (1656-1742)
compilò una tavola simile sempre basandosi sui registri parrocchiali.
Da allora applicando i metodi della statistica e del calcolo delle probabilità si sono
potute costruire tavole demografiche sempre più precise ed affidabili basandosi
essenzialmente su due tipi di osservazioni, diverse ma complementari: i dati dei
censimenti e quelli dei decessi.
In Italia si occupa della compilazione delle tavole l’Istituto di Statistica (Istat). Dai
censimenti che nel nostro paese vengono fatti ogni 10 anni, si possono estrarre i
dati relativi ai viventi suddivisi per età e sesso. Rilevando invece per un certo
numero di anni i dati sui decessi dai registri dello stato civile, si possono ricavare
informazioni sul numero medio dei morti, suddivisi per fasce di età.
Si costruiscono quindi delle tavole che anno per anno indicano quante persone
sono sopravvissute rispetto ad un nucleo iniziale e quante quindi sono decedute.
E’ importante avvalersi di tavole aggiornate perché al cambiare delle condizioni di
vita cambiano le probabilità di vita e di morte.
Descrizione delle tavole
dx = lx-lx+1.
Si può vedere che lx ( il numero
dei sopravvissuti) è una funzione
decrescente dell’età,
(ovviamente man mano che
passa il tempo il numero dei vivi
diminuisce, qualcuno muore) ma
prima fino a circa 60 anni
decresce lentamente poi in
maniera più rapida. Dal grafico di
dx si vede che il numero dei morti
diminuisce abbastanza
rapidamente nei primi anni di
vita poi a partire da 10 anni circa
comincia ad aumentare fino a 80
anni poi diminuisce rapidamente
fino all’età estrema.
Alcune probabilità di vita e di morte calcolate in
base alla definizione frequentista di probabilità.
Tasso annuo di sopravvivenza, cioè la probabilità che un
individuo di età x arrivi all’età x+1.
Esempio: probabilità che un individuo maschio di 60 anni
arrivi a 61
Probabilità che un individuo di 80 anni arrivi a 81
Tasso annuo di mortalità, cioè la probabilità che
un individuo di età x muoia prima di compiere
l’età x+1
Esempio: probabilità che una persona di 20 anni muoia
prima di compiere 21 anni.
Probabilità di essere in vita dopo h anni
Esempio: probabilità che un individuo maschio di 39
anni arrivi all’età di 59 anni.
Vita media
È il tempo medio di vita residua che ha una persona di età x.
Si calcola nel modo seguente:
sia lx il numero delle persone di età x, dx è il numero delle persone di questo
gruppo che moriranno entro l’anno, si può pensare che ognuna di queste
persone vivranno in medio ½ di anno.
Le persone che moriranno l’anno successivo cioè all’età x+1 sono dx+1 , si può
pensare che ognuno di essi abbia vissuto un anno e mezzo cioè 3/2 di anno.
Le persone che moriranno all’età x+2 sono dx+2 e si può pensare che ognuno di
essi abbai vissuto 2 anni e mezzo cioè 5/2 di anno. E così via.
In conclusione in questo modo abbiamo calcolato la vita media di ogni individuo
del gruppo iniziale. La vita media di un individuo di età x sarà la media
ponderata delle vite medie di tutto il gruppo dei viventi all’età x, cioè:
vita media età x =
Esempio
La vita media di un maschio di 60 anni è
Vita probabile
La vita probabile di un individuo di età x è il numero di anni
che devono trascorrere affinché la popolazione dei viventi
all’età x diventi la metà.
Essa viene indicata con il simbolo πx .
Allora πx si trova risolvendo l’equazione lx+πx= ½ lx
Ad esempio
Dalle tavole risulta che il numero dei viventi maschi all’età
di 50 è l50 = 93016
Essi diventano la metà (cioè 46508) quando il gruppo ha
un’età compresa fra 78 e 79 per cui si può dire che la vita
media è circa 78-50 = 28
Calcolo del premio di una assicurazione di capitale
differito. Una persona di età x riscuote un certo
capitale C se sarà vivo all’età x+n. Quale premio
deve pagare?
Ad esempio una persona di 30 anni vuole che la
Compagnia di assicurazione gli versi la somma di €
100.000 se sarà in vita all’età di 60 anni.
Il premio può essere:
A) Unico o periodico
B) Puro o caricato
Calcolo del premio unico puro
Si interpreta il contratto come un gioco di
sorte, in cui l’assicurato vince la somma C se arriva
vivo all’età x+n, e paga per giocare il premio U.
Che cosa è la vincita attesa? È il prodotto della
somma da vincere per la probabilità di vincerla
Il premio è puro se il gioco di sorte è equo cioè la
vincita attesa del banco e del giocatore sono uguali.
.
La vincita del banco (in questo caso la
Compagnia di Assicurazione) è certa perché
egli riscuote oggi con certezza il premio U.
Quindi la vincita attesa del banco è U*1 = U
La vincita attesa dell’assicurato e la somma che
riscuoterà fra n anni valutata ad oggi ( C(1+i)-n dove
i è il tasso tecnico dell’operazione) moltiplicata per
la probabilità che egli sia in vita fra n anni. Quindi la
vincita attesa dell’assicurato è:
Quindi il premio puro da pagare sarà
U=
Nel nostro esempio C=100.000, i = 0,02,
x =30, n = 30
Teorema di Bayes
Thomas Bayes (1702-1761) matematico e ministro britannico. Il
teorema fu pubblicato postumo nel 1763.
Supponiamo che un evento E possa essere
determinato da n cause H1, H2,……Hn di cui è certo
che solo una si può verificare.
Supponiamo di conoscere le probabilità con cui si
verificano le n cause p(H1), p(H2),…p(Hn) e la
probabilità con cui si verifica l’evento E dato la
causa cioè p(E/H1)….p(E/Hn).
Supponiamo che si sia verificato l’evento E, il
teorema di Bayes ci permette di calcolare la
probabilità che sia stata la causa Hi a determinare E.
Esempio:
Supponiamo che un medico sappia che un
certo sintomo E (esempio una febbre
altissima in un quadro clinico specifico) possa
essere l’effetto di tre sole malattie H1, H2, H3
le cui probabilità sono:
p(H1)=0,03
p(H2)=0,70
p(H3)=0,27
Supponiamo inoltre che la probabilità che ci sia
febbre alta con la malattia H1, H2, H3 siano:
p(E/H1)=0,90 p(E/H2)=0,10 p(E/H3)=0,30 .
Come si vede a priori la malattia H2 è la più
probabile.
Il problema è: visto che il paziente ha febbre altissima quale è la causa
più probabile?
Il teorema di Bayes nell’esempio dice che:
N.B. il denominatore della frazione è la p(E)
Analogamente per le altre cause:
Come si vede la presenza del sintomo febbre E ha modificato l’opinione del
medico circa la graduatoria delle malattie; infatti a priori la malattia più probabile
era H2, seguita da H3 e infine H1.
Vista la febbre, la malattia più probabile a posteriori è H3.
Visto che i denominatori delle frazioni sono uguali la malattia più probabile
dipende dalle probabilità a priori della malattia e dalle probabilità condizionate del
sintomo data la malattia.
Applicazioni del teorema di Bayes nei test
diagnostici.
Esempio: la diagnosi della sindrome di Down
La sindrome di Down è una condizione cromosomica patologica, che
riguarda circa un feto su 1000. Il più accurato test per la sindrome di
Down richiede l’amniocentesi, un intervento che purtroppo implica un
piccolo rischio di aborto (circa un caso su 200). C’è un altro test
accurato della sindrome di Down che è privo di rischi, noto come triplo
test. Questo esame è diventato recentemente di uso comune e si basa
sulla concentrazione di tre ormoni nel sangue materno a circa 16
settimane di gravidanza. Come ogni test anche il triplo test non è
sempre perfetto, cioè è possibile che il test risulti negativo cioè non
indica malattia ma il feto è malato (errore detto falso negativo) oppure
che risulti positivo cioè indica malattia ma il feto è sano (errore detto
falso positivo).
I termini della questione sono i seguenti:
Prevalenza della malattia o anche detta probabilità a priori:
è la probabilità che un individuo sia malato, nel caso della
sindrome di Down p(Em)= 0,001 cioè 1 su 1000, o anche su
1000000, 1000 sono malati e 999000 sono sani.
la probabilità di un falso positivo = p(T+/Es) = 0,05 cioè 5%. Su
999000 sani il 5% cioè 49950 risulteranno falsi positivi al test
specificità del test = probabilità che il test sia negativo dato che
l’individuo è sano p(T-/Es) = 1-p(T+/Es)= 1-0,05=0,95. Sui 999000 sani il
95% cioè 949050 risulteranno negativi al test.
sensibilità del test = probabilità che il test sia positivo dato che il feto
è malato, p(T+/Em) = 0,60.
Dei 1000 malati il 60% cioè 600 risulteranno positivi al test
Quindi su 1000000 di test risulteranno positivi 49950+600=50550 di cui
solo 600 veri positivi in quanto malati.
probabilità di un falso negativo = p(T-/Em) = 1- p(T+/Em) =0,40 cioè il
40%. Dei 1000 malati il 40% cioè 400 risulteranno negativi al test
Il problema è calcolare la probabilità che il feto sia malato dopo che
il test è risultato positivo, tale valore è detto valore predittivo di un
test positivo o probabilità a posteriori.
Risulta:
Esiste una bassa probabilità che un feto risultato positivo al triplo test sia
effettivamente affetto da sindrome di Down.
Tale valore si poteva ottenere anche considerando che su 50.550 test positivi
solo 600 sono malati per cui
Calcoliamo ora la probabilità che un feto risultato negativo sia effettivamente
sano cioè il valore predittivo di un test negativo.
Esiste quindi quasi la certezza che se il test è negativo il feto è sano.
Le tabelle di contingenza
Alla scoperta della dipendenza o indipendenza fra
variabili o mutabili
Esempio: il casco protettivo è efficace per prevenire i traumi
cranici conseguenti a incidenti?
Casco protettivo
Trauma
cranico
si
no
Totale
Frequenze
osservate
Si
17
218
235
235/793=29,6%
No
130
428
558
558/793=70,4%
totale
147
646
793
Campione di 793 soggetti coinvolti in incidenti con la motocicletta in un
anno.
La tabella delle frequenze attese se non ci fosse alcuna
dipendenza fra il casco protettivo e il trauma cranico.
Dalla tabella precedente si deduce che in tutto il campione ha avuto un trauma
cranico il 29,6% delle persone e non lo ha avuto il 70,4%.
Se l’uso del casco non avesse alcuna influenza nel proteggere dal trauma
cranico ci aspetteremmo che il 29,6% dei 147 che avevano il casco, avranno
trauma cranico cioè 0,296x147=43,6 e la differenza cioè 103,4 avente casco
non avranno avuto trauma cranico.
Analogamente se l’uso del casco non avesse alcuna influenza sul trauma
cranico ci aspetteremmo che il 29,6% dei 646 che non avevano casco avranno
trauma cranico, cioè 0,296x 646= 191,4 e la differenza pari a 454,6 non aventi il
casco non avranno avuto trauma cranico.
Casco protettivo
Trauma cranico
si
no
totale
si
43,6
191,4
235
no
103,4
454,6
558
Totale
147
646
793
Tabella delle frequenze osservate (O)
Casco protettivo
Trauma
cranico
si
no
Totale
Si
17
218
235
235/793=29,6%
No
130
428
558
558/793=70,4%
totale
147
646
793
Tabella delle frequenze attese (A) nel caso della indipendenza
Casco protettivo
Trauma cranico
si
no
totale
si
43,6
191,4
235
no
103,4
454,6
558
Totale
147
646
793
E’ naturale pensare che i caratteri saranno tanto più indipendenti
quanto più le frequente osservate si avvicinano a quelle attese e
quindi tanto più dipendenti quanto più le frequenze osservate si
discostano da quelle attese. Un indice significativo di questa discordanza sarà
quindi:
Se i caratteri sono indipendenti e il numero delle osservazioni sufficientemente
elevati ( in pratica non ci devono essere frequenze attese inferiori a 5) l’indice
dato ha una distribuzione che si avvicina a Chi-quadrato con un grado di
libertà uguale a (p-1)(q-1) dove p e q sono rispettivamente il numero delle
colonne e delle righe della tabella.
Allora se i caratteri sono indipendenti c’è una probabilità del 95% che il chiquadrato calcolato sia inferiore al chi-quadrato tabulato cioè presente nella
tabella del chi-quadrato all’incrocio della colonna corrispondente a 0,95 e alla
riga del grado di libertà (p-1)(q-1). Per cui se il chi-quadrato calcolato è
superiore al chi-quadrato tabulato si conclude che i caratteri sono dipendenti
al grado di fiducia del 95%.
La distribuzione χ2
Sia data popolazione gaussiana con varianza σ2, estraiamo da essa tutti i
possibili campioni di dimensione n e per ogni campioni consideriamo il
rapporto:
dove m è la media del
Campione.
Otteniamo una distribuzione
di numeri, detta distribuzione
chi-quadrato il cui grafico al
variare della dimensione dei
campioni è il seguente:
All’incrocio della colonna χ2 di pedice 0,95 e la riga 9 c’è il numero 16,9. Il
significato è il seguente. Estraendo dalla popolazione un campione di dimensione
10 si ha una probabilità del 95% che esso abbia un chi-quadrato inferiore a 16,9.
La statistica prevede il futuro
Andamento della mortalità infantile in Italia
(yi = morti per 1000 nati vivi)
Anni
xi
yi
1971
0
28,5
1972
1
27,0
1973
2
26,2
1974
3
22,9
35
1975
4
21,2
30
1976
5
19,5
25
1977
6
18,1
20
1978
7
17,1
15
1979
8
15,7
1980
9
14,6
1981
10
14,1
yi= indici di mortalità
y = -1.5255x + 28.073
R² = 0.9767
y = 28.923e-0.075x
R² = 0.9921
yi= indici di mortalità
10
Linear (yi= indici di
mortalità)
5
0
0
5
10
15
Expon. (yi= indici di
mortalità)
1981
Valori extrapolati
Anni
xi
yi
Ip. lineare
Ip. esponenziale
Valori reali
1971
0
28,5
28,1
28,9
28,5
1972
1
27,0
26,5
26,8
27,0
1973
2
26,2
25,0
24,9
26,2
1974
3
22,9
23,5
23,1
22,9
1975
4
21,2
22,0
21,4
21,2
1976
5
19,5
20,4
19,9
19,5
1977
6
18,1
18,9
18,4
18,1
1978
7
17,1
17,4
17,1
17,1
1979
8
15,7
15,9
15,9
15,7
1980
9
14,6
14,3
14,7
14,6
1981
10
14,1
12,8
13,7
14,1
1982
11
11,3
12,7
12,9
1983
12
9,8
11,8
12,3
1984
13
8,2
10,9
11,3
1985
14
6,7
10,1
10,5
1986
15
5,2
9,4
10,1
FINE
Al CALCOLO SOCIALE era attribuita molta importanza in
relazione al governo dei popoli. Significativa è questa frase
di Jean-Jacques Rousseau (1712-1778) tratta dal Contratto
sociale:
“Il Governo sotto il quale (…) i cittadini realizzano il massimo
incremento e si moltiplicano è infallibilmente il migliore. Allo stesso
modo, il Governo sotto il quale un popolo diminuisce e si logora è il
peggiore: esperti di calcolo! Lascio a voi il compito di contare, di
misurare, di paragonare”.
Comunque è nel corso del XIX secolo che il CALCOLO SOCIALE si
sviluppa e prende forma come tecnica statistica usata su larga scala.
Alcuni esempi di studi statistici: dopo le guerre napoleoniche i medici
militari focalizzarono la loro attenzione sulla salubrità degli orfanotrofi,
delle prigioni e degli ospizi per i poveri, di solito con lo scopo di
stimolare le riforme necessarie. Ci sono poi le ricerche sull’istruzione
pubblica.
Ecco alcuni obiettivi di ricerca posti nel 1835 dalla Statistical Society di
Londra per quanto riguarda l’istruzione:
1) Qual è stato l’effetto dell’estensione dell’istruzione nel comportamento del
popolo? E’ diventato più disciplinato, sobrio, soddisfatto o è successo il
contrario?
2) Qual è il rapporto fra crimini e istruzione? Gli scolarizzati sono più esenti dei
non scolarizzati o accade il contrario?
3) Quale crimine prevale di più nelle province colte: i reati contro la proprietà o
contro la persona?
4) Quanti criminali , specialmente nelle classi di crimini più volgari, sapevano
leggere e scrivere in base ai rendiconti del 1833 o del 1834?
5) Qual è il numero dei libri pubblicati durante l’ultimo anno e come sono
classificati?
Influenza di Quételet sulla fisica
Fu il lavoro di Quetelet a ispirare James Clerk Maxwell e Ludwig
Boltzmann a dare alla teoria cinetica dei gas un’impostazione
statistica. In una conferenza alla British Association nel 1873 Maxwell
fece un chiaro riferimento alla fisica sociale di Quételet, dicendo che
non si sarebbero mai trovate le leggi dei gas seguendo il moto e le
collisioni di milioni di particelle indipendenti dato che non erano
disponibili informazioni sulle singole molecole ed i calcoli sarebbero stati
in ogni caso estremamente complessi.
In effetti nella teoria cinetica dei gas il comportamento di un gas perfetto
viene descritto attraverso delle grandezze macroscopiche come il
Volume, la Temperatura e la Pressione, le ultime due fanno riferimento
all’energia cinetica media delle molecole secondo le note formule:
Energia cinetica media =Ecm= 3/2KT dove k è la costante di Boltzmann,
PV=2/3nN Ecm dove n è il numero di grammomolecole e N è il numero di
Avogadro.
Le velocità delle molecole di un gas si distribuiscono
secondo una gaussiana detta distribuzione maxwelliana.
Come si vede dal grafico al crescere della temperatura del
gas il picco della distribuzione (velocità media) si sposta
verso destra (verso valori più alti).