4 diapositive x foglio gradazioni di grigio

INTRODUZIONE
STATISTICA:
METODO DI INDAGINE SU FENOMENI COLLETTIVI O
POPOLAZIONI
OBIETTIVO
OTTENERE DATI NUMERICI CHE,
OPPORTUNAMENTE ELABORATI, PERMETTONO DI:
- METTERE
IN EVIDENZA REGOLARITÀ NASCOSTE
-TRARNE DELLE CONCLUSIONI
-PRENDERE DELLE DECISIONI
1
POPOLAZIONE
2
CAMPIONE
Con il termine di popolazione lo statistico non si riferisce solo a
popolazioni di persone ma si riferisce a qualsiasi collezione di
dati relativi al fenomeno oggetto di studio.
È un concetto generale per cui si può parlare di popolazioni di
altezze, di malattie, di registri ecc.
Finita:
abitanti del comune di Roma o
indefinita: infinita (come i possibili lanci di moneta)
o non si è in grado di enumerare (i possibili malati di
una certa malattia)
3
Spesso per esigenze varie (costi, tempo, strutture ecc.) o perché
la popolazione è infinita si procede alla rilevazione di parte
della popolazione detto campione.
Il campione verrà scelto in modo tale che sia il più
rappresentativo possibile della popolazione, con lo scopo di
estendere all'intera collettività i risultati ottenuti dal campione
(vedi inferenza e metodi di campionamento).
4
1
Studiando le caratteristiche della popolazione si possono
formulare delle leggi che permettono di individuare un
campione rappresentativo della popolazione stessa.
STATISTICA DEDUTTIVA O DESCRITTIVA e
STATISTICA INDUTTIVA O INFERENZA STATISTICA
STATISTICA DESCRITTIVA
Offre gli strumenti per la raccolta e la presentazione di
dati numerici.
POPOLAZIONE
CAMPIONE
Scopo della statistica descrittiva è quello di:
- raccogliere le informazioni
- ordinarle
- sintetizzarle (per poterle riferire in forma sintetica).5
INFERENZA STATISTICA
6
STATISTICA
Quando non si conoscono le caratteristiche della popolazione,
attraverso l'inferenza statistica, si stimano i parametri della
popolazione dal campione, in termini probabilistici, purché le
stime ottenute dal campione differiscano dai parametri della
popolazione solo per ragioni di casualità.
DESCRITTIVA
descrivere, sintetizzare,
commentare, i dati rilevati:
– della popolazione
POPOLAZIONE
CAMPIONE
7
– del campione: indagine
esplorativa
INFERENZIALE
utilizzare i dati rilevati
del campione per fare
stime e previsioni sulla
popolazione in termini
probabilistici
8
2
Le basi della statistica sono:
Variabilità
La statistica in medicina
Calcolo della probabilità
I motivi per i quali è necessario uno studio della statistica sono
essenzialmente 3.
1-
La medicina diviene sempre più quantitativa.
2 - Fare ricerca: La programmazione, l'esecuzione e
l'interpretazione di molte ricerche mediche si
basano sempre più sulla metodologia statistica.
9
È importante un corretto approccio statistico in quanto,
come riferito da una recente indagine americana, oltre il
70% delle ricerche sottoposte a prestigiose riviste
presentavano errori metodologici e pertanto le conclusioni
non potevano ritenersi valide.
3 - Interpretare la letteratura medica.
10
IPOTESI DI LAVORO
Affermazione che, in particolari condizioni, si ottengono certi
risultati.
È necessario formularla prima di iniziare una indagine
statistica.
Per leggere gli articoli di una rivista scientifica in modo
intelligente e valutare i risultati ottenuti, si deve avere una
certa conoscenza della statistica.
11
12
3
CARATTERE
PROGRAMMAZIONE
Uno degli aspetti, tra più alternative, in base al quale le unità
statistiche possono essere osservate. Si distinguono in:
L'indagine deve essere dettagliatamente programmata,
decidere il modello di rilevazione (anche se successivamente
rivedibile), la codifica dei dati e soprattutto quali caratteri
della collettività dovranno essere rilevati.
Qualitativi - Mutabile: Attributo dell'oggetto di rilevazione che
si può manifestare in varie modalità (Es. sesso due modalità:
maschio e femmina; titolo di studio cinque modalità, etc.)
Quantitativi -Variabile: Intensità di grandezza misurabile o
numerabile (numero) continua o discreta (peso, altezza, numero
dei figli etc.).
13
FASI DELL'INDAGINE STATISTICA
14
I dati rilevati sono dati grezzi. Devono essere
successivamente controllati e catalogati.
1) RILEVAZIONE (o raccolta):
Totale (censimento) o parziale (campione);
2) CONTROLLO -Dati mancanti, compatibilità, congruità,
ecc..
3) SPOGLIO (o classificazione) e successiva presentazione
dei dati in tabelle e/o grafici;
In fase di rilevazione accertarsi che i dati rilevati siano:
- attendibili (precauzioni, giuste fonti);
- rappresentativi (metodi di campionamento);
4) ELABORAZIONE: ottenimento di opportuni indici
sintetici (medie, variabilità ecc.);
- riproducibili (dettagliati).
5) INTERPRETAZIONE E VALUTAZIONE dei risultati.
15
16
4
Esempio di inserimento dati codificato nel calcolatore con il
programma Excel.
Record = l’insieme di notizie di ogni intervistato;
Campo = ciascun gruppo di informazioni (n. figli).
17
Data base e classificazioni
numero
scheda
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
stato
civile
N
S
V
V
C
N
C
C
V
N
N
N
S
C
N
C
V
S
C
C
grado di numero di
scolarità
figli
L
0
O
1
A
3
O
4
L
1
S
1
S
0
O
2
L
3
O
0
S
1
A
0
S
1
S
4
S
3
L
0
O
2
O
2
S
4
S
4
peso
in Kg.
72.50
54.28
50.02
88.88
62.30
45.22
57.50
78.40
75.12
58.00
53.70
91.29
74.70
41.22
65.20
63.58
48.27
52.52
69.50
85.98
18
Stato civile
Xi
Yi
C
7
N
6
S
3
V
4
Tabella a doppia entrata
Frequency Table for stato civile by figli
0
Scolarità
Xi
A
O
S
L
C
Yi
2
6
8
4
N
S
N. figli
Xi
0
1
2
3
4
Yi
5
5
3
3
4
V
tot.
col.
19
1
2
3
4
Tot.
righe
2
1
1
0
3
28.57%
14.29%
14.29%
0.00%
42.86%
40.00%
20.00%
33.33%
0.00%
75.00%
3
2
0
1
0
50.00%
33.33%
0.00%
16.67%
0.00%
60.00%
40.00%
0.00%
33.33%
0.00%
0
2
1
0.00%
66.67%
33.33%
0.00%
0.00%
0.00%
40.00%
33.33%
0.00%|
0
0.00%
0
0
0
1
2
1
0.00%
0.00%
25.00%
50.00%
25.00%
0.00%
0.00%
33.33%
66.67%
25.00%
5
5
3
3
4
25.00%
25.00%
15.00%
15.00%
20.00%
7
35.00%
6
figli
0
1
2
3
4
3
30.00%
2
3
15.00%
1
4
0
20.00%
C
N
S
V
20
100.00%
20
5
SERIE
RAPPRESENTAZIONE DEI DATI
Quando il carattere è qualitativo una tabella semplice ha a
sinistra una mutabile, ossia un elenco di modalità (modi di
essere) o attributi e a destra le frequenze (numero delle volte in
cui si presenta l’attributo corrispondente).
Tabelle e Grafici
TABELLE
Tabella 1 - Mortalità in Italia di maschi per
grandi gruppi di cause - Anno 2002
Prospetti per la presentazione dei dati dopo il riordino
eseguito attraverso lo spoglio.
Schema
Due tipi:
Xi
Yi
modalità
o
frequenze
attributo
qualitativo
SERIE
SERIAZIONI
Fonte
ISTA
22T
21
I caratteri qualitativi si distinguono in
Tabella 1 bis - Mortalità in Italia di femmine per
grandi gruppi di cause - Anno 2002
SCONNESSI
ORDINABILI
I caratteri sono sconnessi (stato civile, religione, tempo
libero) quando, come nell’esempio precedente, le modalità
non hanno alcun ordine di successione.
Sono ordinabili:
(Reddito - basso, medio alto; Dolore – nessuno, lieve, forte),
quando possono essere ordinati secondo una graduatoria.
Fonte
ISTA
T
23
Forniscono informazioni su quali unità sono minori, uguali o
maggiori, ma non di quanto (informazione delle variabili).
24
6
SERIAZIONE o
DISTRIBUZIONE DI FREQUENZA
SERIAZIONE
Esempio di tabella con carattere quantitativo discreto:
Quando il carattere è quantitativo una tabella semplice ha a sinistra
le intensità di una variabile (dati numerici che rappresentano una
grandezza misurabile o numerabile) e a destra le frequenze (numero
delle volte in cui si presenta l’intensità corrispondente).
Le osservazioni quantitative si distinguono in:
DISCRETE: la variabile può assumere solo valori interi (n. figli,
stanze, lesioni, etc.).
CONTINUE: la variabile può assumere qualsiasi valore compreso
entro un certo intervallo (es. pressione arteriosa, età, temperatura,
etc.).
Tab. 2 - Numero di maschi in famiglie
di 8 figli.
Schema
Xi
variabile
ordinamento
quantitativo
Yi
frequenze
Numero di maschi
0
1
2
3
4
5
6
7
8
Totale
Frequenze
161
1.152
3.951
7.603
10.263
8.498
4.984
1.165
264
38.041
25
CLASSI
26
Non ci sono regole precise; come regola generale si
consideri che meno di 5 intervalli sono pochi e più di 20
sono troppi.
Gli intervalli in cui è suddivisa una variabile di una
distribuzione di frequenza.
Nella rilevazione di variabile continua, in caso di
incertezza, fare intervalli di classe abbastanza piccoli per
riunirli successivamente nella maniera più opportuna.
Nelle osservazioni discrete i dati si possono raggruppare in
classi per esigenza di sintesi;
Possibilmente ampiezza di classe sempre uguale con
deroga di classi aperte all'inizio o alla fine (es. fino a 14
anni, oltre 70 anni);
nelle osservazioni continue i dati si devono raggruppare in
classi.
La determinazione dell'ampiezza della classe e quindi del
numero di intervalli dipende dal tipo di studio che si sta
svolgendo.
per successive valutazioni il dato, iniziale o finale
mancante, deve comunque essere stimato.
27
28
7
Esempi di distribuzioni di frequenza con
intervalli di classe
Ta b. 3
VARIABILE DISCRETA
N. le sioni da virus de l va iolo
su m e m bra ne ovula ri
N. le sioni
0 - 10
10 - 20
20 - 30
30 - 40
40 - 50
50 - 60
60 - 70
70 - 80
80 - 90
90 - 100
100 - 110
110 - 120
Tota le
Fre que nze
1
6
14
14
17
8
9
3
6
1
0
1
80
GRAFICI
Le rappresentazioni grafiche rappresentano un utilissimo
strumento di sintesi con la visualizzazione globale del
fenomeno.
Consentono il confronto tra più distribuzioni tramite diversa
colorazione o diverso tratteggio.
aperta a destra
aperta a sinistra
Ta b. 4
VARIABILE CONTINUA
Età di 1357 m a schi
con tum ore a l polm one
Età
25 - 35
35 - 45
45 - 55
55 - 65
65 - 75
Tota le
Fre que nze
17
116
493
545
186 29
1357
Sono di molti tipi, previsti anche da appositi programmi di
computer.
La rappresentazione grafica deve essere:
- adatta
- di facile interpretazione.
30
Il grafico riportato (dalla tab. 1) è un diagramma a barre
orizzontali (o a nastro). Utile quando si vogliono rappresentare
dati qualitativi con descrizioni molto lunghe.
Qualche esempio di
Mortalità in Italia di maschi per grandi gruppi di cause - Anno
2002
Tumori (140-239)
SERIE
94 139
Diabete mellito (250)
7 034
Malattie del sistema nervoso
(320-389)
6 100
Malattie del sistema circolatorio
(390-459)
106 615
Malattie dell'apparato
respiratorio (460-519)
19 763
Malattie dell'apparato digerente
(520-579)
12 611
Cause accidentali e violente
(800-999)
15 406
Altre cause
31
16 460
0
20 000
40 000
60 000
80 000
100 000
120 000
32
8
Dalla tabella 1 bis. - Mortalità in Italia di femmine per
Diagramma circolare
grandi gruppi di cause - Anno 2002
Tumori (140-239)
70 696
Diabete mellito (250)
10 223
Malattie del sistema nervoso
(320-389)
8 002
Malattie del sistema circolatorio
(390-459)
129 916
Malattie dell'apparato respiratorio
(460-519)
14 473
Malattie dell'apparato digerente
(520-579)
12 119
Cause accidentali e violente
(800-999)
10 827
Altre cause
21 554
0
20 000
40 000
60 000
80 000
100 000
120 000
140 000
33
Il Diagramma circolare è adatto quando non vi sono troppi settori.
Si possono agevolmente evidenziare valori o percentuali.
35
Adatto insieme a tabella: troppi settori
34
Esempio di rappresentazione grafica di serie geografica
36
9
Rappresentazione grafica di una variabile quantitativa discreta
con diagramma a barre verticali (dati della tab. 2)
Qualche esempio di
SERIAZIONE
37
ISTOGRAMMA
Per disegnare un corretto istogramma, avendo una tabella con
intervalli di classe diversi, si deve calcolare la densità di frequenza
Lesioni da virus vaiolo
Variabile discreta (tab. 3)
38
20
15
10
5
0
5
25
45
65
85
105
Maschi con tumore al polmone
Variabile continua (tab. 4)
600
545
493
500
400
300
L’istogramma costruito con il
programma Excel non è sempre
soddisfacente.
186
200
100
116
17
0
30
40
50
60
70
39
La densità di frequenza (d. f.) è uguale alla
frequenza diviso l’ampiezza di classe.
40
10
Tab. 3
VARIABILE DISCRETA
N. lesioni da virus del vaiolo
su membrane ovulari
Diverso intervallo di classe:
Tab. 3
VARIABILE DISCRETA
N. lesioni da virus del vaiolo
su membrane ovulari
N. lesioni
0 - 10
10 - 20
20 - 30
30 - 40
40 - 50
50 - 60
60 - 90
90 - 100
100 - 110
110 - 120
Frequenze
1
6
14
14
17
8
18
1
0
1
NO
O.K
41
N. lesioni
0 - 10
10 - 20
20 - 30
30 - 40
40 - 50
50 - 60
60 - 70
70 - 80
80 - 90
90 - 100
100 - 110
110 - 120
Totale
Frequenze
1
6
14
14
17
8
9
3
6
1
0
1
80
Tab. 3a
N. lesioni Frequenze
0 - 20
7
20 - 40
28
40 - 60
25
60 - 80
12
80 - 100
7
100 - 120
1
Totale
80
Lesioni da virus vaiolo
20
15
10
5
0
5
25
45
65
85
105
Tab. 3a
30
25
20
15
10
5
0
10
30
50
70
90
110
42
CONCETTO DI MEDIA
Scelta di una media
Quando si rilevano dati statistici, si dispone di un complesso
di informazioni che dovranno essere elaborate per soddisfare
l'esigenza di sintesi propria della statistica.
La scelta di una media dipende dal tipo di dati dell’ indagine
statistica e viene fatta in modo che si possa sostituire il valore
medio ai singoli termini senza modificare la fisionomia del
fenomeno di cui si tratta.
La media sintetizza con un unico valore l'insieme dei dati
tendendo ad assumerne il valore centrale.
Si distinguono 2 tipi di medie:
Per questo motivo le medie vengono definite anche con il
termine di valore di tendenza centrale.
- medie lasche o di posizione.
- medie calcolate
43
44
11
MEDIE LASCHE O DI POSIZIONE
MEDIE CALCOLATE
Sono quelle medie per il cui calcolo si utilizzano tutti i
valori rilevati
Sono quelle medie il cui valore si ottiene da uno o al
massimo due valori dell'insieme:
- media aritmetica
- mediana
- media geometrica
- moda
- media armonica
ecc.
45
MEDIA ARITMETICA
È la media maggiormente utilizzata e conosciuta. È data dalla
somma dei valori delle osservazioni diviso per il loro numero.
Si usa la Ma quando, date n quantità xi, interessa avere quel
valore che sostituito ai singoli valori rende invariata la
somma:
x1 + x2 + .... + x n = Ma + Ma + .... + Ma
Esempio:
calcolo di media delle pulsazioni cardiache di 3 pazienti:
N. Pulsazioni
65
75
100
240
X1 + X2 + .... + X n = nMa
ΣXi = nMa
Per consuetudine viene usato il simbolo x per intendere la
Ma del campione e con μ la Ma della popolazione.
Xi
n volte
quindi :
ΣXi
da cui: Ma = --------n
46
47
x=
65 + 75 + 100
= 80
3
48
12
Qualora i valori osservati fossero comuni a più pazienti, sarebbe più
opportuna la rappresentazione in tabella ed il calcolo sarebbe:
Distribuzione di frequenza del n. di
pulsazioni cardiache in 10 pazienti
Classi di età Frequenza Valore centrale
Xi
N. Pulsazioni frequenze
Xi
Yi
65
75
100
Quando si ha una distribuzione di frequenza con intervalli di
classe, per il calcolo della media occorre dapprima calcolare il
valore centrale dell'intervallo, supponendo l’equidistribuzione
dei valori all’interno di ogni classe.
X iY i
2
6
2
Σ Yi = 10
130
450
200
Σ XiYi = 780
X=
∑ XY
∑Y
i
20
30
40
50
60
i
i
-
30
40
50
60
70
Yi
Xc i
10
30
30
20
10
Σ Yi = 100
250
1050
1350
1100
650
X=
∑X Y
∑Y
ci
i
i
Σ X iYi = 4400
4400
780
Media aritmetica =
X i Yi
25
35
45
55
65
Media aritmetica =
= 78
10
49
Proprietà della Media aritmetica
1) La somma delle differenze della media aritmetica dai singoli
valori (scarti) è uguale a zero;
2) La somma dei quadrati degli scarti è uguale ad un minimo;
3) Per calcolare la media aritmetica di medie si deve tener conto
della frequenza di ogni media (media ponderata);
4) Se ad ogni valore si somma (-) o si moltiplica (/) una
costante (k), la x avrà il valore precedente + (-) o x (:) la
costante (k).
In particolare notare che: ΣkXi = kΣXi.
= 44
100
50
I proprietà:
notare che la somma
delle differenze è
uguale alla differenza
delle somme
II proprietà:
A=M±d
Σ((Xi - M) ± d)2 =
= Σ(Xi - M)2 + nd2
17 = 14 + (3 x 12)
26 = 14 + (3 x 22)
51
52
13
IV proprietà della media aritmetica
III proprietà della media aritmetica
k=4
Uno studio in collaborazione tra due istituti sul colesterolo
fornisce i seguenti risultati:
Xi
Xi - k
5 - 4 = 1
10 - 4 = 6
15 - 4 = 11
5
10
15
I istituto su 15 pazienti x = 150
Σ Xi = 30 M = 30/3 = 10
II istituto su 25 pazienti x = 200
Σ(Xi - k) = 18 M = 18/3 = 6
(6 = 10 - 4)
Qual è la media complessiva del colesterolo?
Sarebbe sbagliato fare (150 + 200)/2 = 175
Xi + k
5+ 4= 9
10 + 4 = 14
15 + 4 = 19
Si deve fare la media ponderata:
(150 x 15) + (200 x 25)
25 + 15
= 2250 + 5000 = 181.25
40
Σ(Xi + k) = 42
53
MEDIA GEOMETRICA
E' data dalla radice n-esima del prodotto dei valori delle
osservazioni. In altri termini è quel valore che sostituito ai
singoli valori rende invariato il prodotto:
X1 x X2 x.... x X n = Mg x Mg x. ... x Mg
Mg = n
∏ xi
k x Xi
5 x 4 = 20
10 x 4 = 40
15 x 4 = 60
M = 42/3 = 14
(14 = 10 + 4)
Σ kXi = 120 M = 120/3 = 40
= kΣ Xi
(40 = 10 x 4)
54
Non può essere usata se uno dei valori è uguale a zero o è
negativo.
Si usa la media geometrica quando si hanno valori che seguono
una distribuzione geometrica.
Ad esempio la media aritmetica di 10, 100, 1000 è
1110/3 = 370, troppo spostata verso il valore maggiore;
log Mg = (1+2+3)/3; (Mg = 102 = 100).
n volte
In casi simili la media geometrica è la più adatta ad assumere il
valore centrale della distribuzione poiché il suo valore si ottiene
dalla media aritmetica dei logaritmi i quali rendono costante
l'incremento della progressione geometrica.
Σ log X i
Log Mg = ------------ da cui: Mg = base^ logMg
n
55
56
14
Viene spesso usata nelle ricerche di microbiologia e di sierologia
ove le grandezze biologiche sono ottenute dopo diluizioni
costanti.
È anche usata come media per gli indici relativi, in quanto la
media aritmetica tende a dare maggior peso agli incrementi
piuttosto che alle diminuizioni:
Esempio: t0 = 100 t1 = 200
t2 = 250
200 − 100
⋅ 100 = 100
100
250 − 200
II incremento% =
⋅ 100 = 25
200
I incremento% =
Scala
Scala
decimale
logaritmica
x = (100 + 25) / 2 = 62.5
Mg = 100 ⋅ 25 = 50
57
MEDIA ARMONICA
58
Relazioni tra medie calcolate
È data dal reciproco della media aritmetica dei reciproci dei
valori
Tra le medie aritmetica, geometrica e armonica, calcolate su
una stessa serie di misure, esiste la relazione:
Minimo ≤ M ar ≤ M g ≤ x ≤ Massimo
Non può essere usata se uno dei valori è uguale a zero.
Essendo basata sui reciproci, i valori maggiori incidono in
misura minore.
(principio di Cauchy)
59
60
15
MEDIANA
Esempio di calcolo della mediana in distribuzione semplice:
Se le osservazioni sono in ordine (crescente o decrescente), la
mediana è il valore (o la modalità) che occupa la posizione
centrale.
Per i dati quantitativi: non risente dei valori di squilibrio in
testa o in coda.
N pari
N dispari
N
N
N+1
Posizioni:
---e
---+1
Posizione: --------2
2
2
Me = X (N + 1 ) /2
X N/2 + X (N/2) + 1
Me = -------------------2
Yi% Cum.
0.4232
3.4515
13.8377
33.8240
60.8028
83.1419
96.2435
99.3060
100.0000
2
5
18
24
4
9
12
18
24
1
7
8
9
2
3
12
4
2
5
5
6
18
24
4
9
3
13
9 12
13
18
24
3
N = 9 dispari
Me = x 9 +1 = x 5 = 7
2
N = 10 pari
x 10 + x 10
i dati ordinati:
2
3
Mediana
4
=
5
X
7
5+
X6
=
2
61
Tab. 2. Numero di maschi in famiglie di 8 figli.
Yi/N
Yi Cumulate
0.004232
161
0.030283
1313
0.103862
5264
0.199863
12867
0.269788
23130
0.223391
31628
0.131017
36612
0.030625
37777
0.006940
38041
1
12
Si ordinano i dati:
2 3 4 5 7 9
7
Frequenza relativa e
Frequenza relativa percentuale cumulata
Frequenza relativa
La frequenza relativa è il rapporto tra la frequenza ed il totale
delle osservazioni: Yi/N
Numero di maschi Frequenze
0
161
1
1152
2
3951
3
7603
4
10263
5
8498
6
4984
7
1165
8
264
38041
7
Me =
2
2
2
+1
=
7+9
=8
2
7+ 9= 8
2
62
Esempio di calcolo della mediana in distribuzione di frequenza:
Xi
Yi
5
7
10
12
13
Y i Cum
7
3
4
5
1
20
7
10
14
19
20
Y i % Cum
35
50
70
95
100
N = 20 pari
Me =
x10 + x11 7 + 10
=
= 8.5
2
2
Σ(Yi / N) = 1
La frequenza cumulata percentuale è la percentuale delle
osservazioni che si hanno fino al valore considerato.
63
64
16
Mediana - Distribuzioni di frequenza in intervalli di classe
Proprietà della mediana:
Σ|Xi - Mediana| = minimo
Classi di età
Considerando le distanze dei seguenti ospedali, su un’unica strada,
decidere a quale distanza media è opportuno fare un centro di
raccolta sangue, utilizzabile da tutti i 5 ospedali, prevedendo che
ognuno ricorra ad esso 1 volta al giorno.
Ospedale
A
B
C
D
E
somma
km.
32
68
10
130
90
330
Frequenza Freq. Cumulata
Xi
20
30
40
50
60
- 30
- 40
- 50
- 60
- 70
Yi cum
Yi
10
25
30
10
5
Freq. Cum %
Yi % cum
10
35
65
75
80
12.5
43.75
81.25
93.75
100
80
Per calcolare un unico valore di mediana :
La migliore distanza non è
di 66 km. bensì
10
Li +
32
Amp.classe
× (freq.50% − freq. cum. classe prec.)
frequenza
68
Me = 40 +
90
130
10
× (40 − 35) = 41.67
30
La classe mediana è in
corrispondenza alla
posizione N/2.
La classe che si trova in
corrispondenza di N/2 =
= 80/2 = 40 è: 40 - 50.
Li = 40
Amp. Classe =50 - 40 =10
frequenza = 30
freq.50% = 40
freq. cum. classe prec. = 35
65
Grafico dell’istogramma delle frequenze cumulate con ogiva.
Mediana in corrispondenza del 50% delle osservazioni.
66
I QUANTILI
Il quantile, come la mediana, ripartisce la graduatoria in modo
da lasciare una certa quantità di termini alla sua sinistra e la
restante quantità alla sua destra: decili, percentili, quartili.
Il 25°, il 50°, il 75° percentile è anche detto, rispettivamente: I,
II, e III quartile.
Il 50° percentile (II quartile) corrisponde alla mediana.
Utili per descrivere la forma di una distribuzione asimmetrica
(vedi diagrammi a scatola e baffi).
67
68
17
Box-and-Whisker Plot
80
TNF
60
40
20
0
1
2
INTERVENTO
69
PRETERMINO.-Todo recién nacido antes
de la semana 37 de gestación.
DE TERMINO.-Los recién nacidos entre
las semanas 37 y 42 de gestación.
POSTERMINO.-Recién nacido después
de 42 semanas de gestación.
CON RESPECTO A SU PESO AL
NACER:
PEQUEÑO.- Con peso por debajo de la
percentila 10, correspondiente a su edad
gestacional.
APROPIADO O ADECUADO.-Cuyo
peso sepeso se localiza entre las
percentilas 10 y 90 correspondientes a su
edad gestacional. .
Adaptado de Battaglia y Lubchenco
GRANDE - Con peso por arriba de la
percentila 90 correspondiente a su edad
gestacional.
71
70
MODA o NORMA
Valore (o modalità) in corrispondenza della massima
frequenza.
Unico criterio di centralità per caratteri qualitativi nominali
(carattere sconnesso).
Se i dati sono rappresentati in una seriazione con classi di
ampiezza diversa, vale quanto detto per la rappresentazione
grafica su istogramma:
la moda è il valore corrispondente alla massima densità di
frequenza.
72
18
Tab. 2 - Numero di maschi in famiglie
di 8 figli.
Tumori (140-239)
Numero di maschi
0
1
2
3
4
5
6
7
8
Totale
94 139
Diabete mellito (250)
7 034
Malattie del sistema nervoso
(320-389)
6 100
Malattie del sistema circolatorio
(390-459)
106 615
Malattie dell'apparato
respiratorio (460-519)
19 763
Malattie dell'apparato digerente
(520-579)
12 611
Cause accidentali e violente
(800-999)
(Dati non attuali - Fonte Armitage)
15 406
Altre cause
Frequenze
161
1.152
3.951
7.603
10.263
8.498
4.984
1.165
264
38.495
16 460
0
20 000
40 000
60 000
80 000
100 000
120 000
Moda = 4.
E’ il valore che corrisponde alla massima frequenza
Moda = Malattie sistema circolatorio
73
74
75
76
Intervalli di classe diversi:
N. lesioni
0 - 10
10 - 20
20 - 30
30 - 40
40 - 50
50 - 60
60 - 90
90 - 100
100 - 110
110 - 120
Frequenze amp. di classe
1
10
6
10
14
10
14
10
17
10
8
10
18
30
1
10
0
10
1
10
d. f.
0.1
0.6
1.4
1.4
1.7
0.8
0.6
0.1
0
0.1
La classe modale è 40 - 50 corrispondente alla massima
densità di frequenza
19
Medie Totali e Parziali (o vincolate)
in tabella a doppia entrata
Domanda: quanti figli hanno avuto mediamente i 20
intervistati?
Supponiamo di aver rilevato su N unità statistiche un
carattere qualitativo ed un secondo carattere che può essere
sia qualitativo che quantitativo
0
Frequency Table for stato civile by figli
0
C
1
2
2
3
1
1
4
0
C
6
7
0
3
3
3
9
V
0
0
1
2
1
4
4
4
16
tot. Col.
5
5
3
3
4
20
20
36
3
0
0
3
V
0
0
1
2
1
4
tot. Col.
5
5
3
3
4
20
36
Media aritmetica totale = ------ = 1.8
20
X i = n. Figli
fi
X ifi
0
0
0
1
0
0
2
1
N
S
3
0
2
2
0
1
1
0
0
2
3
3
2
0
6
4
1
4
4
12
7
6
V
0
0
1
2
1
4
tot. Col.
5
5
3
3
4
20
78
Se i 2 caratteri sono entrambi quantitativi si possono calcolare
le medie generali e parziali sia per l’una (X) che per l’altra (Y)
variabile.
Domanda: quanti figli hanno avuto mediamente i 4
V(edovi)?
tot. righe
6
0
0
1
3
5
3
1
2
4
3
1
0
0
0
0
S
3
7
5
2
6
1
0
1
tot. righe
2
0
2
1
4
0
1
1
1
3
3
0
1
2
2
S
2
2
1
N
3
0
Xifi
5
tot. righe
77
C
fi
0
2
N
Frequency Table for stato civile by figli
X i = n. Figli
Frequency Table for stato civile by figli
Se i valori sono in intervalli di classe, si considera il valore
centrale.
Peso in grammi e
lunghezza in cm.
di 969 neonati
12
Media aritmetica vincolata alla 4° riga = ------ = 3
4
79
80
20
Calcolare la media
dei gr. di peso
Calcolare la media
dei cm. di lungh.
Lunghezza
fi
X if i
30
2
60
36
4
124
42
222
9324
48
702
33696
54
39
2106
969
45310
45310
Media delle lunghezze = -------- = 46.76
969
Peso
fi
2500
143
X ifi
2750
340
935000
3000
354
1062000
3250
109
354250
3500
21
73500
3750
2
7500
969
2789750
357500
2789750
Media dei gr. di peso = ------------ = 2879
969
81
82
Calcolare media dei pesi vincolata a lunghezza = 42
La media totale è uguale alla media ponderata delle medie
parziali
Peso
fi
2500
101
252500
2750
112
308000
3000
9
27000
3250
0
0
3500
0
0
3750
587500
Media dei gr. di peso (l. = 42) = ------------ = 2646.4
222
X ifi
0
0
222
587500
Vincolo di Medie parz.
Lunghezza
di Peso
freq.
prodotti
30
2625.00
2
5250.00
36
3000.00
4
12000.00
42
2646.40 222
587500.80
48
2931.62 702
2057997.24
54
3256.41
39
126999.99
969
2789748.03
Mtot di peso = 2789748/969 = 2879
83
84
21
RAPPORTO STATISTICO
La media totale è uguale alla media ponderata delle medie
parziali
Quoziente tra due fenomeni di cui almeno uno è un dato
statistico (riferito ad un fenomeno collettivo).
Vincolo di Medie parz.
Peso
di Peso
freq.
prodotti
2500
43.55 143
6227.65
2750
45.97 340
15629.80
3000
48.02 354
16999.08
3250
48.61 109
5298.49
3500
51.14
1073.94
3750
51.00
21
2
102.00
969
45330.96
Come tutti i rapporti, lo scopo è quello di mettere in evidenza
la relazione che sussiste tra la grandezza al numeratore e quella
al denominatore.
Elaborazioni semplici ed efficaci che consentono di
effettuare validi confronti nel tempo e nello spazio.
Mtot di lunghezza = 45330.96/969 = 46.78
85
Così se si volessero confrontare il numero dei posti letto
disponibili per regione, il solo valore assoluto potrebbe trarre
in inganno se non messo in relazione alla numerosità degli
abitanti le regioni considerate.
86
Onde evitare un improprio uso di termini, quando si ha a che
fare con i rapporti, ecco di seguito un semplice schema, tratto
dalla rivista Lancet
Anche il solo rapporto senza riferimento ai valori assoluti
può trarre in inganno.
In un certo anno accademico, in una Università, un terzo
delle studentesse al I anno di corso aveva sposato
professori della stessa Università.
Measure:
Quell’anno le studentesse al I anno furono solo tre.
87
Rate
(tasso)
Proportion
Ratio
88
22
A fini didattici si distinguono:
RAPPORTI CHE SI
SEMPLIFICANO
RAPPORTI CHE SI SEMPLIFICANO
Il cui valore finale esprime
un concetto analogo a quello
di uno dei due termini
RAPPORTI
MEDI
DI COMPOSIZIONE
RAPPORTI CHE SI
RISOLVONO
DI DERIVAZIONE
Il cui valore finale esprime un
concetto diverso di ognuno dei
due termini
DI COESISTENZA
I NUMERI INDICE
89
RAPPORTI MEDI
RAPPORTI CHE SI RISOLVONO
RAPPORTI
90
Quoziente tra intensità o frequenza di un fenomeno e intensità
o frequenza di un altro fenomeno.
DI DURATA
DI RIPETIZIONE
Alcuni esempi:
INDICE DI
AFFOLLAMENTO:
Nota 1: si rimanda ad altri testi l’approfondimento dei
rapporti che si risolvono.
Nota 2: l’elenco che segue non è esaustivo e, uno stesso
rapporto può avere diversa classificazione, cambiando il
quadro di riferimento e/o le finalità dell’indagine.
91
DENSITA’ DEMOGRAFICA:
REDDITO PRO-CAPITE:
N. occupanti abitazioni
N.stanze adibite ad abitazione
Popolazione residente
Superficie
Reddito nazionale
Popolazione
92
23
RAPPORTI MEDI NELLA SANITÀ
Il rapporto medio indica l’intensità o la frequenza
(numeratore) che competerebbe a ciascuna unità statistica
(denominatore) se tutte avessero la stessa intensità o
frequenza.
I rapporti statistici medi servono anche come indicatori di
situazioni complesse qualora si siano fissati degli standards.
POSTI LETTO OGNI 1000 ABITANTI:
Spesso tale rapporto viene moltiplicato per una potenza di
10, cioè per 1, 10, 100,1000, ecc. per evitare valori
decimali.
NUMERO POSTI LETTO
x 1000
POPOLAZIONE RESIDENTE A META' ANNO
STANDARD = 6,5
⎧ 5,5 malati acuti
⎨
⎩ 1 riabilitazione
posti letto pubblici contati per intero
posti letto in case di cura convenzionate contati al 50%
93
TASSO DI SPEDALIZZAZIONE
OGNI 1000 ABITANTI:
NUMERO DEI RICOVERI
x 1000
POPOLAZIONE RESIDENTE A META' ANNO
RAPPORTI DI COMPOSIZIONE
STANDARD
Relazione tra la frequenza di una parte del fenomeno e la
frequenza complessiva, quoziente tra una parte ed il tutto.
160
Se un fenomeno può scindersi nelle sue componenti
C1 + C2 + ...... + Cn = C,
i rapporti di composizione sono dati da:
DEGENZA MEDIA
TOT. GIORNATE DI DEGENZA ANNUE
NUMERO DEI RICOVERI
11
R1 =
TASSO DI UTILIZZAZIONE POSTI LETTO
TOT. GIORNATE DI DEGENZA ANNUE
NUMERO POSTI LETTO x 365
94
70 - 75 %
95
C1
C
C
; R2 = 2 ;LL; Rn = n
C
C
C
Un esempio è dato dalle frequenze relative
96
24
Sono ben rappresentabili graficamente con i settori circolari
(se n non è troppo elevato);
tali rapporti sono normalmente moltiplicati per 100.
Forniscono, in tal caso, la distribuzione percentuale dei singoli
componenti il fenomeno considerato.
RAPPORTI DI DERIVAZIONE
In questi rapporti il fenomeno considerato (numeratore),
deriva dal fenomeno posto al denominatore, senza il quale
non potrebbe esistere.
I rapporti di derivazione sono chiamati tassi o quozienti in
quanto:
- il numeratore è incluso nel denominatore (popolazione a
metà anno)
- è calcolato in un certo intervallo di tempo, salvo diversa
indicazione, l’anno solare.
esempi:
M
ricoverati in un reparto ospedaliero
rapporto tra ------- ; -----------------------------------------M+F
totale dei ricoverati
97
98
Alcuni quozienti generici
Generalmente viene moltiplicato per una potenza di 10.
M
QM = ----- x 1000
P
rapporto tra Morti (in un determinato anno)
e Popolazione (residente a metà anno)
Quoziente di mortalità
I rapporti di derivazione possono essere distinti in:
- generici: si riferiscono al complesso della
popolazione
- specifici: si riferiscono a parte della popolazione distinta per
una certa struttura.
Si potranno avere quozienti specifici per età, sesso, condizione
lavorativa, ecc.
99
La Popolazione a metà anno si stima facendo la media tra
residenti ad inizio e a fine anno (inizio anno successivo).
Indica quanti sono stati (mediamente) i morti ogni 1000
persone.
100
25
M
Quoziente di morbosità QM = ----- x 1000
P
come il quoziente di mortalità: al numeratore i Malati (di una
certa malattia)
Come già detto i quozienti generici sono riferiti a tutta la
popolazione, i quozienti specifici a parte della popolazione
distinta per una certa struttura.
Si potranno avere quozienti specifici per età, sesso, regione,
condizione lavorativa, ecc...
NM
Quoziente di natimortalità QNM = ------------- x 1000
NM + NVIVI
Morti per una malattia
Quoziente di letalità Q L = --------------------- x 1000
Casi diagnosticati
della malattia
Quozienti specifici e generici di mortalità
Esempio di quoziente specifico di mortalità distinto per
classi di età:
Morti (0 -10)
QM(0 - 10) = ----------------------Popolazione (0 - 10)
101
102
Rapporti di coesistenza
Il quoziente specifico di mortalità è confrontabile;
Per confrontare il quoziente di mortalità generico di due
popolazioni (o della stessa popolazione a distanza di tempo), si
deve tener conto della struttura della popolazione, come verrà
approfondito nell’ambito della epidemiologia clinica ove verrà
anche chiarito il concetto di morbosità prevalente e morbosità
incidente.
103
Relazione tra frequenze contrapposte dello stesso fenomeno,
in luoghi diversi o nello stesso luogo che coesistono nello
stesso intervallo di tempo.
Spesso sono espressi in percentuale.
104
26
Tra i più usati:
Numeri indice
TROVANO VALIDA APPLICAZIONE NELLE
SERIE TEMPORALI
M
⋅ 100 ≅ 106%
F
Rapporto di Mascolinità alla
nascita
Si costruiscono mettendo al numeratore l’intensità di un
fenomeno ed al denominatore l’intensità della stessa natura
scelta come base e riferita ad un dato tempo, luogo o
situazione.
≥ 60 anni
Indice di senilità
Popolazione
Popolazione <15anni
Indice di dipendenza degli
anziani
Popolazione ≥ 65 anni
Popolazione15− 64 anni
105
Consentono di confrontare le intensità di uno stesso fenomeno
in tempi diversi o in luoghi diversi o in situazioni diverse.
106
Numeri indice a base fissa e a base mobile
Calcoli
Anni
1961
Numeri
Numeri
indice a
indice a
Popolazione
residente x 1000 base fissa base mobile
100.00
50624
100.00
1971
54137
106.94
106.94
1981
56557
111.72
104.47
1991
56778
112.16
100.39
2001
56996
112.59
100.38
Base
fissa
Base
mobile
50624
⋅ 100
50624
50624
⋅ 100
50624
54137
⋅ 100
50624
54137
⋅ 100
50624
56557
⋅ 100
50624
56557
⋅ 100
54137
56778
⋅ 100
50624
56778
⋅ 100
56557
56996
⋅ 100
50624
56996
⋅ 100
56778
107
Si evidenzia l’incremento della popolazione rispetto all’anno
di base 1961
108
27
VARIABILITÀ
I dati di una rilevazione si presentano diversi l'uno dall'altro
sia perché la natura dei fenomeni è diversa sia perché si
possono commettere errori di rilevazione.
Si evidenzia l’incremento della popolazione rispetto
all’anno precedente.
Nel 1971 si è avuto un incremento che è successivamente
109
diminuito.
I dati possono addensarsi in modo più o meno accentuato
intorno al valore centrale (media).
110
Per sintetizzare la distribuzione è insufficiente il solo valore
medio. Si deve affiancare ad esso una misura di variabilità che
indichi quanto la media sia rappresentativa della distribuzione.
REQUISITI DEGLI INDICI DI VARIABILITÀ
- NULLO
se tutte le modalità sono uguali
- NON SI MODIFICA se tutte le frequenze sono moltiplicate
per una costante positiva
- ESSERE POSITIVO se c’è variabilità
- ESPRESSO
dati con stessa media e diversa variabilità
111
nella stessa unità di misura delle
osservazioni
112
28
DIFFERENZA SEMPLICE MEDIA:
Alcune misure di variabilità
Campo di variazione (o Range) R= XMax –XMin (differenza tra
il massimo ed il minimo).
Misura grossolana: non tiene conto dei valori intermedi.
Differenza interquartilica = Q3 - Q1 (differenza tra il terzo ed il
primo quartile).
Migliora ma non elimina il difetto del range.
È data dalla media aritmetica dei valori assoluti di tutte le
possibili differenze tra ciascun dato e gli N (con ripetizione) o
i rimanenti N-1 (senza ripetizione).
Indice complicato e poco usato
È preferibile sottrarre ad ogni valore un valore di riferimento
(media) e calcolare la media.
Le differenze tra ogni valore e la media sono chiamate scarti se
la media è aritmetica, se altra media scostamenti.
Complicazione:
La I proprietà della Media aritmetica afferma che
Σ(Xi - M) = 0
113
Quadrati delle differenze
Valori assoluti delle differenze
Un modo per evitare che la somma delle differenze sia zero, è
quello di considerare i valori assoluti delle differenze.
Sme =
− Me|
N
Altro modo per evitare che la somma degli scarti sia uguale a
zero è quello di elevare gli scarti al quadrato:
Devianza =
Poiché per una proprietà della mediana,
Σ|Xi - Mediana| = minimo, a volte si considera lo
scostamento semplice medio dalla mediana
∑|x
114
∑ ( x − x)
2
i
La devianza divisa per N
Se il calcolo è su piccoli
campioni la varianza è data
da devianza/N - 1
prende il nome di:
∑ (xi − μ )
=
2
i
Varianza = σ
115
2
N
Varianza = s =
2
∑ ( x − x)
2
i
N−1
116
29
DEVIAZIONE STANDARD
(o scarto quadratico medio)
Esempio di calcolo di deviazione standard in distribuzione
semplice:
La radice quadrata della varianza è l’indice di variabilità più
usato, dato che è utilizzato in successive applicazioni (curva di
Gauss).
È espresso nella stessa unità di misura dei valori
della popolazione:
del campione:
∑ (xi − μ)
∑ ( x − x)
2
σ=
s=
N
2
i
N−1
117
n. progr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
n. figli
0
1
3
4
1
1
0
2
3
0
1
0
1
4
3
0
2
2
4
4
36
Calcolo della devianza con il metodo
abbreviato
Devianza =
=
=
∑x
−2
2
i
∑x
2
i
−
∑ ( x − x) = ∑ x
2
2
i
i
∑x∑x
i
i
N
(∑ x )
+N
(∑ x )
i
N2
− 2 x ∑ xi + N x =
2
2
(∑ x ) + (∑ x )
2
=
∑x
2
i
−2
i
N
i
N
2
=
2
i
N
L’utilizzo di questa formula permette di calcolare la devianza
senza fare le differenze con la media aritmetica
119
Xi - M
(Xi - M)2
-1.8
3.24
-0.8
0.64
1.2
1.44
2.2
4.84
-0.8
0.64
-0.8
0.64
-1.8
3.24
0.2
0.04
1.2
1.44
-1.8
3.24
-0.8
0.64
-1.8
3.24
-0.8
0.64
2.2
4.84
1.2
1.44
-1.8
3.24
0.2
0.04
0.2
0.04
2.2
4.84
2.2
4.84
0
n. progr. n. figli
1
0
2
1
3
3
4
4
5
1
6
1
7
0
8
2
9
3
10
0
11
1
12
0
13
1
14
4
15
3
16
0
17
2
18
2
19
4
20
4
36
x=
36
= 18
.
20
Devianza =
∑ ( x − x)
i
2
= 43.20
nella popolazione:
σ2=
Devianza 4320
.
=
= 216
.
N
20
σ = σ 2 = 147
.
nel campione:
s2 =
Devianza 43.20
=
= 2.27
N−1
19
s = s2 = 151
.
118
43.20
0
1
9
16
1
1
0
4
9
0
1
0
1
16
9
0
4
4
16
16
108
(∑ x )
−
∑x
2
i
X i2
2
i
N
Esempio calcolo deviazione standard
Σ Xi2 = 108
Σ (Xi)2 = 362 = 1296
N = 20
1296 : 20 = 64.8
Devianza = 108 - 64.8 = 43.2
s2 =
s=
Devianza 43.20
=
= 2.27
N−1
19
s2 = 151
.
120
30
Naturalmente in presenza di una distribuzione di frequenza si
dovrà tener conto delle frequenze. La formula sarà:
∑ (x
− x ) Yi
N−1
s=
Xi
0
1
2
3
4
2
i
Y
0
5
6
9
16
(X i - M) (X i - M)2 (X i - M)2 Y i
-1.8
3.24
16.2
-0.8
0.64
3.2
0.2
0.04
0.12
1.2
1.44
4.32
2.2
4.84
19.36
s2 =
20
36
43.20
s=
Xi Y
i
s=
I calcoli occorrenti per media e
d.s. saranno:
5
5
3
3
4
i
Con la formula abbreviata:
Xi
0
1
2
3
4
4320
.
= 2.27
19
Devianza
N−1
Yi
Devianza =
X i2
Xi Y i
5
5
3
3
4
0
5
6
9
16
20
36
362 =
1296
X i2Y i
0
1
4
9
16
∑
(∑ x y )
x y −
2
i
N
Devianza = 108.00 -
0
5
12
27
64
64.80 =
43.20
108
1296/20 =
i
2
i i
s2 =
43.20
= 2.27
19
64.80
2.27 = 151
.
s=
Media = 36/20 = 1.8
2.27 = 151
.
121
Esercizio
Coefficiente di variazione
Date le seguenti osservazioni, calcolare:
deviazione standard, mediana, coefficiente di variazione
Indice percentuale di variabilità.
C.V .=
122
s
× 100
x
È un numero puro, espresso in percentuale, che permette il
confronto di variabilità tra distribuzioni con intensità media
notevolmente diversa (es.: peso della madre e peso del neonato).
123
55
60
30
55
30
60
55
55
55
60
60
30
25
55
30
25
60
40
60
60
30
55
25
40
40
55
60
60
55
30
25
60
60
25
55
25
60
55
25
55
25
55
valori (Xi)
55
25
60
40
30
||||
||||
||||
||||
||||
40
60
25
55
30
25
55
40
60
55
60
60
55
55
25
55
25
30
60
25
55
25
25
55
frequenze (Yi)
|||| |||| |||| |||| ||||
|||| |||| ||||
|||| |||| |||| |
||||
|||| ||
55
30
30
40
25
30
55
55
60
25
60
55
55
60
40
40
55
30
25
40
25
55
60
55
124
31
valori (Xi)
25
30
40
55
60
freq. (Yi)
19
12
9
29
21
90
Xi * Yi
475
360
360
1595
1260
4050
Media = 4050/90 = 45
(Xi - M)
-20
-15
-5
10
15
2
(Xi - M)
400
225
25
100
225
Devianza =
Devianza = Σ(Xi -M)²Yi = 18150
Devianza
s² = Varianza = ------------- = 203.93
ΣYi - 1
14.28
C.V. = ---------- x 100 = 31.73
45
Calcolo della mediana
2
(Xi - M) Yi
7600
2700
225
2900
4725
18150
valori (Xi)
25
30
40
55
60
N = 90
s = 14.28
freq. (Yi)
19
12
9
29
21
PARI
Yi cum.
Yi % cum.
19
21.11
31
34.44
40
44.44
69
76.67
90
100
2 posizioni centrali: n. 45 e n. 46
I 2 valori che corrispondono a tali posizioni sono uguali:
(non occorre fare media)
125
Mediana = 55
126
DETERMINISTICO
CONCETTO DI PROBABILITÀ
Un evento può essere di tipo
Spesso si ha incertezza circa il verificarsi di un determinato
evento o di un fenomeno che si verifica in natura.
Ad esempio si può avere incertezza sul sesso di un futuro
neonato o sul tempo di durata della vita.
EVENTO: Qualsiasi proposizione logica suscettibile di essere
classificata vera o falsa.
127
CASUALE
L’evento è deterministico quando, la conoscenza dello stato
(posizione e velocità) iniziale del sistema ne consentirebbe
la determinazione a qualsiasi istante.
L’evento è casuale quando i fattori (o cause) che lo
determinano sono molteplici e variabili secondo leggi
ignote o di difficile calcolo
128
32
PROBABILITÀ
CALCOLO DELLA PROBABILITÀ
È la misura dell'incertezza sul verificarsi di un evento
futuro ed incerto, ovvero casuale o aleatorio.
Il calcolo delle probabilità interviene in tutte quelle situazioni
in cui si devono prendere delle decisioni che riguardano
eventi futuri ed incerti per rendere razionale il
comportamento dell’uomo di fronte all’incertezza.
Sono comuni, nel linguaggio quotidiano, frasi come:
“È probabile che non ci sia traffico” oppure
“Probabilmente non potrò venire”
L'evento deve essere chiaramente definito in modo che vi
sia una sola possibile conclusione:
evento realizzato o
evento non realizzato
Se, dalle informazioni che si hanno, segue necessariamente il
verificarsi dell’evento, si dice che l'evento è certo;
al contrario se segue necessariamente che l’evento non si
verifica, si dice che l'evento è impossibile.
Quando non si può dedurre che l’evento necessariamente si
verifichi o non si verifichi, allora l’evento è possibile.
129
Se l’evento è possibile, il grado di incertezza sarà diverso e
dipenderà dalla valutazione dei vari fattori che si pensa
influiranno sul verificarsi dell'evento.
La probabilità, come grado di aspettativa sul verificarsi di un
evento, viene espressa numericamente da un numero reale
compreso tra 0 e 1 (estremi inclusi) dove:
130
DEFINIZIONI DI PROBABILITÀ
In diverse situazioni la probabilità viene diversamente
definita a seconda dell’orientamento dottrinario seguito:
classica
definizione oggettivista
•p=1
evento certo
•p=0
evento impossibile
• 0 < p < 1 evento probabile se non è possibile dare
una delle due conclusioni definitive.
frequentista
definizione soggettivista.
131
132
33
Esempio: qual è la probabilità che lanciando un dado esca la
faccia con il numero 5?
DEFINIZIONE CLASSICA
La probabilità è data dal rapporto tra il numero dei casi
favorevoli ed il numero dei casi possibili, purché tutti
ugualmente possibili (probabilità a priori).
Tale probabilità è uguale ad 1/6, in quanto gli eventi possibili
sono 6 ed il numero dei casi favorevoli è 1.
Critica - Circolo vizioso: ugualmente possibili equivale a
ugualmente probabili.
Risposta - Alcuni fenomeni (urna, lancio dado, ecc.), si
basano su simmetrie. In questi casi si ha conoscenza a priori
di casi ugualmente possibili senza ricorrere a determinazioni
sperimentali.
133
DEFINIZIONE FREQUENTISTA
(o STATISTICA o EMPIRICA)
La probabilità è data dalla frequenza relativa dell'evento, cioè
dal rapporto tra il numero dei casi favorevoli ed il numero
delle prove effettuate, purché il numero delle prove sia
abbastanza grande (probabilità a posteriori).
Quando non esistono le condizioni per calcolare la
probabilità a priori del verificarsi di un certo evento, essa
viene stimata con la frequenza relativa del verificarsi
dell'evento in un gran numero di casi.
Esempio: se si estrae a caso una pallina da un’urna contenente
3 palline nere e 5 palline bianche, qual è la probabilità che la
pallina estratta sia bianca?
p (b) = 5/8.
Osservazione: Non tutti gli eventi possono basarsi su
simmetrie, ad esempio: come si fa a calcolare la probabilità di
morte di un individuo tra l’età x e l’età x+y?
Quale sarà l’efficacia di un farmaco?
134
L’applicazione della definizione frequentista di probabilità
agli eventi regolati da simmetrie, non comporta una differente
valutazione.
Esempio: se si lancia in aria una moneta e si sceglie come
evento verificato uno dei due possibili, ad es. testa, si può
verificare sperimentalmente che la frequenza relativa si
avvicina sempre più ad 1/2 all'aumentare del numero dei
lanci.
Questo risultato sperimentale va sotto il nome di legge
empirica del caso.
È necessario che le prove si svolgano nelle identiche
condizioni.
135
136
34
Mediante questa definizione, la probabilità di morte di un
individuo tra l’età x e l’età x+y sarà stimata dal rapporto tra il
numero dei morti osservati tra le suddette età e tutti gli
individui esposti al rischio di morte nell’ età x.
Nell’esempio della moneta, la definizione classica presuppone
che questa sia perfetta, la definizione frequentista, facendo
ricorso alla frequenza relativa, valuta “a posteriori” tutti i
fattori che infuiscono sull’evento, anche una possibile
imperfezione.
Limiti della teoria frequentista:
- non sempre si conosce la frequenza relativa di un
fenomeno;
- non sempre l’esperimento è ripetibile nelle stesse
condizioni;
- spesso si devono prendere decisioni in base a valutazioni
personali.
137
DEFINIZIONE SOGGETTIVISTA
La probabilità è un giudizio soggettivo espresso coerentemente
da un individuo intorno all'avverarsi di un evento incerto,
mentre hanno significato oggettivo le circostanze prese in
esame.
Esempio: in una partita per un torneo qual'è la probabilità che
vinca la squadra A?
Ognuno esprimerà una opinione del tutto personale, avendo
una personale fiducia sull'avverarsi della vittoria della squadra
A.
139
138
Nota: Quando la quantità di informazioni è molto elevata, tale
che sia possibile una schematizzazione del problema, la
valutazione di probabilità, coincide nei diversi orientamenti
dottrinari.
In un gioco equo, quanto sarei disposto a scommettere sul
verificarsi dell’evento?
Se il gioco è schematizzabile (tipo gioco d’azzardo o
esperimento stocastico), secondo questa definizione, la
probabilità (p) è data dal rapporto tra quanto si rischia di
perdere (R) e la somma di quanto si rischia di perdere più
quanto si spera di vincere (S).
140
35
Odds
Concetti essenziali di insiemistica
Quanto si è disposti a rischiare, per unità di vincita,
scommettendo su un certo esito.
Dato che:
p=
R
R+ S
p=
Si definisce spazio campionario o universo, tutti i possibili
eventi di un esperimento; ad ogni evento elementare, è
associato un numero non negativo detto probabilità, tale che
la somma di tutti i numeri corrispondenti a tutti gli eventi è
uguale a 1.
Nell’esempio di lancio di un dado:
1
1+ 5
p=
odds
1 + odds
Probabilità dello spazio campionario: p(S) = 1
L’odds dell’evento favorevole è dato dal rapporto tra p e 1-p.
Rappresenta il reciproco che un bookmaker è disposto a pagare
nel caso evento verificato.
Probabilità dello spazio vuoto:
Probabilità dell’evento A:
p(∅) = 0
0 < p(A) < 1
141
142
Esempi di spazio campionario
Lancio di un dado
(1) (2) (3) (4) (5) (6)
E = A = faccia 5
1
p(A) = --6
Diagramma di Venn _
Lancio di due dadi
Probabilità di A
(1,1)
(1,2)
(1,3)
(1,4)
(1,5)
(1,6)
(2,1)
(2,2)
(2,3)
(2,4)
(2,5)
(2,6)
(3,1)
(3,2)
(3,3)
(3,4)
(3,5)
(3,6)
(4,1)
(4,2)
(4,3)
(4,4)
(4,5)
(4,6)
(5,1)
(5,2)
(5,3)
(5,4)
(5,5)
(5,6)
(6,1)
(6,2)
(6,3)
(6,4)
(6,5)
(6,6)
E = A = somma facce = 7
p(A) = 6/36
E = B = somma facce = 11
143
p(B) = 2/36
A
Probabilità di A
(complemento di A)
A
_
p(A) = 1 - p(A)
144
36
Teorema delle probabilità totali
per eventi mutuamente esclusivi
Teoremi del calcolo delle probabilità
Quando il verificarsi di un evento è dato dal verificarsi
di più eventi, il calcolo delle probabilità viene effettuato
tenendo presenti due importanti regole che sono:
A
E =A∪B si legge
A unione B (A o B)
proprietà additiva
B
S
Teorema della probabilità totale
Due eventi si dicono incompatibili o mutuamente esclusivi se
non possono presentarsi contemporaneamente:
p(A o B) = p(A) + p(B)
Ad es. nel lancio del dado, la probabilità di uscita della faccia 1
oppure della faccia 3 è uguale a 1/3.
Teorema della probabilità composta
145
Teorema delle probabilità composte
per eventi indipendenti
S
146
Esempio: se si lanciano 2 monete qual è la probabilità che
compaia, nell’ordine, testa e croce?
T
E =A∩B si legge
A intersezione B (A e B)
proprietà moltiplicativa
Eventi indipendenti: il verificarsi di un evento non influenza
la probabilità del verificarsi dell’altro.
La probabilità del verificarsi congiunto di più eventi è data dal
prodotto delle probabilità dei singoli eventi
p(A e B) = p(A) x p(B).
147
II lancio
I
lancio
½
TT, TC, CT, CC
T
½
4 casi possibili:
C
T
1 favorevole TC
p(A e B) = p(A) x p(B)
C
p(T e C) = ½ x ½ = ¼
C
p(T) ∩ p(C) = ½ x ½ = 0.25
148
37
Altro esempio: se si lanciano 2 monete qual è la probabilità
che compaia una testa ed una croce?
T
½
I lancio
T
C
T
II lancio
½ C
4 casi possibili:
TT, TC, CT, CC
2 favorevoli
TC, CT
p(A e B) = p(A) x p(B)
p(T e C) = ½ x ½
Eventi dipendenti
Se gli eventi non sono indipendenti, le probabilità successive
alla prima devono essere calcolate sotto l’ipotesi che gli eventi
che li precedono si sono già verificati.
p(A e B) = p(A) x p(B\A) che si legge:
probabilità di A per probabilità B dato A
(una volta che si è verificato l’evento A).
Se gli eventi sono indipendenti p(B\A) = p(B).
p(C e T) = ½ x ½
C
Nota: p(B\A) è anche detta probabilità di B condizionata al
verificarsi dell’evento A
(p(T) ∩ p(C)) ∪ (p(C) ∩ p(T)) = 2(½ x ½) = ½
149
Esempio
Un'urna contiene 5 palline nere e 10 bianche. Estraendo
contemporaneamente le due palline (o estraendone una alla
volta senza reimbussolare la prima), qual è la probabilità di
estrazione di due palline nere?
La probabilità dell'estrazione di due palline nere sarà data da
5/15 x 4/14 = 2/21 = 0.095 in quanto il verificarsi del primo
evento ha modificato la probabilità del secondo evento: se è
uscita una pallina nera sono rimaste 4 palline nere su un totale
di 14.
151
150
Teorema delle probabilità totali
per eventi compatibili
Qualora gli eventi non fossero mutuamente esclusivi:
P(A o B) = P(A) + P(B) -P(A e B).
Sommando le due
probabilità si conteggia
due volte la parte in
comune
Se gli eventi fossero mutuamente esclusivi:
p(A e B) ovvero p(A∩B) = 0
152
38
Esempio: qual’ è la probabilità che in una classe di studenti
universitari, sia estratto a caso uno studente che sia femmina
oppure provenga dal liceo classico sapendo che:
p(F) = 0.70; p(Lc) = 0.40 ?
Seguendo il teorema della probabilità totale nella forma
semplice si arriverebbe al calcolo assurdo p(E) = (p(F) o p(Lc)
= p(F) + p(Lc) = p > 1
Si deve togliere la parte che costituisce l’intersezione degli
eventi:
p(A ∪ B) = p(A) + p(B) - (p(A) x p(B) )
0.7 + 0.4 - (0.7 x 0.4) =
= 1.10 - 0.28 = 0.82
153
Distribuzione di probabilità di una variabile casuale
discreta
Una variabile i cui valori seguono una distribuzione di
probabilità si chiama variabile casuale o aleatoria
Tab. 2 - Numero di maschi in
famiglie di 8 figli.
Numero di maschi
0
1
2
3
4
5
6
7
8
Totale
pi
0.004232276
0.030283116
0.103861623
0.199863305
0.269787860
0.223390552
0.131016535
0.030624852
0.006939881
1
(Dati non attuali - Fonte Armitage)
p i % Cum.
0.4232276
3.4515391
13.837701
33.824032
60.802818
83.141873
96.243527
99.306012
100
Distribuzione di frequenza di una
variabile discreta
Riprendendo un esempio di rilevazione di un collettivo
abbastanza grande:
Tab. 2 - Numero di maschi in
famiglie di 8 figli.
Numero di maschi
0
1
2
3
4
5
6
7
8
Totale
Frequenze
161
1.152
3.951
7.603
10.263
8.498
4.984
1.165
264
38.041
(Dati non attuali - Fonte Armitage)
f.r. = Y i / N
0.004232276
0.030283116
0.103861623
0.199863305
0.269787860
0.223390552
0.131016535
0.030624852
0.006939881
1
è stata calcolata la frequenza relativa
che si riferisce ad un collettivo già
eseguito di prove.
In base alla definizione frequentista di
probabilità la f.r. può essere vista come
la probabilità che, estraendo a sorte
una unità del collettivo, questa presenti
la modalità X i (evento futuro e
incerto).
154
DISTRIBUZIONE BINOMIALE
o delle prove ripetute secondo lo schema
di Bernoulli
Si consideri una prova casuale che
La probabilità di estrarre a caso, da
questa popolazione, una famiglia con
2 maschi è 10.39 %.
1 - può dar luogo a 2 soli possibili risultati:
E evento verificato
con probabilità = p
E evento non verificato con probabilità = q = 1 - p
Se si vuole conoscere p (2M o 3M),
si devono sommare le singole
probabilità: p(2M o 3M) =
Ad esempio da un’ urna composta da 3 palline bianche, 5
nere e 2 rosse, la probabilità di estrarre pallina bianca è
p = 3/10;
= 10.386 + 19.986 = 30.37 %155
la probabilità di non estrarre pallina bianca [p(E)] è
= 1 - p = 7/10
q
156
39
Esempio di famiglie con 4 figli
2 - si ripete la prova n volte
3 - il risultato di una prova non influenza le altre,
vale a dire che le prove sono indipendenti (p costante)
Nell’esempio precedente dell’urna, le n estrazioni saranno
con reimbussolamento.
Si considerino solo famiglie con 4 (n) figli nati vivi;
4 - si vuole calcolare la probabilità che l’evento si presenti k
volte per k che va da 0 a n
si consideri inoltre la nascita dei figli come ripetizioni di
eventi casuali indipendenti, eseguiti in condizioni costanti (p
rimane invariata).
si prenda come stima di p la proporzione dei M nati vivi alla
nascita uguale a 0.52, quindi come stima della probabilità F:
q = 0.48;
In altre parole, l’evento potrebbe non verificarsi mai (0
volte) oppure 1 volta, 2 volte, fino al massimo di n volte.
157
158
Si calcolino le probabilità che, in una famiglia di 4 figli, il
numero di maschi sia:
k = Maschi
0
quindi
1
2
3
4
Femmine
4
3
2
1
0
I figli possono nascere nei seguenti modi:
0 Maschi
In famiglie con 4 figli, la nascita
di 0 maschi corrisponde alla
nascita di 4 femmine, e così via
Poiché p(F) = 0.48, per il teorema della probabilità composta,
la probabilità che I figlio F e II figlio F e III figlio F e IV figlio
F = 0.48 x 0.48 x 0.48 x 0.48
p(0M) = 0.484 = 0.0531.
1 Maschio e 3 Femmine
159
MFFF
FMFF
FFMF
FFFM
4 modi possibili
Ognuno di questi casi ha probabilità 0.52 x 0.483
p(1M e 3F) = 4 x 0.52 x 0.483 = 0.2300
160
40
3 Maschi e 1 Femmina
2 Maschi e 2 Femmine
Modi di nascita possibili:
Il numero di modi in cui si possono avere 3M e 1F è 4 cioè lo
stesso di 1M e 3F
MMFF
FFMM
(basta mettere M al posto di F e viceversa)
MFMF
FMFM
MFFM
FMMF
P(3M e 1F) = 4 x 0.523 x 0.48 = 0.2700
6 modi possibili
4 Maschi e 0 Femmine
Ognuno di questi casi ha probabilità
P(2M e 2F) = 6 x
0.522
x
0.482
0.522
x
0.482
Anche il numero di modi per avere 4 M e 0 F è 1 solo (come
per 0M e 4F)
= 0.3738
161
RIEPILOGO
p(4M) = 0.524 = 0.0731
162
CALCOLO COMBINATORIO
Premessa: nel precedente esempio, di volta in volta si è trovato,
per ogni k, il numero dei modi in cui si potevano avere i k
Maschi (e quindi le n - k Femmine).
Il calcolo combinatorio fornisce la regola generale per il
calcolo di tale fattore moltiplicativo.
Notare che:
- la somma delle probabilità è uguale 1;
- p è elevato a k e q è elevato a (n - k).
Prima della formula generale, serve ricordare almeno alcune
regole del calcolo combinatorio.
163
Dato un insieme di n elementi, determinare il
numero di gruppi che si possono formare con k
degli n elementi (k ≤ n), fissata una regola (o
legge) per la formazione dei gruppi.
164
41
DISPOSIZIONI SEMPLICI (Dn, k)
PERMUTAZIONI (Pn)
Regola: un gruppo differisce dall’altro per
almeno un elemento o l’ordine
Regola: un gruppo differisce dall’altro solo per
l’ordine.
n = 4 elementi a
b
c
d
n, k
D 4, 1
È un caso particolare di disposizione semplice dove k = n.
a
b
c
d
ab
ac
ad
ba
bc
bd
ca
cb
cd
da
db
dc
D 4, 2
Num. dei gruppi
n=4
n(n -1) = 4 x 3 = 12
In generale il numero di disposizioni si ottiene facendo il
prodotto di k fattori naturali decrescenti iniziando da n: D
165
n, k = n (n -1) .....(n - k + 1)
Anagrammi
Se due diverse parole sono formate dalle stesse lettere
alfabetiche (anche senza senso), si dice che l’una è
l’anagramma dell’altra, ad es.: ROMA e RAMO.
Quanti sono gli anagrammi che si possono formare con la
parola ROMA?
La risposta è P4 = 4! = 4 x 3 x 2 = 24
123456-
AMOR
AMRO
AOMR
AORM
ARMO
AROM
7- MAOR
8- MARO
9- MOAR
10- MORA
11- MRAO
12- MROA
131415161718-
OAMR
OARM
OMAR
OMRA
ORAM
ORMA
192021222324-
RAMO
RAOM
RMAO
RMOA
ROAM
ROMA
Se però una stessa lettera appare più volte, il numero di
anagrammi è inferiore a n!, in quanto si dovrà dividere per il
numero delle permutazioni delle parole uguali: Pn/(Pk1Pk2…).
167
Ad es. ORO OOR ROO P3/P2 = 3!/2! = 6/2 = 3
Poiché i diversi gruppi sono formati da tutti gli elementi,
questi possono differire solo per l’ordine.
Pn = n! (n! si legge n fattoriale)
Si ricordi che n! è uguale al prodotto degli interi da 1 a n e,
per convenzione, 0! = 1
Es. 5! = 5 x 4 x 3 x 2 x 1 = 120
166
In particolare:
Se, dati n elementi, vi sono 2 soli elementi distinti, per cui
alla ripetizione di k volte dell’uno corrisponde la ripetizione
di (n - k) volte dell’altro (esempio figli M e figli F in
famiglie di 4 figli), il numero di anagrammi (permutazioni di
2 elementi distinti e ripetuti) sarà dato da:
n!
k !(n − k )!
o nella forma compatta
⎛ n⎞
⎜ ⎟
⎝ k⎠
che si chiama coefficiente binomiale.
È la stessa formula per il calcolo delle combinazioni.
168
42
Coefficiente binomiale
COMBINAZIONI SEMPLICI (Cn,k)
Cn ,k =
Regola: un gruppo differisce dall’altro per
almeno un elemento
Moltiplicando numeratore e denominatore per (n - k)! si ha:
Poiché le disposizioni (Dn,k) sono il numero dei gruppi che si
possono formare differendo ogni gruppo per l’ordine o
almeno un elemento, le combinazioni, che sono il numero
dei gruppi che si possono formare se un gruppo differisce
dall’altro per almeno un elemento, saranno date dalle Dn,k
diviso le permutazioni dei k elementi (Pk)
169
Cn ,k =
⎛ 4⎞ ⎛ 4⎞
⎛ 4⎞ ⎛ 4⎞
⎛ n⎞ ⎛ n ⎞
⎟ ad es. ⎜ ⎟ = ⎜ ⎟ = 1 ⎜ ⎟ = ⎜ ⎟ = 4
⎜ ⎟ =⎜
⎝ 0⎠ ⎝ 4⎠
⎝ 1⎠ ⎝ 3⎠
⎝ k⎠ ⎝ n − k⎠
I coefficienti binomiali, da 0 a n si trovano, per ogni n sulla
riga del triangolo di Tartaglia
170
Nell’esempio precedente n = 4;
Nell’ultima riga si leggono
contemporaneamente i
coefficienti binomiali per k da 0
a n (in questo caso n = 4)
Maschi
k
0
1
Calcolo della probabilità nella distribuzione
binomiale
n
notare che:
⎛ n⎞
∑ ⎜⎝ k ⎟⎠ p
k
Il coefficiente binomiale gode di
alcune proprietà tra cui:
⎛ n⎞
n!
= ⎜ ⎟
k !( n − k ) ! ⎝ k ⎠
Le informazioni necessarie per la distribuzione
binomiale (parametri) sono n e p
Triangolo di Tartaglia: per procedere allo sviluppo della
potenza n-esima del binomio (a + b)n
⎛ n⎞
Pk = ⎜ ⎟ p k q n − k
⎝ k⎠
Dn ,k n( n − 1)( n − 2)K( n − k + 1)
=
Pk
k!
q (n− k ) = 1
k =0
171
p = 0.52
Femmine Distribuzione di probabilità
c
p
q
n -k
4
3
0
4
1
3
2
2
1 x 0,52 x 0.48 = 0.0531
4 x 0,52 x 0.48 = 0.2300
2
2
6 x 0,52 x 0.48 = 0.3738
3
1
4 x 0,52 x 0.48 = 0.2700
4
0
3
1
4
0
1 x 0,52 x 0.48 = 0.0731
1.0000
⎛ n⎞
−
Pk = ⎜ ⎟ p k q n k
⎝k⎠
Qual’è la
probabilità che
nascano 2 o 3
figlie femmine?
È uguale alla probabilità che nasca 1 o 2 figli maschi =
0.23 + 0.3738 = 0.6038
172
43
µ e σ della distribuzione binomiale
Grafico di una distribuzione binomiale
Se N è abbastanza grande, ad es. una inchiesta condotta su N =
10000 famiglie, la media, come noto, è = Σx i y i /N.
Poiché p i = y i /N quindi y i = p i N, si può evitare il prodotto
p i N dato che:
con i parametri: n = 4; p = 0.52
∑xy
i
i
= N ∑ xi pi
quindi μ =
N ∑ xi pi
=
N
Calcolo della media in famiglie
con 4 figli
p = 0.52
⎛ n⎞
−
Pk = ⎜ ⎟ p k q n k Ricordare che:
⎝k⎠
⎛n⎞
n!
⎜⎜ ⎟⎟ =
⎝ k ⎠ k!(n − k )!
Xi
0
1
2
3
4
173
simmetria e asimmetria
della distribuzione binomiale
pi
0.0531
0.2300
0.3738
0.2700
0.0731
X i pi
0.0000
0.2300
0.7476
0.8100
0.2924
2.0800
i
Senza dover fare questi
calcoli, sinteticamente:
μ = np
nell’es. µ = 4 x 0.52 = 2.08
mentre σ2 = npq
quindi σ =
174
npq
La distribuzione è sempre simmetrica
n = 4 pari: 1 moda
n = 5 dispari: 2 mode
k
0
1
2
3
4
5
i
Simmetria: p = q = ½
La distribuzione binomiale è sempre simmetrica quando
p=q=½
k
∑xp
B(k,4;0.5)
B(k,5;0.5)
1x
5x
10 x
10 x
5x
1x
1/ 32
1/ 32
1/ 32
1/ 32
1/ 32
1/ 32
=
=
=
=
=
=
0
1
2
3
4
0.0313
0.1563
0.3125
0.3125
0.1563
0.0313
1
4
6
4
1
x
x
x
x
x
1/
1/
1/
1/
1/
16
16
16
16
16
=
=
=
=
=
0.06250
0.25000
0.37500
0.25000
0.06250
pkq(n - k) = 0.54 = (½)4 = 1/16
pkq(n - k) = 0.5k x 0.5(n - k) = 0.5n = (½)5 = 1/32
175
176
44
Asimmetria della distribuzione binomiale:
p≠q
Asimmetria positiva: p < q
Asimmetria della distribuzione binomiale:
p≠q
Asimmetria negativa: p > q
Esempio p = 0.3
k
k
0
1
2
3
4
5
k (n - k)
pq
c.b.
1
5
10
10
5
1
x
x
x
x
x
x
0.16807=
0.07203=
0.03087=
0.01323=
0.00567=
0.00243=
B(k,5;0.3)
0
1
2
3
4
5
0.16807
0.36015
0.30870
0.13230
0.02835
0.00243
k (n - k)
pq
c.b.
1
5
10
10
5
1
x
x
x
x
x
x
0.00243=
0.00567=
0.01323=
0.03087=
0.07203=
0.16807=
Esempio p = 0.7
B(k,5;0.3)
0.00243
0.02835
0.13230
0.30870
0.36015
0.16807
Tuttavia, all’aumentare di n, la distribuzione tende ad essere
sempre simmetrica.
177
n = 20
n = 50
UTILITÀ della distribuzione binomiale
Quando si considera la ripetizione per n prove indipendenti
con probabilità p di verificarsi e probabilità q = 1 - p di non
verificarsi,
P = 0.3
n=5
178
P = 0.5
la distribuzione binomiale B[(n,p)] fornisce la probabilità
teorica che l’evento si verifichi 0 volte, 1 volta ..... fino a n
volte.
P = 0.7
Nella realtà la distribuzione non sarà esattamente identica.
Tuttavia, se la realtà si allontana molto dalla teoria, ci sono
forti sospetti per dubitare della validità della probabilità
assegnata.
179
180
45
DISTRIBUZIONE DI POISSON
La distribuzione di Poisson ha anche grande importanza come
distribuzione di eventi casuali indipendenti nel tempo o nello
spazio, il cui numero è mediamente costante in intervalli
regolari (per es. nel tempo T), ma in una frazione di esso (es.
1 decimo di secondo), se ne possono verificare spesso 0,
occasionalmente 1, difficilmente più di 1.
Anche la distribuzione di Poisson (come la binomiale),
è una distribuzione di probabilità di una variabile
discreta, detta anche degli eventi rari o dei piccoli
numeri.
Deriva dalla approssimazione della distribuzione
binomiale quando la probabilità (p) è molto piccola, il
numero delle prove (n) è molto grande (eventi rari) ed
il prodotto np tende ad una costante λ quando n
aumenta.
Esempio
λ1 = 3
T
0
poiché
λ
p = --n
e
λ3 = 2
T3
T2
λk −λ
p( k ) = e
k!
λ
q = 1- --n
n(n − 1)(n − 2)K( n − k + 1) ⎛ λ ⎞ ⎛ λ ⎞
⎜ ⎟ ⎜ 1− ⎟
=
⎝ n⎠ ⎝ n⎠
k!
n
p( k ) =
n λ −λ λ −λ
e =
e
k ! nk
k!
k
k
p(0) = e − λ ed ogni probabilità successiva: p( k +1) = pk
182
λ
k+1
(n− k )
λ⎞
⎛
tener presente che n è molto grande e che ⎜ 1− ⎟ tende a e − λ
⎝
n⎠
k
λ
λ
p = --- q = 1- --n
n
Dall’esempio : se λ = 3, qual’è la probabilità di trovare,
nell’intervallo di tempo T, 0 elementi? E più di 1?
k
Dalla binomiale p( k )
λ = np = 3 (esempio)
λ=μ=σ2
T2
T1
181
Calcolo distribuzione di Poisson
1
λ2 = 4
Notare che la distribuzione
dipende dal solo parametro
λ che è anche μ e σ2 183
p (0) = e
-λ
=e
-3
=
0,0498
p (1) = p (0) x 3/1 =
0,1494
fino ad 1 = p (0) + p (1) =
0,1992
più di 1 = 1 - (p (0) + p (1) ) =
0,8008
184
46
Esempio:
Si è rilevato che lo 0.001 di un gruppo di individui si sia
mostrato allergico ad un vaccino.
Su 2000 unità, qual’è la probabilità di trovare 0, 1 o fino a 2
individui allergici ?
p = 0.001; n = 2000;
Simmetria:
La distribuzione di Poisson è asimmetrica
All’aumentare di n (in questo caso anche di λ), anche la
distribuzione di Poisson tende ad essere simmetrica
λ = np = 2
probabilità
-λ
=
0,1353
p (1) = p (0) x 2/1 =
0,2707
p (2) = p (1 ) x 2/2 =
0,2707
p (0-2) =
0,6767
p (0) = e
185
Distribuzioni di probabilità di una
variabile casuale continua
Una variabile continua, è rappresentata da un istogramma
150
160
170
180
190
-
160
170
180
190
200
%
10
30
41
15
4
Esempio di
altezza
maschi
41%
30%
10%
15%
4%
In una variabile continua, come per la variabile discreta, la
frequenza relativa (%) di un collettivo abbastanza grande può
essere vista come la probabilità che, estraendo a sorte una
unità dal collettivo, questa presenti un valore compreso nel
generico intervallo a ├ b
187
186
Densità di frequenza
A differenza della variabile discreta, la frequenza di
un preciso valore x della variabile continua è nulla,
mentre è frequenza non nulla se si considera un
intervallo della variabile comunque piccolo.
La frequenza relativa, e quindi la probabilità, è
rappresentata dalla densità di frequenza ovvero
dall’area compresa tra l’intervallo considerato e
l’altezza nel punto centrale dell’intervallo.
188
47
Confronto di tabelle e istogrammi con stessi dati ma
ampiezza di classe diversa
Una distribuzione di probabilità molto
frequente
150
160
170
180
190
Molti fenomeni naturali, tra cui quasi tutti i caratteri
antropometrici, hanno la caratteristica distribuzione di
probabilità per cui, in corrispondenza dei valori più piccoli,
si hanno piccole frequenze e, man mano che i valori
aumentano, aumentano anche le frequenze, fino a
raggiungere un massimo, dopo del quale, in corrispondenza
di valori sempre maggiori, si hanno frequenze sempre
minori.
-
160
170
180
190
200
%
10
30
41
15
4
150
155
160
165
170
175
180
185
190
195
-
155
160
165
170
175
180
185
190
195
200
%
4
6
12
18
25
16
10
5
2
2
Inoltre, diminuendo l’ampiezza degli intervalli si ha un
aggiustamento pressoché simmetrico della distribuzione
189
190
CURVA DI GAUSS O NORMALE
Approssimazione di distribuzioni empiriche con la
curva di Gauss o normale
CARATTERISTICHE:
Ipotizzando intervalli di classe piccolissimi, si può sostituire
all’istogramma un modello teorico rappresentato da una
funzione
−
1
yi =
e
σ 2π
µ = Media
( x− μ )
è asintotica rispetto all’asse delle ascisse
- è crescente nell’intervallo (- ∞, µ) e decrescente in (µ, + ∞)
- in corrispondenza dei punti di flesso (inversione del ritmo
crescente da - ∞ a µ, e decrescente da µ a + ∞) si hanno i
valori di µ ± σ
192
-
σ = deviazione standard
−
1
e
σ 2π
2σ 2
media = moda = mediana
è unimodale e simmetrica
i cui parametri sono:
yi =
( x− μ )2
2
2σ 2
191
48
Traslazione della curva di Gauss
Variazioni della forma della curva di Gauss
Al variare di µ la forma rimane inalterata, si ha solo
una traslazione lungo l’asse delle ascisse
La forma si modifica al variare di σ
σ1 < σ
σ
μ1
<
μ
<
σ2 > σ
μ2
193
Non sono curve di Gauss
asimmetria positiva
DEVIATA STANDARDIZZATA Z
asimmetria negativa
Indici di
asimmetria
Leptocurtica o
ipernormale
Platicurtica o
iponormale
Gli indici valgono zero nella distribuzione normale
194
Data la funzione della curva di Gauss, per trovare
l’area compresa tra due valori x, si dovrebbe calcolare
l’integrale della funzione definito da punto a punto.
Fortunatamente si può evitare tale noioso calcolo
ricorrendo ad un modello standard di curva normale
effettuando la seguente trasformazione di variabile:
Indici di
curtosi
195
z=
x- μ
σ
196
49
Il valore della deviata standardizzata (z) significa
che, un qualsiasi valore (x), dista dalla media (µ)
z deviazioni standard (σ).
In corrispondenza di:
x=µ
z =0
Tabella delle aree sottese alla curva
normale
Nelle appendici dei testi si trovano le tavole con i
valori dell’area compresa nell’intervallo tra 0 e z.
Data la simmetria della curva: p(-z) = p(z)
x=µ+σ
z =1
x=µ-σ
z =-1
197
z
68.26%
95%
99.73%
0,00
0,01 0,02
….
….
….
….
….
….
….
….
198
Alcuni esempi di calcolo mediante curva
normale standardizzata
Alcuni valori caratteristici della p(z)
0,0
….
….
….
….
….
….
….
….
1,0 0,34134 ….
….
….
….
….
….
….
1,9
….
….
….
….
….
3,0 0,49865
I valori di z sono letti con un intero ed un
decimale sulla I colonna ed un secondo decimale
sulla riga di testata.
….
0,06
….
….
….
….
….
….
….
….
….
….
….
….
…. 0,47500
….
….
Vedi tavola completa nell’ultima
pagina
Notare che l’area tra la µ ± 3σ comprende quasi l’intera distribuzione
199
Sapendo che in una popolazione di 2500 unità l’altezza si
distribuisce normalmente con media di cm. 172 e scarto
quadratico medio pari a cm. 10, determinare quante unità ci
si aspetta di trovare tra 175 e 180 cm.
Per la soluzione, si deve
trovare l’area evidenziata e
moltiplicarla per 2500
200
50
Poiché le tavole forniscono la probabilità della variabile
compresa tra 0 e z, si procederà in due tempi, ricordando che
µ = 172 e σ = 10:
z1 =
Dal precedente esercizio: qual’è la percentuale di
popolazione che misura oltre 180 cm.?
180 - 172
= 0.80
10
dalle tavole p(z = 0.8) = 0.2881
z2 =
175 - 172
= 0.30
10
dalle tavole p(z = 0.3) = 0.1179
sottraendo: p(0.30 < z < 0.80) = 0.1702
Ci si aspetta ci siano 0.1702 x 2500, 425 o 426 unità
201
Un’indagine epidemiologica ha evidenziato che la
pressione arteriosa minima in maschi di età compresa tra
40 e 60 anni si distribuisce normalmente con media 85 e
deviazione standard 5.
Quali saranno i valori che, senza contare i casi simmetrici
estremi, avrà l’80 % della popolazione?
80
?
85
90
?
In questo caso, si
dovrà cercare
all’interno della
tavola la probabilità
0.40 e vedere qual’è
la z corrispondente
203
Poiché la distribuzione è simmetrica, il 50 % della
popolazione avrà un valore tra la media ed oltre.
Avendo calcolato che tra media e 180 cm. c’è il
28.81 %, la risposta è
0.50 - 0.2881 = 0.2119.
Il 21.19 %
z
0,00
0,01
0,0
….
….
….
….
….
….
….
….
1,0 0,34134 ….
….
….
….
1,2
….
….
….
….
….
….
….
….
3,0 0,49865
µ = 85
….
0.08
0,09
….
….
….
….
….
….
….
….
….
….
….
….
….
….
….
…. 0,39973 0,40147
….
….
….
….
….
….
202
La probabilità più vicina a
0.40 è quella per z = 1.28
I limiti dei valori cercati, entro
i quali è compresa l’80 % della
popolazione saranno dati da
µ ± 1.28σ , quindi:
σ=5
x1 = 85 - (1.28 x 5) = 78.6
x2 = 85 + (1.28 x 5) = 91.4
204
51
205
206
207
208
52