D e f i n i z i o n e
d i
S t a t i s t i c a
C o mp l e s s o d i c r i t e r i e me t o d i q u a n t i t a t i v i p e r
l ’ o s s e r v a z i o n e e l ’ a n a l i s i d e i f e n o me n i
F e n o me n i c o l l e t t i v i
Defi n izio ne d i po po lazi one st at ist ica
o
c o ll e t t iv o st a t i st ic o
I n s i e me d i p i ù u n i t à o mo g e n e e r i s p e t t o a d u n o o p i ù
aspetti.
Esempio di popolazione st atistica: l’insieme delle imprese
indust riali esist enti ad una certa data in Italia.
1
Collettivo statistico
F e n o me n o c o l l e t t i v o
L’i ns ie me c he s i s tudia
L’aspetto che interessa
studiare del collettivo
Le unità c he c os tituisc ono un c olle ttivo s ono de nominate
unità statistiche
Le unità statistiche sono classificate, in base ad un criterio
qualitativo o ai valori di un carattere quantitativo, in
categorie genericamente denominate modalità:
Modalità
qualitative
quantitative
Es. modalit à qualitative
Le imprese indust riali sono classificat e secondo il carattere stat o
giu ri dico in:i mp rese indiv idua li, soci età in no me co ll….
Il carattere “Stato giuridico” assume modalità qualitative
Es. modalit à quantit ative
Le imprese indust riali sono classificat e secondo il carattere numero
di addetti in imprese con: <2,2-10,…. addetti
Il carattere “ numero di addetti” assume modalità quantitative
2
Frequenza assoluta
numero delle unità di una popolazione statistica che
rie ntrano ne lla s tessa cate gor ia
Frequenze relative
rapporto delle frequenze assolute
al loro totale
l’insieme delle coppie
modalità – frequenza
è denominato:
serie statistica
o
mutabile statistica
seriazione statistica
o
variabile statistica
se le modalità sono
qualitative
quantitative
3
Mutabile statistica
Tav.1
Dist ribuzione degli occupati per settore di attività economica
Italia 1978
Settore di attività economica Occupati (migliaia) Occupati %
Agricoltura
3.090
15,33
Industria
7.633
37,86
Alt re attività
9.436
46,81
Totale
20.159
100,00
Fonte: ISTAT- Bollettino mensile di statistica,1979
Rappresentazioni grafiche di una m utabile statistica
Fig.1
fig.2
Distribuzione degli occupati per settore di
attività
distribuzione degli occupati per settore di
attività
10.000
9.000
8.000
Agricoltura
7.000
Agricoltura
Altre attività
Industria
Industria
Altre attività
6.000
5.000
4.000
3.000
2.000
1.000
0
Agricoltura
Industria
Altre attività
4
Va r i a b i l e s t a t i s t i c a d i s c r e t a
Tav.2
Dist ribuzione delle famiglie it aliane secondo il numero di
componenti-censimento 1971
Famiglie
Componenti
(migliaia)
Frequenze %
1
2.062
12,90
2
3.509
21,96
3
3.582
22,41
4
3.390
21,21
5
1.893
11,85
6
843
5,28
7
366
2,29
8
169
1,06
>8
167
1,04
Totale
15.981
100
Fonte:ISTAT,Censimento della popolazi one 1971
Rappresentazione grafica di una variabile discreta
Fig.3
distribuzione delle famiglie secondo il numero dei
componenti
famiglie
4.000
3.000
2.000
1.000
0
0
2
4
6
8
10
componenti
5
Va r i a b i l e s t a t i s t i c a c o n t i n u a
Tav.3a
Distribuzione delle aziende agricole italiane secondo classi di
superficie totale,1975.
Superficie
Classi di superficie
A zi ende
complessiva
(migliaia)
(mi g liai a di ett a ri)
Senza terreno
12
Fino ad 1
469
309
1-2
598
913
2-3
365
931
3-5
428
1.703
5-10
418
2.989
10-20
217
3.047
20-30
64
1.577
30-50
45
1.742
50-100
29
2.015
Olt re 100
19
7.175
Totale
2.664
22.401
Fonte:Annuario stati stico italiano,1978.
Tav.3b
modalit à della variabile X
x i ⏐⎯ x i + 1
x1 ⏐ ⎯ x2
x2 ⏐ ⎯ x3
…
xi ⏐ ⎯ xi + 1
...
xs ⏐ ⎯ xs + 1
Tota le
Frequenze assolute
n1
n2
…
ni
…
ns
N
6
Tav.3c
Distribuzione di un campione di operai per classi di reddito, Italia,
1996
Classi di reddito(migliaia di euro)
Operai
0-1
9.000
1-2
8.500
2-3
7.000
3-5
10.000
5-10
10.000
10-15
7.500
15-25
10.000
Totale
62.000
Rappresentazione grafica di una variabile continua
Fig.4
Distribuzione dei redditieri per classi di reddito
y
10.000
9.000
8.000
7.000
6.000
5.000
4.000
3.000
2.000
1.000
1
2
3
4
5
6
7
8
9 10 11 12
13
14
15
16
17
18
19
20 21
22 23
24
25
x
reddito (migliaia di euro)
7
Serie storica
Anni
1951
1961
1971
1981
Tav.5
Popolazione residente in Italia alla data dei censimenti
Popolazione
Numeri
Numeri
Rapporti
Saggio
(migliaia)
indici
indici incrementali d’incremento
Base
Base
(migliaia)
relativo
1951=100 mobile
annuo
47.516
100
50.624
106,54
106,54
310,8
0,006334
54.137
113,93
106,94
351,3
0,006707
56.557
119,03
104,47
242,0
0,004372
Fonte: ISTAT, Censimenti della popolazione
Rappresentazione grafica di una serie storica
Fig.5
Distribuzione della popolazione italiana per anni di
calendario (migliaia)
popolazione
60.000
55.000
50.000
45.000
40.000
1951
1961
1971
1981
8
Serie territoriale
Tav.6
Distribuzione del numero dei nati vivi per provincia
Sicilia, 1998
Province
Nati vivi
Trapani
4.679
Palermo
13.986
Messina
6.083
Agrigento
5.322
Caltanissetta
3.376
Enna
1.961
Catania
12.543
Ragusa
3.233
Siracusa
4.130
Totale Sicilia
55.313
Fonte: ISTAT Annuario di st atistiche de mografiche,1999
Rappresentazione grafica di una serie territoriale
Fig.6
ra
cu
sa
Si
a
ag
us
a
R
Ca
ta
ni
En
na
16.000
14.000
12.000
10.000
8.000
6.000
4.000
2.000
0
Tr
ap
an
i
Pa
le
rm
o
M
es
si
na
Ag
rig
en
Ca
to
lta
ni
ss
et
ta
nati vivi
Distribuzione dei nati vivi per province siciliane
9
S c a l e d i mi s u r a
F a s i n e l l a f o r ma z i o n e d e l c o n c e t t o d i m i s u r a z i o n e :
1. classificazione
s c a l a n o mi n a l e
co ns ist e ne l fissa re p er gli e le me nt i d i un dat o
p iù criteri, ta li c he c ias c un e le me nto ne so dd is fi
ne l riu nire ne lla s tessa c lasse gli e le me nti c he
stesso criterio. Le de no minaz io ni de lle c lass i
co me i gra d i d i una sca la il cui o rd ine d i
arbitrario
Ese mp io : c lass ifica z io ne de i so gget t i sec o nd o
attività economica.
2 . o r d i n a me n t o n o n m e t r i c o
ins ie me d ue o
uno soltanto e
s od d is fa no lo
s’interpretano
successione è
il settore di
scala ordinale
cons iste ne llo s pec ifica re de i c rite ri c he c o nse nta no d i d isp o rre
gli e le me nt i d i un ins ie me in u n o rd ine q uas i se ria le c io è ta le
c he, in ra ppo rto a d una d ata cara tteristica, p iù e le me nti
possano occupare un dato posto nella serie.
Crite ri: re laz ione di coinc ide nz a(A= B)
re laz io ne d i p rece de nza (A< B)
L’ordine in cui si succedono i gradi di questa scala è definito
Ese mp io : c lass ifica z io ne de lle imp rese sec o nd o lo s ta to
giuridico
3 . o r d i n a me n t o m e t r i c o
s c a l a me t r i c a
co ns iste, q ua ndo p oss ib ile, ne ll’asse gna re ad o gn i e le me nto x
de ll’ ins ie me da to un so lo nu mero rea le m(x), ta le c he se tra
d ue e le me nti x ed y va le la re laz io ne d i c o inc ide nza a llo ra
m( x)= m(y)e se va le la re laz io ne d i p rece de nza a llo ra
m( x)< m(y)
s c a l a me t r i c a
scala di intervalli
unità di misura arbitraria
origine arbitraria
scala di rapporti
unità di misura arbitraria
origine non arbitraria
10
Tav.7
Dist ribuzione delle famiglie it aliane secondo il numero di
componenti-censimento 1971
Famiglie
Famiglie con
% di
Componenti
(migliaia)
Componenti
un numero
famiglie con
di
un numero
x
componenti
di
≤ ( fi no a) x
componenti
≤ ( fi no a) x
1
2
3
4
5
6
7
8
>8
Totale
2.062
3.509
3.582
3.390
1.893
843
366
169
167
≤
≤
≤
≤
≤
≤
≤
≤
(f i n o a ) 1
(f i n o a ) 2
(f i n o a ) 3
(f i n o a ) 4
(f i n o a ) 5
(f i n o a ) 6
(f i n o a ) 7
(f i n o a ) 8
≤ (f i n o a )
numer o
massi mo
2.062
5.571
9.153
12.543
14.436
15.279
15.645
15.814
15.981
12,90
34,86
57,27
78,49
90,43
95,61
97,90
98,96
100
15.981
Fonte:ISTAT,Censimento della popolazi one 1971
Tav.8
Dist ribuzione delle famiglie it aliane secondo il numero di
componenti-censimento 1971
Famiglie
Famiglie con
% di
famiglie con
Componenti
(migliaia)
Componenti
un numero
un numero
di
x
componenti
di
≥( fi no a) x
componenti
≥ ( fi no a) x
1
2
3
4
5
6
7
≥8
Totale
2.062
3.509
3.582
3.390
1.893
843
366
336
≥
≥
≥
≥
≥
≥
≥
≥
(a l m e n o )
(a l m e n o )
(a l m e n o )
(a l m e n o )
(a l m e n o )
(a l m e n o )
(a l m e n o )
(a l m e n o )
1
2
3
4
5
6
7
8
15.981
13.919
10.410
6.828
3.438
1.545
702
336
100
87,10
65.14
42,73
21,51
9,67
4,39
3,14
15.981
Fonte:ISTAT,Censimento della popolazi one 1971
11
y
y
100
100
90
90
80
80
70
70
60
60
50
50
40
40
30
30
20
20
10
10
1
2
3
4
5
6
7 8
9 10
x
2
3
4
5
6 7
8 9 10
12
Tav.9
Distribuzione cumulativa delle aziende per classi di superficie agraria
Classi di superficie
Aziende (migliaia)
Fino ad 1
1-2
2-3
3-5
5-10
10-15
20-30
30-50
50-100
Oltre 100
481
598
365
428
418
217
64
45
29
19
Totale
2.664
Valori cumulati
481
%
18,1
1079
40,5
1444
54,2
1872
70,3
2290
86,0
2507
94,1
2571
96,5
2616
98,2
2645
99,3
2664
100,0
Distribuzione cumulativa delle aziende secondo
classi di superfici agrarie
120
100
80
60
Serie1
40
20
0
0
>100
13
Rapporti di composizione
Rapporti fra term ini omogenei
Numeri indici
Rapporti incrementali
Rapporti di densità
Rapporti fra term ini eterogenei
Rapporti di derivazione
Rapporti di durata
14
Rapporti di composizione
Sono rapporti di una parte al tutto.
Es. i rapporti della 3°colonna della tav.2
famiglie con x componenti / famiglie totali
sono rapporti di composizione
Numeri indici semplici
Pongono a confronto le intensità o le frequenze di uno stesso
fenomeno in tempi o in luoghi diversi
Sono istituiti fra termini di una stessa serie storica o
territoriale. Il termine con il quale vengono confrontati tutti
gli altri si chiama base.
La base può essere fissa o variabile
Es.
gli indici della 3°colonna della tav.5
sono indici a base fissa
gli indici della 4°colonna della tav.5
sono indici a base mobile
Rapporti incrementali
Si ottengono dividendo la differenza fra le intensità del
fenomeno alla fine e all’inizio di un dato intervallo per la
lunghezza dello stesso intervallo
Es.
gli indici della 5° colonna della tav.5
Dal rapporto incrementale si ricava
il saggio d’incremento relativo
dividendo il rapporto incrementale per l’intensità media del
fenomeno
Es.
gli indici della 6° colonna della tav.5
15
Rapporti di derivazione
Sono istituiti fra due fenomeni fra i quali vi è un legame di
causalità
Si ottengono eseguendo il rapporto fra l’intensità o la
frequenza di un fenomeno con l’intensità o rispettivamente la
frequenza di un altro fenomeno che ne è il presupposto
necessario.
Es.il fenomeno nascite ha come presupposto l’esistenza di una
popolazione quindi il rapporto
Nascite / popolazione(media)
è
un rapporto di derivazione
Rapporti di densità
Si istituiscono quando si vuole eliminare da un fenomeno
l’influenza di un altro.
Es. il rapporto:
Popolazione / superficie in km q.
dà la densità media di abitanti per Kmq cioè la popolazione
per un kmq di superficie.
Rapporti di durata
Sono ottenuti rapportando la consistenza media del fenomeno
in un dato intervallo temporale per un valore intermedio fra
quelli dei movimenti in entrata ed in uscita.
Es.
Consistenza annuale media dei depositi bancari =
10.000 miliardi.
Prelievi annuali =3.000 miliardi
versamenti annuali =5.000 miliardi
Consistenza media/( prelievi+versamenti)/2=
10.000/4000=2,5anni
il rapporto
[(Prelievi+ versamenti)]/2/consistenza =
= 4.000/10.000=0,4
è
un Rapporto di ripetizione
16
VALORI MEDI
Definizione di m edia del Cauchy:
E’ una quantità compresa fra la più grande e la più piccola
fra le quantità date
Definizione del Chisini
Date n grandezze, x i , per i=1,2,… e, considerata una loro funzione
matematica f=f(x 1 , x 2 ,…,x n ), si chiama media, rispetto alla funzione f
quel numero X che, sostituito a ciascuna delle grandezze date, lascia
invariato il valore della funzione f:
f(x 1 , x 2 ,…,x n )= f(X , X,…,X)
17
Media aritmetica
Dati i valori osservati distinti: x 1 ,x 2 ,…,x i ,…, x n
se la funzione f è la somma delle grandezze, la condizione di
invarianza del Chisini si riscrive:
x1 + x2 + ... + xi + ... + xn = X + X + ... + X + ... + X = nX
x1 + x2 + ... + xi + ... + xn 1 n
X =
= ∑ xi = x
n
n i =1
( media aritmetica semplice)
Data la distribuzione di frequenza:
Vari abile x Frequen za y
x1
y1
x2
y2
…
…
xi
yi
…
…
xn
yn
Totale
N
La media aritmetica è
x y + x2 y 2 + ... + xi yi + ... + xn y n 1
=
x= 1 1
y1 + y 2 + ... + yi + ... + y n
N
n
∑x y
i =1
i
i
( media aritmetica ponderata)
con
N = y 1 + y 2 + ... + y i + ... + y n
18
Proprietà media aritmetica
1° proprietà media aritmetica :
n
∑ (x
i =1
i
− x ) yi = 0
2° proprietà media aritmetica:
∑
n
( xi − x) 2 yi = minimo
i =1
Dalla prima proprietà deriva che :
∑
n
x =
( xi − m) yi
i =1
N
+m
dove m è un’origine arbitraria
N. B. Se la variabile è continua, la media è calcolata
utilizzando il valore centrale delle classi.
19
Media geometrica
se la funzione f è il prodotto delle grandezze distinte
x 1 ,x 2 ,…,x i ,…, x n , la condizione di invarianza del Chisini si
riscrive:
x1 * x2 * ... * xi * ... * xn = X * X * ... * X * ... * X = X n
X = ( x1 * x 2 * ... * xi * ... * xn )
1/ n
=n
n
∏x
i =1
i
(media geometrica semplice)
Su una distribuzione di frequenza la media geometrica si calcola:
X = ( x1 * x2 * ... * xi * ... * xn )
y1
y2
yi
yn 1/ N
n
= N ∏ xi
yi
i =1
(media geometrica ponderata)
con
N = y 1 + y 2 + ... + y i + ... + y n
20
Proprietà media geometrica
1° proprietà media geometrica :
1
log X =
N
n
∑y
1=1
i
log xi
il logaritmo della media geo metrica è eguale alla media aritmetica dei
logarit mi dei valori dati.
2° proprietà media geometrica :
xi =
posto:
ui
;
vi
i=1,2,…,n
1
u1 * u2 * ... * un n n u1 * u2 * ... * un
) =n
X =( 1
v * v2 * ... * vn
v1 * v2 * ... * vn
la media geometrica di più rapporti è uguale al rapporto fra la media
geometrica dei numeratori e la media geo metrica dei denominatori
Se: u1 = u 2 = ... = u n = 1
X =
n
1
la media geometrica dei reciproci di n valori è
v1 * v2 * ... * vn
eguale al reciproco della media geometrica dei valori dati
21
Media armonica
se la funzione f è la somma dei reciproci delle grandezze
distinte x 1 ,x 2 ,…,x i ,…, x n , la condizione di invarianza del Chisini
si riscrive:
1 1
1
1
1 1
1
1
1
+ + ... + + ... +
= + + ... + + ... + = n
x1 x 2
xi
xn X X
X
X
X
X =
n
1
1
1
+
+ ... +
x1 x2
xn
=
n
n
1
∑x
1=1
i
( media armonica semplice )
X =
N
1
1
1
y1 +
y2 + ... +
yn
x1
x2
xn
=
N
1
yi
∑
1=1 xi
n
(media armonica ponderata)
proprietà media armonica:
x −X
) yi = 0
∑( i
x
i
n
i =1
la somma algebrica degli scarti relativi dei valori osservati dalla loro
media armonica, moltiplicati per i rispettivi pesi, è nulla
22
Media potenziata
se la funzione f è la somma delle potenze r-esime delle
grandezze distinte x 1 ,x 2 ,…,x i ,…, x n , la condizione di invarianza
del Chisini si riscrive:
x1 + x2 + ... + xi + ... + xn = X r + X r + ... + X r + ... + X r = nX r
r
r
r
r
1 n r 1r
X =( ∑x )
n i =1
(media potenziata di ordine r semplice)
1
X =(
N
n
∑x y )
r
i =1
1
r
i
(media potenziata di ordine r ponderata)
N:B per r=1 la media potenziata rappresenta una media aritmetica
r =2
“
“
“
una media quadratica
r = -1
“
“
“
una media armonica
r→ 0
“
“
tende ad una media geometrica
23
Medie di posizione
Sono delle costanti che non dipendono strettamente dalle grandezze
date
mediana
moda
quartili
Definizione di mediana: data una successione di valori disposti in
ordine non decrescente di grandezza, è quel valore preceduto e
seguito da uno stesso numero di valori.
Se il numero delle grandezze è dispari, la mediana è quel valore che
occupa il posto centrale della successione ;
se è pari, essendo due i valori centrali, la mediana è qualunque
valore compreso fra di essi ( in genere si considera la semisomma dei
due valori centrali).
Proprietà della mediana:
n
∑| x
i =1
i
− m |= min imo
m= mediana
La somma dei valori assoluti degli scarti dalla mediana è un minimo
24
Quartili
Data una successione di valori non decrescenti si definisce primo quartile quel valore
al di sotto del quale stanno un quarto dei valori osservati e al disopra del quale stanno
i tre quarti dei valori osservati.
si definisce terzo quartile quel valore medio al di sotto del quale stanno i tre quarti dei
valori osservati e al disopra del quale stanno un quarto dei valori osservati.
Il secondo quartile coincide con la mediana
Quantili
Data una successione di valori non decrescenti si definisce k-esimo quantile
(k=1,2,…, q-1) quel valore medio al di sotto del quale sta una frazione k/q dei casi
osservati e al di sopra del quale sta una frazione pari a (1- k/q) dei casi osservati.
Es. se q=10 il quantile prende il nome di decile e se k = 1 si parla del primo decile
che rappresenta quel valor medio al di sotto del quale sta 1/10 dei valori osservati e al
di sopra del quale stanno i 9/10 dei valori osservati.
Moda
Con riferimento ad una distribuzione di frequenza si definisce moda quel valor medio
cui corrisponde la massima frequenza
25
Calcolo della mediana
di una distribuzione per classi di valori
(con frequenze assolute)
⎛N
⎞ x − xi −1
M e = xi −1 + ⎜ − Gi −1 ⎟ i
⎝2
⎠ yi
Gi = y1 + y 2 + .... + yi
G0 = 0
Gn = N
(con frequenze relative)
M e = xi −1
Fi = f1 + f 2 + .... + f i
⎛1
⎞ xi − xi −1
+ ⎜ − Fi −1 ⎟
fi
⎝2
⎠
F0 = 0
Fn = 1
f i = yi / N
Esempio (frequenze assolute):
Dist rib u zi one di a lcune fa mi g lie ita li ane
secondo classi di reddito
Classi di
reddito
(migliaia)
xi-xi+1
50-100
100-200
200-300
Totale
Famiglie
Famiglie
con classi
di
reddito
≥( fi no a) x
Gi
110
400
90
600
Posto valor mediano =
110
510
600
Frequenze Frequenze
relative
relative
fi
cumulat e
Fi
0,1833
0,1833
0,6667
0,8500
0,15
1
1
Posto
classe
mediana
N 600
=
= 300
2
2
Classe mediana = 100-200
⎛ 600
⎞ 200 − 100
100 + ⎜
− 110 ⎟
= 147,50
Valore mediano =
⎝ 2
⎠ 400
26
Calcolo del k.mo quantile
di una distribuzione per classi di valori
(con frequenze assolute)
⎛ k
⎞ x − xi −1
Qk / m = xi −1 + ⎜ N − Gi −1 ⎟ i
yi
⎝ m
⎠
(con frequenze relative)
Qk / m
⎛k
⎞ xi − xi −1
= xi −1 + ⎜ − Fi −1 ⎟
⎝m
⎠ fi
m = numero di parti uguali in cui
è divisa la distribuzione
k= ordine del quantile
Esempio: Calcolo del 1° e 3° quartile (con frequenze relative)
Posto 1° quartile =
1
= 0,25
4
Classe 1° quartile = 100-200
⎛1
⎞ 200 − 100
Q1 / 4 = 100 + ⎜ − 0,1833⎟
= 109,95
⎝4
⎠ 0,67
Posto 3° quartile =
3
= 0,75
4
Classe 3° quartile = 100-200
Q3 / 4
⎛3
⎞ 200 − 100
= 100 + ⎜ − 0,1833⎟
= 184,58
⎝4
⎠ 0,67
27
Variabilità e Mutabilità
fenomeni o caratteri quantitativi
fenomeni o caratteri qualitativi
Definizione: Attitudine dei caratteri ad assumere modalità differenti
Aspetti
dispersione
diseguaglianza
per cause accidentali
per cause accidentali e sistematiche
gli indici misurano di quanto in media
le quantità rilevate differiscono
da una grandezza media
gli indici misurano di quanto in
media le quantità rilevate
differiscono fra di loro
Proprietà:
Gli indici di variabilità devono:
a) assumere valori non negativi;
b) essere nulli quando tutti i termini della distribuzione sono eguali fra loro;
c) crescere all’aumentare della disuguaglianza fra i termini.
28
Indici di variabilità assoluta
Campo di variazione
(valori ordinati in ordine non decrescente)
Su una seriazione
Dati i valori osservati distinti: x 1 ,x 2 ,…,x i ,…, x n
il campo di variazione è:
W = x(n) - x(1)
Su una distribuzione di frequenza
Data la distribuzione di frequenza:
Vari abile x Frequen za y
x1
y1
x2
y2
…
…
xi
yi
…
…
xs
ys
Totale
N
il campo di variazione è:
W = x(s) - x(1)
Differenza interquartilica
D = Q3/4 - Q1/4
29
Indici di dispersione
Indici di disuguaglianza
(Scarto semplice medio)
(Differenza semplice media)
∑
∑
n
n
| xi − x | yi
S =
i =1
n
∆=
n
∑∑| x
i
− x j | yi y j
1=1 i =1
N ( N − 1)
yi
i =1
(Scarto quadratico medio)
( Differenza quadratica media)
(o deviazione standard)
n
σ =2
∑( xi − x)2 yi
i =1
n
∑y
i=1
σ2 =
∑(x
i =1
∆2 =
∑∑ ( x
1=1 i =1
− x ) yi
n
∑y
i =1
i
i
− x j ) 2 yi y j
N ( N − 1)
(Scostamento medio dalla mediana)
n
2
i
n
i
(Varianza )
n
n
S Me =
∑| x
i =1
i
− Me | yi
n
∑y
i =1
i
30
La varianza si può calcolare come differenza fra la media aritmetica dei
quadrati degli scarti da un’origine arbitraria m ed il quadrato della media
aritmetica degli stessi scarti
∑
n
1
σ2 =
N
i =1
∑
n
1
( xi − m) 2 yi − [
N
(xi − m) yi ]2
i =1
se m = 0
∑
n
σ2 =
1
N
i =1
∑
n
xi2 yi − [
1
N
xi yi ]2
i =1
la varianza si calcola come differenza fra il quadrato della media
quadratica ed il quadrato della media aritmetica
31
Dati raggruppati
Gruppi
modalità
1
2
3
…
I
…
nj
1
x11
x21
x31
…
xi1
…
xn j 1
2
x12
x22
x32
…
xi2
…
xn j 2
3
x13
x23
x33
…
xi3
…
xn j 3
…
…
…
…
…
…
…
…
j
x1j
x2j
x3j
…
xij
…
xn j j
…
…
…
…
…
…
…
…
k
x1k
x2k
x3k
…
xik
…
xn j k
n.
modalità
medie
varianze
n1
n2
n3
…
nj
…
nk
m1
σ21
m2
σ22
m3
σ23
…
…
mj
σ2j
…
…
mk
σ2k
Calcolo della media:
nj
1)
2)
k
k
x = ∑∑ xij / ∑ n j
i =1 j =1
j =1
k
k
j =1
j =1
x = ∑ mjnj / ∑ n j
Calcolo della varianza:
nj
k
k
σ = ∑∑ ( xij − x) / ∑ n j
2
1)
2
i =1 j =1
k
σ2 =
2)
∑σ
j =1
j =1
2
j
k
nj
+
k
∑n
j =1
j
∑ (m
j =1
k
− x) n j
2
j
σ2 =
k
∑n
j =1
j
∑σ
j =1
2
j
nj
+σm
k
∑n
j =1
2
j
32
Esempio:
Gruppi
2°
1°
3
2
5
4
Mo
Da
Li
Tà
3°
10
11
12
3,5
1,25
4
medie
varianze
nj
k
k
j =1
j =1
Totali
4
7
11
0,67
3
5,5
2,25
2
17
20
17
4
58
6,44
12,25
x = ∑ mi n j / ∑ n j = 58 / 9 = 6,44
k
σ2 =
∑σ
j =1
2
j
k
nj
+
k
∑n
j =1
varianza
entro i gruppi
j
∑ (m
j =1
j
− x)2 n j
=
k
∑n
j =1
11,5 98,72
+
= 1,28 + 10,97 = 12,25
9
9
j
varianza
tra i gruppi
33
Dati raggruppati
modalità
x1
x2
x3
…
xi
…
xn
1
2
n12
n22
n32
…
ni2
…
n11
n21
n31
…
ni1
…
nn1
frequenze
medie
varianze
nn 2
n.1
m1
σ21
Gruppi
3
n13
n23
n33
…
ni3
…
nn 3
…
…
…
…
…
…
…
…
j
n1j
n2j
n3j
…
nij
…
nn j
n.3
m3
σ23
…
…
…
n.j
mj
σ2j
n.2
m2
σ22
…
…
…
…
…
…
…
…
k
n1k
n2k
n3k
…
nik
…
nnk
Totali
n1.
n2.
n3.
…
ni.
…
n n.
…
…
…
n.k
mk
σ2k
N
Calcolo della media:
nj
1)
2)
k
k
x = ∑∑ xi nij / ∑ nij
i =1 j =1
j =1
k
k
j =1
j =1
x = ∑ m j n. j / ∑ n. j
Calcolo della varianza:
nj
k
k
σ = ∑∑ ( xi − x) nij / ∑ nij
2
1)
2
i =1 j =1
k
σ =
2
2)
∑σ
j =1
j =1
2
j
k
n. j
k
∑n
j =1
.j
+
∑ (m
j =1
j
− x) 2 n. j
k
∑n
j =1
.
j
34
Esempio:
modalità
3
4
5
7
Totali
Medie
Varianze
Gruppi
2°
3°
2
1
3
3
10
5
12
2
27
11
5,63
4,91
1,79
1,36
1°
3
3
2
1
9
4,22
1,51
Totali
6
9
17
15
47
5,19
Calcolo media:
nj
1)
2)
k
k
x = ∑∑ xi nij / ∑ nij = 244 / 47 = 5,19
i =1 j =1
j =1
k
k
j =1
j =1
x = ∑ m j n. j / ∑ n. j = 244 / 47 = 5,19
Calcolo varianza:
nj
k
k
σ = ∑∑ ( xi − x) nij / ∑ nij = 91,28 / 47 = 1,94
2
1)
2
i =1 j =1
k
2)
σ2 =
∑σ
j =1
2
j
k
n. j
k
∑n
j =1
j =1
.j
+
∑ (m
j =1
j
− x) 2 n. j
k
∑n
j =1
.
=
76,76 14,52
+
= 1,63 + 0,31 = 1,94
47
47
j
35
Calcolo della differenza semplice media
Su una seriazione: x1 x 2 x
x1
x2
…
x
n
3
... x
n
Schema per il calcolo della differenza semplice media
x1
x2
…
|x1- x1|
|x1- x2|
…
|x2- x1|
|x2- x2|
…
xn
|x1- xn|
|x2- xn|
…
…
…
…
|xn- x1|
|xn- x2|
…
|xn- xn|
Su una distribuzione di frequenza:
Vari abile x Frequen za y
x1
y1
x2
y2
…
…
xi
yi
…
…
xs
ys
Totale
N
X1
x2
Schema per il calcolo della differenza semplice media
x1
x2
xn
…
|x1- x1|y1y1
|x1- x2| y1y2
|x1- xn| y1yn
…
|x2- x1| y2y1
|x2- x2| y2y2
|x2- xn| y2yn
…
…
…
…
…
…
xn
|xn- x1| yny1
|xn- x2| yny2
…
|xn- xn| ynyn
36
Schema per il calcolo della differenza semplice media
x1
x2
x1
|x1- x1|
|
x2
|x2- x1|
|x2- x2|
x3
|x3- x1|
|x3- x2|
|x3- x3|
…
…
xn
|xn x1|
|xn- x2|
…
…
…
…
…
x
|xn- xn|
n
ai= somma dei minuendi in diagonale = xi +xi+1+…..+xn
si = somma dei sottraendi in verticale = x1 +x2+…..+xi
somma dei minuendi in diagonale
ai +ai+1+…..+an
somma dei sottraendi in verticale
s1 +s2+…..+sn
∑
n
i =1
somma dei minuendi in verticale
=
x1 +2x2+…..+ixi +….+nxn
=
somma dei sottraendi in orizzontale
=
∑
i =1
i = 1,2,…,n
=
nx1 +(n-1)x2+…..(n-i+1) xi+…+xn
∑
n −1
n
(ai − si ) =
i = 1,2,…,n
( 2i − n − 1) xi = 2
(i x − si )
i =1
37
Formule alternative per il calcolo della
differenza semplice media
Data la seriazione: x1 x 2 x
... xi… x n
disponendo le quantità xi in ordine non decrescente: x1 ≤ x2 ≤ ... xi ... ≤ xn
3
n
2
∆=
(2i − n − 1) xi
∑
n(n − 1) i =1
n
2
∆=
∑ (ai − si )
n(n − 1) i =1
(1)
n
ai = ∑ x j
i =i
n −1
4
∆=
∑ (i x − si )
n(n − 1) i =1
i
si = ∑ x j
(2)
i =1
(3)
x1 x 2 x
3
... x
n
y1 y 2 y
3
... y
n
Data la distribuzione:
la (2) si trasforma in:
n
2
∆=
( Ai − S i ) yi
∑
N ( N − 1) i =1
Formula di Czuber-Gini
n
i
n
j =i
j =1
i =1
Ai = ∑ x j y j Si = ∑ x j y j N = ∑ yi
38
Esempio calcolo della differenza semplice media
Schema per il calcolo del numeratore della differenza
semplice media
xi
5
7
8
9
Totali
5
0
2
3
4
9
7
2
0
1
2
5
8
3
1
0
1
5
9
4
2
1
0
7
totali
9
5
5
7
26
n
∆=
n
∑∑| x − x
i
1=1 i =1
xi
5
7
8
9
totali
j
|
n(n − 1)
i
1
2
3
4
=
26
= 2,16
(4 * 3)
criterio (1)
2i
2i-n-1
2
-3
4
-1
6
1
8
3
(2i-n-1) xi
-15
-7
8
27
13
n
2
2
∆=
(2i − n − 1) xi =
*13 = 2,16
∑
n (n − 1) i =1
(4 * 3)
xi
5
7
8
9
totali
Criterio (2)
ai
si
29
5
24 12
17 20
9
29
ai- si
24
12
-3
-20
13
n
2
2
∆=
(
a
−
s
)
=
*13 = 2,16
∑
i
i
n(n − 1) i =1
( 4 * 3)
39
Criterio (3)
I
1
2
3
4
5
7
8
9
totali
i
media =7,25
si
5
12
20
29
x
7,25
14,5
21,75
29
i x − si
2,25
2,5
1,75
0
6,5
4 n −1
4
∆=
(
i
x
−
s
)
=
* 6,5 = 2,16
∑
i
n(n − 1) i =1
(4 * 3)
Data la seguente distribuzione di frequenza
xi yi
5 2
7 4
8 3
9 1
Totali10
si applica la formula di Czuber-Gini
n
2
∆=
( Ai − S i ) yi
∑
N ( N − 1) i =1
xi
5
7
8
9
Totali
∆=
yi
2
4
3
1
10
xiyi
10
28
24
9
71
Ai
71
61
33
9
Si
10
38
62
71
Ai - Si
61
23
-29
-62
(Ai - Si)*yi
122
92
-87
-62
65
2
* 65 = 1,44
10(9)
40
Variabilità relativa
Indici assoluti rapportati al valore medio
Indici assoluti rapportati al massimo
Coefficiente di variazione
σ
x
100
Se la distribuzione massimante è del tipo:
∆ max = 2 x
σ max = x ( N − 1)
xi
yi
0
N-1
n
∑x
σ 2 max = x 2 ( N − 1)
i =1
i
= Nx
1
S max = 2 x( N − 1) / N
Indici di variabilità relativa
rapportati al massimo:
(N-1)
∆ / ∆ max = ∆ / 2 x
σ / σ max = σ / x ( N − 1)
2
σ 2 / σ 2 max = σ 2 / x ( N − 1)
S / S max = S / 2 x( N − 1) / N
1
n
x1 = 0
x n = ∑ xi = N x
i =1
41
Concentrazione
Definizione: La concentrazione è un particolare aspetto della variabilità dei fenomeni
o caratteri trasferibili
Data la seriazione: x1 x 2 x 3 ... xi… x n,
disponendo le quantità xi in ordine non decrescente: x1 ≤ x2 ≤ .... ≤ xn
e considerando gli ultimi r valori (r<n),
si ha concentrazione
se la somma degli ultimi r valori costituisce una frazione della somma degli n valori
maggiore della frazione r/n :
x n−r +1 + x n−r + 2 + ... + x n r
>
x1 + x 2 + ... + xn
n
ovvero, ricordando che s i =
s n − s n− r r
>
sn
n
;
i
∑
i =1
xj ;
i = 1, 2,…,n-1
r = 1, 2,…,n-1
oppure, ponendo (n-r)=i
si i
<
sn n
Posto:
i
= pi
n
si
= qi
sn
qi < pi
qi = pi
concentrazione
equidistribuzione
42
Esempio:
Calcolo delle qi e delle pi e dei rapporti di concentrazione
xi xi/Σxι yi/Σyι qi pi pi - qipi+1-pi qi+1+qi (pi+1-pi)( qi+1+qi
0,016
x1 5 0,08 0,20 0,080,20 0,12 0,20 0,08
0,057
x2 7 0,12 0,20 0,200,40 0,20 0,20 0,28
0,113
x3 10 0,17 0,20 0,370,60 0,23 0,20 0,57
0,207
x4 18 0,30 0,20 0,670,80 0,13 0,20 1,04
0 0,20 1,67
0,333
x5 20 0,33 0,20 1 1
totali60 1
1
0,68
0,726
q
Curva di concentrazione
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
p
0,8
1
curva di concentrazione ----- retta di equidistribuzione
R=
A
= 2 A Rapporto di concentrazione
1
2
n −1
R = 1 − ∑ ( p i +1 − p i )(q i +1 + q i )
i =0
Rapporto di concentrazione
R= 1- 0,726=0,274
43
1 n −1
( pi − qi )
∑
n i =1
somma delle aree dei rettangoli di base
1/n ed altezza (pi-qi) (area di concentrazione)
1 N −1
1 n −1 i 1 n( n − 1) 1
≅
pi = ∑ =
∑
n i =1
n i =1 n n 2n
2
somma delle aree dei rettangoli di base
1/n ed altezza pi(area del triangolo)
n −1
∑(p
i
i =1
− qi )
n −1
∑p
i =1
R=0,68/2=0,34
i
Rapporto di concentrazione del Gini
( per dati non raggruppati
e sufficientemente numerosi)
Calcolo del rapporto di concentrazione per dati raggruppati
Classi
0-1
1-2
2-3
3-5
5-7
pi+1-pi
xi
0,5
1,5
2,5
4,0
6,0
yi
3
3
10
12
20
48
xi yi
1,5
4,5
25,0
48,0
120,0
199,0
si
1,5
6,0
31,0
79,0
199,0
i
3,0
6,0
16,0
28,0
48,0
qi
0,008
0,030
0,156
0,397
1,000
pi
0,063
0,125
0,333
0,583
1,000
0,063
0,063
0,208
0,250
0,417
qi+1+qi
0,008
0,038
0,186
0,553
1,397
(pi+1-pi)(
qi+1+qi)
0,0005
0,0024
0,0387
0,1382
0,5821
0,7618
R=1-0,7618 = 0,2382
44
Mutabilità
Definizione: E’ l’attitudine dei fenomeni o caratteri qualitativi (misurati su scala
nominale o ordinale) ad assumere differenti modalità.
La mutabilità è nulla se il carattere si presenta sempre con la stessa modalità
La mutabilità è massima se le frequenze con le quali si osservano le diverse modalità
del carattere sono eguali.
Indice di entropia
m
H = −∑ f i log f i
i =1
m
∑f
i
=1
i =1
Scaturisce dalla teoria dell’informazione
Utilizza come misura della quantità d’informazione log(1/fi) dove fi è la frequenza relativa
dell’i-esima modalità (i=1,2,…,m)
Ricordando che:
per fi =1 log (1/fi) = 0
lim - fi log (fi) = lim[ logf / (-1/f)] = lim[( 1/ f ) /(1/ f2 ) ]= lim f= 0
f→0
f→0
f→0
f→0
se m-1 delle m frequenze tendono a zero e di conseguenza una frequenza tende a uno,
H tende a zero
se le frequenze delle m modalità sono eguali ossia fi =1/m , H assume il valore massimo,
Hmax=logm
Indice relativo di entropia
H
1 m
0≤
=−
∑ fi log fi ≤ 1
H max
log m i =1
Indice di mutabilità del Gini
m
m
i =1
i =1
0 ≤ G = ∑ f i (1 − fi ) = 1 − ∑ f i ≤ 1 −
2
1
m
indice assoluto
∑
m
indice relativo
m
∑f
i =1
i
0≤
G
=
Gmax
f i (1 − f i )
i =1
1
1−
m
≤1
=1
45
Momenti
Definizione: si definisce momento di origine m e di grado r di una distribuzione la
media aritmetica ponderata delle potenze r-esime degli scarti da m dei valori xi con
pesi espressi dalle yi
1
=
N
µ m ,r
n
∑ (x
i =1
− m) r y i
i
se l’origine è la media aritmetica il momento si scrive:
1
µr =
N
n
∑ (x
i =1
i
− x ) r yi
Formule di trasformazione
per passare da un’origine m ad un’altra origine m’
r
k ⎛ ⎞ r −k k
⎜
−
=
−
a
b
(
)
(
1
)
∑
Ricordando che:
⎜ k ⎟⎟a b
k =0
⎝ ⎠
r
r
e posto:
∑
r
( xi − m' ) r = [( xi − m) − ( m '− m)]r =
k =0
r
⎛r ⎞
( −1) k ⎜⎜ ⎟⎟( xi − m) r − k ( m'− m) k
⎝k ⎠
⎛r ⎞
⎝k⎠
µ m ',r = ∑ (−1) k ⎜⎜ ⎟⎟µ m ,r −k (m'−m) k
k =0
46
Per m’ = x
∑
n
1
(m'−m) = ( x − m) =
n
r
( xi − m) = µ m,1
i =1
⎛r ⎞
⎝k ⎠
µ r = ∑ ( −1) k ⎜⎜ ⎟⎟µ m,r − k µ k m,1
k =0
Relazioni fra i momenti di origine m e di origine la media aritmetica
µ 2 = µ m , 2 − µ 2 m ,1
µ 3 = µ m ,3 − 3µ m , 2 µ m,1 + 2 µ 3 m ,1
µ 4 = µ m , 4 − 4 µ m ,3 µ m,1 + 6 µ m , 2 µ 2 m ,1 − 3µ 4 m,1
47
Correzioni di Sheppard
Si apportano ai momenti quando:
la distribuzione è per classi
l’ampiezza h delle classi è costante
quando le frequenze delle classi estreme sono piccole
µ ' m,2 = µ m ,2 −
1 2
h
12
1
µ 'm ,3 = µ m ,3 − µ m ,1h 2
4
1
7 4
2
µ 'm , 4 = µ m , 4 − µ m , 2 h +
h
2
240
48
Funzioni di densità di frequenza (o di probabilità)
In una variabile continua i valori della funzione f(x) non esprimono frequenze o
probabilità ma hanno il significato di altezze di rettangoli aventi basi infinitamente
piccole e le cui aree rappresentano frequenze o probabilità. In tal caso la funzione
f(x) è chiamata funzione di densità di frequenza ( o di probabilità )
La frequenza ( probabilità) dei valori all’interno di una classe, di ampiezza
infinitesima dx, è pari al prodotto della densità f(x) per l’ampiezza dx ed è
indicata con il simbolo:
dF(x) = f(x)dx
differenziale della funzione di ripartizione F(x)
x
F ( x) =
∫
f (t )dt
a<x<b
a
F (a) = 0
F (b) = 1
f ( x) =
dF ( x)
= F ' ( x)
dx
derivata della funzione di ripartizione F(x)
49
Adattamento
Definizione: si dice adattamento di una funzione matematica ad una
distribuzione di frequenza la costruzione, in base ai valori osservati, di un
modello matematico capace di rappresentare la distribuzione osservata in
maniera soddisfacente prescindendo dagli aspetti non sistematici
Interpolazione : Fissata la forma della funzione y= f(x) , caratterizzata da n parametri, si pone
la condizione che essa assuma esattamente i valori osservati in corrispondenza di un certo
numero n di valori distinti della variabile x
Nell’adattamento la funzione adattata:
1) non deve necessariamente assumere valori esattamente eguali alle frequenze
osservate;
2) il numero dei parametri è inferiore al numero delle coppie che si ottengono
associando ai valori osservati le corrispondenti frequenze.
Fasi dell’adattamento:
a) scelta della forma della funzione f(x);
b) determinazione dei valori dei parametri della funzione scelta;
c) verifica della bontà dell’adattamento eseguito.
Scelta della forma della funzione
Criteri grafici
Criteri numerici
50
Determinazione dei valori dei parametri
1) Metodo dei minimi quadrati: consiste nel rendere minima la somma dei
quadrati delle differenze fra i valori della funzione adattata e le frequenze
osservate
2) Metodo dei momenti: consiste nel determinare tanti momenti della
distribuzione teorica, di grado progressivamente crescente, quanti sono i
parametri incogniti da stimare e di porre la condizione che i loro valori siano
eguali a quelli dei corrispondenti momenti calcolati sui dati osservati
Stima di r parametri con il metodo dei minimi quadrati
∑ ∑
n
n
ε2 =
i =1
[yi − f ( xi ;θ1 ,θ 2 ...θ r )]2 = minimo
i =1
f ( xi ;θ1 ,θ 2 ...θ r ) = funzione lineare rispetto ai parametri
51
Stima di r parametri con il metodo dei momenti
θ1 ,θ 2 ,θ 3 ...,θ r = parametri
µ’m,1 = momento teorico
µm,1 = momento osservato
µ’m,1 = µm,1
µ’m,2 = µm,2
……
µ’m,r = µm,r
Verifica della bontà dell’adattamento
Le frequenze osservate yi vengono poste a confronto con le frequenze teoriche f(xi)
ottenute. La distribuzione teorica adattata costituisce un’adeguata rappresentazione
dei dati osservati se:
a) gli scarti fra frequenze osservate e teoriche sono piccoli , in valore assoluto,
rispetto alle frequenze;
b) i segni degli scarti si alternano senza un apparente ordine sistematico
Per misurare la bontà dell’adattamento è utilizzato l’indice χ2
∑
n
χ =
2
i =1
[ y i − f ( xi )]2
f ( xi )
52
Calcolo delle probabilità
Probabilità in senso oggettivo
Definizione matematica: la probabilità di un evento è il rapporto fra il numero dei
casi favorevoli ad un evento ed il numero dei casi possibili, considerati tutti
egualmente possibili
Definizione frequentista: la probabilità di un evento è il limite della frequenza
dell’evento al crescere del numero delle prove
Probabilità in senso soggettivo
Definizione: E’ il grado di fiducia che un individuo ripone nel verificarsi di un
evento
Principio delle probabilità totali: Dati n eventi E1, E2,…, En, tra di loro
incompatibili, la probabilità che si verifichi uno qualsiasi di questi eventi ( probabilità
della loro unione) è data dalla somma delle probabilità dei singoli eventi
P(E1
∪
E2
∪
…
∪
En) = P(E1) + P(E2) +…+ P(En)
Principio delle probabilità composte: La probabilità che n eventi compatibili ed
indipendenti E1, E2,…, En, si verifichino tutti insieme ( probabilità della loro
intersezione) è data dal prodotto delle probabilità dei singoli eventi
P(E1 ∩ E2
∩
… ∩ En) = P(E1) *P(E2) *…*P(En)
53
Teorema di Bayes
Dato un evento A e un evento B tra loro compatibili e dipendenti, la probabilità che si
verifichino entrambi gli eventi è data da:
P(A) P(B/A)=P(B) P(A/B)
per cui
P ( A) P( B / A)
P ( B)
P( A / B) =
Si supponga che l’evento B venga posto in relazione con n eventi A1, A2,…Ai,…,
An, tra di loro incompatibili e tali che uno di essi deve necessariamente verificarsi,
cioè:
P(A1) + P(A2) +…+P(Ai)+…+ P(An) = 1
L’evento B,se si verifica, dovrà verificarsi con uno degli eventi Ai
e, poiché
P(Ai ∩ B) = P(Ai) P(B/Ai)
i= 1,2,.., n
e gli eventi (Ai ∩ B) sono incompatibili, la probabilità che B si verifichi è data da:
n
P ( B ) = ∑ P ( Ai ) P( B / Ai )
i =1
da cui si ricava:
P( Ai / B) =
P( Ai ) P( B / Ai )
n
∑ P( A ) P( B / A )
i =1
i
i
54
Esempio: - I sinistri del settore auto di una compagnia di assicurazione sono
classificati, in base alla loro gravità, in (a) lievi, (b) gravi, (c) mortali mentre il tipo
di auto che li ha causati, in (A) utilitarie, (B) medie e (C) superiori. In base
all’esperienza della compagnia, le probabilità di un incidente mortale per
un’utilitaria, media, superiore sono rispettivamente eguali a 0,36, 0,08, 0,40. E’
noto anche che il 50% degli assicurati ha un’utilitaria, il 25% una media, il 25% una
superiore. Avendo osservato un incidente mortale, qual’è la probabilità che esso sia
stato causato da un’utilitaria?
Tipo di incidente
Cilindrata macchina
Incidente mortale = M
Incidente lieve =L
Incidente grave =G
Utilitaria = U
Cilindrata media = Me
Cilindrata superiore =S
P(M/U) = 0,36
P(M/Me) = 0,08
P(M/S) = 0,40
P(U) = 0,50
P(Me) = 0,25
P(S) = 0,25
P(M) = P(U) P(M/U) + P(Me) P(M/Me) + P(S)P(M/S)
P(M)= 0,50*0,36 + 0,25*0,08 + 0,25*0,40 = 0,28
P(U / M ) =
P( Me / M ) =
P( S / M ) =
P(U ) P( M / U ) 0,50 * 0,36
=
= 0,64
0,28
P( M )
P( Me) P( M / Me) 0,25 * 0,08
=
= 0,005
0,28
P(M )
P( S ) P( M / S ) 0,25 * 0,40
=
= 0,355
0,28
P( M )
P(U/M) + P(Me/M) + P(S/M) = 1
55
Distribuzione binomiale
⎛n⎞
Pn , x = ⎜⎜ ⎟⎟ p x q n − x
⎝ x⎠
0≤p ≤1
q=1-p
Probabilità che in n prove indipendenti l’evento E,
avente probabilità costante p, si verifichi x volte
Distribuzione binomiale:
⎛n⎞
( q + p ) = ∑ ⎜⎜ ⎟⎟ p x q n− x = 1
i =0 ⎝ x ⎠
n
n
x
Pn,x
0
⎛n⎞
Pn ,0 = ⎜⎜ ⎟⎟ p 0 q n
⎝0⎠
⎛n⎞
Pn ,1 = ⎜⎜ ⎟⎟ p1q n −1
⎝1 ⎠
1
2
⎛n⎞
Pn, 2 = ⎜⎜ ⎟⎟ p 2 q n − 2
⎝2⎠
…
…
n
⎛n⎞
Pn ,n = ⎜⎜ ⎟⎟ p n q 0
⎝n⎠
Valore medio = np
Varianza =npq
Formula ricorrente
Pn , x+1 =
n− x p
Pn, x
x +1 q
56
Pn,x
Distribuzione binomiale
0,4500
0,4000
0,3500
0,3000
0,2500
0,2000
0,1500
0,1000
0,0500
0,0000
p=0,15
n=7
0
2
4
6
q=0,85
8
Distribuzione binomiale
0,3
0,25
Pn,x
0,2
0,15
p=0,5 q=0,5
n=7
0,1
0,05
0
0
5
10
Distribuzione binomiale
0,25
0,15
p=0,15 q= 9,85
n=30
0,1
0,05
0
0
20
40
Distribuzione binomiale
Pn,x
Pn,x
0,2
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
p=q=0,5 n=30
0
10
20
30
40
57
Esempio adattamento binomiale positiva
(me tod o de i mo me nti)
( x
−
x )
2
x
Pn.x (osservato)
x*Pn,x
0
1
2
3
4
5
6
7
Totali
0,3500
0,3700
0,2120
0,0645
0,0031
0,0004
0
0,3700
0,4240
0,1935
0.,0124
0,0020
0,351331
0,000001
0,211195
0,257510
0,027865
0,006394
1,0000
1,0019
0,854296
x = np
P
n , x
Px ( teorico)
χ2
0,3277
0,3963
0,2054
0,0592
0,0102
0,0011
0,0001
0,0000
1,0000
0,001516144
0,001751433
0,000209456
0,00048215
0,004961598
0,000410619
6,10264E-05
1,50629E-06
0,009393934
1,0019 = np
0,8543 = npq
σ = npq
2
σ2
0,8543
q=
=
= 0,8527
x 1,0019
p = 1 − q = 1 − 0,8527 = 0,1473
n=
x 1,0019
=
= 6,80 ≅ 7
p 0,1473
La d is trib uz io ne teo rica ad attata s i o ttie ne sos titue nd o ne lla
∑
⎛ n ⎞ x n− x
⎜⎜ ⎟⎟ p q = 1
⎝ x⎠
∑
⎛7⎞
⎜⎜ ⎟⎟0,1473 x 0,8527 7− x = 1
⎝ x⎠
n
(q + p) n =
i =0
i va lori stima ti p er c u i:
7
(0,8527 + 0,1473) 7 =
i =0
58
Formula di De Moivre
La probabilità che in n prove l’evento si verifichi x volte si può esprimere in funzione
dello scarto ε = x - np
Pn ,np+ε
n! p np+ε q nq−ε
n!(np ) np+ε ( nq ) nq−ε
=
= n
( np + ε )!( nq − ε )! n (np + ε )!( nq − ε )!
che per ε = 0 diventa:
Pn ,np
n! p np q nq
n!( np ) np (nq ) nq
=
=
( np )!( nq )! n n ( np )!( nq )!
Se il numero n delle prove è molto grande, i fattoriali possono essere sviluppati
mediante la formula approssimata di De Moivre Stirling
n!≅ n n e − n 2Πn
Pn , np ≅
1
2Π npq
e se la differenza q-p è piccola
Pn , np + ε ≅
1
− ε 2 /( 2 npq )
e
2Πnpq
funzione continua dello scarto ε
nota come
curva normale delle probabilità
o curva di Gauss
o curva degli errori accidentali
59
Curva normale
0,045
0,04
0,035
0,03
0,025
0,02
0,015
0,01
0,005
61
57
53
49
45
41
37
33
29
25
21
17
13
9
5
1
0
Curve normali
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0
varianza =10
61
55
49
43
37
31
25
19
13
7
1
varianza =5
60
Curva normale in funzione dello scarto ridotto z:
z=
Pn , np + ε ≅
f ( z) =
x − np
1
σ
npq
1 −z2 / 2
e
2Π
1 −z2 / 2
e
2Π
curva normale ridotta o stardardizzata
simmetrica rispetto all’asse delle ordinate
f(z) = f(-z)
campanulare con due punti di flesso in
z = -1
z=1
massimo per z = 0
1
f (0) =
1
2Π
2Π
∞
∫e
−z2 / 2
=1
−∞
La variabile continua z, definita nel campo dei numeri reali,
con funzione di densità di probabilità f(z), è una variabile normale
ridotta che si indica con il simbolo N(0,1) perché la sua distribuzione
di probabilità ha valor medio 0 e varianza 1
61
Esempio formula De Moivre:
Un’ urna contiene 10 palline di cui 2 rosse, 3 bianche e 5 nere. Si effettuino 40
estrazioni di una pallina rimettendo a ogni estrazione la pallina nell’urna. Calcolare la
probabilità che esca 2 volte pallina rossa.
La probabilità che esca pallina rossa è p=2/10.
np = 8 ;
npq = 2,53 ; 3 npq = 7,59 ; ε < 3 npq
La probabilità esatta che in 40 lanci esca np volte pallina rossa è
⎛ 40 ⎞ 2 8 8 32
P40,8 = ⎜⎜ ⎟⎟
= 0,156
10
⎝ 8 ⎠ 10
( ) ( )
La probabilità esatta che in 40 lanci esca 2 volte pallina rossa è
⎛ 40 ⎞ 2 2 8 38
P40,2 = ⎜⎜ ⎟⎟
0,0065
10
⎝ 2 ⎠ 10
( ) ( ) =
Applicando la formula de Moivre:
La probabilità approssimata che in 40 lanci esca np volte pallina rossa è
P40,8 ≅
1
= 0,158
2Π 6,4
La probabilità approssimata che in 40 lanci esca 2 volte pallina rossa è
P40, 2 ≅
1
−[( −6 2 ) /( 2*6 , 4 ) ]
e
= 0,0094
2Π 6,4
62
Probabilità integrali
k
P( − k ≤ z ≤ k ) =
∫ f ( z )dz
k>0
−k
Esempi probabilità integrale:
1) Si vuole calcolare la probabilità che in 40 lanci la pallina rossa esca fino a due
volte
Probabilità esatte secondo la distribuzione binomiale e secondo l’approssimazione
della curva normale
X
Pn.x
ε = (x-np)
0
1
2
0,00013
0,00133
0,00650
-8
-7
-6
z = ε / npq
-3,16
-2,77
-2,37
f(z)
0,0027
0,0087
0,0239
Probabilità
integrale
0,00796
Probabilità integrale secondo la binomiale: 0,00796
Probabilità integrale secondo l’approssimazione della normale: 0,0139
f ( z ) / npq
0,0010
0,0034
0,0095
0,0139
2) Si vuole calcolare la probabilità che in 40 lanci la pallina rossa esca più di due
volte
Probabilità integrale secondo la binomiale: 1 - 0,00796 = 0,99204
Probabilità integrale secondo l’approssimazione della normale: 1 - 0,0139 = 0,9861
3) Si vuole calcolare la probabilità che in 40 lanci la pallina rossa esca da due a
cinque volte
Probabilità esatte secondo la distribuzione binomiale e secondo l’approssimazione
della curva normale
X
Pn.x
ε = (x-np)
z = ε / npq
f(z)
f ( z ) / npq
2
3
4
5
0,00650
0,02052
0,00475
0,08541
-6
-5
-4
-3
-2,37
-1,98
-1,58
-1,19
0,0239
0,0566
0,1143
0,1975
0,0095
0,0224
0,0452
0,0781
Probabilità
integrale
0,15987
0,15508
Probabilità integrale secondo la binomiale: 0,15987
Probabilità integrale secondo l’approssimazione della normale: 0,15508
63
Curva normale
Prob(z < k )
z
Curva normale
-z
z
Prob (-k < z < k )
Curva normale
Prob(z > k )
z
64
Asimmetria e kurtosi
Una distribuzione di frequenza è simmetrica quando esiste un valore m tale che, se si
considerano due valori equidistanti da m, questi hanno la stessa frequenza, ossia
f(m+x)=f(m-x)
dove f(x) è la funzione di frequenza o di densità di frequenza della distribuzione
secondo che questa sia discreta o continua
In una distribuzione unimodale simmetrica, media aritmetica, moda e mediana
coincidono e tutti i momenti di origine la media aritmetica e di grado dispari sono
nulli
Indici di asimmetria
Per una distribuzione unimodale:
x− Mo
Indice del Pearson
σ
Nelle distribuzioni per classi:
3( x − M e )
σ
Indice di asimmetria fondato sui momenti:
µ
µ
β 1 = 33 = 33/ 2
σ
µ2
µ32
β1 = 3
µ2
valore 0 nel caso di simmetria
65
Indice di kurtosi
β2 =
µ4
µ22
Nelle distribuzioni normali µ4 =3σ4 e β2=3
β2<3 platikurtiche
β2=3 mesokurtiche
β2>3 leptokurtiche
Adattamento curva normale
Condizioni : distribuzione di frequenza (probabilità) continua
β1 ≅ 0
β2 ≅ 3
determinazione dei parametri con metodo dei momenti
66
Esempi adattamento curva normale
Classi di ore
di assenza
mensili
valori
centrali
Operai
Freq. Rel.
Estr. sup.
Z
P(Z<z)
Frequenze
relative
teoriche
0,0375
1
-1,45386734
0,07
0,07
0-1
0,5
1-2
1,5
4.500
0,05625
2
-1,30330503
0,10
0,02
2-3
2,5
5.000
0,0625
3
-1,15274271
0,13
0,03
3-5
4
12.000
0,15
5
-0,92689924
0,18
0,05
5-10
7,5
20.000
0,25
10
-0,39993115
0,34
0,17
10-15
12,5
15.500
0,19375
15
0,352880423
0,64
0,29
15-25
20
20.000
0,25
25
1,482097776
0,93
0,29
oltre 25
Totale
65
0
0
65
8,257401893
1
0,07
80.000
1
3.000
1,00
Media=10,16 Varianza =44,11 β1=0,35 β2=1,76
Classi di ore
di assenza
mensili
0-5
5-10
10-15
15-20
20-25
25-30
30-35
Totale
valori
centrali
Operai
2,5
1.000
4.500
10.000
12.000
10.000
4.000
1.000
42.500
7,5
12,5
17,5
22,5
27,5
32,5
Freq. Rel.
Estr. sup.
z
P(Z<z)
Frequenze
relative
teoriche
0,0125
5
-2,28718233
0,01
0,01
0,05625
10
-1,51876139
0,07
0,06
0,125
15
-0,75034045
0,23
0,16
0,15
20
0,018080493
0,51
0,28
0,125
25
0,786501433
0,79
0,28
0,05
30
1,554922374
0,94
0,15
0,0125
35
2,323343315
0,99
0,05
0,53125
0,99
Media=17,38 Varianza =42,34 β1=0,011 β2=2,61
67
Quoziente di Lexis
Quando una serie di n prove indipendenti riguardanti un evento E viene ripetuta N
volte, si possono distinguere i tre casi:
1) Schema di Bernoulli- la probabilità p dell’evento E si mantiene costante in ogni
prova di qualunque serie;
Serie
1
2
…
j
…
N
1°
p
p
…
p
…
p
E (U 2 )
Prove
i°
…
p
…
p
…
…
…
p
…
…
…
p
…
2°
p
p
…
p
…
p
2
= σb = npq
…
…
…
…
…
…
…
n°
p
p
…
p
…
p
2) Schema di Poisson- la probabilità dell’evento varia nelle n prove di ciascuna serie
secondo una legge che si ripete immutata nelle serie successive
Serie
1
2
…
j
…
N
Prove
i° …
1°
2°
…
pi
p1
p2
…
…
pi
p1
p2
…
…
…
…
…
…
…
pi
p1
p2
…
…
…
…
…
…
…
pi
p1
p2
…
…
2
2
2
E (U ) = σP = npq -n σp
n°
pn
pn
…
pn
…
pn
3) Schema di Lexis – la probabilità dell’evento si mantiene costante nelle prove di
una stessa serie ma varia da una serie all’altra
Serie
1
2
…
j
…
N
E (U 2 )
N.B.
Prove
i° …
1°
2°
…
p1
p1
p1
p1
p1
p2
p2
p2
p2
p2
…
…
…
…
…
pj
pj
pj
pj
pj
…
…
…
…
…
pn
pn
pn
pn
pn
2
2
= σ L = npq+n(n-1)σ p
n°
p1
p2
…
pj
…
pn
p = probabilità media di successo dell’evento in una prova;
σ p 2 =varian za dell e probabilità nel com plesso delle n*N prove
X j = n. di successi nella j-esim a serie di n prove
N
⎡
⎤
1
2
2⎥
⎢
E (U ) = E
( X j − np)
⎢N
⎥
⎢⎣
⎥⎦
j =1
∑
68
σ (scarto quadratico medio osservato) rappresenta una stima di E(U2)
σ b ( √ npq calcolato sui dati osservati) r a p p r e s e n t a u n a s t i m a d i
E(U2)qualora
i dati fossero conformi allo schema di Bernoulli
Q=
σ
σ
=
σb
npq
Q= 1 se i dat i so no c o nfo r mi a llo sc he ma d i Be r no ull i
Q< 1 s e i dat i s o no c o nfo r mi a llo s c he ma d i P o is s o n
Q> 1 se i dat i so no c o nfo r mi a llo sc he ma d i Le xis
Esempio quoziente di Lexis
x = successi
0
1
2
3
4
5
6
7
8
9
10
Totali
y = serie di prove
20
40
36
54
50
60
22
34
10
20
10
356
356,97
415,95
178,18
81,00
2,52
36,06
69,34
261,87
142,53
456,07
333,54
2334,02
x = 4, 22
n = 10 ( prove in ogni serie)
p =
Dati conformi allo schema di Lexis
( x − x) 2 y
xy
0
40
72
162
200
300
132
238
80
180
100
1504
Q =
x
= 0,42
n
σ
npq
σ 2 = 6,56
npq = 2,44
= 1,64
69
A d a t t a me n t o b i n o m i a l e
x = np
σ 2 = npq
q=
σ2
x
p = 1− q = 1−
σ2
x
=
x −σ 2
x
2
x
x
x
n= =
=
p x −σ 2 x −σ 2
x
se x > σ 2 → distribuzione binomiale
se x < σ 2 → distribuzione binomiale negativa
se x = σ 2 esponenziale di Poisson
70
D i s t r i b u z i o n e b i n o mi a l e n e g a t i v a
1
q'
n = − n'
q=
q' =
x
1
= 2
q σ
n' = − n =
x
2
σ2 −x
σ2 −x
p' = 1 − q ' =
σ2
p = 1− q = 1−
1
p'
=−
q'
q'
(q + p ) n = (
1 p' −n'
− )
q' q'
∞
⎛ − n' ⎞ x
⎟⎟ p'
(1 − p' )− n' = ∑ ( −1) x ⎜⎜
x =0
⎝ x⎠
∞
⎛ n' + x − 1 ⎞ x n'
1
−n'
⎜⎜
⎟⎟ p' q'
−
=
(
1
p
'
)
∑
q'−n'
x
x =0 ⎝
⎠
⎛ n '+ x − 1⎞ x n '
⎟⎟ p ' q '
Px = ⎜⎜
x
⎝
⎠
µ 0,1 =
n' p '
q'
µ2 =
n' p'
q'2
71
Distribuzione binomiale negativa
0,12
0,6
0,1
0,5
0,08
0,4
n=30 p=0,1
0,06
Px
Px
Distribuzione binomiale negativa
0,04
0,2
0,02
0,1
0
0
0
20
40
n=30 p=0,5
0,3
0
20
40
Esempio adattamento binomiale negativa
Distribuzione di alcune aree abitate secondo il numero di
extracomunitari
X
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Totali
parametri
Momenti
Y
97
41
23
23
8
10
8
4
1
5
2
1
0
1
1
0
1
226
f(x)
95,73
43,16
26,32
17,45
12,03
8,49
6,07
4,40
3,21
2,35
1,73
1,28
0,95
0,70
0,53
0,40
1,20
226
n’ =0,65
p’=0,015
χ2
0,02
0,11
0,42
1,77
1,35
0,27
0,61
0,04
1,52
2,99
0,04
0,06
0,95
0,13
0,42
0,40
0,03
11,12
µ =1,95
σ2= 7,75
n’ =µ2 / (σ2 −µ)
p’= (σ2 − µ)/ σ2
72
Esponenziale di Poisson
θ = np finito
p→0
n→∞
Pn, x
n( n − 1)(n − 2)...( n − x + 1) θ x
θ n− x
=
( ) (1 − )
x!
n
n
θ e −θ
x
lim Pn , x = Px =
x!
n→∞
n( n − 1)(n − 2)...(n − x + 1)
=1
n
n→∞
lim
θ
lim(1 − ) − x = 1
n
n→∞
θ
lim((1 − ) n = e −θ
n
n→∞
θ e −θ
x
Px =
x!
73
Di stribuzione di Poisson
0,4
0,35
0,3
Pn
0,25
p=0,1 media =1
0,2
0,15
0,1
0,05
0
0
5
10
15
Distribuzione di Poisson
0,25
0,2
0,15
Pn
p=0,1 media =3
0,1
0,05
0
0
20
40
Distribuzione di Poisson
0,14
0,12
0,1
0,08
Pn
p=0,1 media =10
0,06
0,04
0,02
0
0
50
100
150
74
Formule ricorrenti
Distribuzione binomiale
Pn , x +1 =
n−x p
Pn , x
x +1 q
Distribuzione binomiale negativa
P0 = q'n '
Px +1 =
n'+ x
p' Px
x +1
Esponenziale di Poisson
P0 = e −θ
Px +1 =
θ
x +1
Px
75
Esempio adattamento Esponenziale di Poisson
Distribuzione di alcune aree abitate secondo il numero di
extracomunitari
X
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Totali
parametri
Momenti
Y
1
1
3
6
13
21
28
30
31
29
26
15
10
5
4
2
1
226
f(x)
0,076
0,607
2,426
6,470
12,939
20,702
27,603
31,547
31,547
28,041
22,433
16,315
10,877
6,693
3,825
2,040
1,020
225,160
χ2
11,27
0,26
0,14
0,03
0,00
0,00
0,01
0,08
0,01
0,03
0,57
0,11
0,07
0,43
0,01
0,00
0,00
13,00
µ =θ
µ =7,88
σ2= 7,81
76