Rappresentazioni analitiche
delle distribuzioni
Massimo Alfonso Russo
Dipartimento di Scienze Economiche,
Matematiche e Statistiche
Università di Foggia
STATISTICA I - 2009 - Foggia
1
Concetto di rappresentazione analitica
Problema: interpretare, valutare e gestire dati ricavati da rilevazioni
statistiche o da esperimenti riguardanti un fenomeno
Si parla di RAPPRESENTAZIONE
INTERPOLAZIONE delle v.s. quando:
ANALITICA
o
¾ note alcune coppie ordinate di valori (xi,yi), interpretabili come
punti di un piano, si vuole determinare una funzione matematica o
interpolante che possa rappresentare nel modo migliore la
distribuzione di un fenomeno osservato
STATISTICA I - 2009 - Foggia
2
L’interpolazione: una precisazione
Distinguiamo due tipi di interpolazione:
1) INTERPOLAZIONE MATEMATICA
Si ricerca una funzione interpolante che passa per i punti di coordinate
(xi,yi). In tal caso, la funzione assume esattamente i valori rilevati
y
y
Pn
P1
0
P2
•
•
•
•
•
Pn
•
P1
•
x
0
STATISTICA I - 2009 - Foggia
P2
•
•
•
•
•
x
3
2) INTERPOLAZIONE STATISTICA
Si ricerca una funzione interpolante che passa fra i punti di coordinate
(xi,yi). In tal caso, la funzione assume valori “vicini” a quelli rilevati
y
y
•
0
• ••
••
•••
• •
x
••
••
••
••
•
•
•
•• •• •
0
x
N.B. – Quando l’insieme dei punti a disposizione è numeroso, come
si verifica generalmente in statistica, è poco probabile che essi
siano disposti lungo una curva, mentre sono frequentemente
dispersi dando luogo a quella che si chiama una “nube di punti”
(diagramma a dispersione)
STATISTICA I - 2009 - Foggia
4
I dati di partenza si configurano sotto una delle seguenti forme
caratteristiche della v.s.:
Distribuzione per singoli valori:
yi
y1
x1
y2
x2
.
•
.
•
xi
.
.
xs
yi
•
•
•
ys
Distribuzione divisa in intervalli:
y1
x1 ─┤ x 2
y2
x 2 ─┤ x 3
•
•
•
•
x i ─┤ x i + 1
•
•
xi
hi
•
yi = ( xi +1 − xi ) ⋅ hi
yi
•
•
•
•
x s ─┤ x s + 1
•
•
•
• • •
ys
STATISTICA I - 2009 - Foggia
xi xi+1
5
Graficamente:
Graficamente occorre sostituire ad una curva empirica (diagramma o
istogramma rappresentativo della distribuzione osservata) una curva
teorica che risponde ad una funzione matematica:
f(xi)
f(xi)
Figura A
Figura B
yi∗ =
yi∗ = f ( xi )
xi+1
∫ f ( x)dx
xi
xi
xi xi+1
La funzione rappresentatrice
genericamente col simbolo:
della
distribuzione
si
indica
y ∗ = f ( x; c0 , c1 ,..., ch )
dove c0, c1, …, ch sono i parametri essenziali che servono a
caratterizzare, nell’interno della famiglia di curve di equazione
y = f ( x ) , quella che si adatta ai valori concreti dati
STATISTICA I - 2009 - Foggia
6
Se la distribuzione è data per singoli valori discreti,
∗
i
y = f ( xi )
rappresenta la frequenza teorica del fenomeno in corrispondenza
della modalità xi (Figura A)
Se la distribuzione è divisa in classi la frequenza è riferita ad una
classe e non ad un punto. In questo caso,
yi∗ =
xi +1
∫ f ( x)dx
xi
ossia l’area al di sotto della curva tra xi e xi+1 in ascissa, rappresenta
la frequenza teorica della classe xi ─┤ xi+1 (Figura B)
STATISTICA I - 2009 - Foggia
7
Scarti o residui
della rappresentazione analitica
Le differenze tra frequenze empiriche e frequenze teoriche:
yi − y
∗
i
i = 1, 2, …, s
si chiamano scarti o residui della rappresentazione
analitica; la loro distribuzione è importante per giudicare
l’adeguatezza della rappresentazione analitica
STATISTICA I - 2009 - Foggia
8
Scopi della rappresentazione analitica
¾ INTERPOLATIVI E DESCRITTIVI
FUNZIONE INTERPOLATRICE O PEREQUATRICE
¾ INVESTIGATIVI
FUNZIONE RAPPRESENTATRICE DELLA V.S.
Per il suo carattere investigativo richiede, per essere individuata, una
approfondita analisi della struttura del fenomeno, contrariamente a ciò che
avviene nel caso della funzione interpolatrice che, per i suoi scopi pratici, è
meno impegnativa e può limitarsi a tener conto dei soli dati concreti di
osservazione.
STATISTICA I - 2009 - Foggia
9
Scopi interpolativi e descrittivi
1. Perequare la distribuzione delle frequenze yi corrispondenti alle xi
allo scopo di eliminare eventuali errori;
errori i valori perequati danno una
distribuzione che si può presumere meno errata di quella osservata
2. Dare continuità al fenomeno sostituendo i dati osservati con una
funzione f(x) continua, quando il fenomeno è essenzialmente discontinuo
(come nel caso del numero di figli per famiglia)
3. Ricercare un’espressione matematica in grado di esprimere il legame
delle frequenze yi alle modalità del carattere xi con maggiore evidenza e
precisione della distribuzione osservata. In tal caso il vantaggio è
connesso con la possibilità di essere assoggettata ai procedimenti
dell’analisi matematica (derivazione, integrazione, ecc.) per fini
particolari (ad es., determinazione dei massimi, minimi, punti di flesso,
ecc., che, nel campo statistico possono servire a trovare valori di
saturazione di un mercato, valori di massima frequenza, e simili)
STATISTICA I - 2009 - Foggia
10
Scopi investigativi
Si vuole trovare un modello teorico che spieghi la manifestazione delle
varie modalità, di cui quelle osservate riguardano generalmente un
campione: determinare un’espressione matematica che sintetizza la
legge statistica che rappresenta il fenomeno prescindendo dai risultati
concreti delle osservazioni (a differenza di quanto succede con la
funzione interpolatrice)
STATISTICA I - 2009 - Foggia
11
Perequazione grafica
Con tale procedimento, la curva teorica continua che meglio sembra
rappresentare la distribuzione viene tracciata ad occhio, facendo in
modo che:
• le differenze positive tra frequenze empiriche e perequate
compensino quelle negative;
• le differenze positive e negative siano possibilmente alternate
Nel caso di istogrammi:
l’area racchiusa dalla curva interpolatrice deve risultare uguale,
almeno approssimativamente, all’area racchiusa dall’istogramma sia
nell’intero intervallo dei dati, sia nelle singole classi o gruppi di classi
Vantaggi: -) è eseguibile con sufficiente rapidità
Svantaggi: -) può portare a risultati differenti se effettuata da operatori diversi
-) non si ottiene una curva con sufficiente regolarità di andamento
STATISTICA I - 2009 - Foggia
12
Nella figura sottostante c’è un esempio di perequazione grafica di
istogrammi. La curva a tratteggio è tracciata ad occhio mentre, con tratto
continuo, è indicata la curva teorica da cui sono stati ricavati gli
istogrammi
1000
900
800
700
600
500
400
300
200
100
0
0 -2
2 -4
4 -6
6 -8
8 - 10
La differenza tra la curva perequata e quella teorica mostra come
l’operatore, spesso, segua da vicino il contorno dell’istogramma
disegnando curve distorte rispetto all’andamento della curva analitica
STATISTICA I - 2009 - Foggia
13
Perequazione meccanica o a medie mobili
Talvolta le successive frequenze empiriche presentano delle deviazioni a
carattere accidentale (ad es., per il limitato numero di casi che si riferiscono
a ciascuna modalità)
In tal caso, volendo perequare dette deviazioni, si può procedere con la
perequazione meccanica o per medie mobili
La perequazione meccanica o per medie mobili consiste nel sostituire alle
frequenze osservate yi le frequenze corrette yi* ottenute effettuando la media
di ciascuna frequenza con le frequenze contigue
Esempio di perequazione con 3 termini; frequenze corrette:
yi −1 + yi + yi +1
y =
3
∗
i
i = 2, 3, …, s - 1
Esempio di perequazione con 5 termini; frequenze corrette:
yi − 2 + yi −1 + yi + yi +1 + yi + 2
y =
5
∗
i
STATISTICA I - 2009 - Foggia
i = 3, 4, …, s - 2
14
Fasi della rappresentazione analitica
Per giungere alla y* = f (x; c0, c1, …, ch) vi sono tre fasi:
1)
SCELTA DEL TIPO DI FUNZIONE
(che più si adatta alle caratteristiche della distribuzione data)
2) DETERMINAZIONE NUMERICA DEI PARAMETRI ci
(che compaiono nel tipo di funzione assunta nella prima fase)
3) CALCOLO DEL GRADO DI ACCOSTAMENTO
(delle frequenze osservate a quelle teoriche)
STATISTICA I - 2009 - Foggia
15
Scelta del tipo di funzione
1) Funzioni deducibili da ipotesi sulla struttura del fenomeno
a) Se disponiamo dei risultati di una serie di osservazioni (ad es., che
riguardino il rendimento per ettaro di una data coltivazione) fatte su un
gruppo di aziende, allora, se si ritengono valide le ipotesi a base della
curva normale, scegliamo la funzione:
N
y =
e
σ 2π
*
(
x − μ )2
−
2σ 2
b) Per le distribuzioni dei redditi, dei patrimoni, dei capitali societari e di
numerose altre grandezze economiche, Gibrat ha suggerito la curva
lognormale:
lognormale
⎧ 1
2⎫
−
+
−
[
λ
log
(
x
θ
)
]
⎨
⎬
Nδ
y* =
2π ( x − θ )
e⎩
2
⎭
Altri tipi di distribuzioni teoriche: di Pareto,
Pareto esponenziale,
esponenziale gamma,
gamma di Weibull
STATISTICA I - 2009 - Foggia
16
Curva teorica di Pareto
α
y = Nαθ x
∗
− (α +1)
STATISTICA I - 2009 - Foggia
17
Distribuzione teorica esponenziale
⎡ ⎛ x − θ ⎞⎤
y = exp ⎢− ⎜
⎟⎥
σ
⎣ ⎝ σ ⎠⎦
∗
N
STATISTICA I - 2009 - Foggia
18
Distribuzione teorica gamma
∗
y =
exp[− ( x − θ ) / σ ]
σ α Γ(α )
α −1
N (x −θ )
STATISTICA I - 2009 - Foggia
19
Distribuzione di Weibull
∗
y =
{
Nα ( x − θ )α −1 exp − [( x − θ ) / σ ]
σα
α
}
N.B. – Spesso, soprattutto nel caso in cui occorre rappresentare una parte
di una distribuzione, come funzioni interpolatrici si possono scegliere la
retta (lineare) o la parabola di 2º grado:
∗
i
y = a + bx
yi∗ = a + bx + cx 2
STATISTICA I - 2009 - Foggia
20
x >θ
rappresenta la durata
N
Nelle distribuzioni viste:
θ
λ
δ
σ
α
sono i parametri
STATISTICA I - 2009 - Foggia
21
2) Analisi della forma grafica assunta dai dati osservati:
Dalla posizione dei punti (diagramma) o dalla forma dell’istogramma,
mediante analisi grafica, è possibile stabilire se alla v.s. data si adatta una
curva normale, una curva di Pareto, una distribuzione lognormale, una
distribuzione gamma, ecc., o, più semplicemente, una funzione lineare, una
parabola, un’esponenziale, ecc.
Perequazione grafica
Per facilitare il problema della scelta
della funzione, a volte si esegue
prima:
Anamorfosi
[trasformazione
della variabile x o y (o
entrambe) in modo da ridurre il
grafico ad una curva più
semplice, generalmente ad una
retta]
STATISTICA I - 2009 - Foggia
22
Nel procedimento di anamorfosi rientra la trasformazione di
variabile in scala logaritmica semplice o doppia
Esempio
Distribuzione esponenziale:
y = αβ x
Trasformazione logaritmica:
log y = log α + x log β
STATISTICA I - 2009 - Foggia
v ∗ = a + bx
23
Condizioni generali per il calcolo dei
parametri
1) Imporre alla funzione y*=f(x) che vi sia uguaglianza tra convenienti
ed opportune operazioni fatte sulle yi e le stesse operazioni ripetute
sulle yi* in modo che si abbia:
(
O( xi , yi ) = O xi , yi∗
)
Scegliendo opportunamente il tipo di operatore O, si possono
scrivere tante uguaglianze quanti sono i parametri,
parametri dando luogo ad
un sistema la cui soluzione dà i parametri incogniti c0, c1, …, ch
2) Minimizzare gli scarti tra frequenze empiriche yi e frequenze
teoriche yi*, cioè: “cercare tra le infinite funzioni teoriche del tipo
scelto quella che più si avvicina alla distribuzione empirica”
STATISTICA I - 2009 - Foggia
24
Metodo delle ordinate fisse
ƒ Supponiamo di avere s coppie di valori non affette da errori e di
rappresentarle sul piano cartesiano: si ottiene una serie di s punti per i
quali dovrà passare (tra le infinite possibili) la funzione che si cerca.
ƒ Affinchè il problema sia determinato occorre:
a) fissare il tipo di funzione
b) fissare tante condizioni distinte (ognuna non è combinazione delle
altre) e compatibili (non in contrasto tra loro) quanti sono i parametri
Supponiamo che s condizioni siano indipendenti e che la funzione
scelta abbia altrettanti parametri:
y ∗ = f x; c0 , c1 ,..., cs −1
Il passaggio per s punti si ottiene ponendo le s uguaglianze tra le
frequenze empiriche e le corrispondenti frequenze teoriche:
(
y1 = y1∗
y2 = y2∗
..........
y s = y s∗
)
y1 = f ( x1 ; c0 , c1 ,..., cs −1 )
ossia
y2 = f ( x2 ; c0 , c1 ,..., cs −1 )
..........................
ys = f ( xs ; c0 , c1 ,..., cs −1 )
STATISTICA I - 2009 - Foggia
25
N.B. – Per evitare funzioni con molti parametri, e quindi complesse, è
possibile scegliere solo alcuni punti per i quali far passare la curva,
facendo attenzione,
attenzione in tale scelta, che la curva si discosti il meno
possibile dagli altri punti.
punti
SVANTAGGI DEL METODO:
• Non sempre il sistema è risolvibile analiticamente
(ricorso a metodi di risoluzione numerica o all’elaboratore)
• Soggettività nella scelta dei punti per i quali far passare la funzione valida
STATISTICA I - 2009 - Foggia
26
Metodo delle somme
Applicazione condizione generale:
generale l’operatore O
SOMMA DELLE FREQUENZE
Se nella funzione scelta compaiono h + 1 parametri
ƒ si dividono le s frequenze empiriche in h + 1 gruppi (ugualmente numerosi)
ƒ si eguagliano le frequenze empiriche totali di ciascun gruppo con quelle
teoriche corrispondenti:
m1
m1
∑y =∑y
i =1
i
m2
∑ yi =
i = m1 +1
i =1
i =1
∗
y
∑ i
i = m1 +1
i = mh +1
s
i
i = mh +1
∗
i
m1
∑ y = ∑ f (x ; c , c ,..., c )
m2
.....................
∑y = ∑y
s
m1
∗
i
i
m2
ossia
∑y
i = m1 +1
i
i
i =1
=
0
h
1
m2
∑ f (x ; c , c ,..., c )
i = m1 +1
0
i
1
h
................................
s
∑y
i = mh +1
i
=
s
∑ f (x ; c , c ,..., c )
i = mh +1
STATISTICA I - 2009 - Foggia
i
0
1
h
27
Metodo delle somme… segue
Il metodo delle somme è largamente utilizzato:
1. quando c’è il sospetto che le frequenze yi siano imprecise
2. quando gli errori si compensano all’interno dei gruppi considerati
3. perché è semplice, in particolare quando la funzione scelta è lineare
STATISTICA I - 2009 - Foggia
28
Metodo delle aree o di Cantelli
Quando le frequenze non si riferiscono a valori singoli, ma ad intervalli di
modalità, la rappresentazione grafica viene fatta con gli istogrammi e il metodo
delle somme prende il nome di metodo delle aree di Cantelli.
L’uguaglianza delle somme diventa con questo metodo l’uguaglianza fra aree: le
frequenze empiriche sono le aree dei rettangoli dell’istogramma, le frequenze
teoriche sono pari alle aree sotto la curva teorica, che sono analiticamente uguali
agli integrali definiti dai limiti delle successive classi.
Il sistema è così definito:
xm1+1
⎧ m1
⎪ ∑ yi = ∫ f (x; c0 , c1 ,..., ch )dx
⎪ i =1
x1
xm2 +1
⎪ m2
⎪ ∑ yi = f ( x; c0 , c1 ,..., ch )dx
∫
⎨i = m1 +1
xm1+1
⎪
.......................
⎪ s ..........
xs +1
⎪
⎪ ∑ yi = ∫ f ( x; c0 , c1 ,..., ch )dx
xmh +1
⎩i = mh +1
N.B. – occorre che si
sappia integrare la f(x)
STATISTICA I - 2009 - Foggia
29
Esempio sul metodo delle ordinate fisse
Consideriamo la distribuzione della popolazione (espressa in migliaia)
residente italiana di 70-79 anni di età all’inizio del 1979 per classi annuali
d’età, riportata nelle prime due colonne della tabella sottostante:
xi
yi
(età)
(Popolazione)
yi*= 2556,4-29,6x
y - yi *
70
494
484,4
+ 9,6
71
440
454,8
- 14,8
72
420
425,2
- 5,2
73
392
395,6
- 3,6
74
366
366,0
0
75
323
336,4
- 13,4
76
313
306,8
+ 6,2
77
283
277,2
+ 5,8
78
269
247,6
+ 21,4
79
218
218,0
0
Totale
3518
Il diagramma relativo alla
distribuzione
suggerisce
di
scegliere
come
funzione
interpolatrice la retta (lineare):
y* = c0 + c1x
A questo punto occorrerà
scegliere due punti empirici per i
quali far passare la retta
80,0
STATISTICA I - 2009 - Foggia
30
600
500
400
300
Serie1
Punti empirici
convenienti:
200
100
(x2, y2) = (79, 218)
La retta passa abbastanza vicina agli
altri punti, lasciandone alcuni al di
sopra e altri al di sotto
0
70
1 71
2 723 73
4
(x1, y1) = (74, 366)
74
5 75
6 76
7 77
8 78
9 79
10
Imponendo le condizioni che i due punti soddisfino l’equazione della retta:
y* = c0 + c1x otteniamo il seguente sistema:
y1 = c0 + c1x1
366 = c0 + c1 (74)
c0 = 2556,4
y2 = c0 + c1x2
218 = c0 + c1 (79)
c1 = -29,6
da cui: yi* = 2556,4 – 29,6 xi
STATISTICA I - 2009 - Foggia
31
Esempio sul metodo delle somme
Consideriamo la distribuzione dei prezzi di un dato bene da gennaio a
maggio (Gennaio = 0, Maggio = 4)
Il diagramma suggerisce di scegliere come funzione interpolatrice la
retta
Per calcolare i due parametri, suddividiamo la distribuzione in due
gruppi ugualmente numerosi:
xi
yi
yi*
y - yi*
0
10
9,3
0,7
1
15
11,7
3,3
25
20
15
2
10
14,0
-4,0
3
3
20
35
16,3
35
3,6
0
4
3
15
20
18,6
16,3
-3,6
3,6
4
15
18,6
-3,6
7
35
35
0
10
5
0
0
1
STATISTICA I - 2009 - Foggia
2
3
4
32
Uguaglianza tra le somme parziali delle frequenze empiriche e quelle
teoriche:
2
2
∑y =∑y
i =0
i
4
i =0
4
y =∑y
∑
i =3
i =3
i
∗
i
∗
i
c0 = 9,3
2
2
∑ y = ∑ (c
i =0
i
0
+ c1 xi )
35 = 3c0 + 3c1
0
+ c1 xi )
35 = 2c0 + 7c1
i =0
4
4
∑ y = ∑ (c
i =3
i
i =3
yi∗ = 9,3 + 2,3x
c1 = 2,3
-) Le somme parziali delle yi empiriche eguagliano le somme parziali
delle yi teoriche, così come la somma di tutte le yi eguaglia la somma
di tutte le yi*
-) L’interpolazione effettuata è molto soddisfacente per tutti i mesi; per
tutte le modalità le frequenze teoriche sono molto vicine a quelle
empiriche
STATISTICA I - 2009 - Foggia
33
Esempio sul metodo delle aree
Sia data la seguente distribuzione per classi da interpolare con una
parabola, funzione individuata dall’analisi della rappresentazione sugli
assi cartesiani:
xi ─┤xi+1
yi
Densità
frequenza
16
0–2
2,8
1,4
14
2–4
8,0
4
12
4–6
11,2
5,6
10
6–8
15,2
7,6
8
8 – 10
14,0
7,0
6
10 – 12
9,8
4,9
4
12 – 14
6,8
3,4
2
14 - 16
2,0
1,0
0
0–2
2–4
2
4–6
4
6–8
6
STATISTICA I - 2009 - Foggia
8 – 10
8
10 – 12
10
12 – 14
12
14 - 16
14
16
34
Suddividiamo il gruppo degli 8 rettangoli in 3 sottogruppi costituiti da 3,
da 2 e da 3 rettangoli rispettivamente il primo delimitato dall’intervallo
(0,6) dell’asse delle ascisse, il secondo dall’intervallo (6,10) e il terzo
dall’intervallo (10,16):
⎧6
2
+
+
(
c
c
x
c
x
)dx = 22
⎪∫ 0 1
2
⎪0
⎪⎪10
2
(
c
c
x
c
x
)dx = 29, 2
+
+
⎨∫ 0 1
2
⎪6
⎪16
⎪ ∫ (c0 + c1 x + c2 x 2 )dx = 18, 6
⎪⎩10
2
3 6
⎧⎡
x
x ⎤
⎪ ⎢c0 x + c1 + c2 ⎥ = 22,0
2
3 ⎦0
⎪⎣
⎪
2
3 10
x
x ⎤
⎪⎡
⎨⎢c0 x + c1 + c2 ⎥ = 29,2
2
3 ⎦6
⎪⎣
2
3 16
⎪⎡
x
x ⎤
⎪ ⎢c0 x + c1 + c2 ⎥ = 18,6
2
3 ⎦10
⎪⎩ ⎣
STATISTICA I - 2009 - Foggia
35
⎧6c0 + 18c1 + 72c2 = 22
⎪
⎨4c0 + 32c1 + 261,33c2 = 29, 2
⎪6c + 78c + 1032c = 18, 6
1
2
⎩ 0
Risolvendo si ha c0 = 1,448, c1 = 2,293, c2 = -0,147 per cui l’equazione della
parabola è: y = -1,448 + 2,293x - 0,147x2.
8
7
6
5
4
3
2
1
0
0-2
2-4
4-6
6-8
8 - 10
10 - 12
12 - 14
Integrando questa equazione tra gli estremi di ciascuna delle 8 classi si
ottengono le corrispondenti frequenze teoriche (es. tra 2 e 4 la frequenza
4
teorica è 8,12, come si vede di seguito) ∫ (1,448 + 2,293 x − 0,147 x 2 )dx = 8,12
2
STATISTICA I - 2009 - Foggia
36
Metodo dei momenti
Definiamo momento empirico di ordine t la quantità
s
mt = ∑ x yi
i =1
t
i
t = 0, 1, ........
Dove xi sono le modalità mentre yi sono le frequenze relative
(con le freq. assolute devo moltiplicare per 1/n).
Dando a t i valori 0, 1, 2, ……., si giunge a:
m0 = ∑ xi0 yi = 1
m1 = ∑ xi yi = μ
m2 = ∑ xi2 yi = M 22
m3 = ∑ xi3 yi = M 33
Cioè il momento di ordine 0 è uguale a 1, quello di ordine 1
è uguale alla media aritmetica, e i successivi sono pari ai
radicandi delle medie di potenza.
STATISTICA I - 2009 - Foggia
37
Il momento empirico centrale (o dalla media) è:
s
mt' = ∑( xi − μ)t yi
t = 0, 1, ........
i =1
Dove xi sono le modalità mentre yi sono le frequenze relative
(yi = ni/N)
Dando a t i valori 0, 1, 2, ……., si ottiene:
m = ∑ ( xi − μ ) yi = 1
'
0
0
m = ∑ ( xi − μ ) yi = 0
'
1
1
E’ possibile sintetizzare gli
aspetti delle distribuzioni in
base ai primi quattro momenti.
m2' = ∑ ( xi − μ ) 2 yi = σ 2
m3' = ∑ ( xi − μ ) 3 yi = γ 1σ 3
m4' = ∑ ( xi − μ ) 4 yi = (γ 2 + 3)σ 3
STATISTICA I - 2009 - Foggia
38
Definiamo momento teorico di ordine t la quantità
s
m =∑x y
*
t
i =1
t = 0, 1, ........
*
i
t
i
Se la distribuzione è discreta le frequenze teoriche sono:
y * = f ( xi ; c0 , c1 ,..., cn )
da cui :
s
mt* = ∑ xit f ( xi ; c0 ,..., cn )
i =1
Se la distribuzione è continua si ha:
y* =
xi +1
∫ f (x ; c , c ,..., c )dx
i
xi
da cui:
0
1
n
β
m = ∫ x f (xi ; c0, .., cn )dx
*
t
t
i
α
STATISTICA I - 2009 - Foggia
α − β = campo di
variazione della f(x)
39
Tale tecnica è basata sull'uguagliare i momenti empirici
coi momenti teorici della corrispondente distribuzione.
mt = m
*
t
facendo assumere a t un ordine tale che il numero delle
equazioni coincida con il numero dei parametri da
determinare.
STATISTICA I - 2009 - Foggia
40
L’uguaglianza fra momenti teorici ed empirici nel caso di
distribuzione continua porta ad un sistema del tipo:
β
⎧
⎪∑ yi = ∫ f ( x; c0, c1 ,..., cn )dx
α
⎪
β
⎪
⎪⎪∑ xi yi = x ⋅ f ( x; c0, c1 ,..., cn )dx
∫α
⎨
⎪..............................................
⎪
β
⎪
⎪∑ x in yi = ∫ x n ⋅ f ( x; c0, c1 ,..., cn )dx
⎪⎩
α
Si tratta di un sistema a k
equazioni in k incognite.
Dalla sua risoluzione, se
esiste, otteniamo la stima
cercata.
Per esplicitare i parametri occorre risolvere gli integrali definiti.
STATISTICA I - 2009 - Foggia
41
Esempio: metodo dei momenti (retta)
Classi N stud Densità di
voto (xi)
(yi)
frequenza
0-2
28
14
2-4
45
23
4-6
80
40
6-8
112
56
8 - 10
152
76
10 - 12
180
90
Totale
D e n s i tà i fr e q u e n z a N u m e r o
s tu d e n ti
Distribuzione degli studenti per classi del voto conseguito
(prima dell’arrotondamento) all’ esame finale SSIS
100
90
80
70
60
50
40
30
20
10
0
0-2
2-4
4-6
6-8
8 - 10
10 - 12
Classi di voti
597
STATISTICA I - 2009 - Foggia
42
Esempio: metodo dei momenti (retta)
Distribuzione degli studenti nei valori centrali delle classi
N stud
(yi)
1
28
3
45
5
80
7
112
9
152
11
180
Totale
597
200
180
Numero studenti
Valori
centrali
(xi)
180
160
140
120
100
80
60
40
20
0
152
112
80
45
28
0-2
2-4
4-6
6-8
8 - 10
10 - 12
Classi di voto
Funzione interpolante scelta dall’analisi del diagramma: retta
STATISTICA I - 2009 - Foggia
43
Esempio: metodo dei momenti (retta)
Calcolo dei momenti empirici
t
x
∑ i yi =
=
mt
Classi voto N stud
(yi)
(xi)
⎧
⎪
⎪
⎨
⎪
⎪
⎩
t *
x
∑ i yi
m
*
t
Valori
centrali (xi)
xi · yi
0-2
28
1
28
2-4
45
3
135
4-6
80
5
400
6-8
112
7
784
8 - 10
152
9
1.368
10 - 12
180
11
1.980
Totale
597
Totale
4.695
β
1
1
⋅ ∑ yi = ⋅ ∫ (a + bx)dx
N
N α
β
1
1
⋅ ∑ x1i yi = ⋅ ∫ x ⋅ (a + bx)dx
N
N α
β
⎧
⎪ 597 = ∫ (a + bx)dx
⎪
α
⎨
β
⎪ 4695 = x ⋅ (a + bx)dx
∫
⎪
α
⎩
STATISTICA I - 2009 - Foggia
44
Esempio: metodo dei momenti (retta)
Calcolo dei momenti teorici
β
⎧
⎪ 597 = ∫ (a + bx)dx
⎪
α
⎨
β
⎪ 4695 = x ⋅ (a + bx)dx
∫
⎪
α
⎩
⎧
⎡
bx 2 ⎤ 12
⎪ 597 = ⎢ax +
⎥
2
⎦0
⎪
⎣
⎨
⎡ ax 2 bx 3 ⎤ 12
⎪
⎪ 4695 = ⎢ 2 + 3 ⎥ 0
⎦
⎣
⎩
∫
12
⎧
⎪ 597 = ∫ (a + bx)dx
⎪
0
⎨
12
⎪ 4695 = (ax + bx 2 )dx
∫
⎪
0
⎩
x
n
x n +1
=
n +1
⎧ 597 = 12a + 72b
⎨
⎩ 4695 = 72a + 576b
STATISTICA I - 2009 - Foggia
45
Esempio: metodo dei momenti (retta)
Risolvendo il sistema si ottiene a= 3,375 e b=7,729, per cui
la retta interpolante ha equazione:
y * = 3,375 + 7,729 x
Il calcolo delle singole frequenze teoriche si ottiene
integrando per ogni singola classe la funzione interpolante.
Den
Freq
y* i
22,2
14,0
11,1
45
53,1
22,5
26,6
4-6
80
84,0
40,0
42,0
6-8
112
115,0
56,0
57,5
8 - 10
152
145,9
76,0
72,9
10 - 12
180
176,8
90,0
88,4
Totale
597
597
yi
0-2
28
2-4
y*i
Fre teoriche
Dens freq
num ero studenti
Den
Freq
yi
C. Voto
(xi)
Freq empiriche
Lineare (Fre teoriche)
100
90
80
70
60
50
40
30
20
10
0
0-2
2-4
4-6
6-8
8 - 10
10 - 12
Classi di voto
STATISTICA I - 2009 - Foggia
46
Esempio 2: metodo dei momenti (curva normale)
Consideriamo la distribuzione delle stature di 8.416 baresi
ventenni e rappresentiamola con la curva normale.
Classi di stature
(xi - xi+1)
140,5
144,5
148,5
152,5
156,5
160,5
164,5
168,5
172,5
176,5
180,5
184,5
188,5
192,5
-
144,5
148,5
152,5
156,5
160,5
164,5
168,5
172,5
176,5
180,5
184,5
188,5
192,5
196,5
Valori
centrali
xci
142,5
146,5
150,5
154,5
158,5
162,5
166,5
170,5
174,5
178,5
182,5
186,5
190,5
194,5
STATISTICA I - 2009 - Foggia
yi
4
13
77
271
829
1.579
2.065
1.796
1.102
491
146
32
7
4
47
Esempio 2: metodo dei momenti (curva normale)
La curva normale ha tre parametri che la definiscono: N,
μ e σ 2 . Avremo un sistema di tre equazioni, dove:
( x−μ )
+∞
⎧1
−
N
1
2σ 2
⎪ ∑ yi =
e
dx
Freq empirica = Frequenza teorica
∫
N
N
⎪
−∞ σ 2π
⎪
(
x − μ )2
+∞
Nx − 2σ 2
1
⎪1
Media empirica = Media teorica
e
dx
⎨ ∑ xi y i =
∫−∞ σ 2π
N
N
⎪
2
⎪
+∞
2 − ( x−μ )
Var. emp.= Var. teorica
1 N (x − μ)
2
⎪1
2σ 2
e
dx
( xi − μ ) y i =
∑
∫
⎪N
N −∞ σ 2π
⎩
2
STATISTICA I - 2009 - Foggia
48
Esempio 2: metodo dei momenti (curva normale)
Calcolato N = 8.416, μ = 167,375 e σ2 = 6,4862, la
curva normale interpolatrice è:
2
8 . 416
f ( x) =
e
6 , 486 2π
−
( x −167 , 375 )
2 ⋅6 , 486 2
Ora le frequenze teoriche della curva normale possono essere
calcolate dalla formula che esprime la formula normale
y =
*
i
xi +1
∫
xi
−
8.416
e
6, 486 2π
( x −167,375)2
2⋅6,4862
dx =
⎡ ⎛ xi +1 − 167,375 ⎞
⎛ xi − 167,375 ⎞ ⎤
−Φ⎜
8.416 ⎢Φ ⎜
⎥
⎟
⎟
6, 486
⎠
⎝ 6, 486 ⎠ ⎦
⎣ ⎝
STATISTICA I - 2009 - Foggia
49
Esempio 2: metodo dei momenti (curva normale)
STATISTICA I - 2009 - Foggia
50
Esempio 2: metodo dei momenti (curva normale)
STATISTICA I - 2009 - Foggia
51
Metodo dei minimi quadrati
La condizione generale dei metodi trattati finora per ricavare un
sistema di equazioni per il calcolo dei parametri della funzione y*=f(x)
è stata:
O ( xi , yi ) = O ( xi , y i )
*
Il metodo che considereremo si fonda su una condizione di
accostamento delle frequenze empiriche a quelle teoriche per trovare
i parametri della funzione rappresentatrice che più si avvicina alla
distribuzione empirica.
Sostituendo ai valori yi rilevati i valori y*i teorici si commettono errori
dati dalla differenza:
di= yi -y*i
gli errori possono essere positivi, negativi o nulli.
STATISTICA I - 2009 - Foggia
52
y
Pi
⎧ y
⎪ i
di ⎨ ∗
⎪y i
⎩
Pn
P*i
P1
P2
0
x1
x2
xi
xn
STATISTICA I - 2009 - Foggia
x
53
Condizione del metodo dei
minimi quadrati
Il metodo dei minimi quadrati si fonda sulla condizione di
accostamento fra frequenze empiriche e frequenze teoriche e
consiste nel determinare i parametri del tipo di funzione scelta per
rappresentare il fenomeno tale che la somma dei quadrati delle
differenze fra i valori osservati yi ed i valori teorici y*i sia
minima.
∑( y
s
i =1
)
* 2
i
− yi
= minimo
STATISTICA I - 2009 - Foggia
54
Nb: Un’area minore sta
ad indicare un grado di
accostamento migliore.
y
Pi
⎧ yi
di ⎨ ∗
⎩y i
Pn
P*i
P1
P2
0
x1
x2
xi
xn
STATISTICA I - 2009 - Foggia
x
55
Se la funzione interpolatrice è:
y i = f ( xi ;c0 ,c1,...,ch )
*
per il metodo dei minimi quadrati deve essere:
n
∑ [y
i =1
i
− f ( xi ;c0 ,c1,...,ch )] = minimo
2
dove i valori xi ed yi sono noti, mentre sono incogniti i parametri c0,
c1,…,ch della funzione.
Il primo membro è una funzione di più variabili, pertanto il minimo
va ricercato tra quei valori che annullano le derivate prime parziali.
Supposto che la funzione scelta sia derivabile rispetto a tutti i
parametri incogniti, si dovrà risolvere un sistema di h+1 equazioni in
h+1 incognite.
STATISTICA I - 2009 - Foggia
56
Si risolve il seguente sistema:
⎧n
∂f ( xi ;c0 ,c1,..., ch )
=0
⎪∑ [ yi − f ( xi ;c0 ,c1,..., ch )]⋅
∂c0
⎪ i =1
⎪n
∂f ( xi ;c0 ,c1,..., ch )
⎪
=0
⎨∑ [ yi − f ( xi ;c0 ,c1,..., ch )]⋅
∂c1
⎪ i =1
..........................................
⎪..........
n
⎪ [ y − f ( x ;c ,c ,..., c )]⋅ ∂f ( xi ;c0 ,c1,..., ch ) = 0
i
i 0 1
h
⎪⎩∑
∂ch
i =1
Il metodo dei minimi quadrati è un metodo analitico che permette di
trovare la funzione che meglio rappresenta la distribuzione del
fenomeno statistico tra quelle della stessa famiglia. Se, ad esempio, dal
grafico risulta che il migliore accostamento si ottiene con una retta,
questa sarà la migliore retta di adattamento.
Questo metodo si basa su condizioni tecnico-matematiche che non sono
arbitrarie e soggettive. Ecco perché è usato in presenza di dati esatti.
STATISTICA I - 2009 - Foggia
57
Funzioni interpolatrici
Funzione lineare
Nel caso in cui la funzione scelta sia una retta:
y* = a + bx
si deve rendere minima la funzione:
n
∑ (y
i =1
i
− a − bxi )
2
Derivando rispetto ai parametri a e b ed uguagliando a zero le
derivate parziali si ottiene il seguente sistema lineare:
⎧ n
⎪2 ⋅ ∑ ( yi − a − bxi ) ⋅ (−1) = 0
⎪ i =1
⎨ n
⎪2 ⋅ ( y − a − bx ) ⋅ (− x ) = 0
i
i
i
⎪⎩ ∑
i =1
n
n
⎧ n
⎪−∑ yi + ∑ a + b∑ xi = 0
⎪ i =1
i =1
i =1
⎨ n
n
n
⎪− x ⋅ y + a x + b x2 = 0
∑
∑
i
i
i
i
⎪⎩ ∑
i =1
i =1
i =1
STATISTICA I - 2009 - Foggia
58
Da cui si ottiene il seguente sistema:
NB: trattasi di un sistema di due
n
n
⎧
equazioni in due incognite che può
N
a
b
x
y
⋅
+
⋅
=
∑
i ∑i
⎪
essere risolto in vari modi, la cui
⎪
i=1
i=1
formula risolutiva è la seguente:
⎨ n
n
n
⎪a⋅ x +b⋅ x 2 = x ⋅ y
∑
∑
∑
i
i
i i⎧
⎪⎩ i=1
∑ y ⋅∑ x − ∑ x y ⋅ ∑ x
i=1
i=1
⎪
n
n
i
Nella pratica, tuttavia, è più
conveniente impostare il
sistema sopra indicato con i
dati di un determinato
esercizio.
2
i
n
n
i
i
i =1
i =1
i =1
⎪ a = i =1
2
n
n
⎪
⎛
⎞
2
⋅
−
N
x
x
∑
⎪
i
⎜∑ i⎟
i =1
⎝ i =1
⎠
⎪
⎪
⎨
⎪
n
n
n
⎪
N ⋅ ∑ xi yi − ∑ xi ⋅ ∑ yi
⎪b =
i =1
i =1
i =1
2
⎪
n
n
⎛
⎞
⎪
N ⋅ ∑ xi 2 − ⎜ ∑ xi ⎟
⎪⎩
i =1
⎝ i =1
⎠
STATISTICA I - 2009 - Foggia
i
59
Esempio 1
Interpoliamo con una funzione rettilinea e con il metodo dei minimi
quadrati la seguente serie storica “liquidazioni coatte e
amministrazioni straordinarie delle grandi imprese in crisi dal 1987 al
n
n
1991”.
⎧
⎪N ⋅ a + b ⋅ ∑ xi = ∑ yi
⎪
i =1
i =1
⎨ n
n
n
2
⎪
106,6 a ⋅ x + b ⋅ x = x ⋅ y
∑
∑
i
i
i
i
⎪⎩ ∑
i =1
i =1
i =1
Anni ti
xi=ti-1987
Procedure
yi
xi2
xi·yi
1987
0
111
0
0
1988
1
114
1
114
1989
2
112
4
224
111,4
1990
3
80
9
240
113,8
1991
4
140
16
560
116,2
Tot.
10
557
30
1138
557
yi*
109
⎧5a + 10b = 557
⎨
⎩10a + 30b = 1138
⎧ a = 106 ,6
⎨
⎩ b = 2,4
y * = 2,4 x + 106 ,6
STATISTICA I - 2009 - Foggia
60
Esempio 1 … segue
Per il calcolo dei parametri si possono utilizzare delle ascisse di lavoro
tali che la loro somma dia zero. Quando il numero dei termini è dispari
basta porre il tempo centrale uguale a zero. Quando il numero dei
termini è pari, l’origine (arbitraria) cade nel mezzo dei due termini
centrali. In questo modo nel sistema risolutivo visto in precedenza si
annullano tutti i termini che contengono la somma delle xi.
⎧
⎪N⋅a+b⋅∑xi =∑yi
⎪
i=1
i=1
⎨ n
n
n
⎪a⋅ x +b⋅ x 2 = x ⋅ y
∑
∑
i
i
i i
⎪⎩ ∑
i=1
i=1
i=1
n
n
n
⎧
yi
∑
⎪
⎪a = i =1
N
⎪
⎪
n
⎨
xi yi
∑
⎪
⎪b = i =1n
2
⎪
x
∑
i
⎪⎩
i =1
STATISTICA I - 2009 - Foggia
61
Esempio 1 … segue
Riprendendo l’esempio precedente e
utilizzando opportune ascisse di lavoro
si ha:
y * = 2 , 4 x + 111 , 4
Anni ti
xi=ti-1989
Procedure
yi
xi2
xi·yi
yi*
1987
-2
111
4
-222
106,6
1988
-1
114
1
-114
109
1989
0
112
0
0
111,4
1990
1
80
1
80
113,8
1991
2
140
4
280
116,2
Tot.
0
557
10
24
557
n
⎧
yi
∑
⎪
557
i =1
=
= 111,4
⎪a =
5
N
⎪⎪
n
⎨
xi yi
∑
⎪
24
i =1
=
= 2,4
⎪b = n
10
2
⎪
x
∑
1
⎪⎩
i =1
In
particolare
a
rappresenta la media
aritmetica annua del
fenomeno, b la variazione assoluta teorica
media
annua
del
fenomeno e b/a la
variazione media annua
relativa.
STATISTICA I - 2009 - Foggia
62
Importanti conclusioni
Dal sistema di seguito:
n
n
⎧
⎪N ⋅ a + b ⋅ ∑ xi = ∑ yi
⎪
i =1
i =1
⎨ n
n
n
⎪a ⋅ x + b ⋅ x 2 = x ⋅ y
∑
∑
i
i
i
i
⎪⎩ ∑
i =1
i =1
i =1
dividendo la prima equazione per N, ricaviamo a:
n
a=
∑y
i =1
N
n
i
−b⋅
∑x
i =1
i
N
e ricordando le formule delle medie si ha:
a = y −b⋅x
STATISTICA I - 2009 - Foggia
63
Sostituendo il valore di a nella funzione della retta y*=a+bx si
ottiene:
y − y = b ⋅ (x − x )
*
Tale retta passa per il punto ( x , y ) che prende il nome di baricentro
della distribuzione.
Dopo una serie di calcoli si verifica che:
n
⎧
( xi − x ) ⋅ ( yi − y )
∑
⎪
⎪b = i =1 n
2
⎨
(
)
x
x
−
∑
i
⎪
i =1
⎪
⎩a = y − b ⋅ x
STATISTICA I - 2009 - Foggia
64
Esempio 2
Interpoliamo con una funzione rettilinea e con il metodo dei minimi
quadrati la seguente serie storica “distribuzione dei libri venduti da
una casa editrice dal 1995 al 2000”.
Anni ti
xi=ti-1994
libri yi
xi2
xi·yi
xi − x
( xi − x )2
1995
1
800
1
800
-2,5
6,25
-335
837,5
1996
2
980
4
1960
-1,5
2,25
-155
232,5
1997
3
1040
9
3120
-0,5
0,25
-95
47,5
1998
4
1200
16
4800
0,5
0,25
65
32,5
1999
5
1240
25
6200
1,5
2,25
105
157,5
2000
6
1550
36
9300
2,5
6,25
415
1037,5
21
6810
91
26180
0
17,5
0
2345
Tot.
STATISTICA I - 2009 - Foggia
yi − y (xi −x)⋅(yi −y)
65
y
1600
1200
800
400
1995
1996
1997
1998
1999
2000
x
STATISTICA I - 2009 - Foggia
66
Applicando direttamente la formula risolutiva si ha:
n
n
n
n
∑ y ⋅∑ x − ∑ x y ⋅ ∑ x ( 6.810 ⋅ 91) − ( 26.180 ⋅ 21)
a=
=
= 666
i =1
i
i =1
2
i
i
i =1
i
⎛
⎞
n ⋅ ∑ xi 2 − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
b=
n
i =1
2
n
n
n
i =1
i =1
i =1
2
n ⋅ ∑ xi yi − ∑ xi ⋅ ∑ yi
⎛ n ⎞
n ⋅ ∑ xi − ⎜ ∑ xi ⎟
i =1
⎝ i =1 ⎠
n
2
i
( 6 ⋅ 91) − ( 21)
2
6 ⋅ 26.180 ) − ( 21⋅ 6.810 )
(
=
= 134
2
( 6 ⋅ 91) − ( 21)
oppure
n
⎧
( xi − x ) ⋅ ( yi − y )
∑
⎪
2.345
1
=
i
⎪b =
=
= 134
n
⎨
17,5
2
( xi − x )
∑
⎪
⎪a = y − bi =⋅1 x = 1.135 − 134 ⋅ 3,5 = 666
⎩
STATISTICA I - 2009 - Foggia
67
L’equazione della retta è: y*=134x +666
y
1600
1200
800
400
Anni ti
xi
libri yi
y*i
1995
1
800
800
1996
2
980
934
1997
3
1040
1068
1998
4
1200
1202
1999
5
1240
1336
2000
6
1550
1470
21
6810
6810
Tot.
1995
1996
1997
1998
1999
2000
x
STATISTICA I - 2009 - Foggia
68
Esempio 2 con Excel
STATISTICA I - 2009 - Foggia
69
STATISTICA I - 2009 - Foggia
70
STATISTICA I - 2009 - Foggia
71
Funzione quadratica
Nel caso in cui la funzione scelta sia una parabola:
y* = a + bx+cx2
si deve rendere minima la funzione:
∑ (y
n
i =1
i
− a − bxi − cxi
)
2 2
Derivando rispetto ai parametri a, b e c ed uguagliando a zero le
derivate parziali si ottiene il seguente sistema:
n
n
n
⎧
2
N
a
b
x
c
x
⋅
+
⋅
+
⋅
∑
∑
i
i = ∑ yi
⎪
i =1
i =1
i =1
⎪
n
n
n
⎪ n
2
3
a
x
b
x
c
x
⋅
+
⋅
+
⋅
⎨ ∑ i
∑
∑
i
i = ∑ xi ⋅ yi
i =1
i =1
i =1
⎪ i =1
n
n
n
⎪ n 2
3
4
2
a
x
b
x
c
x
x
⋅
+
⋅
+
⋅
=
⎪ ∑ i
∑
∑
∑
i
i
i ⋅ yi
i =1
i =1
i =1
⎩ i =1
NB: trattasi di un
sistema
di
tre
equazioni
in
tre
incognite (i parametri
a, b e c)
STATISTICA I - 2009 - Foggia
72
Esempio 3
Interpoliamo con una funzione quadratica e con il metodo dei minimi
quadrati la seguente serie storica “distribuzione dei computer venduti
da un negozio dal 1995 al 2000”.
Anni ti
xi=ti-1994
computer
yi
xi2
xi·yi
xi2·yi
xi3
xi4
y*i
1995
1
10
1
10
10
1
1
11,89
1996
2
21
4
42
84
8
16
12,42
1997
3
12
9
36
108
27
81
24,49
1998
4
53
16
212
848
64
256
48,09
1999
5
86
25
430
2150
125
625
83,21
2000
6
128
36
768
4608
216
1296
129,90
Tot.
21
310
91
1498
7808
441
2275
310
STATISTICA I - 2009 - Foggia
73
y
120
90
60
30
1995
1996
1997
1998
1999
STATISTICA I - 2009 - Foggia
2000
x
74
n
n
n
⎧
2
N
a
b
x
c
x
⋅
+
⋅
+
⋅
∑
∑
i
i = ∑ yi
⎪
i =1
i =1
i =1
⎪
n
n
n
⎪ n
2
3
a
x
b
x
c
x
⋅
+
⋅
+
⋅
⎨ ∑ i
∑
∑
i
i = ∑ xi ⋅ yi
i =1
i =1
i =1
⎪ i =1
n
n
n
⎪ n 2
3
4
2
a
x
b
x
c
x
x
⋅
+
⋅
+
⋅
=
⎪ ∑ i
∑
∑
∑
i
i
i ⋅ yi
i =1
i =1
i =1
⎩ i =1
Inserendo in questo sistema i dati della tabella precedente si ottiene:
⎧6a + 21b + 91c = 310
⎪
⎨21a + 91b + 441c = 1498
⎪91a + 441b + 2275c = 7808
⎩
⎧a = 22,9
⎪
le cui soluzioni sono: ⎨b = −16,775
⎪c = 5,768
⎩
STATISTICA I - 2009 - Foggia
75
L’equazione della parabola è:
y*
= 22,9 - 16,775x
Anni ti
xi
computer yi
y*i
1995
1
10
11,89
1996
2
21
12,42
1997
3
12
24,49
1998
4
53
48,09
1999
5
86
83,21
2000
6
128
129,90
Tot.
21
310
310
+5,768x2
y
120
90
60
30
1995
1996
1997
1998
1999
2000
x
STATISTICA I - 2009 - Foggia
76
Determinazione del grado di
accostamento
E’ l’ultima fase della rappresentazione analitica dei fenomeni
collettivi ed ha lo scopo di calcolare il grado di approssimazione che
si è avuto tra le frequenze teoriche e le frequenze empiriche.
Qualora i dati osservati siano stati interpolati usando funzioni
differenti oppure usando procedimenti di calcolo dei parametri
soddisfacenti a condizioni diverse, il grado di accostamento può
servire a stabilire quali delle distribuzioni teoriche debba essere
preferita.
Se l’accostamento è buono, vuol dire che nulla si oppone a
rappresentare la distribuzione rilevata con la funzione scelta.
Se l’accostamento non è buono, vuol dire che occorrerà cercare
un’altra funzione rappresentativa.
STATISTICA I - 2009 - Foggia
77
Indici di accostamento
Una misura di accostamento deve soddisfare le seguenti condizioni:
9attribuire la stessa importanza a due scarti uguali, ma di segno
opposto
9crescere al crescere degli scarti
Assoluti
Indici di accostamento
Relativi
STATISTICA I - 2009 - Foggia
78
Indici di accostamento assoluti
1. media aritmetica dei valori assoluti degli scarti:
n
ε1 =
∑
i =1
y i − y *i
n
2. media quadratica degli scarti:
n
ε2 =
∑( y − y )
i =1
*
i
2
i
n
Tali indici dipendono dalla grandezza delle yi, pertanto per eliminare
l’influenza di tale circostanza conviene ricorrere agli indici relativi.
STATISTICA I - 2009 - Foggia
79
Indici di accostamento relativi
Sono ottenuti rapportando i precedenti indici alla media aritmetica
delle frequenze empiriche.
n
n
∑ y −y
1.
i
i =1
δ=
*
i
n
n
∑y
i =1
i
n
=
∑ y −y
*
i
i
i =1
2.
n
∑y
i =1
∑ (y
i =1
2
− y
i
*
i
)
2
n
δ =
n
∑
i
yi
i =1
n
n
Usando invece la media quadratica
delle yi al denominatore si ha 22δ che
esprime un indice quadratico di
accostamento più omogeneo dei
precedenti.
n
δ =
2
2
STATISTICA I - 2009 - Foggia
∑(y
i =1
i
−y )
* 2
i
n
2
y
∑ i
i =1
80
Uso degli indici di accostamento
1) Gli indici relativi di accostamento vengono usualmente moltiplicati
per 100 allo scopo di esprimere il risultato numerico in percentuale
della corrispondente media.
Tanto più piccoli sono i valori degli indici tanto migliore è
l’accostamento.
2) Usando il metodo dei minimi quadrati l’indice da preferire è quello
quadratico.
3) Se l’interpolazione ha lo scopo di eliminare l’influenza degli errori
accidentali, le differenze yi-yi* devono presentare una successione di
segni alterni. Un criterio per giudicare il carattere accidentale degli
scarti si ha verificando che gli stessi si distribuiscono secondo una
curva normale.
STATISTICA I - 2009 - Foggia
81
Esempio 4
Si vuole determinare il grado di accostamento delle funzione usate per
rappresentare la seguente serie storica “distribuzione dei computer
venduti da un negozio dal 1995 al 2000”, sapendo che si è usato il
metodo dei minimi quadrati con una funzione quadratica e con una
funzione lineare, determinare quella più appropriata Anni ti computer yi
L’equazione della parabola è:
y*p= 22,9 - 16,775x +5,768x2
L’equazione della retta è:
y*r= 23,6x -30,93
STATISTICA I - 2009 - Foggia
1995
10
1996
21
1997
12
1998
53
1999
86
2000
128
Tot.
310
82
Anni ti computer yi
xi
y*i
y*i
|yi-y*i|
|yi-y*i|
(yi-y*i)2
(yi-y*i)2
(parabola)
(retta)
(parabola)
(retta)
(parabola)
(retta)
1995
10
1
11,89
-7.33
1,89
17,33
3,57
300,33
1996
21
2
12,42
16,27
8,58
4,73
73,62
22,37
1997
12
3
24,49
39,87
12,49
27,87
156
776,74
1998
53
4
48,09
63,46
4,91
10,46
24,11
109,41
1999
86
5
83,21
87,06
2,79
1,06
7,78
1,12
2000
128
6
129,90
110,67
1,9
17,33
3,61
300,33
310
21
310
310
32,56
78,78
268,69
1510,3
Tot.
n
∑( y
i =1
δp =
n
−y )
* 2
i
n
2
=
n
∑y
i =1
n
i
268,69
6
= 0,1295 2δ r =
310
6
∑( y
i =1
i
− y* )2
n
n
∑y
i =1
i
1510,3
6
=
= 0,3071
310
6
n
STATISTICA I - 2009 - Foggia
83
In base agli indici di accostamento la funzione da preferire è la
parabola.
Anni ti
y
120
yi
y*i
y*i
(parabola)
(retta)
1995
10
11,89
-7.33
1996
21
12,42
16,27
1997
12
24,49
39,87
1998
53
48,09
63,46
1999
86
83,21
87,06
2000
128
129,90
110,67
310
310
310
90
60
Tot.
30
1995
1996
1997
1998
1999
2000
x
STATISTICA I - 2009 - Foggia
84