Statistica descrittiva - O-:--:-O-:--:-O

Statistica descrittiva
Roberto Boggiani
Versione 2
14 dicembre 2003
1
Introduzione
La Statistica riguarda i metodi scientifici per raccogliere, ordinare, riassumere, presentare e analizzare i
dati, ad anche per trarre valide conclusioni e prendere ragionevoli decisioni sulla base di tali analisi.
In tutti i problemi di statistica ci si trova di fronte ad una massa (grande o piccola) di dati che
sono raccolti, classificati ed elaborati in vista di certi scopi. Questi possono essere diversi da problema a
problema ed oggi si distinguono, nella teoria della statistica tre rami principali che rispondono ai nomi
di:
statistica descrittiva: si ha un problema di statistica descrittiva quando i dati raccolti si considerano
come un ente a sè, isolato quindi da altri analoghi che non sono stati raccolti. Se ad esempio, si
vuol sapere quanti sono, in una biblioteca, i libri di matematica, quelli di economia, di fisica, di
statistica e cosı̀ via, è sufficiente considerare volume per volume, classificarlo secondo la materia
trattata e riassumere i dati ottenuti in una tabella. Questo prospetto ha però un significato molto
ristretto in quanto vale solamente per quella biblioteca, nell’istante considerato. In altre parole, i
dati cosı̀ raccolti servono solamente a descrivere certe caratteristiche di quella biblioteca.
statistica inferente: ben più complicata è la statistica inferente la quale opera su campioni e quindi
su grandezze di tipo probabilistico. Lo scopo che si propone la statistica inferente può essere cosı̀
sintetizzato: da una certa popolazione, i cui caratteri sono ignoti, si estrae un campione casuale e
in base ai dati che esso fornisce si vuol provare (cioè accettare o respingere) una certa ipotesi, che
riguarda la popolazione.
teoria delle decisioni statistiche: si ha un problema di decisione quando si possono seguire diverse
alternative per raggiungere un certo obiettivo e bisogna selezionarne una (o, eventualmente, alcune).
La selezione avviene in modo che l’obiettivo da raggiungere sia ottimo, sotto un certo profilo. Inoltre
il problema può presentarsi in condizioni di certezza oppure di incertezza, intendendo, in questo
secondo caso, che esso è connesso con eventi casuali.
In questa dispensa, che non considera il calcolo delle probabilità, non tratteremo della statistica inferente
e della teoria delle decisioni statistiche, limitandoci ad esporre la statistica descrittiva.
2
Le fasi di una ricerca statistica
Come esistono dei problemi la cui soluzione richiede l’impiego della matematica, dei problemi che si
risolvono solamente ricorrendo alla fisica, cosı̀ esistono certe questioni la cui risposta non può essere data
che dopo aver effettuato una opportuna ricerca statistica. Le fasi in cui si articola una ricerca statistica
sono le seguenti:
1. Individuazione del fenomeno o dei fenomeni che si intendono studiare
2. Individuazione della popolazione da analizzare e quindi delle singole unità statistiche che riguarderanno la ricerca.
3. Raccolta dei dati da ciascuna unità statistica, loro classificazione con compilazione di tabelle.
4. Tracciamento di diagrammi facendo uso delle tabelle precedentemente ricavate.
5. Elaborazione dei dati.
6. Conclusione a cui si perviene a seguito della ricerca.
1
4
Statistica descrittiva univariata qualitativa
3
Statistica descrittiva
Come abbiamo detto, si ha un problema di statistica descrittiva quando i dati raccolti si considerano
come un ente a sè, isolati quindi da altri analoghi che non sono stati raccolti. Quando si effettua una
ricerca statistica, ciascuna unità statistica può essere analizzata facendo riferimento
• ad un solo fenomeno: si parlerà allora di statistica descrittiva univariata
• a due fenomeni: si parlerà allora di statistica descrittiva bivariata
• a tre o più fenomeni: si parlerà allora di statistica descrittiva multivariata
Inoltre se si considera un solo fenomeno sarà necessario analizzare anche le manifestazioni di quel fenomeno
nelle varie unità statistiche. Tali manifestazioni prendono il nome di modalità. Emerge allora la necessità
di predisporre quella che è chiamata scala delle modalità, che altro non è se non il vocabolario dei termini
che saranno adottati per interpretare le possibili manifestazioni del fenomeno considerato. Le scale delle
modalità, una volta costruite, rappresentano poi la fonte inderogabile del linguaggio che sarà adottato
nell’investigare intorno al fenomeno preso in esame. Le scale delle modalità possono essere:
• nominali: quando si articolano in modalità suscettibili di essere ordinati in qualunque modo
• ordinali: quando si articolano in modalità suscettibili di un ordinamento
• intervallari: quando si articolano in modalità che si identificano sempre con numeri aventi però la
prerogativa di quantificare le manifestazioni di un fenomeno
• di rapporto: quando si articolano in modalità caratterizzate dall’avere una origine fissa che risulta
in via naturale lo zero
Se si effettua una ricerca di statistica descrittiva univariata considerando quindi solamente un fenomeno
si avrà che
• se la rilevazione del fenomeno viene effettuata su scala di modalità di tipo nominale o ordinale si
parlerà di fenomeno di tipo qualitativo
• se la rilevazione del fenomeno viene effettuata su scala di modalità di tipo intervallare o di rapporto
si parlerà di fenomeno di tipo quantitativo.
Se si effettua una ricerca di statistica descrittiva bivariata o multivariata i vari fenomeni oggetto di studio
potranno combinarsi tra di loro in tutti i modi possibili. Nei prossimi paragrafi tratteremo allora i seguenti
casi:
• statistica descrittiva univariata qualitativa in cui il fenomeno oggetto di studio è di tipo qualitativo
• statistica descrittiva univariata quantitativa in cui il fenomeno oggetto di studio è di tipo quantitativo
• statistica descrittiva bivariata quantitativa in cui i fenomeni oggetto di studio sono entrambi di tipo
quantitativo
• statistica descrittiva bivariata qualitativa in cui i fenomeni oggetto di studio sono entrambi di tipo
qualitativo
4
4.1
Statistica descrittiva univariata qualitativa
Introduzione
Sia X un generico fenomeno di tipo qualitativo intorno al quale s’intende indagare. Fissata la popolazione
P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno
oggetto di studio che verranno nel seguito indicate con
m1 , m 2 , m 3 , . . . , m h
con h ≤ n sarà immediato costruire la seguente tabella:
statistica
2
rb
4
Statistica descrittiva univariata qualitativa
4.2
m
m1
m2
...
mi
...
mh
Frequenze relative
f
f1
f2
...
fi
...
fh
n
in cui i valori di fi con i = 1..h, detti frequenze assolute, rappresentano il numero delle unità statistiche
caratterizzate dall’avere la stessa modalità mi . Si noti che per tale tabella
h
X
fi = n
i=1
ossia la somma delle frequenze assolute sarà uguale al numero delle unità statistiche che compongono la
popolazione. Se il fenomeno oggetto di studio è misurabile su scala ordinale, sarà opportuno procedere
anche alla costruzione delle frequenze cumulate che indicheremo con F e che non sono altro che la somma
delle frequenze assolute dalla prima modalità a quella che stiamo considerando. Si otterrà allora la
seguente tabella:
m
m1
m2
...
mi
...
mh
4.2
f
f1
f2
...
fi
...
fh
n
F
F1 = f1
F2 = f1 + f2
...
Pi
Fi = k=1 fk
...
Fh = n
Frequenze relative
Se dividiamo ciascuna frequenza assoluta fi per per n otteniamo
pi =
fi
∀ i = 1..h
n
detto frequenza relativa. Tali frequenze relative sono molto importanti per esprimere un primo giudizio
sul fenomeno oggetto di studio. Naturalmente si avrà che:
h
X
pi = 1
i=1
Sarà possibile ottenere con analogo procedimento anche le frequenze relative cumulate.
4.3
Rappresentazioni grafiche
Possiamo effettuare una rappresentazione grafica del fenomeno oggetto di studio utilizzando la tabella
delle frequenze assolute e relative e costruendo particolari grafici quali:
• i grafici a barra
• i grafici a torta
4.4
La moda e la mediana
La riorganizzazione dei risultati della rilevazione in tabelle con frequenze assolute e relative e la rappresentazione in grafici consentono di ottenere una panoramica di come il fenomeno X è distribuito nelle n
unità della popolazione P e permettono di ottenere due valori di sintesi di tale distribuzione dati da:
la moda: è data dalla modalità che presenta la frequenza relativa o assoluta più elevata e viene indicata
con m0
statistica
3
rb
5
Statistica descrittiva bivariata qualitativa
4.5
La mutabilità
la mediana: può essere calcolata solamente su scale di modalità ordinali e rappresenta la modalità che,
una volta ordinate nel senso non decrescente le n unità di P rispetto alle modalità medesime, è
posseduta da quella che occupa il posto centrale, ovvero che lascia alla sua destra ed alla sua sinistra
un numero uguale di unità e cioè n−1
2 . Ta mediana viene calcolata con l’ausilio delle frequenze
relative cumulate e se esiste sarà indicata con m0.5 . Si noti che si potranno verificare due casi:
• se n è dispari la mediana sarà univocamente determinata e sarà data dalla modalità a cui
corrisponde l’unità statistica di posto n+1
2
• se n è pari non è detto che la mediana esista in quanto essa sarà data dalle modalità a cui
corrispondono le unità statistiche di posto n2 e n2 + 1. Se queste due modalità sono diverse la
mediana non esiste.
4.5
La mutabilità
Si nota però che la ricerca della moda e della mediana non illuminano circa il comportamento tenuto dallo
stesso fenomeno nell’ambito delle n unità che costituiscono la popolazione P . Dobbiamo allora spostare la
nostra attenzione ad un altro aspetto del comportamento del fenomeno X e, precisamente, alla variabilità
ch’esso ha presentato ovvero, come si usa dire alla sua mutabilità. Per comprendere cosa si intende per
mutabilità è opportuno introdurre il concetto di omogeneità. La popolazione P è detta omogenea se
le n unità statistiche che la formano risultano caratterizzate tutte dalla medesima modalità m. Se tale
fatto non si verifica, se, cioè, l rilevazione ha chiamato alla ribalta più di una modalità, si parla allora di
mutabilità che, pertanto, può definirsi come assenza di omogeneità. Dobbiamo allora introdurre un indice
che traduca il grado di mutabilità del fenomeno considerato e che dovrà avere le seguenti caratteristiche:
• assumere il valore zero quando il fenomeno si è manifestato con una sola modalità e quindi non
dimostrando alcuna mutabilità
• assumere valori via via maggiori del minimo quanto più le n unità statistiche della popolazione P
approssimano l’equidistribuzione fra le h modalità della scala adottata.
• assumere il valore uno se l’osservazione propone una equidistribuzione
La letteratura statistica propone a tal fine due indici:
l’indice del Gini dato da:
h
G=
h X
pi (1 − pi )
h − 1 i=1
l’indice di Shannon dato da:
H=−
h
X
pi ln pi
i=1
in cui pi come al solito identifica la frequenza relativa del fenomeno oggetto di studio.
5
5.1
Statistica descrittiva bivariata qualitativa
Introduzione
Fissata la popolazione P composta da n unità statistiche vogliamo rilevare da ciascuna delle unità oggetto
di studio le modalità in cui si manifestano due fenomeni di tipo qualitativo che indicheremo con X e Y
e le cui modalità saranno indicate rispettivamente con
X m1 ,X
m2 ,X m3 , . . . ,X mh
e
Y
m1 ,Y m2 ,Y m3 , . . . ,Y mk
con hq ≤ n sarà immediato costruire la seguente tabella a doppia entrata:
statistica
4
rb
5
Statistica descrittiva bivariata qualitativa
X \Y
X m1
X m2
...
X mi
...
X mh
f.j
m1
f11
f21
...
fi1
...
fh1
f.1
Y
m2
f12
f22
...
fi2
...
fh2
f.2
Y
5.2
...
...
...
...
...
...
...
...
mj
f1j
f2j
...
fij
...
fhj
f.j
Y
...
...
...
...
...
...
...
...
mk
f1k
f2k
...
fik
...
fhk
f.k
Y
Frequenze relative
fi.
f1.
f2.
...
fi.
...
fh.
n
in cui i valori di fij con i = 1..h ed j = 1..k detti frequenze assolute, rappresentano il numero delle unità
statistiche caratterizzate dall’avere la coppia di modalità (X mi ,Y mj ). Per tale tabella avremmo che:
•
h X
k
X
fij = n
i=1 j=1
•
k
X
fij = fi. ∀ i = 1..h
j=1
•
h
X
fij = f.j ∀ j = 1..k
i=1
•
k
X
f.j =
j=1
5.2
h
X
fi. = n
i=1
Frequenze relative
Se dividiamo ciascuna frequenza assoluta fij per per n otteniamo
fij
∀ i = 1..h ∀j = 1..k
n
detto frequenza relativa. Tali frequenze relative sono molto importanti per esprimere un primo giudizio
sul fenomeno oggetto di studio. Naturalmente si avrà che: Naturalmente si avrà che:
pij =
•
h X
k
X
pij = 1
i=1 j=1
•
k
X
pij = pi. ∀ i = 1..h
j=1
•
h
X
pij = p.j ∀ j = 1..k
i=1
•
k
X
j=1
5.3
p.j =
h
X
pi. = 1
i=1
L’indipendenza tra X ed Y
Fissata la popolazione P composta da n unità statistiche e rilevata da ciascuna delle unità oggetto di
studio le modalità in cui si manifestano due fenomeni di tipo qualitativo indicati con X e Y possiamo
come visto arrivare alla formulazione della seguente tabella a doppia entrata
X \Y
X m1
X m2
...
X mi
...
X mh
f.j
statistica
m1
f11
f21
...
fi1
...
fh1
f.1
Y
m2
f12
f22
...
fi2
...
fh2
f.2
Y
...
...
...
...
...
...
...
...
5
mj
f1j
f2j
...
fij
...
fhj
f.j
Y
...
...
...
...
...
...
...
...
mk
f1k
f2k
...
fik
...
fhk
f.k
Y
fi.
f1.
f2.
...
fi.
...
fh.
n
rb
6
Statistica descrittiva univariata quantitativa
5.4
La connessione tra X e Y
Diremo allora che il fenomeno X è indipendente dal fenomeno Y se accade che:
fij =
fi. f.j
n
e questo ∀ i = 1..h e ∀j = 1..k. Naturalmente se X e indipendente da Y anche Y è indipendente da X.
Se accade che X ed Y sono indipendenti si avrà anche che:
•
fij
fi.
=
f.j
n
•
fij
f.j
=
fi.
n
5.4
La connessione tra X e Y
Un aspetto al quale rivolgere l’attenzione nel caso di analisi di due fenomeni qualitativi è la connessione,
intendendosi con tale nome il fatto che una o più modalità del fenomeno X manifestino una preferenza ad
associarsi con una o più modalità del fenomeno Y . Cosı̀, ad esempio, facendo riferimento ai due fenomeni
colore degli occhi e colore dei capelli è possibile che il castano degli occhi si associ preferibilmente con
lo stesso colore dei capelli. Tenuto conto di quanto detto nel paragrafo 5.3 si può anche dire che due
fenomeni qualitativi X ed Y sono tra loro connessi se fra i medesimi non esiste indipendenza, ovvero se
non tutte le frequenze assolute della tabella a doppia entrata soddisfano alla relazione:
fij =
fi. f.j
n
e questo ∀ i = 1..h e ∀j = 1..k. Ne discende che per scoprire se X ed Y sono tra di loro connessi è
sufficiente porre a confronto la tabella dei dati osservati con la tabella teorica costruita con le stesse
frequenze marginali fi. e f.j in cui:
fi. f.j
?
fij
=
n
e questo ∀ i = 1..h e ∀j = 1..k. Per lo studio della connessione tra due fenomeni vengono prevalentemente
usati due indici:
l’indice di Mortara:
h
C=
k
1 XX
?
|fij − fij
|
n i=1 j=1
l’indice di χ2 :
χ2 =
k
h X
? 2
X
(fij − fij
)
1
?
n min{(h − 1), (k − 1)} i=1 j=1
fij
Entrambi questi indici godono delle seguenti proprietà:
• entrambi sono uguali a zero se non c’è connessione ed anzi in questo caso le due variabili sono tra
di loro indipendenti
• se c’è massima connessione tale indice vale 1 anzi in questo caso le due variabili sono perfettamente
dipendenti
• in generale tali indici variano da 0 ad 1
6
6.1
Statistica descrittiva univariata quantitativa
Introduzione
Sia X un generico fenomeno di tipo quantitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno
oggetto di studio che verranno nel seguito indicate con
x1 , x2 , x3 , . . . , xh
con h ≤ n sarà immediato costruire la seguente tabella:
statistica
6
rb
6
Statistica descrittiva univariata quantitativa
6.2
X
x1
x2
...
xi
...
xh
Frequenze relative
f
f1
f2
...
fi
...
fh
n
in cui i valori di fi con i = 1..h, detti frequenze assolute, P
rappresentano il numero delle unità statistiche
h
caratterizzate dall’avere la stessa modalità xi . Si noti che i=1 fi = n ossia che la somma delle frequenze
assolute deve essere uguale al numero delle unità statistiche che compongono la popolazione. Sarà sempre
possibile in questo caso procedere alla costruzione delle frequenze cumulate che indicheremo con F e
che non sono altro che la somma delle frequenze assolute dalla prima modalità a quella che stiamo
considerando. Si otterrà allora la seguente tabella:
X
x1
x2
...
xi
...
xh
f
f1
f2
...
fi
...
fh
n
F
F1 = f1
F2 = f1 + f2
...
Pi
Fi = k=1 fk
...
Fh = n
Il fenomeno X di tipo quantitativo prende anche il nome di variabile
6.2
Frequenze relative
Se dividiamo ciascuna frequenza assoluta fi per per n otteniamo
pi =
fi
∀ i = 1..h
n
detto frequenza relativa. Tali frequenze relative sono molto importanti per esprimere un primo giudizio
sul fenomeno oggetto di studio. Naturalmente si avrà che:
h
X
pi = 1
i=1
Sarà possibile ottenere con analogo procedimento anche le frequenze relative cumulate.
6.3
Rappresentazioni grafiche
Possiamo effettuare una rappresentazione grafica del fenomeno oggetto di studio utilizzando la tabella
delle frequenze assolute e relative e costruendo particolari grafici quali:
• i grafici a istogramma
• i grafici a boxplot
6.4
La moda e la mediana
La riorganizzazione dei risultati della rilevazione in tabelle con frequenze assolute e relative e la rappresentazione in grafici consentono di ottenere una panoramica di come il fenomeno X è distribuito nelle n
unità della popolazione P e permettono di ottenere due valori di sintesi di tale distribuzione dati da:
la moda: è data dalla modalità che presenta la frequenza relativa o assoluta più elevata e viene indicata
con m0
statistica
7
rb
6
Statistica descrittiva univariata quantitativa
6.5
Le medie algebriche potenziate
la mediana: che in questo caso può sempre essere calcolata rappresenta la modalità che, una volta
ordinate nel senso non decrescente le n unità di P rispetto alle modalità medesime, è posseduta da
quella che occupa il posto centrale, ovvero che lascia alla sua destra ed alla sua sinistra un numero
uguale di unità e cioè n−1
2 . La mediana viene calcolata con l’ausilio delle frequenze relative cumulate
e sarà indicata con m0.5 . Si noti che si potranno verificare due casi:
• se n è dispari la mediana sarà univocamente determinata e sarà data dalla modalità a cui
corrisponde l’unità statistica di posto n+1
2
• se n è pari non è detto che la mediana sia univocamente determinata in quanto essa sarà data
dalle modalità a cui corrispondono le unità statistiche di posto n2 e n2 + 1. Se queste due
modalità sono diverse un procedimento per il calcolo della mediana sarà quello di effettuare la
loro media aritmetica.
In questo caso la mediana gode di una importante proprietà che è quella di minimizzare la somma
degli scarti assoluti dei valori ossia:
h
X
|xi − m0.5 | = minimo
i=i
6.5
Le medie algebriche potenziate
Sia X una variabile intorno alla quale s’intende indagare. Fissata la popolazione P composta dalle n
unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che
verranno nel seguito indicate con
x1 , x2 , x3 , . . . , xh
con h ≤ n sarà immediato ottenere come già visto le relative frequenze assolute date da
f1 , f2 , f3 , . . . , fh
Prende allora il nome di media algebrica potenziata di ordine r la seguente:
v
u Ph
r
u
r
i=1 xi fi
t
Ph
r mX =
i=1 fi
Per i vari valori di r si otterranno le seguenti medie:
• per r = −1 si avrà la media armonica data da
Ph
fi
= Phi=1 f
i
−1 mX
i=1 xi
• per r → 0 si otterrà la media geometrica data da
0 mX
=
v
u h
uY f
t xi
Ph
i=1 fi
i
i=1
• per r = 1 si otterrà la media aritmetica data da
Ph
1 mX
= Pi=1
h
xi fi
i=1
fi
essendo la più usata, tale media verrà indicata d’ora in avanti con il simbolo mX
• per r = 2 si otterrà la media quadratica data da
v
u Ph
2
u
i=1 xi fi
t P
2 mX =
h
i=1 fi
statistica
8
rb
6
Statistica descrittiva univariata quantitativa
6.6
Valori in classi intervallari
• per r = 3 si otterrà la media cubica data da
v
u Ph
3
u
3
i=1 xi fi
=t
Ph
i=1 fi
3 mX
Si può dimostrare che:
. . . ,−2 mX ≤−1 mX ≤0 mX ≤ mX ≤2 mX ≤ . . .
6.6
Valori in classi intervallari
Sia X una variabile di tipo quantitativo intorno alla quale si intende indagare. Fissata la popolazione P
composta dalle n unità statistiche da analizzare potrebbe verificarsi il caso in cui le modalità non sono
espresse da valori numerici ma da intervalli come specificato nella seguente tabella:
X
x1 ` x2
x2 ` x3
...
xi ` xi+1
...
xh ` xh+1
f
f1
f2
...
fi
...
fh
n
F
F1 = f1
F2 = f1 + f2
...
Pi
Fi = k=1 fk
...
Fh = n
In questo caso sarà sempre possibile effettuare il calcolo delle medie potenziate cosı̀ come visto nei precedenti paragrafi basterà semplicemente sostituire all’intervallo i−esimo il suo valore centrale ossia porre
al posto di
xi ` xi+1
il valore
x∗i =
xi + xi+1
2
In modo analogo si ragiona nel caso in cui
• gli intervalli siano del tipo xi a xi+1
• il primo intervallo sia del tipo x < x1 o del tipo x ≤ x1 , basterà formulare delle ipotesi sulla
distribuzione del valori all’interno dell’intervallo
• l’ultimo intervallo sia del tipo x > xh o del tipo x ≥ xh , basterà formulare delle ipotesi sulla
distribuzione del valori all’interno dell’intervallo
6.7
Il caso in cui n = h
Sia X una variabile di tipo quantitativo intorno alla quale si intende indagare. Fissata la popolazione
P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno
oggetto di studio che verranno nel seguito indicate con
x1 , x2 , x3 , . . . , xh
Potrebbe presentari il caso in cui
h=n
ossia il caso in cui il numero delle modalità del fenomeno oggetto di studio sia pari al numero delle unità
statistiche su cui si effettua l’indagine. In questo caso allora si avrà che:
fi = 1 ∀ i = 1..n
e quindi le modalità saranno rappresentate con
x1 , x2 , x3 , . . . , xn
Da questo punto in avanti se non diversamente precisato
• si suppone che le modalità del fenomeno siano pari al numero delle unità statistiche ossia ci si pone
nel caso in cui n = h
• nei casi in cui non vi siano problemi di comprensione per non appesantire la scrittura si ometteranno
nelle sommatorie i relativi indici
statistica
9
rb
6
Statistica descrittiva univariata quantitativa
6.8
6.8
Le medie potenziate nel caso in cui n = h
Le medie potenziate nel caso in cui n = h
La formula generale delle medie potenziate nel caso in cui il numero delle modalità sia uguale al numero
delle unità statistiche risulta notevolmente semplificata e data da:
r Pn
r
r
i=1 xi
r mX =
n
Per i vari valori di r si otterranno le seguenti medie:
• per r = −1 si avrà la media armonica data da
n
= Pn
−1 mX
1
i=1 xi
• per r → 0 si otterrà la media geometrica data da
0 mX
v
un
uY
n
= t
xi
i=1
• per r = 1 si otterrà la media aritmetica data da
Pn
1 mX
i=1
=
xi
n
essendo la più usata, tale media verrà indicata d’ora in avanti con il simbolo mx
• per r = 2 si otterrà la media quadratica data da
r Pn
2 mX
i=1
=
x2i
n
• per r = 3 si otterrà la media cubica data da
r Pn
3 mX
6.9
=
3
i=1
x3i
n
La media aritmetica
La media aritmetica è la media più utilizzata nelle applicazioni statistiche. Per questo essa verrà studiata
in modo più approfondito rispetto alle altre medie potenziate. Sia X una generica variabile di tipo quantitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche
da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che verranno nel
seguito indicate con
x1 , x2 , x3 , . . . , xn
abbiamo definito la media aritmetica con:
Pn
i=1
mX =
xi
n
vogliamo ora dimostrare alcuni importanti teoremi che riguardano la media aritmetica stessa. Essi sono
dati da:
Teorema 6.1 (della somma degli scarti) Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn ,
la somma degli scarti di ciascuna modalità dalla propria media aritmetica vale zero
La dimostrazione di questo teorema e molto semplice infatti:
X
X
(xi − mx ) =
xi − nmX
= nmX − nmX = 0
statistica
10
rb
6
Statistica descrittiva univariata quantitativa
6.9
La media aritmetica
Teorema 6.2 (della devianza) Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn , la
quantità
X
(xi − a)2
avrà il suo valore minimo se e solo se a = mx . Il valore
X
(xi − mx )2
prende il nome di devianza
Anche in questo caso la dimostrazione è molto semplice si tratta di minimizzare la funzione:
X
f (a) =
(xi − a)2
La derivata rispetto ad a è data da:
f 0 (a) = 2
X
(xi − a)(−1)
che si annulla nel punto
P
a=
xi
= mX
n
essendo quindi
f 00 (a) = 1
il punto trovato è il punto di minimo relativo e ciò dimostra il teorema enunciato.
Teorema 6.3 (della media di una trasformazione lineare) Data la variabile X che presenta le n
modalità x1 , x2 , x3 , . . . , xn ed avente media mx se consideriamo la trasformazione lineare
Y = a + bX
si avrà allora che
mY = a + bmX
La dimostrazione di questo teorema è molto semplice infatti:
Pn
i=1 yi
mY =
Pnn
i=1 (a + bxi )
=
n
= a + bmX
Teorema 6.4 (della media della somma di due variabili) Siano X e Y due generiche variabili di
tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
e come media mX ed mY . Se costruiamo la variabile
Z =X +Y
si avrà che
mZ = mX+Y = mX + mY
Teorema 6.5 (del prodotto di due variabili) Siano X e Y due generiche variabili di tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
e come media mX ed mY . Se costruiamo la variabile
Z = XY
si avrà che
Pn
mZ = mXY =
statistica
11
i=1
xi yi
n
rb
6
Statistica descrittiva univariata quantitativa
6.10
6.10
La media dei quadrati
La media dei quadrati
Sia X una generica variabile di tipo quantitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il
fenomeno oggetto di studio che verranno nel seguito indicate con
x1 , x2 , x3 , . . . , xn
definiamo media dei quadrati la seguente:
Pn
i=1
mX 2 =
x2i
n
Attenzione a non confondere la media dei quadrati con la media quadratica.
6.11
La variabilità
Analizzando un fenomeno si rileva immediatamente l’esistenza di innumerevoli distribuzioni nelle quali il
valore medio assume il medesimo valore. Ad esempio
100, 100, 100
oppure
0, 100, 200
presentano la stessa media aritmetica pur essendo notevolmente diverse tra di loro. Da questa semplice
constatazione merge la necessità di integrare l’informazione derivante dall’applicazione delle medie mediante altri indicatori che descrivono il grado di dispersione dei dati attorno alle medie stesse, risulta
infatti evidente l’incapacità delle medie di mettere in evidenza questo interessante aspetto di un insieme
di dati. La variabilità si può definire come l’attitudine di una variabile ad assumere diverse modalità
quantitative. Gli indici di variabilità sono molteplici ma tutti devono soddisfare a queste due importanti
proprietà:
• devono annullarsi quando e solo quando tutti i termini che costituiscono la distribuzione sono
uguali tra di loro
• devono aumentare di valore in funzione della diversità che intercorre tra i termini
Esistono innumerevoli indici di variabilità ma noi ne studieremo solamente uno, la varianza.
6.12
La varianza e lo scarto quadratico medio
Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn avente media mX prende il nome di
varianza la quantità cosı̀ definita:
Pn
(xi − mX )2
2
σX = i=1
n
La varianza non è altro che la media aritmetica dei quadrati degli scarti dalla media aritmetica della
variabile X. Prende invece il nome di scarto quadratico medio la quantità cosı̀ definita:
r Pn
2
i=1 (xi − mX )
σX =
n
Lo scarto quadratico medio non è altro che la radice quadrata della varianza.
L’importanza dello scarto quadratico medio nell’analisi statistica dei dati è fondamentale: insieme con
la media aritmetica rappresenta un parametro essenziale per descrivere le caratteristiche qualificanti di
un insieme di valori.
statistica
12
rb
6
Statistica descrittiva univariata quantitativa
6.13
6.13
Metodo indiretto per il calcolo della varianza
Metodo indiretto per il calcolo della varianza
Oltre al procedimento diretto, che si basa sulla definizione stessa di varianza, per il calcolo della stessa
possiamo utilizzare un procedimento indiretto che deriva dalla seguente constatazione:
Pn
2
2
i=1 (xi − mX )
σX =
n
Pn
2
2
(x
i=1 i − 2mX xi + mX )
=
n
= mX 2 − 2m2X + m2X
= mX 2 − m2X
Ossia la varianza si può ottenere come differenza tra la media dei quadrati e il quadrato della media.
6.14
Proprietà della varianza
La varianza gode di alcune proprietà molto importanti che enunceremo sotto forma di teorema:
Teorema 6.6 (della varianza di una trasformazione lineare) Data la variabile X che presenta le
2
n modalità x1 , x2 , x3 , . . . , xn ed avente media mx e varianza σX
se consideriamo la trasformazione lineare
Y = a + bX
si avrà allora che
2
σY2 = b2 σX
La dimostrazione di questo teorema è molto semplice infatti:
P2
2
i=1 (y − mY )
σY2 =
n
Pn
(a
+ bxi − a − bmX )2
i=1
=
n
Pn 2
2
i=1 b (xi − mX )
=
n
2
= b2 σ X
Teorema 6.7 (della varianza della somma di due variabili) Siano X e Y due generiche variabili
di tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
e come media mX ed mY e varianza
2
σX
e σY2 . Se costruiamo la variabile
Z =X +Y
si avrà che
2
2
2
σZ
= σX+Y
= σX
+ σY2 + 2σXY
6.15
Covarianza
Siano X e Y due generiche variabili di tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
e come media mX ed mY . Prende il nome di covarianza:
Pn
(xi − mX )(yi − mY )
σXY = i=1
n
statistica
13
rb
7
Statistica descrittiva bivariata quantitativa
6.16 La media dei quadrati e la varianza nel caso in cui h < n
Notiamo allora immediatamente che:
Pn
σXY
− mX )(yi − mY )
n
Pn
(x
y
−
xi mY − yi mX + mX mY )
i=1 i i
=
n
= mXY − mX mY − mY mX + mX mY
= mXY − mX mY
=
i=1 (xi
Per cui una formula alternativa per il calcolo della media del prodotto di due variabili sarà data dalla
seguente:
mXY = mX mY + σXY
La covarianza gode di una importante proprietà data da:
−σX σY ≤ σXY ≤ σX σY
ossia la covarianza è limitata.
6.16
La media dei quadrati e la varianza nel caso in cui h < n
Sia X una generica variabile di tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xh
con h ≤ n. Fissata la popolazione P composta dalle n unità statistiche da analizzare vogliamo calcolare
la media dei quadrati e la varianza nel caso in cui le modalità siano accompagnate da frequenze cosı̀ come
evidenziato nella seguente tabella:
X
x1
x2
...
xi
...
xh
f
f1
f2
...
fi
...
fh
n
In questo caso si avrà allora che:
• la media dei quadrati si otterrà come:
Ph
mX 2 =
• la varianza si otterrà come
2
σX
7
7.1
Ph
=
i=1
i=1 (xi
x2i fi
n
− mX )2 fi
n
Statistica descrittiva bivariata quantitativa
Introduzione
Fissata la popolazione P composta da n unità statistiche vogliamo rilevare da ciascuna delle unità oggetto
di studio le modalità in cui si manifestano due variabili di tipo quantitativo che indicheremo con X e Y
e le cui modalità saranno indicate rispettivamente con
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
Da tale rilevazione siamo in grado di ottenere la seguente tabella
statistica
14
rb
7
Statistica descrittiva bivariata quantitativa
7.2
X
x1
x2
...
xi
...
xn
Lo scatter plot
Y
y1
y2
...
yi
...
yn
Quando si opera con due variabili il concetto più importante da analizzare è quello che consiste nel vedere
se le due variabili sono indipendenti oppure se esse sono dipendenti. Quando si verifica la prima ipotesi
il problema è chiuso, nel senso che è stata raggiunta una conclusione definitiva. Non altrettanto può
dirsi quando si perviene alla conclusione opposta. In questa seconda ipotesi, infatti, esistono infiniti tipi
di dipendenza ossia diverse funzioni matematiche idonee a descrivere come si modifica una variabile al
variare dell’altra. La procedura che viene usata per trovare queste funzioni matematiche prende il nome
di interpolazione. Esistono due tipologie di interpolazione:
interpolazione matematica: altrimenti detta per punti in quanto tenta di trovare la funzione matematica che passa esattamente per i punti dati
interpolazione statistica: altrimenti detta tra punti in quanto non cerca di trovare la funzione che
passa esattamente per i punti dati ma una funzione che passa attraverso i punti dati per mezzo di
un ben determinato criterio di accostamento
L’interpolazione matematica è difficile da realizzare per due ordini di motivi:
• se i dati sono molto numerosi i calcoli da eseguire per trovare una funzione che passa esattamente
per i punti dati sono notevoli
• se ad un valore di x corrispondono più valori di y questo tipo di interpolazione non potrà ovviamente
più essere effettuato.
L’interpolazione statistica risolve in modo molto efficace questi due tipi di problemi ed è per questo motivo
che è quella più largamente usata nella statistica descrittiva bivariata.
7.2
Lo scatter plot
Effettuata la nostra indagine statistica sulle n unità della popolazione P supponiamo di essere arrivati a
compilare la seguente tabella:
X
1
2
3
4
5
Y
8
12
22
28
30
Stabilito ora che la variabile indipendente è la X e quella dipendente è la Y , al fine di individuare il
tipo di dipendenza che lega le due variabili uno strumento grafico di fondamentale importanza da utilizza
re è dato dallo scatter plot. Lo scatter plot è un grafico nel quale si evidenzia nell’asse delle ascisse
la variabile indipendente ossia la X e nell’asse delle ordinate la variabile dipendente ossia la Y al fine
di poter individuare attraverso tale strumento grafico il particolare tipo di dipendenza che lega le due
variabili date. Lo scatter plot per i dati ottenuti dalla nostra indagine sarà quello evidenziato nella figura
1 Dal quale è immediato ricavare che il tipo di dipendenza che lega la variabile X con la variabile Y è
un tipo di dipendenza lineare che potrà quindi essere rappresentato con una funzione lineare o di primo
grado.
E’ chiaro che per la scelta del tipo di funzione non esistono dei criteri generali validi per ogni caso e
molto dipende dall’esperienza di chi effettua l’analisi statistica.
7.3
Il metodo dei minimi quadrati
Stabilito mediante l’analisi dello scatter plot il tipo di dipendenza che lega la variabile indipendente X
con la variabile dipendente Y ossia individuato il tipo di relazione funzionale che lega le due variabili il
statistica
15
rb
7
Statistica descrittiva bivariata quantitativa
7.3
Il metodo dei minimi quadrati
30
25
20
15
10
5
1
2
3
4
5
Figura 1: Scatter plot
problema che si pone ora è quello relativo alla determinazione dei parametri ignoti della funzione stessa.
Nell’esempio del precedente paragrafo abbiamo individuato la relazione di dipendenza in una funzione di
primo grado ossia una funzione del tipo:
y = ax + b
il problema che si pone ora è quello della determinazione dei parametri a e b che compongono la funzione
stessa.
Stabilito che il tipo di interpolazione che si utilizza per questo scopo è quella statistica sorge la necessità
di stabilire un criterio di accostamento che leghi i punti trovati dalla ricerca statistica con la relazione
funzionale ipotizzata.
Il criterio di accostamento più utilizzato per tale scopo è quello noto come metodo dei minimi
quadrati. Per capire come si utilizza questo metodo ipotizziamo che la funzione scelta per effettuare
l’interpolazione sia
ŷ = f (x; a1 , a2 , a3 , . . . , ak )
ossia una funzione che lega la variabile X con la variabile Y utilizzando i k parametri ignoti a1 , a2 , a3 , . . . , ak
che dovranno quindi essere determinati. Se consideriamo il valore di xi ottenuto attraverso l’indagine
statistica notiamo che a tale valore corrispondono
• il valore
yi
ottenuto attraverso l’indagine statistica
• il valore
yˆi = f (xi ; a1 , a2 , a3 , . . . , ak )
ottenuto dalla funzione teorica di interpolazione.
il tutto come evidenziato nella figura 2 In base a questo fatto per il seguito:
• il valore yi prenderà il nome di valore effettivo
• il valore yˆi prenderà il nome di valore teorico
Detto ora errore di interpolazione la differenza tra il valore effettivo e quello teorico ossia:
di = yi − yˆi
il criterio dei minimi quadrati permette di determinare i valori dei parametri ignoti a1 , a2 , a3 , . . . , ak della
funzione
ŷ = f (x; a1 , a2 , a3 , . . . , ak )
statistica
16
rb
7
Statistica descrittiva bivariata quantitativa
7.3
Il metodo dei minimi quadrati
Figura 2: Minimi quadrati
mediante un criterio di accostamento che consiste nel trovare il punto di minimo rispetto ai parametri
a1 , a2 , a3 , . . . , ak della funzione a k variabili:
f (a1 , a2 , . . . , ak )
=
n
X
d2i
i=1
=
n
X
(yi − yˆi )2
i=1
=
n
X
[yi − f (xi ; a1 , a2 , . . . , ak )]2
i=1
Il punto di minimo di tale funzione viene trovato utilizzando, se applicabili, i teoremi visti per la ricerca
dei punti di massimo e di minimo relativo per le funzioni a due o più variabili. Ricordiamo che il metodo
per la ricerca dei punti di massimo e di minimo relativo prevede prima di tutto la soluzione rispetto ad
a1 , a2 , a3 , . . . , ak del seguente sistema a k equazioni:

∂f


=0


∂a1







∂f


=0

∂a2




...







∂f



=0
∂ak
e successivamente nella verifica per mezzo della matrice Hessiana della natura del punto critico cosı̀
trovato. Si può dimostrare che in generale la soluzione di tale sistema è proprio punto di minimo senza
che sia necessario verificare anche le condizioni del secondo ordine ossia quelle che implicano lo studio
della matrice Hessiana.
La funzione interpolante trovata con il procedimento dei minimi quadrati prende anche il nome di
funzione di regressione.
Esamineremo dei paragrafi successivi la determinazione dei parametri della funzione interpolante
y = f (x; a1 , a2 , a3 , . . . , ak )
nei casi relativi alle funzioni più utilizzate.
statistica
17
rb
7
Statistica descrittiva bivariata quantitativa
7.4
7.4
Funzione interpolante ŷ = a + bx
Funzione interpolante ŷ = a + bx
Per la determinazione dei parametri ignoti a e b utilizzando il metodo dei minimi quadrati dobbiamo
prima di tutto costruire la funzione a due variabili
f (a, b)
=
n
X
(yi − yˆi )2
i=1
=
n
X
(yi − a − bxi )2
i=1
della quale dobbiamo trovare il punto di minimo relativo rispetto alle variabili a e b. Da quanto detto
precedentemente, il punto di minimo relativo deriverà dalla soluzione del seguente sistema a due variabili:

n
X
∂f


=
−2
(yi − a − bxi ) = 0



 ∂a
i=1

n

X

∂f


=
−2
(yi − a − bxi )xi = 0

∂b
i=1
il quale potrà essere riscritto come
 X
n
n
n
X
X


y
−
a
−
bxi = 0

i


 i=1
i=1
i=1

n
n
n

X
X
X



x
y
−
ax
−
bx2i = 0

i i
i
i=1
i=1
i=1
quindi con semplici semplificazioni arriviamo ad ottenere il seguente sistema:

n
n
X
X


yi
x
=
na
+
b

i



i=1
i=1

n
n
n

X
X
X


2

xi + b
xi =
xi yi
 a
i=1
i=1
i=1
Dividendo le due equazioni del sistema per n si ottiene:

 a + bmX = mY

amX + bmX 2 = mXY
Risolviamo ora il sistema cosı̀ ottenuto con il metodo dei determinanti per cui calcoliamo
1
mX 2
∆ = = mX 2 − m2X = σX
mX mX 2 mY
mX ∆a = = mY mX 2 − mX mXY
mXY mX 2 1
mY ∆b = = mXY − mX mY = σXY
mX mXY
ora nell’ipotesi che ∆ 6= 0 la soluzione del sistema sarà data da:
a =
b
=
mY mX 2 − mX mXY
∆a
=
2
∆
σX
∆b
σXY
= 2
∆
σX
e per quanto detto precedentemente tale punto è un punto di minimo relativo senza dover verificare anche
le condizioni del secondo ordine.
A questo punto notiamo le seguenti particolarità:
statistica
18
rb
7
Statistica descrittiva bivariata quantitativa
7.5
Funzione interpolante ŷ = a + bx + cx2
1. dalla prima equazione del sistema scritto sopra ossia:
a + bmX = mY
possiamo ottenere:
a = mY − bmX
se ora sostituiamo questo valore nella funzione teorica interpolante
ŷ = a + bx
otteniamo immediatamente la retta di interpolazione teorica sarà data da:
ŷ − mY = b(x − mX )
2. la retta interpolante passa per il punto di coordinate
(mX , mY )
detto baricentro della distribuzione
3. la somma degli errori di interpolazione vale zero infatti
n
X
(di )
=
i=1
=
=
n
X
i=1
n
X
i=1
n
X
(yi − yˆi )
(yi − a − bxi )
yi − na − b
i=1
n
X
xi
i=1
= nmY − na − nbmX
= nmY − n(mY − bmX ) − nbmX
= 0
4. la somma dei valori teorici e dei valori effettivi è uguale infatti se
n
X
(yi − yˆi ) = 0
i=1
deriva immediatamente che
n
X
yi =
i=1
7.5
n
X
yˆi
i=1
Funzione interpolante ŷ = a + bx + cx2
Per la determinazione dei parametri ignoti a,b e c utilizzando il metodo dei minimi quadrati dobbiamo
prima di tutto costruire la funzione a tre variabili
f (a, b, c)
=
n
X
(yi − yˆi )2
i=1
=
n
X
(yi − a − bxi − cx2i )2
i=1
statistica
19
rb
7
Statistica descrittiva bivariata quantitativa
Funzione interpolante ŷ = a + bx + cx2
7.5
della quale dobbiamo trovare il punto di minimo relativo rispetto alle variabili a, b e c. Da quanto detto
precedentemente, il punto di minimo relativo deriverà dalla soluzione del seguente sistema a tre variabili:

n
X
∂f


= −2
(yi − a − bxi − cx2i ) = 0



∂a

i=1






n
 ∂f
X
= −2
(yi − a − bxi − cx2i )xi = 0
∂b


i=1






n
 ∂f
X



=
−2
(yi − a − bxi − cx2i )x2i = 0

∂b
i=1
il quale potrà essere riscritto come
 n
n
n
n
X
X
X
X


y
−
a
−
bx
−
cx2i = 0

i
i



i=1
i=1
i=1
i=1






n
n
n
n
 X
X
X
X
xi yi −
axi −
bx2i −
cx3i = 0


i=1
i=1
i=1
i=1





 X
n
n
n
n

X
X
X



x2i yi −
ax2i −
bx3i −
cx4i = 0

i=1
i=1
i=1
i=1
quindi con semplici semplificazioni arriviamo ad ottenere il seguente sistema:

n
n
n
X
X
X

2

na
+
b
x
+
c
x
=
yi

i
i



i=1
i=1
i=1





 X
n
n
n
n

X
X
X
xi yi
x3i =
x2i + c
xi + b
a


i=1
i=1
i=1
i=1






n
n
n
n

X
X
X
X


2
3
4

a
x
+
b
x
+
c
x
=
x2i yi

i
i
i
i=1
i=1
i=1
i=1
A questo punto notiamo le seguenti particolarità:
1. la somma degli errori di interpolazione vale zero ossia anche in questo caso
n
X
(di )
n
X
=
i=1
i=1
n
X
=
(yi − yˆi )
(yi − a − bxi − cx2i )
i=1
=
0
2. la somma dei valori teorici e dei valori effettivi è uguale infatti se
n
X
(yi − yˆi ) = 0
i=1
deriva immediatamente che
n
X
yi =
i=1
statistica
20
n
X
yˆi
i=1
rb
7
Statistica descrittiva bivariata quantitativa
7.6 Funzione interpolante ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn
7.6
Funzione interpolante ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn
I due casi presentati ai punti 7.4, 7.5, possono essere generalizzati al caso in cui la funzione interpolante
sia un polinomio del tipo:
ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn
operando in modo analogo per ottenere il valore dei parametri ignoti.
Si possono notare le seguenti particolarità:
1. la somma degli errori di interpolazione vale zero ossia anche in questo caso
n
X
(di )
n
X
=
i=1
i=1
n
X
=
(yi − yˆi )
(yi − a − bxi − cx2i )
i=1
=
0
2. la somma dei valori teorici e dei valori effettivi è uguale infatti se
n
X
(yi − yˆi ) = 0
i=1
deriva immediatamente che
n
X
yi =
i=1
n
X
yˆi
i=1
3. se abbiamo a disposizione n coppie di dati del tipo (xi , yi ) il massimo grado che potremmo usare
per il polinomio interpolante sarà n − 1
7.7
Funzione interpolante ŷ = ybx , a > 0, b > 0 ∧ b 6= 1
In questo caso non si applica direttamente il metodo dei minimi quadrati in quanto il sistema che si
otterrebbe non sarebbe lineare nei parametri a e b e quindi sarebbe di difficile soluzione. Si preferisce
allora operare un cambiamento di variabili. Dalla funzione:
ŷ = abx
con a > 0, b > 0 ∧ b 6= 1 prendendo i logaritmi dei due membri si ottiene:
log y = log a + x log b
e posto
• log a = A
• log b = B
• log y = z
si ottiene la funzione
z = A + Bx
che è lineare nella variabile x. Ottenuti allora i valori di A e di B con i procedimenti visti in precedenza
sarà immediato ottenere anche i valori di a e di b mediante il passaggio alla funzione esponenziale.
7.8
Funzione interpolante ŷ = axb , a > 0
In questo caso non si applica direttamente il metodo dei minimi quadrati in quanto il sistema che si
otterrebbe non sarebbe lineare nei parametri a e b e quindi sarebbe di difficile soluzione. Si preferisce
allora operare un cambiamento di variabili. Dalla funzione:
ŷ = axb
con a > 0 prendendo i logaritmi dei due membri si ottiene:
log y = log a + b log x
e posto
statistica
21
rb
7
Statistica descrittiva bivariata quantitativa
7.9
Funzione interpolante ŷ
• log a = A
• log x = t
• log y = z
si ottiene la funzione
z = A + bt
che è lineare nella variabile t. Ottenuti allora i valori di A e di b con i procedimenti visti in precedenza
sarà immediato ottenere anche i valori di a mediante il passaggio alla funzione esponenziale.
7.9
Funzione interpolante ŷ
Il procedimento dei minimi quadrati come visto si può applicare a qualunque tipo di funzione interpolante
ŷ. Si noti però che nei casi diversi dall’interpolante polinomiale veniamo a perdere le seguenti due due
proprietà:
• la somma degli errori di interpolazione vale zero ossia anche in questo caso
• la somma dei valori teorici e dei valori effettivi è uguale
7.10
La correlazione lineare
Supponendo che il legame che intercorre tra la variabile X e la variabile Y sia di tipo lineare ossia che
la funzione di regressione che lega le due variabili sia del tipo ŷ = a + bx non sempre non sempre è
però possibile stabilire con certezza se è la variabile X che dipende dalla variabile Y o se viceversa è la
variabile Y che dipende dalla variabile X. Si pensi al caso in cui le variabili oggetto di studio siano il
peso e l’altezza di un individuo. E’ il peso che influenza l’altezza o viceversa sarà l’altezza ad influenzare
il peso. In questi casi non viene determinata una funzione di regressione ,in quanto priva di significato,
ma si ricerca un indice detto indice di correlazione lineare in grado di misurare l’intensità del legame
di tipo lineare che sussiste tra le due variabili considerate. Tale indice è definito da:
r=
σXY
σ X σY
Il coefficiente di correlazione lineare r può essere ottenuto come media geometrica dei coefficienti angolari
delle due rette di regressione considerando sia la variabile X dipendente dalla variabile Y che la variabile
Y dipendente dalla variabile X. Infatti supponiamo di disporre di due variabili X ed Y . Se la funzione
di regressione è lineare si potranno verificare due casi:
• se X è considerata variabile indipendente ed Y variabile dipendente si avrà che la retta di regressione
sarà:
ŷ = a1 + b1 x
in cui
b1 =
σXY
2
σX
• se Y è considerata variabile indipendente ed X variabile dipendente si avrà che la retta di regressione
sarà:
x̂ = a2 + b2 y
in cui
b2 =
σXY
σY2
si avrà allora che:
r
p
b1 b2
r
σXY σXY
=
2
σX
σY2
σXY
=
σX σY
=
Da quanto detto è anche immediato ricavare che:
statistica
22
rb
7
Statistica descrittiva bivariata quantitativa
7.11
Il coefficiente di determinazione
• b1 b2 = r 2
Y
• b1 = r σσX
• b1 2 = r σσX
Y
che sono di immediata verifica. Ricordando ora quanto detto nel paragrafo 7.4 ossia che:
ŷ − mY = b(x − mX )
possiamo anche ottenere che:
σY
(x − mX )
σX
σX
=r
(y − mY )
σY
ŷ − mY = b1 (x − mX ) ⇔ ŷ − mY = r
x̂ − mX = b2 (y − mY ) ⇔
x̂ − mX
Il coefficiente di correlazione lineare gode di alcune importanti proprietà:
• è un valore senza dimensioni e quindi non dipende dalle unità di misura delle variabili X ed Y
• il suo valore è compreso tra -1 e +1 ricordando infatti che:
−σX σY ≤ σXY ≤ σX σY
dividendo i tre membri della disequazione per σX σY si ottiene che
σXY
−1 ≤
≤ +1
σX σY
ossia
−1 ≤ r ≤ +1
• se r > 0 la correlazione è positiva e lo scatter plot di X e di Y evidenzierà dei punti tanto più
allineati lungo una retta inclinata positivamente quanto più r sarà vicino ad 1.
• se r < 0 la correlazione è negativa e lo scatter plot di X e di Y evidenzierà dei punti tanto più
allineati lungo una retta inclinata negativamente quanto più r sarà vicino ad −1.
• se r = 1 la correlazione è perfettamente positiva e lo scatter plot di X e di Y evidenzierà dei punti
allineati perfettamente lungo una retta inclinata positivamente
• se r = −1 la correlazione è perfettamente negativa e lo scatter plot di X e di Y evidenzierà dei
punti allineati perfettamente lungo una retta inclinata negativamente
• se r = 0 non esiste correlazione lineare tra X ed Y ma ciò non esclude che tra le due variabili possa
esistere un tipo di correlazione diversa da quella di tipo lineare
7.11
Il coefficiente di determinazione
Supponendo che il legame che intercorre tra la variabile X e la variabile Y sia rappresentato da un
polinomio di tipo
ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn
oltre che determinare i coefficienti ignoti della funzione interpolante dobbiamo anche introdurre un indice
che ci permetta di giudicare sulla bonta della interpolazione effettuata. A tale scopo consideriamo la
seguente uguaglianza:
n
X
(yi − mY )2 =
i=1
n
X
(yi − yˆi )2 +
i=1
n
X
(yˆi − mY )2
(1)
i=1
facilmente dimostrabile ricordando che
n
X
(yi − yˆi )(yˆi − mY ) = 0
i=1
Possiamo dividere la (1) ottenendo:
Pn
Pn
Pn
2
2
(yˆi − mY )2
i=1 (yi − yˆi )
i=1 (yi − mY )
=
+ i=1
n
n
n
e quindi chiamando:
statistica
23
(2)
rb
7
Statistica descrittiva bivariata quantitativa
• varianza totale la seguente
7.12
Pn
Tabella a doppia entrata
− mY )2
= σY2
n
i=1 (yi
• varianza non spiegata la seguente
Pn
i=1 (yi
− yˆi )2
n
• varianza spiegata la seguente
Pn
= σd2
− mY )2
= σŷ2
n
i=1 (yˆi
la (2) può essere riscritta nel seguente modo:
σY2 = σd2 + σŷ2
evidenziando come la varianza totale possa essere scomposta nella somma della varianza spiegata dalla
regressione e della varianza non spiegata dalla regressione.
Un indice che ci permette allora di valutare la bontà della interpolazione effettuata è l’indice di
determinazione che sarà dato da
σŷ2
r2 = 2
σY
Tale indice gode di alcune fondamentali proprietà date da:
• Se la funzione di regressione usata è la funzione ŷ = a + bx allora il coefficiente di determinazione è
proprio il quadrato del coefficiente di correlazione lineare. Infatti in questo caso possiamo scrivere
che:
r2
=
=
=
σŷ2
σY2
Pn
(yˆi − mY )2
Pi=1
n
(yi − mY )2
Pi=1
n
2
2
i=1 (b1 (xi − mX )
P
n
2
i=1 (yi − mY )
=
2
b21 σX
σY2
=
[r]2
• Il coefficiente di determinazione varia tra
0 ≤ r2 ≤ 1
tanto più esso si avvicina ad uno tanto più la funzione di regressione trovata è buona.
7.12
Tabella a doppia entrata
Fissata la popolazione P composta da n unità statistiche se rileviamo da ciascuna delle unità oggetto di
studio le modalità in cui si manifestano due variabili di tipo quantitativo che indichiamo con X e Y e le
cui modalità sono indicate rispettivamente con
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
otteniamo la seguente tabella
X
x1
x2
...
xi
...
xn
statistica
Y
y1
y2
...
yi
...
yn
24
rb
7
Statistica descrittiva bivariata quantitativa
7.12
Tabella a doppia entrata
detta tabella ad entrata semplice. Tale tabella è usata nel caso in cui ogni coppia di modalità
(xi , yi )
per i = 1..n si presenta una sola volta nelle n unità statistiche oggetto di rilevazione. Quando però n
ossia il numero delle unità statistiche diviene elevato, è intuitivo riconoscere che tale fatto non può essere
ritenuto più valido quindi una generica coppia di modalità:
(xi , yi )
può presentarsi con una frequenza diversa da uno ossia essere ripetuta più volte. In questo caso i dati
dell’analisi non possono più essere riassunti in una tabella ad entrata semplice ma dovranno essere inseriti
in una tabella a doppia entrata. Per chiarire il funzionamento di tale tipo di tabella ipotizziamo che fissata
la popolazione P composta da n unità statistiche si rilevino da ciascuna delle unità oggetto di studio le
modalità in cui si manifestano due variabili di tipo quantitativo che indicheremo con X e Y e le cui
modalità saranno indicate rispettivamente con
x1 , x2 , x3 , . . . , xh
e
y1 , y 2 , y 3 , . . . , yk
tenendo conto anche del fatto che ciascuna coppia di modalità
(xi , yj )
con i = 1..h e j = 1..k può essere ripetuto con una frequenza pari ad fij . Da tale rilevazione siamo in
grado di ottenere la seguente tabella a doppia entrata:
X \Y
x1
x2
...
xi
...
xh
f.j
y1
f11
f21
...
fi1
...
fh1
f.1
y2
f12
f22
...
fi2
...
fh2
f.2
...
...
...
...
...
...
...
...
yj
f1j
f2j
...
fij
...
fhj
f.j
...
...
...
...
...
...
...
...
yk
f1k
f2k
...
fik
...
fhk
f.k
fi.
f1.
f2.
...
fi.
...
fh.
n
Per una tabella a due variabili avremmo che:
•
k
h X
X
fij = n
i=1 j=1
•
k
X
fij = fi. ∀ i = 1..h
j=1
•
h
X
fij = f.j ∀ j = 1..k
i=1
•
k
X
f.j =
h
X
j=1
fi. = n
i=1
Potremmo inoltre definire:
h
• mX t Y u =
h
• σX t Y u =
k
1 XX t u
x y fij
n i=1 j=1 i j
k
1 XX
(xi − mX )t (yj − mY )u fij
n i=1 j=1
da cui è immediato ottenere che:
statistica
25
rb
7
Statistica descrittiva bivariata quantitativa
h
k
h
h
k
h
h
k
k
h
k
7.13
• mX 1 Y 0 =
1 XX
1X
xi fi. = mX
xi fij =
n i=1 j=1
n i=1
• mX 2 Y 0 =
1 XX 2
1X 2
x fi. = mX 2
xi fij =
n i=1 j=1
n i=1 i
• mX 0 Y 1 =
1 XX
1X
xi f.j = mY
yj fij =
n i=1 j=1
n j=1
• mX 1 Y 1 =
1 XX
xi yj fij = mXY
n i=1 j=1
h
k
h
k
h
h
k
k
• σX 1 Y 1 =
1 XX
(xi − mX )(yj − mY )fij = σXY
n i=1 j=1
• σX 2 Y 0 =
1 XX
1X
2
(xi − mX )2 fi. = σX
(xi − mX )2 fij =
n i=1 j=1
n i=1
• σX 0 Y 2 =
1 XX
1X
(yj − mY )2 f.j = σY2
(yj − mY )2 fij =
n i=1 j=1
n j=1
Indipendenza e connessione
Le rappresentazioni grafiche per le tabelle a doppia entrata sono più difficili da realizzare rispetto a quelle
relative alle tabelle ad entrata semplice infatti necessitano l’uso di grafici tridimensionali.
7.13
Indipendenza e connessione
Nel caso di una tabella a doppia entrata possiamo vale senza alcun cambiamento quanto precisato nei
paragrafi 5.3 e 5.4
7.14
La funzione interpolante per una tabella a doppia entrata
Per trovare i parametri di una generica funzione interpolante nel caso di una tabella a doppia entrata ci si
comporta esattamente come visto nel caso della tabella a entrata semplice. In questo caso però abbiamo
il problema della doppia sommatoria che potrà essere facilmente superato ricordando la simbologia scritta
nel paragrafo 7.12. Ipotizzando allora che la funzione interpolante sia del tipo:
ŷ = a + bx
per la determinazione dei parametri ignoti a e b utilizziamo il metodo dei minimi quadrati e quindi
dobbiamo prima di tutto costruire la funzione a due variabili
f (a, b)
=
h X
k
X
(yi − yˆi )2 fij
i=1 j=1
=
h X
k
X
(yi − a − bxi )2 fij
i=1 j=1
della quale dobbiamo trovare il punto di minimo relativo rispetto alle variabili a e b. Da quanto detto
precedentemente, il punto di minimo relativo deriverà dalla soluzione del seguente sistema a due variabili:

h X
k

X

 ∂f = −2

(yi − a − bxi )fij = 0



 ∂a
i=1 j=1

h X
k

X

∂f



= −2
(yi − a − bxi )xi fij = 0

 ∂b
i=1 j=1
statistica
26
rb
7
Statistica descrittiva bivariata quantitativa
7.14 La funzione interpolante per una tabella a doppia entrata
il quale potrà essere riscritto come

h X
k
h X
k
h X
k

X
X
X



y
f
−
af
−
bxi fij = 0
i ij
ij



 i=1 j=1
i=1 j=1
i=1 j=1

h X
k
h X
k
h X
k

X
X
X




x
y
f
−
ax
f
−
bx2i fij = 0
i i ij
i ij


i=1 j=1
i=1 j=1
i=1 j=1
che possiamo riscrivere come

h X
k
h X
k
h X
k

X
X
X



af
+
b
x
f
=
yi fij
ij
i ij



 i=1 j=1
i=1 j=1
i=1 j=1

h X
k
h X
k
h X
k

X
X
X


2


a
x
f
+
b
x
f
=
xi yi fij
i ij
i ij


i=1 j=1
i=1 j=1
i=1 j=1
ricordando ora quanto detto nel paragrafo 7.12 si avrà che:

h
k

X
X

 naf + b

xi fi. =
yi f.j
ij




i=1
j=1

h
h
h X
k

X
X
X




a
xi fi. + b
x2i fi. =
xi yi fij


i=1
i=1
i=1 j=1
Dividendo le due equazioni del sistema per n e ricordando la simbologia adottata nel paragrafo 7.12 si
ottiene

 a + bmX = mY

amX + bmX 2 = mXY
sistema analogo a quello visto nel caso di una tabella ad entrata semplice, l’unica differenza ta nel diverso
modo di calcolare i valori costanti in esso inseriti. La soluzione di questo sistema ci fornisce i valori cercati
di a e di b.
Vista la difficoltà, soprattutto simbolica, vogliamo in questo caso fornire un esempio di applicazione
pratica della ricerca della funzione interpolante. Data la seguente tabella della distribuzione di 100 allievi
di un istituto secondo i voti di italiano e di matematica riportati allo scrutinio finale in cui
• X voto in italiano
• Y voto in matematica
X \Y
4
5
6
7
8
f.j
3
1
1
1
0
0
3
4
2
3
3
0
0
8
5
1
4
10
1
0
16
6
2
6
25
5
2
40
7
0
2
8
10
5
25
8
0
0
1
4
3
8
fi.
6
16
48
20
10
100
si vuole trovare il valore dei coefficienti a e b nell’ipotesi che la funzione interpolante sia lineare del tipo
ŷ = a + bx
Dobbiamo allora in base a quanto detto costruire le seguenti tabelle:
X
4
5
6
7
8
statistica
X2
16
25
36
49
64
fi.
6
16
48
20
10
100
Xfi.
24
80
288
140
80
612
27
X 2 fi.
96
400
1728
980
640
3844
mX
mX 2
6.12
38.44
rb
7
Statistica descrittiva bivariata
7.15 quantitativa
Il coefficiente di correlazione lineare per una tabella a doppia entrata
Y
3
4
5
6
7
8
X \Y
4
5
6
7
8
f.j
Y2
9
16
25
36
49
64
3
12
15
18
0
0
45
4
32
60
72
0
0
164
f.j
3
8
16
40
25
8
100
5
20
100
300
35
0
455
Y 2 f.j
27
128
400
1440
1225
512
3732
Y f.j
9
32
80
240
175
64
600
6
48
180
900
210
96
1434
7
0
70
336
490
280
1176
mY
mY 2
6
37, 32
8
0
0
48
224
192
464
fi.
112
425
1674
959
568
3738
mXY
37.38
Per la ricerca dei valori di a e di b per quanto detto dobbiamo risolvere il sistema:
a + 6.12b = 6
6.12a + 38.44b = 37.38
che da come soluzioni
a = 1.90 b = 0.67
7.15
Il coefficiente di correlazione lineare per una tabella a doppia entrata
Abbiamo visto che il coefficiente di correlazione lineare per una tabella a doppia entrata è dato da:
r=
σXY
σ X σY
che possiamo anche riscrivere come
mXY − mX mY
p
mX 2 − m2X mY 2 − m2Y
r= p
ricordando allora la simbologia adottata nel paragrafo 7.12 è immediato calcolare il coefficiente di correlazione lineare. Vogliamo come esempio calcolare tale coefficiente nell’esempio inserito nel paragrafo 7.14.
Si avrà che:
37.38 − (6.12)(6)
p
r= p
= 0.5791
38.44 − (6.12)2 37.32 − (6)2
Notiamo come anche in questo caso le formule sono uguali a quelle usate nel caso di una tabella ad entrata
semplice, cambieranno solamente i procedimenti di calcolo dei valori in essi indicati.
statistica
28
rb
Elenco delle figure
Elenco delle figure
Elenco delle figure
1
2
Scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
statistica
29
16
17
rb
Indice
Indice
Indice
1 Introduzione
1
2 Le fasi di una ricerca statistica
1
3 Statistica descrittiva
2
4 Statistica descrittiva univariata qualitativa
4.1 Introduzione . . . . . . . . . . . . . . . . .
4.2 Frequenze relative . . . . . . . . . . . . . .
4.3 Rappresentazioni grafiche . . . . . . . . . .
4.4 La moda e la mediana . . . . . . . . . . . .
4.5 La mutabilità . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
3
3
3
4
5 Statistica descrittiva bivariata qualitativa
5.1 Introduzione . . . . . . . . . . . . . . . .
5.2 Frequenze relative . . . . . . . . . . . . .
5.3 L’indipendenza tra X ed Y . . . . . . . .
5.4 La connessione tra X e Y . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
5
5
6
6 Statistica descrittiva univariata quantitativa
6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Frequenze relative . . . . . . . . . . . . . . . . . . . . . .
6.3 Rappresentazioni grafiche . . . . . . . . . . . . . . . . . .
6.4 La moda e la mediana . . . . . . . . . . . . . . . . . . . .
6.5 Le medie algebriche potenziate . . . . . . . . . . . . . . .
6.6 Valori in classi intervallari . . . . . . . . . . . . . . . . . .
6.7 Il caso in cui n = h . . . . . . . . . . . . . . . . . . . . . .
6.8 Le medie potenziate nel caso in cui n = h . . . . . . . . .
6.9 La media aritmetica . . . . . . . . . . . . . . . . . . . . .
6.10 La media dei quadrati . . . . . . . . . . . . . . . . . . . .
6.11 La variabilità . . . . . . . . . . . . . . . . . . . . . . . . .
6.12 La varianza e lo scarto quadratico medio . . . . . . . . . .
6.13 Metodo indiretto per il calcolo della varianza . . . . . . .
6.14 Proprietà della varianza . . . . . . . . . . . . . . . . . . .
6.15 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . .
6.16 La media dei quadrati e la varianza nel caso in cui h < n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
7
7
8
9
9
10
10
12
12
12
13
13
13
14
7 Statistica descrittiva bivariata quantitativa
7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Lo scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Il metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . .
7.4 Funzione interpolante ŷ = a + bx . . . . . . . . . . . . . . . . . . . .
7.5 Funzione interpolante ŷ = a + bx + cx2 . . . . . . . . . . . . . . . . .
7.6 Funzione interpolante ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn . . . . . .
7.7 Funzione interpolante ŷ = ybx , a > 0, b > 0 ∧ b 6= 1 . . . . . . . . . .
7.8 Funzione interpolante ŷ = axb , a > 0 . . . . . . . . . . . . . . . . . .
7.9 Funzione interpolante ŷ . . . . . . . . . . . . . . . . . . . . . . . . .
7.10 La correlazione lineare . . . . . . . . . . . . . . . . . . . . . . . . . .
7.11 Il coefficiente di determinazione . . . . . . . . . . . . . . . . . . . . .
7.12 Tabella a doppia entrata . . . . . . . . . . . . . . . . . . . . . . . . .
7.13 Indipendenza e connessione . . . . . . . . . . . . . . . . . . . . . . .
7.14 La funzione interpolante per una tabella a doppia entrata . . . . . .
7.15 Il coefficiente di correlazione lineare per una tabella a doppia entrata
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
15
15
18
19
21
21
21
22
22
23
24
26
26
28
.
.
.
.
Elenco delle figure
statistica
29
30
rb