Statistica descrittiva
Roberto Boggiani
Versione 2
14 dicembre 2003
1
Introduzione
La Statistica riguarda i metodi scientifici per raccogliere, ordinare, riassumere, presentare e analizzare i
dati, ad anche per trarre valide conclusioni e prendere ragionevoli decisioni sulla base di tali analisi.
In tutti i problemi di statistica ci si trova di fronte ad una massa (grande o piccola) di dati che
sono raccolti, classificati ed elaborati in vista di certi scopi. Questi possono essere diversi da problema a
problema ed oggi si distinguono, nella teoria della statistica tre rami principali che rispondono ai nomi
di:
statistica descrittiva: si ha un problema di statistica descrittiva quando i dati raccolti si considerano
come un ente a sè, isolato quindi da altri analoghi che non sono stati raccolti. Se ad esempio, si
vuol sapere quanti sono, in una biblioteca, i libri di matematica, quelli di economia, di fisica, di
statistica e cosı̀ via, è sufficiente considerare volume per volume, classificarlo secondo la materia
trattata e riassumere i dati ottenuti in una tabella. Questo prospetto ha però un significato molto
ristretto in quanto vale solamente per quella biblioteca, nell’istante considerato. In altre parole, i
dati cosı̀ raccolti servono solamente a descrivere certe caratteristiche di quella biblioteca.
statistica inferente: ben più complicata è la statistica inferente la quale opera su campioni e quindi
su grandezze di tipo probabilistico. Lo scopo che si propone la statistica inferente può essere cosı̀
sintetizzato: da una certa popolazione, i cui caratteri sono ignoti, si estrae un campione casuale e
in base ai dati che esso fornisce si vuol provare (cioè accettare o respingere) una certa ipotesi, che
riguarda la popolazione.
teoria delle decisioni statistiche: si ha un problema di decisione quando si possono seguire diverse
alternative per raggiungere un certo obiettivo e bisogna selezionarne una (o, eventualmente, alcune).
La selezione avviene in modo che l’obiettivo da raggiungere sia ottimo, sotto un certo profilo. Inoltre
il problema può presentarsi in condizioni di certezza oppure di incertezza, intendendo, in questo
secondo caso, che esso è connesso con eventi casuali.
In questa dispensa, che non considera il calcolo delle probabilità, non tratteremo della statistica inferente
e della teoria delle decisioni statistiche, limitandoci ad esporre la statistica descrittiva.
2
Le fasi di una ricerca statistica
Come esistono dei problemi la cui soluzione richiede l’impiego della matematica, dei problemi che si
risolvono solamente ricorrendo alla fisica, cosı̀ esistono certe questioni la cui risposta non può essere data
che dopo aver effettuato una opportuna ricerca statistica. Le fasi in cui si articola una ricerca statistica
sono le seguenti:
1. Individuazione del fenomeno o dei fenomeni che si intendono studiare
2. Individuazione della popolazione da analizzare e quindi delle singole unità statistiche che riguarderanno la ricerca.
3. Raccolta dei dati da ciascuna unità statistica, loro classificazione con compilazione di tabelle.
4. Tracciamento di diagrammi facendo uso delle tabelle precedentemente ricavate.
5. Elaborazione dei dati.
6. Conclusione a cui si perviene a seguito della ricerca.
1
4
Statistica descrittiva univariata qualitativa
3
Statistica descrittiva
Come abbiamo detto, si ha un problema di statistica descrittiva quando i dati raccolti si considerano
come un ente a sè, isolati quindi da altri analoghi che non sono stati raccolti. Quando si effettua una
ricerca statistica, ciascuna unità statistica può essere analizzata facendo riferimento
• ad un solo fenomeno: si parlerà allora di statistica descrittiva univariata
• a due fenomeni: si parlerà allora di statistica descrittiva bivariata
• a tre o più fenomeni: si parlerà allora di statistica descrittiva multivariata
Inoltre se si considera un solo fenomeno sarà necessario analizzare anche le manifestazioni di quel fenomeno
nelle varie unità statistiche. Tali manifestazioni prendono il nome di modalità. Emerge allora la necessità
di predisporre quella che è chiamata scala delle modalità, che altro non è se non il vocabolario dei termini
che saranno adottati per interpretare le possibili manifestazioni del fenomeno considerato. Le scale delle
modalità, una volta costruite, rappresentano poi la fonte inderogabile del linguaggio che sarà adottato
nell’investigare intorno al fenomeno preso in esame. Le scale delle modalità possono essere:
• nominali: quando si articolano in modalità suscettibili di essere ordinati in qualunque modo
• ordinali: quando si articolano in modalità suscettibili di un ordinamento
• intervallari: quando si articolano in modalità che si identificano sempre con numeri aventi però la
prerogativa di quantificare le manifestazioni di un fenomeno
• di rapporto: quando si articolano in modalità caratterizzate dall’avere una origine fissa che risulta
in via naturale lo zero
Se si effettua una ricerca di statistica descrittiva univariata considerando quindi solamente un fenomeno
si avrà che
• se la rilevazione del fenomeno viene effettuata su scala di modalità di tipo nominale o ordinale si
parlerà di fenomeno di tipo qualitativo
• se la rilevazione del fenomeno viene effettuata su scala di modalità di tipo intervallare o di rapporto
si parlerà di fenomeno di tipo quantitativo.
Se si effettua una ricerca di statistica descrittiva bivariata o multivariata i vari fenomeni oggetto di studio
potranno combinarsi tra di loro in tutti i modi possibili. Nei prossimi paragrafi tratteremo allora i seguenti
casi:
• statistica descrittiva univariata qualitativa in cui il fenomeno oggetto di studio è di tipo qualitativo
• statistica descrittiva univariata quantitativa in cui il fenomeno oggetto di studio è di tipo quantitativo
• statistica descrittiva bivariata quantitativa in cui i fenomeni oggetto di studio sono entrambi di tipo
quantitativo
• statistica descrittiva bivariata qualitativa in cui i fenomeni oggetto di studio sono entrambi di tipo
qualitativo
4
4.1
Statistica descrittiva univariata qualitativa
Introduzione
Sia X un generico fenomeno di tipo qualitativo intorno al quale s’intende indagare. Fissata la popolazione
P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno
oggetto di studio che verranno nel seguito indicate con
m1 , m 2 , m 3 , . . . , m h
con h ≤ n sarà immediato costruire la seguente tabella:
statistica
2
rb
4
Statistica descrittiva univariata qualitativa
4.2
m
m1
m2
...
mi
...
mh
Frequenze relative
f
f1
f2
...
fi
...
fh
n
in cui i valori di fi con i = 1..h, detti frequenze assolute, rappresentano il numero delle unità statistiche
caratterizzate dall’avere la stessa modalità mi . Si noti che per tale tabella
h
X
fi = n
i=1
ossia la somma delle frequenze assolute sarà uguale al numero delle unità statistiche che compongono la
popolazione. Se il fenomeno oggetto di studio è misurabile su scala ordinale, sarà opportuno procedere
anche alla costruzione delle frequenze cumulate che indicheremo con F e che non sono altro che la somma
delle frequenze assolute dalla prima modalità a quella che stiamo considerando. Si otterrà allora la
seguente tabella:
m
m1
m2
...
mi
...
mh
4.2
f
f1
f2
...
fi
...
fh
n
F
F1 = f1
F2 = f1 + f2
...
Pi
Fi = k=1 fk
...
Fh = n
Frequenze relative
Se dividiamo ciascuna frequenza assoluta fi per per n otteniamo
pi =
fi
∀ i = 1..h
n
detto frequenza relativa. Tali frequenze relative sono molto importanti per esprimere un primo giudizio
sul fenomeno oggetto di studio. Naturalmente si avrà che:
h
X
pi = 1
i=1
Sarà possibile ottenere con analogo procedimento anche le frequenze relative cumulate.
4.3
Rappresentazioni grafiche
Possiamo effettuare una rappresentazione grafica del fenomeno oggetto di studio utilizzando la tabella
delle frequenze assolute e relative e costruendo particolari grafici quali:
• i grafici a barra
• i grafici a torta
4.4
La moda e la mediana
La riorganizzazione dei risultati della rilevazione in tabelle con frequenze assolute e relative e la rappresentazione in grafici consentono di ottenere una panoramica di come il fenomeno X è distribuito nelle n
unità della popolazione P e permettono di ottenere due valori di sintesi di tale distribuzione dati da:
la moda: è data dalla modalità che presenta la frequenza relativa o assoluta più elevata e viene indicata
con m0
statistica
3
rb
5
Statistica descrittiva bivariata qualitativa
4.5
La mutabilità
la mediana: può essere calcolata solamente su scale di modalità ordinali e rappresenta la modalità che,
una volta ordinate nel senso non decrescente le n unità di P rispetto alle modalità medesime, è
posseduta da quella che occupa il posto centrale, ovvero che lascia alla sua destra ed alla sua sinistra
un numero uguale di unità e cioè n−1
2 . Ta mediana viene calcolata con l’ausilio delle frequenze
relative cumulate e se esiste sarà indicata con m0.5 . Si noti che si potranno verificare due casi:
• se n è dispari la mediana sarà univocamente determinata e sarà data dalla modalità a cui
corrisponde l’unità statistica di posto n+1
2
• se n è pari non è detto che la mediana esista in quanto essa sarà data dalle modalità a cui
corrispondono le unità statistiche di posto n2 e n2 + 1. Se queste due modalità sono diverse la
mediana non esiste.
4.5
La mutabilità
Si nota però che la ricerca della moda e della mediana non illuminano circa il comportamento tenuto dallo
stesso fenomeno nell’ambito delle n unità che costituiscono la popolazione P . Dobbiamo allora spostare la
nostra attenzione ad un altro aspetto del comportamento del fenomeno X e, precisamente, alla variabilità
ch’esso ha presentato ovvero, come si usa dire alla sua mutabilità. Per comprendere cosa si intende per
mutabilità è opportuno introdurre il concetto di omogeneità. La popolazione P è detta omogenea se
le n unità statistiche che la formano risultano caratterizzate tutte dalla medesima modalità m. Se tale
fatto non si verifica, se, cioè, l rilevazione ha chiamato alla ribalta più di una modalità, si parla allora di
mutabilità che, pertanto, può definirsi come assenza di omogeneità. Dobbiamo allora introdurre un indice
che traduca il grado di mutabilità del fenomeno considerato e che dovrà avere le seguenti caratteristiche:
• assumere il valore zero quando il fenomeno si è manifestato con una sola modalità e quindi non
dimostrando alcuna mutabilità
• assumere valori via via maggiori del minimo quanto più le n unità statistiche della popolazione P
approssimano l’equidistribuzione fra le h modalità della scala adottata.
• assumere il valore uno se l’osservazione propone una equidistribuzione
La letteratura statistica propone a tal fine due indici:
l’indice del Gini dato da:
h
G=
h X
pi (1 − pi )
h − 1 i=1
l’indice di Shannon dato da:
H=−
h
X
pi ln pi
i=1
in cui pi come al solito identifica la frequenza relativa del fenomeno oggetto di studio.
5
5.1
Statistica descrittiva bivariata qualitativa
Introduzione
Fissata la popolazione P composta da n unità statistiche vogliamo rilevare da ciascuna delle unità oggetto
di studio le modalità in cui si manifestano due fenomeni di tipo qualitativo che indicheremo con X e Y
e le cui modalità saranno indicate rispettivamente con
X m1 ,X
m2 ,X m3 , . . . ,X mh
e
Y
m1 ,Y m2 ,Y m3 , . . . ,Y mk
con hq ≤ n sarà immediato costruire la seguente tabella a doppia entrata:
statistica
4
rb
5
Statistica descrittiva bivariata qualitativa
X \Y
X m1
X m2
...
X mi
...
X mh
f.j
m1
f11
f21
...
fi1
...
fh1
f.1
Y
m2
f12
f22
...
fi2
...
fh2
f.2
Y
5.2
...
...
...
...
...
...
...
...
mj
f1j
f2j
...
fij
...
fhj
f.j
Y
...
...
...
...
...
...
...
...
mk
f1k
f2k
...
fik
...
fhk
f.k
Y
Frequenze relative
fi.
f1.
f2.
...
fi.
...
fh.
n
in cui i valori di fij con i = 1..h ed j = 1..k detti frequenze assolute, rappresentano il numero delle unità
statistiche caratterizzate dall’avere la coppia di modalità (X mi ,Y mj ). Per tale tabella avremmo che:
•
h X
k
X
fij = n
i=1 j=1
•
k
X
fij = fi. ∀ i = 1..h
j=1
•
h
X
fij = f.j ∀ j = 1..k
i=1
•
k
X
f.j =
j=1
5.2
h
X
fi. = n
i=1
Frequenze relative
Se dividiamo ciascuna frequenza assoluta fij per per n otteniamo
fij
∀ i = 1..h ∀j = 1..k
n
detto frequenza relativa. Tali frequenze relative sono molto importanti per esprimere un primo giudizio
sul fenomeno oggetto di studio. Naturalmente si avrà che: Naturalmente si avrà che:
pij =
•
h X
k
X
pij = 1
i=1 j=1
•
k
X
pij = pi. ∀ i = 1..h
j=1
•
h
X
pij = p.j ∀ j = 1..k
i=1
•
k
X
j=1
5.3
p.j =
h
X
pi. = 1
i=1
L’indipendenza tra X ed Y
Fissata la popolazione P composta da n unità statistiche e rilevata da ciascuna delle unità oggetto di
studio le modalità in cui si manifestano due fenomeni di tipo qualitativo indicati con X e Y possiamo
come visto arrivare alla formulazione della seguente tabella a doppia entrata
X \Y
X m1
X m2
...
X mi
...
X mh
f.j
statistica
m1
f11
f21
...
fi1
...
fh1
f.1
Y
m2
f12
f22
...
fi2
...
fh2
f.2
Y
...
...
...
...
...
...
...
...
5
mj
f1j
f2j
...
fij
...
fhj
f.j
Y
...
...
...
...
...
...
...
...
mk
f1k
f2k
...
fik
...
fhk
f.k
Y
fi.
f1.
f2.
...
fi.
...
fh.
n
rb
6
Statistica descrittiva univariata quantitativa
5.4
La connessione tra X e Y
Diremo allora che il fenomeno X è indipendente dal fenomeno Y se accade che:
fij =
fi. f.j
n
e questo ∀ i = 1..h e ∀j = 1..k. Naturalmente se X e indipendente da Y anche Y è indipendente da X.
Se accade che X ed Y sono indipendenti si avrà anche che:
•
fij
fi.
=
f.j
n
•
fij
f.j
=
fi.
n
5.4
La connessione tra X e Y
Un aspetto al quale rivolgere l’attenzione nel caso di analisi di due fenomeni qualitativi è la connessione,
intendendosi con tale nome il fatto che una o più modalità del fenomeno X manifestino una preferenza ad
associarsi con una o più modalità del fenomeno Y . Cosı̀, ad esempio, facendo riferimento ai due fenomeni
colore degli occhi e colore dei capelli è possibile che il castano degli occhi si associ preferibilmente con
lo stesso colore dei capelli. Tenuto conto di quanto detto nel paragrafo 5.3 si può anche dire che due
fenomeni qualitativi X ed Y sono tra loro connessi se fra i medesimi non esiste indipendenza, ovvero se
non tutte le frequenze assolute della tabella a doppia entrata soddisfano alla relazione:
fij =
fi. f.j
n
e questo ∀ i = 1..h e ∀j = 1..k. Ne discende che per scoprire se X ed Y sono tra di loro connessi è
sufficiente porre a confronto la tabella dei dati osservati con la tabella teorica costruita con le stesse
frequenze marginali fi. e f.j in cui:
fi. f.j
?
fij
=
n
e questo ∀ i = 1..h e ∀j = 1..k. Per lo studio della connessione tra due fenomeni vengono prevalentemente
usati due indici:
l’indice di Mortara:
h
C=
k
1 XX
?
|fij − fij
|
n i=1 j=1
l’indice di χ2 :
χ2 =
k
h X
? 2
X
(fij − fij
)
1
?
n min{(h − 1), (k − 1)} i=1 j=1
fij
Entrambi questi indici godono delle seguenti proprietà:
• entrambi sono uguali a zero se non c’è connessione ed anzi in questo caso le due variabili sono tra
di loro indipendenti
• se c’è massima connessione tale indice vale 1 anzi in questo caso le due variabili sono perfettamente
dipendenti
• in generale tali indici variano da 0 ad 1
6
6.1
Statistica descrittiva univariata quantitativa
Introduzione
Sia X un generico fenomeno di tipo quantitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno
oggetto di studio che verranno nel seguito indicate con
x1 , x2 , x3 , . . . , xh
con h ≤ n sarà immediato costruire la seguente tabella:
statistica
6
rb
6
Statistica descrittiva univariata quantitativa
6.2
X
x1
x2
...
xi
...
xh
Frequenze relative
f
f1
f2
...
fi
...
fh
n
in cui i valori di fi con i = 1..h, detti frequenze assolute, P
rappresentano il numero delle unità statistiche
h
caratterizzate dall’avere la stessa modalità xi . Si noti che i=1 fi = n ossia che la somma delle frequenze
assolute deve essere uguale al numero delle unità statistiche che compongono la popolazione. Sarà sempre
possibile in questo caso procedere alla costruzione delle frequenze cumulate che indicheremo con F e
che non sono altro che la somma delle frequenze assolute dalla prima modalità a quella che stiamo
considerando. Si otterrà allora la seguente tabella:
X
x1
x2
...
xi
...
xh
f
f1
f2
...
fi
...
fh
n
F
F1 = f1
F2 = f1 + f2
...
Pi
Fi = k=1 fk
...
Fh = n
Il fenomeno X di tipo quantitativo prende anche il nome di variabile
6.2
Frequenze relative
Se dividiamo ciascuna frequenza assoluta fi per per n otteniamo
pi =
fi
∀ i = 1..h
n
detto frequenza relativa. Tali frequenze relative sono molto importanti per esprimere un primo giudizio
sul fenomeno oggetto di studio. Naturalmente si avrà che:
h
X
pi = 1
i=1
Sarà possibile ottenere con analogo procedimento anche le frequenze relative cumulate.
6.3
Rappresentazioni grafiche
Possiamo effettuare una rappresentazione grafica del fenomeno oggetto di studio utilizzando la tabella
delle frequenze assolute e relative e costruendo particolari grafici quali:
• i grafici a istogramma
• i grafici a boxplot
6.4
La moda e la mediana
La riorganizzazione dei risultati della rilevazione in tabelle con frequenze assolute e relative e la rappresentazione in grafici consentono di ottenere una panoramica di come il fenomeno X è distribuito nelle n
unità della popolazione P e permettono di ottenere due valori di sintesi di tale distribuzione dati da:
la moda: è data dalla modalità che presenta la frequenza relativa o assoluta più elevata e viene indicata
con m0
statistica
7
rb
6
Statistica descrittiva univariata quantitativa
6.5
Le medie algebriche potenziate
la mediana: che in questo caso può sempre essere calcolata rappresenta la modalità che, una volta
ordinate nel senso non decrescente le n unità di P rispetto alle modalità medesime, è posseduta da
quella che occupa il posto centrale, ovvero che lascia alla sua destra ed alla sua sinistra un numero
uguale di unità e cioè n−1
2 . La mediana viene calcolata con l’ausilio delle frequenze relative cumulate
e sarà indicata con m0.5 . Si noti che si potranno verificare due casi:
• se n è dispari la mediana sarà univocamente determinata e sarà data dalla modalità a cui
corrisponde l’unità statistica di posto n+1
2
• se n è pari non è detto che la mediana sia univocamente determinata in quanto essa sarà data
dalle modalità a cui corrispondono le unità statistiche di posto n2 e n2 + 1. Se queste due
modalità sono diverse un procedimento per il calcolo della mediana sarà quello di effettuare la
loro media aritmetica.
In questo caso la mediana gode di una importante proprietà che è quella di minimizzare la somma
degli scarti assoluti dei valori ossia:
h
X
|xi − m0.5 | = minimo
i=i
6.5
Le medie algebriche potenziate
Sia X una variabile intorno alla quale s’intende indagare. Fissata la popolazione P composta dalle n
unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che
verranno nel seguito indicate con
x1 , x2 , x3 , . . . , xh
con h ≤ n sarà immediato ottenere come già visto le relative frequenze assolute date da
f1 , f2 , f3 , . . . , fh
Prende allora il nome di media algebrica potenziata di ordine r la seguente:
v
u Ph
r
u
r
i=1 xi fi
t
Ph
r mX =
i=1 fi
Per i vari valori di r si otterranno le seguenti medie:
• per r = −1 si avrà la media armonica data da
Ph
fi
= Phi=1 f
i
−1 mX
i=1 xi
• per r → 0 si otterrà la media geometrica data da
0 mX
=
v
u h
uY f
t xi
Ph
i=1 fi
i
i=1
• per r = 1 si otterrà la media aritmetica data da
Ph
1 mX
= Pi=1
h
xi fi
i=1
fi
essendo la più usata, tale media verrà indicata d’ora in avanti con il simbolo mX
• per r = 2 si otterrà la media quadratica data da
v
u Ph
2
u
i=1 xi fi
t P
2 mX =
h
i=1 fi
statistica
8
rb
6
Statistica descrittiva univariata quantitativa
6.6
Valori in classi intervallari
• per r = 3 si otterrà la media cubica data da
v
u Ph
3
u
3
i=1 xi fi
=t
Ph
i=1 fi
3 mX
Si può dimostrare che:
. . . ,−2 mX ≤−1 mX ≤0 mX ≤ mX ≤2 mX ≤ . . .
6.6
Valori in classi intervallari
Sia X una variabile di tipo quantitativo intorno alla quale si intende indagare. Fissata la popolazione P
composta dalle n unità statistiche da analizzare potrebbe verificarsi il caso in cui le modalità non sono
espresse da valori numerici ma da intervalli come specificato nella seguente tabella:
X
x1 ` x2
x2 ` x3
...
xi ` xi+1
...
xh ` xh+1
f
f1
f2
...
fi
...
fh
n
F
F1 = f1
F2 = f1 + f2
...
Pi
Fi = k=1 fk
...
Fh = n
In questo caso sarà sempre possibile effettuare il calcolo delle medie potenziate cosı̀ come visto nei precedenti paragrafi basterà semplicemente sostituire all’intervallo i−esimo il suo valore centrale ossia porre
al posto di
xi ` xi+1
il valore
x∗i =
xi + xi+1
2
In modo analogo si ragiona nel caso in cui
• gli intervalli siano del tipo xi a xi+1
• il primo intervallo sia del tipo x < x1 o del tipo x ≤ x1 , basterà formulare delle ipotesi sulla
distribuzione del valori all’interno dell’intervallo
• l’ultimo intervallo sia del tipo x > xh o del tipo x ≥ xh , basterà formulare delle ipotesi sulla
distribuzione del valori all’interno dell’intervallo
6.7
Il caso in cui n = h
Sia X una variabile di tipo quantitativo intorno alla quale si intende indagare. Fissata la popolazione
P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno
oggetto di studio che verranno nel seguito indicate con
x1 , x2 , x3 , . . . , xh
Potrebbe presentari il caso in cui
h=n
ossia il caso in cui il numero delle modalità del fenomeno oggetto di studio sia pari al numero delle unità
statistiche su cui si effettua l’indagine. In questo caso allora si avrà che:
fi = 1 ∀ i = 1..n
e quindi le modalità saranno rappresentate con
x1 , x2 , x3 , . . . , xn
Da questo punto in avanti se non diversamente precisato
• si suppone che le modalità del fenomeno siano pari al numero delle unità statistiche ossia ci si pone
nel caso in cui n = h
• nei casi in cui non vi siano problemi di comprensione per non appesantire la scrittura si ometteranno
nelle sommatorie i relativi indici
statistica
9
rb
6
Statistica descrittiva univariata quantitativa
6.8
6.8
Le medie potenziate nel caso in cui n = h
Le medie potenziate nel caso in cui n = h
La formula generale delle medie potenziate nel caso in cui il numero delle modalità sia uguale al numero
delle unità statistiche risulta notevolmente semplificata e data da:
r Pn
r
r
i=1 xi
r mX =
n
Per i vari valori di r si otterranno le seguenti medie:
• per r = −1 si avrà la media armonica data da
n
= Pn
−1 mX
1
i=1 xi
• per r → 0 si otterrà la media geometrica data da
0 mX
v
un
uY
n
= t
xi
i=1
• per r = 1 si otterrà la media aritmetica data da
Pn
1 mX
i=1
=
xi
n
essendo la più usata, tale media verrà indicata d’ora in avanti con il simbolo mx
• per r = 2 si otterrà la media quadratica data da
r Pn
2 mX
i=1
=
x2i
n
• per r = 3 si otterrà la media cubica data da
r Pn
3 mX
6.9
=
3
i=1
x3i
n
La media aritmetica
La media aritmetica è la media più utilizzata nelle applicazioni statistiche. Per questo essa verrà studiata
in modo più approfondito rispetto alle altre medie potenziate. Sia X una generica variabile di tipo quantitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche
da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che verranno nel
seguito indicate con
x1 , x2 , x3 , . . . , xn
abbiamo definito la media aritmetica con:
Pn
i=1
mX =
xi
n
vogliamo ora dimostrare alcuni importanti teoremi che riguardano la media aritmetica stessa. Essi sono
dati da:
Teorema 6.1 (della somma degli scarti) Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn ,
la somma degli scarti di ciascuna modalità dalla propria media aritmetica vale zero
La dimostrazione di questo teorema e molto semplice infatti:
X
X
(xi − mx ) =
xi − nmX
= nmX − nmX = 0
statistica
10
rb
6
Statistica descrittiva univariata quantitativa
6.9
La media aritmetica
Teorema 6.2 (della devianza) Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn , la
quantità
X
(xi − a)2
avrà il suo valore minimo se e solo se a = mx . Il valore
X
(xi − mx )2
prende il nome di devianza
Anche in questo caso la dimostrazione è molto semplice si tratta di minimizzare la funzione:
X
f (a) =
(xi − a)2
La derivata rispetto ad a è data da:
f 0 (a) = 2
X
(xi − a)(−1)
che si annulla nel punto
P
a=
xi
= mX
n
essendo quindi
f 00 (a) = 1
il punto trovato è il punto di minimo relativo e ciò dimostra il teorema enunciato.
Teorema 6.3 (della media di una trasformazione lineare) Data la variabile X che presenta le n
modalità x1 , x2 , x3 , . . . , xn ed avente media mx se consideriamo la trasformazione lineare
Y = a + bX
si avrà allora che
mY = a + bmX
La dimostrazione di questo teorema è molto semplice infatti:
Pn
i=1 yi
mY =
Pnn
i=1 (a + bxi )
=
n
= a + bmX
Teorema 6.4 (della media della somma di due variabili) Siano X e Y due generiche variabili di
tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
e come media mX ed mY . Se costruiamo la variabile
Z =X +Y
si avrà che
mZ = mX+Y = mX + mY
Teorema 6.5 (del prodotto di due variabili) Siano X e Y due generiche variabili di tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
e come media mX ed mY . Se costruiamo la variabile
Z = XY
si avrà che
Pn
mZ = mXY =
statistica
11
i=1
xi yi
n
rb
6
Statistica descrittiva univariata quantitativa
6.10
6.10
La media dei quadrati
La media dei quadrati
Sia X una generica variabile di tipo quantitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il
fenomeno oggetto di studio che verranno nel seguito indicate con
x1 , x2 , x3 , . . . , xn
definiamo media dei quadrati la seguente:
Pn
i=1
mX 2 =
x2i
n
Attenzione a non confondere la media dei quadrati con la media quadratica.
6.11
La variabilità
Analizzando un fenomeno si rileva immediatamente l’esistenza di innumerevoli distribuzioni nelle quali il
valore medio assume il medesimo valore. Ad esempio
100, 100, 100
oppure
0, 100, 200
presentano la stessa media aritmetica pur essendo notevolmente diverse tra di loro. Da questa semplice
constatazione merge la necessità di integrare l’informazione derivante dall’applicazione delle medie mediante altri indicatori che descrivono il grado di dispersione dei dati attorno alle medie stesse, risulta
infatti evidente l’incapacità delle medie di mettere in evidenza questo interessante aspetto di un insieme
di dati. La variabilità si può definire come l’attitudine di una variabile ad assumere diverse modalità
quantitative. Gli indici di variabilità sono molteplici ma tutti devono soddisfare a queste due importanti
proprietà:
• devono annullarsi quando e solo quando tutti i termini che costituiscono la distribuzione sono
uguali tra di loro
• devono aumentare di valore in funzione della diversità che intercorre tra i termini
Esistono innumerevoli indici di variabilità ma noi ne studieremo solamente uno, la varianza.
6.12
La varianza e lo scarto quadratico medio
Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn avente media mX prende il nome di
varianza la quantità cosı̀ definita:
Pn
(xi − mX )2
2
σX = i=1
n
La varianza non è altro che la media aritmetica dei quadrati degli scarti dalla media aritmetica della
variabile X. Prende invece il nome di scarto quadratico medio la quantità cosı̀ definita:
r Pn
2
i=1 (xi − mX )
σX =
n
Lo scarto quadratico medio non è altro che la radice quadrata della varianza.
L’importanza dello scarto quadratico medio nell’analisi statistica dei dati è fondamentale: insieme con
la media aritmetica rappresenta un parametro essenziale per descrivere le caratteristiche qualificanti di
un insieme di valori.
statistica
12
rb
6
Statistica descrittiva univariata quantitativa
6.13
6.13
Metodo indiretto per il calcolo della varianza
Metodo indiretto per il calcolo della varianza
Oltre al procedimento diretto, che si basa sulla definizione stessa di varianza, per il calcolo della stessa
possiamo utilizzare un procedimento indiretto che deriva dalla seguente constatazione:
Pn
2
2
i=1 (xi − mX )
σX =
n
Pn
2
2
(x
i=1 i − 2mX xi + mX )
=
n
= mX 2 − 2m2X + m2X
= mX 2 − m2X
Ossia la varianza si può ottenere come differenza tra la media dei quadrati e il quadrato della media.
6.14
Proprietà della varianza
La varianza gode di alcune proprietà molto importanti che enunceremo sotto forma di teorema:
Teorema 6.6 (della varianza di una trasformazione lineare) Data la variabile X che presenta le
2
n modalità x1 , x2 , x3 , . . . , xn ed avente media mx e varianza σX
se consideriamo la trasformazione lineare
Y = a + bX
si avrà allora che
2
σY2 = b2 σX
La dimostrazione di questo teorema è molto semplice infatti:
P2
2
i=1 (y − mY )
σY2 =
n
Pn
(a
+ bxi − a − bmX )2
i=1
=
n
Pn 2
2
i=1 b (xi − mX )
=
n
2
= b2 σ X
Teorema 6.7 (della varianza della somma di due variabili) Siano X e Y due generiche variabili
di tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
e come media mX ed mY e varianza
2
σX
e σY2 . Se costruiamo la variabile
Z =X +Y
si avrà che
2
2
2
σZ
= σX+Y
= σX
+ σY2 + 2σXY
6.15
Covarianza
Siano X e Y due generiche variabili di tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
e come media mX ed mY . Prende il nome di covarianza:
Pn
(xi − mX )(yi − mY )
σXY = i=1
n
statistica
13
rb
7
Statistica descrittiva bivariata quantitativa
6.16 La media dei quadrati e la varianza nel caso in cui h < n
Notiamo allora immediatamente che:
Pn
σXY
− mX )(yi − mY )
n
Pn
(x
y
−
xi mY − yi mX + mX mY )
i=1 i i
=
n
= mXY − mX mY − mY mX + mX mY
= mXY − mX mY
=
i=1 (xi
Per cui una formula alternativa per il calcolo della media del prodotto di due variabili sarà data dalla
seguente:
mXY = mX mY + σXY
La covarianza gode di una importante proprietà data da:
−σX σY ≤ σXY ≤ σX σY
ossia la covarianza è limitata.
6.16
La media dei quadrati e la varianza nel caso in cui h < n
Sia X una generica variabile di tipo quantitativo aventi come modalità rispettivamente
x1 , x2 , x3 , . . . , xh
con h ≤ n. Fissata la popolazione P composta dalle n unità statistiche da analizzare vogliamo calcolare
la media dei quadrati e la varianza nel caso in cui le modalità siano accompagnate da frequenze cosı̀ come
evidenziato nella seguente tabella:
X
x1
x2
...
xi
...
xh
f
f1
f2
...
fi
...
fh
n
In questo caso si avrà allora che:
• la media dei quadrati si otterrà come:
Ph
mX 2 =
• la varianza si otterrà come
2
σX
7
7.1
Ph
=
i=1
i=1 (xi
x2i fi
n
− mX )2 fi
n
Statistica descrittiva bivariata quantitativa
Introduzione
Fissata la popolazione P composta da n unità statistiche vogliamo rilevare da ciascuna delle unità oggetto
di studio le modalità in cui si manifestano due variabili di tipo quantitativo che indicheremo con X e Y
e le cui modalità saranno indicate rispettivamente con
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
Da tale rilevazione siamo in grado di ottenere la seguente tabella
statistica
14
rb
7
Statistica descrittiva bivariata quantitativa
7.2
X
x1
x2
...
xi
...
xn
Lo scatter plot
Y
y1
y2
...
yi
...
yn
Quando si opera con due variabili il concetto più importante da analizzare è quello che consiste nel vedere
se le due variabili sono indipendenti oppure se esse sono dipendenti. Quando si verifica la prima ipotesi
il problema è chiuso, nel senso che è stata raggiunta una conclusione definitiva. Non altrettanto può
dirsi quando si perviene alla conclusione opposta. In questa seconda ipotesi, infatti, esistono infiniti tipi
di dipendenza ossia diverse funzioni matematiche idonee a descrivere come si modifica una variabile al
variare dell’altra. La procedura che viene usata per trovare queste funzioni matematiche prende il nome
di interpolazione. Esistono due tipologie di interpolazione:
interpolazione matematica: altrimenti detta per punti in quanto tenta di trovare la funzione matematica che passa esattamente per i punti dati
interpolazione statistica: altrimenti detta tra punti in quanto non cerca di trovare la funzione che
passa esattamente per i punti dati ma una funzione che passa attraverso i punti dati per mezzo di
un ben determinato criterio di accostamento
L’interpolazione matematica è difficile da realizzare per due ordini di motivi:
• se i dati sono molto numerosi i calcoli da eseguire per trovare una funzione che passa esattamente
per i punti dati sono notevoli
• se ad un valore di x corrispondono più valori di y questo tipo di interpolazione non potrà ovviamente
più essere effettuato.
L’interpolazione statistica risolve in modo molto efficace questi due tipi di problemi ed è per questo motivo
che è quella più largamente usata nella statistica descrittiva bivariata.
7.2
Lo scatter plot
Effettuata la nostra indagine statistica sulle n unità della popolazione P supponiamo di essere arrivati a
compilare la seguente tabella:
X
1
2
3
4
5
Y
8
12
22
28
30
Stabilito ora che la variabile indipendente è la X e quella dipendente è la Y , al fine di individuare il
tipo di dipendenza che lega le due variabili uno strumento grafico di fondamentale importanza da utilizza
re è dato dallo scatter plot. Lo scatter plot è un grafico nel quale si evidenzia nell’asse delle ascisse
la variabile indipendente ossia la X e nell’asse delle ordinate la variabile dipendente ossia la Y al fine
di poter individuare attraverso tale strumento grafico il particolare tipo di dipendenza che lega le due
variabili date. Lo scatter plot per i dati ottenuti dalla nostra indagine sarà quello evidenziato nella figura
1 Dal quale è immediato ricavare che il tipo di dipendenza che lega la variabile X con la variabile Y è
un tipo di dipendenza lineare che potrà quindi essere rappresentato con una funzione lineare o di primo
grado.
E’ chiaro che per la scelta del tipo di funzione non esistono dei criteri generali validi per ogni caso e
molto dipende dall’esperienza di chi effettua l’analisi statistica.
7.3
Il metodo dei minimi quadrati
Stabilito mediante l’analisi dello scatter plot il tipo di dipendenza che lega la variabile indipendente X
con la variabile dipendente Y ossia individuato il tipo di relazione funzionale che lega le due variabili il
statistica
15
rb
7
Statistica descrittiva bivariata quantitativa
7.3
Il metodo dei minimi quadrati
30
25
20
15
10
5
1
2
3
4
5
Figura 1: Scatter plot
problema che si pone ora è quello relativo alla determinazione dei parametri ignoti della funzione stessa.
Nell’esempio del precedente paragrafo abbiamo individuato la relazione di dipendenza in una funzione di
primo grado ossia una funzione del tipo:
y = ax + b
il problema che si pone ora è quello della determinazione dei parametri a e b che compongono la funzione
stessa.
Stabilito che il tipo di interpolazione che si utilizza per questo scopo è quella statistica sorge la necessità
di stabilire un criterio di accostamento che leghi i punti trovati dalla ricerca statistica con la relazione
funzionale ipotizzata.
Il criterio di accostamento più utilizzato per tale scopo è quello noto come metodo dei minimi
quadrati. Per capire come si utilizza questo metodo ipotizziamo che la funzione scelta per effettuare
l’interpolazione sia
ŷ = f (x; a1 , a2 , a3 , . . . , ak )
ossia una funzione che lega la variabile X con la variabile Y utilizzando i k parametri ignoti a1 , a2 , a3 , . . . , ak
che dovranno quindi essere determinati. Se consideriamo il valore di xi ottenuto attraverso l’indagine
statistica notiamo che a tale valore corrispondono
• il valore
yi
ottenuto attraverso l’indagine statistica
• il valore
yˆi = f (xi ; a1 , a2 , a3 , . . . , ak )
ottenuto dalla funzione teorica di interpolazione.
il tutto come evidenziato nella figura 2 In base a questo fatto per il seguito:
• il valore yi prenderà il nome di valore effettivo
• il valore yˆi prenderà il nome di valore teorico
Detto ora errore di interpolazione la differenza tra il valore effettivo e quello teorico ossia:
di = yi − yˆi
il criterio dei minimi quadrati permette di determinare i valori dei parametri ignoti a1 , a2 , a3 , . . . , ak della
funzione
ŷ = f (x; a1 , a2 , a3 , . . . , ak )
statistica
16
rb
7
Statistica descrittiva bivariata quantitativa
7.3
Il metodo dei minimi quadrati
Figura 2: Minimi quadrati
mediante un criterio di accostamento che consiste nel trovare il punto di minimo rispetto ai parametri
a1 , a2 , a3 , . . . , ak della funzione a k variabili:
f (a1 , a2 , . . . , ak )
=
n
X
d2i
i=1
=
n
X
(yi − yˆi )2
i=1
=
n
X
[yi − f (xi ; a1 , a2 , . . . , ak )]2
i=1
Il punto di minimo di tale funzione viene trovato utilizzando, se applicabili, i teoremi visti per la ricerca
dei punti di massimo e di minimo relativo per le funzioni a due o più variabili. Ricordiamo che il metodo
per la ricerca dei punti di massimo e di minimo relativo prevede prima di tutto la soluzione rispetto ad
a1 , a2 , a3 , . . . , ak del seguente sistema a k equazioni:

∂f


=0


∂a1







∂f


=0

∂a2




...







∂f



=0
∂ak
e successivamente nella verifica per mezzo della matrice Hessiana della natura del punto critico cosı̀
trovato. Si può dimostrare che in generale la soluzione di tale sistema è proprio punto di minimo senza
che sia necessario verificare anche le condizioni del secondo ordine ossia quelle che implicano lo studio
della matrice Hessiana.
La funzione interpolante trovata con il procedimento dei minimi quadrati prende anche il nome di
funzione di regressione.
Esamineremo dei paragrafi successivi la determinazione dei parametri della funzione interpolante
y = f (x; a1 , a2 , a3 , . . . , ak )
nei casi relativi alle funzioni più utilizzate.
statistica
17
rb
7
Statistica descrittiva bivariata quantitativa
7.4
7.4
Funzione interpolante ŷ = a + bx
Funzione interpolante ŷ = a + bx
Per la determinazione dei parametri ignoti a e b utilizzando il metodo dei minimi quadrati dobbiamo
prima di tutto costruire la funzione a due variabili
f (a, b)
=
n
X
(yi − yˆi )2
i=1
=
n
X
(yi − a − bxi )2
i=1
della quale dobbiamo trovare il punto di minimo relativo rispetto alle variabili a e b. Da quanto detto
precedentemente, il punto di minimo relativo deriverà dalla soluzione del seguente sistema a due variabili:

n
X
∂f


=
−2
(yi − a − bxi ) = 0



 ∂a
i=1

n

X

∂f


=
−2
(yi − a − bxi )xi = 0

∂b
i=1
il quale potrà essere riscritto come
 X
n
n
n
X
X


y
−
a
−
bxi = 0

i


 i=1
i=1
i=1

n
n
n

X
X
X



x
y
−
ax
−
bx2i = 0

i i
i
i=1
i=1
i=1
quindi con semplici semplificazioni arriviamo ad ottenere il seguente sistema:

n
n
X
X


yi
x
=
na
+
b

i



i=1
i=1

n
n
n

X
X
X


2

xi + b
xi =
xi yi
 a
i=1
i=1
i=1
Dividendo le due equazioni del sistema per n si ottiene:

 a + bmX = mY

amX + bmX 2 = mXY
Risolviamo ora il sistema cosı̀ ottenuto con il metodo dei determinanti per cui calcoliamo
1
mX 2
∆ = = mX 2 − m2X = σX
mX mX 2 mY
mX ∆a = = mY mX 2 − mX mXY
mXY mX 2 1
mY ∆b = = mXY − mX mY = σXY
mX mXY
ora nell’ipotesi che ∆ 6= 0 la soluzione del sistema sarà data da:
a =
b
=
mY mX 2 − mX mXY
∆a
=
2
∆
σX
∆b
σXY
= 2
∆
σX
e per quanto detto precedentemente tale punto è un punto di minimo relativo senza dover verificare anche
le condizioni del secondo ordine.
A questo punto notiamo le seguenti particolarità:
statistica
18
rb
7
Statistica descrittiva bivariata quantitativa
7.5
Funzione interpolante ŷ = a + bx + cx2
1. dalla prima equazione del sistema scritto sopra ossia:
a + bmX = mY
possiamo ottenere:
a = mY − bmX
se ora sostituiamo questo valore nella funzione teorica interpolante
ŷ = a + bx
otteniamo immediatamente la retta di interpolazione teorica sarà data da:
ŷ − mY = b(x − mX )
2. la retta interpolante passa per il punto di coordinate
(mX , mY )
detto baricentro della distribuzione
3. la somma degli errori di interpolazione vale zero infatti
n
X
(di )
=
i=1
=
=
n
X
i=1
n
X
i=1
n
X
(yi − yˆi )
(yi − a − bxi )
yi − na − b
i=1
n
X
xi
i=1
= nmY − na − nbmX
= nmY − n(mY − bmX ) − nbmX
= 0
4. la somma dei valori teorici e dei valori effettivi è uguale infatti se
n
X
(yi − yˆi ) = 0
i=1
deriva immediatamente che
n
X
yi =
i=1
7.5
n
X
yˆi
i=1
Funzione interpolante ŷ = a + bx + cx2
Per la determinazione dei parametri ignoti a,b e c utilizzando il metodo dei minimi quadrati dobbiamo
prima di tutto costruire la funzione a tre variabili
f (a, b, c)
=
n
X
(yi − yˆi )2
i=1
=
n
X
(yi − a − bxi − cx2i )2
i=1
statistica
19
rb
7
Statistica descrittiva bivariata quantitativa
Funzione interpolante ŷ = a + bx + cx2
7.5
della quale dobbiamo trovare il punto di minimo relativo rispetto alle variabili a, b e c. Da quanto detto
precedentemente, il punto di minimo relativo deriverà dalla soluzione del seguente sistema a tre variabili:

n
X
∂f


= −2
(yi − a − bxi − cx2i ) = 0



∂a

i=1






n
 ∂f
X
= −2
(yi − a − bxi − cx2i )xi = 0
∂b


i=1






n
 ∂f
X



=
−2
(yi − a − bxi − cx2i )x2i = 0

∂b
i=1
il quale potrà essere riscritto come
 n
n
n
n
X
X
X
X


y
−
a
−
bx
−
cx2i = 0

i
i



i=1
i=1
i=1
i=1






n
n
n
n
 X
X
X
X
xi yi −
axi −
bx2i −
cx3i = 0


i=1
i=1
i=1
i=1





 X
n
n
n
n

X
X
X



x2i yi −
ax2i −
bx3i −
cx4i = 0

i=1
i=1
i=1
i=1
quindi con semplici semplificazioni arriviamo ad ottenere il seguente sistema:

n
n
n
X
X
X

2

na
+
b
x
+
c
x
=
yi

i
i



i=1
i=1
i=1





 X
n
n
n
n

X
X
X
xi yi
x3i =
x2i + c
xi + b
a


i=1
i=1
i=1
i=1






n
n
n
n

X
X
X
X


2
3
4

a
x
+
b
x
+
c
x
=
x2i yi

i
i
i
i=1
i=1
i=1
i=1
A questo punto notiamo le seguenti particolarità:
1. la somma degli errori di interpolazione vale zero ossia anche in questo caso
n
X
(di )
n
X
=
i=1
i=1
n
X
=
(yi − yˆi )
(yi − a − bxi − cx2i )
i=1
=
0
2. la somma dei valori teorici e dei valori effettivi è uguale infatti se
n
X
(yi − yˆi ) = 0
i=1
deriva immediatamente che
n
X
yi =
i=1
statistica
20
n
X
yˆi
i=1
rb
7
Statistica descrittiva bivariata quantitativa
7.6 Funzione interpolante ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn
7.6
Funzione interpolante ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn
I due casi presentati ai punti 7.4, 7.5, possono essere generalizzati al caso in cui la funzione interpolante
sia un polinomio del tipo:
ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn
operando in modo analogo per ottenere il valore dei parametri ignoti.
Si possono notare le seguenti particolarità:
1. la somma degli errori di interpolazione vale zero ossia anche in questo caso
n
X
(di )
n
X
=
i=1
i=1
n
X
=
(yi − yˆi )
(yi − a − bxi − cx2i )
i=1
=
0
2. la somma dei valori teorici e dei valori effettivi è uguale infatti se
n
X
(yi − yˆi ) = 0
i=1
deriva immediatamente che
n
X
yi =
i=1
n
X
yˆi
i=1
3. se abbiamo a disposizione n coppie di dati del tipo (xi , yi ) il massimo grado che potremmo usare
per il polinomio interpolante sarà n − 1
7.7
Funzione interpolante ŷ = ybx , a > 0, b > 0 ∧ b 6= 1
In questo caso non si applica direttamente il metodo dei minimi quadrati in quanto il sistema che si
otterrebbe non sarebbe lineare nei parametri a e b e quindi sarebbe di difficile soluzione. Si preferisce
allora operare un cambiamento di variabili. Dalla funzione:
ŷ = abx
con a > 0, b > 0 ∧ b 6= 1 prendendo i logaritmi dei due membri si ottiene:
log y = log a + x log b
e posto
• log a = A
• log b = B
• log y = z
si ottiene la funzione
z = A + Bx
che è lineare nella variabile x. Ottenuti allora i valori di A e di B con i procedimenti visti in precedenza
sarà immediato ottenere anche i valori di a e di b mediante il passaggio alla funzione esponenziale.
7.8
Funzione interpolante ŷ = axb , a > 0
In questo caso non si applica direttamente il metodo dei minimi quadrati in quanto il sistema che si
otterrebbe non sarebbe lineare nei parametri a e b e quindi sarebbe di difficile soluzione. Si preferisce
allora operare un cambiamento di variabili. Dalla funzione:
ŷ = axb
con a > 0 prendendo i logaritmi dei due membri si ottiene:
log y = log a + b log x
e posto
statistica
21
rb
7
Statistica descrittiva bivariata quantitativa
7.9
Funzione interpolante ŷ
• log a = A
• log x = t
• log y = z
si ottiene la funzione
z = A + bt
che è lineare nella variabile t. Ottenuti allora i valori di A e di b con i procedimenti visti in precedenza
sarà immediato ottenere anche i valori di a mediante il passaggio alla funzione esponenziale.
7.9
Funzione interpolante ŷ
Il procedimento dei minimi quadrati come visto si può applicare a qualunque tipo di funzione interpolante
ŷ. Si noti però che nei casi diversi dall’interpolante polinomiale veniamo a perdere le seguenti due due
proprietà:
• la somma degli errori di interpolazione vale zero ossia anche in questo caso
• la somma dei valori teorici e dei valori effettivi è uguale
7.10
La correlazione lineare
Supponendo che il legame che intercorre tra la variabile X e la variabile Y sia di tipo lineare ossia che
la funzione di regressione che lega le due variabili sia del tipo ŷ = a + bx non sempre non sempre è
però possibile stabilire con certezza se è la variabile X che dipende dalla variabile Y o se viceversa è la
variabile Y che dipende dalla variabile X. Si pensi al caso in cui le variabili oggetto di studio siano il
peso e l’altezza di un individuo. E’ il peso che influenza l’altezza o viceversa sarà l’altezza ad influenzare
il peso. In questi casi non viene determinata una funzione di regressione ,in quanto priva di significato,
ma si ricerca un indice detto indice di correlazione lineare in grado di misurare l’intensità del legame
di tipo lineare che sussiste tra le due variabili considerate. Tale indice è definito da:
r=
σXY
σ X σY
Il coefficiente di correlazione lineare r può essere ottenuto come media geometrica dei coefficienti angolari
delle due rette di regressione considerando sia la variabile X dipendente dalla variabile Y che la variabile
Y dipendente dalla variabile X. Infatti supponiamo di disporre di due variabili X ed Y . Se la funzione
di regressione è lineare si potranno verificare due casi:
• se X è considerata variabile indipendente ed Y variabile dipendente si avrà che la retta di regressione
sarà:
ŷ = a1 + b1 x
in cui
b1 =
σXY
2
σX
• se Y è considerata variabile indipendente ed X variabile dipendente si avrà che la retta di regressione
sarà:
x̂ = a2 + b2 y
in cui
b2 =
σXY
σY2
si avrà allora che:
r
p
b1 b2
r
σXY σXY
=
2
σX
σY2
σXY
=
σX σY
=
Da quanto detto è anche immediato ricavare che:
statistica
22
rb
7
Statistica descrittiva bivariata quantitativa
7.11
Il coefficiente di determinazione
• b1 b2 = r 2
Y
• b1 = r σσX
• b1 2 = r σσX
Y
che sono di immediata verifica. Ricordando ora quanto detto nel paragrafo 7.4 ossia che:
ŷ − mY = b(x − mX )
possiamo anche ottenere che:
σY
(x − mX )
σX
σX
=r
(y − mY )
σY
ŷ − mY = b1 (x − mX ) ⇔ ŷ − mY = r
x̂ − mX = b2 (y − mY ) ⇔
x̂ − mX
Il coefficiente di correlazione lineare gode di alcune importanti proprietà:
• è un valore senza dimensioni e quindi non dipende dalle unità di misura delle variabili X ed Y
• il suo valore è compreso tra -1 e +1 ricordando infatti che:
−σX σY ≤ σXY ≤ σX σY
dividendo i tre membri della disequazione per σX σY si ottiene che
σXY
−1 ≤
≤ +1
σX σY
ossia
−1 ≤ r ≤ +1
• se r > 0 la correlazione è positiva e lo scatter plot di X e di Y evidenzierà dei punti tanto più
allineati lungo una retta inclinata positivamente quanto più r sarà vicino ad 1.
• se r < 0 la correlazione è negativa e lo scatter plot di X e di Y evidenzierà dei punti tanto più
allineati lungo una retta inclinata negativamente quanto più r sarà vicino ad −1.
• se r = 1 la correlazione è perfettamente positiva e lo scatter plot di X e di Y evidenzierà dei punti
allineati perfettamente lungo una retta inclinata positivamente
• se r = −1 la correlazione è perfettamente negativa e lo scatter plot di X e di Y evidenzierà dei
punti allineati perfettamente lungo una retta inclinata negativamente
• se r = 0 non esiste correlazione lineare tra X ed Y ma ciò non esclude che tra le due variabili possa
esistere un tipo di correlazione diversa da quella di tipo lineare
7.11
Il coefficiente di determinazione
Supponendo che il legame che intercorre tra la variabile X e la variabile Y sia rappresentato da un
polinomio di tipo
ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn
oltre che determinare i coefficienti ignoti della funzione interpolante dobbiamo anche introdurre un indice
che ci permetta di giudicare sulla bonta della interpolazione effettuata. A tale scopo consideriamo la
seguente uguaglianza:
n
X
(yi − mY )2 =
i=1
n
X
(yi − yˆi )2 +
i=1
n
X
(yˆi − mY )2
(1)
i=1
facilmente dimostrabile ricordando che
n
X
(yi − yˆi )(yˆi − mY ) = 0
i=1
Possiamo dividere la (1) ottenendo:
Pn
Pn
Pn
2
2
(yˆi − mY )2
i=1 (yi − yˆi )
i=1 (yi − mY )
=
+ i=1
n
n
n
e quindi chiamando:
statistica
23
(2)
rb
7
Statistica descrittiva bivariata quantitativa
• varianza totale la seguente
7.12
Pn
Tabella a doppia entrata
− mY )2
= σY2
n
i=1 (yi
• varianza non spiegata la seguente
Pn
i=1 (yi
− yˆi )2
n
• varianza spiegata la seguente
Pn
= σd2
− mY )2
= σŷ2
n
i=1 (yˆi
la (2) può essere riscritta nel seguente modo:
σY2 = σd2 + σŷ2
evidenziando come la varianza totale possa essere scomposta nella somma della varianza spiegata dalla
regressione e della varianza non spiegata dalla regressione.
Un indice che ci permette allora di valutare la bontà della interpolazione effettuata è l’indice di
determinazione che sarà dato da
σŷ2
r2 = 2
σY
Tale indice gode di alcune fondamentali proprietà date da:
• Se la funzione di regressione usata è la funzione ŷ = a + bx allora il coefficiente di determinazione è
proprio il quadrato del coefficiente di correlazione lineare. Infatti in questo caso possiamo scrivere
che:
r2
=
=
=
σŷ2
σY2
Pn
(yˆi − mY )2
Pi=1
n
(yi − mY )2
Pi=1
n
2
2
i=1 (b1 (xi − mX )
P
n
2
i=1 (yi − mY )
=
2
b21 σX
σY2
=
[r]2
• Il coefficiente di determinazione varia tra
0 ≤ r2 ≤ 1
tanto più esso si avvicina ad uno tanto più la funzione di regressione trovata è buona.
7.12
Tabella a doppia entrata
Fissata la popolazione P composta da n unità statistiche se rileviamo da ciascuna delle unità oggetto di
studio le modalità in cui si manifestano due variabili di tipo quantitativo che indichiamo con X e Y e le
cui modalità sono indicate rispettivamente con
x1 , x2 , x3 , . . . , xn
e
y1 , y 2 , y 3 , . . . , y n
otteniamo la seguente tabella
X
x1
x2
...
xi
...
xn
statistica
Y
y1
y2
...
yi
...
yn
24
rb
7
Statistica descrittiva bivariata quantitativa
7.12
Tabella a doppia entrata
detta tabella ad entrata semplice. Tale tabella è usata nel caso in cui ogni coppia di modalità
(xi , yi )
per i = 1..n si presenta una sola volta nelle n unità statistiche oggetto di rilevazione. Quando però n
ossia il numero delle unità statistiche diviene elevato, è intuitivo riconoscere che tale fatto non può essere
ritenuto più valido quindi una generica coppia di modalità:
(xi , yi )
può presentarsi con una frequenza diversa da uno ossia essere ripetuta più volte. In questo caso i dati
dell’analisi non possono più essere riassunti in una tabella ad entrata semplice ma dovranno essere inseriti
in una tabella a doppia entrata. Per chiarire il funzionamento di tale tipo di tabella ipotizziamo che fissata
la popolazione P composta da n unità statistiche si rilevino da ciascuna delle unità oggetto di studio le
modalità in cui si manifestano due variabili di tipo quantitativo che indicheremo con X e Y e le cui
modalità saranno indicate rispettivamente con
x1 , x2 , x3 , . . . , xh
e
y1 , y 2 , y 3 , . . . , yk
tenendo conto anche del fatto che ciascuna coppia di modalità
(xi , yj )
con i = 1..h e j = 1..k può essere ripetuto con una frequenza pari ad fij . Da tale rilevazione siamo in
grado di ottenere la seguente tabella a doppia entrata:
X \Y
x1
x2
...
xi
...
xh
f.j
y1
f11
f21
...
fi1
...
fh1
f.1
y2
f12
f22
...
fi2
...
fh2
f.2
...
...
...
...
...
...
...
...
yj
f1j
f2j
...
fij
...
fhj
f.j
...
...
...
...
...
...
...
...
yk
f1k
f2k
...
fik
...
fhk
f.k
fi.
f1.
f2.
...
fi.
...
fh.
n
Per una tabella a due variabili avremmo che:
•
k
h X
X
fij = n
i=1 j=1
•
k
X
fij = fi. ∀ i = 1..h
j=1
•
h
X
fij = f.j ∀ j = 1..k
i=1
•
k
X
f.j =
h
X
j=1
fi. = n
i=1
Potremmo inoltre definire:
h
• mX t Y u =
h
• σX t Y u =
k
1 XX t u
x y fij
n i=1 j=1 i j
k
1 XX
(xi − mX )t (yj − mY )u fij
n i=1 j=1
da cui è immediato ottenere che:
statistica
25
rb
7
Statistica descrittiva bivariata quantitativa
h
k
h
h
k
h
h
k
k
h
k
7.13
• mX 1 Y 0 =
1 XX
1X
xi fi. = mX
xi fij =
n i=1 j=1
n i=1
• mX 2 Y 0 =
1 XX 2
1X 2
x fi. = mX 2
xi fij =
n i=1 j=1
n i=1 i
• mX 0 Y 1 =
1 XX
1X
xi f.j = mY
yj fij =
n i=1 j=1
n j=1
• mX 1 Y 1 =
1 XX
xi yj fij = mXY
n i=1 j=1
h
k
h
k
h
h
k
k
• σX 1 Y 1 =
1 XX
(xi − mX )(yj − mY )fij = σXY
n i=1 j=1
• σX 2 Y 0 =
1 XX
1X
2
(xi − mX )2 fi. = σX
(xi − mX )2 fij =
n i=1 j=1
n i=1
• σX 0 Y 2 =
1 XX
1X
(yj − mY )2 f.j = σY2
(yj − mY )2 fij =
n i=1 j=1
n j=1
Indipendenza e connessione
Le rappresentazioni grafiche per le tabelle a doppia entrata sono più difficili da realizzare rispetto a quelle
relative alle tabelle ad entrata semplice infatti necessitano l’uso di grafici tridimensionali.
7.13
Indipendenza e connessione
Nel caso di una tabella a doppia entrata possiamo vale senza alcun cambiamento quanto precisato nei
paragrafi 5.3 e 5.4
7.14
La funzione interpolante per una tabella a doppia entrata
Per trovare i parametri di una generica funzione interpolante nel caso di una tabella a doppia entrata ci si
comporta esattamente come visto nel caso della tabella a entrata semplice. In questo caso però abbiamo
il problema della doppia sommatoria che potrà essere facilmente superato ricordando la simbologia scritta
nel paragrafo 7.12. Ipotizzando allora che la funzione interpolante sia del tipo:
ŷ = a + bx
per la determinazione dei parametri ignoti a e b utilizziamo il metodo dei minimi quadrati e quindi
dobbiamo prima di tutto costruire la funzione a due variabili
f (a, b)
=
h X
k
X
(yi − yˆi )2 fij
i=1 j=1
=
h X
k
X
(yi − a − bxi )2 fij
i=1 j=1
della quale dobbiamo trovare il punto di minimo relativo rispetto alle variabili a e b. Da quanto detto
precedentemente, il punto di minimo relativo deriverà dalla soluzione del seguente sistema a due variabili:

h X
k

X

 ∂f = −2

(yi − a − bxi )fij = 0



 ∂a
i=1 j=1

h X
k

X

∂f



= −2
(yi − a − bxi )xi fij = 0

 ∂b
i=1 j=1
statistica
26
rb
7
Statistica descrittiva bivariata quantitativa
7.14 La funzione interpolante per una tabella a doppia entrata
il quale potrà essere riscritto come

h X
k
h X
k
h X
k

X
X
X



y
f
−
af
−
bxi fij = 0
i ij
ij



 i=1 j=1
i=1 j=1
i=1 j=1

h X
k
h X
k
h X
k

X
X
X




x
y
f
−
ax
f
−
bx2i fij = 0
i i ij
i ij


i=1 j=1
i=1 j=1
i=1 j=1
che possiamo riscrivere come

h X
k
h X
k
h X
k

X
X
X



af
+
b
x
f
=
yi fij
ij
i ij



 i=1 j=1
i=1 j=1
i=1 j=1

h X
k
h X
k
h X
k

X
X
X


2


a
x
f
+
b
x
f
=
xi yi fij
i ij
i ij


i=1 j=1
i=1 j=1
i=1 j=1
ricordando ora quanto detto nel paragrafo 7.12 si avrà che:

h
k

X
X

 naf + b

xi fi. =
yi f.j
ij




i=1
j=1

h
h
h X
k

X
X
X




a
xi fi. + b
x2i fi. =
xi yi fij


i=1
i=1
i=1 j=1
Dividendo le due equazioni del sistema per n e ricordando la simbologia adottata nel paragrafo 7.12 si
ottiene

 a + bmX = mY

amX + bmX 2 = mXY
sistema analogo a quello visto nel caso di una tabella ad entrata semplice, l’unica differenza ta nel diverso
modo di calcolare i valori costanti in esso inseriti. La soluzione di questo sistema ci fornisce i valori cercati
di a e di b.
Vista la difficoltà, soprattutto simbolica, vogliamo in questo caso fornire un esempio di applicazione
pratica della ricerca della funzione interpolante. Data la seguente tabella della distribuzione di 100 allievi
di un istituto secondo i voti di italiano e di matematica riportati allo scrutinio finale in cui
• X voto in italiano
• Y voto in matematica
X \Y
4
5
6
7
8
f.j
3
1
1
1
0
0
3
4
2
3
3
0
0
8
5
1
4
10
1
0
16
6
2
6
25
5
2
40
7
0
2
8
10
5
25
8
0
0
1
4
3
8
fi.
6
16
48
20
10
100
si vuole trovare il valore dei coefficienti a e b nell’ipotesi che la funzione interpolante sia lineare del tipo
ŷ = a + bx
Dobbiamo allora in base a quanto detto costruire le seguenti tabelle:
X
4
5
6
7
8
statistica
X2
16
25
36
49
64
fi.
6
16
48
20
10
100
Xfi.
24
80
288
140
80
612
27
X 2 fi.
96
400
1728
980
640
3844
mX
mX 2
6.12
38.44
rb
7
Statistica descrittiva bivariata
7.15 quantitativa
Il coefficiente di correlazione lineare per una tabella a doppia entrata
Y
3
4
5
6
7
8
X \Y
4
5
6
7
8
f.j
Y2
9
16
25
36
49
64
3
12
15
18
0
0
45
4
32
60
72
0
0
164
f.j
3
8
16
40
25
8
100
5
20
100
300
35
0
455
Y 2 f.j
27
128
400
1440
1225
512
3732
Y f.j
9
32
80
240
175
64
600
6
48
180
900
210
96
1434
7
0
70
336
490
280
1176
mY
mY 2
6
37, 32
8
0
0
48
224
192
464
fi.
112
425
1674
959
568
3738
mXY
37.38
Per la ricerca dei valori di a e di b per quanto detto dobbiamo risolvere il sistema:
a + 6.12b = 6
6.12a + 38.44b = 37.38
che da come soluzioni
a = 1.90 b = 0.67
7.15
Il coefficiente di correlazione lineare per una tabella a doppia entrata
Abbiamo visto che il coefficiente di correlazione lineare per una tabella a doppia entrata è dato da:
r=
σXY
σ X σY
che possiamo anche riscrivere come
mXY − mX mY
p
mX 2 − m2X mY 2 − m2Y
r= p
ricordando allora la simbologia adottata nel paragrafo 7.12 è immediato calcolare il coefficiente di correlazione lineare. Vogliamo come esempio calcolare tale coefficiente nell’esempio inserito nel paragrafo 7.14.
Si avrà che:
37.38 − (6.12)(6)
p
r= p
= 0.5791
38.44 − (6.12)2 37.32 − (6)2
Notiamo come anche in questo caso le formule sono uguali a quelle usate nel caso di una tabella ad entrata
semplice, cambieranno solamente i procedimenti di calcolo dei valori in essi indicati.
statistica
28
rb
Elenco delle figure
Elenco delle figure
Elenco delle figure
1
2
Scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
statistica
29
16
17
rb
Indice
Indice
Indice
1 Introduzione
1
2 Le fasi di una ricerca statistica
1
3 Statistica descrittiva
2
4 Statistica descrittiva univariata qualitativa
4.1 Introduzione . . . . . . . . . . . . . . . . .
4.2 Frequenze relative . . . . . . . . . . . . . .
4.3 Rappresentazioni grafiche . . . . . . . . . .
4.4 La moda e la mediana . . . . . . . . . . . .
4.5 La mutabilità . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
3
3
3
4
5 Statistica descrittiva bivariata qualitativa
5.1 Introduzione . . . . . . . . . . . . . . . .
5.2 Frequenze relative . . . . . . . . . . . . .
5.3 L’indipendenza tra X ed Y . . . . . . . .
5.4 La connessione tra X e Y . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
5
5
6
6 Statistica descrittiva univariata quantitativa
6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Frequenze relative . . . . . . . . . . . . . . . . . . . . . .
6.3 Rappresentazioni grafiche . . . . . . . . . . . . . . . . . .
6.4 La moda e la mediana . . . . . . . . . . . . . . . . . . . .
6.5 Le medie algebriche potenziate . . . . . . . . . . . . . . .
6.6 Valori in classi intervallari . . . . . . . . . . . . . . . . . .
6.7 Il caso in cui n = h . . . . . . . . . . . . . . . . . . . . . .
6.8 Le medie potenziate nel caso in cui n = h . . . . . . . . .
6.9 La media aritmetica . . . . . . . . . . . . . . . . . . . . .
6.10 La media dei quadrati . . . . . . . . . . . . . . . . . . . .
6.11 La variabilità . . . . . . . . . . . . . . . . . . . . . . . . .
6.12 La varianza e lo scarto quadratico medio . . . . . . . . . .
6.13 Metodo indiretto per il calcolo della varianza . . . . . . .
6.14 Proprietà della varianza . . . . . . . . . . . . . . . . . . .
6.15 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . .
6.16 La media dei quadrati e la varianza nel caso in cui h < n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
7
7
8
9
9
10
10
12
12
12
13
13
13
14
7 Statistica descrittiva bivariata quantitativa
7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Lo scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Il metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . .
7.4 Funzione interpolante ŷ = a + bx . . . . . . . . . . . . . . . . . . . .
7.5 Funzione interpolante ŷ = a + bx + cx2 . . . . . . . . . . . . . . . . .
7.6 Funzione interpolante ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn . . . . . .
7.7 Funzione interpolante ŷ = ybx , a > 0, b > 0 ∧ b 6= 1 . . . . . . . . . .
7.8 Funzione interpolante ŷ = axb , a > 0 . . . . . . . . . . . . . . . . . .
7.9 Funzione interpolante ŷ . . . . . . . . . . . . . . . . . . . . . . . . .
7.10 La correlazione lineare . . . . . . . . . . . . . . . . . . . . . . . . . .
7.11 Il coefficiente di determinazione . . . . . . . . . . . . . . . . . . . . .
7.12 Tabella a doppia entrata . . . . . . . . . . . . . . . . . . . . . . . . .
7.13 Indipendenza e connessione . . . . . . . . . . . . . . . . . . . . . . .
7.14 La funzione interpolante per una tabella a doppia entrata . . . . . .
7.15 Il coefficiente di correlazione lineare per una tabella a doppia entrata
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
15
15
18
19
21
21
21
22
22
23
24
26
26
28
.
.
.
.
Elenco delle figure
statistica
29
30
rb