Elementi di Statistica Descrittiva

APPENDICE A
Elementi di statistica descrittiva
Andrea Sambusetti
e-mail: [email protected]
URL: http://www.mat.uniroma1.it/people/sambusetti
La statistica descrittiva ha lo scopo di analizzare e interpretare delle serie di dati, allo
scopo di suggerire tendenze e strategie, fornire test di verosimiglianza e creare modelli
probabilistici che aiutino a prevedere (compito che è più specificatamente l’oggetto della
statistica inferenziale e del calcolo delle probabilità).
1. Distribuzioni di dati, rappresentazione, frequenze
Una distribuzione di dati è descritta, in generale, da una funzione X : Ω → V, dove Ω è
l’insieme delle prove, o osservazioni, o popolazione, e V è l’insieme dei valori che una certa
osservazione può dare. Ecco alcuni esempi di distribuzioni:
• il valore di un carattere in una certa popolazione, come per es. le età degli studenti di
una classe: qui Ω è l’insieme degli studenti, V l’insieme delle età;
• il risultato di un numero ripetuto di misurazioni, come per es. la temperatura rilevata
in un certo sito al variare del tempo: qui Ω è l’insieme dei tempi ai quali si effettua la
misurazione, e V è l’insieme delle temperature rilevate.
Spesso, quando si tratta di prove o misure ripetute, Ω può essere preso uguale all’insieme
{1, ..., n} (dove n è il numero delle prove); in tal caso, conoscere una distribuzione X vuol
dire conoscere gli n valori X(i) = xi , dunque X può essere assimilata ad una sequenza
ordinata di valori (x1 , ..., xn ) (comunemente abbreviata con (xi )n ).
Notiamo che l’insieme dei valori V di una distribuzione può essere numerico o no. Per
esempio: la distribuzione che indica il giorno della settimana di massima affluenza in
ciascun ufficio postale di una città (in cui l’insieme dei valori V è l’insieme dei giorni della
settimana); oppure, la stessa distribuzione delle età in una popolazione, se raccolte per
intervalli (in cui l’insieme V è un insieme di intervalli, per es. tra 0 e 10 anni, tra 11 e 20
ecc.),
Tra i vari metodi utilizzati per riassumere e visualizzare le distribuzioni ci sono: diagrammi cartesiani per punti, spezzate o grafici. Di seguito, ecco un esempio per ognuno
di essi:
1
2
Appendice : elementi di statistica descrittiva
Esercizio A.1.1. Per ciascuna delle distribuzioni alle figure 1-2-3-4, specificare l’insieme Ω delle “prove”
e l’insieme V dei valori:
Figura 1. Distribuzione dell’età in una classe
Figura 2. Distribuzione degli intervalli di reddito medio per regione
Figura 3. Distribuzione dell’anomalia termometrica media terrestre in ◦ C
Un metodo sintetico alternativo per dare una distribuzione consiste nello specificare, per
ciascun valore x ∈ V possibile, la sua frequenza: cioè il numero f (x) = #X −1 (x) dei casi
per i quali si ottiene il valore x. In questo modo la distribuzione può essere “riassunta”
da una tabella riportante per ogni x la relativa frequenza f (x). Per esempio, la tabella
associata alla distribuzione delle età nell’esercizio A.1.1, Figura 1, è:
x = età 18 19 20 21 22 23
f (x)
7 17 13 7 3 3
A. Sambusetti
3
Si noti che tale tabella non contiene precisamente la stessa quantità di informazione della
distribuzione iniziale (si può dedurre da essa quali sono gli studenti che hanno 20 anni?)
ma, per molti fini statistici, essa rimpiazza adeguatamente la conoscenza precisa della
distribuzione. Si noti inoltre che la somma di tutte le frequenze è sempre uguale al numero
di prove n (perché?); i numeri fˆ(x)/n sono detti frequenze relative, e danno quindi sempre
somma 1.
Esercizio A.1.2. Scrivere le tabelle associate a tutte le distribuzioni dell’esercizio A.1.1.
Infine, è bene conoscere un ulteriore metodo di rappresentazione della tabella di una
distribuzione: gli istogrammi di frequenze e gli aerogrammi (o diagrammi a torta).
Se X = (xi )n è una distribuzione di dati, l’istogramma delle frequenze di X è semplicemente il grafico della funzione-frequenze f (x) in funzione dei valori possibili x, i quali
vengono rappresentati su un asse come intervallini. Si noti che le frequenze sono valori
numerici pertanto è sempre possibile confrontarli numericamente (al contrario dei valori
x della distribuzione X, che possono non essere numerici): l’istogramma permette precisamente un confronto “visivo” immediato dei valori assunti con maggiore frequenza.
Per rendere geometricamente più intuitivo tale confronto, i valori possibili x vengono rappresentati con intervallini di uguale ampiezza, in modo che l’area dei rettangolini risultanti
sia esattamente proporzionale alle frequenze 1.
Un diagramma a torta per X consiste invece in un cerchio, suddiviso in tanti spicchi di
area (o arco sotteso) proporzionale alla frequenze f (x); lo spicchio relativo ad un valore x
corrisponde dunque ad un angolo al centro α(x) dato dalla proporzione
f (x) : n = α(x) : 2π
cioè α(x) = ( 2π
n )f (x). L’area degli spicchi dà quindi un’idea immediata della proporzione
delle frequenze relative fˆ(x), cioè il rapporto tra le varie frequenze ed il numero totale
delle osservazioni.
Esempio A.1.3. L’istogramma delle frequenze e l’aerogramma della distribuzione delle età nell’Esercizio
A.1.1, Figura 1, sono:
Esercizio A.1.4. Costruire gli areogrammi delle altre distribuzioni dell’esercizio A.1.1, Figure 2 e 3.
1Qualora i valori x siano intervalli, è buona norma rappresentarli sull’asse con ampiezza proporzionale
alla loro misura, in modo che le aree dei vari rettangolini dell’istogramma risulti proporzionale anche a tali
ampiezze.
4
Appendice : elementi di statistica descrittiva
Infine, già dalla Figura 3 dell’esempio A.1.1, osserviamo che può essere utile prendere per
insiemi Ω e V degli insiemi continui; quando, per esempio, l’insieme delle “osservazioni”
tenda ad infittirsi in un intervallo reale, o quando la relazione tra osservazioni e valori sia
meglio descritta da una legge empirica espressa da una funzione di variabile reale. Qui
di seguito (Figura 4) portiamo un esempio in cui la distribuzione esprime la crescita di
una coltura di batteri in funzione del tempo, e chiaramente il valore quantità di batteri
è misurato più efficacemente come un volume (una quantità continua), piuttosto che dal
loro numero (una quantità discreta), ed il tempo è pensato come continuo.
Figura 4. Distribuzione della crescita di una coltura batterica: X(t) = v0 2t
(cm3 di volume in funzione del tempo, espresso in giorni t ≥ 0)
Può essere utile sapere cosa sono le “frequenze” nel caso di una distribuzione continua come in Figura 4.
Difatti, se Ω è un insieme infinito, come un intervallo, i numeri f (x) = #X −1 (x) perdono di senso (un
valore può essere assunto da un’infinità di “osservazioni”!). Ricordiamo che la proprietà fondamentale delle
frequenze è di dare una misura di quante volte un certo valore è assunto rispetto al numero di osservazioni
totali; ovvero, il numero di osservazioni che danno un risultato compreso tra x1 e x2 si calcola tramite le
frequenze come:
X
(1.1)
#X −1 (x1 , x2 ) = #{i ∈ Ω | X(i) ∈ (x1 , x2 )} =
f (x)
x∈(x1 ,x2 )
Se desideriamo una nozione di frequenza con una proprietà analoga, nel caso di una distribuzione data da
una funzione continua di variabile reale X : Ω = [a, b] → V ⊂ R, si può procedere nel seguente modo:
– dobbiamo considerare una misura per sottoinsiemi A ⊂ R (e non più il semplice “numero di punti”),
Z
che si definisce come
`[A] =
χA (t)dt
R
dove χA è la funzione caratteristica dell’insieme A: tale misura è, per un’unione di intervalli, precisamente
la somma delle loro ampiezze;
– quindi introduciamo la funzione ripartizione F : R → R di X come
F (x) = `[X −1 (−∞, x)]
la funzione, cioè, che dà la misura del sottoinsieme di Ω su cui X vale meno di x;
– infine definiamo la “frequenza” del valore x della distribuzione come f (x) = F 0 (x); solamente, nel
contesto continuo, tale funzione frequenza si chiama densità (della distribuzione X, in x).
Esempio A.1.5. Nel caso della distribuzione X(t) = v0 e2t in Figura 5, si ottiene:
(
(
log2 (x/v0 ), se x ≥ v0
log2 (e/x) se x ≥ v0
F (x) =
,
f (x) =
0
se x < v0
0
se x < v0
.
A. Sambusetti
5
Qualora questo processo risulti possibile (il che dipende dalla bontà della distribuzione iniziale X), la
funzione densità f (x) sostituisce egregiamente l’idea di “frequenza del valore x” nel caso continuo; infatti
si ha, per il teorema fondamentale del calcolo integrale:
Z x2
(1.2)
`[X −1 (x1 , x2 )] = `[X −1 (−∞, x2 )]−`[X −1 (−∞, x1 )] = F (x2 )−F (x1 ) =
f (x)dx
x1
cioè la misura del sottoinsieme di Ω su cui X assume valori compresi tra x1 e x2 è precisamente dato
dall’integrale (non più una somma) della funzione f sull’intervallo (x1 , x2 ). La formula (1.2) è allora
proprio l’analogo della (1.1) nel caso continuo.
In queste note, comunque, ci limiteremo comunque quasi esclusivamente allo studio di distribuzioni
discrete, cioè per le quali l’insieme delle osservazioni Ω sia finito. 2
2. Indici di posizione
Data una distribuzione di dati , è spesso utile riassumere il suo andamento con dei numeri,
o indicatori. Gli indicatori che andremo a definire sono di due tipi: indici di posizione
(media, mediana, mode) e indici di dispersione (scarto assoluto e scarto quadratico medio).
I primi indicano dei valori “tipici” (in un senso da precisare) della distribuzione, i secondi
misurano quanto i valori della distribuzione si discostano da tali valori tipici.
Definizione A.2.1. Sia X = (x1 , ..., xn ) una distribuzione n dati. Si definisce:
P
• media (aritmetica) della distribuzione X il numero M (X) = n1 ni=1 xi ;
• mediana di X è il numero ottenuto rinumerando gli (xi ) in ordine crescente, e quindi
prendendo “il valore di mezzo”: (
x n+1
se n è dispari
2
M e(X) =
1
n
n
se n è pari
2 (x 2 + x 2 +1 )
• moda di X il valore M o(X) = {xi | fX (xi ) è massimo} che ha frequenza massima.
Si noti subito che:
i) la media si può calcolare anche come: M (X) =
1
n
Pn
xi 6=xj
fX (xi )xi .
ii) la mediana prova a rispondere al problema di trovare un valore y che divide la popolazione in due classi di ugual numerosità, una composta dalla parte della popolazione su cui
la distribuzione vale meno di y, l’altra su cui vale più di y. Me(X) risolve il problema nel
caso n pari se i valori “centrali” x n2 , x n2 +1 sono differenti, o nel caso n dispari se il valore
centrale x n+1 è assunto una sola volta; altrimenti, può comunque esserci uno squilibrio
2
numerico 3 tra il sottoinsieme della popolazione con valori inferiori a M e(X) e quello con
valori superiori a M e(X) (come mostra il prossimo Esempio A.2.2).
iii) la moda non è necessariamente unica: se vi è più di un valore di frequenza massima,
si sono vari massimi relativi, si parla di mode di X, e di distribuzione plurimodale 4.
2
Il termine “discreto” assume in matematica, per variabili aleatorie e per spazi astratti, un significato
più generale di quello utilizzato qui.
3Me(X) minimizza comunque la differenza di numerosità tra due classi della popolazione con la
proprietà di avere valori rispettivamente inferiore e superiore a un numero y fissato, cf. Teorema A.3.6(ii).
4Quindi, una distribuzione con due valori di frequenza massima si dirà bimodale; ma si dirà bimodale
anche una distribuzione il cui grafico delle frequenze abbia due massimi relativi, non necessariamente
uguali. In ogni caso, i valori corrispondenti si chiameranno prima, seconda moda, ecc. cf. Exempio A.3.4.
6
Appendice : elementi di statistica descrittiva
Notiamo inoltre che mentre media e mediana hanno senso solo per distribuzioni di dati
numerici, la moda può esser presa in considerazione per qualsiasi tipo di dati (p.es., se i
valori sono giorni della settimana).
Esempio A.2.2. Per la distribuzione dell’esercizio A.1.1, Figura 1, si ha: M (X) = 19.82, M e(X) = 20 e
M o(X) = 19. Notare che il numero di studenti di età inferiore a M e(X) è 24 ed il numero di studenti con
età superiore è 25!
Di seguito vediamo alcuni esempi che ci illustrano il tipico utilizzo di questi indici.
Esercizio A.2.3 (♥). Il reddito mensile in una regione d’Italia è distribuito per fasce (in percentuale ad
una popolazione di N famiglie) secondo la seguente tabella:
Keuro
% Pop.
< .5
3
.5/1
7
1/1.5
25
1.5/2
28
2/2.5
20
2.5/3
10
3/3.5
3
3.5/4
2
4/4.5
1
4.5/5
1
Sapendo che ogni famiglia spende circa il 10% del suo reddito in beni voluttuari ed il 5% in energia,
rispondere ai seguenti problemi:
(i) la Electronics Spa vuole produrre dei lettori mp3 da vendere nella regione considerata. Qual è il
massimo prezzo di vendita che la Electronics può fissare se desidera che il suo prodotto sia accessibile alla
maggioranza delle famiglie?
(ii) la Energy Spa ha il monopolio della produzione di energia nella regione. Quanti milioni di euro di
energia al massimo la Energy ha interesse a produrre?
Soluzione. In questo esempio, i valori sono intervalli [xi , yi ) (cioè abbiamo coppie di valori) mentre la
seconda riga dà le frequenze fi , espresse in percentuale (dunque a somma n = 100).
Nel caso (i), la Electronics è interessata alle frequenze della distribuzione, e precisamente al valore x al di
sotto del quale si trova il (10% del) reddito della maggioranza delle famiglie; pertanto si calcolerà la mediana
dei redditi, o più precisamente un “intervallo mediano”, che ha estremi M e((xi )n ) = 1.5 e M e((yi )n ) = 2.
La Electronics ha dunque interesse a produrre lettori di prezzo inferiore a 10% · 1.5kA
C = 150 euro.
Nel caso (ii), la Energy è interessata più al al totale dei redditi che alla distribuzione delle frequenze:
essa deve provvedere al fabbisogno minimo di energia, e non superare il massimo vendibile; quindi deve
produrre almeno il 5%xi di euro di energia per ogni i-ma fascia di reddito e non più del 5%yi . Sapendo
che N è il numero totale di famiglie, segue che la Energy dovrà produrre energia, in euro, compresa tra i
valori
X
X
N
N
x=
5%xi · fi ·
= 5%N · M ((xi )n ) ed y =
5%yi · fi ·
= 5%N · M ((yi )n ).
100
100
xi 6=xj
yi 6=yj
Come si vede, la risposta richiede dunque il calcolo delle medie M ((xi )n ) = 16 e M ((yi )n ) = 20.85, e
fornisce x = 45 N e y = 1.0425N .
Esercizio A.2.4 (♥). I clienti di una banca si distribuiscono agli sportelli secondo la seguente statistica
settimanale
Giorno
lun mar mer gio ven
% Clienti 30
20
30
15
5
(i) Secondo quale indicatore statistico un cliente (intelligente) sceglie il giorno in cui recarsi in banca?
(ii) Secondo quale indicatore statistico il direttore misura l’efficienza della propria filiale, e cosa vorrebbe
minimizzare?
Soluzione. In questo caso, la distribuzione ha come valori i giorni della settimana, ed è un esempio di
utilità della moda. Si tratta chiaramente di una distribuzione bimodale, con due valori (il lunedı̀ e il mercoledı̀) che hanno frequenza massima: un cliente accorto tende ad evitare tali giorni i giorni, corrispondenti
alle due mode pari al 30%. D’altronde, un direttore respondabile tenderà a influenzare il pubblico in modo
che le frequenze fi dei vari giorni della settimana siano circa tutte uguali; poiché il totale delle frequenze
(espresse in percentuale) è 100, ed i giorni lavorativi sono 5, il direttore vorrebbe ottenere delle frequenze
fi il più possibile vicine a 20, la media delle frequenze (attenzione: non la media deiPvalori, che non sono
numerici!). Uno stima di quanto la filiale sia efficiente è dunque dato dal numero i |fi − 20|: più tale
numero è vicino a zero, più si è vicini alla situazione “ideale”.
A. Sambusetti
7
Esercizio A.2.5. I membri di un’amministrazione locale ha a disposizione i seguenti dati sulla natalità
nella propria regione:
N. figli
0
1
2 3 4 5
% Famiglie 20 40 30 7 2 1
(i) Dire quale indice statistico studieranno per sapere se la popolazione locale è in aumento o in decremento,
e per decidere una conseguente politica demografica;
(ii) se vogliono scegliere un contributo minimo da erogare sulla base del numero di figli, assicurandosi la
maggior parte dei consensi, quale indicatore sceglieranno e come lo useranno?
Esercizio A.2.6. La seguente rappresenta la tabella del tasso di mortalità (percentuale dei decessi per
fascia di età, sul totale della popolazione) di una regione italiana nel 2010.
età
mortalità
0 − 10
0.7%
11 − 20
0.05%
21 − 30
0.1%
31 − 40
0.2%
41 − 50
1%
51 − 60
2%
61 − 70
4%
71 − 80
1%
81 − 90
0.5%
91 − 100
0.2%
(i) In una conservatoria dell’anagrafe si vogliono distribuire le pratiche in due stanze di dimensioni più o
meno uguali. Quale criterio statistico si seguirà per effettuare la divisione delle pratiche?
(ii) L’INPS vuole avere una stima grezza del numero totale di anni di pensione che dovrà pagare alla
popolazione attuale della regione, immaginando che tutti vadano in pensione a 70 anni. Quale indicatore
statistico studierà e perché? Quanti sono gli anni attesi?
Per una persona di età x, il numero M (X) − x è detto aspettativa di vita della persona.
Una compagnia assicurativa, per le polizze-vita, chiede un premio che è strettamente
correlato (negativamente) all’aspettativa di vita della persona che lo richiede. Vediamo qui
un primo esempio in cui le distribuzioni statistiche sono utlizzate per la creazione di modelli
probabilistici, il cui studio ci porterebbe molto lontano. L’introduzione e la giustificazione
di tali modelli a partire dai dati statistici è oggetto del calcolo delle probabilità.
Esistono analoghi indicatori per distribuzioni continue. Se X : [a, b] → V = [m, M ] ha funzione densità
f : [m, M ] → R si definiscono, in completa analogia con il caso discreto:
Rb
RM
1
1
• media della distribuzione X, il numero M (X) = |b−a|
X(t)dt = |b−a|
xf (x)dx
a
m
(questa ultima formula sarebbe da dimostrare!);
• mediana di X, il valore M e(X) = x0 tale che `[X −1 (−∞, x0 )] = `[X −1 (x0 , +∞)], cioè che separa
[a, b] in due sottoinsiemi, che danno valori rispettivamente inferiori e superiori a x0 , di ugual misura
(se si conosce la funzione di ripartizione F (x), è l’unico valore x0 tale che F (x0 ) = 21 (b − a));
• mode M oi (X), cioè i massimi relativi della funzione densità f (x) (ordinati in ordine decrescente).
3. Indici di dispersione
Per stimare, come nell’Esercizio (ii), quanto i valori di una distribuzione siano distanti
dal valore medio, si introducono gli indici di dispersione:
Definizione A.3.1. Sia X = (x1 , ..., xn ) una distribuzione di n dati. Si definisce:
• scarto di un valore x dalla media, il numero x − M (X); analogamente si parlerà di
scarto assoluto e scarto quadratico per i numeri |x − M (X)| e (x − M (X))2 ;
P
• scarto assoluto medio della distribuzione X, il numero M AD(X) = n1 ni=1 |xi −M (X)|
(MAD sta per “mean absolute deviation”) ;
P
• scarto quadratico medio5 o varianza di X, il numero V AR(X) = n1 ni=1 (xi − M (X))2 ;
• deviazione standard di X, il numero σ(X) =
q P
p
V AR(X) = n1 ni=1 (xi − M (X))2 .
5In alcuni testi, con abuso di linguaggio, lo scarto quadratico medio è definito differentemente da qui
come la radice della media degli scarti quadratici.
8
Appendice : elementi di statistica descrittiva
Si noti che:
i) per una misura della bontà delle distribuzione di X attorno al valore medio M (X),
si prende la media degli scarti assoluti o quadratici, e non semplicemente la media degli
scarti; ciò in quanto la media degli scarti dà sempre:
P
P M ( (xi − M (X))n ) = n1 i (xi − M (X)) = n1 i xi − M (X) = 0
quindi non è significativa!
ii) la deviazione standard è un indicatore preferibile rispetto alla varianza in quanto ha la
piacevole proprietà di essere dimensionalmente omogeneo con i dati (cioè: se i dati sono
in metri, anche la deviazione standard è in metri, mentre la varianza è in m2 ).
iii) M AD(X) e σ(X) sono nulli se e solo tutti i valori xi sono uguali al valore medio, e
crescono mano mano che ci sono più valori distanti dal valore medio: in questo senso, sono
degli stimatori di quanto la distribuzione è prossima o lontana dalla media.
Osservazione A.3.2. È importante notare che tutti gli indici sinora introdotti possono
essere calcolati a partire dalla tabella della distribuzione, in quanto ottenuti conoscendo i
valori xi e le rispettive frequenze fi , tramite le formule equivalenti:
M AD(X) =
1 X
fi |xi − M (X)|
n
xi 6=xj
V AR(X) =
1 X
fi (xi − M (X))2
n
xi 6=xj
Queste formule sono ottenute semplicemente raggruppando, nella definizione di M AD e
V AR, gli fi addendi di ugual valore |xi − M (X)|, (xi − M (X))2 . La conoscenza precisa
della funzione distribuzione (cioè X : Ω → V) non è richiesta; anzi, ai fini di una descrizione statistica, la tabella (cioè l’istogramma delle frequenze) risulta sempre più chiara e
leggibile, come lo dimostra un tentativo di lettura della Figura 1 rispetto alla Figura 4.
Esempio A.3.3. Calcoliamo gli indici di dispersione per la distribuzione dell’esercizio A.1.1, Figura 1.
Per non fare errori, è consigliato di sistemare i dati parziali (somma delle frequenze, scarti assoluti, scarti
quadratici ecc) in una tabella, quindi fare le somme:
Si tratta evidentemente di una distribuzione unimodale con dati distribuiti molto vicino al valore medio:
σ(X) è infatti piccola rispetto ai valori delle età.
Per distribuzioni con un gran numero di valori e frequenze, come il prossimo esempio, è
vivamente consigliato l’uso di un foglio di calcolo...
A. Sambusetti
9
Esempio A.3.4. Calcoliamo indici di posizione e indici di dispersione per la distribuzione dell’età dei
professori ordinari in Italia:
Come si vede dall’istogramma delle frequenze, si tratta di una distribuzione bimodale, e non sembra troppo
centrata attorno al valore medio. Eseguiamo i calcoli necessari alla verifica in una tabella:
10
Appendice : elementi di statistica descrittiva
Il calcolo degli indici di posizione e di dispersione ci dà due risultati interessanti:
– la media, in questo caso, è poco rappresentativa; difatti non è vero che la maggior parte dei docenti
abbia età attorno ai 52 anni! Questa è una caratteristica comune delle distribuzioni bimodali, le cui due
mode siano relative a valori distanti; in tal caso la media dei due valori più rappresentativi relativi alle due
mode (in questo caso: 42 e 62) dà un valore ottenuto con frequenza decisamente piú bassa.
– gli indici di dispersione sono piuttosto alti (sempre rispetto ai valori della distribuzione), e questo
giustifica numericamente l’impressione di dispersione della distribuzione dal valore medio.
Esercizio A.3.5. Calcolare media, mediana, mode, scarto assoluto medio, scarto quadratico medio e
deviazione standard, e dire in ciascun caso cosa suggeriscono gli indicatori statistici, per:
(i) le distribuzioni nell’ Esercizio A.1.1 (Figure 2 e 3);
(ii) la distribuzione nell’Esempio A.2.3;
(iii) la distribuzione delle frequenze nell’Esempio 3;
(iv) la distribuzione nell’ Esercizio A.2.5;
(v) la distribuzione nell’ Esercizio A.2.6.
Perché media e mediana si considerano valori caratteristici per una distribuzione di dati?
Una ragione, oltre alle varie esposte precedentemente, è la seguente proprietà di questi
due indici :
Teorema A.3.6. Sia X = (x1 , ..., xn ) una distribuzione discreta di n dati, e sia y un
numero fissato. Consideriamo le quantità
n
X
M AD(X, y) =
|xi − y|, detta scarto assoluto medio di X da y
i=1
V AR(X, y) =
n
X
(xi − y)2 ,
detta scarto quadratico medio di X da y
i=1
Allora:
(i) M e(X) è il valore di y per il quale M AD(X, y) è minimo ;
(ii) M (X) è il valore di y per il quale V AR(X, y) è minimo.
Cioè, se si vuole considerare una nozione di “dispersione”, o “distanza”, di una serie
di dati da un valore fissato y (rispetto a misure naturali della dispersione come: somma
degli scarti assoluti o quadratici da y), i valori più adeguati per y sono proprio la media e
mediana, in quanto minimizzano tale dispersione.
Dimostrazione.
(i) Sia y0 = M e(X). Per definizione, vi sono tanti valori xi minori (visualmente, “alla
sinistra”) di y0 di quanti ve ne sono alla destra di y0 . Supponiamo ora che y = y0 + ∆,
con ∆ > 0: allora, per tutti i valori xi a sinistra di y0 , si ha che |xi − y| è uguale a |xi − y0 |
aumentato di ∆, mentre per tutti i valori xi alla destra di y0 , si ha
|xi − y| = |(xi − y0 ) − ∆| ≥ |xi − y0 | − ∆
(disuguaglianza stretta se tra y0 e y cade qualche xi ); pertanto la somma di tutti i termini
|xi − y| risulta superiore o uguale alla somma di tutti i termini |xi − y0 |. Ciò mostra che
la funzione M AD(X, y) ha un minimo in y = y0 .
(ii) Si ha (svolgendo i calcoli)
!2
n
n
n
n
X
X
1X
1 X 2
2
2
V AR(X, y) =
xi − 2y
xi + ny = n y −
xi + (1 − )
xi
n
n
i=1
i=1
i=1
i=1
P
e questa funzione di y è minima quando il termine (y − n1 i xi )2 è minimo; ciò accade
quando fa zero, cioè proprio per y = M (X).
A. Sambusetti
11
Riassumiamo quanto imparato in questo capitolo dalla teoria e dagli esercizi in uno
specchietto riepilogativo:
indicatori di posizione
M (X)
M e(X)
M o(X)
vantaggi
– interessa il totale dei valori
–
–
–
–
–
–
minimizza lo scarto quadratico medio
descrive la maggioranza dei valori
fa (in genere) parte dei valori di X
poco sensibile ad errori nei dati
minimizza lo scarto assoluto medio
utile per distribuzioni non numeriche
svantaggi
– poco rappresentativa se X è bimodale
– non fa (in genere) parte dei valori di X
– sensibile ad errori nei dati
– X centrata vicino a M (X) sse σ(X) è piccolo
– scarsa rappresentazione del totale dei valori
– X centrata vicino a M e(X) sse M AD(X) è piccolo
– poco interessante se X non ha picchi
Gli indici di dispersione di una distribuzione continua X : [a, b] → V = [m, M ] si definiscono in maniera
naturale, e si esprimono tramite la funzione densità f : V → R come
Z b
Z M
1
1
|X(t) − M (X)|dt =
|x − M (X)|f (x)dx
M AD(X) =
b−a a
b−a m
Z b
Z M
p
1
1
V AR(X) =
(X(t) − M (X))2 dt =
[x − M (X)]2 f (x)dx σ(X) = V AR(X).
b−a a
b−a m
4. Cambi di scala.
Una delle operazioni più frequenti in statistica è il cambio di scala.
Ciò significa, data una distribuzione X = (xi )n , applicare una trasformazione y = F (x)
(biunivoca, monotona) a tutti gli xi , ottenendo una nuova distribuzione Y = (yi )n .
I cambiamenti di scala più comuni sono i cambi di scala lineari e logaritmici, corrispondenti
cioè a trasformazioni del tipo
(4.1)
yi = mxi + q (m 6= 0) cambio di scala lineare6
(4.2)
yi = Log(pxi ) (pxi > 0) cambio di scala logaritmico
I riscalamenti lineari sono utilizzati per trasformare dei dati (xi ) in dati (yi ) in modo che
yi − y1
=m
xi − x1
cioè tali rapporti siano indipendenti da i. I valori vengono quindi riscalati secondo un
criterio di “giustizia”: a differenze uguali tra i valori xi corrispondono differenze uguali
tra i dati riscalati yi . Per esempio :
Esercizio A.4.1. Sia X = (2, 4, 5, 6, 10, 14, 18, 20) la distribuzione dei punti riportati da otto studenti al
primo esonero, su un totale di 20 possibili per il totale degli esercizi. Riscalare linearmente i voti affinché
8 corrisponda al voto di 18 trentesimi e 20 corrisponda a 30 trentesimi.
Soluzione. Questo esercizio è importante per capire come procedere con i riscalamenti lineari. Siano
xi i voti originali e yi i voti riscalati, da determinare. La formula di riscalamento lineare 4.1 rappresenta
l’equazione di una retta nel piano oxy; in tale piano, un punto P rappresenta una coppia (x, y) la cui ascissa
è il valore x da riscalare, e la cui ordinata è il valore riscalato y. Per trovare la formula di riscalamento
con le proprietà desiderate è allora sufficiente scrivere l’equazione della retta r che passa per i due punti
y−18
x−6
P1 = (x1 , y1 ) = (6, 18) e P2 = (x2 , y2 ) = (20, 30) data da r : 30−18
= 20−6
, cioè y = 67 (x + 15).
6Un riscalamento lineare (4.1) si dirà concorde se m > 0 (in tal caso, l’ordine dei dati è conservato).
12
Appendice : elementi di statistica descrittiva
Le scale logaritmiche sono utilizzate invece per serie di dati di grandezza molto variabile;
è immediato verificare che se gli (yi ) sono ottenuti per riscalamento logaritmico dagli (xi )
secondo la formula (4.2), si ha
xi
yi − y1 = Log( )
x1
cioè i rapporti uguali tra gli xi corrispondono differenze uguali tra i dati riscalati yi .
Per esempio, per i terremoti, in cui l’ampiezza delle onde e dell’energia rilasciata può avere
variazioni molto grandi, si usa una scala logaritmica (la scala Richter): ad un’oscillazione
x del sismografo a 100km dall’epicentro, si associa il valore y = Log(p · x) nella nuova scala
(per una certa costante di calibrazione p):
Esercizio A.4.2. La tabella mostra la scala Richter degli eventi a lato indicati:
Conoscendo la legge di riscalamento logaritmico della scala Richter sopra descritta y = Log(p · x):
(i) calcolare la differenza di ampiezza delle onde sismiche tra quelle registrate per Chernobyl e quelle
registrate per Haiti;
(ii) trovare il valore delle ampiezze delle onde registrate, a partire dai dati sulla scala Richter (ammettiamo
p = 1, per semplicità) e provare a fare un istogramma delle ampiezze.
Soluzione. Per entrambi i punti, per recuperare i valori delle ampiezze x a partire dai valori y nella
scala Richter, si deve invertire la formula y = Log(px).
Per (i), sappiamo che y5 − y3 = 7 − 3.87 = 2.13 = Log(px5 ) − Log(px3 ) = Log( xx35 ) da cui x5 = 102.13 x3 .
Cioè le onde, nel caso di Haiti, sono state circa 100 volte più ampie di quelle registrate a Chernobyl. 7
Quanto a (ii), la formula inversa è x = p−1 10y quindi otteniamo (per p = 1) la tabella:
scala Richter
ampiezza
7
0.2
1.58
1
10
3.87
7413.1
5.5
316227.77
7
107
7.1
1.26E + 008
8.35
2.24E + 008
12.55
3.55E + 012
Notate che non c’è stato bisogno di utilizzare il valore della costante di calibrazione p.
A. Sambusetti
13
dove gli ultimi dati sono scritti in notazione scientifica per il gran numero di cifre.
Un tentativo di istogramma delle ampiezze darebbe:
Questo esempio dovrebbe convincervi del perché si usi una scala logaritmica: altrimenti l’istogramma
risulta illeggibile!
La seguente proposizione mostra come cambiano gli indici di posizione e di dispersione
quando si esegue un cambiamento di scala lineare:
Proposizione A.4.3. Sia Y = (yi )n la distribuzione ottenuta riscalando linarmente la
distribuzione X = (xi )n , secondo la formula yi = mxi + q. Allora si ha:
(i) M (Y ) = mM (X) + q;
(ii) M e(Y ) = mM e(X) + q;
(ii) M o(Y ) = mM o(X) + q;
(iii) M AD(Y ) = |m|M AD(X);
(iv) V AR(Y ) = m2 V AR(X);
(v) σ(Y ) = |m|σ(X).
In particolare, ogni distribuzione X = (xi )n può essere trasformata in una nuova distribuzione X̂ = (x̂i )n avente M (X̂) = 0 e σ(X̂) = 1, applicando il riscalamento lineare
1
x̂i =
(xi − M (X))
σ(X)
Questo riscalamento riveste una particolare importanza, come vedremo nel prossimo paragrafo, ed è detto riscalamento normale o standard di X.
Dimostrazione. Se i dati X = (xi )n sono ordinati in ordine crescente, un riscalamento lineare preserva l’ordine se m > 0, o lo inverte se m < 0; in ogni caso, il
valore mediano viene conservato, quindi la nuova mediana è il valore della vecchia mediana, riscalato secondo la stessa legge. Discorso analogo per le mode: la nuova distribuzione ha per valori yi di frequenza massima (assoluti o relativi) quelli corrispondenti agli xi di frequenza massima della vecchia distribuzione. Ciò dimostra (i) e (iii).
Verifichiamo ora le altre formule:
P
P
P
M (Y ) = n1 ni=1 yi = n1 ni=1 (mxi + q) = m · n1 ni=1 xi + n1 · nq = mM (X) + q
e dunque
P
P
M AD(Y ) = n1 ni=1 |yi − M (Y )| = n1 ni=1 |mxi + q − mM (X) − q| = |m|M AD(X)
P
P
V ARY ) = n1 ni=1 (yi − M (Y ))2 = n1 ni=1 (mxi + q − mM (X) − q)2 = m2 V AR(X)
da cui segue anche la formula per la deviazione standard.
14
Appendice : elementi di statistica descrittiva
5. Correlazione.
Immaginiamo di avere due distribuzioni numeriche discrete di dati X = (xi )n ed
Y = (yi )n , che non ci sembrino del tutto indipendenti l’una dall’altra. Potrebbe essere il caso, per esempio, per il numero di automobili che transitano vicino ad un certo sito
archeologico, e l’indice di annerimento dei monumenti in quel sito. Viene spontaneo il problema di definire un indicatore statistico che misuri quanto i due dati siano effettivamente
legati tra loro: questo problema è oggetto della teoria della correlazione, di cui di seguito
riportiamo i primi elementi.
Due distribuzioni numeriche di n dati X = (xi )n ed Y = (yi )n possono essere visualizzate
contemporaneamente come un insieme di punti Pi = (xi , yi ) nel piano cartesiano oxy.
Esse appariranno a priori come una nuvola disordinata di punti: nel caso invece in cui tale
“nuvola” approssimi l’andamento del grafico di una funzione y = f (x) è naturale supporre
l’esistenza di una legge (rilevata dalla statistica) che lega i dati yi ai dati xi .
Esempio A.5.1. Guardiamo i dati dell’Esercizio A.1.1, Figura 1: sull’asse delle ascisse abbiamo i numeri di
matricola X = (xi ) degli studenti, e sull’asse delle ordinate le rispettive età Y = (yi ). Le due distribuzioni
di dati X, Y , visualizzate come punti (xi , yi ) formano un insieme disordinato di punti nel piano oxy, e non
suggeriscono alcuna relazione tra essi: d’altronde, sarebbe ben strano che ci fosse un legame tra il numero
di matricola e l’età di uno studente in una classe! 8
Esempio A.5.2. Guardiamo invece i dati dell’Esercizio A.1.1, Figura 3, limitandoci alle temperature nella
seconda metà del secolo:
Figura 5. Anomalia termometrica nella seconda metà del secolo
L’andamento negli anni dell’anomalia termometrica (dati in rosso) sembra approssimabile grossolanamente
all’andamento di una retta (disegnata in blu): questo suggerisce una correlazione lineare positiva tra il
tempo e l’innalzamento della temperatura terrestre.
8
Sarebbe altrimenti se, per esempio, la tabella riportasse le distribuzioni delle età e dei numeri di
matricola di tutti gli studenti di un’università: in tal caso, probabilmente, i numeri di matricola più
bassi corrisponderebbero a studenti immatricolati anni prima, e dunque meno giovani, e dal grafico si
riscontrerebbe una correlazione negativa: al crescere della matricola, l’età dovrebbe man mano scendere.
A. Sambusetti
15
Esempio A.5.3. Il volume X(t) di una coltura batterica, misurato ad intervalli di tempo regolari, fornisce i
valori in rosso nella Figura 7. L’andamento suggerisce una legge esponenziale nel tempo, del tipo f (t) = 12 et ,
rappresentata in blu. In tal caso, si parla di correlazione esponenziale tra il tempo e la crescita della coltura.
Figura 6. Volume di una coltura batterica in funzione del tempo
Come mostrato nel precedente esempio, due distribuzioni di dati Y = (yi ), X = (xi )
possono suggerire un legame tra loro di tipo lineare (cioè approssimabile con una legge
di lineare del tipo y = f (x) = mx + q), ed in tal caso si parlerà di correlazione lineare;
oppure una relazione di tipo esponenziale, come y = ax (si parla in tal caso di correlazione
esponenziale); oppure polinomiale, come per es. y = xa (correlazione polinomiale), ecc.
Nel seguito, noi ci interesseremo esclusivamente alla teoria della correlazione lineare: essa
fornisce degli indicatori numerici precisi che misurano quanto sia corretto parlare di legame
lineare tra due distribuzioni.
Definizione A.5.4. Sia S = {(xi , yi )}, i = 1, .., n un insieme di punti nel piano oxy, ed
r : y = mx + q una retta. La distanza lineare dell’insieme S dalla retta r è definita come
n
X
∆(S, r) =
|yi − (mxi + q)|
i=1
e corrisponde a sommare tutte le distanze tra i punti (xi , yi ) e i punti su r di uguali ascisse.
La distanza lineare è una misura di quanto l’insieme S approssimi una retta (ovvero di
quanto i valori yi dipendano linearmente dai valori xi ); essa è nulla chiaramente se e solo
se S ⊂ r, cioè se esistono m, q tali che yi = mxi + q per ogni i = 1, ..., n.
Teorema A.5.5. Siano X = (xi )n , Y = (yi )n due distribuzioni di n dati, ed S = {(xi , yi )}
l’insieme dei punti corrispondenti nel piano oxy; supponiamo inoltre che esistano almeno
x1 , x2 con x1 6= x2 (altrimenti i punti di S giacciono su una retta verticale).
Definiamo covarianza delle due distribuzioni il numero
n
1X
[xi − M (X)] · [yi − M (Y )]
COV AR(X, Y ) =
n
i=1
Allora, la retta r0 : y = m0 x + q0 con
m0 =
COV AR(X, Y )
V AR(X)
q0 = M (Y ) − m0 M (X)
minimizza la distanza lineare da S, cioè ∆(S, r0 ) ≤ ∆(S, r) per ogni altra retta r del piano.
16
Appendice : elementi di statistica descrittiva
La retta r0 del teorema è detta retta di regressione di Y rispetto a X; essa è la retta
che meglio “approssima” l’insieme S dei punti (xi , yi ) definiti dalle due distribuzioni (nel
senso spiegato dal teorema). Più i punti Pi tendono ad essere allineati, più la distanza
∆(S, r0 ) dalla retta di regressione diminuisce. Come caso limite, se ∆(S, r0 ) = 0 allora si
deduce che tutti i punti sono sulla retta di regressione, ovvero esiste una relazione lineare
yi = m0 xi + q0 tra i dati; in tal caso i dati (xi ), (yi ) di dicono perfettamente correlati.
Quando m0 > 0, i dati si dicono correlati positivamente (in quanto al crescere degli xi ,
gli yi tendono a crescere); se invece m0 < 0, i dati si dicono correlati negativamente (in
quanto al crescere degli xi , gli yi tendono a diminuire).
È chiaro infine che, maggiore è m0 (in modulo), maggiore è la variazione dei valori yi al
crescere degli xi , in quanto maggiore è la pendenza della retta di regressione.
Attenzione: la retta di regressione per le distribuzioni X, Y dipende da quale dei due
insiemi di dati è pensato come (possibilmente) dipendente dall’altro. Difatti, il coefficiente
angolare m0 della retta di regressione ha al denominatore V AR(X), se si pensa ad una
relazione di dipendenza del tipo yi = f (xi ), mentre avrebbe V AR(Y ) se si pensa che gli xi
dipendano dagli yi . Per questo, nel calcolo della retta di regressione, va sempre specificato
quale distribuzione di dati è pensata dipendente dall’altra.
Dimostrazione. Sia r : y = mx + q una retta qualsiasi. Si ha:
n
X
∆(S, r) =
(mxi + q − yi )2 = ∆(m, q)
i=1
Per ogni m fissato, ∆(m, q) è un polinomio di grado due in q, con termine di grado
massimo uguale a nq 2 , dunque una parabola Pm con concavità rivolta verso l’alto. Senza
fare troppi calcoli, il vertice di tale
Pn parabola, cioè il minimo di ∆(m, q) per m fissato, si
trova imponendo ∂q ∆(m, q) = 2 i=1 (mxi +q −yi ) = 0 (dove ∂q indica la derivata rispetto
a q, per m fissato), cioè
!
n
n
X
X
(5.1)
n·q+
xi · m =
yi .
i=1
i=1
Analogamente, per ogni q fissato,
P ∆(m, q) è un polinomio di grado due in m, con termine
di grado massimo uguale a ( ni=1 x2i )m2 , e rappresenta una parabola Pq con concavità
rivolta verso l’alto. Il vertice di tale
Pn parabola, cioè il minimo di ∆(m, q) per q fissato, si
trova imponendo ∂m ∆(m, q) = 2 i=1 (mxi + q − yi )xi = 0 (dove ∂m indica ora la derivata
rispetto a m, per q fissato), cioè
(5.2)
n
X
i=1
!
xi
·q+
n
X
i=1
!
x2i
·m=
n
X
xi yi
i=1
Si noti che il sistema in (m, q) ottenuto
P dalle due equazioni (5.1) e (5.2) ha matrice dei
coefficienti il cui determinante vale n1 i x2i − M (X)2 = V AR(X), ed è non nullo poiché
esistono per ipotesi due valori x1 6= x2 .
Il minimo di ∆(m, q) è allora ottenuto dall’unica coppia (m0 , q0 ) che risolve tale sistema:
infatti, per ogni altro m, q si ha ∆(m, q) ≥ ∆(m, q0 ) ≥ ∆(m0 , q0 ).
A. Sambusetti
17
Risolvendo con Cramer il sistema composto da (5.1) e (5.2) si trova l’unica soluzione
P
n
y
i
i
P
P
1 P
COV AR(X, Y )
i xi
i x i yi
i xi yi − M (X)M (Y )
n
=
m0 = =
P
1 P 2
2
V AR(X)
i xi − M (X)
n
n
i xi P 2 P
i xi
i xi
P
Pn
n
x
y
i=1 i i=1 i
Pn
Pn
P
2
1 P 2
xi · M (Y ) − n1 i xi yi · M (X)
i=1 xi
i=1 xi yi
i
n
=
q0 = =
Pn
1 P 2
2
n
i xi − M (X)
n
i=1 xi Pn
Pn
2
i=1 xi
i=1 xi
P
− M (X)2 M (Y ) + M (X)2 M (Y ) − n1 i xi yi · M (X)
=
=
1 P 2
2
i xi − M (X)
n
!
1 P
i xi yi − M (X)M (Y )
n
= M (Y ) −
M (X) = M (Y ) − m0 M (X).
1 P 2
2
i xi − M (X)
n
1 P
2
i xi
n
Facciamo qualche esempio.
Esercizio A.5.6 (♥). Sei reclute hanno ottenuto i seguenti voti V = (vi ) nelle prove fisiche; per ognuno
di essi, indichiamo anche altezza H = (hi ) e peso P = (pi ):
voto V
altezza H
peso P
12
168
72
25
176
90
10
170
70
20
178
94
20
167
85
18
175
90
(i) Calcolare media e deviazione standard delle distribuzioni V, H, P ;
(ii) calcolare coefficiente angolare m0 ed intercetta q0 delle rette di regressione della distribuzione V in
dipendenza da H, e della distribuzione V in dipendenza da P ;
(iii) che tipo di correlazione c’è tra i dati?
Soluzione. Chiaramente, è ragionevole pensare che ci sia una relazione di dipendenza dei risultati
ottenuti nelle prove fisiche dalle caratteristiche fisiche (altezza, peso) delle reclute, e non certo il viceversa.
Questo spiega perché V è pensata dipendente da H e P . I calcoli diretti danno:
V
H
P
M
17.83
172.33
83.5
V AR
28.14
17.56
85.25
σ
5.3
4.19
9.23
COV AR(V, −)
m0 (V, −)
q0 (V, −)
10.06
41.58
0.57
0.49
−80.88
−22.9
Essendo m0 ∼ 0.5 in entrambi i casi, i calcoli sembrano dunque mostrare una leggera correlazione positiva
di V con H e con P (le rette di regressione relative alle coppie (V, H) e (V, P ) hanno inclinazione α =
arctan m0 ∼ 30◦ ). Questa conclusione andrà rivista più in là, quando parleremo di retta di regressione dei
dati normalizzati.
18
Appendice : elementi di statistica descrittiva
Esercizio A.5.7 (♥). Una ditta di aspirapolvere pubblicizza i suoi prodotti tramite rappresentanti inviati
porta a porta. Nella seguente tabella riportiamo i profitti p (in migliaia di euro) ottenuti e il numero c di
clienti visitati da sei rappresentanti:
Rappresentante
p
c
1
6
70
2
4, 5
40
3
3, 5
20
4
2, 5
10
5
4
35
6
5, 5
65
(i) Calcolare medie e deviazioni standard di ciascuna distribuzione;
(ii) calcolare i coefficienti m0 , q0 della retta di regressione, prendendo p dipendente da c;
(iii) che tipo di correlazione c’e’ tra i dati?
Soluzione. I calcoli diretti danno in questo caso:
p
c
M
4.33
40
V AR
1.39
475
σ
1.18
21.79
COV AR(p, −)
m0 (p, −)
q0 (p, −)
25.42
0.05
4.33
Essendo m0 = 0.05 ∼ 0, i calcoli sembrano mostrare una correlazione positiva dei profitti con
il numero di clienti visitati, ma bassissima: la retta di regressione relativa alle coppie (p, s) è
infatti quasi orizzontale, dunque ad un aumento anche consistente di c corrisponde un aumento
piccolissimo di p.... Anche in questo caso, la conclusione andrà rivista fra breve.
I risultati ottenuti nei due esempi precedenti (soprattutto nel secondo) dovrebbero sollevare qualche obiezione nel lettore attento.
La prima obiezione è che la teoria della correlazione ha un senso per insiemi abbastanza
numerosi di dati: si pensi al fatto che, se le distribuzioni avessero solo due dati, esisterebbe
sempre una retta che contiene i due punti corrispondenti! Sei dati, come nei nostri esempi,
sono certamente in numero insufficiente per dedurre una qualsiasi legge empirica che leghi
due serie di dati (negli esempi, si è scelto n = 6 solo per facilità di calcolo!).
La seconda obiezione, più seria, è che le impressioni (grafiche e numeriche) di prossimità
di una nuvola di punti alla retta di regressione, e di pendenza di tale retta (cioè quanto
fortemente gli yi siano influenzati da una variazione negli xi ) dipendono dalle scale scelte
per misurare i dati! Se, per esempio, in ?? i profitti fossero misurati in euro, invece
di migliaia di euro, la retta di regressione risulterebbe quasi verticale, indicando una
correlazione fortissima tra numero di clienti visitati e profitti! Analogamente, il coefficiente
angolare delle rette di regressione nell’Esercizio A.5.6 cambierebbe drasticamente se le
misure delle reclute fossero prese in metri, grammi ecc.
A. Sambusetti
19
Si potrebbe pensare di ovviare a questo problema scegliendo, per ciascun tipo di dato
possibile, una scala universalmente riconosciuta (per le lunghezze: i metri, per il denaro:
gli euro, ecc.) ma questa è solo una soluzione apparente. Come confronteremmo, infatti,
l’influenza di due serie di dati X, X 0 non omogenee su una distribuzione Y ?
Si pensi, per esempio, a misurare l’influenza di altezze e peso sui risultati nelle prove fisiche
delle reclute: la pendenza delle rette di regressione risulterebbe comunque dipendente dalla
nostra arbitraria scelta di scala.
Facciamo un esempio ancora più concreto: immaginiamo di essere chiamati a eseguire
uno studio delle cause dell’annerimento dei monumenti in certi siti, al fine di stabilire una
politica di preservazione: è chiara la necessità di una misura asettica dell’influenza di un
dato (traffico, precipitazioni...) sull’annerimento:
Esercizio A.5.8 (♥). In cinque siti differenti si sono rilevati i seguenti dati, relativi all’anno 2008, sull’
indice di annerimento 9 A dei monumenti presenti, sul numero medio giornaliero N di automobili in transito
in prossimità dei sito, e sulla quantità P di precipitazioni annue (espresse in mm):
sito
torre asinelli (BO)
palazzo Pitti (FI)
S.Ambrogio (MI)
S.Chiara (NA)
S.Domenico (PA)
colosseo (RM)
A
N
P
6
7200
720
6
5000
600
10
8300
990
8
7100
670
4
4200
680
15
12000
690
(i) calcolare media e deviazione standard delle distribuzioni A, N e P ;
(ii) calcolare coefficiente angolare m0 ed intercetta q0 delle rette di regressione della variabile A in dipendenza da N ed in dipendenza da P ;
(iii) che tipo di correlazione c’e’ tra i dati?
I risultati nella scala sopra utilizzata sono addirittura paradossali (svolgere l’esercizio...).
Qual è dunque la “scala giusta” per misurare la correlazione tra due serie di dati?
Il seguente risultato risolve i nostri dubbi, spiegando che la scala giusta è quella normale:
Teorema A.5.9. Siano X = (xi )n , Y = (yi )n due distribuzioni di n dati (con almeno
due valori x1 6= x2 ) e siano X̂ = (x̂i )n , Ŷ = (ŷi )n i riscalamenti normali delle due
distribuzioni. La retta di regressione r̂ di Ŷ rispetto a X̂ ha le seguenti proprietà:
(i) non dipende dalla scala lineare (purché concorde) scelta per misurare i dati (xi ), (yi );
(ii) ha equazione r̂ : y = Cx , dove
Pn
(xi − M (X))(yi − M (Y ))
X̂ · Ŷ
COV AR(X̂, Ŷ )
pPn
C=
=
= pPn i=1
2
2
V AR(X̂)
|X̂| |Ŷ |
i=1 (xi − M (X))
i=1 (yi − M (Y ))
(iii) il coefficiente angolare C appartiene all’intervallo [−1, 1], e
• vale C = 1 se e solo se X̂ = Ŷ , cioè i punti (x̂i , ŷi ) giacciono sulla bisettrice del I
quadrante, ed i punti originali (xi , yi ) sono allineati (rispettivamente C = −1 ses X̂ = −Ŷ ,
gli (x̂i , ŷi ) giacciono sulla bisettrice del IV quadrante, e i punti originali sono allineati);
√
• se |C − 1| < allora |ŷi − x̂i | < 2n, cioè più C è vicino ad 1 più la differenza√
tra tutti
i valori ŷi e x̂i è piccola (rispettivamente se |C − (−1)| < allora |ŷi − (−x̂i )| < 2n).
9
La brillanza B di un insieme di monumenti è la percentuale di superficie bianca sul totale (ad un
certo momento T ), e può essere misurata con appositi strumenti; l’annerimento è la percentuale restante.
L’indice di annerimento A(∆T ) è la quantità di annerimento (ovvero di brillanza persa) in un certo periodo
di tempo ∆T fissato.
20
Appendice : elementi di statistica descrittiva
Il coefficiente angolare C delle distribuzioni riscalate in modo normale è dunque la giusta
misura di correlazione tra le due serie di dati; questo importante coefficiente è noto come
indice di correlazione di Pearson.
Attenzione: il puntino tra X̂ ed Ŷ nella formula (ii) per C denota il prodotto scalare tra
i vettori (n-dimensionali) X̂, Ŷ e non va confuso con l’usuale prodotto di due numeri!
Dimostrazione. Per mostrare (i), supponiamo che X 0 = aX + b e Y 0 = cY + d siano
due riscalamenti lineari concordi di X e Y (per es.: gli xi misurati in cm, e x0i in metri,
oppure gli yi in gradi Celsius e gli yi0 in gradi Farhenheit...). Poiché a > 0, dalle formule
(ii) e (v) della Proposizione A.4.3, si deduce
xb0i =
1
1
1
(x0i − M (X 0 )) =
(axi + b − aM (X) − b) =
(xi − M (X)) = x̂i
0
σ(X )
aσ(X)
σ(X)
b 0 , Yb 0 sono le stesse.
ed analogamente ybi0 = ŷi . Pertanto le rette di regressione di X̂, Ŷ e di X
Quindi, calcoliamo la covarianza delle distribuzioni X, Y riscalate normalmente:
n
n
1X
1X
X̂ · Ŷ
(x̂i − M (X̂))(ŷi − M (Ŷ )) =
x̂i ŷi =
COV AR(X̂, Ŷ ) =
n
n
|X̂| |Ŷ |
i=1
i=1
qP
√
√
2
in quanto M (X̂) = M (Ŷ ) = 0 e |X̂| =
nσ(X̂) = n, ed analogamente |Ŷ | = n.
i x̂i =
Pertanto il coefficiente angolare m̂0 della retta di regressione di X̂, Ŷ è
m̂0 =
COV AR(X̂, Ŷ )
V AR(X̂)
=
X̂ · Ŷ
|X̂| |Ŷ |
n
=
(y − M (Y ))
1X
(x − M (X))
q Pi
q Pi
n
n
n
1
1
2
2
i=1
i=1 (xi − M (X))
i=1 (yi − M (Y ))
n
n
che dà la formula annunciata in (ii). Il fatto poi che |m̂0 | ≤ 1 segue dalla disuguaglianza
di Cauchy-Schwarz: essa implica
|X̂ · Ŷ | ≤ |X̂| |Ŷ |
e dice che vale l’uguaglianza X̂ · Ŷ = |X̂| |Ŷ | (rispettivamente, X̂ · Ŷ = −|X̂| |Ŷ |) se e solo
se Ŷ = λX̂ per qualche λ > 0 (risp. per λ < 0); ma essendo Ŷ , X̂ vettori di ugual norma,
√
uguale a n, questa condizione significa precisamente Ŷ = X̂ (risp. Ŷ = −X̂). Pertanto,
m̂0 = ±1 se e solo se, rispettivamente, Ŷ = ±X̂, cioè i punti riscalati (x̂i , ŷi ) sono allineati
sulla bisettrice del I o IV quadrante. Inoltre, poiché un riscalamento lineare dei due assi
del piano oxy trasforma rette in rette, ciò accade se e solo se i punti originali (xi , yi ) erano
a loro volta tutti allineati.
X̂·Ŷ
Supponiamo infine che |m̂0 − 1| < ; allora |X|
|Y | > 1 − e si calcola:
√ √
|X̂ − Ŷ |2 = |X̂|2 + |Ŷ |2 − 2X̂ · Ŷ < |X̂|2 + |Ŷ |2 − 2(1 − )|X̂||Ŷ | = 2n − 2 n n + 2n
√
il che prova che |yi − xi | < 2n e dimostra l’ultima asserzione in (iii).
Ripetere i calcoli degli Esercizi A.5.6 e A.5.7 e A.5.8, prendendo come dati le distribuzioni normalizzate e calcolando l’indice di correlazione di Pearson. Reinterpretare quindi
correttamente i risultati trovati.
A. Sambusetti
21
Esercizio A.5.10 (♥). Nelle seguenti città si sono registrati, nel 2010, i seguenti dati di affluenza nei
musei, espressi in termini di numero di biglietti B = (bi ): Roma 950.000, Madrid 500.000, Parigi 750.000,
Londra 800.000, Berlino 550.000. Il numero di abitanti di queste città (indicata con A = (ai )) è riportata
in tabella, espressa in milioni di abitanti:
(i) Calcolare medie e varianze della popolazione A ed del numero di biglietti B (espressi nella scala più
comoda) nelle cinque città;
(ii) calcolare la covarianza dei due insiemi di dati, indicando quale dei due ha senso considerare come
variabile dipendente;
(iii) calcolare l’indice di correlazione di Pearson C e l’angolo ϑ che la retta di regressione dei dati normalizzati forma con l’asse x;
(iv) cosa si può dedurre dall’analisi statistica di tali dati?
Esercizio A.5.11 (♥). La tabella riporta, il numero A di automobili immatricolate (per migliaio di
abitanti) ed il tempo medio H del tragitto da casa a lavoro (per abitante, espresso in minuti), nelle
principali capitali europee:
A
H
Roma
45
720
Madrid
32
430
Parigi
30
100
Londra
25
330
Berlino
25
300
(i) Calcolare medie e varianze delle due distribuzioni;
(ii) calcolare la covarianza dei due insiemi di dati, indicando quale dei due ha senso considerare come
variabile dipendente;
(iii) calcolare l’indice di correlazione di Pearson, l’equazione della retta di regressione dei dati normalizzati
e l’angolo che essa forma con l’asse x;
(iv) descrivere il tipo di correlazione lineare che sussiste tra i due insiemi di dati.
(Costruire una tabella come quella dell’esercizio precedente).
Esercizio A.5.12 (♥). I dati seguenti sono relativi al numero di decessi, in una determinata popolazione,
dovuti a problemi cardiocircolatori e a tumori in 10 anni.
anno (ai )
n. decessi
n. decessi per malattie cardiache
n. decessi per tumori
2001
500
250
160
2002
500
251
165
2003
520
266
180
2004
530
243
175
2005
540
245
190
2006
545
250
195
2007
570
255
200
2008
580
260
195
2009
590
270
198
2010
600
255
200
Si calcolino:
(i) le percentuali C = (ci %) e T = (ti %) delle due differenti cause di decesso sul totale dei decessi, in
ciascun anno A = (ai );
(ii) le distribuzioni Â, Ĉ, T̂ riscalate in modo normale;
(iii) media e deviazione standard delle distribuzioni A, Â, C, Ĉ, T, T̂ ;
(iv) coefficienti angolari delle rette di regressione delle distribuzioni C, T in dipendenza dal tempo A;
calcolare gli stessi coefficienti per le distribuzioni normalizzate Ĉ, T̂ in dipendenza da Â (cioè gli indici di
correlazione di Pearson);
(v) che tipo di correlazione c’e’ tra i dati? E’ possibile dire che una delle due malattie ha seguito un
evidente incremento/decremento lineare nel tempo?
(Costruire una tabella come quella dell’esercizio precedente).
22
Appendice : elementi di statistica descrittiva
Soluzioni
Soluzione corretta dell’Esercizio A.5.6. Le rette di regressione dei dati normalizzati mostrano una
correlazione decisamente più forte tra voti e peso (C(V, P ) = 0.85), piuttosto che tra voti e altezza
(C(V, H) = 0.45), correlazione che non è evidente dalle rette di regressione dei dati non normalizzati.
Soluzione corretta dell’Esercizio A.5.7. In questo esempio la differenza tra coefficiente angolare della retta
di regressione rispetto ai dati iniziali e rispetto ai dati normalizzati è ancora più evidente. Chiaramente,
la retta di regressione rispetto ai dati iniziali risulta molto schiacciata sull’asse x (m = 0.05) a causa
della notevole differenza di scala utilizzata per studi e profitti. Il coefficiente di Pearson rivela invece una
fortissima correlazione positva tra i due dati, quasi perfetta (C = 0.99).
Soluzione dell’Esercizio A.5.8. Anche in questo caso, i calcoli mostrano una correlazione positiva quasi
perfetta tra indice di annerimento e numero di auto in transito, mentre la correlazione tra annerimento e precipitazioni è positiva ma debole. Questa differenza non era evidenziata dai dati prima della
normalizzazione (a causa della differenza notevole di scala tra i dati N, P ed A).
A. Sambusetti
23
Soluzione dell’Esercizio A.5.10. Si è scelto di riportare i dati di affluenza in in decine di migliaia di biglietti
(non dipendendo il risultato dell’analisi dalla scala lineare scelta). Il coefficiente di Pearson mostra che
c’è una correlazione positiva debolissima tra numero di abitanti e numero di biglietti venduti C = 0.15).
L’affluenza ai musei dipende quindi da altri fattori che non semplicemente la numerosità della popolazione
(pubblicità, livello di educazione medio ecc.)
Soluzione dell’Esercizio A.5.11. Il calcolo di C dimostra una correlazione positiva tra numero di auto
immatricolate e tempo di percorrenza: l’angolo della retta di regressione è infatti 38.3◦ , prossimo al
massimo di 45◦ . (I dati sono veritieri)
Soluzione dell’Esercizio A.5.12. L’indice di Pearson dimostra una correlazione negativa notevole tra
tempo e numero di decessi per malattie cardiocircolatorie (cioè i casi di decesso per tali cause sono diminuiti
linearmente in modo consistente anno per anno), essendo C ∼ −1. Non si può dire uguale per il numero
di decessi per malattie tumorali, che mostra una correlazione positiva, benché debole (C = 0.27), con il
tempo. Si noti il riscalamento comodo (e ininfluente sul coefficiente di Pearson) degli anni tra 1 e 10.