Statistica descrittiva - Dipartimento di Scienze Statistiche

STATISTICA
CLEF — A.A. 2014/2015
Paola Bortot
Dipartimento di Scienze Statistiche
Via Belle Arti, 41, I piano
[email protected]
ORGANIZZAZIONE DEL CORSO:
- Il corso è diviso in due moduli: Modulo 1 di 52 ore
(docente Paola Bortot), che terminerà alla fine di aprile,
e Modulo 2 di 23 ore (docente Silvia Cagnone) per il periodo restante.
- L’esame è unico.
- I libri di testo e la pagina web di riferimento per materiale e informazioni rimangono gli stessi per entrambi i
moduli.
RICEVIMENTO:
Per il Modulo 1: Giovedı̀ dalle 15:00 alle 16:00
(Verificare eventuali variazioni dell’orario alla pagina istituzionale del docente.)
MODALITÀ D’ESAME:
- L’esame è scritto.
- È possibile consultare durante lo scritto un formulario
che deve essere un foglio A4 (fronte e retro) preparato dallo studente con le formule che ritiene utili. Non
è permesso tenere nessun altro materiale.
- In seguito allo scritto, può essere previsto un colloquio
orale a discrezione del docente.
- Il voto dello scritto non può essere rifiutato.
MATERIALE PER IL CORSO:
• TEORIA:
Borra, S. e Di Ciaccio, A. (2008). Statistica. Metodologie per le Scienze Economiche e Sociali. McGraw–
Hill, Milano, Seconda Edizione.
Dispense scaricabili alla pagina
http://www2.stat.unibo.it/bortot/statclef.html
Per approfondimenti:
Cicchitelli, G. (2012). Statistica: principi e metodi.
Pearson, Seconda Edizione.
• ESERCIZI:
Esercizi e testi di esami passati scaricabili alla pagina
http://www2.stat.unibo.it/bortot/statclef.html
SUDDIVISIONE SCHEMATICA
DELLE FASI DI UNA INDAGINE
STATISTICA
⋄ IMPOSTARE LA RICERCA
• Definire scopi e risorse
• Definire la popolazione di interesse e le variabili
da rilevare
⋄ RACCOGLIERE I DATI
•
•
•
•
Definire il piano di osservazione
Predisporre gli strumenti di rilevazione
Organizzare la rilevazione
Codificare i dati (eventualmente con supporti informatici)
⋄ PRESENTARE E DESCRIVERE I DATI
• Costruire tabelle
• Presentare graficamente i dati
• Determinare indici sintetici
⋄ TRARRE CONCLUSIONI DAI DATI
• Costruire modelli interpretativi
• Stimare grandezze relative alla popolazione
• Definire ipotesi statistiche e affrontare problemi
di verifica di ipotesi
• Prendere delle decisioni
1
CONTENUTI DEL CORSO
STATISTICA
Insieme di concetti e strumenti utili per evidenziare gli
aspetti salienti dei dati e per interpretare i suggerimenti
che da essi possono essere tratti.
STATISTICA DESCRITTIVA
Si occupa prevalentemente della presentazione e descrizione dei dati. A seconda che l’analisi riguardi una o più
variabili si parla di STATISTICA DESCRITTIVA UNIVARIATA o MULTIVARIATA.
STATISTICA INFERENZIALE
E’ l’insieme dei metodi che ci permettono di trarre delle
conclusioni di carattere generale a partire dai dati osservati. A partire da caratteristiche osservate su un campione scelto con opportuni criteri, si traggono delle informazioni sull’intera popolazione o si fa inferenza sui modelli
teorici di descrizione della realtà.
CALCOLO DELLE PROBABILITÀ
Per passare dalla Statistica Descrittiva alla Statistica Inferenziale è necessario conoscere alcuni strumenti del Calcolo delle Probabilità che si occupa di formulare delle valutazioni numeriche della possibilità di verificarsi di eventi
casuali.
2
INGREDIENTI DELL’ANALISI STATISTICA
⋄ POPOLAZIONE
⋄ UNITA’ STATISTICHE ←→ elementi che costituiscono la popolazione
⋄ VARIABILI ←→ caratteristiche osservate su ciascuna unità; al variare dell’unità su cui sono rilevate, possono assumere una pluralità di valori (almeno
due)
⋄ MODALITA’ ←→ i valori (distinti) che possono
essere assunti da una variabile
CLASSIFICAZIONE DELLE VARIABILI
⎧
⎪
DISCRETE
⎪
⎪
⎪
⎪
(numero finito o infinità numerabile
⎪
⎪
⎪
⎨ di modalità)
QUANTITATIVE−
⎪
⎪
⎪
⎪
⎪
⎪
CONTINUE
⎪
⎪
⎩ (infinità non numerabile di modalità)
le modalità sono espresse in forma numerica
⎧
⎪
SCONNESSE
⎪
⎪
⎪
⎨ (non ordinabili)
QUALITATIVE −
⎪
⎪
⎪
⎪
⎩ ORDINALI
le modalità sono espresse in forma verbale
3
LA MATRICE DEI DATI
UNITÀ
STATISTICHE
(righe) −→
ANASC.
1973
1981
1981
1981
1982
1982
1982
1982
1982
1982
1983
1983
1983
1983
1983
1983
1983
1983
1983
1983
1984
1984
1984
1984
1984
1984
1984
1984
1984
1984
1984
1984
1984
1985
1985
1984
1984
1984
1984
1984
1984
1984
1984
1984
SESSO
M
F
F
M
F
M
F
M
M
M
F
F
F
M
M
F
F
F
M
M
M
M
F
M
F
F
F
F
F
M
F
M
F
M
F
M
M
M
M
F
F
F
F
F
VARIABILI (colonne)
↓
SCUOLA
ITI
LC
LS
ITC
LS
ITC
ITC
LS
ITC
ITC
LS
ITC
LS
ITI
ITC
ITC
ITC
ITC
LS
ITC
LS
ITC
ITC
LC
LS
ITC
LS
ITC
ITC
LC
ITC
LS
LS
ITC
LC
ITC
LS
LS
LS
LC
ITC
LS
LS
LS
DIPLOMA
93
70
60
83
100
73
100
64
98
77
66
83
89
100
65
100
100
100
68
95
88
100
100
70
94
100
75
90
100
72
100
100
96
80
100
100
84
68
61
69
100
100
80
76
4
LAUREA
106
110
98
102
102
85
94
86
90
85
89
91
100
88
111
95
102
97
94
102
92
111
111
105
111
90
97
104
111
111
106
105
100
85
91
99
92
92
100
97
107
94
96
79
TEST
44
46
36
42
42
48
38
36
42
38
38
42
38
38
52
38
42
38
36
42
42
48
48
42
46
42
42
40
44
42
42
42
40
16
26
28
32
32
32
14
30
30
32
26
AMMISSIONE
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
continua...
ANASC.
1984
1983
1983
1983
1983
1983
1983
1983
1983
1983
1983
1983
1982
1982
1982
1982
1982
1982
1982
1982
1982
1982
1981
1981
1981
1981
1981
1981
1981
1980
1980
1980
1980
1980
1979
1979
1979
1978
1978
1978
1978
1975
1974
1969
1982
SESSO
F
M
M
M
F
M
M
M
F
M
F
F
M
M
M
M
F
M
M
M
M
F
M
M
M
M
M
F
M
M
F
M
M
M
F
F
M
F
M
M
F
F
F
M
F
SCUOLA
ITC
ITI
LS
LS
ITC
LC
LC
ITC
ITC
ITI
ITC
LS
LS
ITC
ITI
LC
ITC
LC
ITC
ITC
ITC
ITC
ITC
ITG
ITC
ITC
ITC
LS
ITG
ITC
ITC
LS
ITC
LS
LS
LS
LS
LS
LS
LS
ITC
ITC
ITC
ITC
ITC
DIPLOMA
92
76
90
67
100
95
100
88
75
75
100
94
76
69
86
72
86
80
70
70
95
60
71
63
87
65
84
71
89
73
89
64
70
66
60
100
67
63
60
77
83
87
97
70
64
LAUREA
84
90
95
87
104
102
96
91
94
90
83
94
85
82
81
80
97
86
100
102
103
99
80
89
95
87
89
90
85
80
84
87
92
89
83
97
87
87
84
81
82
96
92
90
92
5
TEST
34
26
20
30
32
32
30
30
32
34
28
28
26
24
12
18
32
32
24
26
32
24
26
32
34
26
28
26
22
30
26
20
34
32
34
30
28
24
28
32
18
30
26
30
32
AMMISSIONE
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Si tratta di dati in forma grezza riguardanti 89 studenti che hanno partecipato al test di ammissione alla Laurea Magistrale in Economia e Professione
dell’Università di Bologna nel settembre 2006. I valori delle variabili corrispondenti a ciascun candidato compaiono per riga. Su ogni candidato sono
state rilevate 7 variabili di seguito descritte.
Legenda:
ANASC.:
SESSO:
Anno di nascita
M - Maschio
F - Femmina
SCUOLA:
DIPLOMA:
LAUREA:
TEST:
LC - Liceo Classico
LS - Liceo Scientifico
ITI - Ist. Tec. Industriale
ITC - Ist. Tec. Commerciale/Aziendale
ITG - Ist. Tec. Geometra
Voto conseguito alla maturità (in centesimi)
Voto di laurea (111 per lode)
Punteggio al test di ammissione
AMMISSIONE:
1 - Ammesso (punteggio minimo 36)
0 - Non Ammesso
6
Tabella Paesi UE
Paese
Popola- Super- Anno di
zione
ficie ingresso
nell’UE
7
Austria
Belgio
Danimarca
Finlandia
Francia
Germania
Grecia
Irlanda
Italia
Lussemb.o
Paesi Bassi
Portogallo
Regno Unito
Spagna
Svezia
7,712
9,950
5,140
4,986
56,600
79,479
10,123
3,503
56,800
381
14,833
10,251
55,487
36,950
8,559
84
30
43
338
543
357
131
70
301
3
42
91
244
489
450
1995
1957
1973
1995
1957
1957
1981
1973
1957
1957
1957
1986
1973
1986
1995
Temp.
media
gennaio
(capitale)
Forma di
Governo
1.8
3.5
1.7
-2.2
5
1.8
11.7
3.8
9.7
1.9
3.1
12.5
3.7
6.5
-1.2
Repubblica
Monarchia
Monarchia
Repubblica
Repubblica
Repubblica
Repubblica
Repubblica
Repubblica
Monarchia
Monarchia
Repubblica
Monarchia
Monarchia
Monarchia
Confessione Rate di Spese
prevalente S& P R& S
cattolica
cattolica
protestante
protestante
cattolica
protestante
ortodossa
cattolica
cattolica
cattolica
protestante
cattolica
protestante
cattolica
protestante
AA+
AA
AAA
AA+
AA
AAA
B
A
BBBAAA
AA+
BB
AAA
BBB
AAA
1.8
1.6
2.1
2.9
2.2
2.3
0.5
1.5
1.1
2
2
0,6
1.8
0.9
3.8
DISTRIBUZIONI DI FREQUENZA
FREQUENZA ASSOLUTA: Numero di unità statistiche, tra
quelle osservate, che presentano
una determinata modalità
NOTAZIONE USATA
X, Y
variabili
xi, yi
(i = 1, . . . , N )
valore assunto dalle variabili X e Y sulla
i–esima unità statistica
N
numerosità campionaria (numero di unità
statistiche osservate)
xj , yj
(j = 1, . . . , r)
modalità delle variabili X e Y
r
numero complessivo di modalità
(r ≤ N )
nj
(j = 1, . . . , r)
frequenza assoluta della j–esima modalità
fj = nj /N
(j = 1, . . . , r)
FREQUENZA RELATIVA della j–esima
modalità
8
Variabile X con modalità
x1 , x2 , . . . , xr
Distribuzione delle frequenze
assolute di X
n1 , n2 , . . . , nr
Distribuzione delle frequenze
relative di X
f1, f2 , . . . , fr
%r
%r
j=1 nj = N
N.B.:
FREQ. ASSOLUTE
⇓
Consentono di avere
informazioni sulla dimensione di un fenomeno
j=1 fj
⇐⇒
=1
FREQ. RELATIVE
⇓
Consentono di fare confronti
e di analizzare la distribuzione indipendentemente dalla
numerosità dei dati
9
TABELLA DI FREQUENZA
Presenta congiuntamente l’informazione modalità con la
frequenza relativa (o assoluta) ad essa associata.
TABELLA DI FREQUENZA PER UNA
VARIABILE QUALITATIVA O
QUANTITATIVA DISCRETA
(con “poche” modalità)
Variabile
X
Frequenze
assolute
Frequenze
relative
x1
x2
·
·
·
xr
n1
n2
·
·
·
nr
f1
f2
·
·
·
fr
%r
j=1 nj
=N
1
Se qualitativa ordinale o quantitativa discreta conviene
ordinare le modalità nella prima colonna
10
VARIABILE: SCUOLA
VARIABILE QUALITATIVA
X Freq. ass. Freq. rel.
ITC
43
0,483
ITG
2
0,022
ITI
5
0,056
LC
9
0,101
LS
30
0,337
totale
89
1
N.B.: La somma delle frequenze relative in questo esempio non è esattamente 1, ma 0,999, a causa di arrotondamenti
VARIABILE: ANNO DI NASCITA
VARIABILE QUANTITATIVA DISCRETA
X Freq. ass. Freq. rel.
1969
1
0,011
1973
1
0,011
1974
1
0,011
1975
1
0,011
1978
4
0,045
1979
3
0,034
1980
5
0,056
1981
10
0,112
1982
17
0,191
1983
21
0,236
1984
23
0,258
1985
2
0,022
11
VARIABILE: SESSO
VARIABILE QUALITATIVA (DICOTOMICA)
X
Freq. ass. Freq. rel.
maschio
49
0,551
femmina
40
0,449
totale
89
1
12
TABELLA DI FREQUENZA PER UNA
VARIABILE QUANTITATIVA DISCRETA
(con “molte” modalità)
O CONTINUA
Variabile Frequenze Frequenze
X
assolute
relative
x0 ⊢ x1
x1 ⊢ x2
·
·
·
xr−1 ⊢ xr
n1
n2
·
·
·
nr
f1
f2
·
·
·
fr
N
1
Occorre definire delle classi, ossia dei sottoinsiemi disgiunti
di valori che possono essere assunti dalla variabile quantitativa.
Ciò consente un’operazione di conteggio analoga a quella
che si attua per una variabile qualitativa. Quindi n1 è
il risultato del conteggio del numero di unità che presentano un valore compreso nell’intervallo x0 ⊢ x1, n2 è il
numero di unità con valore nell’intervallo x1 ⊢ x2 e cosı̀
via.
UNA CONVENZIONE: La notazione xj ⊢ xj+1 significa
che il valore xj è incluso nell’intervallo, mentre xj+1 è escluso.
13
ATTENZIONE: L’operazione di suddivisione in classi
comporta una perdita di informazioni.
E’ il prezzo che occorre pagare per poter
“leggere” i dati.
1. COME SCEGLIERE LE CLASSI? QUANTE CONSIDERARNE?
2. COME COMPORTARSI CON LE CLASSI FINALI?
3. QUALE AMPIEZZA SCEGLIERE?
DISTRIBUZIONE DI FREQUENZA
CUMULATA
Nel caso di variabili QUANTITATIVE è possibile definire anche le seguenti quantità.
Dopo aver ordinato le modalità in ordine crescente:
Nj =
%j
s=1 ns
Fj =
Frequenze assolute
cumulate
%j
s=1 fs
=
Nj
N
Frequenze relative
cumulate
Con riferimento all’ultima modalità, si noti che
Nr = N
Fr = 1
14
Var. Freq. Freq.
X ass. rel.
x1
x2
·
·
·
xr
n1
n2
·
·
·
nr
f1
f2
·
·
·
fr
N
1
Freq. ass.
cumulate
Freq. rel.
cumulate
N1 = n 1
F1 = f1
N2 = n 1 + n 2 F2 = f 1 + f 2
·
·
·
·
·
·
Nr = N
Fr = 1
Nj è il numero di unità statistiche con un valore della
variabile X minore o uguale a xj ; Fj è la corrispondente
frazione
SUDDIVISIONE IN CLASSI
Var.
X
x0 ⊢ x1
x1 ⊢ x2
·
·
·
xr−1 ⊢ xr
Freq. Freq.
ass. rel.
n1
n2
·
·
·
nr
f1
f2
·
·
·
fr
N
1
Freq. ass.
cumulate
Freq. rel.
cumulate
N1 = n 1
F1 = f1
N 2 = n 1 + n 2 F2 = f 1 + f 2
·
·
·
·
·
·
Nr = N
Fr = 1
Nj è il numero di unità statistiche con un valore della
variabile X minore di xj (minore o uguale se gli
estremi superiori degli intervalli fossero inclusi: ⊣)
15
VARIABILE: VOTO ALLA MATURITÀ
VARIABILE QUANTITATIVA DISCRETA
xj ⊢⊣ xj+1
60 ⊢⊣ 65
66 ⊢⊣ 71
72 ⊢⊣ 77
78 ⊢⊣ 83
84 ⊢⊣ 89
90 ⊢⊣ 95
96 ⊢⊣ 100
96 ⊢⊣ 99
100
totale
nj
12
16
12
6
11
9
23
3
20
89
fj
0,135
0,180
0,135
0,067
0,124
0,101
0,258
0,033
0,225
1
Nj
12
28
40
46
57
66
89
69
89
Fj
0,135
0,315
0,450
0,517
0,641
0,742
1
0,775
1
Le classi sono chiuse sia a destra che a sinistra (60 e 65
sono entrambi inclusi nella prima classe).
16
Reddito delle persone fisiche (in migliaia di euro)
nell’anno di imposta 2007
(Fonte: Dipartimento delle Finanze).
Classi di Reddito
(migliaia di euro)
Frequenze
assolute
percentuali
0 ⊢ 10
10 ⊢ 20
20 ⊢ 30
30 ⊢ 40
40 ⊢ 50
50 ⊢ 300
14.016.837
13.422.444
7.578.912
3.257.737
1.017.189
1.773.469
34,1
32,7
18,5
7,9
2,5
4,3
Totale
41.066.588
100,0
Frequenze cumulate
assolute
percentuali
14.016.837
27.439.281
35.018.193
38.275.930
39.293.119
41.066.588
34,1
66,8
85,3
93,2
95,7
100,0
VARIABILE QUANTITATIVA CONTINUA
17
LA DENSITÀ DI FREQUENZA
Per variabili quantitative che sono state raggruppate in
classi, introduciamo una nuova quantità che risulterà molto utile tra breve: la densità di frequenza.
Guardando la tabella precedente (Reddito delle persone fisiche nel 2007), saremmo tentati di dire che la classe
50 ⊢ 300 (migliaia di euro) è più frequente della classe 40 ⊢ 50 (migliaia di euro) (1.773.469 persone contro
1.017.189). È vero, ma non è un confronto equo, perché non si tiene conto del fatto che le due classi hanno
ampiezze diverse. Per un confronto corretto dovremmo
rapportare la frequenza all’ampiezza della classe, vale a
dire
1017189
1773469
= 7093, 9
e
= 101718, 9.
(300 − 50)
(50 − 40)
Il primo rapporto ci indica il grado di addensamento delle
unità statistiche nella classe 50 ⊢ 300, mentre il secondo
rapporto ci indica il grado di addensamento nella classe
40 ⊢ 50. Dal confronto dei due valori possiamo dedurre
che, benché la classe 40 ⊢ 50 sia meno frequente della
classe 50 ⊢ 300, essa è più “densamente popolata”. Infatti, nella classe 50 ⊢ 300 troviamo 7093,9 unità statistiche per unità di misura, ossia per migliaia di euro, contro
101718,9 unità statistiche per migliaia di euro della classe
40 ⊢ 50.
18
Il rapporto tra frequenza di una classe e l’ampiezza della classe stessa viene chiamato densità di frequenza
assoluta.
In formule, nella classe xj−1 ⊣ xj con frequenza assoluta
nj e ampiezza ωj = xj − xj−1, la densità di frequenza
assoluta è
nj
ωj
Essa ci dice quante unità statistiche troviamo per unità
di misura nella classe xj−1 ⊣ xj , nell’ipotesi che le unità
si distribuiscano uniformemente all’interno della
classe. (Analogia con il concetto di densità di popolazione.)
Cosı̀ come abbiamo definito la densità di frequenza assoluta possiamo definire la densità di frequenza relativa. È il rapporto tra frequenza relativa della classe
e l’ampiezza della classe:
fj
ωj
Ha un’interpretazione analoga alla densità di frequenza
assoluta: invece di darci il numero di unità statistiche
per unità di misura ci dà la frequenza relativa per unità
di misura nella classe considerata.
Ad esempio, per la classe 0 ⊢ 10 (migliaia di euro) abbiamo
0, 341
= 0, 0341
(10 − 0)
ossia nella classe 0 ⊢ 10 la percentuale di persone fisiche
per migliaia di euro è 3,4%.
19
RAPPRESENTAZIONI GRAFICHE DEI
DATI
! VARIABILI QUALITATIVE
• Diagrammi circolari
• Diagrammi a rettangoli separati
DIAGRAMMA CIRCOLARE
(GRAFICO A TORTA)
Italia Settentrionale
Area proporzionale alla frequenza
Italia Centrale
Italia Insulare
Italia Meridionale
Popolazione italiana
Regione
Italia
Italia
Italia
Italia
Settentrionale
Centrale
Meridionale
Insulare
Totale
Occorre calcolare il valore dell’angolo al centro
del settore corrispondente ad ogni modalità.
nj
(in migliaia)
20.003
13.600
12.794
6.291
αj = 360 · fj
α1 = 360 ·
20003
≃ 137o
52688
13600
≃ 93o
α2 = 360 ·
52688
...
52.688
20
0.0
0.1
0.2
fj
0.3
0.4
0.5
DIAGRAMMA A RETTANGOLI
SEPARATI
Esempio: SCUOLA DI PROVENIENZA
ITC
ITG
ITI
LC
LS
1.0
0.5
È anche possibile fare dei confronti tra distribuzioni (attenzione, solo in termini di frequenze relative). Per esempio,
0.6
fj
0.4
0.2
0.0
0.0
0.1
0.2
fj
0.3
0.8
2007
2006
0.4
2006
2007
ITC
ITG
ITI
LC
LS
ITC
Affiancando i rettangoli
ITG
ITI
LC
LS
Sovrapponendo i rettangoli
21
! VARIABILI QUANTITATIVE DISCRETE
DIAGRAMMA A BASTONCINI
fj
0.2
0.1
0
1
4
5
3
2
Numero di stanze
6
7
Anche in questo caso sono possibili confronti con altre
distribuzioni, ad esempio, affiancando i bastoncini.
22
! VARIABILI QUANTITATIVE CONTINUE
O DISCRETE CON MOLTE MODALITÀ
GLI ISTOGRAMMI
Il punto di partenza è la distribuzione di frequenza di una
variabile QUANTITATIVA opportunamente raggruppata in classi.
ESEMPIO: Distribuzione delle famiglie americane per
reddito
Classi di Reddito ($) Freq. relative
0 ⊢ 1000
1000 ⊢ 2000
2000 ⊢ 3000
3000 ⊢ 4000
4000 ⊢ 5000
5000 ⊢ 6000
6000 ⊢ 7000
7000 ⊢ 10000
10000 ⊢ 15000
15000 ⊢ 25000
25000 ⊢ 50000
50000 e oltre
0,01
0,02
0,03
0,04
0,05
0,05
0,05
0,15
0,26
0,26
0,08
0,01
N.B.: Se si prova a fare la somma delle frequenze relative
questa non risulta pari a 1 (come dovrebbe).
Ciò può accadere a causa di arrotondamenti.
23
Distribuzione delle famiglie americane per reddito (scala
orizzontale: migliaia di dollari)
0
5
10
15
20
25
30
Reddito (migliaia di $)
35
40
45
• Il diagramma è composto da rettangoli uniti.
• La base di ciascun rettangolo rappresenta un intervallo della suddivisione in classi della variabile quantitativa.
• Il grafico è tale che l’area di ciascun rettangolo è
proporzionale alla frequenza relativa delle unità comprese nell’intervallo.
UN ISTOGRAMMA RAPPRESENTA LA DISTRIBUZIONE DI FREQUENZA PER MEZZO DELLE AREE, NON DELLE ALTEZZE.
24
50
COSTRUZIONE DI UN ISTOGRAMMA
I passo: Disegnare l’asse orizzontale
Usiamo come unità di misura 1 migliaio di dollari.
Bisogna tener presente che le diverse ampiezze delle classi
vanno rappresentate correttamente.
Quindi evitare,
NO!!
0
1
2
3
4
5
6
7
15
25
50
È corretto invece
0 1 2 3 4 5 6 7
15
25
50
È opportuno anche indicare il nome della variabile a cui
ci si riferisce e l’unità di misura.
II passo: Costruire i rettangoli
La tentazione è di costruire i rettangoli con altezza pari
alla frequenza della classe. È l’errore più comune e dà
luogo ad interpretazioni sbagliate.
25
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Ad esempio,
0
5
10
15
25
50
Quello che ci dice la figura errata è, ad esempio, che ci sono più famiglie con reddito superiore a 25.000$ che famiglie con meno di 7000$ (lo si ricava osservando le relative
aree).
L’unico caso in cui questa procedura (altezza=frequenza)
è corretta è quello in cui le classi sono di uguale ampiezza.
Infatti il problema sorge perché le classi hanno ampiezza
diversa.
26
Nel caso di classi di ampiezza diversa, per costruire l’istogramma:
L’ALTEZZA DEI RETTANGOLI SI OTTIENE DIVIDENDO LA FREQUENZA RELATIVA (O ASSOLUTA) PER L’AMPIEZZA DELLA CLASSE.
In altri termini, l’altezza di ciascun rettangolo è data dalla
densità di frequenza relativa (o assoluta) della
classe.
In tal modo otteniamo che l’area di ogni rettangolo è pari
alla frequenza relativa (o assoluta) che insiste sull’intervallo.
L’area sotto l’istogramma corrisponde al totale delle frequenze relative, ossia a 1 (o al totale delle frequenze assolute, ossia la numerosità campionaria N , se l’istogramma
è costruito usando la densità di frequenza assoluta delle
classi)
IPOTESI DI UNIFORMITA’
Non abbiamo informazioni sulla distribuzione delle unità
all’interno di ciascuna classe.
E’ possibile fare delle ipotesi semplificatrici.
Di solito si utilizza una delle seguenti due convenzioni:
1. le unità nella classe si concentrano su un unico valore,
ad esempio il valore centrale
2. le unità si distribuiscono nella classe in modo uniforme
L’istogramma è basato sull’ipotesi 2).
27
ESEMPIO: Costruzione di un istogramma
Tabella 2: Distribuzione delle aziende agricole per classi
di superficie (in ettari)
X
0 ⊢ 0, 5
0, 5 ⊢ 1
1⊢2
2⊢3
3⊢5
5 ⊢ 10
10 ⊢ 20
20 ⊢ 30
30 ⊢ 50
50 ⊢ 100
100 e oltre
Freq. ass. Freq. rel. Freq. rel. amp.
densità di
cum.
(ω) freq. rel. (f /ω)
524.040
510.900
644.730
371.080
417.870
400.790
218.210
67.289
49.360
31.140
23.510
0,1608
0,1568
0,1978
0,1139
0,1282
0,1230
0,067
0,0206
0,0151
0,0096
0,0072
0,1608
0,3176
0,5154
0,6293
0,7575
0,8805
0,9475
0,9681
0,9832
0,9928
1
0,5
0,5
1
1
2
5
10
10
20
50
400
0,3216
0,3136
0,1978
0,1139
0,0641
0,0246
0,0067
0,0021
0,0008
0,0002
0,00
N.B.: Implicitamente la classe “100 e oltre” è stata chiusa
a 500, operazione necessaria per la costruzione
dell’istogramma.
28
densità di frequenza relativa:
fj
ωj
0,3
0,2
0,1
0,0
0 1 2 3
5
10
20
Superficie (ettari)
Dati tratti da Tab.2
N.B. Nel disegnare l’istogramma, per chiarezza, sono state escluse le classi estreme.
29
USO DELL’ISTOGRAMMA PER IL
CALCOLO DI FREQUENZE
Abbiamo visto che, se l’istogramma è costruito mettendo
in altezza la densità di frequenza relativa, allora l’area
di ciascun rettangolo è pari alla frequenza relativa che
insiste sulla classe.
Questo ragionamento può essere esteso.
L’altezza di ciascun rettangolo esprime, per ciascuna classe, la frequenza relativa per unità di misura (sotto ipotesi
di distribuzione uniforme).
Pertanto, l’area sottesa all’istogramma tra due punti generici s1 e s2 ci darà la frequenza relativa compresa tra
s1 e s2 (sempre sotto l’ipotesi di distribuzioni uniforme
all’interno delle classi).
30
Esempio: Quale è la percentuale di aziende agricole con
superficie compresa tra 2 e 8 ettari?
0,3
0,2
0,1139
0,1282
0,1
0,0246*3
0,0246
0,0
0
1
2
3
5
8
10
20
Superficie (ettari)
Ossia,
0, 1139 + 0, 1282 + 0, 0246 · (8 − 5) = 0, 3159
&
'
fj
fj di 2 ⊢ 3 + fj di 3 ⊢ 5 +
di 5 ⊢ 10 · 3 = 0, 3159
ωj
=⇒ 31, 59%
" IPOTESI DI DISTRIBUZIONE UNIFORME
31
Esempio: Quale è quel valore di superficie agraria oltre
il quale trovo il 30% delle aziende agricole? (Equivalentemente, quale è quel valore di superficie al di sotto del
quale vi è il 70% delle aziende?)
0,3
0,2
0,7−0,6293
0,1
0,0641
62,93%
0,0
0
1
2
3
x
5
10
20
Superficie (ettari)
Guardando ai valori delle frequenze cumulate, troviamo
che al di sotto di 3 ettari vi sono il 62,93% delle aziende.
Il valore cercato x è quindi compreso tra 3 e 5 (al di sotto
di 5 vi sono il 75,75% delle aziende).
Pertanto, x sarà tale che l’area sottesa all’istogramma da
0 a x sia pari a 0,7, ossia
0, 6293 + 0, 0641 · (x − 3) = 0, 7
Risolvendo rispetto a x si ottiene,
0, 7 − 0, 6293
x=
+ 3 = 4, 1 ettari
0, 0641
32
FUNZIONE DI FREQUENZA RELATIVA
CUMULATA
(O FUNZIONE DI RIPARTIZIONE
EMPIRICA)
F (x)= frequenza relativa delle unità con valore della variabile ≤ x
=
numero di unita’ con valore della variabile ≤ x
N
33
COME È FATTA F (x)?
! PER VARIABILI QUANTITATIVE DISCRETE
È una funzione a gradini.
Esempio:
F(x)
Num. freq. freq. rel.
cum.
figli rel.
0
1
2
3
4
5
0,27
0,32
0,20
0,10
0,09
0,02
0,27
0,59
0,79
0,89
0,98
1
1.0
0.79
0.59
0.27
0.0
0
1
2
3
4
N. figli
5
Risponde al quesito “quale è la percentuale di famiglie
con meno di x figli”.
Struttura generale di
⎧
⎪
⎪
⎨0
F (x) = Fj
⎪
⎪
⎩1
F (x) per X discreta:
per x < x1
per xj ≤ x < xj+1
per xr ≤ x
34
x
! PER VARIABILI QUANTITATIVE CONTINUE
È una spezzata.
Si parte ancora una volta dai dati espressi da una tabella
di frequenza con i valori della variabile opportunamente
raggruppati in classi. Ad esempio, possiamo partire dalla
tabella sulle superfici agricole (Tabella 2)
F(x)
1.0
0.9475
0.8805
0.7575
0.6293
0.5154
0.3176
0.1608
0.0
0 1 2 3
5
10
Superficie agricola (ettari)
20
N.B.: Per chiarezza nel grafico sono state ignorate le
classi più estreme. In altre parole, questo è un ingrandimento di una parte del grafico della pagina seguente.
35
1.0
0.8
0.6
0.0
0.2
0.4
F(x)
0
100
200
300
400
500
600
Superficie (ettari)
F (x) =
⎧
⎪
⎪
⎨0
Struttura generale:
⎧
⎪
per x < x0
⎪
⎨0
F (x) = area dell’istogramma tra x0 e x per x0 ≤ x < xr
⎪
⎪
⎩1
per x ≥ xr
Fj +
⎪
⎪
⎩1
per x < x0
fj+1
(x
xj+1 −xj
− xj ) = Fj +
Fj+1 −Fj
(x
xj+1 −xj
36
− xj ) per xj ≤ x < xj+1
per x ≥ xr
Le informazioni della tabella ci consentono di ricavare i
punti indicati nel grafico. Le linee rette tracciate congiungono i punti e sono coerenti con l’ipotesi di uniforme distribuzione.
La retta sarà tanto più inclinata quanto maggiore è la
densità di frequenza dell’intervallo considerato.
Possiamo quindi rispondere a quesiti del tipo “quale percentuale di unità risulta inferiore ad un valore x”. La
risposta a tale quesito è non approssimata se x coincide
con uno degli estremi della classe. E’ possibile rispondere a tale quesito anche per valori di x diversi, ma in tal
caso la risposta è condizionata alla validità dell’ipotesi di
uniforme distribuzione.
Ad esempio:
la percentuale di aziende con superficie minore di 2 ettari
è
F (2) = 51, 54% (dalla Tabella 2 direttamente)
la percentuale di aziende con superficie minore di 8 ettari
è
12, 3
× (8 − 5) = 83, 13%
F (8) = 75, 75% +
(10 − 5)
⇓
⇓
F (5)
densità di frequenza
classe 5 ⊢ 10
37
F(x)
1.0
0.8313
0.7
0.5154
0.3
0.1
0.0
0 1 2 3
5
8
10
Superficie (ettari)
20
Quale è la percentuale di aziende con superficie compresa
tra 2 e 8 ettari?
Riposta: F (8) − F (2)=83,13%-51,54%=31,59%.
38
F(x)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 1 2 3
4.1
5
10
Superficie (ettari)
20
Quale è il valore oltre il quale trovo il 30% delle aziende?
Si raggiunge il 70% delle aziende nella classe 3 ⊢ 5. In
tale classe
0, 1282
F (x) = F (3) +
(x − 3)
5−3
Poniamo F (x) = 0, 70 e risolviamo l’equazione rispetto
a x:
0, 70 = 0, 6293 + 0, 0641 · (x − 3)
0, 70 − 0, 6293
= 1, 1 =⇒ x = 4, 1 ettari
x−3=
0, 0641
39
La funzione di frequenza cumulata F (x) serve anche per
fare confronti tra le distribuzioni di frequenza di due variabili omogenee (ad esempio, i redditi di due regioni, i
pesi di due gruppi di persone).
In particolare, si dice che che una variabile è STATISTICAMENTE (o STOCASTICAMENTE) minore di un’altra se ha il grafico di F (x) superiore.
Possiamo allora dire, con riferimento all’esempio della pagina successiva, che Napoli è statisticamente più giovane
di Perugia.
40
Perugia
Età
Freq. Freq. ass. Freq. rel.
ass.
cum.
cum.
67126
79549
76689
75968
78412
83735
87727
31782
67126
146675
223364
299322
377734
461469
549146
580978
0,116
0,254
0,384
0,515
0,650
0,794
0,945
1,000
Freq.
ass.
Freq. ass. Freq. rel.
cum.
cum.
552471
598262
461233
383322
323248
296876
265173
81997
552471
1150733
1611966
1995288
2318536
2615412
2880585
2962582
0.2
0.4
F(x)
0.6
0.8
1.0
0 – 10
10 – 20
20 – 30
30 – 40
40 – 50
50 – 60
60 – 75
75 – 100
Napoli
0.0
Perugia
Napoli
0
20
40
60
eta’
41
80
100
0,186
0,388
0,544
0,673
0,783
0,883
0,971
1,000
RIASSUNTI NUMERICI DELLE
CARATTERISTICHE DI UN INSIEME DI
DATI
Un’attenta osservazione della distribuzione di frequenza
di una variabile statistica permette di trarre informazioni
su gran parte delle caratteristiche dell’insieme di dati. In
particolare, possiamo:
1. cogliere informazioni sui valori tipici della distribuzione
2. avere informazioni sulla dispersione dei valori
Già tracciando un istogramma si attua un riassunto delle
caratteristiche salienti di un insieme di dati. L’obiettivo
ora è quello di avere riassunti ancora più sintetici delle
caratteristiche principali.
42
INDICI DI TENDENZA CENTRALE
Occorre, come sempre, tener conto della natura delle variabili (quantitative, qualitative).
Iniziamo ad affrontare il caso di maggiore interesse relativo alle variabili QUANTITATIVE.
L’idea di fondo è quella di cercare un valore attorno al
quale è concentrata l’intera distribuzione di valori: un
valore “tipico” che riassuma l’intero fenomeno con riferimento al suo ordine di grandezza.
COME SCEGLIERE TALE VALORE?
Le possibili soluzioni sono numerose:
Ad esempio,
!
il valore intermedio tra il valore più piccolo e il valore
più grande fra quelli osservati
!
il valore osservato con maggiore frequenza
!
un opportuno riassunto di alcuni valori compresi nel
corpo centrale della distribuzione
43
LA MEDIANA
Una prima idea è quella di scegliere quale valore tipico,
indice di tendenza centrale, quel valore che è al centro
della sequenza dei dati ordinati.
ESEMPIO: Altezze rilevate su un insieme di 15 donne
(in cm)
159, 156, 162, 154, 142, 166, 161, 163, 158, 164, 159,
164, 170, 168, 152
⇓
mettiamo i valori in ordine crescente
1o
2o 3o 4o 5o 6o 7o 8o 9o 10o 11o
142, 152, 154, 156, 158, 159, 159, 161, 162, 163, 164
12o 13o 14o 15o
↓
164, 166, 168, 170
MEDIANA
Il valore che occupa l’ottavo posto nella graduatoria è al
centro della sequenza. La mediana è cioè pari a 161 cm.
N.B.: Di solito i valori ordinati della sequenza sono indicati
con x(i). Quindi, x(1) = 142, x(2) = 152, . . ., x(15) = 170.
44
In generale, la mediana è quel valore che separa la distribuzione in due parti in modo tale che metà dei valori
sono inferiori alla mediana e metà sono superiori ad essa.
Se abbiamo un insieme di dati relativo a N unità e N
è dispari, la mediana è il valore che occupa la posizione
N +1
2
nella sequenza ordinata delle osservazioni, ossia
Me = x( N +1 )
2
Cosa facciamo se N è pari?
Esempio: Altezze relative a 8 maschi (in centimetri)
188, 178, 172, 164, 171, 188, 174, 179
riordino i valori
1o 2o 3o 4o
5o 6o 7o 8o
164, 171, 172, 174, 178, 179, 186, 188
⇑
—
45
Se ci chiediamo quale dei valori osservati ha la proprietà
di separare in due la distribuzione osserviamo che questo
non accade per nessuno di essi. Infatti, 174 cm, ad esempio, ha 4 osservazioni più grandi e solo 3 più piccole. Non
è centrale. Per il valore 178 cm, vi sono 3 osservazioni
più grandi e 4 osservazioni più piccole. Qualsiasi valore numerico compreso tra 174 cm e 178 cm ha invece la
proprietà desiderata. Si può quindi convenire di scegliere
quale valore mediano la semisomma dei due valore 174 e
178, ossia 176.
Quindi, se N è pari, la mediana è qualsiasi valore compreso tra i 2 valori che nella sequenza ordinata occupano
le posizioni
N
2
N
+1
2
e
Usualmente si pone
Me =
x( N ) + x( N +1)
2
2
2
46
Cosa fare quando i dati sono già accorpati in una tabella
di frequenza?
Se si tratta di una variabile quantitativa discreta (con
“poche” modalità) è presumibile che alcuni dei valori siano ripetuti, ossia in corrispondenza di ogni modalità vi è
una frequenza osservata.
Esempio: Numero di stanze di un campione di abitazioni
Num. Freq. Freq. Freq. ass. Freq. rel.
stanze ass. rel.
cum.
cum.
1
40
0,1
2
80
0,2
3
100 0,25
4
90 0,225
5
40
0,1
6
30 0,075
7 o più 20 0,05
40
120
220
310
350
380
400
0,1
0,3
0,55
0,775
0,875
0,95
1
⇐= Me
N = 400
La mediana è quel valore che lascia alla sua sinistra il
50% delle unità, ossia tale che
F (Me) = 0, 5
Allora, costruiamo la funzione di frequenza cumulata e
vediamo in corrispondenza di quale valore essa risulta
pari a 0,5
47
1.0
0.50
0.0
0
1
2
3
4
N. Stanze
5
6
7
La mediana è pari a 3.
Se, invece, i dati fossero tali che
1.0
0.50
0.0
0
1
2
3
4
5
6
7
N. Stanze
qualunque valore compreso tra 3 e 4 potrebbe essere la nostra mediana. Tipicamente si prende il valore intermedio
(3+4)/2=3,5.
48
Possiamo da questi grafici derivare una semplice regola per determinare la mediana per dati discreti organizzati in una tabella di frequenza
Me è la più piccola tra le modalità a cui corrisponde Fj > 0, 5.
Se per una modalità xj si ha Fj = 0, 5, allora la mediana
Me è qualunque valore compreso tra xj e xj+1 (la modalità immediatamente più grande di xj ). Ad esempio,
possiamo prendere
Me =
xj + xj+1
2
49
CALCOLO DELLA MEDIANA PER
VARIABILI (CONTINUE O DISCRETE)
RAGGRUPPATE IN CLASSI
Si tratta di determinare quel valore di X tale che il 50%
delle osservazioni risultino inferiori ad esso.
Sotto ipotesi di distribuzione uniforme all’interno delle
classi:
Classi
Freq. rel. cum.
xo ⊢ x1
F1
...
...
xj−1 ⊢ xj
Fj < 0, 5
xj ⊢ xj+1
Fj+1 > 0, 5 ⇐= CLASSE MEDIANA
...
...
xr−1 ⊢ xr
1
E’ noto che per x nella classe xj ⊢ xj+1
F (x) = Fj +
e quindi
0, 5 = Fj +
(x − xj )
× (Fj+1 − Fj )
(xj+1 − xj )
(Me − xj )
× (Fj+1 − Fj )
(xj+1 − xj )
Risolvendo la precedente equazione rispetto a Me si ottiene
(0, 5 − Fj )
×(xj+1 − xj )
Me = xj +
(Fj+1 − Fj )
(
)*
+
frazione ampiezza classe mediana
50
Esempio: Superfici delle aziende agricole (Tabella 2)
X
...
0, 5 ⊢ 1
1⊢2
...
Fj
...
0,3176
0,5154
...
Me = 1 +
⇐= CLASSE MEDIANA
(0, 5 − 0, 3176)
× (2 − 1) = 1, 92 ettari
(0, 5154 − 0, 3176)
51
F(x)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 1 2 3
5
Me
10
Superficie (ettari)
Me=1,92 ettari
52
20
PROPRIETA’ DELLA MEDIANA
Per ogni unità statistica possiamo calcolare
xi − Me
i = 1, . . . , N
ossia lo scarto dalla mediana.
La mediana è quel valore tale che
N
,
i=1
|xi − Me| = min
La somma degli scarti dalla mediana presi in valore assoluto (trascurando il segno) è la più piccola possibile. Se
invece della mediana prendessimo un valore riassuntivo
diverso, avremmo un valore più alto della somma degli
scarti assoluti.
53
LA MEDIA ARITMETICA
E’ senza dubbio l’indice di tendenza centrale più noto e
più frequentemente utilizzato.
Nel seguito verrà indicata alternativamente con i seguenti
simboli: x̄ o M.
Media aritmetica semplice (per dati in forma grezza)
x̄ =
%N
i=1 xi
N
PROPRIETA’ DELLA MEDIA
ARITMETICA
Considerando per ogni osservazione lo scarto dalla media:
xi − x̄
si ha
i = 1, . . . , N
N
,
(xi − x̄)2 = min
i=1
ovvero la somma degli scarti al quadrato dalla media ha
il valore più piccolo. Se considerassimo la stessa somma,
per gli scarti da un valore diverso da x̄ (ad esempio, Me)
otterremmo un valore più elevato.
54
Inoltre, la somma degli scarti dalla media è nulla:
%N
N
N
N
,
,
,
xi
xi − N x̄ =
xi − ̸ N i=1
(xi − x̄) =
̸N
i=1
i=1
i=1
=
N
,
i=1
xi −
N
,
xi = 0
i=1
La media attua un bilanciamento tra scarti positivi e scarti negativi. In tal senso, la media è una sorta di baricentro
della distribuzione.
55
RICHIAMI DELLE PROPRIETÀ DELLE
SOMMATORIE
N
,
axi = a
(xi + a) =
i=1
N1 ,
N2
,
xi
i=1
i=1
N
,
N
,
N
,
xi + N a
i=1
xi yj =
i=1 j=1
N1
,
i=1
56
xi
N2
,
j=1
yj
MEDIA ARITMETICA PONDERATA
Talvolta occorre tenere conto del fatto che non tutti i valori osservati dei quali si vuole calcolare la media aritmetica hanno la stessa importanza. L’esempio di maggiore
interesse è dato dal calcolo della media per dati riassunti
in una tabella di frequenza.
Distribuzione di un campione di studenti del II anno per
numero di esami sostenuti
X=Num. esami Freq. ass. Freq. rel.
0
1
2
3
4
12
24
60
12
12
0,1
0,2
0,5
0,1
0,1
TOT
N = 120
1
I dati in forma grezza sarebbero del tipo:
0, 0, 0, 0, . . . , 0, 1, 1, . . . , 1, 2, 2, . . . , 2, 3, 3, . . . , 3, 4, 4, . . . , 4
Vi sono nella sequenza 12 zeri, 24 valori pari a 1, ecc.
120
1 ,
1
x̄ =
(0 + . . . + 0 + 1 + . . . + 1 + 2 + . . . + 2 +
xi =
120 i=1
120 ( )* + ( )* + ( )* +
12 volte
24 volte
+ 3( + .)*
. . + 3+ + 4( + .)*
. . + 4+)
12 volte
=
60 volte
12 volte
1
(0 × 12 + 1 × 24 + 2 × 60 + 3 × 12 + 4 × 12)
120
57
ossia ogni singola modalità viene pesata in base al numero di volte che essa è stata osservata, la corrispondente
frequenza assoluta.
Per calcolare la media dei valori nella tabella non sarebbe
corretto considerare solo i singoli valori, ma occorre tener
conto delle frequenze. Quindi,
(0 + 1 + 2 + 3 + 4)
5
mentre
E’ SBAGLIATO
(0 × 12 + 1 × 24 + 2 × 60 + 3 × 12 + 4 × 12)
120
E’ CORRETTO
In formule,
M=
r
,
xj nj
j=1
r = Num. di modalità
N
Si ricordi che fj = nj /N , per cui si può scrivere anche
M=
r
,
xj fj
j=1
Più in generale, se per ogni osservazione xi è definito un
peso pi (i = 1, . . . , N ), la media aritmetica ponderata è
%N
xi p i
%i=1
N
i=1 pi
58
Se abbiamo i dati da una tabella di frequenza relativa
ad una variabile quantitativa raggruppata in classi e non
si dispone più dei valori originali, per calcolare la media
occorre ricorrere a qualche ipotesi semplificatrice.
Di solito si assume come valore rappresentativo di tutte le osservazioni presenti nella classe il valore centrale
della classe stessa. Si calcolano i valori
xj−1 + xj
x∗j =
, j = 1, . . . , r
2
dove xj−1, xj sono gli estremi della classe. Quindi si calcola la media, ponderata con le frequenze, dei nuovi valori
x∗j .
L’uso di x∗j come valore medio della classe è coerente con
l’ipotesi di distribuzione uniforme.
N.B.: Il valore della media calcolato in questo modo può
differire da quello calcolato sui valori originali.
59
Abbiamo introdotto due candidati al ruolo di indice di
tendenza centrale: mediana e media.
Quale preferire tra i due?
La mediana è meno influenzata da valori anomali, mentre
la media ne risente maggiormente.
Esempio: Lo studente A ha conseguito le seguenti votazioni negli esami sostenuti. Un indice di tendenza centrale può suggerire sinteticamente il grado di riuscita.
Voti: 26, 27, 28, 28, 18
Me=27
e
M=25,4
La media è molto sensibile al 18, la mediana ne è influenzata molto meno.
Se abbiamo il sospetto che fra i dati ve ne siano alcuni che sono affetti da errori, bisogna tener presente che
tali errori, se sono tali da collocare il dato al di fuori del
“normale” insieme di valori, influenzano in modo più pesante la media.
Il motivo di questo è la tendenza della media a bilanciare
valori più alti con valori bassi (ricordate che la somma
degli scarti è uguale a 0).
60
La mediana è più “robusta” rispetto a valori anomali e
quindi a possibili errori nei dati.
D’altra parte se i dati non sono soggetti ad errori, occorre considerare che la media usa una quantità maggiore di
informazioni della mediana (che dipende dalla posizione
d’ordine dei valori e meno dalla loro grandezza).
La media inoltre gode di proprietà molto buone quando viene utilizzata in ambito inferenziale (come si vedrà
più avanti).
61
LA MODA
Un altro possibile indice di tendenza centrale è la MODA. Si tratta della modalità a cui corrisponde la frequenza più elevata.
E’ l’unico indice di tendenza centrale che ha senso valutare per variabili qualitative.
Esempio:
Num. stanze Freq. ass.
moda ⇒
1
2
3
4
5
6 o più
11
49
81
86
38
20
⇐ freq. più elevata
Per variabili quantitative raggruppate in classi si identifica la classe modale non guardando alla frequenza, ma alla densità di frequenza (frequenza/ampiezza). La classe
modale è quella a cui corrisponde la densità di frequenza
più alta, ossia il rettangolo più alto dell’istogramma.
62
DISTRIBUZIONE UNIMODALE
⇑
CLASSE MODALE
DISTRIBUZIONE BIMODALE
63
LA SIMMETRIA
M ≈ Me
Distribuzione
simmetrica
Me M
M Me
Distribuzione
asimmetrica
con asimmetria
a destra
Distribuzione
asimmetrica
con asimmetria
a sinistra
Se la distribuzione è tendenzialmente simmetrica ⇒
M≈ Me
Se la distribuzione è tendenzialmente simmetrica e unimodale ⇒
M≈ Me ≈ Moda
Se la distribuzione è asimmetrica con asimmetria positiva⇒
M> Me
Se la distribuzione è asimmetrica con asimmetria negativa ⇒
M< Me
64
I QUANTILI
Il quantile α (xα ) è quel valore tale che la frequenza relativa di unità che risultano inferiori ad esso è pari ad α.
La mediana è quindi il quantile con α pari a 0,5.
Alcuni quantili notevoli sono quelli relativi a α = 0, 25,
α = 0, 5 e α = 0, 75 che corrispondono, rispettivamente,
al I, II (o mediana) e III quartile. Dividono la distribuzione in 4 parti ciascuna con frequenza relativa pari a 0,25.
Per determinare il quantile α si segue una strada analoga
a quella descritta per la mediana, cercando quel valore
che lascia alla sua sinistra l’α × 100% delle unità (in sostituzione al 50% della mediana).
Per variabili quantitative discrete riassunte in una tabella
di frequenza e non raggruppate in classi
xα = la più piccola tra le modalità distinte a cui
corrisponde Fj > α.
Se per una qualche modalità xj si ha Fj = α, allora xα è
qualunque valore compreso tra xj e xj+1 (la modalità immediatamente più grande di xj ). Ad esempio, possiamo
prendere
xj + xj+1
xα =
2
65
F(x)
0.0
α
0.5
1.0
xα
66
x
Per variabili raggruppate in classi si può procedere nel
modo seguente:
Fj+1
α
Fj
0.0
F(x)
1.0
Determinare il primo (in ordine crescente) intervallo
per cui la cumulata supera α. Quindi xα è compreso
tra gli estremi della classe individuata. Sotto l’ipotesi
di distribuzione uniforme all’interno della classe
(α − Fj )
(xj+1 − xj )
xα = xj +
(Fj+1 − Fj )
xj = estremo inferiore della classe
xj+1= estremo superiore della classe
Fj+1= frequenza relativa cumulata di xj+1
Fj =frequenza relativa cumulata di xj .
xj xα xj+1
x
67
INDICI DI DISPERSIONE
Siamo interessati a riassumere con un indice sintetico la
tendenza dei dati ad essere più o meno dispersi, più o
meno differenti l’uno dall’altro.
È ovvio che un indice di posizione preso isolatamente è
di scarso aiuto. Infatti, potremmo avere:
A
0.0
10.0
B
0.0
10.0
Le due distribuzioni A e B hanno la stessa media (e la
stessa mediana). Sintetizzare una distribuzione solo con
riferimento alla sua posizione è quindi insufficiente. Le
due distribuzioni differiscono soprattutto in quanto hanno
una differente variabilità (B è più variabile di A).
68
Come per gli indici di tendenza centrale, i candidati a misurare la dispersione (o variabilità) possono essere molti
e possono derivare da criteri diversi
• Potrei semplicemente considerare la differenza tra il
valore massimo e il valore minimo osservati (xmax −
xmin)
• o considerare le differenze tra tutti i valori osservati
• oppure considerare la dispersione delle osservazioni
attorno ad un indice di tendenza centrale.
IL CAMPO DI VARIAZIONE (“RANGE”)
campo di variazione=xmax − xmin = x(N) − x(1)
Dipende solo da due valori, che fra l’altro sono quelli
più estremi, di solito maggiormente soggetti ad errori di
misura.
LO SCARTO INTERQUARTILE
Q3=III quartile,
Q1=I quartile
SI=Q3 -Q1
Interpretazione: ci dice quanto ampio è l’intervallo nel
quale è contenuto il 50% delle osservazioni al centro della
distribuzione.
E’ poco influenzato dai valori estremi e tiene conto di
tutti i valori (anche se solo in relazione alla loro posizione
nella graduatoria ordinata).
69
LA VARIANZA
Abbiamo già introdotto gli scarti dalla media
xi − M = ri
i = 1, . . . , N
E’ ovvio che tali scarti saranno più elevati se i dati sono
più dispersi attorno alla media, ossia se c’è maggiore variabilità. Si può quindi pensare di costruire una misura
di variabilità sintetizzando l’ordine di grandezza degli ri .
Tuttavia, poiché
N
,
ri = 0
i=1
un eventuale sintesi degli ri deve prescindere dal loro segno (a valori ri > 0 corrispondono valori ri < 0 e questi
nel complesso si bilanciano).
Possiamo agire in due modi: considerando |ri | oppure
ri2, liberandoci quindi del segno e concentrandoci sugli
ordini di grandezza degli scarti (addirittura esaltando gli
scarti come nel caso ri2).
Possiamo allora calcolare la media dei valori |ri | o ri2,
ottenendo i due indici
N
N
,
,
|ri |
ri2
e
N
N
i=1
i=1
Il primo indice è detto SCARTO MEDIO ASSOLUTO.
Il secondo indice è la VARIANZA (indicata di solito
con s2 o V o Var).
Dei due indici è il secondo quello che ha più largo impiego.
70
La varianza è la media degli scarti elevati al quadrato.
Trattandosi di una media aritmetica può essere opportunamente ponderata. In particolare, è necessario usare
la ponderazione quando vogliamo calcolare la varianza a
partire da dati riassunti in una tabella di frequenza.
Esempio:
Num. Freq. Freq.
scarto
scarto2
esami ass. rel. r = (x − M)
r2
0
1
2
3
4
12
24
60
12
12
0,1
0,2
0,5
0,1
0,1
-1,9
-0,9
0,1
1,1
2,1
3,61
0,81
0,01
1,21
4,41
La media è M=1,9
Nell’intera sequenza di dati osserviamo 5 modalità distinte. Vi sono quindi 5 scarti e la media dei quadrati
degli scarti si ottiene considerando che ciascuno scarto è
osservato con la frequenza indicata. Quindi,
1
V =
(3, 61×12+0, 81×24+0, 01×60+1, 21×12+4, 41×12)
120
= 3, 61×0, 1+0, 81×0, 2+0, 01×0, 5+1, 21×0, 1+4, 41×0, 1 = 1, 09
ATTENZIONE: Per variabili raggruppate in classi gli scarti rj
si ottengono come differenza tra il valore centrale
della classe e la media:
(x +x )
rj = x∗j − M = j−12 j − M.
71
UN METODO ALTERNATIVO PER
CALCOLARE LA VARIANZA
V =
N
,
(xi − x̄)2
i=1
N
=
N
,
(x2 + x̄2 − 2xix̄)
i
i=1
N
N
N
1 , 2 ̸ N x̄2 2x̄ ,
=
x +
−
xi
N i=1 i
̸N
N i=1
N
1 , 2
=
xi + x̄2 − 2x̄2
N i=1
N
1 , 2
xi − x̄2
=
N i=1
Quindi, la varianza è pari alla differenza tra la media dei
valori al quadrato (anche nota con il nome di momento
secondo) e la media al quadrato (o momento primo al
quadrato).
In aggiunta a x̄, occorre solo calcolare il quadrato dei
singoli valori e calcolare la media di questi ultimi. Operazione più semplice della precedente.
72
LO SCARTO QUADRATICO MEDIO
Non è facile dare un significato fisico alla varianza. Il
motivo principale è che essa considera i valori degli scarti
al quadrato ed è quindi un indice espresso in una unità
di misura diversa da quella originaria (se i nostri dati riguardano altezze in cm, la varianza è misurata in
cm2). Un modo semplice per ricondurre l’indice all’unità
di misura originaria è considerare la radice quadrata.
Questa operazione conduce ad un altro indice: lo scarto
quadratico medio
√
sqm = varianza
spesso indicato con s.
L’indice è espresso con l’unità di misura della variabile
originaria; è quindi più facile interpretarlo.
Nonostante questa operazione, è più agevole interpretare
un indice come SI che non sqm. Inoltre, poiché nel calcolare la varianza abbiamo elevato al quadrato gli scarti,
questa ultima (e quindi anche sqm) risulta molto influenzata dalla presenza di valori molto alti o molto bassi. Lo
scarto interquartile è meno sensibile, più robusto ai valori
estremi.
Tuttavia, sqm (e quindi la varianza) è l’indice più importante di dispersione, soprattutto per il ruolo fondamentale che ha nell’ambito dell’inferenza statistica.
73
I DIAGRAMMI A SCATOLA (BOXPLOT)
I valori dei 3 quartili (Q1, Me, e Q3) contengono informazioni riassuntive sulla
• tendenza centrale (Me)
• dispersione (Q3-Q1)
• simmetria
Una rappresentazione grafica che sintetizzi l’intera distribuzione può essere quindi basata sui 3 indici. Il difetto
legato all’uso dei 3 indici è che non danno informazioni
sulle code della distribuzione. Queste potrebbero essere
riassunte attraverso i 2 valori estremi:
xmax = x(N) e xmin = x(1)
Il diagramma a scatola è basato sulle 5 quantità
(xmin , Q1, Me, Q3, xmax)
come di seguito riportato.
74
X
xmax
baffo
Q3
Me
Q1
baffo
xmin
1. La scatola si può pensare come il contenitore del
50% delle osservazioni che cadono nella parte centrale della distribuzione (il “grosso” della distribuzione). La lunghezza della scatola dà indicazioni sulla
dispersione.
2. La posizione della scatola dà un’idea dei valori caratteristici del fenomeno. In particolare, il segmento
che la divide è un indice di posizione.
3. La posizione del segmento rispetto agli estremi della
scatola (assieme alla lunghezza dei baffi) è un indice
della simmetria.
4. I baffi danno un’idea della lunghezza delle code.
75
Esempio: Precipitazioni nel mese di marzo (in pollici)
0,77
1,43
0,52
3,00
1,87
0,47
2,10
2,81
1,31
1,87
1,51
0,81
0,96
1,18
1,95
0,59
2,28
1,20
0,80
0,32
4,75
0,81
2,20
1,20
1,35
1,74
3,37
1,62
3,09
2,05
La mediana è tra il 15o e il 16o posto (nella graduatoria
crescente delle osservazioni), ossia tra 1,43 e 1,51.
Quindi Me=1,47 pollici.
Costruendo la funzione di frequenza relativa cumulata, si
vede che Q1=0,81 pollici e Q3=2,10 pollici.
Inoltre,
2
3
Coda destra lunga (frequenza
relativamente
alta di forti precipitazioni).
1
Asimmetria a destra.
0
precipitazioni
4
5
xmin = 0, 32 e xmax = 4, 75
76
I boxplot sono molto utili per il confronto tra distribuzioni di frequenza di due o più variabili omogenee: basterà
affiancare i relativi boxplot mantenendo la stessa scala
per l’asse delle y.
3
1
2
precipitazioni
4
5
Si supponga, ad esempio, di disporre delle osservazioni
sulle precipitazioni del mese di aprile. Volendo confrontare le distribuzioni delle precipitazioni di marzo e di aprile,
possiamo ricorre ai seguenti boxplot affiancati.
MARZO
APRILE
Dal confronto dei due boxplot possiamo concludere che
le precipitazioni di aprile sono statisticamente superiori alle precipitazioni di marzo. Infatti, qualunque sia
il quantile che si considera la distribuzione delle precipitazioni di aprile presenta un valore del quantile stesso
superiore rispetto a quello di marzo.
Questo ragionamento può essere esteso. Se il boxplot della variabile X si trova “al di sopra” del boxplot della variabile Y (per ciascun quantile), allora X è statisticamente
maggiore di Y .
77
TRASFORMAZIONI DEI DATI
I dati grezzi raccolti in una rilevazione possono essere
opportunamente trasformati, ad esempio, per adottare
un’unità di misura più idonea a rappresentare il fenomeno, o per rendere meno complicata l’analisi.
Le trasformazioni più semplici sono:
1. Cambio di origine
Si ottiene aggiungendo o togliendo una costante.
Dalla variabile X con osservazioni x1, x2, . . . , xN si
ottiene una nuova variabile Y = X + a (a ∈ IR)
con osservazioni y1 = x1 + a, y2 = x2 + a, . . . , yN =
xN + a.
Cosa succede a media e varianza in seguito ad un
cambio di origine?
M (Y ) = M (X + a) = M (X) + a
(subisce lo stesso tipo di trasformazione)
V (Y ) = V (X + a) = V (X)
(non subisce alcun cambiamento)
Esempio: X rappresenta la variabile salario lordo
mensile (in euro) osservata su un campione di 100
individui. Si sa che
M (X) = 1300 euro e V (X) = 10000.
Se tutti i 100 individui ottengono un aumento del
salario mensile pari a 100 euro, allora la variabile Y
78
che descrive il nuovo salario lordo mensile è Y =
X + 100 con
M (Y ) = M (X + 100) = 1300 + 100 = 1400 euro
V (Y ) = V (X + 100) = 10000.
2. Cambio di scala
Si ottiene moltiplicando o dividendo per una costante.
Dalla variabile X con osservazioni x1, x2, . . . , xN si
ottiene una nuova variabile Y = b · X (b ∈ IR+) con
osservazioni y1 = b · x1, y2 = b · x2, . . . , yN = b · xN .
Cosa succede a media e varianza in seguito ad un
cambio di scala?
M (Y ) = M (b · X) = b · M (X)
(subisce lo stesso tipo di trasformazione)
V (Y ) = V (b · X) = b2 · V (X)
(la costante moltiplicativa deve essere elevata al quadrato)
Esempio: Sia X la variabile definita nell’esempio
precedente. Se indichiamo con Y la variabile salario
lordo mensile in lire, allora Y = 1936, 27 · X. La
media e la varianza del salario lordo mensile dei 100
individui in lire saranno, allora,
M (Y ) = M (1936, 27 · X) = 1936, 27 · 1300 lire
V (Y ) = V (1936, 27 · X) = 1936, 272 · 10000.
79
3. Cambio di origine e di scala (trasformazione
lineare dei dati)
Combiniamo i due tipi di trasformazione appena visti.
Dalla variabile X con osservazioni x1, x2, . . . , xN si
ottiene una nuova variabile Y = a + b · X (a ∈
IR, b ∈ IR+) con osservazioni y1 = a + b · x1, y2 =
a + b · x2, . . . , yN = a + b · xN .
Cosa succede a media e varianza in seguito ad un
cambio di origine e di scala?
M (Y ) = M (a + b · X) = a + b · M (X)
(subisce lo stesso tipo di trasformazione)
V (Y ) = V (a + b · X) = b2 · V (X)
(la costante moltiplicativa deve essere elevata al quadrato e si perde la costante additiva)
LA STANDARDIZZAZIONE
La standardizzazione è un particolare tipo di trasformazione lineare (cambio sia di origine che di scala). Consiste
nel sottrarre a ciascuna osservazione di una variabile X la
media M (X) e dividere il tutto per lo scarto quadratico
medio s:
X − M (X)
Z=
s
80
Calcoliamo la media e la varianza della nuova variabile
standardizzata Z.
Si noti che la trasformazione applicata equivale ad una
trasformazione di tipo 3 con b = 1/S e a = −M (X)/S.
Allora,
'
&
M (X) 1
M (X) 1
+ X =−
+ M (X) = 0
M (Z) = M −
s
s
s
s
&
'
M (X) 1
1
V (Z) = V −
+ X = 2 V (X) = 1
s
s
s
In sintesi, una variabile standardizzata ha media 0, varianza 1 ed è adimensionale (non ha unità di misura).
Esempio: Se prendiamo le osservazioni xi (i = 1, . . . , 100)
sul salario lordo mensile (in euro) dei 100 individui e le
trasformiamo tramite
xi − 1300
i = 1, . . . , 100
zi = √
10000
otteniamo delle osservazioni adimensionali, di media nulla
e varianza unitaria.
L’utilità dell’operazione di standardizzazione risulterà più
chiara nel prosieguo delle lezioni.
81
INDICI DI DISPERSIONE RELATIVI
Abbiamo visto che lo scarto quadratico medio, come anche la varianza, è un indice di variabilità che dipende dall’unità di misura. Non possiamo pertanto utilizzare tale
indice per confrontare la variabilità di fenomeni espressi
in diverse unità di misura, come ad esempio centimetri e
metri.
In realtà lo scarto quadratico medio, come la varianza, ha
anche una altra importante limitazione: risente dell’ordine di grandezza dei dati. Non è quindi corretto confrontare tramite lo scarto quadratico medio (o la varianza) la
variabilità di due fenomeni, che pur essendo espressi nella
stessa unità di misura, hanno valori medi molto diversi,
ad esempio il peso dei bambini e il peso degli adulti, anche se espressi entrambi in kg, oppure il reddito di paesi
con diverso grado di povertà, anche se espressi nella stessa valuta.
E’ opportuno allora introdurre delle misure di variabilità
rapportate alla grandezza della variabile studiata: gli
indici di dispersione relativi. Il più noto di questi
indici è il coefficiente di variazione (CV) definito
come
s
CV =
x̄
Poiché x̄ e s hanno la stessa unità di misura, CV è un
numero puro (adimensionale).
82
Esempio: Peso dei maschi e delle femmine (in kg)
x̄M = 72, 6 kg
x̄F = 53, 3 kg
sM = 2, 6 kg
sF = 2, 1 kg
Maggiore variabilità assoluta per i maschi che per le femmine.
Tuttavia,
CVM = 0, 036
CVF = 0, 039
La variabilità percentuale del peso dei maschi è 3,6%;
delle femmine è 3,9%. Il peso dei maschi risulta meno
variabile di quello delle femmine (anche se di poco) su
scala percentuale.
83
DIPENDENZA E ASSOCIAZIONE
DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI
Sinora abbiamo considerato l’analisi di un’unica variabile
per volta. Tuttavia, le rilevazioni su un’unità statistica
sono in generale relative ad un insieme di variabili (confronto con la matrice di dati vista nella prima lezione).
Ci limiteremo a considerare il caso di due variabili.
Siano X e Y due variabili che possono essere entrambe
qualitative, entrambe quantitative, oppure una di un tipo
e una di un altro.
Distribuzioni doppie unitarie
(dati bivariati in forma grezza)
Unità
(X, Y )
1
2
...
i
...
N
(x1, y1)
(x2, y2)
...
(xi , yi)
...
(xN , yN )
Coppia di modalità osservate
su ciascuna unità statistica
In questo caso su ogni unità statistica rileviamo una coppia di modalità, quella di X e quella di Y .
Esempi:
Per ogni persona, sesso e età; per ogni azienda, settore
e fatturato; per ogni nucleo familiare, reddito e consumo
mensile.
84
Alcuni dati sul Titanic
Dopo il disastro, una commissione d’inchiesta del British
Board of Trade ha compilato una lista di tutti i 1316
passeggeri con alcune informazioni aggiuntive riguardanti: l’esito (salvato, non salvato), la classe (I,II, III) in cui
viaggiavano, il sesso, l’età, ecc..
Ci limitiamo a considerare le informazioni sull’esito e la
classe.
I dati bivariati in forma grezza saranno del tipo
Passeggero Classe
Esito
nome 1
II
salvato
nome 2
III non salvato
nome 3
I
non salvato
...
...
nome 1316 III
salvato
85
Una prima sintesi che possiamo operare consiste nel costruire una tabella del tipo
Esito
Classe
I
II III Totale
Salvato
203 118 178
Non Salvato 122 167 528
Totale
325 285 706
499
817
1316
chiamata Tabella a doppia entrata o Tabella di
contingenza.
Ci dice, ad esempio, che 203 è il numero di passeggeri
che viaggiavano in I classe e sono sopravvissuti. Analogamente, 528 è il numero di passeggeri che viaggiavano
in III classe e non sono sopravvissuti. Ci dice ancora che
499 è il numero complessivo di passeggeri che sono sopravvissuti, a prescindere dalla classe, e, similmente, che
285 è il numero di passeggeri che viaggiavano in II classe,
a prescindere dall’esito del disastro.
86
Una tabella di contingenza contiene diverse informazioni.
Parte centrale della tabella: Distribuzione di frequenza assoluta congiunta delle due variabili
Esito
Classe
I
II
III
Salvato
203 118 178
Non Salvato 122 167 528
Totale
325
285
706
Totale
499
817
1316
I bordi della tabella: Distribuzione di frequenza assoluta marginale (di una sola variabile)
Esito
Classe
I
II III
Salvato
203 118 178
Non Salvato 122 167 528
Totale
Totale
499
817
325 285 706 1316
Distribuzione marginale della variabile Esito, a prescindere dalla variabile Classe.
87
Esito
Classe
I
II
III
Salvato
203
Non Salvato 122
Totale
118
167
178
528
Totale
499
817
325 285 706 1316
Distribuzione marginale della variabile Classe, a prescindere dalla variabile Esito.
Una sola riga (o colonna): Distribuzione di frequenza assoluta di una variabile condizionata ad una modalità dell’altra variabile
Esito
Classe
I
II
III
Totale
Salvato
203 118 178
499
Non Salvato 122
Totale
325
167
528
817
285
706
1316
Distribuzione della variabile Classe condizionata alla modalità “Salvato” della variabile Esito: guardiamo alla distribuzione delle frequenze assolute della variabile Classe
limitando l’attenzione ai sopravvissuti.
88
Esito
I
Classe
II
III
118
167
178
528
499
817
325 285
706
1316
Salvato
203
Non Salvato 122
Totale
Totale
Distribuzione della variabile Esito condizionata alla modalità “II classe” della variabile Classe: guardiamo alla
distribuzione delle frequenze assolute della variabile Esito
limitando l’attenzione ai viaggiatori della II classe.
N. B.: Le distribuzioni marginali e condizionate sono
distribuzioni univariate, per le quali valgono tutte le
considerazioni fatte nella prima parte del corso.
89
STRUTTURA GENERALE DI UNA
TABELLA A DOPPIA ENTRATA
Variabile X con modalità x1, x2, . . . , xr
Variabile Y con modalità y1 , y2, . . . , ys
X
y1
y2
Y
. . . yj . . . ys Totale
x1
x2
...
xi
...
xr
n11
n21
...
ni1
...
nr1
n12
n22
...
ni2
...
nr2
...
...
...
...
...
...
n1j
n2j
...
nij
...
nrj
...
...
...
...
...
...
n1s
n2s
...
nis
...
nrs
n1·
n2·
...
ni·
...
nr·
Totale n·1 n·2 . . . n·j . . . n·s
N
Quando una o entrambe le variabili sono continue o discrete con molte modalità, le righe e/o le colonne possono
anche corrispondere alle classi di suddivisione della variabile.
90
Distribuzione di frequenza assoluta congiunta
(parte centrale della tabella)
X
y1
y2
Y
. . . yj . . . ys
x1
x2
...
xi
...
xr
n11
n21
...
ni1
...
nr1
n12
n22
...
ni2
...
nr2
...
...
...
...
...
...
n1j
n2j
...
nij
...
nrj
...
...
...
...
...
...
n1s
n2s
...
nis
...
nrs
N
nij = numero di unità con la modalità i–esima di X e
j–esima di Y = frequenza assoluta congiunta della coppia
(xi, yj ).
%r %s
i=1
j=1 nij
=N
91
Distribuzioni di frequenza assoluta marginali
(bordi della tabella)
X
Freq. ass.
marg.
x1
x2
...
xi
...
xr
n1·
n2·
...
ni·
...
nr·
Totale
N
ni· =numero di unità che hanno il valore xi della variabile
X senza tener conto del valore della Y = frequenza assoluta marginale di xi
%
ni· = sj=1 nij
Y
Freq. ass.
marg.
y1
y2
...
yj
...
ys
n·1
n·2
...
n·j
...
n·s
Totale
N
n·j =numero di unità che hanno il valore yj della variabile Y senza tener conto del valore della X= frequenza
assoluta marginale di yj
%
n·j = ri=1 nij
92
Distribuzione di frequenza assoluta di X condizionata alla modalità yj di Y (colonna j–esima
della tabella)
Si denota con X|Y = yj o X|yj
X
Freq. ass.
cond. a yj
x1
x2
...
xi
...
xr
n1j
n2j
...
nij
...
nrj
Totale
n·j
È una distribuzione univariata. Una tabella a doppia entrata contiene s distribuzioni condizionate di X.
Distribuzione di frequenza assoluta di Y condizionata alla modalità xi di X (riga i–esima della
tabella)
Si denota con Y |X = xi o Y |xi
Y
Freq. ass.
cond. a xi
y1
y2
...
yj
...
ys
ni1
ni2
...
nij
...
nis
Totale
ni·
È una distribuzione univariata. Una tabella a doppia
entrata contiene r distribuzioni condizionate di Y .
93
DISTRIBUZIONI DI FREQUENZA
RELATIVA
X
y1
y2
Y
. . . yj . . . ys ToT
x1
x2
...
xi
...
xr
f11
f21
...
fi1
...
fr1
f12
f22
...
fi2
...
fr2
...
...
...
...
...
...
f1j
f2j
...
fij
...
frj
...
...
...
...
...
...
f1s
f2s
...
fis
...
frs
f1·
f2·
...
fi·
...
fr·
frequenze
⇐ relative
marginali
di X
ToT f·1 f·2 . . . f·j . . . f·s 1
⇑
frequenze relative marginali di Y
n
fij =frequenza relativa congiunta della coppia (xi, yj )= Nij
%r %s
i=1
j=1 fij = 1
%
fi· =frequenza relativa marginale di xi = nNi· = sj=1 fij
%
n
f·j =frequenza relativa marginale di yj = N·j = ri=1 fij
Esempio TITANIC
Esito
Classe
I
II III
Salvato
0,15 0,09 0,14
Non Salvato 0,09 0,13 0,40
Totale
0,25 0,22 0,54
94
Totale
0,38
0,62
1
Distribuzione di frequenza relativa di X condizionata alla modalità yj di Y
X
Freq. ass.
cond. a yj
X
Freq. rel.
cond. a yj
x1
x2
...
xi
...
xr
n1j
n2j
...
nij
...
nrj
x1
x2
...
xi
...
xr
n1j /n·j
n2j /n·j
...
nij /n·j
...
nrj /n·j
Totale
n·j
Totale
1
ATTENZIONE: Le frequenze relative congiunte fij
NON sono le frequenze relative condizionate!!
Si noti che nij /n·j = fij /f·j .
Esempio TITANIC
Classe
Esito
I
II III
Salvato
203 118 178
Non Salvato 122 167 528
Totale
325 285 706
95
Esito
Classe
I
II III
Salvato
0,62 0,41 0,25
Non Salvato 0,38 0,59 0,75
Totale
1
1
1
Distribuzione di frequenza relativa di Y condizionata alla modalità xi di X
Y
Freq. ass.
cond. a xi
Y
Freq. rel.
cond. a xi
y1
y2
...
yj
...
ys
ni1
ni2
...
nij
...
nis
y1
y2
...
yj
...
ys
ni1/ni·
ni2/ni·
...
nij /ni·
...
nis /ni·
Totale
ni·
Totale
1
Si noti che nij /ni· = fij /fi·
Esempio TITANIC
Esito
Classe
I
II III Totale
Salvato
203 118 178
Non Salvato 122 167 528
Esito
Classe
I
II III
Salvato
0,41 0,24 0,36
Non Salvato 0,15 0,20 0,65
96
499
817
Totale
1
1
Medie e varianze marginali e condizionate
Si consideri il caso in cui X è quantitativa. Poiché le distribuzioni marginali e condizionate di X sono univariate,
possiamo calcolare medie e varianze marginali e condizionate.
Marginali
%
%
M (X) = N1 ri=1 xi · ni· = ri=1 xi · fi·
%
V (X) = N1 ri=1 x2i · ni· − M 2(X)
Condizionate
%
M (X|Y = yj ) = n1·j ri=1 xinij
%
V (X|Y = yj ) = n1·j ri=1 xinij − M 2(X|Y = yj )
calcolabili per ogni j = 1, . . . , s
Analogo ragionamento per Y , se è quantitativa.
Esempio
Voto all’esame
Sesso 26 28
30
Totale
M
4 2
4
10
F
1 8
1
10
Totale 5 10
5
20
M(Voto)= 26·5+28·10+30·5
=28
20
2
2
2
V(Voto)= 26 ·5+2820·10+30 ·5 − 282=2
M(Voto|Sesso=M)= 26·4+28·2+30·4
= 28
10
26·1+28·8+30·1
= 28
M(Voto|Sesso=F)=
10
2
2
2
V(Voto|Sesso=M)= 26 ·4+2810·2+30 ·4 − 282 = 3, 2
2
2
2
V(Voto|Sesso=F)= 26 ·1+2810·8+30 ·1 − 282 = 0, 8
97
DIPENDENZA E INDIPENDENZA
STATISTICA (IN DISTRIBUZIONE) TRA
DUE VARIABILI
Spesso due caratteri vengono osservati insieme per vedere
se vi è tra loro dipendenza. Si vuole, allora, usare i dati
della tabella a doppia entrata per stabilire se tra X e Y
c’è dipendenza o se sono tra loro indipendenti.
Riprendiamo l’esempio del TITANIC.
Le distribuzioni di frequenza relativa della variabile Esito
condizionate alle tre modalità della variabile Classe sono:
Classe
Esito
I
II III freq. rel. marg. di Esito
Salvato
0,62 0,41 0,25
0,38
0,62
Non Salvato 0,38 0,59 0,75
Totale
1
1
1
È evidente che l’Esito dipende dalla Classe. Si noti, infatti, che in I classe si è salvato il 62% dei passeggeri,
mentre in III classe solo il 25% dei passeggeri è sopravvissuto (viene da pensare che i viaggiatori della I classe
abbiano avuto un trattamento preferenziale).
N.B.: Il confronto tra le tre distribuzioni condizionate
ha senso solo in termini di frequenze relative; non
ha senso in termini di frequenze assolute, poiché le marginali della Classe sono diverse. Ad esempio, è sbagliato
dire che si sono salvate più persone nella III classe rispetto
alla II classe (178 contro 118), dato che 178 rappresenta
solo il 25% del numero complessivo di passeggeri della
98
III classe, mentre 118 rappresenta ben il 41% del numero
complessivo di passeggeri della II classe.
Se l’Esito e la Classe fossero indipendenti, ci aspetteremmo di osservare delle distribuzioni di frequenza relativa
condizionate fatte in questo modo:
Classe
Esito
I
II III freq. rel. marg. di Esito
Salvato
0,38 0,38 0,38
0,38
0,62
Non Salvato 0,62 0,62 0,62
Totale
1
1
1
ossia
1. tutte uguali tra loro
2. uguali alla distribuzione di frequenza relativa marginale di Esito, dato che questa non tiene conto della
suddivisione in classi.
Questo ragionamento intuitivo si formalizza nella definizione di indipendenza statistica (o in distribuzione).
DEFINIZIONE: X è statisticamente indipendente da Y se le s distribuzioni di frequenza relativa
di X condizionate alle modalità di Y sono uguali alla
distribuzione di frequenza relativa marginale di X:
nij ni·
=
per ogni i = 1, . . . , r e per ogni j = 1, . . . , s
n·j
N
99
L’indipendenza è un concetto simmetrico. Vale, infatti, la seguente proposizione.
PROPOSIZIONE: Se X è indipendente da Y , allora
Y è indipendente da X e viceversa.
DIMOSTRAZIONE:
X indipendente da Y equivale a
nij ni·
=
i = 1, . . . , r j = 1, . . . , s
n·j
N
da cui
nij n·j
=
i = 1, . . . , r j = 1, . . . , s
ni·
N
ossia le r distribuzioni di frequenza relativa di Y condizionate alle modalità di X sono tutte uguali alla distribuzione di frequenza relativa marginale di Y e quindi Y
è statisticamente indipendente da X.
Analogamente, Y indipendente da X equivale a
nij n·j
=
i = 1, . . . , r j = 1, . . . , s
ni·
N
da cui
nij ni·
=
i = 1, . . . , r j = 1, . . . , s
n·j
N
ossia le s distribuzioni di frequenza relativa di X condizionate alle modalità di Y sono tutte uguali alla distribuzione di frequenza relativa marginale di X e quindi X
è statisticamente indipendente da Y .
In base a questa proposizione possiamo tranquillamente parlare di indipendenza di X e Y senza specificare la
“direzione”.
100
In sintesi, X e Y sono indipendenti se le distribuzioni di
frequenza relativa di X|Y sono uguali alla distribuzione
di frequenza relativa marginale di X e se le distribuzioni
di frequenza relativa di Y |X sono uguali alla distribuzione di frequenza relativa marginale di Y .
Dalla definizione di indipendenza, dire che X e Y sono
statisticamente indipendenti equivale a
ni· × n·j
N
ossia ogni frequenza assoluta congiunta nij è pari al prodotto del totale della riga i e il totale della colonna j
diviso per il numero complessivo di unità.
nij =
101
DIPENDENZA
Abbiamo visto cosa significa indipendenza tra X e Y .
Se X e Y non sono indipendenti, allora vi è dipendenza.
Casi estremi di dipendenza:
MASSIMA ASSOCIAZIONE (DIPENDENZA
PERFETTA): Y dipende perfettamente da X se in
corrispondenza ad ogni modalità di X si verifica una sola
modalità di Y (ossia, per ogni i si ha un solo j tale che
nij ̸= 0).
INTERDIPENDENZA PERFETTA: se ciascuna
variabile dipende perfettamente dall’altra.
Esempio
X
x1
x2
x3
x4
y1
0
13
0
0
Y
y2
4
0
15
0
y3
0
0
0
7
Y dipende perfettamente da X, ma X non dipende perfettamente da Y .
L’interdipendenza perfetta è possibile solo in tabelle ....
La dipendenza perfetta è rara, si osserva esclusivamente
quando tra le due variabili esiste una dipendenza deterministica (una delle due variabile è funzione dell’altra).
102
MISURA DI ASSOCIAZIONE IN UNA
TABELLA A DOPPIA ENTRATA:
L’INDICE CHI–QUADRATO
Come valutiamo se una tabella doppia osservata è vicina
o lontana dalla situazione di indipendenza?
Possiamo calcolare i valori teorici delle frequenze assolute
congiunte che si avrebbero nel caso in cui X e Y fossero
indipendenti:
ni·n·j
n∗ij =
N
e confrontarli con le frequenze assolute congiunte effettivamente osservate nij . Se rileviamo delle differenze notevoli tra le due frequenze abbiamo l’indicazione che tra le
due variabili non c’è indipendenza.
Potremmo pensare di costruire le differenze
cij = nij − n∗ij
e ottenere una misura dell’associazione nella tabella osservata dall’indice
r ,
s
,
cij
i=1 j=1
Il problema è che questo indice è sempre identicamente
uguale a 0, dato che
r ,
r ,
s
s
,
,
nij = N =
n∗ij
i=1 j=1
Infatti,
r ,
s
,
i=1 j=1
n∗ij =
i=1 j=1
r ,
s
,
ni· n·j
i=1 j=1
N
s
r
1 , ,
N2
=
=N
n·j =
ni·
N i=1
N
j=1
103
Possiamo ovviare a questo problema usando c2ij al posto
di cij .
Il principale indice utilizzato per misurare l’associazione
in una tabella è l’indice chi–quadrato:
r ,
s
s
r ,
,
,
(nij − n∗ij )2
c2ij
χ =
∗ =
n
n∗ij
i=1 j=1
i=1 j=1 ij
2
Caratteristiche dell’indice chi–quadrato
1. χ2 ≥ 0
2. χ2 = 0 nel caso di indipendenza tra X e Y
3. χ2 è tanto più grande quanto più ci allontaniamo dal
caso di indipendenza
4. può essere calcolato anche attraverso la formula
r ,
s
,
n2ij
− 1)
χ = N(
n
n
i=1 j=1 i· ·j
2
5. è un indice di dipendenza simmetrico: non tiene
conto della direzione della dipendenza (causa–effetto)
e rimane invariato se scambiamo il ruolo di X e Y .
104
Il valore dell’indice chi–quadrato dipende anche da N e
dalla dimensione della tabella (r e s). Per facilitarne
l’interpretazione, si ricorre spesso a indici normalizzati
(compresi tra 0 e 1) derivati da χ2. In particolare, è
frequente l’uso di
√
χ2
e
V = T
T =
N · min(r − 1, s − 1)
Sono entrambi compresi tra 0 e 1. Entrambi sono pari
a 1 in caso di interdipendenza perfetta. T tende a
sottovalutare il livello di dipendenza, questo problema è
un pò attenuato con l’uso di V .
Esempi di calcolo dell’indice chi–quadrato
1. IL TITINIC
Classe
I
II III Totale
Esito
Salvato
203 118 178
Non Salvato 122 167 528
Totale
325 285 706
499
817
1316
La tabella delle frequenze teoriche sotto l’ipotesi di indipendenza, n∗ij = ni· n·j /N , è
Esito
Classe
II
I
III
Totale
Salvato
499·325
1316
= 123, 2 108,1
499·706
1316
= 267, 7
499
Non Salvato
817·325
1316
= 201, 8 176,9
817·706
1316
= 438, 3
817
Totale
325
285
105
706
1316
Il confronto tra frequenze teoriche e frequenze osservate è
istruttivo. Ad esempio, ci indica che, senza la preferenza
accordata ai passeggeri di I classe, si sarebbero salvati un
centinaio di passeggeri di III classe in più.
(203 − 123, 2)2 (118 − 108, 1)2
(528 − 438, 3)2
χ =
+
+. . .+
= 133, 05
123, 2
108, 1
438, 3
133, 05
V =
= 0, 32
1316 · min(3 − 1, 2 − 1)
2
che indica un certo grado di associazione tra Classe ed
Esito.
2. ATTEGGIAMENTO RIGUARDO L’IMMIGRAZIONE DI EXTRA–COMUNITARI
Area di provenienza
Atteggiamento Nord Centro Sud Isole Totale
Favorevoli
Contrari
80
286
103
187
182
238
16
74
381
785
Totale
366
290
420
90
1166
Costruiamo le 4 distribuzioni di frequenza relativa dell’Atteggiamento condizionate all’Area di provenienza
106
Area di provenienza
freq. rel. marg.
Atteggiamento Nord Centro Sud Isole di Atteggiamento
Favorevoli
Contrari
0,219
0,781
0,355
0,645
Totale
1
1
0,433 0,178
0,567 0,822
1
1
0,327
0,633
1
Da cui notiamo, ad esempio, che la percentuale di favorevoli al Sud è superiore sia rispetto al Nord che rispetto
al Centro. Questo ci fa pensare che ci sia una qualche
forma di associazione tra le due variabili.
Ricordiamo che, se le due variabili fossero indipendenti,
le distribuzioni di frequenza relativa dell’Atteggiamento
condizionate all’Area di provenienza dovrebbero essere
uguali alla distribuzione di frequenza relativa marginale
dell’Atteggiamento, ossia, si dovrebbe avere una tabella
del tipo
Area di provenienza
freq. rel. marg.
Atteggiamento Nord Centro Sud Isole di Atteggiamento
Favorevoli
Contrari
0,327
0,633
0,327
0,633
Totale
1
1
0,327 0,327
0,633 0,633
1
1
0,327
0,633
1
Per valutare il grado di associazione all’interno della tabella osservata, costruiamo l’indice chi–quadrato, partendo dalla tabella delle frequenze teoriche sotto l’ipotesi di
indipendenza che risulta essere
107
Area di provenienza
Atteggiamento Nord Centro Sud Isole Totale
Favorevoli
Contrari
119,6
246,4
94,8
195,2
Totale
366
290
137,2 29,4
282,8 60,6
420
90
381
785
1166
Possiamo calcolare l’indice chi–quadrato:
(80 − 119, 6)2 (103 − 94, 8)2
(74 − 60, 6)2
χ =
+
+. . .+
= 51, 3
199, 6
94, 8
60, 6
2
e da questo
V =
-
51, 3
= 0, 22
1166 · min(2 − 1, 4 − 1)
che indica una forma di associazione tra le due variabili,
seppure non molto forte.
108
Talvolta sono possibili associazioni spurie, ossia la presenza di un legame statistico empirico tra due variabili
logicamente indipendenti. Spesso sono dovute ad una
variabile latente.
Esempio
-R=reddito basso,
+R=reddito medio-alto
<165=statura< 165 cm,
≥165=statura ≥ 165cm
Maschi
-R +R
<165 9 61
≥ 165 42 293
V=0,004
Femmine
-R +R
<165 36 34
≥ 165 13 12
V=0,005
Totale
-R +R
<165 45 95
≥ 165 55 305
V=0,19
Si provi a calcolare l’indice chi–quadrato tra Sesso e Reddito.
109
Esercizi
Si usino i dati del TITANIC.
1. Potrebbe venire il dubbio che la preferenza accordata
alla I classe sia dipesa dal fatto che in I classe viaggiava
un numero più elevato di donne e di bambini (associazione spuria) e quindi che quello che abbiamo osservato
era semplicemente una manifestazione di una “politica di
salvataggio” del tipo “prima le donne e i bambini”.
La seguente tabella si riferisce solo alle donne e ai bimbi.
Esito
I
Classe
II III
Salvato
146 105 103
Non Salvato 4 13 141
Lo studenti commenti questa nuova tabella e calcoli
• la distribuzione di frequenza relativa congiunta;
• le distribuzioni di frequenza relativa marginale di entrambe le variabili;
• le distribuzioni di frequenza relativa dell’Esito condizionate alla Classe;
• l’indice chi–quadrato.
2. Lo studente ricostruisca dai dati forniti la distribuzione
congiunta di Esito e Classe riferita solo ai maschi e la
analizzi con le tecniche studiate.
110
DIPENDENZA DI UNA VARIABILE
QUANTITATIVA DA UNA QUALITATIVA
Spesso si osserva una variabile quantitativa Y classificata
secondo le modalità di una variabile qualitativa X e l’interesse principale riguarda l’analisi del comportamento di
quella quantitativa.
Più precisamente, si vuole verificare se l’analisi di Y può
essere approfondita quando, invece di analizzare l’intero
insieme delle sue osservazioni indistintamente, si considerano queste suddivise in classi identificate dalle modalità
della variabile qualitativa.
Ad esempio, la distribuzione del reddito pro–capite (Y )
per provincia italiana (X), oppure il peso (Y ) per uomini/donne (X).
In questi contesti, i dati sono organizzati per gruppi distinti:
X
x1
y11
...
...
...
...
yn1 ,1
x2
x3
y12 y13
...
...
...
...
...
...
...
...
...
...
... y
n3 ,3
yn2 ,3
111
...
xr
. . . y1r
. . . ...
. . . ...
. . . ...
. . . ...
. . . ...
. . . ynr ,r
Si noti che le y della tabella non sono frequenze, ma le
osservazioni della variabile.
Ciascuna colonna della tabella ci dà la distribuzione di Y
condizionata a ciascuna delle modalità di X: Y |X = xi.
Per verificare quanto è utile la suddivisione in gruppi,
bisogna sapere se queste distribuzioni condizionate sono
simili oppore no. Vogliamo quindi rappresentare in modo
sintentico ciascuna distribuzione Y |X = xi.
Due delle soluzioni possibili sono:
1. Costruzione di una tabella a doppia entrata
Possiamo raggruppare la variabile Y in s classi. In
tal modo, otteniamo una tabella a doppia entrata
per la quale possiamo verificare se c’è indipendenza
guardando al valore dell’indice chi–quadrato.
La tabella avrà la seguente forma
Y
y1 — y2 . . . ys−1 — ys Totale
X
y0 — y1
x1
x2
...
xr
n11
n21
...
nr1
n12
n22
...
nr2
...
...
...
...
n1s
n2s
...
nrs
n1·
n2·
...
nr·
Totale
n·1
n·2
...
n·s
N
112
2. Rappresentazione grafica di ciascuna distribuzione condizionata
Possiamo rappresentare graficamente ciascuna distribuzione condizionata Y |X = xi, ad esempio tramite
istogramma, e confrontare i diversi istogrammi. Se
tutti gli istogrammi sono uguali, allora le distribuzioni condizionate sono uguali e non vi è dipendenza
statistica tra Y e X.
Tuttavia, il confronto degli istogrammi potrebbe essere laborioso e di difficile interpretazione. Può risultare più agevole un confronto dei boxplot. Ancora, se
tutti i boxplot sono uguali, Y e X sono indipendenti.
113
25
20
15
Numero di insetti
10
5
0
A
B
C
D
E
F
Tipo di Spray
Esempio di confronto mediante boxplot: distribuzione del numero di insetti rilevati su unità agricole trattate con 6 differenti tipi di insetticida (A, B, C, D,
E e F). Non solo dal confonto possiamo concludere
che c’è dipendenza del numero di insetti Y dal tipo
di insetticida adottato X, ma possiamo anche notare
che alcuni insetticidi (C, D e E) hanno un’efficacia
nettamente superiore agli altri.
114
ANALISI DELL’INTERDIPENDENZA DI
DUE VARIABILI QUANTITATIVE
Siamo interessati a studiare la relazione tra due variabili
quantitative X e Y .
Supponiamo che i dati relativi alla coppia di variabili
(Y, X) abbia la seguente struttura:
Y
y1
y2
y3
...
yN
X
x1
x2
x3
...
xN
Possiamo rappresentare queste osservazioni attraverso un
diagramma di dispersione di Y rispetto a X, ossia
attraverso il grafico dei punti (xi, yi ), i = 1, . . . , N .
115
Esempio
Y = consumi delle famiglie (dal 1970 al 1980)
X=reddito nazionale netto
in centinaia di migliaia di miliardi di lire
Y
X
35,82
48,60
43,92
59,44
64,51
66,45
106,82
123,27
159,81
178,91
210,36
51,91
56,90
63,12
75,21
91,23
103,92
128,73
155,01
182,77
225,17
278,72
50
100
Consumo
150
200
Diagramma di dispersione
50
100
150
Reddito
116
200
250
ANALISI DELL’INTERDIPENDENZA TRA
DUE VARIABILI QUANTITATIVE: LA
COVARIANZA E IL COEFFICIENTE DI
CORRELAZIONE LINEARE
Se l’interesse è valutare l’associazione tra X e Y , senza ipotizzare nessun ordine causale tra le stesse, possiamo ricorrere ad una misura di interdipendenza chiamata COVARIANZA di X e Y . E’ definita nel modo
seguente:
COV(X, Y ) = M [(X − M (X))(Y − M (Y ))]
Poste x̄ e ȳ le due medie
COV(X, Y ) = M [(X − x̄)(Y − ȳ)]
ossia la media dei prodotti degli scarti dalle medie.
Se i dati sono in forma grezza
Y
y1
y2
..
yi
..
yN
X
x1
x2
..
xi
..
xN
la covarianza è
n
1 ,
(xi − x̄)(yi − ȳ)
COV(X, Y ) =
N i=1
117
CHE COSA MISURA LA COVARIANZA?
+
−
xi − M(X)
yi − M(Y)
M(Y)
−
+
M(X)
118
La covarianza può essere positiva o negativa a seconda
che prevalgano coppie di scarti con segni concordi o discordi, rispettivamente.
Una prevalenza di punti nei quadranti contrassegnati con
+ condurrà a una covarianza positiva. Una prevalenza di
punti nei quadranti contrassegnati con - condurrà a una
covarianza negativa.
La covarianza è tanto maggiore quanto maggiore è la tendenza dei valori della Y a crescere al crescere dei valori
della X e viceversa (covarianza positiva). E’ tanto minore quanto maggiore è la tendenza dei valori della Y a
diminuire al crescere dei valori della X e viceversa (covarianza negativa).
La covarianza è una misura di dipendenza lineare tra
X e Y : è tanto maggiore in valore assoluto quanto maggiore è la tendenza dei punti (xi, yi ) a disporsi lungo una
retta (la covarianza è positiva se la retta ha inclinazione
positiva, è negativa se la retta ha inclinazione negativa).
La covarianza è nulla se non c’è dipendenza lineare tra
X e Y.
119
COV(X,Y)<0
COV(X,Y)>0
Y
Y
X
X
COV(X,Y)=0
COV(X,Y)=0
Y
M(Y)
M(X)
X
120
50
M(Y)
Consumo
150
200
Riprendiamo l’esempio Reddito–Consumo in Italia dal
1970 al 1980.
50
100
M(X) 150
200
250
Reddito
Per la disposizione dei punti, possiamo subito concludere che la covarianza tra Reddito e Consumo è positiva.
Inoltre, i punti presentano una forte tendenza a disporsi lungo una retta con inclinazione positiva; pertanto, la
covarianza assumerà un valore piuttosto elevato.
121
Si può verificare che
COV(X, Y ) = M (X·Y )−M (X)·M (Y ) = M (XY )−x̄ȳ
ossia, è la media del prodotto meno il prodotto delle
medie. Per dimostrare il risultato dobbiamo sapere che
M (X + Y ) = M (X) + M (Y )
M (X + Y + Z) = M (X) + M (Y ) + M (Z)
ecc..
Allora,
COV(X, Y ) =
=
=
=
=
M [(X − x̄)(Y − ȳ)]
M [XY − x̄Y − X ȳ + x̄ȳ]
M (XY ) − x̄M (Y ) − M (X)ȳ + x̄ȳ
M (XY ) − x̄ȳ − x̄ȳ + x̄ȳ
M (XY ) − x̄ȳ
Nel caso di una distribuzione bivariata in forma grezza,
il calcolo della covarianza è
N
1 ,
COV(X, Y ) =
xiyi − x̄ȳ.
N i=1
Nel caso di una distribuzione bivariata riassunta in una
tabella a doppia entrata, il calcolo diviene
r
s
1 ,,
COV(X, Y ) =
xiyj nij − x̄ȳ.
N i=1 j=1
122
Si noti che se X e Y sono indipendenti, allora
nij =
ni· × n·j
N
e la covarianza diventa
s
r
1 ,,
COV(X, Y ) =
xiyj ni·n·j − x̄ȳ
N 2 i=1 j=1
⎞
/⎛
.
r
s
1 ,
1 ,
xini· ⎝
yj n·j ⎠ − x̄ȳ = 0
=
N i=1
N j=1
In sintesi, se X e Y sono indipendenti, allora COV(X, Y ) =
0, ma non vale il viceversa, ossia se COV(X, Y ) = 0
non necessariamente X e Y sono indipendenti.
Quando COV(X, Y ) = 0 si dice che X e Y sono INCORRELATE.
123
LA CORRELAZIONE
L’ordine di grandezza della covarianza dipende dall’unità
di misura con cui sono espresse le variabili. Per eliminare
questo effetto possiamo standardizzare le due variabili:
X∗ :
X − x̄
sX
Y∗ :
Y − ȳ
sY
Il coefficiente di correlazione lineare r è pari alla
covarianza calcolata sulle variabili standardizzate X ∗ e
Y ∗.
Piché M (X ∗) = 0 e M (Y ∗) = 0
'
&
(Y
−
ȳ)
(X
−
x̄)
=
·
r = M (X ∗Y ∗) = M
sX
sY
&
'
(X − x̄) · (Y − ȳ)
COV(X, Y )
=M
=
sX sY
sX sY
COV(X, Y )
=4
V (X)V (Y )
Calcolo esplicito:
Per una distribuzione bivariata in forma grezza:
%N
1
xiyi − x̄ȳ
r = N i=1
sX sY
Per una distribuzione bivariata riassunta in una tabella
a doppia entrata:
%r %s
1
j=1 xi yj nij − x̄ȳ
i=1
N
r=
sX sY
124
Si dimostra che
−1 ≤ r ≤ 1
r = −1 oppure +1 dipendenza lineare perfetta
Con r = −1 i punti si dispongono perfettamente lungo
una retta con inclinazione negativa.
Con r = +1 i punti si dispongono perfettamente lungo
una retta con inclinazione positiva.
r = 0 se e solo se COV(X, Y )=0 nessuna dipendenza
lineare (le variabili sono incorrelate).
Se X e Y sono indipendenti, allora COV(X, Y )=0 e r =
0, ma se COV(X, Y )=0 e r = 0 non necessariamente X
e Y sono indipendenti.
125
r=0.4
r=0
r=0.6
r=0.8
r=0.9
r=0.95
126
r=−0.3
r=−0.5
r=−0.9
r=−0.7
r=−0.99
r=−0.95
127
Esempio
I seguenti dati rappresentano il consumo medio di burro
(in grammi per persona per settimana) e il prezzo medio del burro (in euro per 10 kilogrammi) in 10 anni
consecutivi.
Consumo Prezzo
98,7
100,4
102,9
108,6
116,5
122,8
115,7
115,7
106,6
116,2
33,0
31,5
28,8
25,9
23,7
21,9
22,1
24,2
24,9
21,6
1. Si rappresentino graficamente i dati della tabella e si
commenti.
2. Si calcoli il coefficiente di correlazione tra le due variabili considerate.
128
Soluzione
110
105
100
Consumo
115
120
1. Uno strumento grafico adatto per rappresentare i dati
della tabella è il diagramma di dispersione. La teoria
economica suggerisce di studiare il consumo in funzione del prezzo, pertanto nelle ascisse viene messo
il prezzo e nelle ordinate il consumo. Il grafico indica un aumento del consumo al diminuire del prezzo.
Più precisamente, pare esserci una forte dipendenza
lineare di segno negativo tra le due variabii.
22
24
26
28
Prezzo
129
30
32
2. Indichiamo con P la variabile prezzo e con C la variabile consumo. Gli ingredienti necessari per calcolare
il coefficiente di correlazione tra le due variabili sono:
M(P), M(C), M(C·P), M(C2) e M(P2).
98.7 + 100.4 + . . . + 116.2
= 110, 41 grammi
10
33.0 + 31.5 + . . . + 21.6
= 25, 76 euro
M(P) =
10
98.7 · 33.0 + 100.4 · 31.5 + . . . + 116.2 · 21.6
=
M(P·C) =
10
= 2816, 75
33.02 + 31.52 + . . . + 21.62
2
M(P ) =
= 678, 34
10
98.72 + 100.42 + . . . + 116.22
2
= 12249, 53
M(C ) =
10
Da cui,
M(C) =
V(P) = 678, 34 − 25, 762 = 14, 76
e
V(C) = 12249, 53 − 110, 412 = 59, 16
Cov(C, P ) = 2816, 75 − 25, 76 · 110, 41 = −27, 41
Segue che il coefficiente di correlazione r è
Cov(C, P )
r=4
= −0, 928
V(P) · V(C)
Il valore ottenuto conferma quanto già rilevato dal
grafico di dispersione, ossia una forte dipendenza lineare di segno negativo tra le due variabili.
130
Esempio di calcolo del coefficiente di
correlazione in una tabella a doppia entrata
Data la seguente distribuzione doppia ottenuta rilevando
per 100 famiglie con casa di proprietà il valore di questa
in migliaia di euro (Y ) e il reddito familiare annuo in
migliaia di euro (X):
Valore della casa
Reddito familiare
(in migliaia)
Totale
(in migliaia)
100–300 300–500
30–50
50–70
70–100
15
20
20
0
32
13
15
52
33
Totale
55
45
100
si calcoli il coefficiente di correlazione r.
Senza fare calcoli, ci aspettiamo che al crescere del reddito
familiare cresca anche il valore della casa e quindi un
coefficiente di correlazione (e una covarianza) di segno
positivo.
Calcoliamo innanzitutto la covarianza:
40 · 15 + 60 · 52 + 85 · 33
M (X) = x̄ =
= 65, 25
100
200 · 55 + 400 · 45
M (Y ) = ȳ =
= 290
100
40 · 200 · 15 + 40 · 400 · 0 + 60 · 200 · 20
+
100
60 · 400 · 32 + 85 · 200 · 20 + 85 · 400 · 13
+
= 19100
100
M (X · Y ) =
131
COV(X, Y ) = M (X · Y ) − M (X) · M (Y ) =
= 19100 − 290 · 65, 25 = 177, 5
Per il coefficiente di correlazione, in aggiunta, abbiamo
bisogno di V (X) e V (Y ):
402 · 15 + 602 · 52 + 852 · 33
V (X) =
− 65, 252 = 238, 69
100
2002 · 55 + 4002 · 45
− 2902 = 9900
V (Y ) =
100
COV(X, Y )
r=4
= 0, 115
V (X)V (Y )
che conferma le considerazioni iniziali.
132