Statistica economica
Capitolo 6
Prof. Alessandra Michelangeli
a.a. 2013-2014
Argomenti della sesta settimana di lezione
Analisi dell’associazione tra due caratteri
1)
2)
3)
4)
5)
Distribuzione unitaria doppia
Distribuzione doppia di frequenze
Distribuzioni marginali
Distribuzione condizionate
Rappresentazione grafica della distribuzione di due
caratteri: grafico di dispersione, stereogramma
6) Analisi dell’associazione tra due caratteri: dipendenza,
indipendenza, interdipendenza
7) Misura dell’interdipendenza tra due caratteri
quantitativi
Statistica economica a.a. 2013/2014
2
• Due caratteri statistici considerati congiuntamente
• Rappresentazione tabellare e grafica
• Tra i due caratteri ci può essere una relazione di
• dipendenza,
• interdipendenza,
• indipendenza statistica
• Lo studio di queste relazioni viene chiamato analisi
dell’associazione
• Focus sui caratteri quantitativi
3
Statistica economica a.a. 2013/2014
Distribuzione unitaria doppia
• Una distribuzione unitaria doppia elenca le modalità dei due
caratteri osservati unità per unità.
Tasso di inattività e di disoccupazione della popolazione in età 15-64 anni per regione
Statistica economica a.a. 2013/2014
Regione
(unità statistica)
Tasso di inattività
(carattere statistico X )
Tasso di disoccupazione
(carattere statistico Y )
Piemonte
Valle D'Aosta
Lombardia
Liguria
Trentino-Alto Adige
Veneto
Friuli-Venezia Giulia
Emilia Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
31,2
29,5
31
32,5
29
31,6
32,5
28,4
32
32,7
32,4
34,7
39,1
44,1
53,6
48,6
45,8
52,1
49,9
40,5
7,6
4,4
6,5
5,6
3,5
5,8
5,7
5,7
6,1
6,6
5,7
9,3
8,8
8,4
14
13,5
13
11,9
14,7
14,1
anno 2010: fonte: ISTAT
4
Esempio di
distribuzione
unitaria doppia
Statistica economica
a.a. 2013/2014
Valore
Città
aggiunto
13
Agrigento
18
Alessandria
20
Ancona
22
Aosta
19
Arezzo
16
Ascoli P.
18
Asti
15
Avellino
15
Bari
20
Belluno
13
Benevento
19
Bergamo
21
Biella
24
Bologna
21
Bolzano
19
Brescia
12
Brindisi
19
Cagliari
13
Caltanissetta
15
Campobasso
15
Caserta
13
Catania
14
Catanzaro
15
Chieti
20
Como
16
Cosenza
20
Cremona
12
Crotone
19
Cuneo
13
Enna
19
Ferrara
22
Firenze
12
Foggia
19
Forli
16
Frosinone
Valore
Disoccupaz. Città
aggiunto
24
20
Genova
6
20
Gorizia
6
18
Grosseto
6
18
Imperia
5
15
Isernia
8
16
L'Aquila
8
19
La Spezia
18
15
Latina
19
14
Lecce
3
20
Lecco
20
18
Livorno
4
20
Lodi
6
19
Lucca
4
19
Macerata
3
21
Mantova
5
15
Massa
23
13
Matera
19
13
Messina
23
23
Milano
15
20
Modena
18
14
Napoli
29
20
Novara
20
15
Nuoro
11
15
Oristano
5
19
Padova
23
14
Palermo
4
22
Parma
30
20
Pavia
5
17
Perugia
19
22
Pesaro
5
18
Pescara
6
20
Piacenza
22
19
Pisa
4
22
Pistoia
15
20
Pordenone
Disoccupaz. Città
9
Potenza
6
Prato
8
Ragusa
7
Ravenna
14
Reggio C.
10
Reggio E.
9
Rieti
13
Rimini
19
Roma
4
Rovigo
11
Salerno
5
Sassari
6
Savona
6
Siena
5
Siracusa
11
Sondrio
15
Taranto
24
Teramo
5
Terni
4
Torino
31
Trapani
7
Trento
18
Treviso
17
Trieste
5
Udine
29
Varese
4
Venezia
5
Verbania
7
Vercelli
5
Verona
12
Vibo V.
5
Vicenza
8
Viterbo
Valore
aggiunto
14
19
14
20
14
18
16
19
22
18
16
15
20
22
13
21
14
16
16
20
13
19
18
21
21
20
21
17
21
19
13
18
17
Disoccupaz.
16
6
14
5
25
4
10
7
11
6
20
21
9
4
23
6
22
9
9
8
22
4
4
7
5
6
5
8
7
5
20
4
11
6
5
5
Distribuzione doppia di frequenze assolute
• Le determinazioni dei due caratteri sono generalmente
sintetizzate in una tabella di frequenze a doppia entrata
chiamata anche distribuzione doppia di frequenze.
• Dati due caratteri X e Y si definisce distribuzione doppia di
frequenze l’insieme delle frequenze congiunte, ovvero le
frequenze
assolute
delle
unità
che
presentano
congiuntamente la modalità i-esima del carattere X e la
modalità j-esima del carattere Y.
Statistica economica a.a. 2013/2014
6
Tabella di frequenze a doppia entrata associata alla distribuzione
doppia di frequenze assolute
Y (Settore economico)
Agricolt. Industria
X
(Macroarea)
Servizi
Nord
312
3978
7636
11926
Centro
118
1203
3506
4827
Sud
276
995
2911
4182
706
6176
14053
20935
Statistica economica a.a.
2013/2014
7
Tabella di frequenze a doppia entrata
associata alla distribuzione doppia di frequenze relative
Y (Settore economico)
Agricolt. Industria
Nord
X
(Macroarea)
Centro
Sud
Statistica economica a.a.
2013/2014
Servizi
312/20935
3978/20935
7636/20935
11926/20935
0,015
0,19
0,3647
0,5697
4827/20935
118/20935
1203/20935
3506/20935
0,006
0,0574
0,1675
0,23
276/20935
995/20935
2911/20935
4182/20935
0,0132
0,0475
0,139
0,1998
706/20935
6176/20935
14053/20935
20935/20935
0,034
0,295
0,6713
1
8
Tabella di frequenze a doppia entrata associata
alla distribuzione doppia di frequenze percentuali
Y (Settore economico)
Agricolt. Industria
X
(Macroarea)
Servizi
Nord
0,015*100
0,19*100
0,3647*100
0,5697*100
1,5
19
36,47
56,97
Centro
0,006*100
0,0574*100
0,1675*100
0,23*100
0,6
5,74
16,75
23
Sud
0,0132*100
0,0475*100
0,139*100
0,1998*100
19,98
1,32
4,75
13,9
0,034*100
0,295*100
0,6713*100
1*100
3,4
29,5
67,13
100
Statistica economica a.a.
2013/2014
9
Tabella di frequenze a doppia entrata
Distribuzione
condizionata della X
data Y=yj
y1
X
x1
n11
…
xi
…
ni 1
…
xH
…
nH 1
Totale
n.1
…
…
…
…
…
Y
yj
n1 j
…
nij
Distribuzione
marginale della X
…
…
…
…
…
yk
Totale
n1K
n1.
…
niK
…
ni .
…
nH .
n
…
nHj
…
…
nHK
…
n. j
…
n.K
Distribuzione
condizionata della Y
data X=xi
Statistica economica a.a. 2013/2014
Distribuzione
marginale della Y
10
Tabella di frequenze a doppia entrata associata alla distribuzione
unitaria doppia
Y (disoccupazione)
X
(valore
aggiunto)
[3; 10)
[10; 17)
[17; 24) [24; 32)
[12; 16)
0
8
17
7
32
[16; 20)
28
6
3
0
37
[20; 25)
33
1
0
0
34
61
15
20
7
103
Statistica economica
a.a. 2013/2014
11
Tabella di frequenze a doppia entrata
Y (disoccupazione)
X
(valore
aggiunto)
[3; 10)
[10; 17)
[17; 24) [24; 32)
[12; 16)
0
0,0776
0,1650
0,0679
0,3106
[16; 20)
0,2718
0,0582
0,0291
0
0,3592
[20; 25)
0,3203
0,0097
0
0
0,3300
0,5922
0,1456
0,1941
0,0679
1
Statistica economica a.a. 2013/2014
12
Calcolo delle frequenze assolute
delle distribuzioni marginali
K
ni. = ∑nij
per i = 1,..., H
Le distribuzioni marginali
relative si ottengono dividendo
le frequenze assolute marginali
per il numero totale di unità
statistiche. Moltiplicando per
100 le frequenze relative, si
ottengono le frequenze marginali
percentuali.
j =1
K
n. j = ∑ nij
per j = 1,..., K
j =1
H
n=∑
i =1
K
H
∑ n =∑ n
i.
ij
j =1
i =1
K
=
∑n
.j
j =1
Statistica economica a.a. 2013/2014
13
Calcolo della media aritmetica
utilizzando le frequenze marginali
x = 14 ⋅ 0, 3106 + 18 ⋅ 0, 3592 + 22, 5 ⋅ 0, 33 = 18, 239
Valore aggiunto medio sull’intera
popolazione statistica (103 città),
indipendentemente dai valori assunti
dal tasso di disoccupazione.
y = 6, 5 ⋅ 0, 5922 + 13, 5 ⋅ 0,1456 + 20, 5 ⋅ 0,1941 + 28 ⋅ 0, 0679 = 11, 70
Tasso di disoccupazione medio
calcolato sulle 103 città.
Statistica economica a.a. 2013/2014
14
• Le righe e le colonne interne alla tabella a doppia entrata
identificano le cosiddette distribuzioni condizionate per le
quali si possono calcolare:
• media condizionata
y X = xi =
1 K
∑ y j nij
ni . j =1
• varianza condizionata
2
σY/X=x
=
i
1 K
y j − y X = xi 2 nij
∑
ni . j =1
(
)
Statistica economica a.a. 2013/2014
15
Calcolo delle medie condizionate
x |Y ∈[3;10 ] = 14 ⋅ 0 + 18 ⋅ 0, 4859 + 22, 5 ⋅ 0, 5408 = 20, 43
Valore aggiunto medio delle
città il cui tasso di
disoccupazione è tra il 3 e il
10%
Distribuzione condizionata del valore aggiunto
Classi
x|Y ∈[3;10]
Statistica economica a.a. 2013/2014
Fr. cond.
[12; 16)
0
[16; 20)
[20; 25)
0,4589
0,5408
16
Calcolo delle medie condizionate
y | X ∈[16 ;20 ] = 6, 5 ⋅ 0, 7567 + 13, 5 ⋅ 0,162 + 20, 5 ⋅ 0, 081 = 8, 767
Tasso di disoccupazione
medio delle città con un
valore aggiunto compreso
tra 16 e 20mila euro.
Distribuzione condizionata del tasso di disoccupazione
Classi
y| X ∈[16;20]
[3; 10)
[10; 17)
[17; 24)
[24; 32)
Fr. cond.
0,7567
0,162
0, 081
0,
17
Statistica economica a.a. 2013/2014
Stereogramma
Occupati per settore di attività economica e ripartizione geografica, anno 2011
fr.z e p ercen tu ali
40
35
30
25
20
15
10
Ag
I nd
S etto
Statistica economica a.a. 2013/2014
re eco
tr
us
Ce ntr
o
ia
rv i
Se
zi
Nord
ro a
Su d
u ra
o lt
ri c
M ac
0
re a
5
no mic
o
18
19
Statistica economica a.a. 2013/2014
Baricentro della distribuzione
Dati due caratteri, X e Y, entrambi quantitativi, il
baricentro della distribuzione è (x , y )
Esempio sull’analisi del valore e della disoccupazione:
baricentro = (18; 11).
Statistica economica a.a. 2013/2014
20
Analisi dell’associazione tra due 2 caratteri
Dipendenza logica tra due o più caratteri: sono note a priori
le relazioni di causa ed effetto.
Indipendenza logica tra due o più caratteri: si suppone a
priori che non possa sussistere alcuna relazione di causa ed
effetto.
L’analisi statistica verifica l’esistenza o meno di
regolarità nell’associazione fra le modalità dei
caratteri osservati.
Analisi della dipendenza: si studia come le modalità di un
carattere “dipendano” da quelle di un altro carattere secondo un
legame unidirezionale.
Analisi dell’interdipendenza: si assume che il legame tra i
caratteri sia bidirezionale.
Statistica economica a.a. 2013/2014
21
Indipendenza statistica
Due caratteri sono statisticamente indipendenti
quando la conoscenza delle modalità di uno dei due
caratteri non migliora la “previsione” della modalità
dell’altro.
Statistica economica a.a. 2013/2014
22
Covarianza
La covarianza è una misura dell’interdipendenza tra
due caratteri quantitativi.
σ XY =
1 n
∑ ( y i − y )( xi − x )
n i =1
• I caratteri presentano concordanza se la maggior parte degli scostamenti
sono entrambi positivi o entrambi negativi.
• I caratteri presentano discordanza se la maggior parte degli scostamenti
hanno segno discorde per cui lo scostamento è positivo per un carattere e
negativo per l’altro carattere.
• Il numeratore della covarianza è chiamato codevianza.
Statistica economica a.a. 2013/2014
23
Valori estremi della covarianza
La covarianza può assumere valori all’interno del
seguente intervallo:
− σ X σ Y ≤ σ XY ≤ σ X σY
Statistica economica a.a. 2013/2014
24
Calcolo della covarianza
Distribuzione unitaria doppia
X = 10, 46
Y = 28, 2
σ XY
 ( 5, 2 − 10, 46 ) ⋅ ( 31, 62 − 28, 2 ) +




1 7
1  + ( 7, 6 − 10, 46 ) ⋅ ( 30, 06 − 28, 2 ) +
= ∑ ( y i − y )(xi − x ) = 
= − 6, 7
7 i =1
7  + ( 8, 8 − 10, 46 ) ⋅ ( 29, 28 − 28, 2 ) + ... + 
 + (14 − 10, 46 ) ⋅ ( 25, 9 − 28, 2 )



X
Y
5,2
31,62
7,6
30,06
8,8
29,28
10,2
28,37
13,6
26,16
13,8
26,03
14
25,9
Statistica economica a.a. 2013/2014
25
Calcolo dei valori estremi della covarianza
Sapendo che lo scarto quadratico medio di X è 3,21 e di Y
2,09, l’intervallo di valori all’interno del quale la
covarianza si pone è :
−6, 7 ≤ σ XY ≤ 6, 7
L’interdipendenza tra i due caratteri è molto forte perché
la covarianza coincide con l’estremo inferiore. Tra i due
caratteri c’è una relazione di interdipendenza inversa per
cui al crescere delle modalità di un carattere, le modalità
dell’altro carattere tendono a diminuire.
26
Esercizio di riepilogo
Domanda 4 della prova di esame del 18-6-2013
La seguente tabella riporta le abitudini nei confronti del dumo di un
gruppo di studenti e dei loro genitori:
a)
b)
c)
d)
I genitori non fumano
Un genitore fuma
Entrambi i genitori fumano
Lo studente non fuma
1168
1823
1380
Lo studente fuma
188
416
400
Quanti studenti vengono descritti in questa tabella?
Quale percentuale di questi studenti fuma?
Quale percentuale di genitori non fuma?
Che cosa si intende per dipendenza logica?
Statistica economica a.a. 2013/2014
27
Riferimenti bibliografici e Homework
•
Capitolo 6 del Borra, Di Ciaccio, in particolare:
~ 6.1 Introduzione;
~ 6.2 Distribuzione doppia di frequenze;
~ 6.3 Rappresentazione grafica della distribuzione di due
caratteri;
~ 6.4
Analisi
dell’associazione
tra
due
caratteri:
dipendenza, indipendenza, interdipendenza.
~ Misura
dell’interdipendenza
tra
due
caratteri
quantitativi.
Statistica economica a.a. 2013/2014
28