Statistica economica Capitolo 6 Prof. Alessandra Michelangeli a.a. 2013-2014 Argomenti della sesta settimana di lezione Analisi dell’associazione tra due caratteri 1) 2) 3) 4) 5) Distribuzione unitaria doppia Distribuzione doppia di frequenze Distribuzioni marginali Distribuzione condizionate Rappresentazione grafica della distribuzione di due caratteri: grafico di dispersione, stereogramma 6) Analisi dell’associazione tra due caratteri: dipendenza, indipendenza, interdipendenza 7) Misura dell’interdipendenza tra due caratteri quantitativi Statistica economica a.a. 2013/2014 2 • Due caratteri statistici considerati congiuntamente • Rappresentazione tabellare e grafica • Tra i due caratteri ci può essere una relazione di • dipendenza, • interdipendenza, • indipendenza statistica • Lo studio di queste relazioni viene chiamato analisi dell’associazione • Focus sui caratteri quantitativi 3 Statistica economica a.a. 2013/2014 Distribuzione unitaria doppia • Una distribuzione unitaria doppia elenca le modalità dei due caratteri osservati unità per unità. Tasso di inattività e di disoccupazione della popolazione in età 15-64 anni per regione Statistica economica a.a. 2013/2014 Regione (unità statistica) Tasso di inattività (carattere statistico X ) Tasso di disoccupazione (carattere statistico Y ) Piemonte Valle D'Aosta Lombardia Liguria Trentino-Alto Adige Veneto Friuli-Venezia Giulia Emilia Romagna Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna 31,2 29,5 31 32,5 29 31,6 32,5 28,4 32 32,7 32,4 34,7 39,1 44,1 53,6 48,6 45,8 52,1 49,9 40,5 7,6 4,4 6,5 5,6 3,5 5,8 5,7 5,7 6,1 6,6 5,7 9,3 8,8 8,4 14 13,5 13 11,9 14,7 14,1 anno 2010: fonte: ISTAT 4 Esempio di distribuzione unitaria doppia Statistica economica a.a. 2013/2014 Valore Città aggiunto 13 Agrigento 18 Alessandria 20 Ancona 22 Aosta 19 Arezzo 16 Ascoli P. 18 Asti 15 Avellino 15 Bari 20 Belluno 13 Benevento 19 Bergamo 21 Biella 24 Bologna 21 Bolzano 19 Brescia 12 Brindisi 19 Cagliari 13 Caltanissetta 15 Campobasso 15 Caserta 13 Catania 14 Catanzaro 15 Chieti 20 Como 16 Cosenza 20 Cremona 12 Crotone 19 Cuneo 13 Enna 19 Ferrara 22 Firenze 12 Foggia 19 Forli 16 Frosinone Valore Disoccupaz. Città aggiunto 24 20 Genova 6 20 Gorizia 6 18 Grosseto 6 18 Imperia 5 15 Isernia 8 16 L'Aquila 8 19 La Spezia 18 15 Latina 19 14 Lecce 3 20 Lecco 20 18 Livorno 4 20 Lodi 6 19 Lucca 4 19 Macerata 3 21 Mantova 5 15 Massa 23 13 Matera 19 13 Messina 23 23 Milano 15 20 Modena 18 14 Napoli 29 20 Novara 20 15 Nuoro 11 15 Oristano 5 19 Padova 23 14 Palermo 4 22 Parma 30 20 Pavia 5 17 Perugia 19 22 Pesaro 5 18 Pescara 6 20 Piacenza 22 19 Pisa 4 22 Pistoia 15 20 Pordenone Disoccupaz. Città 9 Potenza 6 Prato 8 Ragusa 7 Ravenna 14 Reggio C. 10 Reggio E. 9 Rieti 13 Rimini 19 Roma 4 Rovigo 11 Salerno 5 Sassari 6 Savona 6 Siena 5 Siracusa 11 Sondrio 15 Taranto 24 Teramo 5 Terni 4 Torino 31 Trapani 7 Trento 18 Treviso 17 Trieste 5 Udine 29 Varese 4 Venezia 5 Verbania 7 Vercelli 5 Verona 12 Vibo V. 5 Vicenza 8 Viterbo Valore aggiunto 14 19 14 20 14 18 16 19 22 18 16 15 20 22 13 21 14 16 16 20 13 19 18 21 21 20 21 17 21 19 13 18 17 Disoccupaz. 16 6 14 5 25 4 10 7 11 6 20 21 9 4 23 6 22 9 9 8 22 4 4 7 5 6 5 8 7 5 20 4 11 6 5 5 Distribuzione doppia di frequenze assolute • Le determinazioni dei due caratteri sono generalmente sintetizzate in una tabella di frequenze a doppia entrata chiamata anche distribuzione doppia di frequenze. • Dati due caratteri X e Y si definisce distribuzione doppia di frequenze l’insieme delle frequenze congiunte, ovvero le frequenze assolute delle unità che presentano congiuntamente la modalità i-esima del carattere X e la modalità j-esima del carattere Y. Statistica economica a.a. 2013/2014 6 Tabella di frequenze a doppia entrata associata alla distribuzione doppia di frequenze assolute Y (Settore economico) Agricolt. Industria X (Macroarea) Servizi Nord 312 3978 7636 11926 Centro 118 1203 3506 4827 Sud 276 995 2911 4182 706 6176 14053 20935 Statistica economica a.a. 2013/2014 7 Tabella di frequenze a doppia entrata associata alla distribuzione doppia di frequenze relative Y (Settore economico) Agricolt. Industria Nord X (Macroarea) Centro Sud Statistica economica a.a. 2013/2014 Servizi 312/20935 3978/20935 7636/20935 11926/20935 0,015 0,19 0,3647 0,5697 4827/20935 118/20935 1203/20935 3506/20935 0,006 0,0574 0,1675 0,23 276/20935 995/20935 2911/20935 4182/20935 0,0132 0,0475 0,139 0,1998 706/20935 6176/20935 14053/20935 20935/20935 0,034 0,295 0,6713 1 8 Tabella di frequenze a doppia entrata associata alla distribuzione doppia di frequenze percentuali Y (Settore economico) Agricolt. Industria X (Macroarea) Servizi Nord 0,015*100 0,19*100 0,3647*100 0,5697*100 1,5 19 36,47 56,97 Centro 0,006*100 0,0574*100 0,1675*100 0,23*100 0,6 5,74 16,75 23 Sud 0,0132*100 0,0475*100 0,139*100 0,1998*100 19,98 1,32 4,75 13,9 0,034*100 0,295*100 0,6713*100 1*100 3,4 29,5 67,13 100 Statistica economica a.a. 2013/2014 9 Tabella di frequenze a doppia entrata Distribuzione condizionata della X data Y=yj y1 X x1 n11 … xi … ni 1 … xH … nH 1 Totale n.1 … … … … … Y yj n1 j … nij Distribuzione marginale della X … … … … … yk Totale n1K n1. … niK … ni . … nH . n … nHj … … nHK … n. j … n.K Distribuzione condizionata della Y data X=xi Statistica economica a.a. 2013/2014 Distribuzione marginale della Y 10 Tabella di frequenze a doppia entrata associata alla distribuzione unitaria doppia Y (disoccupazione) X (valore aggiunto) [3; 10) [10; 17) [17; 24) [24; 32) [12; 16) 0 8 17 7 32 [16; 20) 28 6 3 0 37 [20; 25) 33 1 0 0 34 61 15 20 7 103 Statistica economica a.a. 2013/2014 11 Tabella di frequenze a doppia entrata Y (disoccupazione) X (valore aggiunto) [3; 10) [10; 17) [17; 24) [24; 32) [12; 16) 0 0,0776 0,1650 0,0679 0,3106 [16; 20) 0,2718 0,0582 0,0291 0 0,3592 [20; 25) 0,3203 0,0097 0 0 0,3300 0,5922 0,1456 0,1941 0,0679 1 Statistica economica a.a. 2013/2014 12 Calcolo delle frequenze assolute delle distribuzioni marginali K ni. = ∑nij per i = 1,..., H Le distribuzioni marginali relative si ottengono dividendo le frequenze assolute marginali per il numero totale di unità statistiche. Moltiplicando per 100 le frequenze relative, si ottengono le frequenze marginali percentuali. j =1 K n. j = ∑ nij per j = 1,..., K j =1 H n=∑ i =1 K H ∑ n =∑ n i. ij j =1 i =1 K = ∑n .j j =1 Statistica economica a.a. 2013/2014 13 Calcolo della media aritmetica utilizzando le frequenze marginali x = 14 ⋅ 0, 3106 + 18 ⋅ 0, 3592 + 22, 5 ⋅ 0, 33 = 18, 239 Valore aggiunto medio sull’intera popolazione statistica (103 città), indipendentemente dai valori assunti dal tasso di disoccupazione. y = 6, 5 ⋅ 0, 5922 + 13, 5 ⋅ 0,1456 + 20, 5 ⋅ 0,1941 + 28 ⋅ 0, 0679 = 11, 70 Tasso di disoccupazione medio calcolato sulle 103 città. Statistica economica a.a. 2013/2014 14 • Le righe e le colonne interne alla tabella a doppia entrata identificano le cosiddette distribuzioni condizionate per le quali si possono calcolare: • media condizionata y X = xi = 1 K ∑ y j nij ni . j =1 • varianza condizionata 2 σY/X=x = i 1 K y j − y X = xi 2 nij ∑ ni . j =1 ( ) Statistica economica a.a. 2013/2014 15 Calcolo delle medie condizionate x |Y ∈[3;10 ] = 14 ⋅ 0 + 18 ⋅ 0, 4859 + 22, 5 ⋅ 0, 5408 = 20, 43 Valore aggiunto medio delle città il cui tasso di disoccupazione è tra il 3 e il 10% Distribuzione condizionata del valore aggiunto Classi x|Y ∈[3;10] Statistica economica a.a. 2013/2014 Fr. cond. [12; 16) 0 [16; 20) [20; 25) 0,4589 0,5408 16 Calcolo delle medie condizionate y | X ∈[16 ;20 ] = 6, 5 ⋅ 0, 7567 + 13, 5 ⋅ 0,162 + 20, 5 ⋅ 0, 081 = 8, 767 Tasso di disoccupazione medio delle città con un valore aggiunto compreso tra 16 e 20mila euro. Distribuzione condizionata del tasso di disoccupazione Classi y| X ∈[16;20] [3; 10) [10; 17) [17; 24) [24; 32) Fr. cond. 0,7567 0,162 0, 081 0, 17 Statistica economica a.a. 2013/2014 Stereogramma Occupati per settore di attività economica e ripartizione geografica, anno 2011 fr.z e p ercen tu ali 40 35 30 25 20 15 10 Ag I nd S etto Statistica economica a.a. 2013/2014 re eco tr us Ce ntr o ia rv i Se zi Nord ro a Su d u ra o lt ri c M ac 0 re a 5 no mic o 18 19 Statistica economica a.a. 2013/2014 Baricentro della distribuzione Dati due caratteri, X e Y, entrambi quantitativi, il baricentro della distribuzione è (x , y ) Esempio sull’analisi del valore e della disoccupazione: baricentro = (18; 11). Statistica economica a.a. 2013/2014 20 Analisi dell’associazione tra due 2 caratteri Dipendenza logica tra due o più caratteri: sono note a priori le relazioni di causa ed effetto. Indipendenza logica tra due o più caratteri: si suppone a priori che non possa sussistere alcuna relazione di causa ed effetto. L’analisi statistica verifica l’esistenza o meno di regolarità nell’associazione fra le modalità dei caratteri osservati. Analisi della dipendenza: si studia come le modalità di un carattere “dipendano” da quelle di un altro carattere secondo un legame unidirezionale. Analisi dell’interdipendenza: si assume che il legame tra i caratteri sia bidirezionale. Statistica economica a.a. 2013/2014 21 Indipendenza statistica Due caratteri sono statisticamente indipendenti quando la conoscenza delle modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro. Statistica economica a.a. 2013/2014 22 Covarianza La covarianza è una misura dell’interdipendenza tra due caratteri quantitativi. σ XY = 1 n ∑ ( y i − y )( xi − x ) n i =1 • I caratteri presentano concordanza se la maggior parte degli scostamenti sono entrambi positivi o entrambi negativi. • I caratteri presentano discordanza se la maggior parte degli scostamenti hanno segno discorde per cui lo scostamento è positivo per un carattere e negativo per l’altro carattere. • Il numeratore della covarianza è chiamato codevianza. Statistica economica a.a. 2013/2014 23 Valori estremi della covarianza La covarianza può assumere valori all’interno del seguente intervallo: − σ X σ Y ≤ σ XY ≤ σ X σY Statistica economica a.a. 2013/2014 24 Calcolo della covarianza Distribuzione unitaria doppia X = 10, 46 Y = 28, 2 σ XY ( 5, 2 − 10, 46 ) ⋅ ( 31, 62 − 28, 2 ) + 1 7 1 + ( 7, 6 − 10, 46 ) ⋅ ( 30, 06 − 28, 2 ) + = ∑ ( y i − y )(xi − x ) = = − 6, 7 7 i =1 7 + ( 8, 8 − 10, 46 ) ⋅ ( 29, 28 − 28, 2 ) + ... + + (14 − 10, 46 ) ⋅ ( 25, 9 − 28, 2 ) X Y 5,2 31,62 7,6 30,06 8,8 29,28 10,2 28,37 13,6 26,16 13,8 26,03 14 25,9 Statistica economica a.a. 2013/2014 25 Calcolo dei valori estremi della covarianza Sapendo che lo scarto quadratico medio di X è 3,21 e di Y 2,09, l’intervallo di valori all’interno del quale la covarianza si pone è : −6, 7 ≤ σ XY ≤ 6, 7 L’interdipendenza tra i due caratteri è molto forte perché la covarianza coincide con l’estremo inferiore. Tra i due caratteri c’è una relazione di interdipendenza inversa per cui al crescere delle modalità di un carattere, le modalità dell’altro carattere tendono a diminuire. 26 Esercizio di riepilogo Domanda 4 della prova di esame del 18-6-2013 La seguente tabella riporta le abitudini nei confronti del dumo di un gruppo di studenti e dei loro genitori: a) b) c) d) I genitori non fumano Un genitore fuma Entrambi i genitori fumano Lo studente non fuma 1168 1823 1380 Lo studente fuma 188 416 400 Quanti studenti vengono descritti in questa tabella? Quale percentuale di questi studenti fuma? Quale percentuale di genitori non fuma? Che cosa si intende per dipendenza logica? Statistica economica a.a. 2013/2014 27 Riferimenti bibliografici e Homework • Capitolo 6 del Borra, Di Ciaccio, in particolare: ~ 6.1 Introduzione; ~ 6.2 Distribuzione doppia di frequenze; ~ 6.3 Rappresentazione grafica della distribuzione di due caratteri; ~ 6.4 Analisi dell’associazione tra due caratteri: dipendenza, indipendenza, interdipendenza. ~ Misura dell’interdipendenza tra due caratteri quantitativi. Statistica economica a.a. 2013/2014 28