Università degli studi della Tuscia Dipartimento di Economia e Impresa Statistica economica a.a. 2013/14 Dr. Luca Secondi 07. Analisi dell’associazione tra variabili La matrice dei dati ¾E’ una “tabella” contenente le informazioni disponibili relativamente ad un insieme di unità statistiche. ¾Ciascuna riga della matrice contiene le informazioni relative ad una determinata unità, mentre ciascuna colonna contiene le modalità assunte da un determinato carattere nelle diverse unità. ¾In generale, supponendo di aver osservato i valori di p caratteri su un collettivo di n unità statistiche, la matrice di dati, denotata X avrà dimensione n x p. 2 La matrice dei dati ⎡ x11 ⎢x ⎢ 21 ⎢ ... ⎢ xi1 ⎢ X= ⎢ ... ⎢ ⎢ xr 1 ⎢ ... ⎢ ⎢⎣ xn1 x12 x22 ... x1h ... x1 j ... x2 h ... x2 j xi 2 ... xih ... xij xr 2 ... xrh ... xrj xn 2 ... xnh ... xnj ... x1 p ⎤ ... x2 p ⎥⎥ ⎥ ⎥ ... xip ⎥ ⎥ ⎥ ... xrp ⎥ ⎥ ⎥ ... xnp ⎥⎦ 3 La matrice dei dati La matrice può essere vista come un insieme di n vettori riga (di dimensioni 1 x p) contenenti ciascuno il profilo di una unità statistica, ovvero i valori che in essa assumono le p variabili osservate. ⎡ x11 ⎢x ⎢ 21 ⎢ ... ⎢ x i1 ⎢ X= ⎢ ... ⎢ ⎢ x r1 ⎢ ... ⎢ ⎢⎣ x n1 x12 x 22 ... ... x1h x2 h ... ... x1 j x2 j ... ... xi 2 ... x ih ... x ij ... xr 2 ... x rh ... x rj ... xn 2 ... x nh ... x nj ... x1 p ⎤ x 2 p ⎥⎥ ⎥ ⎥ x ip ⎥ ⎥ ⎥ x rp ⎥ ⎥ ⎥ x np ⎥⎦ o, alternativamente, indicando con xi il generico vettore colonna contenente il profilo della i-esima unità. 4 Associazione tra variabili In presenza di un qualche legame (associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di: • distinguere la tipologia di caratteri che si esaminano • specificare se si è interessati a studiare la dipendenza o l’interdipendenza Dipendenza: studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale Interdipendenza: Si assume che i due caratteri abbiano lo stesso ruolo e che il legame sia bidirezionale 5 Associazione tra variabili Si osserva un’associazione tra due variabili se la distribuzione della variabile risposta cambia in qualche modo al variare della variabile esplicativa. La misura di tale associazione dipende dal tipo variabili considerate nel loro insieme che possono essere: • categoriali (qualitative sconnesse); • ordinali (qualitative ordinali); • quantitative; • miste. Tabelle di contingenza I dati per l’analisi di variabili categoriali sono organizzati in tabelle di contingenza. Questo tipo di tabelle mostra il numero di soggetti osservati per tutte le combinazioni delle categorie delle due variabili. 6 Tabelle di contingenza: confronti tra distribuzioni condizionate Si dice che una variabile categoriale Y è statisticamente indipendente da X ( o che Y non è connesso con X ) se tutte le distribuzioni condizionate relative ( i profili-colonna ) di Y in corrispondenza delle varie modalità di X sono uguali. Analoghi concetti valgono per l’indipendenza di X da Y (tutti i profili-riga di X dovranno essere uguali). Le variabili sono statisticamente dipendenti se le distribuzioni condizionate non sono identiche Dipendenza perfetta La variabile Y dipende perfettamente da X se ad ogni modalità di X è associata una sola modalità di Y. E,ovviamente, il carattere X dipende perfettamente da Y se ad ogni modalità di Y è associata una sola modalità di X. Test chi-quadrato di indipendenza Permette di verificare se tra due variabili X e Y esiste o meno associazione E’ un test non parametrico in quanto l’ipotesi da sottoporre a verifica non riguarda un parametro della distribuzione ma la condizione di indipendenza statistica Il test può essere applicato a qualsiasi tipo di carattere purché le modalità siano raggruppate in classi qualora il carattere sia di tipo quantitativo continuo. Il test del chi-quadrato confronta le frequenze osservate nella tabella di contingenza con valori che soddisfano l’ipotesi nulla di indipendenza statistica. 8 Test chi-quadrato di indipendenza Siano X e Y rispettivamente due caratteri tali che H siano le modalità di X e K le modalità di Y (tabella di contingenza o a doppia entrata) Si vuole verificare sulla base delle n osservazioni campionarie l’ipotesi nulla di indipendenza statistica tra X e Y nella popolazione H0 : le variabili sono statisticamente indipendenti H1 : le variabili sono statisticamente dipendenti Frequenze osservate nij Frequenze teoriche o attese (quelle se si osserverebbero in caso di indipendenza statistica) n' = ni. × n. j ij n La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la ' corrispondente frequenza teorica cij = nij − nij 9 Test chi-quadrato di indipendenza La statistica test utilizzata è data da χ 2 = H ∑ i =1 c ∑ j =1 n K 2 ij ' ij cij = nij − nij' che, per n grande, ha una distribuzione chi-quadrato con (K1)(H-1) gradi di libertà Quando Ho è vera, le frequenze osservate e quelle attese tendono ad essere vicine in ciascuna cella e il chi-quadrato è relativamente piccolo. Se Ho è falsa, uno o più valori delle freq. osservate e teoriche tenderanno a essere diversi portando un valore grande della differenza al quadrato e quindi della statistica test. 10 Test chi-quadrato di indipendenza Maggiore sarà il valore della statistica e maggiore sarà l’evidenza contro l’ipotesi nulla (ipotesi di indipendenza), il test pertanto è sempre ad una coda α χα2;(K −1)(H−1) Se il valore del Chi-quadrato empirico è inferiore al valore critico definito da α si accetta l’ipotesi di indipendenza tra X e Y. 11 Test chi-quadrato di indipendenza Il test del chi-quadrato è un test per grandi campioni. La distribuzione del chi-quadro è la distribuzione campionaria della statistica test χ2 soltanto se il campione è grande. Per soddisfare l’esigenza di un campione di dimensioni elevate si richiede che la frequenza teorica debba essere maggiore di 5 in ogni cella. NB. Un valore elevato di χ2 nel test di indipendenza suggerisce che le variabili siano associate ma non implica che l’associazione sia forte. La statistica indica, semplicemente, quanta evidenza c’è a favore della dipendenza ma non misura la forza della dipendenza. Esempio test di indipendenza Per verificare la qualità di produzione in un’azienda, il manager controlla il numero di pezzi difettosi prodotti da due macchine e ottiene i seguenti risultati Pezzi Difettosi Non difettosi Macchina 1 Macchina 2 100 80 50 20 Al livello di significatività del 5% il manager può asserire che la quantità di pezzi difettosi non dipenda dalla macchina? 13 Esempio test di indipendenza Calcolo delle frequenze teoriche: Pezzi Macchina 1 Macchina 2 Non difettosi difettosi 108 42 72 28 Calcolo del valore empirico della statistica test χ 2 = 0,59 + 0,89 + 1,52 + 2,29 = 5,29 α =0,05 Poiché 5,29 > 3,84 si rifiuta l’ipotesi di indipendenza al livello di significatività del 5% p-value= χ 2 0,05;1 = 3,84 = P( χ 2 > 5,29 ) = 0,02 14 Associazione tra caratteri qualitativi ordinati – Indice rho di Spearman Indice rho di Spearman Si applica nel caso di caratteri ordinati che rappresentano delle graduatorie. La differenza tra i ranghi dell’i-esima unità è n di unità statistiche. n ρs = 1 − ρs = 1 ρ s = −1 ρs = 0 6 ∑ di2 i =1 2 n(n − 1) − 1 ≤ ρs ≤ 1 I ranghi sono in perfetta concordanza I ranghi sono in perfetta discordanza Le due graduatorie non mostrano associazione Associazione tra caratteri qualitativi ordinati – Indice rho di Spearman Il criterio sul quale si basa l’indice di Spearman, nella misurazione della relazione esistente tra due fenomeni (variabili) H e J, consiste nella sostituzione delle modalità di ciascun fenomeno con i rispettivi posti d’ordine o “gradi” (ranks) che esse occupano nella graduatoria ordinata delle osservazioni. Proprio perché si considerano solo i posti d’ordine, questo criterio è applicabile, oltre che per le variabili quantitative, anche per le variabile rilevate su scala ordinale. Si definisce quindi cograduazione (rank correlation) la metodologia statistica che studia le relazioni tra i posti d’ordine delle modalità di variabili quantitative oppure ordinali. 16 Associazione tra caratteri qualitativi ordinati – Indice rho di Spearman Si considerino due fenomeni (variabili) H e J, rilevati almeno su scala ordinale, per i quali si conoscono le modalità xih e xij in corrispondenza delle n unità statistiche; Si suppone che per ciascuna variabile le modalità siano tutte distinguibili fra loro (non vi siano cioè modalità ripetute); Se si sostituiscono alle modalità xih e xij di ciascun fenomeno i rispettivi “gradi”, g (xih) e g (xij), che esse occupano nella successione ordinata in senso crescente, lo studio delle relazioni tra H e J può essere condotto sui seguenti vettori: ⎡⎣ g ( x1h ) ...g ( xih ) ...g ( xnh ) ⎤⎦ ⎡ g ( x1 j ) ...g ( xij ) ...g ( xnj ) ⎤ ⎣ ⎦ ciascuno dei quali contiene i numeri da 1 a n (in un ordine che dipende dalle modalità dei due fenomeni). 17 Associazione tra caratteri qualitativi ordinati – Indice rho di Spearman Si dice che tra due fenomeni H e J esiste: perfetta cograduazione se: g(xih) = g(xij) per i = 1, 2, …, n cioè quando al primo posto nella graduatoria d’un fenomeno corrisponde il primo posto nella graduatoria dell’altro fenomeno, al secondo corrisponde il secondo, e così via; perfetta contrograduazione se: g(xih) = n + 1 – g(xij) per i = 1, 2, …, n cioè quando al primo posto nella graduatoria di un fenomeno corrisponde l’ultimo posto nella graduatoria dell’altro fenomeno, al secondo corrisponde il penultimo, etc. 18 quadrante II y Y Consideriamo un diagramma di dispersione in cui l’origine degli assi sia stata traslata sul baricentro (variabili scarto): quadrante I y x quadrante III quadrante IV x X Classifichiamo le coordinate dei punti nei 4 quadranti secondo il loro segno algebrico: quadrante segno algebrico Xi − x I II III IV + + Yi − y + + - Interdipendenza tra due caratteri quantitativi Perciò i prodotti degli scarti avranno segno positivo per i punti del I e III quadrante e negativo per i punti del II e IV quadrante. La somma dei prodotti degli scarti, chiamata codevianza tra X e Y, sintetizza la distribuzione dei punti nei 4 quadranti: n ∑ (x i − x ) ( yi − y ) i =1 >0 prevalgono i punti nel I e III quadrante: relazione positiva (concordanza) ≅ 0 punti uniformemente distribuiti nei 4 quadranti: relazione circa nulla < 0 prevalgono i punti nel II e IV quadrante: relazione negativa (discordanza) Occorre però eliminare dalla codevianza l’influenza della numerosità delle osservazioni, dividendola per n, ottenendo quindi la covarianza Interdipendenza tra due caratteri quantitativi Covarianza: Indice simmetrico di associazione tra due variabili quantitative Cov (X, Y ) = σ XY 1 n = ∑ (x i − x )(y i − y ) n i=1 Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y oppure alti valori di X corrispondenti a alti valori di Y). Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra variabile) Cov = 0 in assenza di relazione lineare tra X e Y 21 Covarianza nulla Cov(X,Y)=0 Covarianza positiva (concordanza) Cov(X,Y)>0 22 Covarianza negativa (discordanza) Cov(X,Y)<0 Legame non lineare La relazione tra X e Y non è di tipo lineare Ci aspettiamo un valore di Cov(X,Y) prossimo allo 0, il che indica assenza di legame lineare X e Y NON sono indipendenti, ma legati da una forte relazione di tipo non lineare 23 Matrice di varianza-covarianza Nel caso si consideri una matrice di dati, se si calcola la covarianza per tutte le coppie di caratteri che sono oggetto di analisi si può costruire la matrice di associazione (p x p) detta matrice delle covarianze ⎡ s11 s12 ⎢s ⎢ 21 s22 ⎢ ... ⎢ sh1 sh 2 ⎢ S= ⎢ ... ⎢ ⎢ s j1 s j 2 ⎢ ... ⎢ ⎢⎣s p1 s p 2 ... s1h ... s1 j ... s1 p ⎤ ... s2 h ... s2 j ... s2 p ⎥⎥ ⎥ ⎥ ... shh ... shj ... shp ⎥ ⎥ ⎥ ... s jh ... s jj ... s jp ⎥ ⎥ ⎥ ... s ph ... s pj ... s pp ⎥⎦ La matrice è simmetrica e sulla diagonale principale presenta le varianze delle p variabili. n shh = ∑ (x i =1 ih − xh )( xih − xh ) n n = ∑ (x i =1 ih − xh ) 2 n = σ h2 I valori assunti dalle covarianze dipendono dalle scale di misura dei diversi caratteri e non sono direttamente confrontabili, al fine di valutare se tra una coppia di variabili vi sia una associazione maggiore o minore rispetto ad un’altra. 24 Correlazione lineare ¾Eliminare l’influenza sulla covarianza delle differenti unità di misura scelte, dividendo la suddetta quantità per le deviazioni standard delle due variabili. Indice di correlazione lineare di Bravais-Pearson n Corr(X, Y ) = ρ XY σ XY = = σXσ Y ∑ (x i=1 i − x )(yi − y ) n n 2 ( ) ( ) x − x y − y ∑ i ∑ i 2 i=1 ρXY = −1 − 1 ≤ ρ XY ≤ 1 i=1 correlazione lineare positiva perfetta − 1 < ρXY < 0 correlazione negativa ρXY = 0 0 < ρXY < 1 ρXY = 1 assenza di legame lineare correlazione positiva correlazione lineare positiva perfetta 25 Correlazione lineare ¾Il segno algebrico del coefficiente ρxy dipende dalla covarianza ¾Tra due variabili X e Y esiste correlazione positiva (concordanza) se al crescere di X anche Y, nel complesso, tende a crescere e se al diminuire di X anche Y , nel complesso, tende a diminuire. La correlazione è invece negativa (discordanza) se al diminuire di X la variabile Y, nel complesso, tende a crescere e se al crescere di X, nel complesso, Y tende a diminuire. Se le variabili sono correlate, i punti del “diagramma di dispersione” si disporranno secondo un andamento globale facilmente individuabile: se tale andamento è lineare, si parlerà di correlazione lineare. 26 Correlazione lineare circa nulla ρ XY σ XY = ≅0 σ XσY I quadrante II quadrante Y µY III quadrante IV quadrante µX X Correlazione lineare positiva ρ XY σ XY = >0 σ XσY I quadrante II quadrante Y µY III quadrante IV quadrante µX X Correlazione lineare negativa ρ XY σ XY = <0 σ XσY I quadrante II quadrante Y µY III quadrante IV quadrante µX X Correlazione lineare perfetta ρ=1 Perfetta correlazione positiva ρ=-1 Perfetta correlazione negativa Matrice di correlazione Da una matrice di dati, calcolata la correlazione per tutte le coppie di caratteri si può costruire la matrice di associazione R (di dimensione pxp) detta matrice delle correlazioni ⎡ r11 ⎢r ⎢ 21 ⎢ ... ⎢ rh1 ⎢ R= ⎢ ... ⎢ ⎢ r j1 ⎢ ... ⎢ ⎢⎣rp1 r12 r22 ... r1h ... r2 h ... r1 j ... r2 j rh 2 ... rhh ... rhj rj 2 ... rjh ... rjj rp 2 ... rph ... rpj ... r1 p ⎤ ... r2 p ⎥⎥ ⎥ ⎥ ... rhp ⎥ ⎥ ⎥ ... rjp ⎥ ⎥ ⎥ ... rpp ⎥⎦ La matrice è simmetrica e con valori unitari sulla diagonale principale. 31