Corso di Statistica Distribuzioni doppie Relazioni tra due variabili Prof.ssa T. Laureti a.a. 2014-2015 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 1 Distribuzione doppia di frequenza Genere respons 6 M 6 M 10 F 10 F 7 M 3 M 3 M 6 F 4 F Genere responsabile Addetti Addet ti M F 3 2 0 4 0 1 6 2 1 7 1 0 10 0 2 Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2 Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 2 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot 1 è la frequenza congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 3 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot Distribuzione marginale del genere del responsabile (distribuzione di frequenza semplice del carattere “genere del responsabile”) Qual è la proporzione di punti vendita il cui responsabile è una femmina? 4 p 0,44 (44%) 9 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 4 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot Distribuzione marginale degli addetti (distribuzione di frequenza semplice del carattere “numero di addetti”) Qual è la media del numero di addetti? E la mediana? E la moda? Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 5 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot Distribuzione parziale del numero di addetti, condizionata alla modalità “maschio” del carattere “genere del responsabile” Distribuzione del numero di addetti dato che il genere del responsabile è “maschio” Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo? Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 6 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot Distribuzione parziale del genere del responsabile, condizionata alla modalità “6” del carattere “numero di addetti” Distribuzione del genere del responsabile dato che il numero di addetti è pari a6 Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina? Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 7 Distribuzione doppia di frequenza Ubicazione Vendita on line centro si periferia si Semicentro no periferia no centro no centro no Ubicazione Vendita on line periferia no Tot Semicentro no centro si Tot si no Centro 2 2 4 Semic entro 0 2 2 Perif. 1 2 3 3 6 9 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 8 Distribuzione doppia di frequenza Ubicazione Vendita on line Tot Tot si no Centro 2 2 4 Semic entro 0 2 2 Perif. 1 2 3 3 6 9 Qual è la proporzione di p.v. ubicati in centro? Nel sottoinsieme dei p.v. che effettuano anche la vendita on line, qual è la proporzione di p.v. ubicati in centro? Qual è la proporzione di p.v. che vendono anche on line? Nel sottoinsieme di p.v. ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line? Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 9 Distribuzione doppia di frequenza Y y1 X1 … yj Tot … yK n11 n1j n1k n1. ni1 nij nik ni. nH1 nHj nHK nH. n.1 n.j n.K n … X Xi … xH Tot 2 distribuzioni marginali H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 10 X carattere quantitativo Nella distribuzione marginale e in ogni distribuzione parziale condizionata a una data modalità di Y possiamo calcolare indici di: • Tendenza centrale • Dispersione • Asimmetria Avremo quindi, ad esempio, la media e la varianza condizionata, la mediana marginale Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 11 X carattere qualitativo Nella distribuzione marginale e in ogni distribuzione parziale condizionata a una data modalità di Y possiamo calcolare indici di: • Tendenza centrale • Eterogeneità Avremo quindi, ad esempio, la moda marginale, l’indice di entropia condizionato Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 12 Relazioni tra variabili: indipendenza Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essi Se tra X e Y non c’è alcun legame X e Y sono indipendenti statisticamente Tra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 13 Associazione In presenza di un qualche legame (associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di: • distinguere la tipologia di caratteri che si esaminano • specificare se si è interessati a studiare la dipendenza o l’interdipendenza Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 14 Dipendenza e interdipendenza Dipendenza: studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale Interdipendenza: Si assume che i due caratteri abbiano lo stesso ruolo e che il legame sia bidirezionale Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 15 Caratteri qualitativi sconnessi Tabella doppia di frequenza Frequenze osservate nij Frequenze teoriche (quelle se si osserverebbero in caso di indipendenza ni. n.j statistica) ' nij n La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la corrispondente frequenza teorica cij nij nij' Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 16 Freq. osservate e freq. teoriche Y y1 X1 … yj Tot … Freq. osservate yK n11 n1j n1k n1. ni1 nij nik ni. … X Xi Freq. che si utilizzano per ricavare le freq. teoriche … xH Tot nH1 nHj nHK nH. n.1 n.j n.K n n ' ij Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti ni. n.j n 17 Frequenze osservate Ubicazione Vendita on line Tot Tot si no Centro 2 2 4 Semice ntro 0 2 2 Perif. 1 2 3 3 6 9 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 18 Frequenze teoriche Ubicazione Vendita on line Tot Tot si no Centro 4 3 9 4 6 9 4 Semice ntro 2 3 9 3 3 9 2 6 9 3 6 9 2 3 6 9 Perif. Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte? 3 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 19 Frequenze osservate e teoriche Tot Tot Teoriche si no Centro 2 2 4 Semice ntro 0 2 2 Perif. 1 2 3 Ubicazione Ubicazione Osservate Vendita on line 3 6 9 Tot Vendita on line Tot si no Centro 1,33 2,67 4 Semice ntro 0,67 1,33 2 Perif. 1 2 3 3 6 9 Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri Qual è il grado di associazione tra i due caratteri? Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 20 Indice Chi-quadrato Studia l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una tabella doppia H 2 i 1 j 2 2 cij2 ' n 1 ij K cij nij 0 indipendenza statistica 0 interdipendenza Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti n ' ij 21 Indice V di Cramer Indice relativo per misurare l’associazione (interdipendenza) tra due caratteri qualitativi V V=0 V=1 2 min H /n 1, K 1 0 V 1 indipendenza statistica associazione perfetta Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 22 Calcolo di χ2 e V 2 2 1,33 1,33 0 0,67 0,67 1 1 1 2 2 2 2 2,67 2,67 2 1,33 1,33 2 2 2 2 0,33 0,17 0,33 0,67 1,5 2 2 2 H=3, K=2 quindi il minimo tra H-1 e K-1 è uguale a 1 V 1,50 9 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 0,41 23 Dipendenza perfetta Un carattere Y dipende perfettamente da X quando a ogni modalità di X è associata una sola modalità di Y, ossia quando in una tabella doppia per ogni i c’è un solo j per il quale nij≠0 Vendita on line Tot Tot si no Centro 4 0 4 Semicentro 0 2 2 Perif. 0 3 3 5 5 9 In questa tabella la vendita on line (Y) dipende perfettamente dall’ubicazione (X) Attenzione X non dipende da Y Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 24 Interdipendenza perfetta Tra due caratteri X e Y esiste interdipendenza perfetta se a ogni modalità di uno dei due caratteri corrisponde una e una sola modalità dell’altro carattere e viceversa. Y Tot Tot y1 y2 y3 x1 4 0 0 4 x2 0 2 0 2 x3 0 0 3 3 4 2 3 9 Attenzione la tabella è quadrata! Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 25 Per caratteri che non sono qualitativi sconnessi Se X e/o Y sono qualitativi ordinati o quantitativi (in classi), un’analisi esplorativa sulla tabella doppia con l’indice Chi-quadrato è sempre possibile Tuttavia ci sono indici più opportuni da utilizzare Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 26 Interdipendenza tra due caratteri quantitativi quadrante II y quadrante I Y y x quadrante III Consideriamo un diagramma di dispersione in cui l’origine degli assi sia stata traslata sul baricentro (variabili scarto): quadrante IV x X Classifichiamo le coordinate dei punti nei 4 quadranti secondo il loro segno algebrico: quadrante segno algebrico Xi I II III IV x + + Yi y + Scostamenti concordi + - Scostamenti discordi Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti Interdipendenza tra due caratteri quantitativi Perciò i prodotti degli scarti avranno segno positivo per i punti del I e III quadrante e negativo per i punti del II e IV quadrante. La somma dei prodotti degli scarti, chiamata codevianza tra X e Y, sintetizza la distribuzione dei punti nei 4 quadranti: >0 prevalgono i punti nel I e III quadrante: relazione positiva (concordanza) n i 1 xi x yi y 0 < 0 punti uniformemente distribuiti nei 4 quadranti: relazione circa nulla prevalgono i punti nel II e IV quadrante: relazione negativa (discordanza) Occorre però eliminare dalla codevianza l’influenza della numerosità delle osservazioni, dividendola per n, ottenendo quindi la covarianza Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti Interdipendenza tra due caratteri quantitativi Covarianza: Indice simmetrico di associazione tra due variabili quantitative Cov(X, Y) XY 1 n xi ni1 x yi y Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y oppure alti valori di X corrispondenti a alti valori di Y). Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra variabile) Cov = 0 in assenza di relazione lineare tra X e Y Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 29 Covarianza nulla Cov(X,Y)=0 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 30 Covarianza positiva (concordanza) Cov(X,Y)>0 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 31 Covarianza negativa (discordanza) Cov(X,Y)<0 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 32 Legame non lineare La relazione tra X e Y non è di tipo lineare Ci aspettiamo un valore di Cov(X,Y) prossimo allo 0, il che indica assenza di legame lineare X e Y NON sono indipendenti, ma legati da una forte relazione di tipo non lineare Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 33 Correlazione lineare Eliminare l’influenza sulla covarianza delle differenti unità di misura scelte, dividendo la suddetta quantità per le deviazioni standard delle due variabili. Indice di correlazione lineare di Bravais-Pearson n Corr(X, Y) XY XY X Y i 1 n i 1 1 XY 1 0 x 2 n i 1 1 y yi y XY 1 2 correlazione lineare positiva perfetta 0 assenza di legame lineare 1 XY XY xi x yi 0 correlazione negativa XY XY xi 1 correlazione positiva correlazione lineare positiva perfetta Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 34 Correlazione lineare Il segno algebrico del coefficiente covarianza xy dipende dalla Tra due variabili X e Y esiste correlazione positiva (concordanza) se al crescere di X anche Y, nel complesso, tende a crescere e se al diminuire di X anche Y , nel complesso, tende a diminuire. La correlazione è invece negativa (discordanza) se al diminuire di X la variabile Y, nel complesso, tende a crescere e se al diminuire di X, nel complesso, Y tende a crescere. Se le variabili sono correlate, i punti del “diagramma di dispersione” si disporranno secondo un andamento globale facilmente individuabile: se tale andamento è lineare, si parlerà di correlazione lineare. Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 35 Correlazione lineare circa nulla XY 0 XY X Y I quadrante II quadrante Y Y III quadrante IV quadrante X X Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti Correlazione lineare positiva XY 0 XY X Y I quadrante II quadrante Y Y III quadrante IV quadrante X X Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti Correlazione lineare negativa XY 0 XY X Y I quadrante II quadrante Y Y III quadrante IV quadrante X X Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti Correlazione lineare perfetta ρ=1 Perfetta correlazione positiva ρ=-1 Perfetta correlazione negativa Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti Calcolo della covarianza Media Scarti X Scarti Y (Scarti X) x (Scarti Y) Ricavi (X) Costi (Y) 350 205 25 16,11 402,8 200 100 -125 -88,99 11111,1 600 350 275 161,11 44305,6 500 270 175 81,11 14194,4 270 200 -55 11,11 -611,1 180 120 -145 -68,89 9988,9 205 105 -120 -83,89 10066,7 340 210 15 21,11 316,7 280 140 -45 -48,89 2200,0 325 188,89 1 n xi ni1 x yi y Cov(X, Y) 91975 9 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 10219,44 40 Calcolo del coefficiente di correlazione lineare Ricavi (X) Media Costi (Y) 350 205 200 100 600 350 500 270 270 200 180 120 205 105 340 210 280 140 325 188,89 Dev std 134,66 Cov(X, Y) XY X Y 10219,44 10219,44 134,66 78,48 0,97 C’è una forte concordanza tra ricavi e costi 78,48 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 41 Ancora sulla covarianza formule alternative per i calcoli Codevianza(X, Y) n i 1 Cov(X, Y) xi Codev(X, Y) n x yi y 1 n xi y y n i 1 n i 1 xi yi nx y xy Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 42 Relazioni tra variabili: riepilogo Tipo di relazione Caratteri Struttura dati Indici Interdipendenza qualsiasi (se qualitativi tra X e Y Tabella doppia di frequenze χ2 Dipendenza in media di Y da X Valori η2 (relativo) raggruppati in base alle modalità di X sconnessi è l’unico tipo di relazione da studiare) Y quantitativo X qualsiasi (se qualitativo continuo, in classi) Interdipendenza quantitativi tra X e Y (concordanza/di scordanza) Coppie di valori V (relativo) Cov ρ (relativo) Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 43 Relazioni tra variabili: applicazioni Si vuole investire nel mercato azionario italiano e in quello di un altro Paese con l’obiettivo di diversificare il portafoglio. Sulla base delle serie mensili delle variazioni del Morgan Stanley Capital Index (MSCI) riferito a Italia, Germania, Francia e Singapore si hanno i seguenti risultati: ρ Italia-Francia 0.87 Italia-Germania 0.88 Italia-Singapore 0.63 Il suggerimento è di investire in titoli azionari italiani e di Singapore. Perché? Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 44 Relazioni tra variabili: applicazioni Dalla teoria economica sappiamo che esiste una relazione tra la variabile produzione (misurata tramite il valore aggiunto) e gli input fattore capitale e fattore lavoro. Dalle serie storiche (1970-1983) delle tre variabili si ottengono i grafici di dispersione del valore aggiunto e, rispettivamente, l’input di capitale e l’input di lavoro Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 45 Relazioni tra variabili: applicazioni Il valore aggiunto ha una correlazione maggiore con l’input di capitale (grafico a sinistra) che con l’input di lavoro (grafico a destra) Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 46 Relazione tra variabili esempio… [rif. Bracalente et al.2009] Per decidere le dimensioni di nuovo punto vendita, una catena di supermercati ha effettuato un’indagine per studiare la relazione tra dimensione del negozio e le vendite settimanali. A tale proposito viene estratto un campione di 10 supermercati: IPOTESI DI RICERCA: Si ipotizza che a maggiori spazi espositivi tendano a corrispondere valori più elevati delle vendite Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti Rappresentiamo graficamente la distribuzione doppia V o l u m e 350 300 250 200 v 150 e 100 n d 50 i 0 t 0,0 e 50,0 100,0 150,0 200,0 Spazio espositivo Calcoliamo la correlazione lineare Il coefficiente di correlazione lineare è molto altro =0,893 Per studiare tale relazione dovremmo utilizzare un modello di regressione lineare Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti