Statistica bivariata Relazione tra variabili Date due variabili x e y, rilevate ad un qualsiasi livello di scala, possiamo affermare che tra loro esiste una relazione se i valori dell’una variano in modo sistematico al variare dei valori dell’altra Connessione (intensità della relazione) Concordanza (direzione della relazione) Relazione Determinazione (quota di variabilità riprodotta dalla relazione) Forma della relazione (lineari/non lineari) 1 Statistica bivariata Relazioni spurie Non sempre quando osserviamo una relazione bivariata statisticamente significativa tra due variabili dobbiamo concludere che tra i due fenomeni esista una relazione di causa effetto •Perché i danni provocati dagli incendi crescono con il crescere del numero di autobotti dei pompieri inviate sul posto? •Come mai dove ci sono più cicogne nascono più bambini? • Come mai dove c’è un basso tasso di matrimoni con rito religioso c’è un tasso di mortalità più basso? (Yule) 2 1 Statistica bivariata Relazioni spurie N° di bambini N° di cicogne Analizzando la relazione che esiste tra numero di nascite e popolazione di cicogne si osserva una relazione significativa (r=.88) 3 Statistica bivariata Relazioni spurie N° di bambini N° di cicogne Inserendo una terza variabile (ruralità della zona) la relazione scompare (r=.04) 4 2 Statistica bivariata Tabella di contingenza Obbligo Media Laurea superiore Totale Maschi 7 12 10 29 Femmine 8 9 12 29 Totale 15 21 22 58 5 Statistica bivariata Tabella di contingenza Obbligo Y1 Media Laurea superiore Y2 Y3 Totale Marginale Di Riga Maschi X1 n11 n12 n13 n1. Femmine X2 n21 n22 n23 n2. Totale n.1 n.2 n.3 N Marginale di colonna Totale complessivo 6 3 Statistica bivariata Tabella di contingenza La frequenza contenuta in una generica cella verrà indicata come nij dove i rappresenta una delle I righe e j una delle J colonne I J n = ∑n n = ∑n i. .j ij j =1 J I ∑n = ∑n j =1 .j i =1 i. ij i =1 =N 7 Statistica bivariata Tabella di contingenza In una tabella di contingenza si possono calcolare tre tipi di percentuali o relative Percentuali di riga numeratore denominatore Frequenza di cella Marginale di riga Percentuali di colonna Frequenza di cella Percentuali di cella Frequenza di cella Marginale di colonna Marginale totale formula n n q =n n q =n n q r i, j c i, j = i, j i. i, j .j i, j i, j .. 8 4 Statistica bivariata Tabella di contingenza % di riga I tre tipi di percentuale rimandano a significati differenti Obbligo Laurea Totale 12 9 10 12 29 29 15 21 22 58 Femmine Totale M.sup. 7 8 Maschi Obbligo M.sup. 0,24 0,28 0,26 Maschi Femmine Totale Laurea 0,41 0,31 0,36 Totale 0,34 0,41 0,38 1,00 1,00 9 Statistica bivariata Tabella di contingenza % di colonna I tre tipi di percentuale rimandano a significati differenti Obbligo Maschi Femmine Totale M.sup. Laurea Totale 7 8 12 9 10 12 29 29 15 21 22 58 Obbligo Maschi Femmine Totale 0,47 0,53 1,00 M.sup. 0,57 0,43 1,00 Laurea 0,45 0,55 1,00 Totale 0,50 0,50 10 5 Statistica bivariata Tabella di contingenza % di cella I tre tipi di percentuale rimandano a significati differenti Obbligo Maschi Femmine Totale M.sup. Laurea Totale 7 8 12 9 10 12 29 29 15 21 22 58 Obbligo M.sup. 0,12 0,14 0,26 Maschi Femmine Totale Laurea 0,21 0,16 0,36 Totale 0,17 0,21 0,38 0,50 0,50 1,00 11 Statistica bivariata Tabella di contingenza % di riga Si possono utilizzare rappresentazioni grafiche differenti Obbligo Maschi Femmine Totale M.sup. 0,24 0,28 0,26 Laurea 0,41 0,31 0,36 Totale 0,34 0,41 0,38 1,00 1,00 0,50 0,41 0,40 0,28 0,30 0,31 0,41 Maschi Femmine 0,34 0,24 0,20 0,10 Femmine 0,00 Obbligo Maschi M.sup. Laurea 12 6 Statistica bivariata Tabella di contingenza % di colonna Obbligo Maschi Femmine Totale M.sup. 0,47 0,53 1,00 Laurea 0,57 0,43 1,00 Totale 0,45 0,55 1,00 0,50 0,50 100% 75% 0,43 0,53 0,55 Femmine Maschi 50% 25% 0% 0,57 0,47 Obbligo M.sup. 0,45 Laurea 13 Statistica bivariata Operatori di connessione - Chi quadrato Obbligo M. Superiore Laurea Totale Maschi 7 12 10 29 Femmine 8 9 12 29 Totale 15 21 22 58 Il test del chi quadrato opera un confronto tra le frequenza osservate e quelle che teoricamente avremmo osservato stante la situazione di indipendenza tra la variabile X e la variabile Y 14 7 Statistica bivariata Operatori di connessione - Chi quadrato Maschi Femmine Totale Obbligo M. Superiore Laurea Totale 0,12 0,14 0,26 0,21 0,16 0,36 0,17 0,21 0,38 0,50 0,50 1,00 Se trasformiamo le frequenze assolute in frequenze relative possiamo interpretare i marginali di riga e di colonna come la probabilità di osservare una particolare modalità delle due variabili. La probabilità di osservare congiuntamente due modalità (es: maschi laureati) è definita dal prodotto delle due probabilità. La frequenza attesa in ogni cella è dunque data dal prodotto della 15 probabilità congiunta e il totale dei soggetti Statistica bivariata Operatori di connessione - Chi quadrato Probabilità congiunte osservate Maschi Femmine Totale Obbligo M. Superiore Laurea Totale 0,12 0,14 0,26 0,21 0,16 0,36 0,17 0,21 0,38 0,50 0,50 1,00 Obbligo M. Superiore Laurea Totale 0,13 0,13 0,26 0,18 0,18 0,36 0,19 0,19 0,38 0,50 0,50 16 1,00 Probabilità congiunte attese Maschi Femmine Totale 8 Statistica bivariata Operatori di connessione - Chi quadrato n n = * n N N ∧ Frequenza teorica i. .j ij *n n *N = i. .j N 2 ∧ Chi quadro χ 2 = I ∑ i=1 J ∑ n ij − n ij j=1 ∧ n ij 17 Statistica bivariata Operatori di connessione - Chi quadrato Il valore critico di Chi quadro viene definito sulla base del livello di errore alfa (α) e dei gradi di libertà (ν) I gradi di libertà sono dati da (I-1)*(J-1) 18 9 Statistica bivariata Operatori di connessione - Chi quadrato Frequenze osservate Obbligo M. Superiore Laurea Totale Maschi 7 12 10 29 Femmine 8 9 12 29 Totale 15 21 22 58 Frequenze attese Obbligo M. Superiore Laurea Totale 10.5 11,0 29 Femmine (29*15)/58= 7,5 7,5 10.5 11,0 29 Totale 15 21 22 Maschi 19 58 Statistica bivariata Operatori di connessione - Chi quadrato χ cal = 2 (7−7,5) 2 (8−7,5) 2 (12−10,5) 2 7,5 + Gdl= (2-1)*(3-1) = 2 Alfa= 0.05 7,5 + 10,5 χ 2 crit ... = 0.68 = 5.991 Poiché il chi quadro calcolato è inferire al chi quadro critico accetto l’ipotesi nulla (assenza di relazione) 20 10