Statistica e informatica Statistica descrittiva:variabili doppie Francesco Pauli & Nicola Torelli A.A. 2016/2017 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Solo una variabile... Finora abbiamo trattato di come I rappresentare graficamente, I sintetizzare numericamente (con medie, mediane, varianze, eccetera), singole variabili, in modo da descrivere l’insieme delle unità statistiche rispetto a quel particolare carattere. Altezze degli studenti 0 0.00 20 0.01 40 0.02 60 0.03 80 Libri letti dagli studenti 150 160 170 180 190 Altezza media=169 Altezza mediana=168 SD altezza=7.69 Francesco Pauli & Nicola Torelli 200 0 1 2 3 4 5 6 7 8 9 10 12 16 25 # libri medio=2.85 # libri mediano=2 SD # libri=4.2 Statistica descrittiva:variabili doppie 2 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili ... o quasi A ben vedere, in molti casi abbiamo guardato congiuntamente a due variabili. 0.00 0.03 Altezze degli studenti maschi Altezza media e mediana 160 170 180 190 I maschi: 181.2; 181; I femmine: 166.8; 167 0.00 0.03 0.06 Altezze degli studenti femmine 160 170 180 Francesco Pauli & Nicola Torelli 190 Statistica descrittiva:variabili doppie 3 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili ... o quasi A ben vedere, in molti casi abbiamo guardato congiuntamente a due variabili. # libri 0.15 0.20 Femmina Maschio I maschi: 2.3; 2; I femmine: 2.8; 2 0.00 0.05 0.10 # Libri medio e mediano 0 2 4 6 8 10 Francesco Pauli & Nicola Torelli 12 16 25 Statistica descrittiva:variabili doppie 3 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili ... o quasi A ben vedere, in molti casi abbiamo guardato congiuntamente a due variabili. • In particolare, ogniqualvolta abbiamo confrontato le distribuzioni di Y condizionate a diversi valori assunti da una seconda variabile X (di per sé, come abbiamo visto, usando gli stessi strumenti che usiamo per la distribuzione marginale di Y ). • Si ha una distribuzione doppia quando si esaminano congiuntamente due caratteri nelle unità statistiche del collettivo. • Come nel caso di distribuzioni relative ad un singolo carattere, si parlerà di distribuzioni doppie disaggregate quando si elencano le N coppie di modalità e di distribuzioni doppie di frequenze, quando le osservazioni sono aggregate per modalità o classi. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 3 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Indice Variabili statistiche bivariate Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 4 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: ore di sonno e genere Consideriamo la variabile doppia: (Y , X )=(ore di sonno, genere). La distribuzione di frequenze assolute è data da Y 0 2 4 5 6 7 8 9 10 12 Totale Francesco Pauli & Nicola Torelli totale X X = Fem 1 0 0 4 17 62 83 16 4 1 188 X = Mas 0 1 2 2 26 64 68 22 3 0 188 1 1 2 6 43 126 151 38 7 1 376 Statistica descrittiva:variabili doppie 5 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: ore di sonno e genere La distribuzione doppia appena vista “contiene" varie distribuzioni di frequenza. Infatti: I Il “centro” della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y , X ): mostra cioè la distribuzione congiunta. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: ore di sonno e genere La distribuzione doppia appena vista “contiene" varie distribuzioni di frequenza. Infatti: I Il “centro” della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y , X ): mostra cioè la distribuzione congiunta. I La 1a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le femmine, cioè la distribuzione della variabile condizionata (Y |X = Fem). Analogamente, la 2a mostra la distribuzione della variabile condizionata (Y |X = Mas). Quindi, le colonne riportano le distribuzioni della variabile condizionata Y |X . Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: ore di sonno e genere La distribuzione doppia appena vista “contiene" varie distribuzioni di frequenza. Infatti: I Il “centro” della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y , X ): mostra cioè la distribuzione congiunta. I La 1a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le femmine, cioè la distribuzione della variabile condizionata (Y |X = Fem). Analogamente, la 2a mostra la distribuzione della variabile condizionata (Y |X = Mas). Quindi, le colonne riportano le distribuzioni della variabile condizionata Y |X . I La 1a riga mostra, tra le persone che dormono 4 ore per note, quante sono femmine e quanti maschi, cioè la distribuzione della variabile condizionata (X |Y = 4). Quindi, le righe riportano le distribuzioni della variabile condizionata X |Y . Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: ore di sonno e genere La distribuzione doppia appena vista “contiene" varie distribuzioni di frequenza. Infatti: I Il “centro” della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y , X ): mostra cioè la distribuzione congiunta. I La 1a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le femmine, cioè la distribuzione della variabile condizionata (Y |X = Fem). Analogamente, la 2a mostra la distribuzione della variabile condizionata (Y |X = Mas). Quindi, le colonne riportano le distribuzioni della variabile condizionata Y |X . I La 1a riga mostra, tra le persone che dormono 4 ore per note, quante sono femmine e quanti maschi, cioè la distribuzione della variabile condizionata (X |Y = 4). Quindi, le righe riportano le distribuzioni della variabile condizionata X |Y . I L’ultima colonna, mostra la distribuzione delle ore di sonno senza riguardo al genere. L’ultima riga, invece, mostra la distribuzione della variabile Genere. Sono cioè rappresentate le distribuzioni marginali. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: ore di TV e Sanremo Consideriamo la variabile doppia: (Y , X )=(ore di TV, Sanremo). La distribuzione di frequenze assolute (per tutti gli studenti) è data da Y 0 1 2 3 4 5 6 7 8 10 11 12 13 14 15 16 17 18 20 21 25 30 41 42 Totale Francesco Pauli & Nicola Torelli X = NonV 23 13 26 20 17 20 14 22 16 32 0 8 1 12 12 1 1 2 6 2 3 3 0 0 254 X totale X = VeNP X = VeP 0 1 24 2 0 15 1 2 29 1 3 24 2 3 22 2 5 27 3 7 24 3 3 28 2 2 20 5 17 54 1 0 1 1 3 12 0 0 1 5 2 19 2 6 20 0 1 2 0 0 1 0 0 2 1 9 16 0 3 5 0 2 5 0 1 4 1 0 1 1 0 1 33 70 357 Statistica descrittiva:variabili doppie 7 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella a doppia entrata Una distribuzione doppia di frequenze è normalmente chiamata tabella (di contigenza) a doppia entrata. In generale, una tabella di contingenza (con due variabili) si presenta nella forma: Y y1 .. . x1 n11 .. . ··· ··· yi .. . ni1 .. . ··· ys totale ns1 n01 ··· ··· Francesco Pauli & Nicola Torelli X xj n1j .. . ··· ··· xt n1t .. . totale n10 .. . nij .. . ··· nit .. . ni0 .. . nsj n0j ··· ··· nst n0t ns0 N Statistica descrittiva:variabili doppie 8 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella a doppia entrata (cont) Nella tabella I X e Y sono le due variabili considerate Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella a doppia entrata (cont) Nella tabella I X e Y sono le due variabili considerate I {x1 , . . . , xt } sono le modalità di X Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella a doppia entrata (cont) Nella tabella I X e Y sono le due variabili considerate I {x1 , . . . , xt } sono le modalità di X I {y1 , . . . , ys } sono le modalità di Y Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella a doppia entrata (cont) Nella tabella I X e Y sono le due variabili considerate I {x1 , . . . , xt } sono le modalità di X I {y1 , . . . , ys } sono le modalità di Y I nij è la frequenza congiunta assoluta per Y = yi e X = xj Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella a doppia entrata (cont) Nella tabella I X e Y sono le due variabili considerate I {x1 , . . . , xt } sono le modalità di X I {y1 , . . . , ys } sono le modalità di Y I nij è la frequenza congiunta assoluta per Y = yi e X = xj P n0j , è il totale della colonna j, n0j = si=1 nij . I Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella a doppia entrata (cont) Nella tabella I X e Y sono le due variabili considerate I {x1 , . . . , xt } sono le modalità di X I {y1 , . . . , ys } sono le modalità di Y I nij è la frequenza congiunta assoluta per Y = yi e X = xj P n0j , è il totale della colonna j, n0j = si=1 nij . Quindi è la frequenza assoluta marginale per la modalità xj di X . P ni0 , è il totale della riga i: ni0 = tj=1 nij . Quindi è la frequenza assoluta marginale per la modalità yi di Y . I I NB. La scelta di quale variabile (X o Y ) mettere sulle righe/colonne e quale indice massimo (s o t) associare alle modalità delle variabili è libera. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Titanic Il transatlantico britannico RMS Titanic affonda a seguito della collisione con un iceberg nella notte tra il 14 e il 15 aprile 1912. Delle 2201 persone a bordo tra passeggeri ed equipaggio, sopravvivono solo 711. Tra le polemiche che seguono al naufragio c’è chi sostiene che i passeggeri di III classe vennero trascurati nelle operazioni di evacuazioni, dando preferenza ai “ricchi”. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 10 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Titanic I Cl. II Cl. III Cl. Equipaggio Deceduto 122 167 528 673 Sopravv. 203 118 178 212 I dati a disposizione sono riassumibili in una tabella a doppia entrata, in cui si riporta il numero di sopravvissuti e di deceduti a seconda della classe di appartenenza. Il sospetto per cui i passeggeri di III classe vennero trascurati si traduce nel dire che le due caratteristiche osservate: sopravvivenza e classe, sono legate. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 11 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: il disastro del Titanic Nome nome 1 nome 2 nome 3 .. . Passeggero (tipologia) II III I .. . Sopravvivenza sopravvissuto non sopravvissuto non sopravvissuto .. . nome 2201 equipaggio sopravvissuto Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 12 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: il disastro del Titanic Tabella a doppia entrata per le variabili Passeggero (tipologia) e Sopravvivenza Morto Sopravv. Totale 1st 122 203 325 2nd 167 118 285 3rd 528 178 706 Crew 673 212 885 I 118 passeggeri di seconda classe sopravvissero I 178 passeggeri di terza classe sopravvissero Totale 1490 711 2201 I passeggeri di terza classe avevano minori chance di sopravvivere? Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 13 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: il disastro del Titanic Alla domanda precedente si risponde meglio guardando alle frequenze relative (o percentuali). Morto Sopravv. freq. ass. % di colonna freq. ass. % di colonna Totale 1st 122 37.5% 203 62.5% 325 2nd 167 58.6% 118 41.4% 285 3rd 528 74.8% 178 25.2% 706 Crew 673 76.0% 212 24.0% 885 I In seconda classe, sopravvisse il 41.4% dei passeggeri I In terza, sopravvisse il 25.2% dei passeggeri Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie Totale 1490 67.7% 711 32.3% 2201 14 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella a doppia entrata (cont) Come l’esempio del Titanic dimostra, il calcolo delle frequenze relative in una tabella a doppia entrata è più delicato, perché la tabella contiene tante distribuzioni. Morto Sopravv. freq. ass. % di colonna freq. ass. % di colonna Totale 1st 122 37.5% 203 62.5% 325 2nd 167 58.6% 118 41.4% 285 3rd 528 74.8% 178 25.2% 706 Crew 673 76.0% 212 24.0% 885 Totale 1490 67.7% 711 32.3% 2201 Qui, abbiamo calcolato le frequenze percentuali della variabile condizionata Sopravvivenza|Passeggero. Questa sono le distribuzioni condizionate rilevanti se l’obiettivo è studiare la Sopravvivenza, come variabile risposta confrontando le distribuzioni consizionate di tale variabile per ogni modalità della variabile concomitante Passeggero Si noti che, per ogni tipologia di passeggero, le percentuali sommano a 100. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 15 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella a doppia entrata per un verso... In generale, le frequenze relative per le distribuzioni di Y |X si calcolano a partire dalle frequenze assolute così: Y y1 .. . x1 n11 /n01 .. . ··· ··· yi .. . ni1 /n01 .. . ··· ys totale ns1 /n01 1 ··· ··· Francesco Pauli & Nicola Torelli X xj n1j /n0j .. . ··· ··· xt n1t /n0t .. . totale n10 /N .. . nij /n0j .. . ··· nit /n0t .. . ni0 /N .. . nsj /n0j 1 ··· ··· nst /n0t 1 ns0 /N 1 Statistica descrittiva:variabili doppie 16 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili ...e per un altro... Viceversa, le frequenze relative per le distribuzioni di X |Y si calcolano a partire dalle frequenze assolute così: Y y1 .. . x1 n11 /n10 .. . ··· ··· yi .. . ni1 /ni0 .. . ··· ys totale ns1 /ns0 n01 /N ··· ··· Francesco Pauli & Nicola Torelli X xj n1j /n10 .. . ··· ··· xt n1t /n10 .. . totale 1 .. . nij /ni0 .. . ··· nit /ni0 .. . 1 .. . nsj /ns0 n0j /N ··· ··· nst /ns0 n0t /N 1 1 Statistica descrittiva:variabili doppie 17 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili ...o “per tutti e due” Infine, possiamo costruire le frequenze relative per la distribuzione congiunta di (X , Y ), che si calcolano a partire dalle frequenze assolute così: Y y1 .. . x1 n11 /N .. . ··· ··· yi .. . ni1 /N .. . ··· ys totale ns1 /N n01 /N ··· ··· Francesco Pauli & Nicola Torelli X xj n1j /N .. . ··· ··· xt n1t /N .. . totale n10 /N .. . nij /N .. . ··· nit /N .. . ni0 /N .. . nsj /N n0j /N ··· ··· nst /N n0t /N ns0 /N 1 Statistica descrittiva:variabili doppie 18 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Il disastro del Titanic Morto Sopravv. Totale freq. ass. % di colonna % di riga % congiunta freq. ass. % di colonna % di riga % congiunta % di colonna % di riga % congiunta Francesco Pauli & Nicola Torelli 1st 122 37.5% 8.2% 5.6% 203 62.5% 28.6% 9.2% 325 100% 14.8% 14.8% 2nd 167 58.6% 11.2% 7.6% 118 41.4% 16.6% 5.4% 285 100% 12.9% 12.9% 3rd 528 74.8% 35.4% 24.0% 178 25.2% 25.0% 8.1% 706 100% 32.1% 32.1% Crew 673 76.0% 45.2% 30.6% 212 24.0% 29.8% 9.6% 885 100% 40.2% 40.2% Statistica descrittiva:variabili doppie Totale 1490 67.7% 100.0% 67.7% 711 32.3% 100.0% 32.3% 2201 100% 100.0% 100.0% 19 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Indice Variabili statistiche bivariate Rappresentazioni grafiche Distribuzioni multiple Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 20 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Rappresentazioni grafiche Anche nel caso di variabili statistiche bivariate, le rappresentazioni grafiche aiutano molto (se ben fatte) ad interpretare i dati. • La rappresentazione dipende dalla natura delle variabili (qualitativi, quantitativi) e dalla forma in cui ci sono forniti i dati (aggregata/non aggregata). • Abbiamo già visto alcune di queste rappresentazioni (verranno richiamate per dare loro un nome); altre sono nuove. • Per ogni grafico, si provi a fornire una lettura di quanto il grafico ci sta dicendo. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 21 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Istogrammi appaiati (side-by-side histograms) I I I Y → Peso degli studenti (quantitativa continua) X → Genere (qualitativa) rappresentazione di Y |X . 0.00 0.02 0.04 Peso degli studenti maschi 50 60 70 80 90 100 0.00 0.03 Peso degli studenti femmine 50 Francesco Pauli & Nicola Torelli 60 70 80 90 100 Statistica descrittiva:variabili doppie 22 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Diagrammi a scatola appaiati (multiple boxplots) I I 50 60 70 80 90 100 I Y → Peso degli studenti (quantitativa continua) X → Genere (qualitativa) rappresentazione di Y |X . Femmina Francesco Pauli & Nicola Torelli Maschio Statistica descrittiva:variabili doppie 23 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Diagrammi a barre condizionati I I 1.0 I Y → Classe / Equipaggio X → Sopravvivenza rappresentazione di Y |X . 0.0 0.2 0.4 0.6 0.8 Crew 3rd 2nd 1st No Francesco Pauli & Nicola Torelli Yes Statistica descrittiva:variabili doppie 24 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Diagrammi a barre condizionati I Y → Classe / Equipaggio I X → Sopravvivenza I rappresentazione di Y |X . Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 25 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Prima le donne e i bambini? Morto Sopravv. Totale Donne e Bambini 161 373 534 Francesco Pauli & Nicola Torelli Maschi adulti 1329 338 1667 Totale 1490 711 2201 Statistica descrittiva:variabili doppie 26 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Prima le donne e i bambini? 0 0.0 0.2 500 0.4 0.6 1000 0.8 1500 1.0 Cosa rappresentano i due grafici? Donne e Bambini Francesco Pauli & Nicola Torelli Maschi adulti Donne e Bambini Maschi adulti Statistica descrittiva:variabili doppie 27 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Indice Variabili statistiche bivariate Rappresentazioni grafiche Distribuzioni multiple Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 28 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Variabili statistiche multivariate (cenno) L’idea di variabile statistica bivariata può essere generalizzata senza difficoltà. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 29 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Variabili statistiche multivariate (cenno) L’idea di variabile statistica bivariata può essere generalizzata senza difficoltà. Si parla di variabile statistica I trivariata, se si considerano congiuntamente tre caratteri; I quadrivariata, se si considerano congiuntamente quattro caratteri; I in generale, multivariata, se si considerano congiuntamente almeno due caratteri; Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 29 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Distribuzioni di frequenza multiple (cenno) Anche le distribuzioni di frequenza si generalizzano di conseguenza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 30 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Distribuzioni di frequenza multiple (cenno) Anche le distribuzioni di frequenza si generalizzano di conseguenza. Si parla di distribuzione di frequenza I tripla, se mostra la distribuzione di una variable statistica trivariata; I quadrupla, se mostra la distribuzione di una variable statistica quadrivariata; I in generale, multipla, se si considera una variable statistica multivariata; Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 30 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: esiti ammissione a Berkeley, 1973 I dati che abbiamo mostrato, anche se organizzati in forma non tabellare, rappresentano una distribuzione di frequenza tripla. Admit Admitted Rejected Admitted Rejected Admitted Rejected Admitted Rejected Admitted Rejected Admitted Rejected Admitted Rejected Admitted Rejected Admitted Rejected Admitted Rejected Admitted Rejected Admitted Rejected Francesco Pauli & Nicola Torelli Gender Male Male Female Female Male Male Female Female Male Male Female Female Male Male Female Female Male Male Female Female Male Male Female Female Dept A A A A B B B B C C C C D D D D E E E E F F F F Frequenza assoluta 512 313 89 19 353 207 17 8 120 205 202 391 138 279 131 244 53 138 94 299 22 351 24 317 Statistica descrittiva:variabili doppie 31 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: esiti ammissione a Berkeley, 1973 In forma tabellare: Dept Gender A Male Female Male Female Male Female Male Female Male Female Male Female B C D E F Francesco Pauli & Nicola Torelli Admit Admitted Rejected 512 313 89 19 353 207 17 8 120 205 202 391 138 279 131 244 53 138 94 299 22 351 24 317 Statistica descrittiva:variabili doppie 32 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Indice Variabili statistiche bivariate Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 33 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Indice Variabili statistiche bivariate Associazione tra variabili Dipendenza e indipendenza Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 34 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Relazioni tra variabili A ben vedere, il commento più naturale che abbiamo fatto leggendo i grafici precedenti era del tipo: il comportamento di questa variabile cambia al cambiare dell’altra, oppure, questa variabile è influenzata da quest’altra. • Quindi, quando guardiamo a più di una variabile, viene naturale esplorare se esiste una qualche associazione tra le stesse. I Quando due variabili mostrano qualche forma di connessione tra loro, si parla di associazione o dipendenza. I Quando due variabili non mostrano alcuna forma di connessione tra loro, si parla di indipendenza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 35 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Sulla base del diagramma a dispersione sulla destra, quale delle seguenti affermazioni è corretta? Altezza degli studenti Esercizio 190 180 170 160 50 60 70 80 90 100 Peso degli studenti (a) Non c’è relazione tra altezza e peso; (b) altezza e peso sono associati (positivamente); (c) altezza e peso sono associati (negativamente); (d) un peso maggiore causa una maggiore altezza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 36 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esercizio # amici di Facebook 1e+05 1e+04 Sulla base del diagramma a dispersione sulla destra, quale delle seguenti affermazioni è corretta? 1e+03 1e+02 1e+01 0 5 10 15 20 25 # libri letti (a) Non c’è relazione tra numero di libri e numero di amici di Facebook; (b) numero di libri e numero di amici di Facebook sono associati (positivamente); (c) numero di libri e numero di amici di Facebook sono associati (negativamente); (d) un maggior numero di libri letti causa un maggior/minor numero di amici su Facebook. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 37 / 63 • • Associazione tra variabili Variabili statistiche bivariate • Relazioni tra variabili Esercizio Peso del neonato Sulla base del diagramma a dispersione, sembra esserci associazione tra il peso alla nascita e la durata della gravidanza da madri fumatrici e non fumatrici? Madri non fumatrici Madri fumatrici 3400 3200 3000 2800 2600 2400 34 36 38 40 42 Durata della gravidanza Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 38 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Riprendiamo il Titanic Riprendiamo la tabella che abbiamo analizzato in precedenza Morto Sopravv. freq. ass. % di colonna freq. ass. % di colonna Totale 1st 122 37.5% 203 62.5% 325 2nd 167 58.6% 118 41.4% 285 3rd 528 74.8% 178 25.2% 706 Crew 673 76.0% 212 24.0% 885 Totale 1490 67.7% 711 32.3% 2201 I passeggeri di terza classe avevano minori chance di sopravvivere? Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 39 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Riprendiamo il Titanic (cont) Per rispondere, abbiamo guardato alla variabile condizionata Sopravvivenza|Tipologia. Sembrerebbe sensato affermare che l’esito dipende dalla classe. Morto Sopravv. Totale 1st 37.5% 62.5% 100% 2nd 58.6% 41.4% 100% 3rd 74.8% 25.2% 100% Crew 76.0% 24.0% 100% Totale 67.7% 32.3% 100% Y (L’esito) dipende da X (la classe in cui viaggiava il passeggero) poichè le distribuzioni di Y condizionate ad X sono diverse nel senso che hanno frequenze relative diverse Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 40 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Indipendenza in distribuzione Diciamo che Y è indipendente in distribuzione da X se, per qualsivoglia i = 1, . . . , s, nij ni2 nit ni1 = = ··· = = ··· = n01 n02 n0j n0t Altrimenti, diremo che Y dipende in distribuzione da X . • Se le distribuzioni condizionate di Y dato X sono uguali tra di loro, allora sono anche uguali alla distribuzione marginale di Y . L’uguaglianza, al solito, deve essere intesa nel senso delle frequenze relative. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 41 / 63 • Variabili statistiche bivariate Y y1 y2 .. . x1 n11 n01 n21 n01 ··· ··· ··· yi .. . ni1 n01 ··· ys totale ns1 n01 ··· ··· Francesco Pauli & Nicola Torelli .. . n1j n01 n2j n01 ··· ··· ··· nij n01 ··· nsj n01 ··· ··· .. . .. . 1 X xj • Associazione tra variabili totale nit n0t ni0 N nst n0t ns0 N .. . .. . 1 xt n1t n0t n2t n0t .. . • Relazioni tra variabili n10 N n20 N .. . .. . 1 Statistica descrittiva:variabili doppie 42 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Indipendenza in distribuzione (cont) Per dimostrare la proposizione ci basta far vedere che ni1 ni0 = , i = 1, . . . , s. N n01 Ora, dalla (41) segue che nij = (ni1 n0j )/n01 . Quindi, Pt Pt ni0 j=1 nij j=1 ni1 n0j = = = N N Nn01 Pt ni1 j=1 n0j Nni1 ni1 = = = . Nn01 Nn01 n01 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 43 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: indipendenza in distribuzione y1 y2 y3 y4 Sum y1 y2 y3 y4 totale x1 0.083 0.500 0.250 0.167 1.000 Francesco Pauli & Nicola Torelli x1 5 30 15 10 60 x2 7 42 21 14 84 x2 0.083 0.500 0.250 0.167 1.000 x3 3 18 9 6 36 x3 0.083 0.500 0.250 0.167 1.000 x4 2 12 6 4 24 Sum 17 102 51 34 204 x4 0.083 0.500 0.250 0.167 1.000 marginale 0.083 0.500 0.250 0.167 1.000 Statistica descrittiva:variabili doppie 44 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Simmetria dell’indipendenza in distribuzione SeY è indipendente da X allora X è indipendente da Y e viceversa. Dimostrazione. Se Y è indipendente da X allora nij ni0 = , i = 1, . . . , s; j = 1, . . . , t. n0j N Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie (1) 45 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Simmetria dell’indipendenza in distribuzione SeY è indipendente da X allora X è indipendente da Y e viceversa. Dimostrazione. Se Y è indipendente da X allora nij ni0 = , i = 1, . . . , s; j = 1, . . . , t. n0j N (1) che può essere riscritta nella forma nij n0j = , i = 1, . . . , r ; j = 1, . . . , c ni0 N ovvero, l’indipendenza in distribuzione di Y da X implica l’uguaglianza di tutte le distribuzioni condizionate di X dato Y alla distribuzione marginale di X . Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 45 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Simmetria dell’indipendenza in distribuzione SeY è indipendente da X allora X è indipendente da Y e viceversa. Dimostrazione. Se Y è indipendente da X allora nij ni0 = , i = 1, . . . , s; j = 1, . . . , t. n0j N (1) che può essere riscritta nella forma nij n0j = , i = 1, . . . , r ; j = 1, . . . , c ni0 N ovvero, l’indipendenza in distribuzione di Y da X implica l’uguaglianza di tutte le distribuzioni condizionate di X dato Y alla distribuzione marginale di X . Quindi, tutte le distribuzioni condizionate di X dato Y sono tra di loro uguali. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 45 / 63 • • Associazione tra variabili Variabili statistiche bivariate • Relazioni tra variabili Esempio: indipendenza in distribuzione y1 y2 y3 y4 Sum y1 y2 y3 y4 marginale Francesco Pauli & Nicola Torelli x1 5 30 15 10 60 x1 0.294 0.294 0.294 0.294 0.294 x2 7 42 21 14 84 x2 0.412 0.412 0.412 0.412 0.412 x3 3 18 9 6 36 x4 2 12 6 4 24 x3 0.176 0.176 0.176 0.176 0.176 Sum 17 102 51 34 204 x4 0.118 0.118 0.118 0.118 0.118 totale 1.000 1.000 1.000 1.000 1.000 Statistica descrittiva:variabili doppie 46 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Frequenze attese Poniamo ni0 n0j . N Se esiste indipendenza tra le due variabili, nij = n̂ij per qualsivoglia i e per qualsivoglia j, ovvero, le n̂ij sono le frequenze che ci aspettiamo di trovare quando esiste indipendenza. n̂ij = Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 47 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Frequenze attese Poniamo ni0 n0j . N Se esiste indipendenza tra le due variabili, nij = n̂ij per qualsivoglia i e per qualsivoglia j, ovvero, le n̂ij sono le frequenze che ci aspettiamo di trovare quando esiste indipendenza. n̂ij = Per questo motivo, le n̂ij sono chiamate le frequenze attese (sotto l’ipotesi di indipendenza in distribuzione). Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 47 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Frequenze attese Poniamo ni0 n0j . N Se esiste indipendenza tra le due variabili, nij = n̂ij per qualsivoglia i e per qualsivoglia j, ovvero, le n̂ij sono le frequenze che ci aspettiamo di trovare quando esiste indipendenza. n̂ij = Per questo motivo, le n̂ij sono chiamate le frequenze attese (sotto l’ipotesi di indipendenza in distribuzione). Come è ovvio, le frequenze attese n̂ij ci mostrano anche come le frequenze marginali si comporterebbero nel caso di indipendenza in distribuzione. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 47 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Esempio: indipendenza in distribuzione x1 60×17 204 y1 5= y2 30= 60×12 204 x2 7= x3 x4 Sum 3 2 17 42 18 12 102 84×17 204 y3 15 21 9 6 51 y4 10 14 6 4 34 Sum 60 84 36 24 204 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 48 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili X2 L’indice di uso più comune per misurare la dipendenza in distribuzione si basa sul confronto tra frequenze attese e frequenze osservate. Si tratta del cosidetto X 2 di Pearson X2 = s X t X (nij − n̂ij )2 . n̂ij i=1 j=1 X2 è I sempre maggiore o uguale a zero I ed è uguale a 0 in caso di indipendenza (nij = n̂ij , per ogni i e per ogni j) I e cresce man mano che le frequenze osservate si allontano da quelle attese. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 49 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili X 2 (cont) Si può dimostrare che X 2 ≤ N · min(s − 1, t − 1). • Il massimo è raggiunto quando la distribuzione doppia assume una struttura particolare, quella di una tabella di dipendenza perfetta. • Si chiama tabella di dipendenza perfetta la tabella tale che ad ogni modalità del carattere X corrisponde una sola modalità del carattere Y . • Quindi, si può costruire un indice normalizzato X̃ 2 = X2 N · min(s − 1, t − 1) che assumerà valori tra 0 e 1: 0 ≤ X̃ 2 ≤ 1. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 50 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Tabella di dipendenza perfetta y1 y2 y3 y4 Sum Francesco Pauli & Nicola Torelli x1 x2 x3 x4 Sum 45 0 0 0 45 0 20 0 0 20 0 0 0 37 37 0 0 92 0 92 45 20 92 37 194 Statistica descrittiva:variabili doppie 51 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Indice Variabili statistiche bivariate Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 52 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Descrivere la dipendenza: diagramma di dispersione Il diagramma di dispersione è la rappresentazione delle coppie (x1 , y1 ), (x2 , y2 ), . . . (xN , yN ) ossia della distribuzione doppia disaggregata della variabile doppia (X , Y ). 190 I Si dice che tra X e Y c’è associazione positiva quando essi tendono a crescere insieme. I Si dice che tra X e Y c’è associazione negativa quando essi tendono decrescere insieme. Altezza degli studenti 185 180 175 170 165 160 155 50 60 70 80 Peso degli studenti Il diagramma di dispersione è uno strumento per esplorare graficamente la presenza di associazione positiva o negativa tra due caratteri. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 53 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Misurare l’associazione I Il punto rosso è il punto di coordinate (x̄, ȳ ). 190 185 Altezza degli studenti 180 175 170 + 165 160 155 50 60 70 80 Peso degli studenti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 54 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Misurare l’associazione I I Il punto rosso è il punto di coordinate (x̄, ȳ ). Valori maggiori della media di X corrispondono a valori maggiori della media per Y . Valori inferiori alla media di X corrispondono a valori inferiori alla media per Y . 190 185 180 Altezza degli studenti I 175 170 + 165 160 155 50 60 70 80 Peso degli studenti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 54 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Misurare l’associazione I I I Il punto rosso è il punto di coordinate (x̄, ȳ ). Valori maggiori della media di X corrispondono a valori maggiori della media per Y . Valori inferiori alla media di X corrispondono a valori inferiori alla media per Y . più osservazioni cadono nelle regioni contrassegnate da un “+” rispetto a quante ne cadono nelle regioni contrassegnate da un “-” più è manifesta l’associazione. Francesco Pauli & Nicola Torelli 190 185 180 Altezza degli studenti I − + 175 170 165 160 + + − 155 50 60 70 80 Peso degli studenti Statistica descrittiva:variabili doppie 54 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili La covarianza Questo suggerisce di partire dalla seguente quantità σXY = N 1 X (xi − x)(yi − y ) N i=1 dove (xi , yi ), i = 1, . . . , N, sono i dati disponibili su due variabili numeriche, mentre x e y indicano le due medie aritmetiche. • σXY è detta covarianza. Il suo numeratore è detto codevianza, indicata con CXY . Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 55 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili La covarianza (cont) 1. In presenza di una qualche forma di relazione monotona, più è forte la relazione tra le due variabili più ci aspettiamo che la covarianza diventi grande in valore assoluto. Infatti, più è forte la relazione, più grande dovrebbe essere il numero di addendi concordi nella somma. Inoltre, un certo numero di addendi sarà il prodotto di scarti dalle media grandi in valore assoluto. 2. In assenza di una qualche forma di relazione monotona tra le due variabili, viceversa, gli addendi saranno in parte positivi ed in parte negativi. Quindi in questi casi ci aspettiamo che la covarianza risulti nulla o comunque vicina allo zero. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 56 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Altezza degli studenti Covarianza: esempio 190 185 180 175 170 165 160 155 + 70 80 90 100 Voto di matura Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 57 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili 190 185 180 175 170 165 160 155 Altezza degli studenti Altezza degli studenti Covarianza: esempio + 70 80 90 190 185 180 175 170 165 160 155 + 100 50 Voto di matura 1 N P i xi yi = 1.39021 × 104 x̄ = 82.1034 ȳ = 169 σXY = 26.5862 Francesco Pauli & Nicola Torelli 60 70 80 Peso degli studenti 1 N P i xi yi = 1.01191 × 104 x̄ = 59.5862 ȳ = 169 σXY = 49.0345 Statistica descrittiva:variabili doppie 58 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili 190 185 180 175 170 165 160 155 Altezza degli studenti (metri) Altezza degli studenti Covarianza: esempio + 70 80 90 1.90 1.85 1.80 1.75 1.70 1.65 1.60 1.55 + 100 50 60 Voto di matura 1 N P i xi yi = 1.39021 × 104 x̄ = 82.1034 ȳ = 169 σXY = 26.5862 Francesco Pauli & Nicola Torelli 70 80 Peso degli studenti 1 N P xi yi = 101.191 x̄ = 59.5862 ȳ = 1.69 σXY = 0.490345 i Statistica descrittiva:variabili doppie 58 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Grande quanto? L’esempio su altezza e peso illustra uno dei problemi connessi con l’utilizzo della covarianza. • L’interpretazione del segno non pone nessuno problema. La covarianza indica una associazione tendenzialmente positiva tra le due grandezze • Ma quanto “forte” è questa dipendenza? Per rispondere alla domanda avremmo bisogno di conoscere un estremo superiore, possibilmente con una chiara interpretazione, per il valore assoluto della covarianza. Si dimostra che −σY σX ≤ σXY ≤ σY σX . Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 59 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Il coefficiente di correlazione (lineare) I limiti per la covarianza suggeriscono che per affermare se la covarianza è “piccola” o è “grande” dobbiamo confrontarla con il prodotto degli scarti quadratici medi. • In altre parole, dobbiamo costruire l’indice normalizzato, chiamato coefficiente di correlazione (lineare) r= σXY . σX σY • Il coefficiente di correlazione è spesso indicato con la lettera greca ρ. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 60 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Interpretazione di r ora se ricordiamo che −σY σX ≤ σXY ≤ σY σX . dividendo tutti i membri di questa diseguaglianza per σY σX si ottiene −1 ≤ r ≤ +1 = −1 perfetta dipendenza lineare negativa tra X e Y r < 0 associazione negativa tra X e Y r = 0 assenza di relazione monotona tra X e Y r > 0 associazione positiva tra X e Y = +1 perfetta dipendenza lineare positiva tra X e Y Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 61 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Attenzione a cosa misura r 10000 I I dati si dispingono sulla curva Y = X 4. I la relazione è perfetta ma non lineare e non monotona. I r = 0.8852 I I dati si dispingono sulla curva Y = X 2. I la relazione è perfetta ma non lineare e non monotona. I r =0 8000 y 6000 4000 + 2000 0 2 4 6 8 10 x 4 y 3 2 + 1 0 −2 −1 0 Francesco Pauli & Nicola Torelli x 1 2 Statistica descrittiva:variabili doppie 62 / 63 • Variabili statistiche bivariate • Associazione tra variabili • Relazioni tra variabili Morale r misura la correlazione lineare tra le variabili. I Un valore di r inferiore in valore assoluto a 1 non implica necessariamente assenza di un legame perfetto tra le variabili, ma assenza di un legame lineare perfetto. I Un valore di r uguale a zero non implica necessariamente assenza di relazione tra le variabili, ma assenza di relazione lineare (più in generale, monotona). Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 63 / 63