Facoltà di Scienze Politiche Università di Macerata Corso di S Statistica So ociale Prof.ssa C. Davino L’analisi L analisi bivariata Distribuzioni di frequenza Genere Distribuzione unitaria multipla Corso di Statistica Sociale 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 : L’analisi bivariata d docente: t C Cristina i ti D Davino i a.a.: 2013-2014 Genere Tipo diploma Femmina Femmina Femmina Femmina Masc hio Femmina Femmina Femmina Femmina Femmina Masc hio Femmina Femmina Femmina Femmina Masc hio Masc hio Femmina Femmina Masc hio Masc hio Masc hio Femmina : IT C IT C Classic o IT C IT C Sc ientif. IT C Classic o IT C IT C Sc ientif. IT C Sc ientif. IT C IT C Sc ientif. Sc ientif. IT C Sc ientif. ientif IT C IT C IT C Sc ientif. : Maschio Femmina Totale Frequenza 97 130 227 Tipo diploma Liceo classico Liceo Scientifico ITC Altro Totale % 42,7 57,3 100,0 Frequenza 10 64 141 12 227 % 4,4 28,2 62,1 5,3 100,0 Tabella di contingenza gg Genere Maschio Femmina Totale Liceo classico 6 4 10 Tipo dploma Liceo ITC Scientifico 30 55 34 86 64 141 Relazioni statistiche o probabilistiche Non si individuano nessi di causa causa-effetto effetto Tabelle di contingenza Esempio Reddito / Consumi Consumi p.c. 5-10mila Reddito p.c. Di ti i Distinzione t variabili tra i bili indipendenti i di d ti e dipendenti di d ti Totale 10000-12500 12500-15000 10-15mila 275 151 14 15-20mila 28 151 165 14 358 20-25mila 20 25mila 14 14 413 96 537 83 83 193 1418 25-30mila Variabile indipendente Nominale Variabile dipendente Nominale Tabelle di contingenza Cardinale Analisi della varianza i Cardinale Regressione e correlazione l i Totale 15-20mila 317 316 592 440 Corso di S Statistica So ociale L’analisi L analisi bivariata Totale 97 130 227 Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Altro 6 6 12 Reddito p.c. Totale 5-10mila 10000-12500 12500-15000 10-15mila 275 151 14 15-20mila 28 151 165 14 358 20-25mila 20 25mila 14 14 413 96 83 193 1418 25-30mila 317 Totale 316 592 15-20mila Esempio Reddito / Consumi Consumi p.c. 5-10mila Reddito p.c. Distribuzioni marginali Totale 10000-12500 12500-15000 15-20mila 10-15mila 275 151 14 15-20mila 28 151 165 14 358 537 20-25mila 20 25mila 14 14 413 96 537 83 25-30mila 83 83 193 1418 440 317 Totale 316 592 440 Esempio Reddito / Consumi Consumi p.c. Reddito p.c. Totale 5-10mila 10000-12500 12500-15000 10-15mila 275 151 14 15-20mila 28 151 165 14 358 20-25mila 0 5 a 14 14 413 96 537 83 83 193 1418 25-30mila Totale 317 316 592 15-20mila 440 Distribuzioni marginali Distribuzioni condizionate Distribuzioni marginali Distribuzioni condizionate Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Tabelle di contingenza Corso di S Statistica So ociale Esempio Reddito / Consumi Tabelle di contingenza Corso di S Statistica So ociale Tabelle di contingenza Consumi p.c. Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Analisi delle tabelle di contingenza Esempio: Pratica religiosa / età 18-34 35-54 Oltre 54 totale Praticanti 223 313 182 718 Saltuari 266 317 88 671 Non praticanti 425 504 168 1097 totale 914 1134 438 2486 18-34 Tabella delle percentuali t li sull totale Praticanti Saltuari 35-54 Oltre 54 totale 9,0 12,6 7,3 28,9 10,7 12,7 3,5 26,9 Non praticanti 17,1 20,3 6,8 44,2 totale 36 8 36,8 45 6 45,6 17 6 17,6 100 18-34 35-54 totale Oltre 54 43,6 , 25,3 , 100 39,6 47,3 13,1 100 38,7 46,0 15,3 100 36,8 45,6 17,6 100 31,1 , Saltuari Non praticanti Totale Tabella delle percentuali di riga 18-34 Tabella delle percentuali t li di colonna 35-54 Oltre 54 24,4 27,6 41,5 28,9 Saltuari 29,1 28,0 20,1 26,9 Non praticanti totale 46,5 44,4 38,4 44,2 100 0 100,0 100 0 100,0 100 0 100,0 100 0 100,0 Si scelgono i profili colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile posta in riga Si scelgono i profili riga quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile posta in colonna totale Praticanti Un criterio Risposte alla domanda “Lei è soddisfatto dell’operato del governo?” per ampiezza del comune di residenza (in migliaia) governo? >250 10-50 1-10 totale <1 Tabella delle percentuali di colonna 100-250 50-100 10-50 <10 18 8 18,8 12 8 12,8 10 8 10,8 34 3,4 86 8,6 Poco 32,5 35,3 36,5 38,7 31,3 26 29 22 62 10 246 71 99 249 253 8 848 89 36 49 118 153 1 446 Molto 0,6 1,0 0,7 1,2 1,8 159 66 92 246 326 5 894 Totale 100 100 100 100 100 N 516 201 271 643 833 100-250 50-100 Molto 3 2 2 8 14 1 30 Totale 516 201 271 643 808 25 2464 >250 Tabella delle percentuali di colonna >250 Per nulla 97 Non so Abbastanza 50-100 Analisi delle tabelle di contingenza 168 Per nulla Poco 100-250 Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Analisi delle tabelle di contingenza 100-250 100 250 50-100 50 100 10-50 10 50 18,8 12,8 10,8 3,4 8,6 Poco 32,5 35,3 36,5 38,7 31,3 Non so 17 3 17,3 18 0 18,0 18 0 18,0 18 4 18,4 18 5 18,5 Abbastanza 30,8 32,9 34,0 38,3 39,8 0,6 1,0 0,7 1,2 1,8 Molto Non so 17,3 18,0 18,0 18,4 18,5 Abb t Abbastanza 30 8 30,8 32 9 32,9 34 0 34,0 38 3 38,3 39 8 39,8 >250 <10 Per nulla Totale l 100 00 100 00 100 00 100 00 100 00 N 516 201 271 643 833 Corso di S Statistica So ociale Esempio: Pratica religiosa / età Analisi delle tabelle di contingenza Corso di S Statistica So ociale Analisi delle tabelle di contingenza Praticanti Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Tabella delle percentuali di colonna 10-50 <10 Per nulla + poco 51,3 48,1 47,3 42,1 Non so 17,3 18,0 18,0 18,4 18,5 Abbastanza + Molto 31 4 31,4 33 9 33,9 34 7 34,7 39 5 39,5 41 6 41,6 Totale IDP 39,9 100 100 100 100 100 -19,9 -14,2 -12,6 -2,6 +1,7 Indice di differenza percentuale 35-54 Oltre 54 totale 223 313 182 718 Saltuari 266 317 88 671 Non praticanti 425 504 168 1097 totale 914 1134 438 2486 Indipendenza p nij ni. ni ' j ni '. n. j n.. 35-54 Oltre 54 31 1 31,1 43 6 43,6 25 3 25,3 100 Saltuari 39,6 47,3 13,1 100 Non praticanti 38,7 46,0 15,3 Totale 36,8 45,6 17,6 nijj ni. (in caso di indipendenza) L indice L’indice chi-quadrato 2 i n n. j n.. ˆij n 35-54 Oltre 54 223 313 182 Saltuari 266 317 88 671 Non praticanti 425 504 168 1097 totale 914 1134 438 2486 718 35-54 Oltre 54 264 0 264,0 327 5 327,5 126 5 126,5 Saltuari 246,7 306,1 118,2 671 100 Non praticanti 403,3 500,4 193,3 1097 100 Totale 914 1134 438 2486 Le frequenze teoriche: (in caso di indipendenza) ni. n. j L’indice chi-quadrato n ˆij n 2 i j n ˆij n 2 ij ˆij n 223 264, 0 264, 0 ... 45, 47 ˆij n j i j n ij ˆij n 2 ˆij n 223 264, 0 2 264, 0 ... 45, 45 47 IL valore dell dell’indice indice è significativamente diverso da zero? Ipotesi H0 : H1 : indipendenza no indipendenza Livello di significati ità significatività =0.05 Prof.ssa C. Davino Corso di S Statistica So ociale Il test del chi chi-quadrato quadrato 2 718 2 Prof.ssa C. Davino L’indice chi-quadrato totale 18-34 P ti Praticanti ti 2 ij totale 18-34 Praticanti totale 18-34 P ti Praticanti ti Le frequenze teoriche: Analisi delle tabelle di contingenza Il test del chi chi-quadrato quadrato Ipotesi H0 : H1 : indipendenza no indipendenza Statistica t t test 2 i j n ij Livello di significatività =0 0.05 05 c2 9, 488 ˆij n 2 ˆij n P-value P value p value P( 2 45, 47) 0, 001 Regola di decisione: Rifiutiamo H0, con una probabilità di errore pari a , se 2oss> 2c 2c è il valore l critico iti che h sii trova t nella ll coda d di destra della distribuzione con (r-1)(c-1) gdl Più piccolo è il p-value, più p appare pp l’ipotesi p nulla! improbabile Statistica test 2 45,, 47 Rifiutiamo H0 Corso di S Statistica So ociale 18-34 Corso di S Statistica So ociale Analisi delle tabelle di contingenza Praticanti Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino L’effetto della numerosità del campione totale 35-54 Oltre 54 22 31 18 Saltuari 27 32 9 68 Non praticanti 43 50 17 110 totale 92 113 44 249 Ipotesi H0 : H1 : 71 Livello di significatività indipendenza c2 L’indice phiquadrato: quad ato Statistica test 2 =0.05 0 05 no indipendenza i 2 j 2 n n ij ˆij n 2 max ˆij n n min k 1 ; h 1 2 max 2 min k 1 ; h 1 4,547 4 547 L’indice V di Cramer: Accettiamo H0 9, 9 488 L’indice chiquadrato: 2 V 2 min k 1 ; h 1 2 n min k 1 ; h 1 Misure di cograduazione fra variabili ordinali a) Forza o intensità della relazione b) Segno (positivo o negativo) della relazione Basso Medio Alto Basso Alto 20 40 150 Medio 45 250 30 Basso 400 50 15 Alto Medio - coppia di casi discordante - coppia di casi appaiata Misure di cograduazione fra variabili ordinali Le misure di cograduazione si basano sul confronto fra i valori assunti dalle variabili X e Y su tutte le possibili coppie di casi: - coppia di casi concordante (P) - coppia di casi discordante (Q) - coppia di casi appaiata Alto 250 75 45 Medio 45 150 60 Basso 30 45 300 Le misure di cograduazione si basano sul confronto fra i valori assunti dalle variabili X e Y su tutte le possibili coppie di casi: pp di casi concordante - coppia Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino P Q di PQ Goodman e Kruskal +1: perfetta relazione positiva 0: assenza di relazione -1: 1 perfetta f tt relazione l i negativa ti Corso di S Statistica So ociale 18-34 Misure di associazione Corso di S Statistica So ociale Il test del chi chi-quadrato quadrato Praticanti Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino (rapporti di probabilità - odds) Totale Atteggiamento verso la pena di morte 1188 Favorevoli p 604 Contrari Totale Rapporto di probabilità: Proporzione di gg favorevoli: soggetti 1188 0, 663 1792 Rapporti di probabilità e di associazione Istruzione Atteggiamento verso la pena di morte 1792 1188 1,97 604 Rapporto fra la probabilità che un individuo, estratto a caso dalla popolazione, appartenga ad una categoria e la probabilità che non vi appartenga pi f1 f 2 1 pi Favorevoli [0, [ a 1027 b 161 1188 c 397 d 207 604 1424 368 1792 1027 Proporzioni p1 0, 721 1424 condizionate: p2 161 0, 438 368 Rapporti di probabilità condizionati: 2 161 0, 77 207 1 Rapporti di associazione (odds ratio): • =1: le due categorie della variabile hanno lo stesso peso Totale Contrari Totale “ci sono quasi due favorevoli per ogni persona contraria” Superiore Inferiore 1027 2,59 397 1 a c ad 1027207 3,33 3 33 2 b d bc 397 161 1 1 2 1 1 2 1 a c ad 2 b d bc [0 [ [0,+ A Associazione i i positiva i i tra le l variabili i bili (i soggetti della categoria X1 hanno probabilità di collocarsi nella categoria Y1 maggiore di quanto sia la probabilità dei soggetti tti nella ll categoria t i X2) L’analisi L analisi bivariata Relazioni statistiche o probabilistiche Non si individuano nessi di causa causa-effetto effetto Di ti i Distinzione t variabili tra i bili indipendenti i di d ti e dipendenti di d ti Associazione negativa tra le variabili Variabile indipendente Nominale • L’odds ratio cambia se si inverte l’ordine delle righe o delle colonne • LL’odds odds ratio resta immutato se si cambia ll’orientamento orientamento della tavola • L’odds ratio non risente della dimensione del campione • L’odds ratio non cambia se le frequenze di una riga o di una colonna sono moltiplicate per una costante • Gli odds ratio possono essere calcolati solo su tabelle 22 Corso di S Statistica So ociale Rapporti pp di associazione (odds ratio): Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Rapporti di probabilità e di associazione Corso di S Statistica So ociale Relazioni tra variabili categoriali Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Variabile dipendente Nominale Tabelle di contingenza Cardinale Analisi della varianza i Cardinale Regressione eg ess o e Mutabile indipendente Y Reddito p.c. Variabile dipendente Conteggio 10-15mila Zona geografica Nord Centro Sud e Isole 1 31 32 Totale Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 25-30mila 5 1 6 Totale 46 25 32 103 L’analisi della varianza (ANOVA) X Zona geografica Mutabile indipendente Y Reddito p.c. Variabile dipendente Conteggio 10-15mila Zona geografica Nord Centro Sud e Isole 1 31 32 Totale Medie condizionate: 1 M(Y|X=Nord) n X k y 1 i 1 j Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 Medie condizionate: n1, j Corso di S Statistica So ociale L’analisi della varianza (ANOVA) X Zona geografica Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino 6 M(Y) 12,5 0 17,5 7 22,5 34 27,5 5 46 M(Y|X=Nord) 1025 22,28 46 M(Y|X=Centro) = 18,7 M(Y|X=Sud) 25-30mila 5 1 1 n = 22,3 Y è indipendente in media da X se al variare delle modalità di X le medie condizionate di Y rimangono costanti. Totale 46 25 32 103 h y j i 1 n. j Media generale: 12,5 32 17,5 26 22,5 39 27,5 6 103 18,, 4 M(Y) 22,3 = 12,7 46 25 32 18,7 12,7 103 103 103 Y Reddito p.c. Mutabile indipendente Variabile dipendente Conteggio 10-15mila Zona geografica Totale Nord Centro Sud e Isole 1 31 32 Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 25-30mila 5 1 6 Totale 46 25 32 103 M(Y) = 18,4 Dev Y y i L’analisi della varianza (ANOVA) X Zona geografica Mutabile indipendente Y Reddito p.c. Variabile dipendente Conteggio 10-15mila Zona geografica y ni 2 i Totale n Corso di S Statistica So ociale L’analisi della varianza (ANOVA) X Zona geografica Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Nord Centro Sud e Isole 1 31 32 Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 25-30mila 5 1 6 Totale 46 25 32 103 M(Y) = 18,4 Dev Y y i y ni 2 i n Reddito M(Y) = 18,4 ( ) (…) Reddito Variabile dipendente Conteggio 10-15mila Zona geografica Nord Centro Sud e Isole Totale 1 31 32 Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 25-30mila 5 1 6 M(Y) = 18,4 Totale 46 25 32 103 Dev Y Mutabile indipendente Y Reddito p.c. Variabile dipendente Conteggio Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 10-15mila y i X Zona geografica Zona geografica y ni 2 i Nord Centro Sud e Isole 1 31 32 Totale n Corso di S Statistica So ociale Mutabile indipendente Y Reddito p.c. L’analisi della varianza (ANOVA) 25-30mila 5 1 M(Y|X=Nord) n 6 M(Y) = 18,4 Totale 46 25 32 103 Dev Y y i y ni 2 i = 22,3 M(Y|X=Centro) = 18,7 Nord M(Y|X=Sud) Nord = 12,7 Centro Centro Sud Sud Reddito Reddito M(Y|X=Sud) = 12,7 M(Y|X=Centro) = 18,7 M(Y|X=Nord) = 22,3 L’analisi della varianza (ANOVA) La decomposizione p della devianza Dev Y Conteggio 10-15mila Zona geografica Totale Nord Centro Sud e Isole 1 31 32 Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 25-30mila 5 1 6 Totale 46 25 32 103 y i y ni 2 i Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino L’analisi della varianza (ANOVA) X Zona geografica Mutabile indipendente Y Reddito p.c. Variabile dipendente Conteggio Dev Y Dev W Dev B Zona geografica Dev(Y) = Dev(Within) + Dev(Between) Totale 10-15mila Nord Centro Sud e Isole 1 31 32 Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 25-30mila 5 1 6 Totale 46 25 32 103 n Nord Centro Dev Y Dev W Dev B Dev Y y Dev W y Dev B y Sud Reddito M(Y|X=Sud) = 12,7 M(Y|X=Centro) = 12,7 M(Y|X=Nord) = 12,7 i i j j j i y 2 ni y i nij 2 ij y 2 nj E’ la devianza totale. Esprime la dispersione della nube di punti attorno alla media generale. E’ la devianza Within, o entro i gruppi. Esprime la dispersione dei k gruppi attorno alle rispettive medie. Si ottiene sommando le k devianze interne ai k gruppi. E la devianza Between o fra i gruppi. E’ gruppi Esprime la dispersione delle medie dei k gruppi attorno alla media generale. Corso di S Statistica So ociale L’analisi della varianza (ANOVA) X Zona geografica Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Mutabile indipendente Y Reddito p.c. Variabile dipendente Conteggio 10-15mila Zona geografica Nord Centro Sud e Isole Totale 1 31 32 Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 25-30mila 5 1 6 Una misura della forza della relazione X Zona geografica Mutabile indipendente Y Reddito p.c. Variabile dipendente Conteggio Il rapporto di correlazione: 2 (di Pearson) Zona geografica Dev B Dev Y Nord Centro Sud e Isole Totale M(Y|X=N) 22,283 M(Y|X=N) 22,283 M(Y|X=C) 18,700 M(Y|X=C) 18,700 M(Y|X=S) 12,656 M(Y|X=S) 12,656 M(Y) 18,422 Dev(Y|X=N) 297,83 D (Y|X C) Dev(Y|X=C) 214 00 214,00 Dev(Y|X=S) 24,22 M(Y) 18,422 Dev(Y|X=N) 297,83 D (Y|X C) Dev(Y|X=C) 214 00 214,00 Dev(Y|X=S) 24,22 Dev(B) 1751,33 Dev(TOT) 2287 38 2287,38 Eta quadro k 2 Dev B Dev Y y i 1 h y j 1 i i y y Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 10-15mila Totale 46 25 32 103 2 2 ni. n. j Rapporto di correlazione (di Pearson): proporzione della devianza generale “spiegata” spiegata dalla variabile indipendente 0,77 Dev(B) 1751,33 Dev(TOT) 2287 38 2287,38 Eta quadro 1 31 32 25-30mila 5 1 6 Totale 46 25 32 103 k 2 Dev B Dev Y y i 1 h y j 1 i i Il rapporto di correlazione: y ni. y n. j 2 2 0 H0: 1=2=…= = =k = • ANOVA a 1, 2, …, k fattori Statistica test: F s B2 sW2 Dev B Dev Y 2 1 2 = 0: nessuna relazione t le tra l due d variabili i bili 2 = 1: relazione perfetta 0,77 Corso di S Statistica So ociale Verifica l’uguaglianza tra più valori medi attraverso stime diverse della variabilità il cui rapporto, pp , sotto l’ipotesi p H0 di nessuna differenza tra i valori medi, si distribuisce come una v.c. di Fisher, con opportuni gradi di libertà. Prof.ssa C. Davino Corso di S Statistica So ociale • ANOVA 2 (di Pearson) Prof.ssa C. Davino La significatività della relazione Corso di S Statistica So ociale Una misura della forza della relazione X Zona geografica Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino La significatività della relazione D Y Dev Dev D W Dev D B Fonte di variabilità Devianza Gradi di libertà Esterna DB k -1 Interna DW n-k Totale DT n -1 Varianza stimata sB2 sW2 DB k 1 DW nk F- calcolata F sB2 2 sW F H0: 1=2=…=k = Se H0 è falsa : 2 B 2 W s s Il numeratore F sarà maggiore del denominatore il rapporto sarà >1 Una misura della forza della relazione X Zona geografica Mutabile indipendente Y Reddito p.c. Variabile dipendente F s B2 sW2 Conteggio 10-15mila Zona geografica Livello di Significatività: =0.05 Corso di S Statistica So ociale La significatività della relazione Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Nord Centro Sud e Isole 1 31 32 Totale Reddito p.c. (in euro) 15-20mila 20-25mila 7 34 18 5 1 26 39 25-30mila 5 1 6 Totale 46 25 32 103 gdl Dev(B) Dev(W) Livello di Significatività: Dev(TOT) 0 05 =0.05 Regola di decisione: 1751 334 1751.334 3-1 3 1 536.050 103-3 F 163 35 163.35 2287.379 Fc=3.10 Rifiutiamo H0, con una probabilità di errore pari a , se F>Fc Regola di decisione: Rifiutiamo H0, con una probabilità di errore pari a , perché hé F>Fc Molte l relazioni l i i bivariate bi i sono ingannevoli: i li statisticamente sono inattaccabili ma la covariazione può essere dovuta all’azione di una terza variabile Z • Relazione spuria Relazione spuria 1. La successione oraria dei prezzi dei cavoletti di Bruxelles venduti nel mercato di Londra e la corrispondente altezza del Tamigi giungono g a 2. Il numero di turisti canadesi che g Roma e il numero di gelati venduti nella capitale 3. Il numero di case con nidi di cicogna sul tetto ed il numero di case in cui nascono più bambini • Relazione indiretta • Relazione condizionata X Y Z X Y La relazione tra X e Y è provocata da una terza variabile Z che agisce causalmente sia su X che su Y Corso di S Statistica So ociale Introduzione di una terza variabile Prof.ssa C. Davino Corso di S Statistica So ociale Prof.ssa C. Davino Relazione spuria 1. La successione oraria dei prezzi dei cavoletti di Bruxelles venduti nel mercato di Londra e la corrispondente altezza del Tamigi (Z=ora del giorno) 2. Il numero di turisti canadesi che giungono a Roma e il numero di gelati venduti nella capitale (Z (Z=temperatura) temperatura) 3. Il numero di case con nidi di cicogna sul tetto ed il numero di case in cui nascono più bambini (Z=collocazione urbano-rurale u ba o u a e delle de e case) Z X • Z è la variabile di controllo Y • Bisogna analizzare la relazione tra X e Y in sub-campioni nei quali Z sia costante Corso di S Statistica So ociale Prof.ssa C. Davino