1 – Associazione tra variabili quantitative ASSOCIAZIONE FRA CARATTERI QUANTITATIVI QUANTITATIVI: COVARIANZA E CORRELAZIONE 2 – Associazione tra variabili quantitative Un esempio Nr. clienti 171 110 192 135 165 225 134 178 145 171 102 131 Scatterplot dei dati ((diagramma g di dispersione) p ) 230 210 N. clienti N Albergo A B C D V F H S T AS CC FF Prezzo medio per cliente (Euro) 70 100 60 80 75 65 100 85 90 80 110 75 190 170 150 130 110 90 40 60 80 Prezzo 100 120 2 3 – Associazione tra variabili quantitative • Si vede che i punti del diagramma si dispongono secondo una ‘nuvola allungata’ tanto da permettere di affermare che all’aumentare di una variabile (es. prezzo) l’altra variabile tende a diminuire • ma se non si conosce a fondo il fenomeno, fenomeno questi dati non ci dicono se c’è una relazione causa-effetto fra le due variabili. I casi potrebbero essere 2: 1. i clienti tendono d ad d essere meno numerosi quando d il prezzo è più alto e viceversa (relazione: prezzo Æ nr. clienti); 2.. qquando d ci c sono s gite g di d gruppi g pp di d turisti s (e ( quindi q d i clienti c sono s più p numerosi), l’albergo è disposto a fissare prezzi più bassi (relazione: nr. clienti Æ prezzo) 4 – Associazione tra variabili quantitative Lo scatterplot ci fa capire se esiste una associazione statistica fra due caratteri quantitativi. Chiedersi se esiste un’associazione fra due variabili quantitative equivale a chiedersi: al variare di una, anche l’altra tende a variare? (es. se una aumenta, l’altra ha la tendenza ad aumentare? a diminuire?) Quando all all’aumentare aumentare di una variabile, variabile ll’altra altra tende a diminuire si parla di associazione discordante Quando Q d all’aumentare ll’ di una variabile, i bil l’altra l’ l tende d add aumentare sii parla di associazione concordante Quando al variare di una l’altra tende a non variare si parla di assenza di associazione 5 – Associazione tra variabili quantitative Quale dei due scatterplot mostra una associazione più stretta? Perché? (a) (b) 5 5 6 – Associazione tra variabili quantitative Risposta intuitiva: int iti a l’associazione l’ i zi n è maggiore m i r n nell grafico r fi (b) p perché r hé la nuvola è più stretta. (a) (b) 6 7 – Associazione tra variabili quantitative E cosa dire di ddeii grafici fi i seguentii ? Quale Q l mostra una associazione i i più iù stretta fra le due variabili ? (a) (b) 7 8 – Associazione tra variabili quantitative Esiste un indice statistico che esprime il grado di associazione fra due variabili ? SI. P capire Per i meglio, li riprendiamo i di la l definizione d fi i i di associazione: i i al variare di una variabile anche l’altra tende a variare, Ci vuole una misura di variabilità congiunta delle variabili 9 – La covarianza Vi ricordate quale era un indice di variabilità per un variabile quantitativa ? SI’, la varianza 1 var( x ) = N N 1 ( x − x ) = ∑ i N i =1 2 N ∑ ( x − x )( x − x ) i =1 i i Per misurare l’associazione fra la variabile x e la variabile y si usa la covarianza 1 cov( x , y ) = cov( y , x ) = N N ∑ ( x − x )( y i i −y) i=1 9 10 – La covarianza Segno della covarianza 1 cov( x , y ) = N N ∑ ( x − x )( y i =1 i i −y) Se “prevalgono” gli addendi positivi il segno sarà positivo, altrimenti negativo 10 <0 Quadrante SW <0 <0 ( xi − x )( yi − y ) NW variabile y NE y yi − y SE SW xi − x x variabile x 11 NW NE SW SE DISCORDANZA NW ( xi − x )( yi − y ) < 0 NE ( xi − x )( yi − y ) > 0 SE ( xi − x )( yi − y ) < 0 SW ( xi − x )( yi − y ) > 0 I punti si trovano in maggioranza nei quadranti NW e SE Æ covarianza NEGATIVA (associazione discordante ) 12 NE NW SE SW CONCORDANZA NW ( xi − x )( yi − y ) < 0 NE ( xi − x )( yi − y ) > 0 SE ( xi − x )( yi − y ) < 0 SW ( xi − x )( yi − y ) > 0 I punti si trovano in maggioranza nei quadranti NE e SW Æ covarianza POSITIVA (associazione concordante) 13 14 – La covarianza LA COVARIANZA 1. Assume valore 0 quando al variare di una variabile l’altra rimane costante 2. Assume il massimo in valore assoluto positivo quando i punti sono tutti allineati su una retta crescente e negativo quando i punti sono tutti allineati su una retta decrescente 15 – La covarianza y y x x costante al variare di y x y costante al variare di x 11. La covarianza assume valore 0 quando al variare di una variabile l’altra rimane costante 15 16 – La covarianza 2. Assume il massimo in valore assoluto positivo quando i punti sono tutti allineati su una retta crescente e negativo quando i punti sono tuttii allineati lli i su una retta decrescente d 17 – La covarianza Valore della covarianza quando c’è perfetta relazione lineare crescente cov( x , y ) = sqm( x ) sqm( y ) TUTTI i puntii allineati lli i su una retta crescente (sqm: scarto quadratico medio) 17 18 – La covarianza Valore della covarianza quando c’è perfetta relazione lineare decrescente cov( x , y ) = − sqm( x ) sqm( y ) TUTTI i puntii allineati lli i su una retta decrescente d (sqm: scarto quadratico medio) 19 – La covarianza La covarianza L i fra f due d variabili i bili non può ò dirci di i se il legame l è stretto o no perché hé il valore della covarianza dipende dall’ordine di grandezza delle variabili (e anche dalla loro unità di misura). STATURA (in STATURA (in m) cm) 1.60 160 1.65 165 1.70 170 1.85 185 1 78 1.78 178 Covarianza ((statura in m,, peso)=0,5456 p ) , metri x Kgg Covarianza (statura in cm, peso)=54,56 cm x Kg PESO (Kg.) 60 56 72 76 68 20 – Il coefficiente di correlazione Coefficiente di correlazione: e’ dato dalla covarianza diviso il suo valore massimo cov( x , y ) rxy = valore massimo di cov( x , y ) In particolare: cov( x , y ) rxy = sqm( x ) sqm( y ) variabilità di x indipendentemente da y variabilità congiunta di x e y variabilità di y indipendentemente da x 21 – Il coefficiente di correlazione − 1 ≤ rxy ≤ 1 22 – Il coefficiente di correlazione •Si ricava dalla covarianza dividendola per il suo valore massimo. •E’ quindi un numero puro che varia da -1 a +1. •Ci indica la strettezza del legame lineare fra le due variabili (cioè quanto sia plausibile approssimare la nuvola dei punti con una retta) 1. Assume valore 0 quando al variare di una variabile, l’altra rimane costante 2. Assume valore prossimo a 0 quando la nuvola di punti non ha una forma approssimabile da una retta (non orizzontale né verticale) 33. Assume valore 1 quando i punti sono tutti allineati su una retta crescente e valore -1 quando i punti sono tutti allineati su una retta decrescente 4 rxy = r yx 4. 23 – Il coefficiente di correlazione 1. Esso assume valore 0 quando al variare di una variabile l’altra rimane costante y y x x x costante al variare di y y costante al variare di x 24 – Il coefficiente di correlazione 2. Esso assume valore prossimo a 0 quando la nuvola di punti non ha una forma approssimabile da una retta ----- c’è incorrelazione (assenza di dipendenza p lineare)) che non vuol dire indipendenza. p Infatti nel ggrafico a destra si evidenzia un legame quadratico tra i dati 25 – Il coefficiente di correlazione 33. Esso E assume valore l 1 quando d i puntii sono tuttii allineati lli i su una retta crescente e valore -1 quando i punti sono tutti allineati su una retta decrescente Coeff. Correlazione =1 Coeff. Correlazione= -1 25 26 – Il coefficiente di correlazione 4. rxy = r yx x y y x rxy = r yx = -0.6 27 – Correlazione correlazione sul web 28 – Associazione tra variabili quantitative 2 domande: • Quali valori del coefficiente di correlazione fanno ritenere che si sia associazione ? • A che cosa serve sapere che è presente un’associazione fra due variabili? 29 –Associazione tra variabili quantitative Quali valori del coefficiente di correlazione fanno ritenere che ci sia associazione ? Ai nostri scopi : -11 -0.7 07 Associazione A i i negativa i (discordante) +0 7 +0.7 1 Associazione A i i positiva iti (concordante) 30 – Associazione tra variabili quantitative A che cosa serve sapere che è presente una associazione ssoc o e fra due variabili b ? Se due variabili sono associate, conoscendo il valore di una si possono fare delle congetture abbastanza precise sul comportamento dell dell’altra altra 31 – Associazione tra variabili quantitative La y tende ad assumere valori in questo intervallo S lla x assume valori Se l i in i questo intervallo 32 – Associazione tra variabili quantitative • g Correlazione e Regressione L’obiettivo è l’analisi della dipendenza tra 2 variabili quantitative: y (variabile risposta) x (variabile esplicativa) • Analizziamo come i valori di y tendano a variare in funzione dei diversi valori di x • Una formula matematica può sintetizzare (in modo adeguato e non) il legame che esiste tra x e y per scopi di previsione e controllo • La più semplice funzione è la retta che descrive una relazione lineare tra x e y: y = a + bx Esempio: Su un gruppo di pazienti viene rilevato il numero di visite per disagi mentali (crisi p , attacchi di panico) p ) e il numero degli g eventi di particolare p rilevanza z (gravi (g d’ansia,, depressione, e/o felici) che hanno segnato la loro vita. Si vuole indagare se esiste un legame lineare tra disagi (risposta) ed eventi (esplicativa). 33 – Associazione tra variabili quantitative • Si dispone dell’elenco dei dati: n coppie di modalità relative ai caratteri quantitativi X=#eventi e Y=#disagi (x1 , y1 )), (x2 , y2 )), ..., (xi , yi )), ..., (xn , yn ) Graficamente: La nuvola dei punti appare caratterizzata da un trend lineare 34 – Retta di regressione Sembra plausibile l’idea di descrivere il trend della nuvola dei punti con una retta, e approssimare la realtà con un modello matematico, ma quale retta scegliere? 35 – Retta di regressione L retta d La deii minimi i i i quadrati d i e i = y i − ˆy i { yi ˆy i La retta ai mini quadrati è quella che rende minima la somma dei residui al quadrato q ∑ e2 = ∑ ( y − yˆ )2 vvalori o teorici eo c yˆi = aˆ + bˆxi parametri bˆ = Cov (X ,Y ) , Var (X ) ˆ (X ) aˆ = M (Y ) − bM cov(( x , y ) bˆ = var( x ) aˆ = y − bˆx 36 – Retta di regressione Bontà di adattamento R2 = var(( yˆ ) = r2 var( y ) • il coefficiente di determinazione R2 è il quadrato del coefficiente di correlazione • è il raporto tra varianza spiegata e varianza totale, pertanto indica quanta parte della d ll variabilità i bili à totale l è spiegata i d l modello dal d ll • varia tra 0 (non adattamento) e 1 (perfetto adattamento della retta ai dati) • indica se il legame lineare ipotizzato per descrivere la relazione tra X e Y è plausibile 37 – Retta di regressione Alcuni risultati • Nell’esempio, l’equazione della retta è ˆy = 2.942 + 1.427x • Significato di b: il numero di visite aumenta di 1.427per ogni evento importante i più in iù nella ll vita it del d l paziente; i t Significato Si ifi t di a: anche h con 0 eventi ti eccezionali i li il modello suggerisce 3 sedute!!! • Previsione: qual è il numero di disagi che il modello stimato suggerisce per un paziente che dichiara una vita segnata da 5 eventi? ˆy = 2.942 + 1.427 * 5 = 10 • Controllo: C t ll quanti ti eventi ti avràà subito, bit secondo d il modello d ll stimato, ti t un paziente i t che dichiara di aver avuto 9 disagi? 9 = 2.942+ 1.427* x x = ( 9−2.942) 1.427 = 4.24 • L’indice R2=0.705 indica un buon adattamento della retta ai dati 38 – Retta di regressione E Esempio i 1 Ad alcuni laureati è stato somministrato un questionario per verificare se coloro che hanno completato gli studi con maggior successo hanno realmente più facilità ad inserirsi nel mondo del lavoro. Dai questionari ricaviamo le informazioni riguardanti il tempo X (in mesi) trascorso dalla laurea fino alla stipula del primo contratto di lavoro ed il voto conseguito alla laurea Y. Tali dati sono riportati di seguito: Y 66 --| 75 75 --| 90 90 --| 100 100 --| 111 0 --| 5 0 10 35 55 5 --| 15 2 15 21 40 15 --| 24 42 23 5 0 X 1. Determinare il grado di dipendenza lineare; g , scegliendo g opportunamente pp la 2. Calcolare i coefficienti della retta di regressione, variabile dipendente, e commentarne il significato; 3. Valutare la bontà di adattamento del modello ai dati. 39 – Retta di regressione 1. 1 Cov ( X , Y ) = N r(X ,Y ) = 2. b= 3 4 ∑∑ x y i =1 j =1 i j ⋅ nij − M ( X ) ⋅ M (Y ) = Cov ( X , Y ) Var ( X ) ⋅ Var (Y ) = 204820 − 9.657 ⋅ 92.256 = −65.055 248 − 65.055 48.038 ⋅ 171.441 = −0.717 Cov( X , Y ) − 65.055 = = −0.379 Var (Y ) 171.441 a = M ( X ) − b ⋅ M (Y ) = 9.657 + 0.379 ⋅ 92.256 = 44.665 X=44.665-0.379Y 3. R 2 = [r ( X , Y )] = 0.514 2 Interpretare, commentare, disegnare i dati e la retta! 40 – Retta di regressione Esempio 2 Si pensa che esista una relazione lineare tra la cifra spesa per S.Valentino ed il numero di anni di durata della relazione nella coppia. I dati seguenti sono riferiti a 9 coppie di innamorati Durata rapporto (anni) 4 15 8 6 5 2 1 Cifra spesa per S. Valentino (i migliaia (in i li i di euro)) 0.23 0.03 0.08 0.15 0.12 1.2 1.5 14 22 0.028 0.85 11. Utilizzare Utili un iindice di opportuno t per confermare f che h esiste i t discordanza di d ttra i due d caratteri; tt i 2. Determinare i parametri della retta di regressione assumendo come variabile dipendente la cifra spesa; 3 Secondo il modello del punto 11, a quanto ammonterà la spesa di una coppia nel critico 3. settimo anno di relazione? 4. Valutare la bontà di adattamento della retta ai dati. 41 – Retta di regressione U po’’ di calcoli Un l li X 4 Y 0.23 X·Y 0.92 X2 16 Y2 0.0529 M (X ) = 1 1. Var (Y ) = 2. b= 1 9 9 ∑ i =1 xi = 15 8 6 5 2 0.03 0.08 0.15 0.12 1.2 0.45 0.64 0.9 0.6 2.4 225 64 36 25 4 0.0009 0.0064 0.0225 0.0144 1.44 Tot 1 14 2 57 1.5 0.028 0.85 4.188 1.5 0.392 1.7 9.502 1 196 4 571 2.25 0.00078 0.7225 4.51 1 9 4.188 57 1 9 571 = 6 . 33 M (Y ) = yi = = 0.465 Var ( X ) = ∑ x i2 − M ( X )2 = − 6 .33 2 = 23 .33 9 9 i =1 9 9 i =1 9 ∑ 1 9 2 4.510 1 9 9.502 2 2 ( ) y − M Y = − 0 . 465 = 0 . 284 ( ) Cov X Y = xi ⋅ yi − M ( X ) ⋅ M (Y ) = − 6.33 ⋅ 0.465 = −1.89 , ∑ i ∑ 9 i =1 9 9 i =1 9 Cov( X , Y ) − 1.89 = = −0.081 Var ( X ) 23.33 a = M (Y ) − bM ( X ) = 0.465 + 0.081 ⋅ 6.33 = 0.979 3. y = 0.979 − 0.081 ⋅ 7 = 0.412 4. r(X ,Y ) = Cov( X .Y ) Var ( X ) ⋅ Var (Y ) = − 1.89 23.33 ⋅ 0.284 = −0.734 R 2 = [r ( X , Y )]2 = 0.539 Y=0.979-0.081X