Analisi statistiche bivariate Analisi congiunta di due caratteri (variabili) osservati per una unità statistica (ad es. peso ed altezza di n studenti) Rappresentazione dei dati tabelle elencazione completa delle modalità a doppia entrata grafici istogrammi diagrammi di dispersione Tabelle Se il numero di dati è piccolo, essi possono essere rappresentati in una tabella che riporta in modo dettagliato tutti i valori delle due variabili relativamente a ciascuna unità statistica Se il numero di osservazioni è grande, si ricorre ad una tabella a doppia entrata, detta tabella di contingenza, in cui ad ogni coppia di modalità rilevate si fa corrispondere la sua frequenza assoluta Tabelle (numero di dati ridotto) unità carattere X carattere Y 1 x1 y1 2 x2 y2 3 x3 y3 … … … n xn yn Tabelle Esempio: grado di dolcezza e quantità (ppm) di pectina rilevati su 24 succhi di arancia Campione Sweetness Pectina (ppm) 1 5.2 220 2 5.5 227 3 6 259 4 5.9 210 5 5.8 224 6 6 215 7 5.8 231 8 5.6 268 9 5.6 239 10 5.9 212 11 5.4 410 12 5.6 256 Campione Sweetness Pectina (ppm) 13 5.8 306 14 5.5 259 15 5.3 284 16 5.3 383 17 5.7 271 18 5.5 264 19 5.7 227 20 5.3 263 21 5.9 232 22 5.8 220 23 5.8 246 24 5.9 241 Tabelle a doppia entrata (numero di dati elevato) X Y y1 y2 x1 x2 .. .. xm n11 n2 1 n1 2 n2 2 .. .. n1 m n2 m somme per righe n1. n2. : : yp np1 np 2 somme per n.1 n.2 colonne frequenza della coppia (x1,y2) .. .. n p m n p. n.m n nij: frequenze congiunte Tabelle a doppia entrata (numero di dati elevato) X somme x1 x2 .. .. xm y1 y2 n1 1 n2 1 n1 2 n2 2 .. .. n1 m n2 m per righe n1 . n2. : : yp somme per colonne np1 np 2 .. .. np m n p. n. 1 n. 2 n. m n Y frequenza delle coppie (xi,y2) m frequenza delle coppie (x1,yj) ni. = ∑ nij i = 1,K ,p j =1 p n. j = ∑ nij j = 1,K ,m i =1 Tabelle a doppia entrata (numero di dati elevato) X Y y1 y2 : : yp somme per colonne x1 x2 .. .. xm n1 1 n2 1 n1 2 n2 2 .. .. n1 m n2 m somme per righe n1 . n2. np1 np2 .. .. npm n p. n.1 n.2 n.m n } frequenze marginali Tabelle a doppia entrata sweetness pectina 210 212 215 220 224 227 231 232 239 241 246 256 259 263 264 268 271 284 306 383 410 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 n i. 6 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 n .j 1 3 1 3 3 2 5 4 2 Tabelle a doppia entrata (raggruppamento per classi) Sweetness Pectina 200-225 5-5.2 5.2-5.4 5.4-5.6 1 225-250 250-275 1 275-300 1 5.6-5.8 5.8-6 ni. 2 3 6 2 3 2 7 4 1 1 7 1 300-325 1 1 325-350 350-375 375-400 1 1 400-425 1 1 n.j 1 4 6 7 6 24 1 1 1 2 1 2 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 24 Tabelle a doppia entrata Esempio: dimensioni (in µm) della prima e della seconda placca rilevate su 45 animali presumibilmente della stesso gruppo Macrobiotus hufelandi Distribuzioni Marginali x1 , x 2 , L , x m X n. 1 , n. 2 , L , n . m 1m x = ∑ xi n.i n i =1 σ x2 y1 , y 2 , L , y p Y n1 . , n 2 .,L , n p . medie generali 1m = ∑ n.i (xi − x ) 2 n i =1 σ y2 1 p y = ∑ y j n j. n j =1 1 p = ∑ n j. ( y j − y )2 n j =1 Rappresentazione grafica istogrammi si riportano le frequenze dei raggruppamenti in classi diagrammi di dispersione (scatter plot) le singole coppie di misure osservate sono rappresentate come punti in un piano cartesiano. Si ottiene una nuvola di punti che descrive in modo visivo la relazione tra le due variabili. Istogrammi Esempio: dimensioni (in mm) della prima e della seconda placca rilevate su 45 animali presumibilmente della stesso gruppo Macrobiotus hufelandi Istogrammi per distribuzioni doppie Problemi: Istogrammi per distribuzioni doppie E’ possibile costruire diversi istogrammi con gli stessi valori, visivamente differenti tra loro, partendo da angolazioni differenti (nell’esempio precedente è stata invertita la scala per la Ι placca). Si deve scegliere un angolo di visuale, che mostra i dati in prima linea ma nasconde quelli collocati dietro gli istogrammi più alti. Rappresentazione da evitare se, partendo dagli stessi dati, è possibile fornire impressioni differenti sulle loro caratteristiche statistiche. Diagrammi di dispersione dim II placca 25 23 21 19 17 15 25 26 27 28 29 30 31 32 33 34 35 dim I placca Diagrammi di dispersione Nel caso di rappresentazione di dati riportati originariamente in tabella di frequenza, nel diagramma di dispersione il diverso numero di ricorrenze può essere indicato da simboli convenzionali (es: più cerchi concentrici o con superfici differenti, in cui il numero di cerchi e/o le loro dimensioni sono proporzionali al numero di dati che si vuole rappresentare) dim II placca 25 23 21 19 17 15 25 26 27 28 29 30 31 dim I placca 32 33 34 35 Diagrammi di dispersione Esempio: lunghezza (mm) e larghezza (mm) di 333 foglie di Camelia LUNGH 1 2 3 4 5 6 7 8 9 10 LARGH 97 87 77 83 83 99 92 94 99 85 45 46 37 42 44 46 45 48 37 43 70 60 larghezza (mm) # 50 40 30 20 10 50 70 90 110 130 150 lunghezza (mm) Diagrammi di dispersione: grafico degli scostamenti dalla media Calcoliamo per ciascuna variabile la media aritmetica Il punto ( x , y ) , individuato dalle medie delle due variabili, si chiama baricentro Ricostruiamo il grafico a dispersione, prendendo come nuova origine degli assi il baricentro stesso. Diagrammi di dispersione: grafico degli scostamenti dalla media ~ ~ y = y− y x = x−x x = 97.56 y = 45.72 larghezza (mm) scostamenti dalla media lunghezza (mm) I Dall’esame del grafico a dispersione si capisce chiaramente che non esiste un legame funzionale esatto fra le due variabili statistiche, tuttavia si può notare che i punti si dispongono sul piano secondo una nuvola allungata posta obliquamente sull’asse delle ascisse. In particolare si può dire che al crescere del peso la lunghezza “tendenzialmente” cresce. Ciò significa che i campioni che hanno un peso elevato tendenzialmente hanno anche una lunghezza elevata mentre campioni che hanno un peso piccolo hanno tendenzialmente una lunghezza piccola. La forma della nuvola permette di stabilire, in prima analisi, se fra le due variabili esiste interdipendenza, mente la sua posizione permette di stabilire il verso di tale legame. Concordanza e discordanza Associazione tra i caratteri di una v.s. doppia (X,Y) Concordanza all’aumentare delle modalità di X le modalità di Y tendono ad aumentare. Graficamente, gli scostamenti concordi (I e III quadrante) prevalgono su quelli discordi Discordanza all’aumentare delle modalità di X le modalità di Y tendono a diminuire. Graficamente, gli scostamenti discordi (II e IV quadrante) prevalgono su quelli concordi. larghezza (mm) scostamenti dalla media lunghezza (mm) I Covarianza indice simmetrico che misura la concordanza o la discordanza tra due variabili quantitative X e Y è definita come la media dei prodotti degli scostamenti di X e di Y dalle rispettive medie: 1 N Cov( X , Y ) = ∑ [( xi − x )( yi − y )] N i =1 Proprietà della covarianza Formula di calcolo: Cov(X,Y) = E(XY)–E(X)E(Y) Campo di variazione: −σXσY ≤ Cov(X,Y) ≤ +σXσY Invarianza rispetto a traslazioni: Cov(X+a,Y) = Cov(X,Y) Effetto di cambiamento di scala: Cov(bX,Y) = bCov(X,Y) Covarianza e relazione lineare perfetta Se le variabili X ed Y sono legate da una relazione lineare Y = a + bX, con b≠0, il coefficiente angolare è legato alla covarianza: Cov(X,Y)= Cov(X,a+bX) = E[X(a+bX)]-E(X)E(a+bX) = aE(X)+bE(X2)-aE(X)-bE2(X) = bE(X2)-bE2(X) = bD(X) ⇒ b = Cov(X,Y)/D(X) il segno della covarianza individua il tipo di relazione deterministica lineare (diretta o inversa) tra X e Y. Questo vale anche se i dati sono tendenzialmente allineati ossia in caso di relazione statistica. Covarianza Positiva - prevalenza di scostamenti concordi (legame diretto fra X e Y) Negativa - prevalenza di scostamenti discordi (legame inverso fra X e Y) Nulla - non prevalgono né gli scostamenti concordi né quelli discordi (variabili statistiche sono incorrelate) Esempio lunghezza (X) e larghezza (Y) di 333 foglie di Camelia Cov(X,Y)=46,52 Esempio peso (X) e altezza (Y) di 100 bambini di 3 anni Cov(X,Y)=1,82 Esempio di covarianza positiva: Cov(X,Y)>0 90000 80000 70000 60000 50000 40000 30000 20000 10000 1000 1100 1200 1300 peso 1400 1500 1600 Esempio di covarianza negativa: Cov(X,Y)<0 14. 00 12. 00 10. 00 8. 00 6. 00 4. 00 2. 00 0. 00 0 20 40 60 80 100 120 140 160 180 Potenza Esempio di covarianza massima (positiva): 50000 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 0 10000 20000 30000 40000 50000 Prezzo in lire 60000 70000 80000 90000 Esempio di covarianza quasi nulla: Cov(X,Y)≈0 3 2.9 2.8 2.7 Passo 2.6 2.5 2.4 2.3 2.2 2.1 2 0 20 40 60 80 100 120 140 160 180 Potenza La covarianza ha il difetto di dipendere dall’unità di misura con la quale vengono rilevate le variabili statistiche X e Y fornisce informazioni non fornisce informazioni sul verso del legame sull’intensità del legame fra X e Y fra X e Y indice normalizzato Coefficiente di correlazione lineare −1 ≤ ρ = Cov( X , Y ) σ XσY ≤1 ρ=1 massima correlazione positiva X=kY k>0 (relazione deterministica diretta tra X e Y) ρ=−1 massima correlazione negativa X=kY k<0 (relazione deterministica inversa tra X e Y) ρ=0 incorrelazione Misura della correlazione lineare ρ(X,Y) elevato quando: Y dipende linearmente da X (o viceversa) (es. relazione consumo-reddito) X e Y dipendono da Z (es. relazione tra esame appl. mod. e mat.: dipende da capacità individuali, ore di studio, ecc.) Correlazione spuria: concordanza o discordanza tra X e Y senza un nesso logico (es. due serie storiche con trend crescente) 900 00 800 00 700 00 600 00 500 00 400 00 300 00 200 00 100 00 10 00 11 00 12 00 13 00 14 00 15 00 16 00 peso ρ = 0.959 14.00 12.00 10.00 8.00 6.00 4.00 2.00 0.00 0 20 40 60 80 100 120 140 160 180 Pote nza ρ = −0.867 500 00 450 00 400 00 350 00 300 00 250 00 200 00 150 00 100 00 50 00 0 0 100 00 200 00 300 00 400 00 500 00 600 00 700 00 800 00 900 00 Prezz o in lire ρ =1 90000 80000 70000 60000 50000 40000 30000 20000 10000 0 0 1000 2000 3000 Gi ri copp ia ρ = 0.057 4000 5000 6000 Correlazione lineare Esempi: la circonferenza C ed il raggio r di ogni cerchio sono perfettamente correlati, essendo C=2π r (ρ = 1) tra i punti dei due dadi lanciati simultaneamente 100 volte non c’è alcuna relazione, quindi sono incorrelati (ρ = 0.03) Correlazione lineare Esempi: le variabili lunghezza e larghezza delle foglie di camelia e le variabili altezza e peso sono “in qualche misura” correlate: lunghezza (X) e larghezza (Y) di 333 foglie di Camelia ρ = 0,52 peso (X) e altezza (Y) di 100 bambini di 3 anni ρ = 0,93 Proprietà del coefficiente di correlazione lineare è un numero puro adimensionale non risente dello scambio delle variabili non risente dell’aggiunta di una stessa quantità a tutti i valori di una variabile non risente della moltiplicazione per una stessa quantità di tutti i valori di una variabile Proprietà del coefficiente di correlazione lineare non misura l’associazione in generale ma solo quella lineare: dispersione dei punti intorno ad una retta 95 90 ρ = −0.19 85 80 75 70 65 60 0 10 10 20 20 30 30 40 40 Proprietà del coefficiente di correlazione lineare non definisce una relazione causa-effetto: la relazione di causa-effetto non ha una direzione logica o precisa: potrebbe essere ugualmente applicata nei due sensi, da una variabile all'altra (es. le coppie di gemelli hanno strutture fisiche simili e quella di uno può essere stimata sulla base dell'altro) Esempio: l’attività fotosintetica delle foglie (quantità di CO2 fissata per cm2 di superfice) di 15 piante di mais è misurata con due metodi. Si vuole verificare in che misura i due metodi danno informazioni concordanti totale X1 X2 1 3.12 3.51 2 3.70 3.90 3 3.95 4.20 4 4.22 4.30 5 4.91 4.54 6 5.31 4.90 7 5.30 4.60 8 4.55 4.04 9 3.55 3.40 10 4.10 3.70 11 3.42 3.39 12 4.39 4.52 13 4.80 4.70 14 4.80 4.10 15 3.48 4.10 63.60 61.90 5,00 m eto d o 2 : X2 piante 4,00 3,00 3,00 3,50 4,00 4,50 metodo 1: X1 5,00 5,50 piante totale X1 X2 1 3.12 3.51 2 3.70 3.90 3 3.95 4.20 4 4.22 4.30 5 4.91 4.54 6 5.31 4.90 7 5.30 4.60 8 4.55 4.04 9 3.55 3.40 10 4.10 3.70 11 3.42 3.39 12 4.39 4.52 13 4.80 4.70 14 4.80 4.10 15 3.48 4.10 63.60 61.90 ∑(x ∑(x ∑(x ρ= 1j − x1 )( x2 j − x2 ) = 3.915 1j − x1 ) 2 = 6.836 2j − x2 ) 2 = 3.199 3.915 = 0.8372 6.836 × 3.199 Proprietà del coefficiente di correlazione lineare non definisce una relazione causa-effetto: la causa può essere individuata in un terzo fattore, che agisce simultaneamente sui primi due, in modo diretto oppure indiretto, determinando i valori di entrambi e le loro variazioni (es. la quantità di polveri sospese nell’aria e la concentrazione di benzene, entrambi dipendenti dall’intensità del traffico) Esempio: Vendita di gelati e morti per annegamento durante un anno mese morti per annegamento gennaio febbraio marzo aprile maggio giugno luglio agosto settembre ottobre novembre dicembre vendita gelati morti per annegamento 10 8 9 15 20 30 50 80 60 50 20 5 1 1 2 2 4 5 8 9 9 5 2 1 12 10 8 6 4 2 ρ = 0.95 0 0 20 40 60 80 100 vendita gelati Non esiste una relazione causa-effetto tra le due variabili le due variabili sono correlate perché sono entrambe correlate con le condizioni climatiche: quando fa caldo aumenta il consumo di gelati e più persone vanno a mare ATTENZIONE La presenza di correlazione non significa presenza di un legame causa effetto tra le variabili Regressione Permette di esaminare e descrivere la relazione quantitativa tra una variabile, detta dipendente, ed individuata come l'effetto, sulla base dei valori dell'altra variabile, detta indipendente o esplicativa, individuata come la causa Obiettivi della regressione conoscendo il livello di una certa popolazione in tempi fissati, valutare il livello della popolazione in certi tempi intermedi: interpolazione determinare la relazione y(x) che esiste fra due variabili, conoscendo il tipo di legge che governa il fenomeno (ad es. lineare, esponenziale, logaritmica..): identificazione di parametri Obiettivi della regressione prevedere i valori che una certa variabile assumerà ad un istante futuro a partire dalla sua storia passata (ad esempio, prevedere il numero di individui in una certa popolazione, conoscendo la tabella di crescita della popolazione negli ultimi 10 anni): estrapolazione (predizione) Modello statistico della regressione Y = f(X) + e f(X) componente sistematica e componente casuale - errore che compendia gli effetti che impediscono l’esistenza di un legame deterministico fra le due variabili, come: errori nell’equazione (si approssima f(X,Z,…) con f(X)) elementi di casualità non prevedibili nel fenomeno di studio errori di osservazione o di misura Modello statistico della regressione Y = f(X) + e la forma f(.) è suggerita da: teorie specifiche o da studi di settore dati disponibili necessità di facile interpretazione Regressione lineare semplice Peso 60 61 70 72 73 75 5 4 3 70 Peso Individuo Altezza 1 160 2 163 3 168 4 170 5 173 65 1 2 60 55 50 158 160 162 164 166 168 170 172 174 Altezza Cov(X,Y) = 25.44 ρ = 0.97 esiste una relazione funzionale tra la variabile altezza (X) e la variabile peso (Y)? Regressione lineare semplice guardando il grafico si può ipotizzare che tra le due variabili ci sia una relazione di tipo lineare Y = a + bX in corrispondenza di xi, osservato sulla variabile X (indipendente), dovremmo osservare il valore yˆ i = a + bxi per la variabile Y (dipendente) valori teorici o previsti della variabile Y Retta di regressione 75 Peso 5 4 3 70 65 1 2 60 y 2 − yˆ 2 55 50 158 160 162 164 166 168 170 172 174 Altezza Equazione di una retta che si “adatti” nel modo migliore ai dati ( xi , yi ) i = 1, 2, 3,L, n min ∑ ( yi − yˆ i )2 Retta di regressione min ∑ ( yi − yˆ i )2 = min ∑ ( yi − (a + bxi ))2 = g (a, b) ∂g (a, b) = 0 ∂a ∂g (a, b) =0 ∂b b = cov( X , Y ) σ x2 a = y − bx Calcolo di a e b formula alternativa ∑ x i2 ⋅ ∑ yi − ∑ xi yi ∑ xi a= n ⋅ ∑ x i2 − (∑ xi )2 b= n ⋅ ∑ xi yi − ∑ xi ∑ yi n ⋅ ∑ x i2 − (∑ xi )2 Retta di regressione Individuo Altezza 1 160 2 163 3 168 4 170 5 173 Peso 60 61 70 72 73 Cov( X , Y ) = 25.44 σ x2 = 22.16 ⇓ b= Cov( X , Y ) σ x2 = 25.44 = 1.15 22.16 a = y − bx = 67.2 − 1.15 ⋅ 166.8 = −124.29 Regressione lineare semplice y = 1,148x - 124,29 80 75 3 Peso 70 65 1 2 60 55 ( xi , yi ) 50 158 5 4 160 162 i = 1,2,3,.....n 164 166 168 170 172 174 Altezza La ricerca della retta di regressione presuppone che la risposta y del sistema dipenda linearmente dalla variabile x Proprietà della retta dei minimi quadrati 1. 2. 3. è unica passa per il punto medio ( x , y ) è tale che ∑ yi = ∑ yˆ i dove yˆ i = a + bxi i i Posto ei = yi − yˆ i la proprietà 3 ci dice che ∑ ei = 0 i Bontà di adattamento Analisi dei residui ei = yi − yˆ i valori osservati valori previsti Bontà di adattamento 100 90 Esempio: altezza e peso di 30 individui peso 80 y = 1,0869x - 113,18 70 60 50 40 140 150 160 170 180 altezza Grafico dei residui 10 8 6 residui 4 2 0 -2 -4 -6 0 5 10 15 20 25 30 35 190 200 Bontà di adattamento Andamenti come questi indicano che il modello lineare non è adatto a spiegare il legame tra le variabili Scomposizione della varianza di Y 2 2 1 n 1 n 2 σ y = ∑ ( yi − y ) = ∑ ( yi − y ± yˆ i ) = n i =1 n i =1 2 2 1 n 1 n = ∑ ( yˆ i − y ) + ∑ ( yi − yˆi ) = n i =1 n i =1 = σˆ y2 + σ e2 varianza spiegata (varianza dovuta alla regressione) varianza residua varianza dovuta ai residui ( yi − y ± yˆi )2 = (( yˆi − y ) + ( yi − yˆi ))2 = deviazione dovuta alla relazione lineare deviazione dovuta a cause accidentali = ( yˆ i − y )2 + ( yi − yˆ i )2 + 2( yˆ i − y )( yi − yˆ i ) ricordando che yˆ i = y + b( xi − x ) ( yˆi − y )( yi − yˆi ) = b(xi − x )( yi − y − b(xi − x )) = = b(xi − x )( yi − y ) − b 2 (xi − x )2 essendo b(xi − x ) = yˆ i − y ( yˆi − y )( yi − yˆi ) = b(xi − x )( yi − y ) − b(xi − x )( yi − y ) = 0 Coefficiente di determinazione 2 σ ˆ y R2 = 2 σy ( yˆ i − y ) 2 ∑ = ∑ ( yi − y ) 2 devianza spiegata devianza totale misura la dispersione delle osservazioni attorno alla retta di regressione rappresenta la porzione della variazione in Y spiegata dalla regressione su X consente di valutare l’utilità dell’equazione di regressione ai fini della previsione sui valori della Y Coefficiente di determinazione Se c'è una perfetta relazione lineare tra X e Y tutte le osservazioni regressione cadono sulla retta di σˆ y2 = σ y2 , cioè nessun errore viene commesso nella predizione di Y a partire da X R2=1 Coefficiente di determinazione Se non c'è relazione lineare tra X e Y la dispersione delle osservazioni attorno alla retta di regressione è massima e la retta di regressione ha pendenza 0 σˆ y2 = 0, σ e2 = σ y2 R2=0 0 ≤ R2 ≤ 1 Coefficiente di determinazione Esempio x 160 163 168 170 173 y 60 61 70 72 73 ∑ ( yˆi − y )2 = 146.02 ∑ ( yi − y )2 = 154.80 146.02 R = = 0.94 154.80 2 Regressione lineare: esempio Esempio: larghezza e lunghezza di 333 foglie di camelia 70 60 larghezza (mm) 50 40 30 y = 0.2729x + 19.095 R2 = 0.275 20 10 50 70 90 110 lunghezza (mm) 130 150 Regressione vs correlazione Uno studio condotto nei paesi nordici ha evidenziato che durante i mesi invernali, nelle case in cui è presente un neonato la temperatura viene mantenuta più alta della norma, passando indicativamente dai 16 ai 20 gradi centigradi. Soprattutto nei periodi più rigidi, le cicogne sono attratte dal maggior calore emesso dai camini e nidificano più facilmente su di essi o vi si soffermano più a lungo. E’ semplice suddividere un’ampia area rurale in zone con una popolazione equivalente e contare per ognuna il numero dei camini con cicogne (X) e quello dei bambini neonati (Y). Regressione vs correlazione Ricorrere all'analisi della regressione su queste due variabili implica una relazione di causa-effetto tra presenza di cicogne e nascite di bambini. Un tentativo di spiegazione di tale legame, già implicito nella regressione anche se non dichiarato, conduce anche involontariamente alla conclusione che i bambini (se indicati con Y) sono portati dalle cicogne (quando indicate con X). Addirittura con b si arriva ad indicare quanti bambini sono portati mediamente da ogni cicogna. Regressione vs correlazione Con la correlazione si afferma solamente che le due variabili variano in modo congiunto, eventualmente per analisi successive alla ricerca delle cause. Effetto degli outlier 10 10 Y 4 3 3 2 8 Y Y X 1 1 2 2 8 y = 4,5 - x ρ = -0,71 88 2 6 6 4 4 2 y = 1,9885 + 0,7184x ρ = 0,90 2 0 R = 0,8164 0 0 -2 0 -2 R = 0,5 2 2 4 2 4 X X 6 8 10 6 8 10 Cambiamento di scala Esempio: indagine epidemiologica condotta a seguito della somministrazione di una nuovo tipo di vaccino ritenuto efficace nella cura del contagio da febbre tifoidea 25,0 casi 1975 1976 1977 1978 1979 1980 1981 21,0 15,5 11,7 10,7 9,2 8,9 8,0 20,0 incidenza anno 15,0 10,0 5,0 0,0 1974 1975 1976 1977 1978 1979 1980 1981 1982 anni andamento non lineare 25,0 y = -1,9536x + 3876,3 2 R = 0,8327 incidenza 20,0 ρ = 0.91 15,0 10,0 5,0 0,0 1973 1974 1975 1976 1977 1978 anni grafico dei residui 4,0 3,0 residui 2,0 1,0 0,0 -1,0 -2,0 -3,0 0 1 2 3 4 5 6 7 8 1979 1980 1981 1982 1983 L’andamento che lega Y ad X sembra più prossimo ad un andamento di tipo esponenziale negativo Y = e− X ( ) log(Y ) = log e − X = − X log(Y ) = a + bx modello di regressione lineare più appropriato scala semilogaritmica semilogaritmica scala 3,2 3,2 ρ = -0.96 y = 302,34 - 0,1516x 33 2 incidenza incidenza(log) (log) R = 0,9137 2,8 2,8 2,6 2,6 2,4 2,4 2,2 2,2 22 1974 1973 1975 1974 1975 1976 1976 1977 1977 1978 1978 anni anni 1979 1979 1980 19801981 retta di regressione: log(Y ) = −0.15 X + 302.34 Y = e log(Y ) = e −0.15 X +302.34 1981 1982 1982 1983 25,0 incidenza 20,0 15,0 10,0 5,0 0,0 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 anni Cambiamento di scala: previsione A partire dai due modelli di regressione ottenuti si vuole prevedere il numero di casi di tifo per il 1985: 1. y = -1.95 x + 3876.3 = -1.95 ⋅ 1985 + 3876.3 = −1.6 2. y = e −0.15 x +302.34 = e −0.15⋅1985+302.34 = 4.11 Il primo modello lineare fallisce, il secondo è attendibile Regressione non lineare esponenziale y = aebx logaritmica y = αlnx+β polinomiale y = α0 + α1x + α2x2 + ..+ αmxm Regressione esponenziale: esempio indagine epidemiologica condotta a seguito della somministrazione di una nuovo tipo di vaccino ritenuto efficace nella cura del contagio da febbre tifoidea 25,0 20,0 casi 1975 1976 1977 1978 1979 1980 1981 21,0 15,5 11,7 10,7 9,2 8,9 8,0 y = 2E+131e -0,1516x 2 R = 0,9137 incidenza anno 15,0 10,0 5,0 0,0 1973 1974 1975 1976 1977 1978 anni 1979 1980 1981 1982 1983 Regressione logaritmica: esempio processo di lievitazione di una pagnotella di pane bianco Lievitazione 15 14,4375 30 21,59824 45 31,28529 60 39,97168 75 44,15302 90 44,87 105 45,12 120 45,36 135 45,97 150 46,00 y = 19,837+0,2187x 2 volume (cm3) R = 0,7456 60 50 volume tempo (min) 40 30 y = 15,128Ln(x) - 25,94 20 2 R = 0,9296 10 0 0 50 100 tempo 150 200 Regressione polinomiale: esempio growth rate data for experimental rats fed various doses of a dietary supplement y = -0,2017x + 86,436 R2 = 0,0345 95 y = -0,1277x2 + 5,2629x + 35,657 R2 = 0,9364 90 amount of supplement growth rate (coded (grams) units) 10 73 10 78 15 85 20 90 20 91 25 87 25 86 25 91 30 75 35 65 85 80 75 70 65 60 0 10 20 30 40 Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X1: temperatura media mensile in gradi F X2: numero di giorni di operatività in un mese X3: numero di riavviamenti (startup) in un mese Problema: capire quali variabili e come influiscono sul consumo di vapore Y X1 X2 X3 10,98 35,3 20 4 11,13 29,7 20 5 12,51 30,8 23 4 8,4 9,27 8,73 6,36 8,5 7,82 9,14 8,24 12,19 11,88 9,57 10,94 9,58 10,09 8,11 6,83 8,88 7,68 8,47 8,86 10,36 11,08 58,8 61,4 71,3 74,4 76,7 70,7 57,5 46,4 28,9 28,1 39,1 46,8 48,5 59,3 70 70 74,5 72,1 58,1 44,6 33,4 28,6 20 21 22 11 23 21 20 20 21 21 19 23 20 22 22 11 23 20 21 20 20 22 4 5 4 2 5 4 5 4 4 5 5 4 4 6 4 3 4 4 6 4 4 5 Quali variabili utilizzare nella regressione? matrice di correlazione Y X1 X2 X3 Y X1 X2 X3 1,00 -0,85 0,54 0,38 1,00 -0,21 -0,24 1,00 0,60 1,00 Si scelgono le variabili maggiormente correlate con la variabile da spiegare e meno correlate tra loro. 13 12 11 Y 10 9 8 13 7 12 6 25 35 45 55 65 75 11 X1 Y 10 9 8 13 7 12 6 10 12 14 16 18 20 22 X2 11 Y 10 9 8 7 6 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 X3 Modello lineare con una variabile esplicativa Si vuole spiegare la variabile Y come funzione della X1 supponendo che il legame sia lineare Y = a + bX 1 quindi si vogliono determinare a e b tali che yˆ i = a + bx1,i i = 1,L,25 e 25 2 ∑ ( yi − yˆi ) = min i =1 Facendo i conti si ottiene b = σ xy = 0.08 e a = y − bx = 13.6 2 σx 24 Possiamo riscrivere le 25 equazioni in un’unica equazione matriciale, ovvero yˆ = Xα con 1 x1,1 yˆ1 a yˆ = M , X = M M , α = b yˆ 1 x 25 1, 25 determiniamo α=(a,b) minimizzando g ( a, b) = (y − yˆ )' (y − yˆ ) = (y − Xα )' (y − Xα ) la soluzione dell’equazione matriciale è α = (X' X )−1 X' y Dai dati dell’esempio si ottiene 13.62 a α= = − 0.08 b n X' X = ∑ xi −1 (X' X ) ∑ xi ∑ xi2 ∑ yi X' y = ∑ xi yi ∑ xi2 1 = n∑ ( xi − x )2 − ∑ xi 1315 25 X' X = 1315 76323.42 (X' X )−1 = − ∑ xi n 235.6 X' y = 11821.43 1 76323.42 − 1315 178860.5 − 1315 25 13 y = 13,623 - 0,0798x 12 2 R = 0,7144 11 Y 10 9 8 7 6 25 35 45 55 X1 65 75 Si vuole spiegare la variabile Y in funzione della variabile X2 Si ottiene 3.56 α= 0 . 29 13 y = 3,5605 + 0,2897x 12 2 R = 0,2874 11 Y 10 9 8 7 6 10 12 14 16 18 20 22 24 X2 Si vuole spiegare la variabile Y in funzione della variabile X3 Si ottiene 6.27 α= 0.73 13 y = 0,731x + 6,2662 12 2 R = 0,146 11 Y 10 9 8 7 6 1,5 2 2,5 3 3,5 4 X3 4,5 5 5,5 6 6,5 Modello lineare con due variabili esplicative Si vuole spiegare la Y come funzione lineare di X1 (variabile maggiormente correlata con Y) e X2 (variabile meno correlata con X1) il modello ipotizzato è Y = a + bX 1 + cX 2 Si vuole, quindi, determinare il piano che passi il più vicino possibile ai punti del grafico si vogliono determinare a, b e c tali che yˆ i = a + bx1,i + cx2,i i = 1,L,25 Possiamo riscrivere le 25 equazioni in un’unica equazione matriciale, ovvero yˆ = Xα con 1 x1,1 x2,1 a yˆ1 yˆ = M , X = M M M , α = b c yˆ 1 x x 25 1, 25 2, 25 la soluzione ottenuta con il metodo dei minimi quadrati è α = (X' X )−1 X' y Dai dati dell’esempio otteniamo 9.13 α = - 0.07 0.20 Yˆ = 9.13 − 0.07 X 1 + 0.20 X 2 R 2 = 0.85