Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 1 Campo di applicazione • Analisi della relazione tra due variabili continue. • Es: relazione tra altezza e peso Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 2 Campo di applicazione • Le variabili sono associate? -> correlazione • Come varia il valore di una variabile in conseguenza del variare di un’altra variabile? -> regressione Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 3 Correlazione Dato un insieme di osservazioni definite da due variabili continue, valutiamo la forza dell’associazione tra le due variabili •disegnando il diagramma di dispersione e •calcolando il coefficiente di correlazione. Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 4 Il diagramma di dispersione si disegna riportando i valori delle osservazioni su un sistema di assi cartesiani, in cui l’asse x rappresenta una delle due variabili e l’asse y l’altra variabile. Il diagramma consente di collocare ogni osservazione nello spazio definito dai valori possibili delle due variabili. Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 5 Relazione alla nascita tra circonferenza cranica e lunghezza 36,0 34,0 circonferenza cranica 32,0 30,0 28,0 26,0 24,0 22,0 20,0 19 24 29 34 39 44 49 lunghezza Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 6 La forma della nuvola di punti così ottenuta consente una valutazione visiva del grado di associazione tra le due variabili. Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 7 Relazione tra circonferenza cranica alla nascita ed età materna 36,0 34,0 circonferenza cranica 32,0 30,0 28,0 26,0 24,0 22,0 20,0 10 15 20 25 30 35 40 45 età materna Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 8 Relazione alla nascita tra circonferenza cranica e lunghezza 36,0 34,0 circonferenza cranica 32,0 30,0 28,0 26,0 24,0 22,0 20,0 19 24 29 34 39 44 49 lunghezza Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 9 Il coefficiente di correlazione di Pearson (r) consente la valutazione formale del grado di associazione. L’intervallo dei valori possibili di r è: -1 <= r <=1 Se r=1 o r=-1 tutti i punti giacciono su una retta Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 10 Relazione tra circonferenza cranica alla nascita ed età materna 36,0 r = 0,15 34,0 circonferenza cranica 32,0 30,0 28,0 26,0 24,0 22,0 20,0 10 15 20 25 30 35 40 45 età materna Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 11 Relazione alla nascita tra circonferenza cranica e lunghezza 36,0 r = 0,72 34,0 circonferenza cranica 32,0 30,0 28,0 26,0 24,0 22,0 20,0 19 24 29 34 39 44 49 lunghezza Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 12 La formula del coefficiente di correlazione di Pearson (r) ∑ (x n r= i )( − x yi − y i =1 ∑ (x n i =1 i −x ) ) ∑ (y − y ) 2 n 2 i i =1 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 13 Relazione tra concentrazione plasmatica i colesterolo e trigliceridi 1 2 3 4 5 6 7 8 9 10 medie: Colesterolo Trigliceridi (x) (y) 3,45 6,24 3,5 6,18 2,95 5,2 3,77 6,11 3,67 6,36 5,31 5,67 5,1 5,48 7,85 5,67 8,79 9,4 12,3 8,4 5,669 6,471 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 14 Relazione tra concentrazione plasmatica di colesterolo e trigliceridi 10 9 8 7 trigliceridi 6 5 4 3 2 1 0 0 2 4 6 8 10 12 14 colesterolo Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 15 Relazione tra concentrazione plasmatica i colesterolo e trigliceridi 1 2 3 4 5 6 7 8 9 10 medie: Colesterolo Trigliceridi (x) (y) 3,45 6,24 3,5 6,18 2,95 5,2 3,77 6,11 3,67 6,36 5,31 5,67 5,1 5,48 7,85 5,67 8,79 9,4 12,3 8,4 5,669 (x − x ) (y − y ) i -2,459 -2,409 -2,959 -2,139 -2,239 -0,599 -0,809 1,941 2,881 6,391 i -0,493 -0,553 -1,533 -0,623 -0,373 -1,063 -1,253 -1,063 2,667 1,667 6,471 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 16 Relazione tra concentrazione plasmatica di colesterolo e trigliceridi Colesterolo Trigliceridi (x) (y) 3,45 3,5 2,95 3,77 3,67 5,31 5,1 7,85 8,79 12,3 6,24 6,18 5,2 6,11 6,36 5,67 5,48 5,67 9,4 8,4 (x − x) i -2,459 -2,409 -2,959 -2,139 -2,239 -0,599 -0,809 1,941 2,881 6,391 (y − y) (x − x)* (y − y) i i i (x − x) 2 i -0,493 -0,553 -1,533 -0,623 -0,373 -1,063 -1,253 -1,063 2,667 1,667 1,212287 1,332177 4,536147 1,332597 0,835147 0,636737 1,013677 -2,063283 7,683627 10,653797 6,046681 5,803281 8,755681 4,575321 5,013121 0,358801 0,654481 3,767481 8,300161 40,844881 Sommatorie: 26,54411 83,54389 r= 0,715774547 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice (y − y) 2 i 0,243049 0,305809 2,350089 0,388129 0,139129 1,129969 1,570009 1,129969 7,112889 2,778889 16,46149 17 Esercizi Correlazione • Pag. 304 n. 1 • Pag. 304 n. 5 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 18 Regressione Stima della variazione media di una variabile in conseguenza della variazione unitaria di un’altra variabile Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 19 • Variabile indipendente -> causa -> (sulle ascisse) • Variabile dipendente -> effetto -> (sulle ordinate) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 20 effetto y V . d i p e n d e n t e causa Var. indipendente x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 21 Obiettivo dell’analisi di regressione: Individuare la retta che meglio predice il valore di y (variabile dipendente), noto il valore di x (variabile indipendente). y=a+bx Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 22 y=a+bx a -> intercetta b -> pendenza Come stimiamo i valori dei due coefficienti? Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 23 Il valore atteso di x è la sua media y x Media di x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 24 Media di y Il valore atteso di y è la sua media x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 25 La retta che meglio predice y|x passa per la media di x e di y y Media di x e media di y x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 26 Per un punto passano infinite rette! Quale retta scegliamo? Con quale criterio? y x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 27 y x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 28 Residuo (o scarto) = valore y_osservato – valore y_predetto La retta migliore minimizza la somma dei quadrati dei residui Metodo detto ‘dei minimi quadrati’ y valore y_osservato valore y_predetto x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 29 ∑ (x − x )(y − y ) b= ∑ (xi − x ) i i 2 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 30 a = y − b x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 31 Relazione tra concentrazione plasmatica di colesterolo e trigliceridi Colesterolo Trigliceridi (x) (y) (x − x ) (y − y ) i i (x − x )* (y − y ) i i (x − x) 2 i 1 3,45 6,24 -2,219 -0,231 0,512589 2 3,5 6,18 -2,169 -0,291 0,631179 4,704561 3 2,95 5,2 -2,719 -1,271 3,455849 7,392961 4 3,77 6,11 -1,899 -0,361 0,685539 3,606201 5 3,67 6,36 -1,999 -0,111 0,221889 3,996001 6 5,31 5,67 -0,359 -0,801 0,287559 0,128881 7 5,1 5,48 -0,569 -0,991 0,563879 0,323761 8 7,85 5,67 2,181 -0,801 -1,746981 4,756761 9 8,79 9,4 3,121 2,929 9,141409 9,740641 10 12,3 8,4 6,631 1,929 12,791199 43,970161 5,669 6,471 26,54411 83,54389 medie: b= 0,31772653 a= 4,66980832 4,923961 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 32 variazione del livello di trigliceridi con il livello di colesterolo tr i g li c e r id i (y ) 10 8 6 4 2 0 0 2 4 6 8 10 12 14 colesterolo (x) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 33 variazione del livello di trigliceridi con il livello di colesterolo tr i g li c e r id i (y ) 10 8 b = 0,32 6 4 2 0 0 2 4 6 8 10 12 14 colesterolo (x) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 34 variazione del livello di trigliceridi con il livello di colesterolo tr i g li c e r id i (y ) 10 a=4,67 8 6 4 2 0 0 2 4 6 8 10 12 14 colesterolo (x) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 35 variazione del livello di trigliceridi con il livello di colesterolo trigliceridi=4,67 + 0,32* colesterolo tr i g li c e r id i (y ) 10 8 6 4 2 0 0 2 4 6 8 10 12 14 colesterolo (x) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 36 Formule abbreviate ( y )(∑ x )− (∑ y )(∑ xi y ) ∑ a= n(∑ x )− (∑ xi ) 2 i i i i 2 2 i b= ( ) ( ) n(∑ x )− (∑ xi ) n ∑ xi y − (∑ xi ) ∑ y i 2 i 2 i Queste formule sono più convenienti per il calcolo a mano Si basano sulle formule abbreviate per il calcolo della varianza Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 37 Requisiti dell’analisi di regressione Y è una variabile casuale Omoscedasticità (omogeneità della varianza di y|x) Distribuzione normale di y|x Linearità della relazione tra x ed y Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 38 In questo esempio abbiamo dati campionati da una popolazione in cui le tre assunzioni sono soddisfatte Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 39 Variabilità della retta di regressione. • y è una variabile casuale • x di solito non è una variabile casuale. Il ricercatore può scegliere soggetti con i valori della x più adatti per lo studio. • siamo interessati a valutare la variabilità di y, non quella di x. Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 40 Varianza intorno alla retta di regressione (stima campionaria) ∑ ( y − yˆ ) 2 s = 2 i i n−2 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 41 Residuo (o scarto) = valore y_osservato – valore y_predetto Varianza = scarti ^ 2 / g.l. y valore y_osservato scarto valore y_predetto x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 42 ∑ ( y − yˆ ) yˆ i = a + bxi 2 s = 2 i i n−2 Sostituisco: ( y − a − bx ) ∑ s = 2 2 i i n−2 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 43 Relazione tra concentrazione plasmatica di colesterolo e trigliceridi Colesterolo Triglicerid (x) i (y) 1 3,45 6,24 att(y) y-att(y) (y-att(y))^2 5,765965 0,474035 0,224709 2 3,5 6,18 5,781851 0,398149 0,158522 3 2,95 5,2 5,607102 -0,4071 0,165732 4 3,77 6,11 5,867637 0,242363 0,05874 5 3,67 6,36 5,835865 0,524135 0,274718 6 5,31 5,67 6,356936 -0,68694 0,471881 7 5,1 5,48 6,290214 -0,81021 0,656446 8 7,85 5,67 7,163962 -1,49396 2,231921 9 8,79 9,4 7,462624 1,937376 3,753424 10 12,3 8,4 8,577845 -0,17784 0,031629 somma degli b= 0,31772653 a= 4,66980832 scarti^2 8,027722 s(b)^2= 1,003465 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 44 Omoscedasticità: la varianza di y è costante per tutto l’intervallo x. E’ un requisito per la corretta applicazione della regressione lineare (v.oltre) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 45 Errore standard di b ES (b) = s 2 ∑ (x − x ) 2 i Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 46 Colesterolo (x) Trigliceridi (y) (x − x) 2 att(y) y-att(y) (y-att(y))^2 i 1 3,45 6,24 4,923961 5,765965 0,474035 0,224709 2 3,5 6,18 4,704561 5,781851 0,398149 0,158522 3 2,95 5,2 7,392961 5,607102 -0,4071 0,165732 4 3,77 6,11 3,606201 5,867637 0,242363 0,05874 5 3,67 6,36 3,996001 5,835865 0,524135 0,274718 6 5,31 5,67 0,128881 6,356936 -0,68694 0,471881 7 5,1 5,48 0,323761 6,290214 -0,81021 0,656446 8 7,85 5,67 4,756761 7,163962 -1,49396 2,231921 9 8,79 9,4 9,740641 7,462624 1,937376 3,753424 10 12,3 8,4 43,970161 8,577845 -0,17784 0,031629 somma degli 83,54389 scarti^2 8,027722 b= 0,31772653 s(b)^2= 1,003465 a= 4,66980832 ES(b)= 0,109596 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 47 Errore standard di b ES (b) = s 2 ∑ (x − x ) 2 i L’errore standard di b si riduce, a parità di s, quando la variabilità di x è maggiore ! Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 48 Intervallo di Confidenza e tests t per il coefficiente di regressione t = distanza tra il valore di b stimato (b) e quello previsto dall’ipotesi nulla (ß, di solito H0: ß =0), in unità di errore standard di b (SE(b)) b−β t= SE (b) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 49 Intervallo di Confidenza del coefficiente di regressione L’intervallo di confidenza si calcola nel modo consueto (v. lezione precedente) t ha (n-2) gradi di libertà ed il valore è scelto in modo corrispondente all’errore di I tipo, con test a 2 code CI = b ± tcrit × SE (b) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 50 Colesterolo (x) Trigliceridi (y) (x − x) 2 att(y) y-att(y) (y-att(y))^2 i 1 3,45 6,24 4,923961 5,765965 0,474035 0,224709 2 3,5 6,18 4,704561 5,781851 0,398149 0,158522 3 2,95 5,2 7,392961 5,607102 -0,4071 0,165732 4 3,77 6,11 3,606201 5,867637 0,242363 0,05874 5 3,67 6,36 3,996001 5,835865 0,524135 0,274718 6 5,31 5,67 0,128881 6,356936 -0,68694 0,471881 7 5,1 5,48 0,323761 6,290214 -0,81021 0,656446 8 7,85 5,67 4,756761 7,163962 -1,49396 2,231921 9 8,79 9,4 9,740641 7,462624 1,937376 3,753424 10 12,3 8,4 43,970161 8,577845 -0,17784 0,031629 83,54389 somma degli scarti^2 8,027722 b= 0,31772653 s(b)^2= 1,003465 a= 4,66980832 ES(b)= 0,109596 IC(95%)_b= 0,064998 -0,570455 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 51 variazione del livello di trigliceridi con il livello di colesterolo tr i g li c e r id i (y ) trigliceridi=4,67 + 0,32* colesterolo 10 IC(95%)_b= 0,06 -0,57 8 6 4 2 0 0 2 4 6 8 10 12 14 colesterolo (x) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 52 Relazione alla nascita tra circonferenza cranica e lunghezza a=8,02 b= 0,51 ES(b)=0,05021 (IC 95%_b: 0,41 - 0,61) y= 8,02 + 0,51x 36,0 34,0 32,0 circonferenza cranica 30,0 28,0 26,0 24,0 22,0 20,0 18,0 19 22 25 28 31 34 37 40 43 46 lunghezza Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 53 Valore di y predetto dalla retta di regressione data y=a+bx, dopo aver ricavato a e b possiamo predire il valore atteso di y, corrispondente ad un dato valore di x. • Il calcolo si effettua sostituendo il valore di x nella formula, noti a e b e risolvendo l’equazione. Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 54 Valore di y predetto dalla retta di regressione • Es. il valore di circonferenza cranica predetto per un bambino di lunghezza 41 cm è ŷ =8,02+0,513 * x ŷ =8,02+0,513 * 41 ŷ =29,05 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 55 Intervallo di confidenza dei valori predetti ( xi′ − x ) 1 PI = yˆ ± t gl ,α s 1 + + 2 2 n ∑ (xi − x ) 2 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 56 Relazione alla nascita tra circonferenza cranica e lunghezza Es. il valore di circonferenza cranica predetto per un bambino di lunghezza 41 cm è ŷ =29,05 IC( ŷ )= 25,47 - 32,63 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 57 Intervallo di confidenza dei valori predetti ( xi′ − x ) 1 PI = yˆ ± t gl ,α s 1 + + 2 2 n ∑ (xi − x ) 2 La predizione ha un errore maggiore allontanandosi dalla media di x La predizione ha un errore minore con un’ampia variabilità di x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 58 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 59 14 12 10 8 6 4 atteso_y 2 0 0 2 4 6 8 10 12 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 14 60 Cautele nella predizione • La predizione non è valida fuori dell’intervallo osservato di x • La predizione è più incerta agli estremi della distribuzione di x • Per migliorare la precisione della predizione debbo aumentare la somma dei quadrati degli scarti (devianza) di x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 61 Outliers ed osservazioni ‘influenti’ Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 62 Relazione alla nascita tra circonferenza cranica e lunghezza Ho due outliers, indicati come: 1 e 2 2 36,0 34,0 32,0 circonferenza cranica 30,0 28,0 26,0 24,0 1 22,0 20,0 18,0 19 22 25 28 31 34 37 40 43 46 lunghezza Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 63 Relazione alla nascita tra circonferenza cranica e lunghezza Se escludo outlier 1 36,0 34,0 32,0 circonferenza cranica 30,0 28,0 26,0 24,0 1 22,0 20,0 18,0 19 22 25 28 31 34 37 40 43 46 lunghezza Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 64 Relazione alla nascita tra circonferenza cranica e lunghezza Se escludo outliers 1 e 2 2 36,0 34,0 32,0 circonferenza cranica 30,0 28,0 26,0 24,0 1 22,0 20,0 18,0 19 22 25 28 31 34 37 40 43 46 lunghezza Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 65 Relazione alla nascita tra circonferenza cranica e lunghezza Tutti i dati: a=8,02 b= 0,51 Escluso outlier 1: a=4,91 b=0,60 Esclusi outlier 1 e 2: a=4,46 b=0,61 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 66 Valutazione del modello • R2 : proporzione della varianza che è spiegata dal modello di regressione • = (coefficiente di correlazione) ^2 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 67 variazione del livello di trigliceridi con il livello di colesterolo trigliceridi=4,67 + 0,32* colesterolo tr i g li c e r id i (y ) 10 r =0,716 R2 =0,51 8 6 4 2 0 0 2 4 6 8 10 12 14 colesterolo (x) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 68 Verifica dei modelli Omoscedasticità (omogeneità della varianza) Distribuzione normale degli errori Linearità Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 69 Verifica dei modelli Omoscedasticità (omogeneità della varianza) Distribizione normale degli errori Linearità Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 70 Omoscedasticità (omogeneità della varianza) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 71 Verifica delle assunzioni del modello La verifica delle assunzioni del modello viene condotta esaminando la distribuzione dei residui Se la varianza è costante per tutta la distribuzione della x,anche i residui saranno distribuiti in modo uniforme. Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 72 Residuo (o scarto) = valore y_osservato – valore y_predetto y valore y_osservato valore y_predetto x Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 73 Verifica delle assunzioni del modello Distribuzione uniforme dei residui Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 74 Distribuzione uniforme dei residui Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 75 Distribuzione non uniforme dei residui Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 76 Distribuzione non uniforme dei residui Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 77 Verifica dei modelli Omoscedasticità (omogeneità della varianza) Distribuzione normale degli errori Linearità Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 78 Distribuzione normale dei residui (errori) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 79 Distribuzione non normale dei residui (errori) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 80 Distribuzione non normale dei residui (errori) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 81 Verifica dei modelli Omoscedasticità (omogeneità della varianza) Distribizione normale degli errori Linearità Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 82 Perchè parliamo di regressione lineare? • La variazione lineare è spesso una spiegazione adeguata • Variazioni non lineari diventano tali dopo una trasformazione matematica di una delle variabili • La variazione lineare è un punto di partenza Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 83 Non-linearità Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 84 Non-linearità Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 85 Non-linearità Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 86 Trasformazioni normalizzanti e linearizzanti • Radice quadrata • Logaritmo • Inversa (meglio se ulteriormente moltiplicata per -1) Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 87 Trasformazioni normalizzanti e linearizzanti Dati trasformati Inversa negativa Log Radice Dati originali Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 88 FR E Q U E N C Y 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 0 2 5 5 0 0 0 7 1 5 0 0 0 0 1 2 5 0 1 5 0 0 1 7 5 0 2 0 0 0 2 2 5 0 2 5 0 0 2 7 5 0 3 0 0 0 3 2 5 0 3 5 0 0 3 7 5 0 4 0 0 0 4 2 5 0 4 5 0 0 4 7 5 0 5 0 0 0 5 2 5 0 5 5 0 0 5 7 5 0 6 0 0 0 6 2 5 0 6 5 0 0 6 7 5 0 7 0 0 0 7 2 5 0 7 5 0 0 7 7 5 0 8 0 0 0 8 2 5 0 8 5 0 0 8 7 5 0 9 0 0 0 9 2 5 0 9 5 0 0 9 7 5 0 1 0 0 0 0 C O R PU SC OM ID PO IN T FR E Q U E N C Y 50 40 30 20 10 0 0 . 0 0 00 . . 25 50 01 . . 70 50 11 . . 25 50 1 . 7 5 2 . 0 0 2 . 2 5 2 . 5 0 23 . . 70 50 33 . . 25 50 34 . . 70 50 4 . 2 5 4 . 5 0 4 . 7 5 5 . 0 0 55 . . 25 50 56 . . 70 50 66 . . 25 50 L _c 6 . 7 5 7 . 0 0 77 . . 25 50 78 . . 70 50 88 . . 25 50 8 . 7 5 9 . 0 0 9 . 2 5 9 . 5 0 91 . 0 7. 50 0 11 00 . . 25 50 11 01 . . 70 50 1 1 . 2 5 1 1 . 5 0 11 12 . . 70 50 11 22 . . 25 50 11 23 . . 70 50 1 3 . 2 5 1 3 . 5 0 1 3 . 7 5 1 4 . 0 0 M ID PO IN T Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 89 Esercizi regressione • • • • • Pag.326 n 1 Pag.326 n 3 Pag.326 n 4 Pag.326 n 6 Pag.326 n 10 Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice 90