Schema lezione 8 Modelli lineari CAPIRE: • Utilità dei modelli in cui si riconosce il legame funzionale tra due variabili casuali • Quali situazioni possono venir descritte tramite un modello lineare • Ipotesi necessarie per poter descrivere un fenomeno tramite un modello lineare • Utilità delle tecniche di analisi della varianza • Perché per confrontare delle medie di più popolazioni si debba analizzare la varianza IMPARARE: • Come stimare i parametri che caratterizzano il modello lineare semplice 1. Se le variabili casuali Yi= β0 + β1xi+εεi sono i.i.d. con distribuzione normale 2. Se le variabili Yi= β0 + β1xi+εεi sono a due a due non correlate • Come determinare intervalli di confidenza e effettuare tests di ipotesi se le variabili casuali Yi= β0 + β1xi+εεi sono i.i.d. con distribuzione normale APPLICARE: Le tecniche relative ai modelli lineari per risolvere problemi di interesse applicativo 1 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Interpolazione Situazione: riteniamo che due variabili siano legate da una relazione funzionale del tipo y=q(x) 1. Azione: effettuiamo misure successive di y al variare del valore di x 2. Osserviamo che le nostre misure di x e di y sono affette da errori sperimentali casuali: stiamo misurando X e Y e cercando di determinare Y=q(X) 3. Introduciamo l’ipotesi semplificativa secondo cui gli errori che facciamo misurando X siano trascurabili rispetto agli errori su Y 4. Riportiamo i punti (X1,Y1), (X2,Y2), …, (Xn,Yn) su un sistema di assi cartesiani completando il diagramma di dispersione. 5. Cerchiamo di individuare l’equazione della curva interpolante DEMAND vs. PRICE PRICE = 55,634 + ,36571 * DEMAND Correlation: r = ,18348 120 110 In questo caso parliamo di interpolazione lineare PRICE 100 90 80 70 60 50 86 90 94 98 102 106 110 114 Regression 95% confid. DEMAND Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 2 Esempi (caso lineare) E’ da un’ora che camminiano, quanta strada abbiamo fatto? 1. E’ noto che la distanza media da un punto di una particella al tempo t può venir calcolata tramite la formula s = β0 + β1 t dove β1 è la velocità media e β0 è la distanza dal punto di riferimento al tempo t = 0. Se β0 e β1 sono incognite: possiamo osservare s in due istanti t1 e t2 ricavando un sistema di 2 equazioni in 2 incognite che ci permette di ricavare le due incognite. Difficoltà: in realtà noi commettiamo sempre un errore casuale quando effettuiamo la misura della distanza s. La vera equazione diviene Y= β0 + β1 t+ ε ε: Variabile casuale N(0,σ2) Modello di relazione funzionale 2. Supponiamo di misurare il peso w e l’altezza h di un campione di abitanti di una certa città. Pur non esistendo una relazione funzionale tra w e h possiamo ipotizzare che le due v.c. W e H siano tali che la v.c. bidimensionale (W,H) sia una v.c. normale bidimensionale. Di conseguenza E[H| W = w] = β0 + β1 w Hw = β0 + β1 w + ε ε: Variabile casuale N(0,σ2) con β0 e β1 parametri che dipendono dalla distribuzione di (W,H). Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Modello di regressione lineare 3 Modello lineare µ(x) = β0 + β1 x x1, x2, …, xn n-pla associata all’ n-pla campionaria y1, y2, …, yn Yi ∼ f Yi ; E(Yi) = β0 + β1 xi Var (Yi) = σ2 Yi= β0 + β1 t+ εi E(εi ) = 0 Var(εi ) = σ2 µ(x) dev’essere lineare nei parametri β0 , β1 non necessariamente in x: µ(x)= β0 + β1 ex è un modello lineare?! 4 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Equazioni della retta interpolante: 1. metodo dei minimi quadrati 2. metodo della massima verosimiglianza CRITERIO: una volta determinata l’equazione generica della curva interpolante, fissiamo i parametri in modo da rendere MINIMA la distanza al quadrato dei punti osservati dalla curva. Nel caso di campionamento da una normale bivariata le stime dei parametri ottenute con il principio di massima verosimiglianza e quelle col metodo dei minimi quadrati coincidono 5 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Curva interpolante dei minimi quadrati caso lineare- retta di regressione y = β0+ β1 x Obiettivo: determinare β0 e β1 ottimali affinché la retta ottenuta costituisca il miglior fit possibile per i dati sperimentali. Equazione della retta di regressione: y = β0 + β1 x Valori di y corrispondenti ai valori x sulla retta di regressione (sono diversi dai valori y osservati) ∧ ∧ Dobbiamo determinare β0 e β1 in modo da rendere minima la quantità ∧ ∧ β0 β1 β0 Equazioni normali β0 ∧ β1 Dovrò risolvere un sistema lineare di due equazioni nella incognite β0 e β1. Se invece di una retta avessi un piano avrei 3 equazioni in 3 incognite... ∧ β1 6 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino ESEMPIO Viene Effettuato un test per determinare il livello di conoscenza del tedesco di un gruppo di persone che hanno fatto domanda per una posizione presso la CEE, gli esiti del test sono poi confrontati col numero di anni in cui i candidati hanno studiato la lingua a scuola. Numero anni x 3 4 4 2 5 3 4 5 3 2 Voto al test y 57 78 72 58 89 63 73 84 75 48 x2 xy 9 16 16 4 25 9 16 25 9 4 171 312 288 116 445 189 292 420 225 96 697 133 2554 TOTALE 35 Il grafico suggerisce la possibilità di effettuare un’interpolazione lineare, qual è l’equazione della retta interpolante? Soluzione Le equazioni normali risultano: 697=10β0+35β1 2554=35 β0+133β1 ∧ ∧ La cui soluzione è β1=229/21≈10.90; β0=315.5/10=31.55. L’equazione della retta dei 7 minimi quadrati è quindi y=31.55+10.90 x Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Soluzione equazioni normali In genere i coefficienti dell’equazione di regressione vengono calcolati con il software specifico: anche Excell permette questo calcolo, scegliendo da inserisci funzione/statistiche/regressione Se però dovessimo fare i conti a mano… come durante l’esame ci converrebbe calcolare β0 e β1 con le formule in questa pagina ∧ β1 ∧ Sxx β0 ∧ β1 Naturalmente se usassimo queste formule nel nostro esempio il risultato non cambierebbe 8 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Stima di massima verosimiglianza Derivo rispetto ai parametri e uguaglio a zero ∧ ∧ ∧ Equazioni normali ∧ ∧ ∧ =0 ∧ ∧ ∧ =0 ∧ ∧∧ ∧ ∧ Risolvo il sistema DISTRIBUZIONE? Coincide con la soluzione del metodo dei minimi quadrati ∧ Stima della v.c. Β1 ∧ Stima della v.c. Β0 ∧ Stima della v.c. Σ2 9 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervalli di confidenza 1 Intervallo di livello γ per la varianza σ2 Statistica del test: Intervallo di confidenza: Intervallo di livello γ per β0 Statistica del test: Intervallo di confidenza: Ï Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 10 Intervallo di livello γ per β1 Statistica del test: Intervallo di confidenza: Intervallo di livello γ per µ(x) = β0 +β β1 x Statistica del test: T= 11 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Promemoria: tests per confrontare due medie Esempio: In una ricerca vengono collezionati dati relativi ai valori di amilase (enzima coinvolto nella trasformazione degli zuccheri) da due campioni di soggetti, il primo campione è costituito da 15 individui sani mentre il secondo è costituito da 22 individui ospedalizzati. Le medie campionarie sono 120 unità/ml e 96 unità/ml mentre le deviazioni standard risultano 40 e 35 unità/ml, rispettivamente. La ricerca si propone di stabilire se le medie delle due popolazioni sono diverse. Soluzione Statistica del test Regione di accettazione: (-2.0301,2.0301) Non possiamo rifiutare l’ipotesi nulla: non possiamo quindi affermare che i malati e i sani hanno valori diversi per questo enzima 12 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Promemoria: tests per confrontare due medie Campioni indipendenti Campioni accoppiati Statistica di test Student con -2 gradi di libertà Esempio: Un amministratore ospedaliero vuol sapere se ilreddito annuo delle famiglie che fanno capo al suo ospedale è maggiore di quello delle famiglie che si rivolgono ad un altro ospedale. Considera il reddito delle famiglie di 75 suoi pazienti il cui reddito medio risulta pari a 6800$, mentre per 80 pazienti dell’altro ospedale ottiene 5450$. Le deviazioni standard sono 600 e 500$ rispettivamente. Student con n-1 gradi di libertà Esempio: Dodici individui partecipano a un esperimento per verificare se una certa dieta riduca il livello di colesterolo. Cosa si può concludere i base a questi dati? 13 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Promemoria: tests per confrontare due varianze Due metodi di cura possono avere la stessa media ma uno potrebbe essere preferibile perché caratterizzato da varianza minore Statistica del test: Esempio: Due medicinali calmanti per il dolore vengono confrontati in base al tempo necessario dopo la somministrazione per eliminare il dolore.13 pazienti ricevono il primo farmaco e 13 il secondo. Le varianze campionarie sono 64 e 16 rispettivamente. Si può affermare che le due varianze sono uguali? (α=0.05) Soluzione: Rifiutiamo H0 Se i due calmanti danno la stessa media dobbiamo preferire il secondo perché ha varianza minore. 14 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Tests per confrontare p medie Vogliamo verificare l’ipotesi nulla che non ci sia differenza tra diverse popolazioni (es. 5 popolazioni) Possiamo effettuare il test tra due popolazioni per tutte le coppie possibili Ci sono 10 coppie possibili su cui effettuare un test caratterizzato ogni volta da probabilità di errore di prima specie 0.05 Se i test sono tutti indipendenti la probabilità di trovare almeno un test che porti al rifiuto è 1-0.9510=0.4013 e quindi la probabilità di errore di I specie è 0.4013 Troppo grande! E’ necessario introdurre una nuova metodologia per studiare questi casi: L’ANALISI DELLA VARIANZA L’analisi della varianza può essere a una o più vie. Nel caso a una via si riconoscono solo le differenze tra diversi “trattamenti”, nel caso a più vie si studiano più fattori che possono creare delle differenzetra le medie Noi consideriamo solo l’analisi della varianza a una via 15 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Analisi della varianza Metodologia per verificare se due o più campioni possono ritenersi estratti dalla stessa popolazione (o meglio: popolazioni caratterizzate dalla stessa media) • Analisi della varianza a una via: si considera una sola causa di variazione nell’esito di ciascun esperimento • Fattore: causa di variazione considerata. Disegno completamente casuale: ciascun trattamento viene assegnato in modo TOTALMENTE casuale ai soggetti su cui si effettuano le misure per determinare l’effetto dei singoli trattamenti Quindi se indago sull’effetto di 5 tipi di fertilizzante sul raccolto di un certo prodotto devo raccogliere 5 campioni, ciascuno relativo all’applicazione di un diverso fertilizzante. Il fattore in questo caso è il fertilizzante! Se voglio confrontare l’effetto di 4 farmaci antidolorifici e ho 100 pazienti con uguale sintomatologia, divido casualmente i 100 individui in gruppi di 25 e a ciascun gruppo somministro un diverso farmaco. 16 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Analisi della varianza: esperimenti completamente casualizzati Quantità coinvolte: Esempio: nello studio dell’effetto del glucosio nella produzione di insulina, si considerano campioni di tessuto pancreatico prelevati da cavie trattate con 5 differenti stimolanti. I ricercatori vogliono scoprire se c’è una differenza tra i 5 trattamenti. (campionamento completamente casuale) : i-mo dato relativo a cavie soggette al primo trattamento : effetto medio del primo trattamento Le differenze tra queste medie sono dovute a effetti diversi dei trattamenti o sono le normali differenze che possiamo osservare campionando più volte dalla stessa popolazione? Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 17 Dobbiamo trovare un metodo che ci permetta di distinguere se le differenze che osserviamo tra le medie dei diversi campioni sono dovute a reali differenze tra i trattamenti o alla naturale differenza che si osserva campionando ripetutamente dalla stessa popolazione 10 Quantità di insulina prodotta Se le medie sono tutte uguali ho: 0.60 0.45 0.30 0.15 0.00 -3.50 -1.75 0.00 1.75 3.50 Se invece non vale l’ipotesi nulla le 5 popolazioni hanno medie diverse 8 6 .. 4 2 0.60 0.45 1 2 3 4 5 0.30 0.15 18 0.00 -3.50 -1.75 0.00 1.75 3.50 5.25 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Media relativa al j-mo trattamento Errore commesso nella misura i-ma relativa al j-mo trattamento Media del campione totale, costituito dall’unione di tutti i campioni Scarto tra la media relativa a un trattamento e quella del campione totale. (E’ nulla se tutte le medie sono uguali!) Somma degli scarti al quadrato per ogni gruppo di trattamenti 19 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Statistica del test 20 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Statistica del test N-k Se i campioni possono venir considerati estratti dalla stessa popolazione VR dev’essere circa uguale a 1 Fisher Tavola ANOVA VR ~ F (k-1, N-k) 21 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esempio (insulina) SST = 162.54282 Valore critico di F=2.73 < 19.79 SSW = 41.35739 SSA = 121.18543 MSW = 1.5317552 MSA = 30.296358 Rifiuto l’ipotesi nulla: i diversi trattamenti hanno effetti diversi Attenzione: per usare il disegno completamente casuale occorre essere certi che gli individui che ricevono il trattamento siano omogenei. Esempio: se dobbiamo confrontare gli effetti di 4 farmaci antiinfluenzali, dobbiamo selezionare un gruppo di individui con età, stato salute, … omogenei. Poi divideremo il gruppo in 4 sottogruppi cui distribuiremo i 4 farmaci. Si potrebbe agire nello stesso modo se ci fossero, per esempio, individui di diverse età. Tuttavia in questo caso dovremmo attribuire gli individui tenendo conto di queste differenze, per esempio attribuendo un individuo 22 anziano a caso a ciascun sottogruppo (disegno completamente casuale a blocchi) Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi • Si misurano i battiti cardiaci per minuto di 4 gruppi di adulti: adulti al controllo annuale (gruppo A), pazienti sofferenti di angina (gruppo B), individui ipertesi (gruppo C) e individui infartuati (gruppo D). I dati raccolti forniscono evidenza sperimentale (al livello α=0.05) di una differenza di ritmo medio in questi 4 gruppi? • In una particolare regione sono presenti 5 giacimenti di carbone. Si raccolgono i dati in ciascun giacimento per confrontare il contenuto di sulfuro. Si vuole controllare se esiste una differenza tra le medie di sulfuri presenti nei 5 giacimenti. 23 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino