Schema lezione 8
Modelli lineari
CAPIRE:
• Utilità dei modelli in cui si riconosce il legame funzionale tra due variabili casuali
• Quali situazioni possono venir descritte tramite un modello lineare
• Ipotesi necessarie per poter descrivere un fenomeno tramite un modello lineare
• Utilità delle tecniche di analisi della varianza
• Perché per confrontare delle medie di più popolazioni si debba analizzare la
varianza
IMPARARE:
• Come stimare i parametri che caratterizzano il modello lineare semplice
1. Se le variabili casuali Yi= β0 + β1xi+εεi sono i.i.d. con distribuzione normale
2. Se le variabili Yi= β0 + β1xi+εεi sono a due a due non correlate
• Come determinare intervalli di confidenza e effettuare tests di ipotesi se le variabili
casuali Yi= β0 + β1xi+εεi sono i.i.d. con distribuzione normale
APPLICARE:
Le tecniche relative ai modelli lineari per risolvere problemi di interesse applicativo
1
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Interpolazione
Situazione: riteniamo che due variabili siano legate da una
relazione funzionale del tipo y=q(x)
1. Azione: effettuiamo misure successive di y al variare del valore di x
2. Osserviamo che le nostre misure di x e di y sono affette da errori sperimentali casuali:
stiamo misurando X e Y e cercando di determinare Y=q(X)
3. Introduciamo l’ipotesi semplificativa secondo cui gli errori che facciamo misurando X
siano trascurabili rispetto agli errori su Y
4. Riportiamo i punti (X1,Y1), (X2,Y2), …, (Xn,Yn) su un sistema di assi cartesiani
completando il diagramma di dispersione.
5. Cerchiamo di individuare l’equazione della curva interpolante
DEMAND vs. PRICE
PRICE = 55,634 + ,36571 * DEMAND
Correlation: r = ,18348
120
110
In questo caso parliamo di
interpolazione lineare
PRICE
100
90
80
70
60
50
86
90
94
98
102
106
110
114
Regression
95% confid.
DEMAND
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
2
Esempi (caso lineare)
E’ da un’ora che
camminiano,
quanta strada
abbiamo fatto?
1. E’ noto che la distanza media da un punto di una particella al tempo t può
venir calcolata tramite la formula s = β0 + β1 t dove β1 è la velocità media e
β0 è la distanza dal punto di riferimento al tempo t = 0.
Se β0 e β1 sono incognite: possiamo osservare s in due istanti t1 e t2
ricavando un sistema di 2 equazioni in 2 incognite che ci permette di
ricavare le due incognite.
Difficoltà: in realtà noi commettiamo sempre un errore casuale quando
effettuiamo la misura della distanza s. La vera equazione diviene
Y= β0 + β1 t+ ε
ε: Variabile casuale N(0,σ2)
Modello di relazione
funzionale
2. Supponiamo di misurare il peso w e l’altezza h di un campione di abitanti
di una certa città. Pur non esistendo una relazione funzionale tra w e h
possiamo ipotizzare che le due v.c. W e H siano tali che la v.c. bidimensionale
(W,H) sia una v.c. normale bidimensionale. Di conseguenza
E[H| W = w] = β0 + β1 w
Hw = β0 + β1 w + ε
ε: Variabile casuale N(0,σ2)
con β0 e β1 parametri che dipendono dalla distribuzione di (W,H).
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Modello di
regressione lineare
3
Modello lineare
µ(x) = β0 + β1 x
x1, x2, …, xn n-pla associata all’ n-pla campionaria y1, y2, …, yn
Yi ∼ f Yi ; E(Yi) = β0 + β1 xi Var (Yi) = σ2
Yi= β0 + β1 t+ εi
E(εi ) = 0
Var(εi ) = σ2
µ(x) dev’essere lineare nei
parametri β0 , β1 non
necessariamente in x:
µ(x)= β0 + β1 ex è un
modello lineare?!
4
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Equazioni della retta interpolante:
1. metodo dei minimi quadrati
2. metodo della massima verosimiglianza
CRITERIO: una volta determinata l’equazione generica della curva
interpolante, fissiamo i parametri in modo da rendere MINIMA
la distanza al quadrato dei punti osservati dalla curva.
Nel caso di campionamento da una
normale bivariata le stime dei parametri
ottenute con il principio di massima
verosimiglianza e quelle col metodo dei
minimi quadrati coincidono
5
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Curva interpolante dei minimi quadrati
caso lineare- retta di regressione y = β0+ β1 x
Obiettivo: determinare β0 e β1 ottimali affinché la retta ottenuta
costituisca il miglior fit possibile per i dati sperimentali.
Equazione della retta di regressione: y = β0 + β1 x
Valori di y corrispondenti ai
valori x sulla retta di regressione
(sono diversi dai valori y osservati)
∧
∧
Dobbiamo determinare β0 e β1 in modo da rendere minima la quantità
∧
∧
β0 β1
β0
Equazioni
normali
β0
∧
β1
Dovrò risolvere un
sistema lineare di due
equazioni nella
incognite β0 e β1. Se
invece di una retta
avessi un piano avrei 3
equazioni in 3
incognite...
∧
β1
6
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
ESEMPIO
Viene Effettuato un test per determinare il livello di conoscenza del tedesco di un gruppo di
persone che hanno fatto domanda per una posizione presso la CEE, gli esiti del test sono poi
confrontati col numero di anni in cui i candidati hanno studiato la lingua a scuola.
Numero anni
x
3
4
4
2
5
3
4
5
3
2
Voto al test
y
57
78
72
58
89
63
73
84
75
48
x2
xy
9
16
16
4
25
9
16
25
9
4
171
312
288
116
445
189
292
420
225
96
697
133
2554
TOTALE 35
Il grafico suggerisce la possibilità di effettuare un’interpolazione lineare, qual è
l’equazione della retta interpolante?
Soluzione Le equazioni normali risultano:
697=10β0+35β1
2554=35 β0+133β1
∧
∧
La cui soluzione è β1=229/21≈10.90; β0=315.5/10=31.55. L’equazione della retta dei
7
minimi quadrati è quindi y=31.55+10.90 x
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Soluzione equazioni normali
In genere i coefficienti dell’equazione di
regressione vengono calcolati con il software
specifico: anche Excell permette questo
calcolo, scegliendo da inserisci
funzione/statistiche/regressione
Se però dovessimo fare i conti a mano… come
durante l’esame ci converrebbe calcolare β0 e β1
con le formule in questa pagina
∧
β1
∧
Sxx
β0
∧
β1
Naturalmente se usassimo queste
formule nel nostro esempio il risultato
non cambierebbe
8
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Stima di massima verosimiglianza
Derivo rispetto ai parametri e uguaglio a zero
∧
∧
∧
Equazioni
normali
∧
∧
∧
=0
∧
∧
∧
=0
∧
∧∧
∧
∧
Risolvo il sistema
DISTRIBUZIONE?
Coincide con la
soluzione del
metodo dei minimi
quadrati
∧
Stima della v.c. Β1
∧
Stima della v.c. Β0
∧
Stima della v.c. Σ2
9
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervalli di confidenza 1
Intervallo di livello γ per la varianza σ2
Statistica del test:
Intervallo di confidenza:
Intervallo di livello γ per β0
Statistica del test:
Intervallo di confidenza:
Ï
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
10
Intervallo di livello γ per β1
Statistica del test:
Intervallo di confidenza:
Intervallo di livello γ per µ(x) = β0 +β
β1 x
Statistica del test:
T=
11
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Promemoria: tests per confrontare due medie
Esempio: In una ricerca vengono collezionati dati relativi ai valori di amilase (enzima coinvolto
nella trasformazione degli zuccheri) da due campioni di soggetti, il primo campione è costituito da
15 individui sani mentre il secondo è costituito da 22 individui ospedalizzati. Le medie
campionarie sono 120 unità/ml e 96 unità/ml mentre le deviazioni standard risultano 40 e 35
unità/ml, rispettivamente. La ricerca si propone di stabilire se le medie delle due popolazioni sono
diverse.
Soluzione
Statistica del test
Regione di accettazione:
(-2.0301,2.0301)
Non possiamo rifiutare l’ipotesi nulla: non
possiamo quindi affermare che i malati e i sani
hanno valori diversi per questo enzima
12
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Promemoria: tests per confrontare due medie
Campioni indipendenti
Campioni accoppiati
Statistica di test
Student con
-2 gradi di libertà
Esempio: Un amministratore ospedaliero vuol sapere se
ilreddito annuo delle famiglie che fanno capo al suo ospedale
è maggiore di quello delle famiglie che si rivolgono ad un
altro ospedale. Considera il reddito delle famiglie di 75 suoi
pazienti il cui reddito medio risulta pari a 6800$, mentre per
80 pazienti dell’altro ospedale ottiene 5450$. Le deviazioni
standard sono 600 e 500$ rispettivamente.
Student con n-1 gradi di libertà
Esempio: Dodici individui partecipano a un esperimento per
verificare se una certa dieta riduca il livello di colesterolo.
Cosa si può concludere i base a questi dati?
13
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Promemoria: tests per confrontare due varianze
Due metodi di cura possono avere la stessa media ma uno potrebbe essere
preferibile perché caratterizzato da varianza minore
Statistica del test:
Esempio: Due medicinali calmanti per il dolore vengono confrontati in base al tempo necessario dopo la
somministrazione per eliminare il dolore.13 pazienti ricevono il primo farmaco e 13 il secondo. Le varianze
campionarie sono 64 e 16 rispettivamente. Si può affermare che le due varianze sono uguali? (α=0.05)
Soluzione:
Rifiutiamo H0
Se i due calmanti danno la stessa media dobbiamo preferire
il secondo perché ha varianza minore.
14
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Tests per confrontare p medie
Vogliamo verificare l’ipotesi nulla che non ci sia differenza tra diverse popolazioni (es. 5 popolazioni)
Possiamo effettuare il test tra due popolazioni per tutte le coppie possibili
Ci sono 10 coppie possibili su cui
effettuare un test caratterizzato ogni
volta da probabilità di errore di
prima specie 0.05
Se i test sono tutti indipendenti la probabilità di trovare almeno un test che porti al rifiuto è
1-0.9510=0.4013 e quindi la probabilità di errore di I specie è 0.4013
Troppo grande!
E’ necessario introdurre una nuova
metodologia per studiare questi casi:
L’ANALISI DELLA VARIANZA
L’analisi della varianza può essere a una o
più vie. Nel caso a una via si riconoscono
solo le differenze tra diversi “trattamenti”,
nel caso a più vie si studiano più fattori che
possono creare delle differenzetra
le medie
Noi consideriamo solo l’analisi della varianza a una via
15
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Analisi della varianza
Metodologia per verificare se due o più campioni possono ritenersi estratti dalla stessa popolazione
(o meglio: popolazioni caratterizzate dalla stessa media)
• Analisi della varianza a una via: si considera una sola causa di variazione nell’esito di ciascun
esperimento
• Fattore: causa di variazione considerata.
Disegno completamente casuale:
ciascun trattamento viene assegnato in modo
TOTALMENTE casuale ai soggetti su cui si
effettuano le misure per determinare l’effetto
dei singoli trattamenti
Quindi se indago sull’effetto di 5
tipi di fertilizzante sul raccolto di
un certo prodotto devo raccogliere
5 campioni, ciascuno relativo
all’applicazione di un diverso
fertilizzante. Il fattore in questo
caso è il fertilizzante!
Se voglio confrontare l’effetto di 4 farmaci antidolorifici e
ho 100 pazienti con uguale sintomatologia, divido
casualmente i 100 individui in gruppi di 25 e a ciascun
gruppo somministro un diverso farmaco.
16
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Analisi della varianza:
esperimenti completamente casualizzati
Quantità coinvolte:
Esempio: nello studio dell’effetto del glucosio nella
produzione di insulina, si considerano campioni di
tessuto pancreatico prelevati da cavie trattate con 5
differenti stimolanti. I ricercatori vogliono scoprire
se c’è una differenza tra i 5 trattamenti.
(campionamento completamente casuale)
: i-mo dato relativo a cavie soggette al primo trattamento
: effetto medio del primo trattamento
Le differenze tra queste medie sono dovute a effetti
diversi dei trattamenti o sono le normali
differenze che possiamo osservare campionando più
volte dalla stessa popolazione?
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
17
Dobbiamo trovare un metodo che ci permetta di
distinguere se le differenze che osserviamo tra le
medie dei diversi campioni sono dovute a reali
differenze tra i trattamenti o alla naturale
differenza che si osserva campionando
ripetutamente dalla stessa popolazione
10
Quantità di insulina prodotta
Se le medie sono tutte uguali ho:
0.60
0.45
0.30
0.15
0.00
-3.50
-1.75
0.00
1.75
3.50
Se invece non vale l’ipotesi nulla le
5 popolazioni hanno medie diverse
8
6
..
4
2
0.60
0.45
1
2
3
4
5
0.30
0.15
18
0.00
-3.50
-1.75
0.00
1.75
3.50
5.25
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Media relativa al j-mo trattamento
Errore commesso nella misura i-ma relativa al j-mo trattamento
Media del campione totale, costituito dall’unione di
tutti i campioni
Scarto tra la media relativa a un trattamento e
quella del campione totale. (E’ nulla se tutte le
medie sono uguali!)
Somma degli scarti al quadrato per ogni gruppo di trattamenti
19
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Statistica del test
20
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Statistica del test
N-k
Se i campioni possono venir considerati estratti dalla stessa popolazione VR dev’essere circa uguale a 1
Fisher
Tavola ANOVA
VR ~ F (k-1, N-k)
21
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esempio (insulina)
SST = 162.54282
Valore critico di F=2.73 < 19.79
SSW = 41.35739
SSA = 121.18543
MSW = 1.5317552
MSA = 30.296358
Rifiuto l’ipotesi nulla:
i diversi trattamenti hanno effetti diversi
Attenzione: per usare il disegno completamente casuale occorre essere certi che gli individui che
ricevono il trattamento siano omogenei.
Esempio: se dobbiamo confrontare gli effetti di 4 farmaci antiinfluenzali, dobbiamo selezionare un gruppo di
individui con età, stato salute, … omogenei. Poi divideremo il gruppo in 4 sottogruppi cui distribuiremo i 4
farmaci.
Si potrebbe agire nello stesso modo se ci fossero, per esempio, individui di diverse età. Tuttavia in questo caso
dovremmo attribuire gli individui tenendo conto di queste differenze, per esempio attribuendo un individuo
22
anziano a caso a ciascun sottogruppo (disegno completamente casuale a blocchi)
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi
• Si misurano i battiti cardiaci per minuto di 4 gruppi di adulti: adulti al controllo annuale (gruppo A), pazienti
sofferenti di angina (gruppo B), individui ipertesi (gruppo C) e individui infartuati (gruppo D). I dati raccolti
forniscono evidenza sperimentale (al livello α=0.05) di una differenza di ritmo medio in questi 4 gruppi?
• In una particolare regione sono presenti 5 giacimenti di carbone. Si raccolgono i dati in ciascun giacimento
per confrontare il contenuto di sulfuro. Si vuole controllare se esiste una differenza tra le medie di sulfuri
presenti nei 5 giacimenti.
23
Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino