Modello di regressione lineare semplice
Analizzando la dipendenza tra due variabili possiamo cercare
la relazione che esiste Usando una funzione matematica
Studieremo la relazione tra una variabile dipendente da una
variabile indipendente o esplicativa
Qual è la funzione matematica più adatta a descrivere la
relazione tra le due variabili? Se si assume che il legame è
lineare la funzione più adatta è l’equazione di una retta
Y = f(x) = a + β x
a = intercetta
Β = coefficiente angolare
Retta di regressione lineare semplice
Una retta di regressione lineare descrive come cambia una
variabile dipendente y quando cambia la variabile
esplicativa x
Obiettivo è individuare la retta che interpreta meglio i punti
empirici ossia che interpola meglio i punti sul piano
Operativamente utilizziamo il metodo dei minimi quadrati: la
retta migliore sarà quella che minimizza la somma degli
scarti (residui) tra i valori osservati (yi) e i valori teorici
trovati sulla retta (yi*)
∑ (yi - yi*)2 = min
∑ (yi – a – βxi)2 = min
Retta di regressione lineare semplice
Attraverso il calcolo dei minimi quadrati ottengo le seguenti
soluzioni
a = μy – βμx
Β = σ(x,y) / σ2(x)
Codevianza (x,y) = σ(x,y) = ∑ (xi – μx)*(yi – μy)
devianza (x) = σ2(x) = ∑ (xi – μx)2
devianza (y) = σ2 (y) = ∑ (yi – μy)2
Retta di regressione lineare semplice
Y = a + βx + ε
I punti non sono quasi mai allineati perfettamente sulla retta
per cui l’equazione che ci da il vero valore di y è
Y = a + βx + ε (dove ε sono i residui o errori)
Significati dei coefficienti:
β - Il coefficiente angolare β misura la pendenza della retta
ed è positivo quando la retta cresce ed è negativo quando
la retta decresce
β - Misura inoltre di quanto varia in media y al variare di una
unità di x
a - a misura il valore di y quando x = 0
Retta di regressione lineare semplice
devianza (y) = σ(y) = ∑ (yi – μy)2
Si dimostra che la devianza di y può essere scomposta in due
parti
σ(y) = ∑ (yi* – μy)2 + ∑ (yi – yi*)2
Dove ∑ (yi* – μy)2 rappresenta la parte di devianza totale
spiegata dalla regressione e si chiama devianza di
regressione Dev(R)
e ∑ (yi – yi*)2 rappresenta la parte di devianza non spiegata
dalla regressione denominata devianza dei residui Dev(E)
ed è la quantità da minimizzare con il metodo dei minimi
quadrati
Dev(y) = Dev(R) + Dev(E)
Retta di regressione lineare semplice
Posso calcolare l’indice di determinazione che è
R2 = Dev(R) / Dev(y)
È un indice normalizzato che varia tra 0 e 1
Quando la Dev(R) è nulla R2 è nullo e la variabilità di y non è
spiegata dalla retta di regressione
Quando Dev(R) = Dev(y), R2 è uguale a 1 e la variabilità è
spiegata intermente dalla retta di regressione
Regressione logistica
La regressione logistica binomiale è un caso particolare di
modello lineare generalizzato. Si tratta di un modello di
regressione applicato nei casi in cui la variabile dipendente
y sia di tipo dicotomico riconducibile ai valori 0.
Il modello di regressione logistica modella la relazione tra
l’esito dicotomico da esaminare (la propensione alla
vacanza, il rischio di contrarre una malattia, ecc.) e un set di
variabili che possono essere sia dicotomiche (ad. esempio
presenza di figli con 10 anni o meno: si/no, essere
sottoposto a cura antibiotica: si/no) che categoriche (ad
esempio: ripartizione geografica: Nord-Ovest; Nord-Est,
Centro, Sud, Isole).
Regressione logistica
L’equazione logistica produce la stima dei valori medi della
variabile dicotomica dipendente (y) in corrispondenza dei
valori assunti dalle variabili indipendenti (xi)
Essendo la y una variabile dicotomica la sua media è uguale
alla proporzione di casi che assumono il valore 1.
Si parla generalmente della probabilità di (propensione di) y
ad assumere il valore 1 in combinazione dei valori delle
variabili indipendenti xi
Quando trattiamo dei valori che esprimono probabilità (di un
evento) non possiamo concepire delle relazioni lineari con
le altre variabili
Regressione logistica
Facciamo un trasformazione matematica sulle variabili linearizzando
una equazione non lineare. La probabilità da stimare si trasforma in
una funzione detta logit (o logistica)
Logit (P)= ln (P/1-P) = a + b1x1 + b2x2 + bixi + bnxn
dove P = probabilità dell’evento
Ln = logaritmo naturale
Solitamente anche le variabili indipendenti sono dicotomiche o
categoriale con una modalità che viene presa come modalità di
riferimento. I coefficienti vanno interpretati come il cambiamento
nella probabilità della variabile dipendente esercitato dal passaggio
dalla modalità di riferimento ad una altra modalità per la variabile
indipendente in esame, quando le altre variabili rimangono costanti
Regressione logistica
I coefficienti vanno interpretati come il cambiamento nella
probabilità della variabile dipendente esercitato dal passaggio
dalla modalità di riferimento ad una altra modalità per la
variabile indipendente in esame, quando le altre variabili
rimangono costanti
Questo perché rappresentano il logaritmo degli odds-ratio, ossia
dei rapporti
Solitamente i software traducono i logaritmi negli odd-ratio per
cui è più semplice poi interpretarli
Odds e odds-ratio
Gli odds sono dei rapporti di probabilità che assumono valore 1
quando le due categorie a confronto hanno la stessa
frequenza e variano tra 0 e infinito
Vengono calcolati sulla tabella di contingenza
Gli odds-ratio è il confronti tra due odds condizionati ed è a
tutti gli effetti una misura di associazione
 Varia tra 0 e infinito
 Assume 1 quando c’è la massima indipendenza
 Valori > 1 indicano una concordanza (associazione diretta)
 Valori < 1 indicano una associazione di discordanza