Analisi della regressione

annuncio pubblicitario
Analisi delle osservazioni
II parte
Lezioni di Fondamenti e metodi per l’analisi empirica nelle scienze sociali
Descrizione e spiegazione
Descrizione
Analisi
statistica
monovariata (misure di
sintesi e misure di
dispersione)
Modelli probabilistici
Distribuzioni note di
probabilità (uniforme,
normale, ecc.)
2
Spiegazione
 Analisi
bivariata
 Analisi multivariata
Relazione tra due o più
fenomeni sociali
[email protected]
A.A. 2015 - 2016
Analisi delle osservazioni
Informazioni
3
Dati
[email protected]
A.A. 2015 - 2016
Descrizione
Matrice casi per variabili:
 l’unità di analisi deve essere sempre la stessa
 su tutti i casi deve essere rilevata la stessa informazione
Codifica
Operazione di traduzione del materiale empirico grezzo in
matrice dati
4
[email protected]
A.A. 2015 - 2016
Esempio matrice dati o casi per variabili
5
[email protected]
A.A. 2015 - 2016
(segue)
Distribuzione di frequenza = una rappresentazione nella
quale ad ogni valore della variabile viene associata la
frequenza con la quale esso si presenta nei casi analizzati
(Marradi, 1999)
Frequenze
6
Assolute
Relative
Numero dei casi
che presentano
quel valore (Valore
assoluto)
Rapporto dei casi al
totale del campione
(percentuale per
comparazione)
[email protected]
A.A. 2015 - 2016
Esempio
7
[email protected]
A.A. 2015 - 2016
Analisi monovariata
Misure di sintesi
Moda, Mediana e
Media
8
[email protected]
A.A. 2015 - 2016
Misure di sintesi e variabili
Ogni variabile ha la sua misura di sintesi = BARICENTRO dei
suoi valori.
 MODA: modalità che si presenta con maggior frequenza;
variabili nominali;
 MEDIANA: modalità del caso che occupa il posto di mezzo
nella distribuzione ordinata dei casi secondo quella variabile;
variabili ordinali; N dispari = N+1/2; N pari = N/2 e N/2 + 1;
 MEDIA: somma dei valori assunta dalla variabile su tutti i casi
divisa per il numero di casi; variabili cardinali.
9
[email protected]
A.A. 2015 - 2016
Rappresentazioni grafiche delle distribuzioni
Nominali
• Diagrammi a
barre
• Diagrammi di
composizione
10
Cardinali
• Istogramma
• Poligono di
frequenza
[email protected]
A.A. 2015 - 2016
Per le variabili nominali
11
[email protected]
A.A. 2015 - 2016
Per le variabili cardinali
I
s
t
o
g
r
a
m
m
a
12
[email protected]
A.A. 2015 - 2016
(segue)
Poligono di frequenza
13
[email protected]
A.A. 2015 - 2016
Relazioni tra variabili
Si osserva una covariazione tra due fenomeni, ossia che
variano insieme; es.: al variare del titolo di studio varia il
reddito.
Due considerazioni:
1. Si tratta di relazioni statistiche, ossia di tipo
probabilistico: è più probabile che un individuo con
laurea guadagni di più, ma possono esserci eccezioni;
2. La ricerca consente di osservare la covariazione, ma la
interpretazione causale spetta al ricercatore:
“covariazione non significa causazione”.
14
[email protected]
A.A. 2015 - 2016
Dipendente / Indipendente
• classe sociale
Variabile
dipendente
/orientamento
politico;
•educazione
/pregiudizio
razziale;
• età /
atteggiamento
religioso
Variabile
indipendente
15
[email protected]
A.A. 2015 - 2016
In linea generale parliamo di
RELAZIONE (o covariazione).
Tecniche di analisi bivariata
Variabile indipendente
Più precisamente:
se la relazione è tra
variabili nominali
parliamo di associazione;

V. Dipendente
Nominale
Cardinale
se la relazione è tra
variabili ordinali parliamo
di cograduazione;

Nominale
Tavole di
contingenza
se la relazione è fra
variabili cardinali
parliamo di correlazione;

Cardinale
16
Analisi della
varianza
Regressione e
Correlazione
[email protected]
A.A. 2015 - 2016
Tavole di contingenza: associazione

Occorre innanzitutto osservare congiuntamente le due
distribuzioni di frequenza
Ossia bisogna organizzare le osservazioni in una tabella a
doppia entrata (o tavola di contingenza) in grado di
mostrare congiuntamente le modalità delle due variabili.
17
[email protected]
A.A. 2015 - 2016
Esempio tavola di contingenza (contingent in inglese significa
“condizionata” )
W = gradimento (dipendente); X = genere (indipendente)
W
18
X
Basso
w1
Medio
w2
Alto
w3
somma S
Femmina
x1
4
(n1,1)
3
(n1,2)
4
(n1,3)
11
n1.
Maschio
x2
4
(n2,1)
2
(n2,2)
3
(n2,3)
9
n2.
somma S
8
n.1
5
n.2
7
n.3
20
N
[email protected]
A.A. 2015 - 2016
Riflessioni sulla tabella





Distribuzione congiunta di X e di W: frequenze congiunte
assolute N con doppio pedice;
Distribuzione marginale di X: la prima e l’ultima colonna
eliminando l’effetto di W;
Distribuzione marginale di W: la prima e l’ultima riga
eliminando l’effetto di X;
Percentuali di riga;
Percentuali di colonna.
19
[email protected]
A.A. 2015 - 2016
Esempio: Pratica religiosa per età (Corbetta, 1999, Fonte Itanes, 1996)
20
[email protected]
A.A. 2015 - 2016
Come scegliere la percentuale?


Si sceglie la percentuale di colonna quando si vuole
analizzare l’influenza che la variabile posta in colonna ha
sulla variabile posta in riga;
Si sceglie la percentuale di riga quando si vuole analizzare
l’influenza che la variabile posta in riga ha sulla variabile
posta in colonna
Si definisce qual è la variabile indipendente e si percentualizza
all’interno della sua modalità.
21
[email protected]
A.A. 2015 - 2016
Regressione: correlazione
Se la relazione interessa due variabili cardinali parliamo di
correlazione e ci serviamo della retta di regressione come
modello matematico.
Rappresentazione grafica: piano cartesiano:
Sulla retta orizzontale – chiamata delle ascisse – si pone,
per convenzione, la variabile che si assume essere
indipendente, talvolta detta esplicativa;
Sulla retta verticale – chiamata delle ordinate – si pone,
per convenzione, la variabile che si assume essere
dipendente.
22
[email protected]
A.A. 2015 - 2016
0 = punto di origine
P è la mia osservazione che
presenta stato 5 per la variabile
che assumo essere indipendente
e 7 per la variabile che assumo
essere dipendente
23
[email protected]
A.A. 2015 - 2016
Grafico di dispersione
24
[email protected]
A.A. 2015 - 2016
Retta regressione (segue)
25
[email protected]
A.A. 2015 - 2016
Diagrammi dispersione
La scelta del
modello
matematico
appropriato
è suggerita dal
modo in
cui si
distribuiscono i
valori delle due
variabili
nel diagramma di
dispersione
26
[email protected]
A.A. 2015 - 2016
Relazione lineare bivariata
“Regrediamo” Y rispetto ad X
Regressione bivariata, in termini algebrici
Y = a + bX
Dove a indica una costante, punto in cui la retta
“intercetta” o incrocia l’asse verticale;
b indica il coefficiente di regressione, ossia l’inclinazione
della retta;
Si dice che la retta interpola, meglio di altre forme, i punti
(le osservazioni) e sintetizza la nuvola.
27
[email protected]
A.A. 2015 - 2016
Equazione predittiva
Predire Y da X
Posso conoscere la variazione di Y se, come e quando varia
X
Valore assunto da
Y per ciascuna osservazione i è funzione lineare esatta del
corrispondente valore di X
Ŷi = a + byx Xi
28
[email protected]
A.A. 2015 - 2016
Modello di regressione lineare
La difficoltà maggiore è quella di non riuscire a
rappresentare relazioni bivariate con una retta
perfettamente interpolante.
occorre stimare le deviazioni dalla predizione
lineare
Yi = a + byx Xi + ei
Dove ei rappresenta la porzione di valore di Y per
l’osservazione i che non è predetta dalla sua relazione
lineare con X.
29
[email protected]
A.A. 2015 - 2016
Y
Y
Yˆ1
e1
Yˆ  2  0,8 X
X
Yi
Valore osservato i-esimo
Y
Yˆi
Valore medio della distribuzione
Y1  Yˆ1  e1
A.A. 2015 - 2016
Valore predetto i-esimo
Errore i-esimo
[email protected]
30
Y
Y
Y1
Yˆ
e1
1
X
e1
Y  Y   Y  Yˆ  Yˆ  Y 
1
1
1
1
10 – 12 = (10 – 5) + (5 – 12)
A.A. 2015 - 2016
[email protected]
31
Errore o residuo
Si chiama residuo per indicare lo scarto fra il valore atteso
o predetto dall’equazione di regressione e il valore
effettivamente osservato
Y–Ŷ=e
Y – Ŷ = [a + byx Xi + ei ] – [a + byx Xi ] = ei
32
[email protected]
A.A. 2015 - 2016
Stima della equazione di regressione
stimare valori dei due coefficienti con le osservazioni
le stime di a e bxy devono minimizzare gli errori,
“fare sì che gli errori di predizione prodotti da quella equazione
siano minori di quelli prodotti da qualsiasi relazione lineare”
(Knoke)
I due coefficienti devono soddisfare il criterio dei minimi
quadrati: “la migliore retta sia quella che rende minima la
somma delle differenze al quadrato tra i valori di yi realmente
osservati e i corrispondenti valori che la retta stessa fornisce
per i diversi valori di xi osservati”
33
[email protected]
A.A. 2015 - 2016
Retta detta anche dei minimi quadrati

La somma dei residui è sempre = 0, se la elevo al
quadrato il valore sarà sempre positivo

“Sommando le differenze al quadrato fra ogni valore
osservato di Yi e il corrispondente valore Ŷi predetto
dall’equazione di regressione prescelta si dovrebbe
ottenere una quantità minore di quella che si otterrebbe
utilizzando qualsiasi altra equazione di regressione
lineare” (Knoke)
34
[email protected]
A.A. 2015 - 2016
Devianza spiegata e devianza non spiegata
35
[email protected]
A.A. 2015 - 2016
Coefficiente ρ di Bravais Pearson
Il coefficiente di correlazione lineare ρ misura l’intensità del
legame lineare (interpretabile graficamente da una retta) tra
due variabili cardinali X e Y, ovvero il grado di proporzionalità
esistente tra X e Y.
Si calcola come rapporto tra covarianza tra X e Y e il rapporto
degli scarti quadratici medi:
ρxy = covxy
σx σy
ρ = + 1, correlazione perfetta positiva
ρ = - 1 , correlazione perfetta negativa
36
[email protected]
A.A. 2015 - 2016
Esempi grafici di dispersione
37
[email protected]
A.A. 2015 - 2016
(segue)
38
[email protected]
A.A. 2015 - 2016
(segue)
39
[email protected]
A.A. 2015 - 2016
Coefficiente di determinazione
Corrisponde a ρ di Pearson al quadrato, fornisce la stima della
varianza spiegata di una variabile da parte dell’altra.
ρ2 = σ x y 2
σ x 2σ y 2
0 > ρ2 > 1
È una misura della capacità della retta di regressione di
rappresentare la nube di punti del diagramma di dispersione.
Quanto più i punti sono lontani dalla retta tanto più ρ2 tende a
0; più sono vicini più si approssima a 1.
ρ2 = 0, la retta non è la rappresentazione migliore, forse la
relazione c’è ma è più adeguata un’altra figura.
40
[email protected]
A.A. 2015 - 2016
(segue)
41
[email protected]
A.A. 2015 - 2016
Scarica