Scarti di - Dipartimenti

Statistica Sociale e Criminale
(12 CFU)
A.A. 2015/2016
CdL Sociologia e Criminologia
Simone Di Zio
Dove siamo…
MODULO 2. La Statistica descrittiva
2.1 La rilevazione del dato statistico
2.2 La rappresentazione dei dati statistici
2.3 Le misure di tendenza centrale
2.4 Le misure di variabilità
2.5 Le Misure delle relazioni tra variabili
Le Misure delle relazioni tra variabili
Data una matrice di dati, è
possibile calcolare per ognuna
di esse gli indici di tendenza
centrale e gli indici di
variabilità.
Altro aspetto è quando si vuole
capire se fra due variabili
possano
sussistere
delle
relazioni.
Nome
Alessandro
Alessia
Andrea
Angelo
Carmine
Daniele
Dario
Donatello
Eros
Federica
Francesca
Ivan
Luca
Mattia
Mauro
𝑽𝟏
𝑽𝟐
𝑽𝟑
Colore
occhi
Neri
Marroni
Marroni
Azzurri
Marroni
Neri
Marroni
Azzurri
Marroni
Neri
Marroni
Azzurri
Verdi
Neri
Marroni
età
15
12
20
30
35
40
20
22
24
60
65
40
35
38
59
titolo di studio
Licenza media
Licenza Elem.
Diploma
Laurea
Licenza media
Diploma
Laurea
Laurea
Laurea
Diploma
Licenza media
Diploma
Diploma
Diploma
Licenza media
Moda
Omogeneità
Media
Varianza
Mediana
Dispersione
La variabile doppia e le sue rappresentazioni
Per studiare la “relazione” fra due (o più) variabili bisogna:
 individuare un possibile legame fra due (o più) variabili.
 misurare statisticamente l’intensità del legame.
La distribuzione doppia di frequenze si rappresenta in una tabella a doppia
entrata.
Titolo di
studio
Esempio:
Licenza Media
Diploma
Laurea
Totali di colonna
Reddito (migliaia di €) Totali
0⊢15 15⊢30 30⊢80 di riga
100
80
60
240
75
105
50
230
10
33
55
98
185
218
165
568
Titolo di
studio
Distribuzioni Condizionate
Licenza Media
Diploma
Laurea
Totali di colonna
Reddito (migliaia di €) Totali
0⊢15 15⊢30 30⊢80 di riga
100
80
60
240
75
105
50
230
10
33
55
98
185
218
165
568
Se consideriamo la modalità “diploma”
assieme alle modalità della variabile reddito
costituiscono la distribuzione del reddito
condizionata al titolo di studio diploma.
Se estrapoliamo le frequenze della classe di
reddito 30 ⊢ 80 e le uniamo alle modalità
della variabile titolo di studio, otteniamo la
distribuzione del titolo di studio
condizionata alla classe di reddito 30-80.
Diploma
75
0-15
105
15-30
50
30-80
Totali
230
30-80
60
Lic. Media
50
Diploma
55
Laurea
Totali
165
Dalle distribuzioni
marginali e
condizionate si
possono calcolare
tutti gli indici di
sintesi e variabilità
valide per le
distribuzioni
semplici di
frequenza.
Tipologie di relazioni fra variabili
Relazione Causa-Effetto
Date due variabili 𝑋 e 𝑌, il rapporto causa-effetto, indica che
al variare della 𝑋 varia di conseguenza anche la 𝑌. Questa
relazione può derivare dalle conoscenze scientifiche.
Esempio: secondo una delle leggi di Newton sul moto,
quando una forza (𝑋) è applicata a un oggetto, esso accelera
(𝑌). La relazione sarà del tipo: all’aumentare di 𝑋 aumenta 𝑌.
Dipendenza logica
Per i fenomeni sociali non ci sono leggi esatte. Il rapporto causa/effetto non deriva
da conoscenze acquisite ma da ragionamenti di tipo logico-deduttivo.
Tali legami sono definiti prima dell’osservazione del fenomeno.
Tecnicamente si parla di dipendenza logica.
Esempio: la spesa per beni di lusso dipende dal reddito.
All’aumentare del reddito aumenta anche la spesa per alcune
tipologie di beni particolarmente costosi.
Se però osserviamo statisticamente un collettivo di famiglie e rileviamo su di esse
le due variabili 𝑋= reddito e 𝑌=spesa per beni di lusso, probabilmente la relazione
non è ESATTA.
La relazione fra due variabili in un contesto sociale può essere misurata solo in
parte.
La rimanente parte non spiegata, è legata ad una serie di altre relazioni che
possono rimanere completamente ignote.
Indipendenza logica
Sempre da un punto di vista logico-deduttivo, possiamo affermare che fra due
variabili non esiste nessun tipo di relazione causa/effetto.
Esempio: prezzo delle arance a Torino ed età media degli abitanti della Cina.
In questi casi si parla di indipendenza logica.
Indipendenza Statistica
Quando due variabili sono logicamente indipendenti ci aspettiamo che siano anche
statisticamente indipendenti.
In statistica due variabili si dicono indipendenti se la conoscenza delle modalità di
una delle due non ci permette di fare ipotesi sulle modalità dell’altra.
Analisi della dipendenza
La dipendenza logica sottintende una direzione nel legame fra due variabili.
Il legame di causa-effetto è quindi unidirezionale.
La variabile 𝑋 è l’antecedente logico della relazione
La variabile 𝑌 è il conseguente logico.
Esempio:
𝑋 = statura, 𝑌 = peso
Possiamo affermare che 𝑌 dipende da 𝑋
(relazione di dipendenza logica)
Ma non vale il viceversa.
𝑿
𝒀
Analisi della inter-dipendenza
Spesso non è possibile definire a priori il senso della relazione, cioè non è noto
sapere se da un punto di vista logico 𝑌 dipende da 𝑋 oppure 𝑋 dipende da 𝑌.
Esempio:
𝑋 = consumo di birra
𝑌 = consumo di vino.
È probabile che all’aumentare di 𝑋 aumenti anche 𝑌
ma non è in genere definibile a priori una
direzione nel legame
𝑿
In questi casi si parla di interdipendenza fra le due variabili.
Siamo nel contesto dell’analisi dell’interdipendenza.
𝒀
MISURE STATISTICHE
L’indipendenza può essere verificata o meno.
Solo se si esclude l’indipendenza allora si parla di dipendenza o interdipendenza,
e a qual punto si pone il problema di misurarne il grado.
SI
INDIPENDENZA
NO
STOP
SI
min
Legame Unidirezionale
NO
DIPENDENZA
INTERDIPENDENZA
MISURA
MISURA
Dipendenza
Max Perfetta
min
Interdipend.
Max Perfetta
Importante: a) indipendenza b) dipendenza perfetta c) interdipendenza perfetta
a) Indipendenza
Situazione di indipendenza (o connessione nulla).
𝒙𝟏
𝒙𝟐
𝒙𝟑
Totale
𝒚𝟏
1
2
4
7
𝒚𝟐
3
6
12
21
Totale
4
8
16
28
Per verificarla bisogna calcolare le frequenze relative condizionate di una
variabile rispetto alle modalità dell’altra.
Frequenze relative condizionate
Frequenze relative condizionate
di 𝑋 rispetto alle modalità di 𝑌
di 𝑌 rispetto alle modalità di 𝑋
𝒚𝟏
0.14
𝒙𝟏
0.29
𝒙𝟐
0.57
𝒙𝟑
Totale 1.00
𝒚𝟐 Totale
0.14 0.14
0.29 0.29
0.57 0.57
1.00 1.00
𝒚𝟏
0.25
𝒙𝟏
0.25
𝒙𝟐
0.25
𝒙𝟑
Totale 0.25
𝒚𝟐 Totale
0.75 1.00
0.75 1.00
0.75 1.00
0.75 1.00
Le distribuzioni relative condizionate sono tutte uguali.
Quindi, due variabili sono indipendenti, o non connesse, se le distribuzioni
relative di una variabile rispetto alle modalità dell’altra sono identiche.
Quando 𝑋 è indipendente da 𝑌 vale anche il viceversa, pertanto l’indipendenza è una relazione
bidirezionale.
Relazione fra le frequenze assolute marginali
Quando due variabili sono indipendenti si verifica che la generica frequenza
assoluta (che ricordiamo si indica con 𝑛𝑖𝑗 ) è uguale a:
𝒏𝒊° ∙ 𝒏°𝒋
𝒏𝒊𝒋 =
𝑵
Ogni frequenza, posta all’incrocio di una riga e una colonna,
equivale al prodotto delle rispettive frequenze marginali
 (totale della riga e totale della colonna) diviso la numerosità
del collettivo 𝑁.
𝒚𝟏
4∙7
𝒙𝟏
1=
28
𝟖∙7
𝒙𝟐
2=
𝟐𝟖
16 ∙ 7
𝒙𝟑
4=
28
Totale
7
Totale
𝒚𝟐
4 ∙ 21
4
3=
28
8 ∙ 21
8
6=
28
16 ∙ 21
16
12 =
28
21
28
𝒙𝟏
𝒙𝟐
𝒙𝟑
Totale
𝒚𝟏
1
2
4
7
𝒚𝟐
3
6
12
21
Totale
4
8
16
28
b) Dipendenza perfetta
Il caso opposto all’indipendenza (o connessione nulla) è la dipendenza perfetta.
Esempio di una situazione in cui Y dipende perfettamente da X.
𝒚𝟏
15
𝒙𝟏
0
𝒙𝟐
0
𝒙𝟑
0
𝒙𝟒
Totale 15
𝒚𝟐
0
25
0
14
39
𝒚𝟑 Totale
0
15
0
25
17
17
0
14
17
71
Ad ogni modalità della variabile 𝑿 corrisponde una, e solo una, modalità della
variabile 𝒀
Quindi, per ogni riga della tabella è presente una sola frequenza diversa da zero,
ma non è vero il viceversa.
Conoscendo una modalità di 𝑋 è possibile individuare con esattezza una modalità
di 𝑌, ma non vale il contrario. È il comportamento di 𝑋 a determinare quello di 𝑌,
cioè 𝒀 dipende da 𝑿, e non viceversa.
c) Interdipendenza perfetta
Quando ad ogni modalità di 𝐗 corrisponde una e una sola modalità di 𝐘 e
viceversa, allora si ha interdipendenza perfetta.
Ciò è possibile solo se le variabili 𝑋 e 𝑌 hanno lo stesso numero di modalità.
𝒚𝟏
11
𝒙𝟏
0
𝒙𝟐
0
𝒙𝟑
Totale 11
𝒚𝟐
0
34
0
34
𝒚𝟑 Totale
0
11
0
34
28
28
28
73
Per l’analisi di queste relazioni fra coppie di variabili, dobbiamo sempre tener
conto della tipologia delle variabili contenute nella distribuzione doppia.
X
Y
Nominale
Ordinale
Intervalli
Nominale Ordinale Intervalli
a
d
g
b
e
h
c
f
i
Frequenze percentuali di una distribuzione doppia
Le frequenze %uali evidenziano in prima approssimazione eventuali relazioni.
Dati i totali di riga (𝑛𝑖° ), i totali di colonna (𝑛°𝑗 ) e il totale generale (𝑁), possiamo
aver tre diversi tipi di percentuali, che hanno tre significati diversi.
Percentuali di riga
Dividere ogni frequenza per il totale di riga 𝑛𝑖° moltiplicando per 100.
I valori si interpretano quindi per riga: ad esempio, fra i possessori di licenza
media, il 41.7% percepisce un reddito fino a 15 mila euro, il 33.3% un reddito fra
15 e 30 mila e il 25% un reddito fino a 80 mila.
Titolo
Licenza M.
Diploma
Laurea
0⊢15
41.7%
32.6%
10.2%
Reddito
15⊢30
33.3%
45.7%
33.7%
30⊢80 Totali di riga
25.0%
100.0%
21.7%
100.0%
56.1%
100.0%
Percentuali di colonna
Dividere ogni frequenza per il totale di colonna 𝑛°𝑗 moltiplicando per 100.
I valori si interpretano ora per colonna: ad esempio, fra coloro che percepiscono
un reddito fino a 15 mila euro annui, il 54.1% possiede la licenza media, il 40.5% il
diploma e solo il 5.4% è laureato.
Titolo
Licenza M.
Diploma
Laurea
Totali colon.
Reddito
0⊢15
15⊢30 30⊢80
54.1%
36.7%
36.4%
40.5%
48.2%
30.3%
5.4%
15.1%
33.3%
100.0% 100.0% 100.0%
Percentuali sul totale
Dividere ogni frequenza nij per il totale generale N e moltiplicando per 100.
Questo tipo di tabella non è molto utile per esplorare la relazione fra le due variabili.
Titolo
Lic. M.
Diploma
Laurea
Totali
0⊢15
17.6%
13.2%
1.8%
32.6%
15⊢30 30⊢80 Totali
14.1% 10.6% 42.3%
18.5% 8.8% 40.5%
5.8% 9.7% 17.3%
38.4% 29.0% 100.0%
Quali frequenze utilizzare?
A seconda delle relazioni che si vogliono studiare, bisogna ragionare su % di riga
o di colonna.
 Se si suppone che la variabile posta in colonna influenzi (come dipendenza
logica) la variabile in riga allora bisogna utilizzare le percentuali di colonna.
 Se si suppone che la variabile di riga influenzi la variabile di colonna (come
nel nostro esempio) allora bisogna ragionare sulle percentuali di riga.
Titolo
Licenza M.
Diploma
Laurea
0⊢15
41.7%
32.6%
10.2%
Reddito
15⊢30
33.3%
45.7%
33.7%
30⊢80
25.0%
21.7%
56.1%
Totali di riga
100.0%
100.0%
100.0%
Nel nostro caso diciamo che la maggiore quota di chi ha la licenza media
percepisce un reddito basso (41.7%), la maggioranza relativa dei diplomati un
reddito medio (45.7%) e la maggior parte dei laureati un redito alto (56.1%).
Questo evidenzia un certo grado di dipendenza fra titolo di studio e reddito.
Relazioni fra variabili qualitative
Siamo nel caso delle variabili qualitative. Almeno una delle due variabili è
qualitativa.
X
Y
Nominale
Ordinale
Intervalli
Nominale Ordinale Intervalli
Connessione
Connessione
Connessione
Connessione
Connessione
Connessione
Connessione
Connessione
Regressione e
correlazione
Si parla in tal casso di CONNESSIONE
La connessione (o dipendenza) si misura con opportuni indici.
La costruzione e l’interpretazione delle frequenze percentuali vale solo come
descrizione dei dati, utile per avere una prima idea delle possibili relazioni fra le
variabili.
Ora bisogna quantificare tale relazione.
Connessione
Nell’ambito delle variabili qualitative, la dipendenza prende il nome tecnico di
connessione o associazione.
La frequenza che si ha nel caso particolare di indipendenza:
′
𝑛𝑖𝑗
𝑛𝑖° ∙ 𝑛°𝑗
=
𝑁
Si chiama appunto frequenza teorica di indipendenza e la indichiamo con 𝒏′𝒊𝒋
A partire da una qualunque distribuzione doppia di frequenze è sempre possibile
′
calcolare una tabella contenente le frequenze teoriche 𝑛𝑖𝑗
, tabella che rappresenta il
caso (appunto teorico) di indipendenza fra le due variabili.
Tabella osservata e tabella teorica
Tabella
osservate
delle
frequenze
𝑛𝑖𝑗
′
𝑛𝑖𝑗
𝑛𝑖° ∙ 𝑛°𝑗
=
𝑁
Tabella
delle
frequenze
teoriche, che rappresentano la
situazione di indipendenza
′
𝑛𝑖𝑗
Sono due tabelle aventi le stesse dimensioni e gli stessi totali di riga e colonna.
Esempio numerico
SITUAZIONE OSSERVATA
X - Giudizio
sul divorzio
Favorevole
Contrario
Non so
Totali
Y - Stato civile
Celibe Coniugato Altro
Nubile
100
80
60
75
105
50
10
33
55
185
218
165
SITUAZIONE TEORICA DI INDIPENDENZA
Totali
240
230
98
568
X - Giudizio
sul divorzio
Favorevole
Contrario
Non so
Totali
Y - Stato civile
Celibe Coniugato Altro
Nubile
78.169 92.113 69.718
74.912 88.275 66.813
31.919 37.613 28.468
185
218
165
Totali
240
230
98
568
Distanza fra due tabelle
Se potessimo calcolare una distanza fra le due tabelle avremmo un indicatore di
quanto la situazione reale si discosta da quella teorica di indipendenza.
Se la distanza è 0:
fra le due variabili c’è indipendenza
Se la distanza è > 0:
fra le due variabili c’è dipendenza (o connessione)
All’aumentare della distanza significa che la tabella osservata si allontana sempre
di più dalla situazione di indipendenza, per cui vuol dire che la connessione
aumenta.
Tab.
Tab.
Osserv.
Teorica
Tab.
Osserv.
Tab.
Osserv.
Indipendenza o
connessione nulla
Tab.
Teorica
Dipendenza
bassa
Tab.
Teorica
Dipendenza
alta
Distanza fra due tabelle
Per costruire una distanza partiamo dalla semplice differenza fra i valori
corrispondenti delle due tabelle. Questa grandezza si chiama contingenza:
′
𝑐𝑖𝑗 = 𝑛𝑖𝑗 − 𝑛𝑖𝑗
Ne risulta una terza tabella, che viene chiamata tabella delle contingenze.
Esempio numerico
TABELLA OSSERVATA
Favorevole
Contrario
Non so
Totali
TABELLA TEORICA
Cel-Nub Coniugato Altro
100
80
60
75
105
50
10
33
55
185
218
165
Totali
240
230
98
568
Favorevole
Contrario
Non so
Totali
Cel-Nub Coniugato Altro Totali
78.169
92.113 69.718 240
74.912
88.275 66.813 230
31.919
37.613 28.468 98
185
218
165 568
TABELLA DELLE CONTINGENZE
X - Giudizio sul
divorzio
Favorevole
Contrario
Non so
Totali
Cel-Nub Coniugato Altro Totali
21.831
-12.113 -9.718 0
0.088
16.725 -16.813 0
-21.919
-4.613 26.532 0
0
0
0 0
Chi-quadrato 
2
Ma non è ancora una distanza, perché ci serve un numero e non una tabella.
Sommando tutti i rapporti fra contingenze al quadrato e frequenze teoriche
otteniamo una distanza fra le due tabelle.
Indice di associazione Chi-quadrato di Pearson:
𝑘
𝑚
2
𝑐
𝑖𝑗
2 = ∑ ∑ ′
𝑛𝑖𝑗
𝑖=1 𝑗=1
 Se la tabella teorica coincide con quella osservata, 𝑐𝑖𝑗 = 0 quindi 2 = 0.
 In tutti gli altri casi 2 > 0
 Assume valori tanto più grandi quanto più le frequenze osservate si discostano
da quelle teoriche.
Esempio numerico:
𝑘
𝑚
 = ∑∑
2
𝑖=1 𝑗=1
1 - TABELLA OSSERVATA
78.169 92.113 69.718 240
74.912 88.275 66.813 230
31.919 37.613 28.468 98
185
218
165 568
240
230
98
568
3 - TABELLA DELLE CONTINGENZE
𝒄𝒊𝒋 = 𝒏𝒊𝒋 − 𝒏′𝒊𝒋
21.831
0.088
-21.919
0
-12.113 -9.718
16.725 -16.813
-4.613 26.532
0
′
𝑛𝑖𝑗
2 - TABELLA TEORICA
𝒏′𝒊𝒋
𝒏𝒊𝒋
100 80 60
75 105 50
10 33 55
185 218 165
2
𝑐𝑖𝑗
0
0
0
0
0
4 - TABELLA DEI TERMINI DELLA
SOMMATORIA
𝒄𝟐𝒊𝒋 ⁄𝒏′𝒊𝒋
6.097
0.001
15.051
1.593 1.355
3.169 4.231
0.566 24.727
La somma di tutti questi valori restituisce il valore dell’indice di associazione Chiquadrato:
𝟐 = 𝟓𝟔. 𝟕𝟖𝟗
Livello della dipendenza
Fra le due variabili c’è dipendenza perché 2 > 0
Non possiamo ancora dire alcunché sull’intensità dell’associazione.
Questo indice dipende dalla numerosità del collettivo: aumenta all’aumentare di 𝑁.
Un indice che non dipende da 𝑁 è l’indice di contingenza quadratica media:
2 =
2
𝑁
Nel nostro esempio:
56.7889
 =
= 0.0999
568
2
Il valore massimo che può assumere 2 è il più piccolo fra il numero delle righe
meno uno (𝑘 − 1) e il numero delle colonne meno uno (𝑚 − 1), cioè:
max2 = 𝑚𝑖𝑛[(𝑘 − 1), (𝑚 − 1)]
Nel nostro esempio:
𝑘 = 3 e 𝑚 = 3.
( 𝑘 − 1) = 2 e ( 𝑚 − 1 ) = 2
il minimo tra 2 e 2 è 2,
Per cui:
max2 = 2
Un indice relativo di connessione che varia fra 0 e 1, si ottiene rapportando l’indice
di contingenza quadratico medio al suo valore massimo:
2 =
2
max2
Indice di contingenza quadratica media relativa.
Nel nostro esempio:
0.0999
=
= 0.049
2
Interpretazione: fra stato civile e l’essere o meno favorevole al divorzio non c’è
indipendenza, ma comunque vi è un grado di associazione molto basso.
2
Le relazioni fra variabili quantitative:
La Regressione
X
Y
Nominale
Ordinale
Intervalli
Nominale
Ordinale
Intervalli
Connessione
Connessione
Connessione
Connessione
Connessione
Connessione
Connessione
Connessione
Regressione e
correlazione
 Se si ci sono informazioni a
priori che permettono di stabilire
quale delle due variabili è
l’antecedente logico, allora si
utilizza la regressione.
 Quando invece non è possibile
sapere quale variabile dipende
dall’altra,
si
utilizza
la
correlazione.
Esempio:
Peso
Grafico a Dispersione Statura/Peso
95
90
85
80
75
70
65
60
55
50
45
145
150
155
160
165
170
175
180
185
Statura
La regressione presuppone una relazione di dipendenza logica fra le due variabili,
cioè è un legame con una direzione: da 𝑋 verso  𝑌
Concordanza
Dall’esame visivo del grafico si nota una concordanza, o relazione positiva, fra
statura e peso.
A valori bassi della statura corrispondono valori bassi del peso e a valori alti di
statura corrispondono valori alti del peso.
Discordanza
Il caso opposto si ha quando i punti si posizionano attorno a una linea con
pendenza negativa, cioè parte dall’alto verso sinistra e scende in basso verso destra.
Questo è il caso di regressione negativa, e significa che fra le due variabili vi è
discordanza.
95
90
85
80
75
70
65
60
55
50
45
145
155
165
175
185
195
In entrambi i casi ci troviamo in una situazione particolare: la regressione lineare
Regressione lineare e non lineare
La relazione che lega due variabili quantitative può assumere anche altre forme, ad
esempio curvilinee.
Importante conseguenza: se con gli strumenti della regressione lineare fra due
variabili 𝑋 e 𝑌 non emerge nessuna relazione, non significa assenza di qualunque
relazione ma solo assenza di relazione lineare.
Quindi, non si possono escludere altri tipi di relazioni.
75
70
65
60
55
50
45
145
155
165
175
185
195
Il modello statistico
Con l’analisi di regressione si cerca un modello statistico che
può essere utilizzato a scopi descrittivi, interpretativi e previsivi.
Si parla pertanto anche di modello di regressione.
Un modello è la rappresentazione semplificata di alcuni aspetti
della realtà. Esso contiene solo ciò che interessa per il
raggiungimento degli scopi, mentre tutto il resto non conta.
Anche un modello statistico è una rappresentazione
semplificata, ma auspicabilmente soddisfacente, della realtà osservabile.
In genere è definito da una legge che lega le due variabili 𝑋 e 𝑌,
ovvero una funzione:
Modello matematico
Il modello matematico che lega due variabili si ha quando 𝑌 è una funzione di 𝑋,
cioè ad ogni valore di 𝑋 corrisponde uno e un solo valore di 𝑌.
𝑌 = 𝑓 (𝑋 )
Se stabiliamo che la 𝑓 è una retta, significa che fra tutti i possibili modelli
matematici scegliamo quello lineare:
𝑌 = 𝑎 + 𝑏𝑋
Gli elementi 𝑎 e 𝑏 sono due parametri.
Quando nella realtà trattiamo un caso specifico partendo dai dati osservati, i due
parametri assumeranno un valore numerico:
𝑌 = 3.5 + 2𝑋
Modello Matematico: 3 step importanti
Il Modello, che esprime una relazione
esatta fra le due variabili
Specificazione del modello,
data una teoria scelgo un modello,
ad esempio il modello lineare
Stima dei parametri
𝑌 = 𝑓 (𝑋 )
𝑌 = 𝑎 + 𝑏𝑋
𝑌 = 3.5 + 2𝑋
Aspetti grafici
Graficamente il modello lineare è rappresentato da una retta su un piano cartesiano.
300
9
8
250
7
6
200
5
150
4
3
100
2
50
1
0
0
0
0.5
1
1.5
𝑌 = 3.5 + 2 ∙ 𝑋
2
0
100
200
300
400
500
600
𝑌 = 0.4536 ∙ 𝑋
Il parametro 𝒂 è l’intercetta.
Il parametro 𝒃 è la pendenza della retta, ed è chiamato coefficiente angolare.
Questo parametro esprime la variazione che subisce la 𝑌 all’aumentare di una unità
della 𝑋.
Nell’esempio a sinistra, al varare di 1 unità di 𝑋 la 𝑌 varia di 2 unità.
RICORDARE QUESTO ASPETTO QUANDO SI DOVRA’ INTERPRETARE
Pendenza della retta
 Caso 𝒃 > 𝟎: la retta ha pendenza positiva, e tra la 𝑋 e la 𝑌 vi è una relazione
lineare di concordanza. Al crescere di 𝑋 anche 𝑌 aumenta. Nel grafico la retta
“sale” andando verso destra;
 Caso 𝒃 < 𝟎: la retta ha pendenza negativa, e tra la 𝑋 e la 𝑌 vi è una relazione
lineare di discordanza. Al crescere di 𝑋 la 𝑌 diminuisce. Nel grafico la retta
“scende” andando verso destra;
 Caso 𝒃 = 𝟎: la retta non ha pendenza, quindi è parallela all’asse delle ascisse.
Tra 𝑋 e 𝑌 non c’è nessuna relazione lineare. Al crescere di 𝑋 la 𝑌 rimane
costante. Nel grafico la retta è orizzontale.
Retta con pendenza positiva
CONCORDANZA
Retta con pendenza nulla
Retta con pendenza negativa
DISCORDANZA
4
6
4
3.9
5.5
3.5
3.8
3.7
5
3
3.6
3.5
4.5
2.5
3.4
4
2
3.3
3.2
3.5
1.5
3.1
3
3
0
0.2
0.4
0.6
𝒃>𝟎
0.8
1
1
0
0.2
0.4
0.6
𝒃=𝟎
0.8
1
0
0.2
0.4
0.6
𝒃<𝟎
0.8
1
Le relazioni statistiche e il modello di
regressione lineare
Un modello di tipo lineare che lega reddito (variabile 𝑋) e consumi (variabile 𝑌)
può spiegare solo in parte il complesso di relazioni che si cela dietro queste due
variabili.
Esempio:
Spesa media per beni alimentari
160
140
120
100
80
60
40
20
0
0
10
20
30
40
50
60
Reddito famigliare
70
80
90
100
Non c’è una relazione esatta che
possa rappresentare un modello
matematico. Però, il grafico mostra
mediamente un aumento della spesa
all’aumentare del reddito
Quindi c’è una relazione crescente fra
reddito e consumo, relazione che non
può essere di tipo matematico ma è di
tipo statistico.
Relazione statistica
Una relazione fra una variabile 𝑋 (variabile esplicativa) e una variabile 𝑌 (variabile
risposta) del tipo:
𝑌 = 𝑓 (𝑋) + 𝜀.
Rispetto al modello matematico, il modello statistico ha una componente in più,
cioè epsilon (𝜀).
La 𝑓(𝑥 ) esprime la parte del fenomeno 𝑌 spiegata dalla variabile 𝑋, mentre la
componente aggiuntiva 𝜀 esprime il contributo di tutti gli altri fattori non
osservati (numero di componenti, livello culturale, eccetera).
La variabile 𝜺 racchiude tutta la nostra ignoranza rispetto alla vera relazione fra 𝑋
e 𝑌, quindi una componente casuale che ingloba tutto ciò che non conosciamo.
Dalla relazione generica a un modello specifico: la retta
Passiamo dalla legge generica 𝑓 (𝑋) al modello della retta.
Si ha il modello di regressione lineare semplice:
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 + 𝜀𝑖
per ogni osservazione 𝑖 = 1,2, … , 𝑁.
La regressione lineare consiste nella determinazione (tecnicamente stima) dei due
parametri 𝑎 e 𝑏 del modello lineare, partendo dai dati osservati, in modo da
esprimere statisticamente la relazione funzionale tra 𝑋 e 𝑌.
Metodo di stima
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 + 𝜀𝑖
Abbiamo bisogno di un metodo di stima dei due coefficienti 𝑎 e 𝑏.
Intuitivamente vogliamo un metodo per cui la retta stimata pasi il più “vicino”
possibile ai punti osservati.
Il metodo comunemente utilizzato in questi casi è il metodo dei minimi quadrati.
Le stime dei parametri e i Valori Teorici
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 + 𝜀𝑖
Dato questo modello e dato un metodo di stima, otteniamo due valori numerici
(detti stime) per i due parametri del modello.
Ad esempio:
𝑎̂ = 4.5
𝑏̂ = 3.3
Da cui ottengo la retta stimata
𝑦̂𝑖 = 4.5 + 3.3𝑥𝑖
Il valore 𝑦̂𝑖 è detto valore teorico di 𝒀, per distinguerlo da quelli osservati che
invece si indicano con 𝑦𝑖 .
𝑥𝑖
𝑦𝑖
1
2
3
4
5
7
12
15
17
21
̂𝒊
𝒚
7.8
11.1
14.4
17.7
21
𝑦̂1 = 4.5 + 3.3𝑥1 = 4.5 + 3.3 × 1 = 𝟕. 𝟖
𝑦̂2 = 4.5 + 3.3𝑥2 = 4.5 + 3.3 × 2 = 𝟏𝟏. 𝟏𝟖
𝑦̂3 = 4.5 + 3.3𝑥3 = 4.5 + 3.3 × 3 = 𝟏𝟒. 𝟒
𝑦̂4 = 4.5 + 3.3𝑥4 = 4.5 + 3.3 × 4 = 𝟏𝟕. 𝟕
𝑦̂5 = 4.5 + 3.3𝑥5 = 4.5 + 3.3 × 5 = 𝟐𝟏
Modello Statistico: 3 step importanti
Il Modello, che esprime una relazione
statistica di dipendenza logica
𝑌 = 𝑓 (𝑋 ) + 𝜀
Specificazione del modello,
Nella regressione lineare scegliamo la retta
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 + 𝜀𝑖
Stima dei parametri
Tramite il metodo dei Minimi Quadrati
𝑦̂𝑖 = 4.5 + 3.3𝑥𝑖
RESIDUI
Si chiama residuo i-esimo, indicato con 𝑒̂𝑖 , la differenza fra valore osservato iesimo (cioè 𝑦𝑖 ) e il corrispondente valore teorico (cioè 𝑦̂𝑖 ):
𝑒̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖
𝑥𝑖
𝑦𝑖
1
2
3
4
5
7
12
15
17
21
̂𝒊
𝒚
7.8
11.1
14.4
17.7
21
𝑒̂𝑖
-0.8
0.9
0.6
-0.7
0
Nel modello di regressione lineare i due parametri da stimare si chiamano
𝑏̂  coefficiente di regressione
𝑎̂  intercetta
Il coefficiente di regressione lineare 𝑏̂
La stima dei minimi quadrati del coefficiente di regressione lineare è data dalla
seguente espressione:
∑𝑁
̅)
𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦
̂
𝑏=
2
∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ )
Dove 𝑥̅ e 𝑦̅ sono, rispettivamente, le medie di 𝑋 e 𝑌.
 Il numeratore si chiama anche codevianza fra 𝑋 e 𝑌
 Il denominatore è la devianza della 𝑿.
Quindi la formula equivale a:
𝑐𝑜𝑑𝑒𝑣(𝑋, 𝑌)
𝑏̂ =
𝑑𝑒𝑣(𝑋)
L’intercetta 𝑎̂
La stima dei minimi quadrati dell’intercetta della retta di regressione è:
𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅
Esempio numerico
𝒊
Unità
1
2
3
4
5
6
7
8
9
𝒙𝒊
Statura
𝒚𝒊
Peso
(in cm)
(in Kg)
150
153
160
167
172
178
179
181
183
𝑥̅ = 169.22
55
58
70
69
73
80
78
83
90
𝑦̅ = 72.89
(𝒙𝒊 − 𝒙
( 𝒚𝒊 − 𝒚
̅)
̅) (𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
(𝒙𝒊 − 𝒙
̅) 𝟐
Scarti di 𝒙 Scarti di 𝒚
Prodotti
Scarti di x al
fra gli scarti
quadrato
dalla media dalla media
-19.22
-17.89
343.85
369.41
-16.22
-14.89
241.52
263.09
-9.22
-2.89
26.65
85.01
-2.22
-3.89
8.64
4.93
2.78
0.11
0.31
7.73
8.78
7.11
62.43
77.09
9.78
5.11
49.98
95.65
11.78
10.11
119.10
138.77
13.78
17.11
235.78
189.89
1088.22
1231.56
Data la relazione logica fra peso e statura, consideriamo la statura variabile
indipendente 𝑋 e il peso variabile dipendente 𝑌.
𝒊
Unità
1
2
3
4
5
6
7
8
9
𝒙𝒊
Statura
𝒚𝒊
Peso
(in cm)
(in Kg)
150
153
160
167
172
178
179
181
183
𝑥̅ = 169.22
55
58
70
69
73
80
78
83
90
𝑦̅ = 72.89
(𝒙𝒊 − 𝒙
( 𝒚𝒊 − 𝒚
̅)
̅) (𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
(𝒙𝒊 − 𝒙
̅) 𝟐
Scarti di 𝒙 Scarti di 𝒚
Prodotti
Scarti di x al
fra gli scarti
quadrato
dalla media dalla media
-19.22
-17.89
343.85
369.41
-16.22
-14.89
241.52
263.09
-9.22
-2.89
26.65
85.01
-2.22
-3.89
8.64
4.93
2.78
0.11
0.31
7.73
8.78
7.11
62.43
77.09
9.78
5.11
49.98
95.65
11.78
10.11
119.10
138.77
13.78
17.11
235.78
189.89
1088.22
1231.56
La prima cosa da fare è calcolare le medie aritmetiche delle due variabili
𝑥̅ = 169.22
𝑦̅ = 72.89.
𝒊
Unità
1
2
3
4
5
6
7
8
9
𝒙𝒊
Statura
𝒚𝒊
Peso
(in cm)
(in Kg)
150
153
160
167
172
178
179
181
183
𝑥̅ = 169.22
55
58
70
69
73
80
78
83
90
𝑦̅ = 72.89
(𝒙𝒊 − 𝒙
( 𝒚𝒊 − 𝒚
̅)
̅) (𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
(𝒙𝒊 − 𝒙
̅) 𝟐
Scarti di 𝒙 Scarti di 𝒚
Prodotti
Scarti di x al
fra gli scarti
quadrato
dalla media dalla media
343.85
369.41
-19.22
-17.89
241.52
263.09
-16.22
-14.89
26.65
85.01
-9.22
-2.89
8.64
4.93
-2.22
-3.89
0.31
7.73
2.78
0.11
62.43
77.09
8.78
7.11
49.98
95.65
9.78
5.11
119.10
138.77
11.78
10.11
235.78
189.89
13.78
17.11
1088.22
1231.56
Con tali medie è possibile calcolare gli scarti dei valori delle due variabili dalle
rispettive medie
∑𝑁
̅)
𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦
̂
𝑏=
2
∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ )
𝒊
Unità
1
2
3
4
5
6
7
8
9
𝒙𝒊
Statura
𝒚𝒊
Peso
(in cm)
(in Kg)
150
153
160
167
172
178
179
181
183
𝑥̅ = 169.22
55
58
70
69
73
80
78
83
90
𝑦̅ = 72.89
(𝒙𝒊 − 𝒙
( 𝒚𝒊 − 𝒚
̅)
̅) (𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
(𝒙𝒊 − 𝒙
̅) 𝟐
Scarti di 𝒙 Scarti di 𝒚
Prodotti
Scarti di x al
fra gli scarti
quadrato
dalla media dalla media
-19.22
-17.89
369.41
343.85
-16.22
-14.89
263.09
241.52
-9.22
-2.89
85.01
26.65
-2.22
-3.89
4.93
8.64
2.78
0.11
7.73
0.31
8.78
7.11
77.09
62.43
9.78
5.11
95.65
49.98
11.78
10.11
138.77
119.10
13.78
17.11
189.89
235.78
1088.22
1231.56
Poi si fa il prodotto degli scarti
Di cui serve anche la somma
∑𝑁
̅)
𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦
̂
𝑏=
2
∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ )
𝒊
Unità
1
2
3
4
5
6
7
8
9
𝒙𝒊
Statura
𝒚𝒊
Peso
(in cm)
(in Kg)
150
153
160
167
172
178
179
181
183
𝑥̅ = 169.22
55
58
70
69
73
80
78
83
90
𝑦̅ = 72.89
(𝒙𝒊 − 𝒙
( 𝒚𝒊 − 𝒚
̅)
̅) (𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
(𝒙𝒊 − 𝒙
̅) 𝟐
Scarti di 𝒙 Scarti di 𝒚
Prodotti
Scarti di x al
fra gli scarti
quadrato
dalla media dalla media
-19.22
-17.89
343.85
369.41
-16.22
-14.89
241.52
263.09
-9.22
-2.89
26.65
85.01
-2.22
-3.89
8.64
4.93
2.78
0.11
0.31
7.73
8.78
7.11
62.43
77.09
9.78
5.11
49.98
95.65
11.78
10.11
119.10
138.77
13.78
17.11
235.78
189.89
1088.22
1231.56
Infine elevando al quadrato gli scarti di 𝑿 dalla sua media
si ottengono i valori
dell’ultima colonna che sono i termini per il calcolo della devianza di 𝑋.
∑𝑁
̅)
𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦
̂
𝑏=
2
∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ )
𝒊
Unità
1
2
3
4
5
6
7
8
9
𝒙𝒊
Statura
𝒚𝒊
Peso
(in cm)
(in Kg)
150
153
160
167
172
178
179
181
183
𝑥̅ = 169.22
55
58
70
69
73
80
78
83
90
𝑦̅ = 72.89
(𝒙𝒊 − 𝒙
( 𝒚𝒊 − 𝒚
̅)
̅) (𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
(𝒙𝒊 − 𝒙
̅) 𝟐
Scarti di 𝒙 Scarti di 𝒚
Prodotti
Scarti di x al
fra gli scarti
quadrato
dalla media dalla media
-19.22
-17.89
343.85
369.41
-16.22
-14.89
241.52
263.09
-9.22
-2.89
26.65
85.01
-2.22
-3.89
8.64
4.93
2.78
0.11
0.31
7.73
8.78
7.11
62.43
77.09
9.78
5.11
49.98
95.65
11.78
10.11
119.10
138.77
13.78
17.11
235.78
189.89
1088.22
1231.56
Il coefficiente di regressione lineare risulta essere:
𝑏̂ =
𝑐𝑜𝑑𝑒𝑣(𝑋, 𝑌) 1088.22
=
= 0.8836
(
)
𝑑𝑒𝑣 𝑋
1231.56
L’intercetta
𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅
Possiamo ora ricavare la stima dei minimi quadrati dell’intercetta:
𝑦̅ = 72.89
− 𝑏̂ = 0.8836 𝑥̅ = 169.22
𝑎̂ = 72.89 − 0.8836 ∙ 169.22 = −76.635
La retta stimata dei minimi quadrati risulta pertanto essere:
𝑦̂𝑖 = −76.635 + 0.8836𝑥𝑖
Retta stimata e rappresentazione grafica
𝑦̂𝑖 = −76.635 + 0.8836𝑥𝑖
95
y = 0.8836x - 76.639
90
85
Y - Peso
80
75
70
65
60
55
50
145
150
155
160
165
X - Statura
170
175
180
185
Interpretazione dei risultati
𝑎̂ = −76.635
L’intercetta negativa, in questo esempio, non ha un significato pratico:
dice il peso che presumibilmente avrebbe una persona con statura nulla.
𝑏̂ = 0.8836
Il coefficiente angolare, invece, ha il seguente significato:
Il valore 0.8836 indica che all’aumentare di un cm di statura, il peso aumenta in
media di 883.6 grammi.
L’aumento “in media” significa che gli scostamenti da questa legge sono dovuti ad
altri fattori, non noti o non osservabili.
Calcolo dei valori teorici di 𝒀
Utilizzando l’equazione della retta stimata 𝑦̂𝑖 = −76.635 + 0.8836𝑥𝑖
si calcolano i valori teorici di 𝑌, cioè 𝑦̂𝑖 , quindi i residui (𝑒̂𝑖 ), e i residui al quadrato
(𝑒̂𝑖2 ).
𝒙𝒊
150
153
160
167
172
178
179
181
183
𝒚𝒊
55
58
70
69
73
80
78
83
90
̂𝒊
̂𝒊
𝒚
𝒆̂𝒊 = 𝒚𝒊 − 𝒚
𝒆̂𝟐𝒊
55.91
-0.91
0.819
58.56
-0.56
0.309
64.74
5.26 27.657
70.93
-1.93
3.710
75.34
-2.34
5.495
80.65
-0.65
0.417
81.53
-3.53 12.457
83.30
-0.30
0.088
85.06
4.94 24.366
75.318
PREVISIONI
Il modello di regressione lineare può esser utilizzato a fini previsivi.
Supponiamo di voler prevedere il peso di un individuo con una statura di 190 cm.
Si “inserisce” questo valore nell’equazione della retta stimata sostituendolo alla 𝑥
𝑦̂𝑖 = −76.635 + 0.8836𝑥𝑖
−76.635 + 0.8836 ∙ 190 = 𝟗𝟏. 𝟐𝟓
Quindi, si prevede che un individuo alto 1 metro e 90 pesi (in media) 91.25 kg.
L’indice di determinazione
La retta dei minimi quadrati è la migliore fra tutte le possibili rette.
Ma questo non significa che la retta in sé sia il modello migliore per rappresentare i
dati.
Infatti la relazione fra 𝑋 e 𝑌 può anche essere curvilinea o di altro tipo.
Per capire quanto la retta sia adatta a rappresentare i dati osservati c’è bisogno di
un opportuno indice, che è l’indice di determinazione.
È utilizzato come misura della bontà di adattamento della retta ai dati osservati:
𝑁 (
2
∑
)
𝑦
̂
−
𝑦
̅
𝑖
𝑖=1
𝑅2 = 𝑁
∑𝑖=1(𝑦𝑖 − 𝑦̅)2
Questo indice è un numero puro che varia da 0 a 1.
 Più è vicino a 1 e migliore è la bontà di adattamento della retta ai dati
 Più è vicino a 0, peggiore è l’adattamento.
.
R² = 0.9891
.
R² = 0.7088
.
R² = 0.319
.
R² = 0.0041
Esempio di calcolo
𝒙𝒊
Statura
𝒚𝒊
Peso
(in cm)
(in Kg)
(𝒚𝒊 − 𝒚
̅)
Valori
Scarti di 𝒚
teorici di 𝒚 dalla media
55.91
-17.89
58.56
-14.89
64.74
-2.89
70.93
-3.89
75.34
0.11
80.65
7.11
81.53
5.11
83.30
10.11
85.06
17.11
𝑦̂𝑖
150
55
153
58
160
70
167
69
172
73
178
80
179
78
181
83
183
90
𝑥̅ = 169.22 𝑦̅ = 72.89
(𝑦𝑖 − 𝑦̅)2
320.01
221.68
8.35
15.12
0.01
50.57
26.12
102.23
292.79
1036.89
(𝒚
̂𝒊 − 𝒚
̅)
̂
Scarti di 𝒚
dalla media
-16.98
-14.33
-8.15
-1.96
2.46
7.76
8.64
10.41
12.17
𝑦̂𝑖 = −76.635 + 0.8836𝑥𝑖
2
∑𝑁
̂ 𝑖 −𝑦̅)2
𝑖=1(𝑦
𝑅 = ∑𝑁
̅)2
𝑖=1(𝑦𝑖 −𝑦
961.54
= 1036.89 = 0.927
(𝑦̂𝑖 − 𝑦̅)2
288.45
205.44
66.39
3.85
6.03
60.17
74.66
108.32
148.23
961.54
Le relazioni fra variabili quantitative:
La Correlazione
X
Y
Nominale
Ordinale
Intervalli
Nominale
Ordinale
Intervalli
Connessione
Connessione
Connessione
Connessione
Connessione
Connessione
Connessione
Connessione
Regressione e
correlazione
 Se si ci sono informazioni a
priori che permettono di stabilire
quale delle due variabili è
l’antecedente logico, allora si
utilizza la regressione.
 Quando invece non è possibile
sapere quale variabile dipende
dall’altra,
si
utilizza
la
correlazione.
La Correlazione
Se non si può stabilire quale delle due variabili sia l’antecedente logico, si ricorre
al coefficiente di correlazione, che misura il grado di concordanza o discordanza
fra due variabili quantitative senza presumere un verso nella relazione.
 Concordanza fra due variabili: a valori alti di una variabile si associano valori
alti dell’altra variabile
 Discordanza: a valori alti di una variabile si associano valori bassi dell’atra.
Un indice che misura la concordanza o discordanza tra due variabili quantitative è
la covarianza, che si indica con il simbolo 𝜎𝑋𝑌 .
Media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie:
𝑁
𝜎𝑋𝑌
1
= ∑(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)
𝑁
𝑖=1
Concordanza e discordanza
 La covarianza è positiva (𝜎𝑋𝑌 > 0) se prevalgono i prodotti di scostamenti
concordi, cioè entrami positivi o entrambi negativi.
 La covarianza è negativa (𝜎𝑋𝑌 < 0) se prevalgono i prodotti di scostamenti
discordi, cioè a quelli positivi di X si associano quelli negativi di Y e
viceversa.
Ecco perché la covarianza
concordanza/discordanza.
può
essere
assunta
come
indice
di
Come accade spesso con gli indici, il problema è che la covarianza è legata
all’unità di misura delle due variabili.
Un indice relativo
Con 𝜎𝑋 e 𝜎𝑌 , rispettivamente, si indicano le deviazioni standard di 𝑋 e 𝑌:
∑𝑁
(𝑥𝑖 − 𝑥̅ )2
𝑖=1
𝜎𝑋 = √
𝑁
Queste due grandezze
sono sempre positive
∑𝑁
(𝑦𝑖 − 𝑦̅)2
𝑖=1
𝜎𝑌 = √
𝑁
Da cui si ricava il coefficiente di correlazione lineare di Bravais-Pearson:
𝜎𝑋𝑌
𝑟=
𝜎𝑋 𝜎𝑌
𝜎𝑋𝑌
𝑟=
𝜎𝑋 𝜎𝑌
Dato che al denominatore vi sono quantità sempre positive il segno di questo indice
dipende solo ed esclusivamente dal segno della covarianza (numeratore).
Pertanto:
 se c’è concordanza fra le due variabili si ha 𝑟>0
 in caso di discordanza l’indice è negativo 𝑟<0.
Il coefficiente di correlazione assume valori nel seguente intervallo:
−1 ≤ 𝑟 ≤ 1
I vari casi per i valori di 𝒓
 𝒓 = −𝟏: discordanza perfetta. Fra 𝑋 e 𝑌 sussiste un perfetto legame lineare. I
punti del diagramma a dispersione sono perfettamente allineati, lungo una
retta decrescente;
 𝒓 < 𝟎: discordanza. Il grado di discordanza dipende dal valore assunto da r. I
punti del diagramma a dispersione non sono allineati, ma seguono un
andamento decrescente;
 𝒓 = 𝟎: indifferenza. In questo caso o c’è indipendenza lineare fra 𝑋 e 𝑌,
oppure sussiste una relazione di altro tipo;
 𝒓 > 𝟎: concordanza. Il grado di concordanza dipende dal valore assunto da r.
I punti del diagramma a dispersione non sono allineati perfettamente, e
seguono un andamento crescente;
 𝒓 = +𝟏: concordanza perfetta. Fra 𝑋 e 𝑌 sussiste un perfetto legame lineare.
I punti del diagramma a dispersione sono perfettamente allineati, lungo una
linea crescente.
Esempio numerico
𝒊
1
2
3
4
5
6
7
𝒙𝒊
42.5
42.7
43.0
44.1
44.4
44.6
45.5
306.8
𝒚𝒊
18.3
18.9
20.0
20.2
19.5
20.3
22.0
139.2
( 𝒙𝒊 − 𝒙
̅)
-1.329
-1.129
-0.829
0.271
0.571
0.771
1.671
( 𝒚𝒊 − 𝒚
̅)
-1.586
-0.986
0.114
0.314
-0.386
0.414
2.114
( 𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
2.107
1.112
-0.095
0.085
-0.220
0.320
3.534
6.843
Per prima cosa calcoliamo le due medie, che sono:
𝑥̅ =
𝟑𝟎𝟔.𝟖
7
= 43.83;
𝑦̅ =
𝟏𝟑𝟗.𝟐
7
= 19.89
( 𝒙𝒊 − 𝒙
̅) 𝟐
1.765
1.274
0.687
0.074
0.327
0.595
2.794
7.514
( 𝒚𝒊 − 𝒚
̅ )𝟐
2.514
0.972
0.013
0.099
0.149
0.172
4.470
8.389
𝒊
1
2
3
4
5
6
7
𝒙𝒊
42.5
42.7
43.0
44.1
44.4
44.6
45.5
306.8
( 𝒙𝒊 − 𝒙
̅)
-1.329
-1.129
-0.829
0.271
0.571
0.771
1.671
𝒚𝒊
18.3
18.9
20.0
20.2
19.5
20.3
22.0
139.2
( 𝒚𝒊 − 𝒚
̅)
-1.586
-0.986
0.114
0.314
-0.386
0.414
2.114
( 𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
2.107
1.112
-0.095
0.085
-0.220
0.320
3.534
6.843
( 𝒙𝒊 − 𝒙
̅) 𝟐
1.765
1.274
0.687
0.074
0.327
0.595
2.794
7.514
( 𝒚𝒊 − 𝒚
̅ )𝟐
2.514
0.972
0.013
0.099
0.149
0.172
4.470
8.389
Poi calcoliamo le deviazioni standard, sfruttando i totali delle ultime due colonne:
𝜎𝑋 = √
𝜎𝑋 = √
2
∑𝑁
𝑖=1(𝑥𝑖 −𝑥̅ )
𝑁
7.514
7
= 𝟏. 𝟎𝟑𝟔
𝜎𝑌 = √
𝜎𝑌 = √
∑𝑁
̅)2
𝑖=1(𝑦𝑖 −𝑦
𝑁
8.389
7
= 𝟏. 𝟎𝟗𝟓
𝒊
1
2
3
4
5
6
7
𝒙𝒊
42.5
42.7
43.0
44.1
44.4
44.6
45.5
306.8
𝒚𝒊
18.3
18.9
20.0
20.2
19.5
20.3
22.0
139.2
( 𝒙𝒊 − 𝒙
̅)
-1.329
-1.129
-0.829
0.271
0.571
0.771
1.671
( 𝒚𝒊 − 𝒚
̅)
-1.586
-0.986
0.114
0.314
-0.386
0.414
2.114
( 𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅)
2.107
1.112
-0.095
0.085
-0.220
0.320
3.534
6.843
( 𝒙𝒊 − 𝒙
̅) 𝟐
1.765
1.274
0.687
0.074
0.327
0.595
2.794
7.514
( 𝒚𝒊 − 𝒚
̅ )𝟐
2.514
0.972
0.013
0.099
0.149
0.172
4.470
8.389
Ricordando che la codevianza (nell’esempio è 6.843) è il numeratore della
covarianza, quest’ultima l’otteniamo facilmente con il seguente rapporto:
𝑁
𝜎𝑋𝑌 =
1
∑(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)
𝑁
𝑖=1
𝜎𝑋𝑌
6.843
=
= 0.978
7
A questo punto possiamo applicare la formula per il coefficiente di correlazione:
𝜎𝑋𝑌
0.978
𝑟=
=
= 0.862
𝜎𝑋 𝜎𝑌 1.036 ∙ 1.095
Interpretazione
“La correlazione fra i tempi della bicicletta e quelli della corsa è positiva ed è
anche molto alta.
Un valore di 0.86 è molto vicino al massimo dell’indice, che sappiamo essere 1.
Quindi, a tempi alti nella corsa corrispondono tempi alti anche nella prova di
bicicletta e viceversa.
In altri termini, i bravi nella bicicletta sono anche bravi nella corsa e i meno bravi
in una specialità sono meno bravi anche nell’altra.”
Importante puntualizzazione
Una correlazione fra due variabili non significa causazione, cioè che una
variabile è conseguenza dell’altra, ma soltanto che le variabili sono altamente
correlate.
Le cause della correlazione vanno spiegate in altri ambiti che non sono propri della
statistica.
A volte si è in presenza di correlazione spuria.
Se ad esempio dovessimo rilevare una
correlazione fra il prezzo del pesce a Palermo e i
voti in statistica di un gruppo di studenti
dell’università G. d’Annunzio di Chieti-Pescara,
si tratta di una correlazione spuria, non potendo
esserci in nessun modo un legame logico fra
queste due variabili.
𝒓 = 𝟎. 𝟔