Statistica bivariata Relazione tra variabili

Statistica bivariata
Relazione tra variabili
Date due variabili x e y, rilevate ad un qualsiasi livello di scala,
possiamo affermare che tra loro esiste una relazione se i valori
dell’una variano in modo sistematico al variare dei valori dell’altra
Connessione (intensità della relazione)
Concordanza (direzione della relazione)
Relazione
Determinazione (quota di variabilità riprodotta
dalla relazione)
Forma della relazione (lineari/non lineari)
1
Statistica bivariata
Relazioni spurie
Non sempre quando osserviamo una relazione bivariata
statisticamente significativa tra due variabili dobbiamo concludere
che tra i due fenomeni esista una relazione di causa effetto
•Perché i danni provocati dagli incendi crescono con il crescere
del numero di autobotti dei pompieri inviate sul posto?
•Come mai dove ci sono più cicogne nascono più bambini?
• Come mai dove c’è un basso tasso di matrimoni con rito
religioso c’è un tasso di mortalità più basso? (Yule)
2
1
Statistica bivariata
Relazioni spurie
N° di
bambini
N° di
cicogne
Analizzando la relazione che esiste tra numero di
nascite e popolazione di cicogne si osserva una
relazione significativa (r=.88)
3
Statistica bivariata
Relazioni spurie
N° di
bambini
N° di
cicogne
Inserendo una terza variabile (ruralità della zona) la relazione
scompare (r=.04)
4
2
Statistica bivariata
Tabella di contingenza
Obbligo
Media Laurea
superiore
Totale
Maschi
7
12
10
29
Femmine
8
9
12
29
Totale
15
21
22
58
5
Statistica bivariata
Tabella di contingenza
Obbligo
Y1
Media Laurea
superiore
Y2
Y3
Totale Marginale
Di
Riga
Maschi
X1
n11
n12
n13
n1.
Femmine
X2
n21
n22
n23
n2.
Totale
n.1
n.2
n.3
N
Marginale di
colonna
Totale
complessivo
6
3
Statistica bivariata
Tabella di contingenza
La frequenza contenuta in una generica cella verrà
indicata come nij
dove i rappresenta una delle I righe
e j una delle J colonne
I
J
n = ∑n
n = ∑n
i.
.j
ij
j =1
J
I
∑n = ∑n
j =1
.j
i =1
i.
ij
i =1
=N
7
Statistica bivariata
Tabella di contingenza
In una tabella di contingenza si possono calcolare tre tipi di
percentuali o relative
Percentuali di riga
numeratore
denominatore
Frequenza di cella
Marginale di riga
Percentuali di
colonna
Frequenza di cella
Percentuali di
cella
Frequenza di cella
Marginale di
colonna
Marginale totale
formula
n
n
q =n
n
q =n
n
q
r
i, j
c
i, j
=
i, j
i.
i, j
.j
i, j
i, j
..
8
4
Statistica bivariata
Tabella di contingenza
% di riga
I tre tipi di percentuale rimandano a significati differenti
Obbligo
Laurea
Totale
12
9
10
12
29
29
15
21
22
58
Femmine
Totale
M.sup.
7
8
Maschi
Obbligo
M.sup.
0,24
0,28
0,26
Maschi
Femmine
Totale
Laurea
0,41
0,31
0,36
Totale
0,34
0,41
0,38
1,00
1,00
9
Statistica bivariata
Tabella di contingenza
% di colonna
I tre tipi di percentuale rimandano a significati differenti
Obbligo
Maschi
Femmine
Totale
M.sup.
Laurea
Totale
7
8
12
9
10
12
29
29
15
21
22
58
Obbligo
Maschi
Femmine
Totale
0,47
0,53
1,00
M.sup.
0,57
0,43
1,00
Laurea
0,45
0,55
1,00
Totale
0,50
0,50
10
5
Statistica bivariata
Tabella di contingenza
% di cella
I tre tipi di percentuale rimandano a significati differenti
Obbligo
Maschi
Femmine
Totale
M.sup.
Laurea
Totale
7
8
12
9
10
12
29
29
15
21
22
58
Obbligo
M.sup.
0,12
0,14
0,26
Maschi
Femmine
Totale
Laurea
0,21
0,16
0,36
Totale
0,17
0,21
0,38
0,50
0,50
1,00
11
Statistica bivariata
Tabella di contingenza
% di riga
Si possono utilizzare rappresentazioni grafiche differenti
Obbligo
Maschi
Femmine
Totale
M.sup.
0,24
0,28
0,26
Laurea
0,41
0,31
0,36
Totale
0,34
0,41
0,38
1,00
1,00
0,50
0,41
0,40
0,28
0,30
0,31
0,41
Maschi
Femmine
0,34
0,24
0,20
0,10
Femmine
0,00
Obbligo
Maschi
M.sup.
Laurea
12
6
Statistica bivariata
Tabella di contingenza
% di colonna
Obbligo
Maschi
Femmine
Totale
M.sup.
0,47
0,53
1,00
Laurea
0,57
0,43
1,00
Totale
0,45
0,55
1,00
0,50
0,50
100%
75%
0,43
0,53
0,55
Femmine
Maschi
50%
25%
0%
0,57
0,47
Obbligo
M.sup.
0,45
Laurea
13
Statistica bivariata
Operatori di connessione - Chi quadrato
Obbligo
M. Superiore
Laurea
Totale
Maschi
7
12
10
29
Femmine
8
9
12
29
Totale
15
21
22
58
Il test del chi quadrato opera un confronto tra le frequenza osservate
e quelle che teoricamente avremmo osservato stante la situazione di
indipendenza tra la variabile X e la variabile Y
14
7
Statistica bivariata
Operatori di connessione - Chi quadrato
Maschi
Femmine
Totale
Obbligo
M. Superiore
Laurea
Totale
0,12
0,14
0,26
0,21
0,16
0,36
0,17
0,21
0,38
0,50
0,50
1,00
Se trasformiamo le frequenze assolute in frequenze relative
possiamo interpretare i marginali di riga e di colonna come la
probabilità di osservare una particolare modalità delle due variabili.
La probabilità di osservare congiuntamente due modalità (es:
maschi laureati) è definita dal prodotto delle due probabilità. La
frequenza attesa in ogni cella è dunque data dal prodotto della
15
probabilità congiunta e il totale dei soggetti
Statistica bivariata
Operatori di connessione - Chi quadrato
Probabilità congiunte osservate
Maschi
Femmine
Totale
Obbligo
M. Superiore
Laurea
Totale
0,12
0,14
0,26
0,21
0,16
0,36
0,17
0,21
0,38
0,50
0,50
1,00
Obbligo
M. Superiore
Laurea
Totale
0,13
0,13
0,26
0,18
0,18
0,36
0,19
0,19
0,38
0,50
0,50
16
1,00
Probabilità congiunte attese
Maschi
Femmine
Totale
8
Statistica bivariata
Operatori di connessione - Chi quadrato
n
n
=
*
n N N
∧
Frequenza teorica
i.
.j
ij
*n
n
*N =
i.
.j
N
2
∧
Chi quadro
χ
2
=
I
∑
i=1
J
∑


 n ij − n ij


j=1
∧
n ij
17
Statistica bivariata
Operatori di connessione - Chi quadrato
Il valore critico di Chi quadro viene definito sulla
base del livello di errore alfa (α)
e dei gradi di libertà (ν)
I gradi di libertà sono dati da (I-1)*(J-1)
18
9
Statistica bivariata
Operatori di connessione - Chi quadrato
Frequenze osservate
Obbligo
M. Superiore
Laurea
Totale
Maschi
7
12
10
29
Femmine
8
9
12
29
Totale
15
21
22
58
Frequenze attese
Obbligo
M.
Superiore
Laurea
Totale
10.5
11,0
29
Femmine
(29*15)/58=
7,5
7,5
10.5
11,0
29
Totale
15
21
22
Maschi
19
58
Statistica bivariata
Operatori di connessione - Chi quadrato
χ cal =
2
(7−7,5) 2 (8−7,5) 2 (12−10,5) 2
7,5
+
Gdl= (2-1)*(3-1) = 2
Alfa= 0.05
7,5
+
10,5
χ
2
crit
... = 0.68
= 5.991
Poiché il chi quadro calcolato è inferire al chi quadro
critico accetto l’ipotesi nulla (assenza di relazione)
20
10