L`analisi dell`associazione o connessione tra due caratteri statistici

L’analisi dell’associazione o connessione
tra due caratteri statistici
Corso di STATISTICA
Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II
Professore supplente, Università della Basilicata
a.a. 2011/2012
Statistica
Prof. Roberta Siciliano
1
Obiettivi dell’unità didattica
•  Definire la distribuzione doppia di frequenze
•  Definire la condizione di indipendenza in
distribuzione
•  Analizzare l’associazione o connessione tra due
caratteri statistici
Contenuti
•  Tabelle doppie di frequenza
•  L’indipendenza in distribuzione
•  La connessione
–  Unilaterale
–  Bilaterale
Statistica
Prof. Roberta Siciliano
2
1
Distribuzione doppia di frequenze
X \Y
y1
y2

yj

yh
x1
x2

xi

xk
n11
n 21

n i1

n k1
n12
n 22

n i2

nk 2






n1 j
n2 j

n ij

n kj






n1h
n 2h

n ih

n kh
n1+
n 2+

n i+

nk +
n +1
n +2  n + j  n +h
N
Statistica
Prof. Roberta Siciliano
3
€
Distribuzione doppia di frequenze
X \Y
x1
x2

Carattere di colonna
xi

j-esima modalità di Y x k
Statistica
y1
n11
n 21

n i1

n k1
n +1
y2  y j  yh
n12  n1 j  n1h
n 22  n 2 j  n 2h





n i2  n ij  n ih





n k 2  n kj  n kh
n +2  n + j  n +h
Prof. Roberta Siciliano
n1+
n 2+

n i+

nk +
n
4
€
2
Distribuzione doppia di frequenze
Carattere di riga
i-esima modalità di X
Statistica

yj

X \Y
y1
y2
yh
x1
x2

xi

xk
n11
n 21

n i1

n k1
n +1
n12  n1 j  n1h
n 22  n 2 j  n 2h





n i2  n ij  n ih





n k 2  n kj  n kh
n +2  n + j  n +h
Prof. Roberta Siciliano
n1+
n 2+

n i+

nk +
n
5
€
Distribuzione doppia di frequenze
Numero di unità che
presentano
contemporaneamente
la i-esima modalità
di X e la j-esima
modalità di Y
Frequenza marginale
della i-esima
modalità di X
Statistica
Prof. Roberta Siciliano
Frequenza
marginale della jesima modalità di Y
6
3
…per frequenza relative
•  Se dividiamo ogni cella per N otteniamo la
distribuzione doppia delle frequenze relative
•  Valgono per estensione tutte le proprietà
viste per le distribuzioni semplici
Statistica
Prof. Roberta Siciliano
7
Caratteristiche principali
h
n i+ =
∑n
ij
totale della i - esima riga
ij
totale della j - esima colonna
j =1
k
n+ j =
∑n
i=1
k h
N = ∑ ∑ n ij = ∑ n i+ = ∑ n + j
€
i=1 j =1
Statistica
€
i
Prof. Roberta Siciliano
j
8
€
4
… per frequenze relative
f ij = n ij N = frequenza relativa congiunta o doppia
h
f i+ =
∑f
frequenza relativa marginale della i - esima riga
ij
j =1
€
k
f+ j =
∑f
ij
frequenza relativa marginale della j - esima colonna
i=1
€
k
h
1 = ∑ ∑ f ij = ∑ f i+ = ∑ f + j
€
i=1 j =1
Statistica
i
j
Prof. Roberta Siciliano
9
€
Indipendenza in distribuzione
•  Si ha quando le frequenze osservate in ogni cella (i,j)
soddisfano la seguente condizione n i+ n + j
N
•  Le k distribuzioni parziali relative del tipo Y | X = x i per i = 1,...,k
si equivalgono e sono equivalenti alla distribuzione marginale di
colonna di Y:
n ij n + j
per j = 1,…,h
€
•  Le h distribuzioni parziali relative del tipo X |Y = y j per j = 1,...,h
n i+
€= N
si equivalgono e sono equivalenti alla distribuzione marginale di
riga di X:
n ij n i+
€
=
per i = 1,…,k
n+ j
N
€
Statistica
–  per colonna
Prof. Roberta Siciliano
10
€
5
Indice di contingenza quadratica media del Pearson
per l’analisi della connessione o associazione
2
⎛ f − f f ⎞ 2
χ
ij
i+ + j
⎟⎟ f i+ f + j
φ2 =
= ∑ ∑ ⎜⎜
i
j
N
⎝ f i+ f + j ⎠
= ∑i ∑ j
(
f ij − f i+ f + j
)
2
f i+ f + j
2
⎛
n i+ n + j ⎞
⎜ n ij −
⎟
N ⎠
1
⎝
= ∑∑
n i+ n + j
N i j
N
Statistica
Prof. Roberta Siciliano
11
€
Indice di contingenza quadratica media del Pearson
per l’analisi della connessione o associazione:
indice normalizzato
0 ≤ φ 2 ≤ min(k,h) −1
0 ≤ χ 2 ≤ N × [min(k,h) −1]
Il più piccolo valore tra il numero di righe
ed il numero di colonne della tabella
€
Indice normalizzato:
Statistica
φ2
0≤
≤1
min(k,h) −1
Prof. Roberta Siciliano
12
€
6
Il fondamento teorico
2
•  Il φ è una media ponderata dei quadrati delle
contingenze relative con pesi pari alle frequenze
relative che soddisfano la condizione di
indipendenza
⎛ f − f f ⎞ 2
ij
i+ + j
⎟⎟ f i+ f + j
φ 2 = ∑i ∑ j ⎜⎜
f
f
⎝
i+ + j
⎠
€
Contingenze relative
Pesi (positivi e sommano a uno)
€
Statistica
Prof. Roberta Siciliano
13
Indipendenza in distribuzione
•  Si ha n ij =
n i+ n + j
oppure f ij = f i+ f + j ⇒ φ 2 = 0
N
€
Statistica
Prof. Roberta Siciliano
14
7
Massima connessione bilaterale
•  Tabelle quadrate con k =h
n ij* = n i+ e n ij = 0 per j ≠ j * ⇒ φ 2 = k −1
€
Statistica
Prof. Roberta Siciliano
15
Massima connessione unilaterale
•  Tabelle rettangolari con k >h
n ij* = n i+ e n ij = 0 per j ≠ j * ⇒ φ 2 = h −1
€
Statistica
Prof. Roberta Siciliano
16
8
Tipi di connessione
Connessione Perfetta Bilaterale (solo per tabelle quadrate!)
Ad ogni modalità di X corrisponde
una ed una sola modalità di Y e
viceversa
Statistica
Prof. Roberta Siciliano
17
Tipi di connessione (cont.)
In questo esempio, NON ESISTE connessione perfetta!
Statistica
Prof. Roberta Siciliano
18
9
Tipi di connessione (cont.)
Connessione Unilaterale di Y da X
Per ogni modalità della X esiste una
sola modalità della Y con frequenza
diversa da 0
Statistica
Prof. Roberta Siciliano
19
Tipi di connessione (cont.)
Connessione Unilaterale di X da Y
Per ogni modalità della Y esiste una
sola modalità della X con frequenza
diversa da 0
La connessione Unilaterale è solo per tabelle rettangolari!
Statistica
Prof. Roberta Siciliano
20
10
Formulazione alternativa
2
⎛
⎛ n i+ n + j ⎞ 2
n i+ n + j ⎞
n i+ n + j
2
n ij + ⎜
⎜ n ij −
⎟
⎟ − 2n ij
N ⎠
N
1
1
⎝
⎝ N ⎠
φ 2 = ∑i ∑ j
= ∑∑
=
n i+ n + j
n i+ n + j
N
N i j
N
N
=
€
€
n ij2
n i+ n + j
1
1
1
+
−
2
∑
∑
∑
∑
∑∑ n =
N i j n i+ n + j N i j N
N i j ij
N
n ij2
n ij2
1 N×N
=∑ ∑
+
−2 =∑ ∑
−1
i
j n n
i
j n n
N
N
i+ + j
i+ + j
( )
=∑ ∑
Nf Nf
Nf ij
i
Statistica
j
i+
2
+j
−1 = ∑ ∑
i
j
Prof. Roberta Siciliano
f ij2
−1
f i+ f + j
21
€
Indice normalizzato
•  Si ottiene rapportando il
al massimo
valore che può raggiungere per una tabella
di dimensioni k x h
con
Statistica
Prof. Roberta Siciliano
22
11
Esempio 1
Costruiamo la tabella delle frequenze che soddisfano la condizione di
indipendenza
Statistica
Prof. Roberta Siciliano
23
Calcoliamo gli indici di connessione
oppure con la formulazione alternativa
Statistica
Prof. Roberta Siciliano
24
12