L’analisi dell’associazione o connessione tra due caratteri statistici Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata a.a. 2011/2012 Statistica Prof. Roberta Siciliano 1 Obiettivi dell’unità didattica • Definire la distribuzione doppia di frequenze • Definire la condizione di indipendenza in distribuzione • Analizzare l’associazione o connessione tra due caratteri statistici Contenuti • Tabelle doppie di frequenza • L’indipendenza in distribuzione • La connessione – Unilaterale – Bilaterale Statistica Prof. Roberta Siciliano 2 1 Distribuzione doppia di frequenze X \Y y1 y2 yj yh x1 x2 xi xk n11 n 21 n i1 n k1 n12 n 22 n i2 nk 2 n1 j n2 j n ij n kj n1h n 2h n ih n kh n1+ n 2+ n i+ nk + n +1 n +2 n + j n +h N Statistica Prof. Roberta Siciliano 3 € Distribuzione doppia di frequenze X \Y x1 x2 Carattere di colonna xi j-esima modalità di Y x k Statistica y1 n11 n 21 n i1 n k1 n +1 y2 y j yh n12 n1 j n1h n 22 n 2 j n 2h n i2 n ij n ih n k 2 n kj n kh n +2 n + j n +h Prof. Roberta Siciliano n1+ n 2+ n i+ nk + n 4 € 2 Distribuzione doppia di frequenze Carattere di riga i-esima modalità di X Statistica yj X \Y y1 y2 yh x1 x2 xi xk n11 n 21 n i1 n k1 n +1 n12 n1 j n1h n 22 n 2 j n 2h n i2 n ij n ih n k 2 n kj n kh n +2 n + j n +h Prof. Roberta Siciliano n1+ n 2+ n i+ nk + n 5 € Distribuzione doppia di frequenze Numero di unità che presentano contemporaneamente la i-esima modalità di X e la j-esima modalità di Y Frequenza marginale della i-esima modalità di X Statistica Prof. Roberta Siciliano Frequenza marginale della jesima modalità di Y 6 3 …per frequenza relative • Se dividiamo ogni cella per N otteniamo la distribuzione doppia delle frequenze relative • Valgono per estensione tutte le proprietà viste per le distribuzioni semplici Statistica Prof. Roberta Siciliano 7 Caratteristiche principali h n i+ = ∑n ij totale della i - esima riga ij totale della j - esima colonna j =1 k n+ j = ∑n i=1 k h N = ∑ ∑ n ij = ∑ n i+ = ∑ n + j € i=1 j =1 Statistica € i Prof. Roberta Siciliano j 8 € 4 … per frequenze relative f ij = n ij N = frequenza relativa congiunta o doppia h f i+ = ∑f frequenza relativa marginale della i - esima riga ij j =1 € k f+ j = ∑f ij frequenza relativa marginale della j - esima colonna i=1 € k h 1 = ∑ ∑ f ij = ∑ f i+ = ∑ f + j € i=1 j =1 Statistica i j Prof. Roberta Siciliano 9 € Indipendenza in distribuzione • Si ha quando le frequenze osservate in ogni cella (i,j) soddisfano la seguente condizione n i+ n + j N • Le k distribuzioni parziali relative del tipo Y | X = x i per i = 1,...,k si equivalgono e sono equivalenti alla distribuzione marginale di colonna di Y: n ij n + j per j = 1,…,h € • Le h distribuzioni parziali relative del tipo X |Y = y j per j = 1,...,h n i+ €= N si equivalgono e sono equivalenti alla distribuzione marginale di riga di X: n ij n i+ € = per i = 1,…,k n+ j N € Statistica – per colonna Prof. Roberta Siciliano 10 € 5 Indice di contingenza quadratica media del Pearson per l’analisi della connessione o associazione 2 ⎛ f − f f ⎞ 2 χ ij i+ + j ⎟⎟ f i+ f + j φ2 = = ∑ ∑ ⎜⎜ i j N ⎝ f i+ f + j ⎠ = ∑i ∑ j ( f ij − f i+ f + j ) 2 f i+ f + j 2 ⎛ n i+ n + j ⎞ ⎜ n ij − ⎟ N ⎠ 1 ⎝ = ∑∑ n i+ n + j N i j N Statistica Prof. Roberta Siciliano 11 € Indice di contingenza quadratica media del Pearson per l’analisi della connessione o associazione: indice normalizzato 0 ≤ φ 2 ≤ min(k,h) −1 0 ≤ χ 2 ≤ N × [min(k,h) −1] Il più piccolo valore tra il numero di righe ed il numero di colonne della tabella € Indice normalizzato: Statistica φ2 0≤ ≤1 min(k,h) −1 Prof. Roberta Siciliano 12 € 6 Il fondamento teorico 2 • Il φ è una media ponderata dei quadrati delle contingenze relative con pesi pari alle frequenze relative che soddisfano la condizione di indipendenza ⎛ f − f f ⎞ 2 ij i+ + j ⎟⎟ f i+ f + j φ 2 = ∑i ∑ j ⎜⎜ f f ⎝ i+ + j ⎠ € Contingenze relative Pesi (positivi e sommano a uno) € Statistica Prof. Roberta Siciliano 13 Indipendenza in distribuzione • Si ha n ij = n i+ n + j oppure f ij = f i+ f + j ⇒ φ 2 = 0 N € Statistica Prof. Roberta Siciliano 14 7 Massima connessione bilaterale • Tabelle quadrate con k =h n ij* = n i+ e n ij = 0 per j ≠ j * ⇒ φ 2 = k −1 € Statistica Prof. Roberta Siciliano 15 Massima connessione unilaterale • Tabelle rettangolari con k >h n ij* = n i+ e n ij = 0 per j ≠ j * ⇒ φ 2 = h −1 € Statistica Prof. Roberta Siciliano 16 8 Tipi di connessione Connessione Perfetta Bilaterale (solo per tabelle quadrate!) Ad ogni modalità di X corrisponde una ed una sola modalità di Y e viceversa Statistica Prof. Roberta Siciliano 17 Tipi di connessione (cont.) In questo esempio, NON ESISTE connessione perfetta! Statistica Prof. Roberta Siciliano 18 9 Tipi di connessione (cont.) Connessione Unilaterale di Y da X Per ogni modalità della X esiste una sola modalità della Y con frequenza diversa da 0 Statistica Prof. Roberta Siciliano 19 Tipi di connessione (cont.) Connessione Unilaterale di X da Y Per ogni modalità della Y esiste una sola modalità della X con frequenza diversa da 0 La connessione Unilaterale è solo per tabelle rettangolari! Statistica Prof. Roberta Siciliano 20 10 Formulazione alternativa 2 ⎛ ⎛ n i+ n + j ⎞ 2 n i+ n + j ⎞ n i+ n + j 2 n ij + ⎜ ⎜ n ij − ⎟ ⎟ − 2n ij N ⎠ N 1 1 ⎝ ⎝ N ⎠ φ 2 = ∑i ∑ j = ∑∑ = n i+ n + j n i+ n + j N N i j N N = € € n ij2 n i+ n + j 1 1 1 + − 2 ∑ ∑ ∑ ∑ ∑∑ n = N i j n i+ n + j N i j N N i j ij N n ij2 n ij2 1 N×N =∑ ∑ + −2 =∑ ∑ −1 i j n n i j n n N N i+ + j i+ + j ( ) =∑ ∑ Nf Nf Nf ij i Statistica j i+ 2 +j −1 = ∑ ∑ i j Prof. Roberta Siciliano f ij2 −1 f i+ f + j 21 € Indice normalizzato • Si ottiene rapportando il al massimo valore che può raggiungere per una tabella di dimensioni k x h con Statistica Prof. Roberta Siciliano 22 11 Esempio 1 Costruiamo la tabella delle frequenze che soddisfano la condizione di indipendenza Statistica Prof. Roberta Siciliano 23 Calcoliamo gli indici di connessione oppure con la formulazione alternativa Statistica Prof. Roberta Siciliano 24 12