UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA A. A. 2011 – 2012 Esercitazioni del corso: STATISTICA Elena Siletti: [email protected] Sommario Esercitazione 3: • Tabelle a doppia entrata • Distribuzioni marginali e condizionate • Indipendenza statistica • Connessione UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 ESERCIZIO 1 Si supponga di aver intervistato 10 studenti immatricolati nell’ a. a 2007 – 2008 alla facoltà di sociologia. Tra le diverse informazioni fornite dallo studente vi è il sesso e la residenza. Per quanto riguarda la residenza la domanda posta è stata “la sua famiglia risiede abitualmente a Milano ?”. I dati raccolti riguardo i due fenomeni sono riportati nella tabella successiva. 1 2 3 4 5 6 7 8 9 10 M F F M F F F M M F NO SI SI SI NO NO SI NO NO NO 1. 2. 3. 4. 5. fornire una rappresentazione sintetica dei dati; mettere in evidenza le distribuzioni marginali; costruire le distribuzioni condizionate; dire se i due fenomeni sono in relazione tra loro; misurare opportunamente, se esiste, tale relazione. Svolgimento 1. Ai fini dell’analisi statistica bivariata il risultato della rilevazione congiunta viene organizzato in una tabella a doppia entrata. Identificando con X il fenomeno “sesso” con k = 2 due modalità e con Y il fenomeno “residenza” con h = 2 due modalità si ottiene la seguente tabella (2 x 2): X Y M F SI NO 1 3 4 3 3 6 4 6 10 2. In tale tabella si possono riconoscere: • • le frequenze congiunte, ovvero che riguardano entrambi i fenomeni, che mettiamo in evidenza con il colore rosso; le frequenze marginali, che riguardano i fenomeni considerati singolarmente, che mettiamo in evidenza con il colore blu e verde. Le frequenze marginali di riga si ottengono sommando le frequenze congiunte che stanno sulla stessa riga (blu), mentre le frequenze marginali di colonna si ottengono sommando le frequenze congiunte che stanno sulla stessa colonna (verde). 3. Le informazioni circa il comportamento di un fenomeno condizionatamente all’altro si ottengono considerando le righe o le colonne della tabella a doppia entrata separatamente, mediante la costruzione delle frequenze condizionate. La distribuzione del fenomeno “residenza” rispetto al fenomeno “sesso” ovvero la distribuzione condizionata di Y rispetto X è: Elena Siletti: [email protected] 2 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 X Y M F SI NO 1/4 3/6 3/4 3/6 4/4 6/6 Y SI 0.25 0.5 M X NO F 0.75 1 0.5 1 Mentre la distribuzione del fenomeno “sesso” rispetto al fenomeno “residenza” ovvero la distribuzione condizionata di X rispetto Y è: Y X M F SI NO 1/4 3/4 4/4 3/6 3/6 6/6 Y SI NO 0.25 0.5 F 0.75 0.5 1 1 4. Il primo passo nell’analisi statistica dell’eventuale relazione tra i due fenomeni considerati consiste nello stabilire se esiste una qualche relazione tra essi. Se non esiste alcuna relazione statistica si dice che X ed Y sono statisticamente indipendenti. X M Il metodo per stabilire se sono statisticamente indipendenti consiste nel confrontare le frequenze condizionate. Se al variare delle modalità del fenomeno condizionante la distribuzioni condizionate non variano, allora i due fenomeni sono statisticamente indipendenti. Nel nostro esercizio M 0.25 0.75 F 0.5 0.5 è diverso da quindi esiste una relazione tra i due fenomeni che non sono statisticamente indipendenti. 5. Se due fenomeni non sono statisticamente indipendenti allora esiste una qualche relazione e si dice che i fenomeni sono connessi. Il passo successivo nell’analisi bivariata consiste nello stabilire se la relazione è forte o debole, ovvero è necessario misurare il grado di connessione. Il metodo più utilizzato consiste nel considerare la differenza fra le frequenze congiunte osservate e le frequenze teoriche ovvero le frequenze che si avrebbero in condizione di indipendenza statistica. Se queste differenze sono vicine a zero si conclude che la connessione è bassa ed all’aumentare del valore di tali differenze si ha connessione sempre più alta. Elena Siletti: [email protected] 3 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 L’indice utilizzato per misurare la connessione è il Chi quadro: k h χ = ∑∑ 2 (f ij − f ij* ) 2 f ij* È a disposizione una formula alternativa che non richiede il calcolo delle frequenze teoriche e che è quindi più conveniente quando si devono fare i conti a mano: k h f 2 χ 2 = N ∑∑ ij − 1 i =1 j =1 f i . ⋅ f. j i =1 j =1 Costruendo le frequenza teoriche otteniamo: Y X M F SI NO 4⋅4 = 1.6 10 4⋅6 = 2.4 10 4 4⋅6 = 2.4 10 6⋅6 = 3.6 10 6 4 6 10 ed utilizzando la prima formula otteniamo: k h χ = ∑∑ 2 (f ij i =1 j =1 − f ij* ) 2 f ij* (1 − 1.6 )2 ( 3 − 2.4 )2 ( 3 − 2.4 )2 ( 3 − 3.6 )2 = + + + = 2.4 2.4 3.6 1.6 ( −0.6 )2 ( 0.6 )2 ( 0.6 )2 ( −0.6 )2 0.36 0.36 0.36 0.36 = + + + + + + = = 2.4 2.4 3.6 1.6 2.4 2.4 3.6 1.6 = 0.23 + 0.15 + 0.15 + 0.1 = 0.63 Mentre utilizzando la formula alternativa otteniamo: k h f ij 2 12 32 32 32 − 1 = 10 + + + − 1 = 4⋅4 4⋅6 6⋅4 6⋅6 i =1 j =1 f i . ⋅ f. j 9 9 9 1 = 10 + + + − 1 = 10 ( 0.063 + 0.375 + 0.375 + 0.25 − 1) = 10 ⋅ 0.063 = 0.63 16 24 24 36 Abbiamo ottenuto un χ 2 = 0.63 , ma cosa significa ? I fenomeni considerati sono poco o molto connessi ? Il valore assoluto dell’indice di Pearson non è interpretabile, è necessario ricorrere alla normalizzazione: χ 2 = N ∑∑ χ% 2 = χ2 N ⋅ min ( k − 1; h − 1) = 0.63 0.63 = = 0.063 10 ⋅ min (1;1) 10 Ovvero considerando che l’indice normalizzato varia da zero, assenza di connessione, ad 1, massima connessione, i fenomeni “sesso” e “residenza” considerati nell’esercizio sono scarsamente connessi. Elena Siletti: [email protected] 4 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 ESERCIZIO 2 Si hanno i dati sulla spesa totale (Y) e sulla spesa per alimentari (X) di 20 famiglie. Tali spese sono mensili e sono espresse in euro e sono riassunte nella matrice di dati seguente. ID famiglia 1 2 3 4 5 6 7 8 9 10 Y 500.00 450.00 600.00 750.00 800.00 380.00 380.00 740.00 700.00 850.00 X 410.00 300.00 200.00 640.00 610.00 180.00 250.00 500.00 550.00 700.00 ID famiglia 11 12 13 14 15 16 17 18 19 20 Y 340.00 410.00 810.00 900.00 900.00 800.00 790.00 790.00 480.00 520.00 X 280.00 320.00 680.00 760.00 510.00 380.00 690.00 430.00 340.00 390.00 1. Costruire la tabella a doppia entrata per i fenomeni X ed Y, utilizzando per X le seguenti classi: minore o uguale a 250.00, 250.00 -| 500.00, 500.00 -| 750.00, 750.00 -| 1000.00; e per Y le seguenti classi: 300.00 -| 600.00, 600.00 -| 900.00; 2. Nella tabella costruita al punto 1. si possono individuare le distribuzioni univariate dei fenomeni considerati; 3. Determinare la distribuzione di X condizionata alla classe di “spesa totale” 600.00 -| 900.00; 4. Verificare se le due variabili sono statisticamente indipendenti. Svolgimento 1. La variabile X deve essere sintetizzata in k = 4 classi e la variabile Y in h = 2 classi. X Y <= 250.00 250.00 -| 500.00 500.00 -| 750.00 750.00 -| 1000.00 300.00 -| 600.00 3 6 0 0 9 600.00 -| 900.00 0 3 7 1 11 3 9 7 1 2. le distribuzioni univariate dei fenomeni coincidono con le distribuzioni marginali delle tabelle a doppia entrata quindi nel nostro caso: X <= 250.00 3 250.00 -| 500.00 9 500.00 -| 750.00 7 750.00 -| 1000.00 1 Rappresenta la distribuzione univariata o marginale della variabile X “spesa per alimentari”; Y 300.00 -| 600.00 9 600.00 -| 900.00 11 Rappresenta la distribuzione univariata o marginale della variabile Y “spesa totale”. Elena Siletti: [email protected] 5 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 3. La distribuzione di X condizionata alla classe di “spesa totale” 600.00 -| 900.00 è rappresentata dalla seconda colonna della tabella a doppia entrata: <= 250.00 0 600.00 -| 900.00 250.00 -| 500.00 3 500.00 -| 750.00 7 750.00 -| 1000.00 1 500.00 -| 750.00 7/11 = 0.64 750.00 -| 1000.00 1/11 = 0.09 E se si considerano le frequenze relative è: <= 250.00 0 600.00 -| 900.00 250.00 -| 500.00 3/11 = 0.27 4. già osservando la tabella a doppia entrata si può capire che i due fenomeni non sono statisticamente perché sono presenti degli zeri, ma anche considerando le frequenze condizionate, che risultano tra loro differenti, si evince che le due variabili non sono statisticamente indipendenti. <= 250.00 3/9 = 0.33 0 300.00 -| 600.00 600.00 -| 900.00 250.00 -| 500.00 6/9 = 0.67 3/11 = 0.27 500.00 -| 750.00 0 7/11 = 0.64 750.00 -| 1000.00 0 1/11 = 0.09 ESERCIZIO 3 Per un gruppo di 50 studenti si hanno le distribuzioni univariate riguardo a due fenomeni: X “classe di età” (<= 20, 20-|25, >25) ed Y “sesso”. X <=20 20 Y 20 -| 25 20 >25 10 M F 20 30 1. Costruire una tabella a doppia entrata per i due fenomeni X ed Y ipotizzando una situazione di indipendenza statistica. 2. Costruire una tabella a doppia entrata per i due fenomeni X ed Y ipotizzando una situazione di massima connessione. Svolgimento 1. In caso di indipendenza statistica le frequenze congiunte coincidono con le frequenze teoriche ovvero con le frequenze ottenute utilizzando le frequenze marginali o univariate nel seguente modo: f ij* = f i . ⋅ f. j N Elena Siletti: [email protected] 6 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 Ottenendo: Y M X <= 20 20 -| 25 > 25 20 ⋅ 20 50 20 ⋅ 20 50 20 ⋅ 10 50 = = = F 400 50 400 50 200 50 20 ⋅ 30 =8 50 20 ⋅ 30 =8 50 30 ⋅ 10 =4 50 20 = = 600 50 600 = 50 300 = 12 20 = 12 20 =6 10 50 30 50 Volendo, per verifica, calcolare le frequenze condizionate si otterrebbe: X Y <= 20 20 -| 25 > 25 M F 8/20 = 0.4 8/20 = 0.4 4/10 = 0.4 20/50 = 0.4 12/20 = 0.6 12/20 = 0.6 6/10 = 0.6 30/50 = 0.6 1 1 1 1 Indipendentemente dall’età i maschi e le femmine si distribuiscono tra i 50 studenti nella percentuale, rispettivamente, del 40 % e del 60 %. 2. Ci troviamo nel caso in cui h ≠ k, k > h: nell’ipotesi di massima connessione, fissata una modalità della variabile X, a questa corrisponde una ed una sola modalità della variabile Y. Ad esempio si ottiene: X Y <= 20 20 -| 25 > 25 M F 0 20 0 20 20 0 10 30 20 20 10 50 oppure: X Y <= 20 20 -| 25 > 25 M F 20 0 0 20 0 20 10 30 20 20 10 50 Elena Siletti: [email protected] 7 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 ESERCIZIO 4 Nella tabella sono riportati i dati inerenti il “numero di anni di attività” (Y) ed il “sesso” (S) di 48 agenti di commercio dell’azienda KK. Y 1 5 10 M 8 12 6 26 F 6 14 10 22 6 12 22 48 S 1. 2. 3. 4. Calcolare media aritmetica e varianza del fenomeno Y. Fornire un’adeguata rappresentazione grafica del fenomeno S. Calcolare ed interpretare le contingenze. 2 Calcolare χ NOR e darne un’adeguata interpretazione. Svolgimento 1. Y è una variabile quantitativa discreta. La media aritmetica è: 1 N y= h ∑y j =1 j ⋅ f. j = 1 14 + 110 + 120 244 = = 5.08 [1 ⋅ 14 + 5 ⋅ 22 + 10 ⋅ 12] = 48 48 48 ovvero circa 5 anni e 1 mese. La varianza è: σ2 = = 1 N h ∑( y j =1 − y ) ⋅ f⋅ j = 2 j 1 2 2 2 (1 − 5.08) ⋅ 14 + ( 5 − 5.08) ⋅ 22 + (10 − 5.08) ⋅ 12 = 48 1 233.1 + 0.132 + 290.52 523.75 = = 10.9 [16.65 ⋅ 14 + 0.006 ⋅ 22 + 24.21 ⋅ 12] = 48 48 48 o utilizzando la formula operativa: σ2 = = 1 N h ∑y j =1 2 j ⋅ f⋅ j − y 2 = 1 2 2 2 2 1) ⋅ 14 + ( 5) ⋅ 22 + (10 ) ⋅ 12 − ( 5.08 ) = ( 48 1 14 + 550 + 1200 1764 − 25.81 = − 25.81 = 10.9 [1 ⋅ 14 + 25 ⋅ 22 + 100 ⋅ 12] − 25.81 = 48 48 48 2. S è una mutabile sconnessa o variabile categoriale, quindi una rappresentazione grafica adeguata è il grafico a “barre” o a “rettangoli”. Elena Siletti: [email protected] 8 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 Sesso Sesso 27 56% 26 54% 54% 26 52% 25 50% 24 48% 23 22 46% 46% 22 44% 21 42% 20 40% M F M F 3. Le differenze tra le frequenze osservate e quelle teoriche sono dette contingenze e sono date dalle quantità: Cij = f ij − f ij* . In condizioni di indipendenza le contingenze sono nulle. f ⋅f Calcolare le frequenze teoriche date da: f ij* = i⋅ ⋅ j N Y 1 5 10 M 7.58 11.92 6.50 26 F 6.42 14 10.08 22 5.50 12 22 48 S E successivamente calcolare le contingenze: Y 1 5 10 M 0.42 0.08 -0.50 F -0.42 -0.08 0.50 S Non essendo nulle si può dire che i fenomeni S ed Y non sono statisticamente indipendenti. h k 4. Il Chi quadrato di Pearson è dato da: χ 2 = ∑∑ i =1 j =1 Cij2 f ij* 2 3 = ∑∑ i =1 j =1 Cij2 f ij* 0.422 ( −0.42 )2 0.082 ( −0.08 )2 ( −0.50 )2 0.502 + + + + + χ = = 6.42 11.92 10.08 6.50 5.50 7.58 = [ 0.0233 + 0.0275 + 0.0005 + 0.0006 + 0.0385 + 0.0455] = 0.1359 2 Per normalizzare tale indice è necessario dividerlo per il suo massimo, ovvero per: N ⋅ min ( k − 1) ; ( h − 1) = N ⋅ min [1;2] = 48 2 χ NOR = χ2 48 = 0.1359 = 0.0028 48 2 ≤ 1 : l’indice vale 0 in presenza di indipendenza fra i 2 caratteri e In generale 0 ≤ χ NOR vale 1 quando c’è massima dipendenza; quindi in questo caso i due fenomeni sono praticamente indipendenti. Elena Siletti: [email protected] 9