UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012 Esame del 19-12-2011 STATISTICA ESERCIZIO 1 Un’indagine sociologica sui comportamenti familiari in un piccolo comune di 100 famiglie ha rilevato il reddito mensile ed il numero di figli minori. In tab. A sono riportati i dati rilevati. Reddito mensile (X) Numero figli (Y) Tab A 0 500 -| 1000 0 1000 -| 2000 20 2000 -| 4000 25 1 1 5 5 2 10 15 4 3 12 3 0 a) Rappresentare graficamente il reddito mensile rilevato sull’intero collettivo; inoltre, valutare e confrontare la variabilità del numero di figli per i tre livelli di reddito osservati. (3 punti) b) Stabilire se nel collettivo osservato i due fenomeni sono statisticamente indipendenti. Giustificare la risposta ed in caso di risposta negativa, valutare con un opportuno indice l’intensità della relazione statistica. (2 Punti) c) Costruire e commentare il diagramma a dispersione del reddito rispetto al numero di figli, individuare il modello di regressione lineare, valutarne la bontà di adattamento e stabilire il livello di reddito prevedibile dal modello per una famiglia con 5 figli. (4 punti) Si assuma ora che i dati in Tab A siano un campione bernoulliano di ampiezza 100 di tutte le famiglie residenti nella regione. Sapendo che il reddito X è ben interpretato da una v.c. Normale: d) Si costruisca un intervallo di confidenza al 98% per la frequenza relativa di famiglie con un reddito compreso tra i 1000 -| 2000 €. Commentare il risultato ottenuto con riferimento all’intera regione. (3 Punti) e) Secondo l’ISTAT, il reddito medio delle famiglie di quella regione è 20.000 euro. Tradurre in ipotesi nulla l’affermazione dell’Istat e con i dati a disposizione verificarla con un test statistico a livello di significatività del 95%. (2 Punti) ESERCIZIO 2 – “Domande Teoriche” 1) a. Descrivere la variabile casuale Binomiale, discuterne le caratteristiche e fornirne un esempio di calcolo di probabilità di eventi di interesse (3 Punti) b. Discutere criticamente la media aritmetica quale sintesi di una variabile statistica quantitativa evidenziandone pregi e difetti (3 Punti) c. Definire lo Standard Error di uno stimatore, discuterne l’utilità ed esemplificare con il caso della Media campionaria e della Percentuale campionaria (3 Punti) d. Definire la varianza FRA gruppi e discuterne il ruolo nell’analisi della dipendenza di un fenomeno dall’altro e nella costruzione degli indici di dipendenza η ; fornire un esempio con dati a scelta in cui la varianza NEI è nulla (3 Punti) 2 2) Uno stimatore è consistente se l’errore di stima diminuisce all’aumentare dell’ampiezza campionaria a) vero; b) falso; (1 Punto) 3) Se la covarianza è nulla allora i due fenomeni sono sempre statisticamente indipendenti a) vero; b) falso; (1 Punto) 4) La deviazione standard σ di un fenomeno quantitativo X è: a) Il quadrato della varianza di X; b) una misura assoluta della variabilità di X; c) una misura relativa di variabilità X; d) La radice quadrata della devianza di X 5) Se scegliamo il livello di confidenza (1 − α ) allora α è: a) la probabilitàù del successo; b) la probabilità di sbagliare; c) La % di campioni rappresentativi d) l’errore di stima (1 Punto) (1 Punto) UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012 Esame del 19-12-2011 STATISTICA - SOLUZIONI ESERCIZIO 1 Un’indagine sociologica sui comportamenti familiari in un piccolo comune di 100 famiglie ha rilevato il reddito mensile ed il numero di figli minori. In tab. A sono riportati i dati rilevati. Numero figli (Y) Tab A Reddito mensile (X) 0 500 -| 1000 0 1000 -| 2000 20 2000 -| 4000 25 1 1 5 5 2 10 15 4 3 12 3 0 a) Rappresentare graficamente il reddito mensile rilevato sull’intero collettivo; inoltre, valutare e confrontare la variabilità del numero di figli per i tre livelli di reddito osservati. (3 punti) Il reddito mensile (X) è un fenomeno quantitativo continuo quindi il grafico più opportuno è l’istogramma, per il quale è necessario calcolare le densità di frequenza. Per rappresentarlo in riferimento all’intero collettivo è necessario utilizzare le frequenze marginali di colonna. Reddito mensile (X) Frequenze Marginali 500 -| 1000 23 1000 -| 2000 43 2000 -| 4000 34 Ampiezza delle Classi 500 1000 2000 Densità di Frequenza 0.046 0.043 0.017 Il numero di figli è un fenomeno di tipo quantitativo discreto, per poterne valutare la variabilità è necessario calcolare la varianza, ma per poterla confrontare è necessario utilizzare il Coefficiente di Variazione (CV). Confrontando rispetto al livello di reddito si dovrà di volta in volta utilizzare le rispettive frequenze condizionate, in corrispondenza dei tre livelli di reddito. Numero figli (Y) Reddito mensile (X) 0 500 -| 1000 0 1000 -| 2000 0.465 2000 -| 4000 0.735 1 0.043 0.116 0.147 2 0.435 0.349 0.118 3 0.522 0.070 0 1 1 1 2 UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012 Esame del 19-12-2011 STATISTICA - SOLUZIONI La media del numero di figli per le famiglie con un reddito basso (500 -| 1000): fi1 = 0 ⋅ 0 + 1 ⋅ 0.043 + 2 ⋅ 0.435 + 3 ⋅ 0.522 = 2.479 f .1 y |x1 = ∑ y i La varianza del numero di figli per le famiglie con un reddito basso (500 -| 1000): ( ) fi1 2 − y |x1 = 0 2 ⋅ 0 + 12 ⋅ 0.043 + 2 2 ⋅ 0.435 + 32 ⋅ 0.522 − ( 2.479 ) = 6.481 − 6.145 = 0.336 f .1 σ Y2|x = ∑ y i2 ⋅ 1 Il coefficiente di variazione del numero di figli per le famiglie con un reddito basso (500 -| 1000): CVY|x = 1 σ Y2|x 1 y |x1 = 0.336 = 0.234 2.479 La media del numero di figli per le famiglie con un reddito medio (1000 -| 2000): y |x 2 = ∑ y i fi 2 = 0 ⋅ 0.465 + 1 ⋅ 0.116 + 2 ⋅ 0.349 + 3 ⋅ 0.0.07 = 1.024 f .2 La varianza del numero di figli per le famiglie con un reddito medio (1000 -| 2000): ( ) fi 2 2 − y |x 2 = 0 2 ⋅ 0.465 + 12 ⋅ 0.116 + 2 2 ⋅ 0.349 + 32 ⋅ 0.070 − (1.024 ) = 2.142 − 1.049 = 1.093 f .2 σ Y2|x = ∑ y i2 ⋅ 2 Il coefficiente di variazione del numero di figli per le famiglie con un reddito medio (1000 -| 2000): CVY|x = 1 σ Y2|x 1 y |x1 = 1.093 = 1.021 1.024 La media del numero di figli per le famiglie con un reddito alto (2000 -| 4000): y |x 3 = ∑ y i fi3 = 0 ⋅ 0.735 + 1 ⋅ 0.147 + 2 ⋅ 0.118 + 3 ⋅ 0 = 0.383 f .3 La varianza del numero di figli per le famiglie con un reddito alto (2000 -| 4000): σ Y2|x = ∑ y i2 ⋅ 3 ( ) fi3 2 − y |x 3 = 0 2 ⋅ 0.735 + 12 ⋅ 0.147 + 2 2 ⋅ 0.118 + 32 ⋅ 0 − ( 0.383 ) = 0.619 − 0.147 = 0.472 f .3 Il coefficiente di variazione del numero di figli per le famiglie con un reddito alto (2000 -| 4000): CVY|x = 3 σ Y2|x y |x 3 3 = 0.472 = 1.798 0.382 Confrontando i coefficienti di variazione si può concludere che il numero di figli è più variabile nelle famiglie con un reddito alto (2000 -| 4000). b) Stabilire se nel collettivo osservato i due fenomeni sono statisticamente indipendenti. Giustificare la risposta ed in caso di risposta negativa, valutare con un opportuno indice l’intensità della relazione statistica. (2 Punti) Utilizzando le frequenze condizionate calcolate al punto precedente, ed osservando che al cambiare del reddito, cambia la distribuzione del numero di figli, si può concludere che i due fenomeni non sono statisticamente indipendenti, ma connessi. Per valutare la connessione, ovvero la relazione tra i due fenomeni, è necessario calcolare l’indice chi quadro di Pearson, per semplificare i calcoli è preferibile utilizzare la formula operativa come segue: 3 UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012 Esame del 19-12-2011 STATISTICA - SOLUZIONI χ 2 = N ∑∑ i j è quindi necessario normalizzarlo: 02 20 2 02 − 1 = 100 + + ... + − 1 = 51.68 15 ⋅ 34 f i . ⋅ f. j 45 ⋅ 23 45 ⋅ 43 2 χ norm f ij2 χ2 51.68 = 2 = = 0.26 200 χ max potendo così concludere che la connessione tra i due fenomeni è di circa il 26%. c) Costruire e commentare il diagramma a dispersione del reddito rispetto al numero di figli, individuare il modello di regressione lineare, valutarne la bontà di adattamento e stabilire il livello di reddito prevedibile dal modello per una famiglia con 5 figli. (4 punti) Essendo i dati dei due fenomeni organizzati in una tabella di frequenza doppia, il diagramma a dispersione, può essere fornito utilizzando il grafico delle medie condizionate o il grafico a bolle come riportato di seguito 4000 3500 3000 2500 2000 1500 1000 500 0 -1 0 1 2 3 4 Per individuare il modello di regressione lineare richiesto X = a + bY , è necessario ricavarne i coefficienti, ovvero, il cov ( X ; Y ) coefficiente angolare: bˆ = e l’intercetta â = x − b ⋅ y . È, quindi, necessario calcolare la media del reddito 2 σY medio (X), la media del numero di figli (Y), la varianza del numero di figli (Y) e la covarianza. Media del reddito medio (X), per il quale, essendo raggruppato in classi, è necessario utilizzare i valori centrali di classe, e le frequenze marginali di colonna: x= 1 N c ∑ x j ⋅ f. j = j =1 750 ⋅ 23 + 1500 ⋅ 43 + 3000 ⋅ 34 = 1837.50 100 Media del numero di figli (Y), per il quale è necessario utilizzare le frequenze marginali di riga: y= 1 N r ∑ yi ⋅ f i . = i =1 0 ⋅ 45 + 1 ⋅ 11 + 2 ⋅ 29 + 3 ⋅ 15 = 1.14 100 4 UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012 Esame del 19-12-2011 STATISTICA - SOLUZIONI Varianza del numero di figli (Y): σ 2y = 1 N r ∑ i =1 y i2 ⋅ f i . − y 2 = 0 2 ⋅ 45 + 12 ⋅ 11 + 2 2 ⋅ 29 + 32 ⋅ 15 − 1.14 2 = 2.62 − 1.30 = 1.32 100 Covarianza: σ XY = r 1 N c ∑∑ i =1 j =1 x j ⋅ yi ⋅ f i . − x ⋅ y = 750 ⋅ 0 ⋅ 0 + 750 ⋅ 1 ⋅ 1 + ... + 3000 ⋅ 3 ⋅ 0 − (1837.50 ⋅ 1.14 ) = −617.25 100 cov ( X ; Y ) −617.25 bˆ = = = −467.61 1.32 σ Y2 aˆ = x − b ⋅ y = 1837.50 − 467.61 ⋅ 1.14 = 1304.42 Cov ( X ; Y ) , ovvero è necessario calcolare la varianza σ 2 ⋅σ 2 X Y Per valutare la bontà di adattamento è necessario ricavare R = 2 del reddito medio (X): σ x2 = 1 N c ∑ x 2j ⋅ f . j − x 2 = j =1 750 2 ⋅ 23 + 1500 2 ⋅ 43 + 3000 2 ⋅ 34 − 1837.50 2 = 4156875 − 3376406.25 = 780468.75 100 2 2 −617.25 −617.25 R = = 0.37 = 780468.75 ⋅ 1.32 1015 2 Considerando che tale indice varia tra 0 ed 1, si può affermare che la bontà di adattamento è del 37%. Il livello di reddito prevedibile dal modello per una famiglia con 5 figli è pari a: x = 1304.42 − 467.61 ⋅ 5 = −1033.63 , ovvero avrebbero un reddito negativa, ma tale previsione, è poco significativa, essendo il numero di 5 figli esterno al supporto utilizzato. Si assuma ora che i dati in Tab A siano un campione bernoulliano di ampiezza 100 di tutte le famiglie residenti nella regione. Sapendo che il reddito X è ben interpretato da una v.c. Normale: d) Si costruisca un intervallo di confidenza al 98% per la frequenza relativa di famiglie con un reddito compreso tra i 1000 -| 2000 €. Commentare il risultato ottenuto con riferimento all’intera regione. (3 Punti) Dato che n è grande, ’intervallo di confidenza per la frequenza relativa è dato dalla seguente formula: pˆ ± z α pˆ (1 − pˆ ) 2 n È quindi necessario ricavare la stima della frequenza relativa e lo z-score. Stima delle frequenza relativa: pˆ = numero di famiglie con un reddito da 1000 -| 2000 43 = = 0.43 numero totale di famiglie 100 ( 1 − α = 0.98 , α = 0.02 , α 2 = 0.01 , cercando sulle tavole lo z-score per cui P Z ≤ z α 2 ) = 0.99 , si ottiene z α 2 = 2.33 L’intervallo quindi si calcola come: pˆ ± z α pˆ (1 − pˆ ) 2 n = 0.43 ± 2.33 0.43 ⋅ 0.57 = 0.43 ± 2.33 ⋅ 0.05 = [ 0.3135; 0.5465] = [ 31.35%; 54.65%] 100 Si confida che l’intervallo individuato è uno dei 98 su cento che contiene l’ignota percentuale. 5 UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a. 2011– 2012 Esame del 19-12-2011 STATISTICA - SOLUZIONI e) Secondo l’ISTAT, il reddito medio delle famiglie di quella regione è 20.000 euro. Tradurre in ipotesi nulla l’affermazione dell’Istat e con i dati a disposizione verificarla con un test statistico a livello di significatività del 95%. (2 Punti) Il reddito medio annuo è per l’ISTAT di 20000 € annui ovvero 20000:12=1666.67 € al mese. n = 100 si può considerare grande, mentre la varianza è ignota e va quindi stimata: s2 = n 100 σ X2 = 780468.75 = 788351.52 n −1 99 L’ipotesi nulla da verificare è x = 1666, 67 , ovvero si tratta di un test a due code, ad un livello di significatività 1 − α = 0.95 , α = 0.05 , α 2 = 0.025 , ovvero dalle tavole è possibile ricavare lo z-score per il quale ( P Z ≤ zα 2 ) = 0.975 , zα 2 = 1.96 , che rappresenta il valore critico del test. Il valore empirico è ricavabile come: z = x − µ0 s2 n = 1837.5 − 1666.67 170.83 = = 1.92 88.79 788351.52 100 Siccome 1.92<1.96, accettiamo l’ipotesi nulla. ESERCIZIO 2 – “Domande Teoriche” 1) a. Descrivere la variabile casuale Binomiale, discuterne le caratteristiche e fornirne un esempio di calcolo di probabilità di eventi di interesse (3 Punti) libro di testo pag. 305 b. Discutere criticamente la media aritmetica quale sintesi di una variabile statistica quantitativa evidenziandone pregi e difetti (3 Punti) libro di testo pag. 82 c. Definire lo Standard Error di uno stimatore, discuterne l’utilità ed esemplificare con il caso della Media campionaria e della Percentuale campionaria (3 Punti) libro di testo pag. 350 d. Definire la varianza FRA gruppi e discuterne il ruolo nell’analisi della dipendenza di un fenomeno dall’altro e nella costruzione degli indici di dipendenza η ; fornire un esempio con dati a scelta in cui la varianza NEI è nulla (3 Punti) libro di testo pag. 208 2 2) Uno stimatore è consistente se l’errore di stima diminuisce all’aumentare dell’ampiezza campionaria a) vero; b) falso; (1 Punto) 3) Se la covarianza è nulla allora i due fenomeni sono sempre statisticamente indipendenti a) vero; b) falso; (1 Punto) 4) La deviazione standard σ di un fenomeno quantitativo X è: a) Il quadrato della varianza di X; b) una misura assoluta della variabilità di X; c) una misura relativa di variabilità X; d) La radice quadrata della devianza di X 5) Se scegliamo il livello di confidenza (1 − α ) allora α è: a) la probabilità del successo; b) la probabilità di sbagliare; c) La % di campioni rappresentativi d) l’errore di stima (1 Punto) (1 Punto) 6