FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL’ORGANIZZAZIONE ESAME di STATISTICA 19/06/2012 ESERCIZIO 1 (2+2+2+2) Agli studenti di un Corso di Laurea triennale è stato chiesto di esprimere il loro giudizio sul corso di Statistica che hanno appena frequentato. I dati sono i seguenti: Giudizio per niente interessante poco interessante abbastanza interessante molto interessante N° studenti 18 54 45 33 a) Dopo aver descritto la natura del fenomeno X, calcolarne la distribuzione delle frequenze relative e rappresentarla graficamente; b) Sintetizzare X mediante due indici di posizione e commentare. Si supponga di estrarre dal gruppo considerato un campione bernoulliano di 6 studenti: c) Descrivere la variabile casuale che interpreta il numero di studenti nel campione che hanno giudicato il corso almeno “abbastanza interessante”, calcolandone media e varianza; d) Calcolare la probabilità che la variabile casuale costruita al punto c) assuma valore 2 e la probabilità che assuma valori maggiori o uguali a 5. ESERCIZIO 2 (2+3+2+3) L’ufficio Marketing di una nota catena di supermercati ha registrato le abitudini di spesa di 100 suoi clienti negli ultimi 12 mesi. La tabella seguente riporta la distribuzione congiunta delle variabili X=Genere e Y=importo medio per acquisto (in euro): X, Y Maschio Femmina 0 -| 20 16 5 20 -| 50 20 21 50 -| 200 8 30 a) Calcolare le distribuzioni condizionate di Y dato xi, interpretandole e commentandole; b) Stabilire, motivando la risposta, se sussiste indipendenza tra le due variabili; in caso negativo, misurare con un opportuno indice la connessione tra le due variabili; c) Calcolare la media marginale e le medie condizionate di Y, verificando la proprietà associativa. d) Dopo aver esposto il concetto di Correlazione, definire il coefficiente di correlazione lineare ρ e discuterne i valori. FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL’ORGANIZZAZIONE ESAME di STATISTICA 19/06/2012 ESERCIZIO 3 (3+3+2+2+2) a) Discutere comparativamente i vantaggi e gli svantaggi di una stima intervallare rispetto ad una stima puntuale. A un campione casuale di 51 adolescenti è stato chiesto quante ore trascorrano alla settimana sul web. Il tempo medio è risultato pari a 9 ore con varianza campionaria 16. Supponendo che il tempo trascorso da un adolescente sul web si distribuisca come una variabile casuale Normale N ( µ , σ 2 ) : b) Calcolare un intervallo di confidenza per µ con livello di confidenza 95%, interpretando il risultato; c) Calcolare un intervallo di confidenza per µ con livello di confidenza 95% sapendo che σ2=16, giustificando l’eventuale differenza con quanto calcolato in b); d) Calcolare la dimensione campionaria n minima che garantisce, a livello 95%, un errore non superiore a 20 minuti (si ipotizzi ancora σ2=16); e) Verificare l’ipotesi H 0 : µ < 8 ad un livello di significatività del 95%. FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL’ORGANIZZAZIONE ESAME di STATISTICA 19/06/2012 ESERCIZIO 1 a) Il fenomeno è qualitativo ordinale; in Tabella, le frequenze relative e relative cumulate. Giudizio per niente interessante poco interessante abbastanza interessante molto interessante N° studenti 18 54 45 33 pi 0.12 0.36 0.3 0.22 Фi 0.12 0.48 0.78 1 0.00 0.10 0.20 0.30 La rappresentazione grafica più adeguata è il diagramma a barre: per niente poco abbastanza molto b) Moda = “poco interessante” Mediana = “abbastanza interessante” La maggior parte degli studenti ha ritenuto il corso “poco interessante”. Il 50% degli studenti ha ritenuto il corso al più abbastanza interessante; il 50% degli studenti ha ritenuto il corso almeno “abbastanza interessante”. c) La variabile casuale Y=“numero di studenti che hanno trovato il corso almeno abbastanza interessante” è una Binomiale con parametri n=6 e p=(0.3+0.22)=0.52. La sua media è np=3.12 e la sua varianza np(1-p)≈1.50. d) La v.c. Y assume valore 2 con probabilità 6 P(Y = 2) = 0.52 2 (1 − 0.52) 4−2 = 15 ⋅ 0.52 2 ⋅ 0.48 4 = 0.215 2 e assume valori maggiori o uguali a 5 con probabilità 6 6 P(Y ≥ 5) = P(Y = 5) + P(Y = 6) = 0.52 5 (1 − 0.52) 6−5 + 0.52 6 (1 − 0.52) 6−6 5 6 = 6 ⋅ 0.52 5 ⋅ 0.481 + 0.52 6 = 0.129 ESERCIZIO 2 In tabella, sono riportate le frequenze marginali di X e Y. FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL’ORGANIZZAZIONE ESAME di STATISTICA 19/06/2012 X, Y Maschio Femmina 0 -| 20 16 5 21 20 -| 50 20 21 41 50 -| 200 8 30 38 44 56 100 a) Le distribuzioni condizionate di Y dato xi sono riportate qui sotto, assieme alle marginali relative di Y: X, Y Maschio Femmina 0 -| 20 0.364 0.089 0.21 20 -| 50 0.455 0.375 0.41 50 -| 200 0.182 0.536 0.38 Interpretazione: il 36.4% dei clienti maschi spende mediamente fino a 20 euro,…; l’8.9 dei clienti femmine spende mediamente fino a 20 euro, etc. b) Essendo le due distribuzioni di frequenze condizionate diverse tra di loro, si conclude che non c’è indipendenza tra X e Y. La connessione tra le due variabili va misurata con l’indice Chi Quadrato: 16 2 20 2 82 52 212 30 2 χ 2 = 100 + + + + + − 1 = 17.33 44 ⋅ 21 44 ⋅ 41 44 ⋅ 38 56 ⋅ 21 56 ⋅ 41 56 ⋅ 38 e normalizzato 17.33 17.33 χ~ 2 = = = 0.1733 (17% della connessione massima). 100 ⋅ min(1,2) 100 c) La media di Y, utilizzando i valori centrali delle sue classi, è data da y = 0.21 ⋅ 10 + 0.41 ⋅ 35 + 0.38 ⋅ 125 = 63.95 euro. Le due medie condizionate valgono y | M = (16 ⋅ 10 + 20 ⋅ 35 + 8 ⋅ 125) / 44 = 42.27 e y | F = (5 ⋅ 10 + 21 ⋅ 35 + 30 ⋅ 125) / 56 = 80.98 Per la proprietà associativa y = (44 ⋅ 42.27 + 56 ⋅ 80.98) / 100 = 63.95 d) Vedi appunti/libro di testo ESERCIZIO 3 a) Vedi appunti/libro di testo b) L'intervallo di confidenza, essendo 1 − α = 0.95 → α = 0.05 → α / 2 = 0.025 → (dalle tavole della T con 51 - 1 = 50 gl) tα(50/ 2) = 2.0086 ( ) è dato da ( x − tα / 2 s 2 / n , x + tα / 2 s 2 / n ) = 9 − 2.0086 16 / 51, 9 + 2.0086 16 / 51 = (7.87,10.13) c) L'intervallo di confidenza, essendo dalle tavole della Z zα / 2 = 1.96 , FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL’ORGANIZZAZIONE ESAME di STATISTICA 19/06/2012 ( ) è dato da ( x − zα / 2 σ 2 / n , x + zα / 2 σ 2 / n ) = 9 − 1.96 16 / 51, 9 + 1.96 16 / 51 = (7.90,10.10 ) . E’ più stretto del precedente, cioè è più preciso, perché adesso la varianza della popolazione σ2 è nota e non deve essere più stimata. d) La dimensione campionaria minima si calcola come z σ 1.96 ⋅ 4 n = α /2 = ≈ 554 1/ 3 err dato che 20 minuti corrispondono a 1/3 di ora. X −µ e) La statistica da usare è che per µ = µ 0 si distribuisce come una T di Student con 50 gl. S2 /n ( 50 ) Il valore critico è t 0.05 = 1.6759 : il test, che è unilaterale, rifiuta per valori di t maggiori di 1.6759 . Il valore osservato della statistica test è 9−8 t oss = = 1.79 16 / 51 e quindi il test rifiuta l’ipotesi nulla H 0 . 2 2