UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a. 2009– 2010 Esame del 30-06-2010 “Statistica” ESERCIZIO 1 – “Relazioni tra Variabili” (totale punti: 10) Ad una riunione del circolo “Amanti dell’acquario”, i 12 soci presenti discutono della presunta nocività di una sostanza chimica comunemente presente nel mangime per pesci. Per valutare la veridicità di questa notizia, vengono registrati la quantità di questa sostanza presente per razione di mangime utilizzato abitualmente, il numero di pesci morti nell’ultimo mese ed il tipo di acquario. In Tabella A sono riportati i dati relativi alle 3 variabili: “quantità di sostanza sospetta per razione di mangime” [espressa in milligrammi] (X), “numero di pesci morti nell’ultimo mese”(Y), “tipo di acquario” [T=Tropicale, N =Non tropicale] (Q). Tab.A ID 1 2 3 4 5 6 7 8 9 10 11 12 X 4 9 9 7 5 5 6 8 7 4 8 5 Y 1 6 5 3 3 2 4 5 4 2 3 2 Q T N T N T T T N N T N T a) Organizzare in una tabella a doppia entrata le variabili statistiche X e Y; per X raggruppare i valori osservati nelle classi: (4|-6), (6|-8), (8|-10) e per Y raggruppare i valori osservati nelle classi: (1|-3), (3|-5), (5|-7) ( 1.5 punti). b) Fornire la distribuzione condizionata del numero di pesci morti nell’ultimo mese (Y) date le tre classi relative al peso della sostanza chimica presente nel mangime (X), confrontarle con la distribuzione marginale e stabilire se i due fenomeni sono statisticamente indipendenti (1.5 punti) c) In caso di risposta negativa al punto precedente, valutare con un opportuno indice la dipendenza in media del “numero di pesci morti” dal “peso della sostanza chimica per razione”, commentando i risultati ottenuti. (2 punti). d) Utilizzando i dati classificati nella tabella a doppia entrata, costruire il diagramma a dispersione, disegnare la spezzata di regressione e commentare la natura matematica della relazione fra X e Y. Utilizzando sempre i dati classificati determinare quindi la retta di regressione dei minimi quadrati che interpreta la dipendenza del numero di pesci morti dal peso della sostanza chimica. Disegnare la retta sul diagramma e interpretare il valore ottenuto per i parametri. (3 punti) e) Valutare la bontà di adattamento del modello costruito al punto d). Su tale base, prevedere il “numero di pesci morti” al mese nel caso in cui venga utilizzato un mangime avente 10 milligrammi di sostanza chimica sospetta.(2 punti) ESERCIZIO 2 – “Analisi Multivariata” (totale punti: 10) a) Si vuole estendere l’analisi precedente all’insieme di tutti i possessori di acquari d’Italia; i dati in Tabella A si assumono come un campione bernoulliano di ampiezza 12 da tale popolazione. Dai dati forniti dai produttori di mangimi per pesci risulta che il peso per razione della sostanza chimica sospetta (X) si distribuisce nella popolazione come una Normale di media ignota e varianza nota pari a 2.89, utilizzando i dati in Tab. A: 1. Stimare il valore µ della media di X 2. In base al risultato ottenuto al punto precedente, calcolare la probabilità che, presa a caso una razione di mangime, il peso della sostanza sospetta ivi presente sia maggiore di 7milligrammi. (2 Punti) Un più ampio campione bernoulliano di numerosità 250 è stato estratto dalla stessa popolazione ed ha fornito i dati relativi alle variabili Y e Q sintetizzati nella Tabella B: Tab. B Y:"Numero di pesci morti" Q:"Tipo di acquario" (1|-3) (3|-5) (5|-7) fi. T 43 46 41 130 N 41 45 34 120 84 91 75 250 f.j b) Utilizzare i dati campionari in Tab.B per verificare con un opportuno test e con α= 0.01 se nella popolazione di interesse esiste una significativa relazione statistica tra numero di pesci morti e tipo di acquario. (3 Punti) c) Stimare l’ignota proporzione di acquari di tipo tropicale nella popolazione di interesse e costruire un intervallo di confidenza a livello 99%. Interpretare e commentare il risultato. (2.5 Punti) d) Testare al livello di significatività del 95% l’ipotesi che l’ignota proporzione di acquari tropicali presenti in Italia sia pari a 0.50. (2.5 Punti) e) 1. 2. ESERCIZIO 3 – “Domande Teoriche” (totale punti: 10) Fornire un esempio con dati a scelta di tabella a doppia entrata in cui esista perfetta correlazione. Discutere in questo caso i 2 2 2 valori degli indici ρ XY , η X , η Y e χ (5 punti). Dare le definizioni di: ipotesi statistica, ipotesi nulla, statistica test, livello di significatività, valore critico e valore sperimentale e discuterne l’utilizzo nella conduzione di un test statistico. (5 punti) UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a. 2009– 2010 Esame del 30-06-2010 “Statistica”- Soluzioni ESERCIZIO 1 – “Relazioni tra Variabili” a) Organizzare in una tabella a doppia entrata le variabili statistiche X e Y; per X raggruppare i valori osservati nelle classi: (4|-6), (6|-8), (8|-10) e per Y raggruppare i valori osservati nelle classi: (1|-3), (3|-5), (5|-7) ( 1,5 punti). Y:"Numero di pesci morti" (1|-3) X:"Peso per razione della sostanza chimica sospetta" b) (3|-5) (5|-7) fi. (4|-6) 4 1 0 5 (6|-8) 0 3 0 3 (8|-10) 0 1 3 4 f.j 4 5 3 12 Fornire la distribuzione condizionata del numero di pesci morti nell’ultimo mese (Y) date le tre classi relative al peso della sostanza chimica presente nel mangime (X), confrontarle con la distribuzione marginale e stabilire se i due fenomeni sono statisticamente indipendenti (1.5 punti) Y:"Numero di pesci morti" (1|-3) (3|-5) (5|-7) f1j fi 4 1 0 5 0.8 0.2 0 1 0 3 0 3 0 1 0 1 0 1 3 4 0 0.25 0.75 1 4 5 3 12 0.33 0.42 0.25 1 (4|-6) f2j (6|-8) X:"Peso per razione della sostanza chimica sospetta" f3j (8|-10) f.j TOT Si osserva una notevole differenza fra le frequenze delle v.s. condizionate Y|X rispetto alle frequenze marginali di Y. Il comportamento di Y condizionato alle diverse modalità di X è differente rispetto al comportamento marginale (indipendentemente da X). Da ciò possiamo concludere che esiste una relazione statistica fra i due fenomeni nel collettivo di acquari osservati, in particolare X condiziona Y. c) In caso di risposta negativa al punto precedente, valutare con un opportuno indice la dipendenza in media del “numero di pesci morti” dal “peso della sostanza chimica per razione”, commentando i risultati ottenuti. (2 punti). Considerando i valori centrali delle classi , otteniamo rispettivamente la media marginale 2 e quelle condizionate : Le tre medie condizionate risultano diverse tra loro e diverse dalla media del fenomeno sull’intera popolazione Il fenomeno X condiziona il fenomeno Y, Quindi Y dipende da X. Il grado di dipendenza viene calcolato tramite l’indice eta quadro: Il peso medio di sostanza sospetta per razione di mangime spiega il 77% della variabilità del numero di pesci morti. d) Utilizzando i dati classificati nella tabella a doppia entrata, costruire il diagramma a dispersione, disegnare la spezzata di regressione e commentare la natura matematica della relazione fra X e Y. Utilizzando sempre i dati classificati determinare quindi la retta di regressione dei minimi quadrati che interpreta la dipendenza del numero di pesci morti dal peso della sostanza chimica. Disegnare la retta sul diagramma e interpretare il valore ottenuto per i parametri. (3 punti) La spezzata di regressione si disegna considerando per Y i valori delle medie condizionate calcolate al punto precedente e per X i valori centrali degli intervalli relativi alle diverse classi: x1 = 4+6 =5 2 x2 = 6+8 =7 2 3 x3 = 8 + 10 =9 2 La retta di regressione passante per tali punti (le medie condizionate di Y) è la seguente I punti presentano una chiara struttura crescente che suggerisce una correlazione positiva tra X ed Y. Determinando la retta dei minimi quadrati ŷ = a + bx si ottiene: x= 1 3 * 5⋅5 + 7⋅3+ 9⋅4 xi f i• = = 6.83 ∑ 12 i =1 12 σ x2 = y = 3.83 (dall’esercizio precedente) 1 3 (xi − x )2 ⋅ f i• = (5 − 6.83) ⋅ 5 + (7 − 6.83) ⋅ 3 + (9 − 6.83) ⋅ 4 = 35.67 = 2.97 ∑ 12 i =1 12 12 2 2 2 σ Y2 = 2.31 (dall’esercizio precedente) µ xy = 1 3 3 5 ⋅ 2 ⋅ 4 + 5 ⋅ 4 ⋅1 + ... + 9 ⋅ 6 ⋅ 3 342 xi y j f ij = = = 28.5 ∑∑ 12 j =1 i=1 12 12 σ xy = µ xy − x ⋅ y = 28.5 − 6.83 ⋅ 3.83 = 2.34 b= σ xy 2.34 = = 0.79 σ x2 2.97 Incremento del numero di pesci morti per un aumento unitario in milligrammi del peso medio della sostanza sospetta per razione di mangime. Ogni a = y − bx = 3.83 − 0.79 ⋅ 6.83 = −1.57 Numero medio di pesci morti con una presenza di zero grammi di sostanza sospetta. La retta che si ottiene è la seguente : y = −1.57 + 0.79 x Dal grafico emerge che la spezzata di regressione ottenuta posizionando nel grafico le medie condizionate è ben approssimata dalla retta. e) Valutare la bontà di adattamento del modello costruito al punto d). Su tale base, prevedere il “numero di pesci morti” al mese nel caso in cui venga utilizzato un mangime avente 10 milligrammi di sostanza chimica sospetta.(2 punti) Valutando la bontà di adattamento ai dati della retta si ottiene: ρ xy = σ xy σ σ 2 x 2 y = 2.34 2.34 2.34 = = = 0.89 2.97 ⋅ 2.31 6.86 2.62 ρ xy2 = (0.89 )2 = 0.79 Yˆ (10) = −1.57 + 0.79 ⋅ 10 = 6.33 4 Tramite la retta dei m.q. si prevede che il numero di morti è di 6.33 per un acquario in cui viene utilizzato un mangime con una presenza media per razione di 10 milligrammi di sostanza sospetta. La previsione, a parità di trend, è affidabile al 79% (circa il 21% della variabilità totale di Y non è spiegata dalla retta). ESERCIZIO 2 – “Analisi Multivariata” (totale punti: 10) a) Si vuole estendere l’analisi precedente all’insieme di tutti i possessori di acquari d’Italia; i dati in Tabella A si assumono come un campione bernoulliano di ampiezza 12 da tale popolazione. Dai dati forniti dai produttori di mangimi per pesci risulta che il peso per razione della componente chimica sospetta (X) si distribuisce nella popolazione come una Normale di media ignota e varianza nota pari a 2.89, utilizzando i dati in Tabella A:. 1. Stimare il valore µ della media di X 2. In base al risultato ottenuto al punto precedente, calcolare la probabilità che, presa a caso una razione di mangime, il peso della sostanza pericolosa ivi presente sia maggiore di 7 milligrammi. (2 Punti) 1. Stimatore non distorto ed efficiente per la media della popolazione è la media campionaria. Stimiamo dai dati campionari la media campionaria : x= 1 n 1 12 4 + 9 + ... + 5 x = xi = =6.42 ∑ ∑ i n i=1 12 i =1 12 2. La probabilità che, presa a caso una razione di mangime, il peso della sostanza pericolosa ivi presente sia maggiore di 7 milligrammi è data da: 0.58 Y − µ 7 − 6.42 P ( X ≥ 7 ) = P ≥ = P Z ≥ = P (Z ≥ 0.34 ) = 1 − P(Z ≤ 0.34 ) = 1 − 0.63 = 0.37 1 .7 2.89 σ b) Utilizzare i dati campionari in Tab.B per verificare con un opportuno test e con α= 0.01 se nella popolazione di interesse esiste una significativa relazione statistica tra numero di pesci morti e tipo di acquario. (3 Punti) I dati forniti in tabella B sono i seguenti: Y:"Numero di pesci morti" Q:"Tipo di acquario" (1|-3) (3|-5) (5|-7) fi. T 43 46 41 130 N 41 45 34 120 f.j 84 91 75 250 La tabella delle frequenze teoriche di indipendenza statistica f *ij = f i• ⋅ f • j N è: Y:"Numero di pesci morti" Q:"Tipo di acquario" (1|-3) (3|-5) (5|-7) fi. T 43.68 47.32 39 130 N 40.32 43.68 36 120 f.j 84 91 75 250 Si vuole verificare l’ipotesi secondo cui Y e Q sono statisticamente indipendenti, H0 : χ 2 = 0 . Essendo n=250 sufficientemente elevato per utilizzare la statistica test χ con un test ad una coda, con la regione critica sotto la coda destra e con α= 0.01. 2 Valore critico: dalle tavole , dati gradi di libertà si ottiene χ 2, 0.01 = 9.21 2 Valore sperimentale: 5 gradi di libertà. Eseguiamo 3 3 χ = ∑∑ 2 (f − f ij *) 2 ij f ij * i =1 j =1 Ricordando che si rifiuta l’ipotesi nulla H0: = (43 − 43.68)2 + (46 − 47.32)2 + ... + (34 − 36)2 43.68 χ2 = 0 47.32 36 = 0.31 con probabilità di sbagliare dell’1% se il valore sperimentale cade nella zona critica o di rifiuto, ovvero se il valore sperimentale ≥ valore critico ossia se χ 2 > χ 22, 0.01 , poiché 0.31<9.21, non è possibile rifiutare l’ipotesi di indipendenza fra numero di pesci morti e tipologia di acquario nella popolazione di interesse a livello di significatività del 99%. c) Stimare l’ignota proporzione di acquari di tipo tropicale nella popolazione di interesse e costruire un intervallo di confidenza a livello 99%. Interpretare e commentare il risultato. (2.5 Punti) n Il campione fornisce la seguente stima per p: pˆ = ∑q i =1 i n = 130 = 0.52 250 Data l’elevata numerosità del campione è possibile, grazie al Teorema Centrale Limite, approssimare la distribuzione ad una Normale di media p = pˆ e varianza σ P2 = pˆ (1 − pˆ ) σ P2 σ P2 , pˆ + zα 2 pˆ − zα 2 n n E’ possibile quindi impiegare la statistica Z per costruire l’intervallo di confidenza: Con livello di confidenza al 99%, si ha 1-α=0.99, α=0.01 z (1−α )+α 2 = z0.995 = 2.58 α/2=0.005 p = pˆ = 0.52 σ = pˆ (1 − pˆ ) = 0.52 ⋅ 0.48 = 0.25 Ma quindi l’intervallo di confidenza cercato è il seguente: 0.25 0.25 ,0.52 + 2.58 0.52 − 2.58 = [0.44, 0.60] 250 250 2 P Possiamo confidare che l’intervallo [0.44; 0.60] sia uno dei 99 su 100 che contengono la reale proporzione di acquari tropicali nella popolazione di interesse. d) Testare al livello di significatività del 95% l’ipotesi che l’ignota proporzione di acquari tropicali nella popolazione di interesse sia pari a 0.50. (2.5 Punti) Per la verifica dell’ipotesi bilaterale H 0 : pˆ = 0.50 , essendo n sufficientemente grande, possiamo impiegare il test Z per grandi campioni a due code. n Il campione fornisce la seguente stima per p: pˆ = ∑q i =1 i n 1−α = 0.95 Valore critico dalle tavole : z 1− α Il test rifiuta α=0.05 α/2=0.025 2 pˆ − p0 = p0 (1 − p0 ) n 0.52 − 0.50 0.02 = = 0.0063 0.50(1 − 0.50) 3.16 250 H 0 : pˆ = 0.50 con probabilità di sbagliare del 5% se il valore sperimentale cade nella zona di rifiuto, ovvero se: z= Essendo 130 = 0.52 250 = z 0.975 = 1.96 z= Valore sperimentale : = pˆ − p0 ≥ 1.96 p0 (1 − p0 ) n oppure se z= pˆ − p0 ≤ −1.96 p0 (1 − p0 ) n − 1.96 < 0.0063 < 1.96 il valore cade nella zona di non rifiuto e l’ipotesi H 0 : pˆ = 0.50 al livello di significatività del 95% non può essere rifiutata. 6 7