Esercitazione – 05 maggio 2016 ESERCIZIO 1 Una società di servizi possiede un parco auto di diverse età. I dirigenti ritengono che il costo degli interventi di manutenzione per le auto più vecchie sia generalmente più elevato rispetto a quello per le auto più nuove. La tabella seguente riporta i dati relativi alle auto utilizzate dalla società: Età auto (anni) 1 1 2 2 3 3 3 4 4 4 4 5 Costo manutenzione (euro) 253 592 741 722 851 767 1120 1055 959 1625 1600 1379 a) Si rappresentino graficamente i dati e si calcoli il coefficiente di correlazione lineare. b) Si discuta se l’opinione dei dirigenti sia o meno avvalorata empiricamente alla luce dei risultati di cui al punto precedente. a) Avendo due variabili quantitative non ripartite in classi, il grafico migliore per rappresentare i dati è costituito dal diagramma di dispersione: Costo manutenzione (euro) 1800 1600 1400 1200 1000 800 600 400 200 0 0 1 2 3 4 5 6 Età auto (anni) Coefficiente di correlazione lineare: misura e quantifica la relazione lineare esistente fra due variabili quantitative. π π π₯π¦ 1 π₯π − π₯Μ π¦π − π¦Μ 440.364 π= ∑( )( )= = = 0.840 π−1 π π₯ π π¦ π π₯ π π¦ 1.279 × 410.021 π=1 b) Poiché esiste una relazione lineare positiva abbastanza forte fra le due variabili all’aumentare dell’età della auto aumenta il costo per gli interventi di manutenzione, l’opinione dei dirigenti è avvalorata. ***Riferimento sul libro: cfr. cap.4, Misurare l’associazione lineare: la correlazione*** 1 ESERCIZIO 2 Il consumo giornaliero di acqua potabile (metri cubi) di una famiglia italiana può essere descritto da una distribuzione normale con media 12 e varianza 9. a) Calcolare la probabilità che, estraendo un campione casuale di 100 famiglie, il consumo medio sia superiore a 12.6 metri cubi. b) Estratta a caso una famiglia, qual è la probabilità che il suo consumo giornaliero di acqua potabile sia compreso fra 8 e 10 metri cubi? a) Poiché dobbiamo calcolare la probabilità del consumo medio di 100 famiglie, calcoliamo la probabilità utilizzando lo stimatore media campionaria πΜ , il cui valor medio è pari al valor medio della popolazione, 12, e deviazione standard π √ 9 = √100 = 0.3. Si ottiene: π π₯Μ − π 12.6 − 12 π§= π = = 2.00 0.3 √π Μ Pr(π > 12.6) = Pr(π > 2.00) = Pr(π < −2.00) = 0.0228 b) In questo caso, trattandosi di una sola famiglia il suo consumo giornaliero può essere descritto da una variabile casuale X distribuita secondo una Normale con media 12 e varianza 9. π§1 = π§2 = 8−12 = −1.33 3 10−12 3 = −0.67 Pr(8 ≤ π ≤ 10) = Pr(−1.33 ≤ π ≤ −0.67) = Pr(π ≤ −0.67) − Pr(π < −1.33) = 0.2514 − 0.0918 = 0.1596 ***Riferimento sul libro: cfr. cap.10, Distribuzioni campionarie e par. seguenti *** 2 ESERCIZIO 3 Gli adulti in sovrappeso sono pari al 56% della popolazione italiana fra i 25 e i 64 anni di età. Estratto a caso un campione di 60 adulti, determinare la probabilità che la proporzione campionaria di persone in sovrappeso nel campione sia: a) maggiore di 0.6; b) minore di 0.4. a)Pr(πΜ > 0.6) =? La proporzione di adulti in sovrappeso nella popolazione italiana è approssimativamente distribuita come una Normale con media pari a π = 0.56 e varianza pari a π 2 = π(1 − π) = 0.246. Per un campione di π = 60 adulti, la proporzione campionaria πΜ per n sufficientemente grande è approssimativamente distribuita come una Normale con media pari a π = 0.56 e varianza pari a π(1−π) π2 π = = 0.004. Di conseguenza, possiamo ricavare la probabilità utilizzando la Normale standard: πΜ − π 0.6 − 0.56 π§= π = = 0.62 √0.004 √π Si ottiene: Pr(πΜ > 0.6) = Pr(π > 0.62) = Pr(π < −0.62) = 0.2676 π La probabilità che la proporzione di adulti in sovrappeso (frequenza relativa campionaria) in un campione di 60 adulti sia maggiore di 0.6 è pari a 0.2676. π) Pr(πΜ < 0.4) =? Il procedimento è analogo al precedente: πΜ − π 0.4 − 0.56 π§= π = = −2.50 √0.004 √π Si ottiene: Pr(πΜ < 0.4) = Pr(π < −2.50) = 0.0062 La probabilità che la proporzione di adulti in sovrappeso (frequenza relativa campionaria) in un campione di 60 adulti sia minore di 0.4 è pari a 0.0062. ***Riferimento sul libro: cfr. cap. 18, La distribuzione campionaria di πΜ *** 3 ESERCIZIO 4 Su un campione casuale di 220 negozi di libri di una regione italiana, la media settimanale di libri gialli venduti è risultata pari a 160 con deviazione standard campionaria 46. In una diversa regione italiana, su un campione casuale di 160 negozi la corrispondente media è risultata pari a 90 con deviazione standard campionaria 35. Sotto l’ipotesi di normalità del numero di libri gialli venduti settimanalmente da ciascun negozio, si verifichi al livello 5% l’ipotesi che non vi sia differenza significativa nelle vendite medie settimanali di libri gialli nelle le due regioni, contro l’ipotesi che il genere giallo sia più popolare nella prima regione. Test delle ipotesi sulla differenza tra valori medi di due popolazioni (i due campioni sono indipendenti, caso eteroschedastico): (test a una coda) H0: π1 = π2 vs H1: π1 > π2 πΌ = 0.05 Media campionaria di libri gialli venduti nella regione 1: π₯Μ 1 = 160 Numerosità del campione 1: π1 = 220 Deviazione standard campionaria del campione 1: π 12 = (46)2 = 2116 Media campionaria di libri gialli venduti nella regione 2: π₯Μ 2 = 90 Numerosità del campione 2: π2 = 160 Varianza campionaria del campione 2: π 22 = (35)2 = 1225 Caso eteroschedastico: si suppone che la varianza sia diversa nelle due popolazioni. Statistica-test: π₯Μ 1 − π₯Μ 2 160 − 90 π§= = = 16.84 2116 1225 π 2 π 2 √ √ 1+ 2 220 + 160 π1 π2 Metodo del livello di significatività: In questo caso, vista la numerosità del campione il valore della statistica-test si confronta con il valore critico della variabile Normale z*=1.645. Decisione statistica: poiché π§ > π§ ∗ , si rifiuta l’ipotesi nulla che la vendita di libri gialli sia la stessa nelle due regioni, a favore dell’alternativa per cui è maggiore nella prima regione. Metodo del p-value: Il p-value (o valore P) si trova confrontando il valore della statistica-test con i valori critici della distribuzione Normale. Guardando la tavola dei valori critici, troviamo che per un valore critico pari a 3.291 (ossia ben inferiore rispetto alla nostra statistica-test), il p-value è di 0.0005, ossia molto piccolo. Di conseguenza, si rifiuta l’ipotesi nulla che che la vendita di libri gialli sia la stessa nelle due regioni, a favore dell’alternativa per cui è maggiore nella prima regione. ***Riferimento sul libro: cfr. cap. 17, Confronto delle medie di due popolazioni e par. seguenti*** 4 ESERCIZIO 5 In un modello di regressione lineare che mette in relazione due grandezze biometriche di un campione 1 n ο₯ ( xi ο x )( yi ο y ) , è pari a 241, la devianza di x, n ο 1 i ο½1 di 24 soggetti, la covarianza tra x e y, n ο₯ (x i ο x ) 2 , è pari a 2506 e la varianza di y è pari 704. Calcolare il coefficiente angolare della retta i ο½1 di regressione lineare e la misura sulla bontà dell’adattamento. Retta di regressione con il metodo dei minimi quadrati: π¦Μ = π + ππ₯ π π¦ 1 ∑(π−πΜ )(π−πΜ ) Coefficiente angolare (pendenza della retta): π = π π = π−1 π π₯2 π₯ = 241 2506 23 = 2.212 Misura sulla bontà dell’adattamento (indice di determinazione lineare), o r-quadro: misura quanta parte della variabilità nei valori di y è spiegata dalla retta di regressione, e varia fra 0 e 1 (adattamento π π₯π¦ perfetto alla retta di regressione). π 2 = (π π₯ π π¦ 2 2 π π₯π¦ 2412 ) = π 2 π 2 = 2506 π₯ π¦ 23 ×704 = 0.757 Nota: l’r-quadro si misura anche a partire dalle osservazioni predette e osservate tramite la seguente ∑(π¦Μ −π¦Μ )2 formula: π 2 = ∑(π¦π −π¦Μ )2, ma in questo caso non si poteva applicare poiché mancano le informazioni π relative al campione di dati e ai valori predetti di y. ***Riferimento sul libro: cfr. cap. 5, La retta di regressione dei minimi quadrati e par. seguenti*** 5 ESERCIZIO 6 a) La distribuzione t di Student: Presenta asimmetria positiva E’ approssimabile con una normale standardizzata se il numero di gradi di libertà è elevato Ha media sempre positiva Non è sempre simmetrica οΏ X οΏ οΏ La distribuzione t di Student è definita su tutto l’asse reale ed è simmetrica, come la Normale, però ha code più pesanti (è più dispersa). Al crescere del numero dei gradi di libertà, le code si schiacciano e la forma della distribuzione diviene sempre più similare ad una Normale. ***Riferimento sul libro: cfr. cap. 16, Le distribuzioni t*** b) Se in un test a due code sulla media di una variabile X l’ipotesi nulla viene rifiutata per un livello di significatività pari al 5%, cosa accade aumentando il livello al 10%? L’ipotesi è rifiutata X L’ipotesi è accettata οΏ Dipende dalla dimensione del campione οΏ E’ necessario calcolare di nuovo la statistica test οΏ Se rifiutiamo l’ipotesi, siamo nella regione di rifiuto. Il test con livello di significatività al 10% ha una regione di rifiuto che comprende la regione dato che il valore calcolato della statistica test è sempre lo stesso, essa si troverà sempre nella regione di rifiuto. ***Riferimento sul libro: cfr. cap. 14*** 6