soluzione esercitazione 5 maggio

Esercitazione – 05 maggio 2016
ESERCIZIO 1
Una società di servizi possiede un parco auto di diverse età. I dirigenti ritengono che il costo degli
interventi di manutenzione per le auto più vecchie sia generalmente più elevato rispetto a quello per
le auto più nuove. La tabella seguente riporta i dati relativi alle auto utilizzate dalla società:
Età auto (anni)
1
1
2
2
3
3
3
4
4
4
4
5
Costo manutenzione (euro) 253 592 741 722 851 767 1120 1055 959 1625 1600 1379
a) Si rappresentino graficamente i dati e si calcoli il coefficiente di correlazione lineare.
b) Si discuta se l’opinione dei dirigenti sia o meno avvalorata empiricamente alla luce dei risultati di
cui al punto precedente.
a) Avendo due variabili quantitative non ripartite in classi, il grafico migliore per rappresentare
i dati è costituito dal diagramma di dispersione:
Costo manutenzione (euro)
1800
1600
1400
1200
1000
800
600
400
200
0
0
1
2
3
4
5
6
Età auto (anni)
Coefficiente di correlazione lineare: misura e quantifica la relazione lineare esistente fra due
variabili quantitative.
𝑛
𝑠𝑥𝑦
1
𝑥𝑖 − 𝑥̅ 𝑦𝑖 − 𝑦̅
440.364
𝑟=
∑(
)(
)=
=
= 0.840
𝑛−1
𝑠𝑥
𝑠𝑦
𝑠𝑥 𝑠𝑦 1.279 × 410.021
𝑖=1
b) Poiché esiste una relazione lineare positiva abbastanza forte fra le due variabili all’aumentare dell’età della auto aumenta il costo per gli interventi di manutenzione,
l’opinione dei dirigenti è avvalorata.
***Riferimento sul libro: cfr. cap.4, Misurare l’associazione lineare: la correlazione***
1
ESERCIZIO 2
Il consumo giornaliero di acqua potabile (metri cubi) di una famiglia italiana può essere descritto da
una distribuzione normale con media 12 e varianza 9.
a) Calcolare la probabilità che, estraendo un campione casuale di 100 famiglie, il consumo medio
sia superiore a 12.6 metri cubi.
b) Estratta a caso una famiglia, qual è la probabilità che il suo consumo giornaliero di acqua
potabile sia compreso fra 8 e 10 metri cubi?
a) Poiché dobbiamo calcolare la probabilità del consumo medio di 100 famiglie, calcoliamo la
probabilità utilizzando lo stimatore media campionaria 𝑋̅, il cui valor medio è pari al valor
medio della popolazione, 12, e deviazione standard
𝜎
√
9
= √100 = 0.3. Si ottiene:
𝑛
𝑥̅ − 𝜇 12.6 − 12
𝑧= 𝜎 =
= 2.00
0.3
√𝑛
̅
Pr(𝑋 > 12.6) = Pr(𝑍 > 2.00) = Pr(𝑍 < −2.00) = 0.0228
b) In questo caso, trattandosi di una sola famiglia il suo consumo giornaliero può essere
descritto da una variabile casuale X distribuita secondo una Normale con media 12 e
varianza 9.
𝑧1 =
𝑧2 =
8−12
= −1.33
3
10−12
3
= −0.67
Pr(8 ≤ 𝑋 ≤ 10)
= Pr(−1.33 ≤ 𝑍 ≤ −0.67)
= Pr(𝑍 ≤ −0.67) − Pr(𝑍 < −1.33) = 0.2514 − 0.0918 = 0.1596
***Riferimento sul libro: cfr. cap.10, Distribuzioni campionarie e par. seguenti ***
2
ESERCIZIO 3
Gli adulti in sovrappeso sono pari al 56% della popolazione italiana fra i 25 e i 64 anni di età. Estratto
a caso un campione di 60 adulti, determinare la probabilità che la proporzione campionaria di persone
in sovrappeso nel campione sia:
a) maggiore di 0.6;
b) minore di 0.4.
a)Pr(𝑝̂ > 0.6) =?
La proporzione di adulti in sovrappeso nella popolazione italiana è approssimativamente distribuita
come una Normale con media pari a 𝑝 = 0.56 e varianza pari a 𝜎 2 = 𝑝(1 − 𝑝) = 0.246. Per un
campione di 𝑛 = 60 adulti, la proporzione campionaria 𝑝̂ per n sufficientemente grande è
approssimativamente distribuita come una Normale con media pari a 𝑝 = 0.56 e varianza pari a
𝑝(1−𝑝)
𝜎2
𝑛
=
= 0.004.
Di conseguenza, possiamo ricavare la probabilità utilizzando la Normale standard:
𝑝̂ − 𝑝 0.6 − 0.56
𝑧= 𝜎 =
= 0.62
√0.004
√𝑛
Si ottiene:
Pr(𝑝̂ > 0.6) = Pr(𝑍 > 0.62) = Pr(𝑍 < −0.62) = 0.2676
𝑛
La probabilità che la proporzione di adulti in sovrappeso (frequenza relativa campionaria) in un
campione di 60 adulti sia maggiore di 0.6 è pari a 0.2676.
𝑏) Pr(𝑝̂ < 0.4) =?
Il procedimento è analogo al precedente:
𝑝̂ − 𝑝 0.4 − 0.56
𝑧= 𝜎 =
= −2.50
√0.004
√𝑛
Si ottiene:
Pr(𝑝̂ < 0.4) = Pr(𝑍 < −2.50) = 0.0062
La probabilità che la proporzione di adulti in sovrappeso (frequenza relativa campionaria) in un
campione di 60 adulti sia minore di 0.4 è pari a 0.0062.
***Riferimento sul libro: cfr. cap. 18, La distribuzione campionaria di 𝑝̂ ***
3
ESERCIZIO 4
Su un campione casuale di 220 negozi di libri di una regione italiana, la media settimanale di libri
gialli venduti è risultata pari a 160 con deviazione standard campionaria 46. In una diversa regione
italiana, su un campione casuale di 160 negozi la corrispondente media è risultata pari a 90 con
deviazione standard campionaria 35. Sotto l’ipotesi di normalità del numero di libri gialli venduti
settimanalmente da ciascun negozio, si verifichi al livello 5% l’ipotesi che non vi sia differenza
significativa nelle vendite medie settimanali di libri gialli nelle le due regioni, contro l’ipotesi che il
genere giallo sia più popolare nella prima regione.
Test delle ipotesi sulla differenza tra valori medi di due popolazioni (i due campioni sono
indipendenti, caso eteroschedastico):
(test a una coda)
H0: 𝜇1 = 𝜇2 vs
H1: 𝜇1 > 𝜇2 𝛼 = 0.05
Media campionaria di libri gialli venduti nella regione 1: 𝑥̅1 = 160
Numerosità del campione 1: 𝑛1 = 220
Deviazione standard campionaria del campione 1: 𝑠12 = (46)2 = 2116
Media campionaria di libri gialli venduti nella regione 2: 𝑥̅2 = 90
Numerosità del campione 2: 𝑛2 = 160
Varianza campionaria del campione 2: 𝑠22 = (35)2 = 1225
Caso eteroschedastico: si suppone che la varianza sia diversa nelle due popolazioni.
Statistica-test:
𝑥̅1 − 𝑥̅2
160 − 90
𝑧=
=
= 16.84
2116
1225
𝑠2 𝑠2 √
√ 1+ 2
220 + 160
𝑛1 𝑛2
Metodo del livello di significatività:
In questo caso, vista la numerosità del campione il valore della statistica-test si confronta con il
valore critico della variabile Normale z*=1.645.
Decisione statistica:
poiché 𝑧 > 𝑧 ∗ , si rifiuta l’ipotesi nulla che la vendita di libri gialli sia la stessa nelle due regioni, a
favore dell’alternativa per cui è maggiore nella prima regione.
Metodo del p-value:
Il p-value (o valore P) si trova confrontando il valore della statistica-test con i valori critici della
distribuzione Normale. Guardando la tavola dei valori critici, troviamo che per un valore critico pari
a 3.291 (ossia ben inferiore rispetto alla nostra statistica-test), il p-value è di 0.0005, ossia molto
piccolo. Di conseguenza, si rifiuta l’ipotesi nulla che che la vendita di libri gialli sia la stessa nelle
due regioni, a favore dell’alternativa per cui è maggiore nella prima regione.
***Riferimento sul libro: cfr. cap. 17, Confronto delle medie di due popolazioni e par. seguenti***
4
ESERCIZIO 5
In un modello di regressione lineare che mette in relazione due grandezze biometriche di un campione
1 n
 ( xi  x )( yi  y ) , è pari a 241, la devianza di x,
n  1 i 1
di 24 soggetti, la covarianza tra x e y,
n
 (x
i
 x ) 2 , è pari a 2506 e la varianza di y è pari 704. Calcolare il coefficiente angolare della retta
i 1
di regressione lineare e la misura sulla bontà dell’adattamento.
Retta di regressione con il metodo dei minimi quadrati: 𝑦̂ = 𝑎 + 𝑏𝑥
𝑠𝑦
1 ∑(𝑋−𝑋̅)(𝑌−𝑌̅)
Coefficiente angolare (pendenza della retta): 𝑏 = 𝑟 𝑠 = 𝑛−1
𝑠𝑥2
𝑥
=
241
2506
23
= 2.212
Misura sulla bontà dell’adattamento (indice di determinazione lineare), o r-quadro: misura quanta
parte della variabilità nei valori di y è spiegata dalla retta di regressione, e varia fra 0 e 1 (adattamento
𝑠𝑥𝑦
perfetto alla retta di regressione). 𝑟 2 = (𝑠
𝑥 𝑠𝑦
2
2
𝑠𝑥𝑦
2412
) = 𝑠2 𝑠2 = 2506
𝑥 𝑦
23
×704
= 0.757
Nota: l’r-quadro si misura anche a partire dalle osservazioni predette e osservate tramite la seguente
∑(𝑦̂ −𝑦̅)2
formula: 𝑟 2 = ∑(𝑦𝑖 −𝑦̅)2, ma in questo caso non si poteva applicare poiché mancano le informazioni
𝑖
relative al campione di dati e ai valori predetti di y.
***Riferimento sul libro: cfr. cap. 5, La retta di regressione dei minimi quadrati e par. seguenti***
5
ESERCIZIO 6
a) La distribuzione t di Student:
Presenta asimmetria positiva
E’ approssimabile con una normale standardizzata se il numero di gradi di libertà è elevato
Ha media sempre positiva
Non è sempre simmetrica

X


La distribuzione t di Student è definita su tutto l’asse reale ed è simmetrica, come la Normale, però
ha code più pesanti (è più dispersa). Al crescere del numero dei gradi di libertà, le code si schiacciano
e la forma della distribuzione diviene sempre più similare ad una Normale.
***Riferimento sul libro: cfr. cap. 16, Le distribuzioni t***
b) Se in un test a due code sulla media di una variabile X l’ipotesi nulla viene rifiutata per un livello
di significatività pari al 5%, cosa accade aumentando il livello al 10%?
L’ipotesi è rifiutata
X
L’ipotesi è accettata

Dipende dalla dimensione del campione

E’ necessario calcolare di nuovo la statistica test

Se rifiutiamo l’ipotesi, siamo nella regione di rifiuto. Il test con livello di significatività al 10% ha
una regione di rifiuto che comprende la regione dato che il valore calcolato della statistica test è
sempre lo stesso, essa si troverà sempre nella regione di rifiuto.
***Riferimento sul libro: cfr. cap. 14***
6