Esercizi di Statistica

annuncio pubblicitario
Esercizi di Statistica
Selezione di esercizi proposti durante le esercitazioni
dei corsi di Statistica tenute presso
la Facoltà di Economia dell’Università di Salerno
Versione del 17 ottobre 2006
2
Per fornire un contributo al miglioramento del presente volume, segnalare eventuali errori in esso
contenuti a: Marcella Niglio, e-mail: [email protected]
Indice
1 Statistica Descrittiva
1.1 Distribuzioni di frequenza e rappresentazioni grafiche
1.2 Indici statistici descrittivi . . . . . . . . . . . . . . .
1.3 Concentrazione . . . . . . . . . . . . . . . . . . . . .
1.4 Distribuzioni Doppie . . . . . . . . . . . . . . . . . .
1.5 Numeri Indici . . . . . . . . . . . . . . . . . . . . . .
1.6 Interpolazione . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
4
4
10
20
25
35
41
2 Calcolo delle Probabilità
2.1 Calcolo delle probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Variabili Casuali Discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Variabili Casuali Continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
48
56
62
3 Inferenza Statistica
3.1 Stime puntuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Test delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
70
73
81
4 Il Modello di Regressione
4.1 Modello di Regressione Lineare Semplice . . . . . . . . . . . . . . . . . . . . . . . .
84
84
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Capitolo 1
Statistica Descrittiva
1.1
Distribuzioni di frequenza e rappresentazioni grafiche
Esercizio 1
La società Gamma s.p.a., dopo aver effettuato una ricerca di personale qualificato per coprire la
posizione di responsabile delle relazioni con l’estero, ha ricevuto 20 curriculum vitae da cittadini
sia italiani che stranieri. Alcune informazioni, ritenute particolarmente rilevanti dalla società,
sono sintetizzate nella seguente tabella:
unità
genere
età
cittadinanza
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
M
M
F
M
F
F
M
F
F
M
F
F
F
M
F
F
F
F
M
M
28
34
46
26
37
29
51
31
39
43
58
44
25
23
52
42
48
33
38
46
italiana
inglese
belga
spagnola
italiana
spagnola
francese
belga
italiana
italiana
italiana
inglese
francese
spagnola
italiana
tedesca
francese
italiana
tedesca
italiana
Livello minimo
di reddito mensile
desiderato
2.3
1.6
1.2
0.9
2.1
1.6
1.8
1.4
1.2
2.8
3.4
2.7
1.6
1.2
1.1
2.5
2
1.7
2.1
3.2
Anni di esperienza
lavorativa
2
8
21
1
15
3
28
5
13
20
32
23
1
0
29
18
19
7
12
23
Tabella 1.1: Dati raccolti su 20 candidati a seguito di una ricerca di personale qualificato
4
1.1. DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE
5
1. Definire quali sono le l’unità statistiche oggetto di rilevazione.
2. Identificare quali sono le variabili e le mutabili osservate.
3. Costruire, per tutte le variabili e mutabili, le corrispondenti distribuzioni di frequenza (per le
variabili continue costruire distribuzioni di frequenza con quattro classi di modalità di uguale
ampiezza).
4. È possibile calcolare le frequenze relative cumulate per tutte le variabili e mutabili oppure è
necessario che si disponga solo di dati quantitativi?
2
Soluzione
1. Le unità statistiche della rilevazione sono gli individui rispondenti alla ricerca di personale
qualificato effettuata dalla società Gamma.
2. Le mutabili sono: genere e cittadinanza; le variabili sono: età, livello minimo di reddito
mensile desiderato, anni di esperienza lavorativa.
3. Le distribuzioni di frequenza delle due mutabili sono:
Genere
xi
ni
M
8
F
12
Totale 20
Cittadinanza
xi
ni
italiana
8
inglese
2
belga
2
spagnola 3
francese
3
tedesca
2
Totale
20
Per le restanti variabili età, livello minimo di reddito mensile desiderato ed anni di esperienza
lavorativa, sono costruite tre distribuzioni di frequenza con quattro classi di modalità. In
particolare, dopo aver calcolato l’ampiezza della classe per le tre variabili:
max(x) − min(x)
h=
4
si ottiene:
Età (h = 8.75)
classi
ni
23| − |31.75
6
31.75 − |40.5
5
40.50 − |49.25 6
49.25 − |58
3
Totale
20
Livello min. reddito (h = 0.625)
classi
ni
0.9| − |1.525
6
1.525 − |2.15
8
2.15 − |2.775
3
2.775 − |3.4
3
Totale
20
Anni esperienza (h = 8)
classi
ni
0| − |8
8
8 − |16
3
16 − |24
6
24 − |32
3
Totale
20
6
CAPITOLO 1. STATISTICA DESCRITTIVA
4. Le frequenze relative cumulate possono essere calcolate sia quando si hanno in esame le
variabili che le mutabili in quanto hanno ad oggetto le sole frequenze.
Esercizio 2
Utilizzando le distribuzioni di frequenza costruite nell’esercizio 1 per le variabili età, livello minimo
di reddito mensile desiderato e per la mutabile cittadinanza:
1. Calcolare le rispettive frequenze relative e frequenze relative cumulate.
2. Valutare se più del 70% delle unità statistiche ha un’età inferiore a 40 anni.
3. Valutare se almeno il 20% accetterebbe l’impiego qualora gli venisse offerto un reddito mensile
pari a 1525Euro.
4. È possibile affermare che più del 30% dei curriculum ricevuti proviene da candidati inglesi?
2
Soluzione
1. Le frequenze relative e relative cumulate delle tre distribuzioni sono:
Età
classi
23| − |31.75
31.75 − |40.5
40.50 − |49.25
49.25 − |58
Totale
ni
6
5
6
3
20
fi
0.3
0.25
0.3
0.15
Fi
0.3
0.55
0.85
1
Cittadinanza
xi
ni
italiana
8
inglese
2
belga
2
spagnola 3
francese
3
tedesca
2
Totale
20
Livello minimo di reddito
classi
ni
fi
Fi
0.9| − |1.525
6
0.3
0.3
1.525 − |2.15 8
0.4
0.7
2.15 − |2.775 3 0.15 0.85
2.775 − |3.4
3 0.15
1
Totale
20
fi
0.4
0.1
0.1
0.15
0.15
0.1
Fi
0.4
0.5
0.6
0.75
0.9
1
2. Dalla distribzione di frequenza Età, si osserva che in corrispondenza della classe 31.75 − |40.5
la frequenza relativa cumulata Fi = 0.55, ovvero il 55% delle unità statistiche ha un’età
≤ 40.5 anni. Quindi dalla verifica risulta che meno del 70% delle unità statistiche ha un’età
inferiore a 40 anni e quindi l’affermazione è falsa.
1.1. DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE
7
3. Dalla prima frequenza relativa cumulata della distribuzione Livello minimo di reddito si
osserva che il 30% accetterebbe l’impiego con un reddito ≤ 1525Euro. Quindi è possibile
solo affermare che più del 20% accoglierebbe la proposta di impiego se venisse offerto un
reddito ≤ 1525Euro mentre non si è in grado di individuare la percentuale di coloro che
accetterebbero l’impiego con un reddito minimo pari a 1525Euro.
4. L’affermazione è falsa in quanto, osservando le frequenze relative della distribuzione Cittadinanza, solo il 10% dei curriculum ricevuti proviene da candidati di cittadinanza inglese.
Esercizio 3
Utilizzando i dati e le distribuzioni di frequenza dell’Esercizio 1:
1. Rappresentare graficamente i caratteri Cittadinanza e Livello minimo di reddito desiderato
utilizzando rispettivamente un diagramma a nastri ed un istogramma di frequenze.
2. Rappresentare la funzione di ripartizione della variabile Livello minimo di reddito desiderato
2
Soluzione
1. Il diagramma a nastri della mutabile Cittadinanza è rappresentato nel seguente grafico:
8
n
6
4
2
0
italiana
inglese
belga
spagnola francese tedesca
cittadinanza
Figura 1.1: Diagramma a nastri della mutabile Cittadinanza
mentre per rappresentare l’istogramma della variabile Livello minimo di reddito desiderato è
necessario il preliminare calcolo dell’intensità associata a ciascuna classe:
hi =
ni
(xi − xi−1 )
i = 1, . . . , k
con k il numero di classi, ed i cui valori sono riportati in tabella:
8
CAPITOLO 1. STATISTICA DESCRITTIVA
Livello minimo di reddito
classi
ni
hi
0.9| − |1.525
6
9.6
1.525 − |2.15 8
12.8
2.15 − |2.775 3
4.8
2.775 − |3.4
3
4.8
La rappresentazione grafica dell’istogramma è quindi:
12.88
9.66
hi
6.44
3.22
0
0.900
1.525
2.150
2.775
3.400
reddito
Figura 1.2: Istogramma della variabile Livello minimo di reddito
2. La funzione di ripartizione richiede l’utilizzo delle informazioni contenute nella distribuzione
di frequenze Livello minimo di reddito di cui all’esercizio 2, da cui segue la rappresentazione:
1.0
0.8
Fi
0.6
0.4
0.2
0.0
0
1
2
3
4
reddito
Figura 1.3: Funzione di ripartizione empirica della variabile Livello minimo di reddito
Esercizio 4
La società Stat s.p.a. ha effettuato un’indagine su una popolazione di 15 famiglie sulle quali ha
rilevato tre caratteri: la zona di residenza, il reddito medio mensile familiare ed il numero di
componenti in età lavorativa, i cui dati sono riportati nella Tabella 1.2.
1.1. DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE
9
1. Costruire le distribuzioni di frequenza dei tre caratteri osservati (si costruisca la distribuzione
della variabile RM con quattro classi di modalità di uguale ampiezza).
2. Rappresentare graficamente le variabili RM ed NL.
Unità
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Residenza
(Res)
Nord
Centro
Nord
Sud
Sud
Centro
Sud
Nord
Centro
Nord
Sud
Sud
Centro
Sud
Nord
Reddito medio
(×1000Euro)
(RM)
4.25
1.78
10.5
6.11
3.56
8.3
1.52
2.3
1.5
4.3
1.65
3.33
1.4
6.04
7.89
N. componenti in età
lavorativa
(NL)
2
1
3
3
2
4
1
0
1
2
0
2
1
4
3
Tabella 1.2: Dati relativi alla zona di residenza, al reddito medio mensile familiare ed al numero
di componenti in età lavorativa di 15 famiglie intervistate
2
Soluzione
1. Le tre distribuzioni richieste per le variabili in esame sono le seguenti:
Residenza
xi
ni
Nord
5
Centro 4
Sud
6
Totale
15
Reddito medio (h = 2.275)
classi
ni
1.4| − |3.675
8
3.675 − |5.95
2
5.95 − |8.225
3
8.225 − |10.5
2
Totale
15
N. età lavorativa
xi
ni
0
2
1
4
2
4
3
3
4
2
Totale
15
2. Le rappresentazioni grafiche opportune per i dati in esame sono il diagramma a nastri per la
variabile NL e l’istogramma per la variabile RM presentate in Figura 1.4.
10
CAPITOLO 1. STATISTICA DESCRITTIVA
4
3.528
3
2.646
ni
hi
2
1.764
1
0.882
0
0
0
1
2
3
1.400
4
3.675
NL
5.950
8.225
10.500
RM
Figura 1.4: Diagramma a nastri della variabile NL ed istogramma della variabile RM
1.2
Indici statistici descrittivi
Esercizio 5
Utilizzando le distribuzioni di frequenza costruite nell’esercizio 1:
1. Calcolare la media di tutte le variabili quantitative.
2. L’età media delle unità statistiche è maggiore di 30?
3. La media degli Anni di esperienza lavorativa maturata dalle unità statistiche è almeno pari
a 10?
4. Calcolare il valore mediano del Livello minimo di reddito mensile desiderato.
5. Calcolare la mediana dell’Età delle unità statistiche.
6. Calcolare la moda della variabile Anni di esperienza lavorativa
7. Assumendo di aver creato per la variabile Anni di esperienza lavorativa la seguente distribuzione di frequenze con 4 classi di modalità di differente ampiezza:
classi
0| − |9
9 − |17
17 − |23
23 − |32
ni
8
3
6
3
definire la classe modale e calcolare la moda.
2
11
1.2. INDICI STATISTICI DESCRITTIVI
Soluzione
1. Il calcolo delle medie delle distribuzioni di frequenza in classi richiede il preliminare calcolo
del valore centrale di ciascuna classe come riportato nel seguito:
Età
classi
23| − |31.75
31.75 − |40.5
40.50 − |49.25
49.25 − |58
Totale
µ=
1
N
k
P
i=1
ni
6
5
6
3
20
ci
27.375
36.125
44.875
53.625
Livello minimo di reddito
classi
ni
ci
0.9| − |1.525
6 1.213
1.525 − |2.15 8 1.838
2.15 − |2.775 3 2.463
2.775 − |3.4
3 3.088
Totale
20
k
P
1
ci × ni = 1.932
µ= N
ci × ni
164.250
180.625
269.250
160.875
775
ci × ni = 38.75
ci × ni
7.278
14.704
7.389
9.264
38.635
i=1
Anni di esperienza lavorativa
classi
ni ci
ci × ni
0| − |8
8
4
32
8 − |16
3 12
36
16 − |24 6 20
120
24 − |32 3 28
84
Totale
20
272
k
P
µ = N1
ci × ni = 13.6
i=1
2. La media dell’Età delle unità statistiche è pari a 38.750, quindi risulta maggiore di 30.
3. Il numero di Anni di esperienza lavorativa è pari a 13.6 quindi supera gli almeno 10 anni
richiesti dal quesito.
4. Il valore della mediana del Livello minimo di reddito è approssimato utilizzando la seguente
formula:
M e ≈ xi−1 + (xi − xi−1 )
0.5 − Fi−1
Fi − Fi−1
Quindi identificata la classe mediana, xi−1 − |xi : Fi ≥ 0.5, data da 1.525 − |2.15, il valore
approssimato della mediana è:
M e ≈ 1.525 + (2.15 − 1.525)
0.5 − 0.3
= 1.837
0.7 − 0.3
5. Per il calcolo della mediana della variabile Età valgono le stesse considerazioni fatte al punto
precedente, quindi:
M e ≈ 31.75 + (40.5 − 31.75)
0.5 − 0.3
= 38.75
0.55 − 0.3
12
CAPITOLO 1. STATISTICA DESCRITTIVA
6. La moda della variabile Anni di esperienza lavorativa è pari al valore centrale della classe
modale 0| − |8, ovvero M o = 4
7. Per individuare la classe modale in presenza di classi di diversa ampiezza, è necessario calcolare l’intensità associata a ciascuna classe xi−1 − |xi , data da:
hi =
ni
(xi − xi−1 )
i = 1, . . . , k
quindi
Anni di esperienza
classi
ni
0| − |9
8
9 − |17
3
17 − |23 6
23 − |32 3
Totale
20
lavorativa
hi
0.89
0.38
1.00
0.33
da cui emerge che la classe modale è 17 − |23 perchè ad essa è associata la massima intensità,
ed il valore approssimato della moda è:
Mo ≈
17 + 23
(xi−i + xi )
=
= 20
2
2
Esercizio 6
Utilizzando i dati in Tabella 1.1 relativi alla variabile Livello minimo di reddito e la corrispondente
distribuzione di frequenze nell’esercizio 1:
1. Calcolare i quartili della variabile in esame.
2. Rappresentarne il box-plot.
3. Sono presenti valori eccezionali nei dati?
4. Assumendo che la società Gamma s.p.a. in occasione di un’altra ricerca di personale qualificato abbia rilevato i seguenti livelli minimi di reddito desiderati da ulteriori 20 candidati:
V2 : 4.4
4.8
5.2
1.5
2.9
2.9
2.9
1.5
2.9
3.4
4.1
5.9
1.5
0.7
2.9
5.9
2.9
8.7
0.7
2.9
Rappresentare i box-plot paralleli della variabile Livello minimo di reddito desiderato in
Tabella 1.1 (V 1) e della nuova variabile riportata (V 2).
2
13
1.2. INDICI STATISTICI DESCRITTIVI
Soluzione
1. Il calcolo dei quartili in presenza di una distribuzione di frequenze per classi di modalità
richiede nuovamente l’impiego di formule di approssimazione:
Q1 ≈ xi−1 + (xi − xi−1 )
0.25 − Fi−1
Fi − Fi−1
Q3 ≈ xi−1 + (xi − xi−1 )
0.75 − Fi−1
Fi − Fi−1
Segue quindi che i quartili richiesti assumono i seguenti valori:
Q1 = 1.421
Q2 ≡ M e = 1.837
Q3 = 2.358
2. La rappresentazione grafica, mediante box-plot, della variabile Livello minimo di reddito
desiderato richiede l’impiego dei quartili appena calcolati e di ulteriori informazioni riportate
nel seguito:
min(x) = 0.9
h1 = Q1 − 1.5(Q3 − Q1 ) = 0.015
max(x) = 3.4
H2 = Q3 + 1.5(Q3 − Q1 ) = 3.763
da cui segue il grafico in Figura 1.5.
Figura 1.5: Box plot del Reddito Desiderato
3. Dal grafico in Figura 1.5 emerge che non sono presenti valori eccezionali nella serie osservata,
infatti h1 < min(x) ed H2 > max(x).
4. La rappresentazione mediante box-plot paralleli delle due variabili richiede il preliminare
calcolo dei quartili e dei valori cardine della variabile V 2, nonchè la conoscenza del minimo
14
CAPITOLO 1. STATISTICA DESCRITTIVA
e del massimo valore assunto da V 2 come già fatto in precedenza per V 1. Tali valori sono
pari a:
min(x) = 0.7
Q1 = 2.21
Q2 = M e = 2.9
Q3 = 4.6
max(x) = 8.7
h1 = −1.38
H2 = 8.19
mentre la rappresentazione grafica richiesta è presentata in Figura 1.6.
Emerge immediatamente che V 2 presenta un valore eccezionale, contrassegnato con un asterisco, in corrispondenza del livello di reddito desiderato 8.7.
Figura 1.6: Box plot paralleli di V1 e V2
Esercizio 7
Utilizzando i dati in tabella 1.1:
1. Calcolare la varianza della variabile Livello minimo di reddito desiderato avvalendosi della
distribuzione di frequenze precedentemente costruita per tale variabile nell’esercizio 1.
2. Calcolare la varianza della serie di dati Anni di esperienza lavorativa
3. Utilizzando la serie di dati della variabile Età, calcolare la varianza dell’età delle prime
10 unità statistiche. In seguito, calcolare la varianza delle successive 10 ed ultime unità
statistiche.
4. La variabilità dell’età delle prime 10 unità statistiche è maggiore della variabilità dell’età
delle ultime 10 unità?
5. Se si standardizza la variabile Livello minimo di reddito desiderato, quale valore assumono
la media e la varianza?
6. È possibile affermare che la mutabile cittadinanza ha un’elevata eterogeneità?
2
15
1.2. INDICI STATISTICI DESCRITTIVI
Soluzione
1. Il calcolo della varianza della variabile Livello minimo di reddito è effettuato ricorrendo alla
seguente formula:
σ2 =
k
1 X
(ci − µ)2 ni = µ2 − µ2
N i=1
con
µ2 =
k
1 X 2
c ni
N i=1 i
A tale scopo è costruita la tabella che segue:
Livello minimo di reddito
classi
ni
ci
0.9| − |1.525
6 1.213
1.525 − |2.15 8 1.838
2.15 − |2.775 3 2.463
2.775 − |3.4
3 3.088
Totale
20
c2i × ni
8.828
27.026
18.199
28.607
82.660
da cui emerge che µ2 = 4.133 mentre la varianza è pari a σ 2 = 4.133 − (1.932)2 = 0.4.
2. La varianza della serie di dati Anni di esperienza lavorativa è calcolata con:
N
1 X
(xi − µ)2 = 100.2
σ =
N i=1
2
3. Utilizzando la serie di dati Età, segue che la varianza della prima sottoserie data da:
28
34
46
26
37
29
51
31 39
43
48
33 38
46
è pari a σ12 = 62.44 mentre la seconda sottoserie:
58
44
25
23
52
42
ha varianza σ22 = 114.69
4. L’affermazione è falsa in quanto la variabilità della seconda sottoserie è maggiore della variabilità della prima sottoserie risultando σ22 > σ12 .
5. La media della variabile Livello minimo di reddito desiderato standardizzata è pari a 0 mentre
la varianza è 1.
6. L’eterogeneità della mutabile cittadinanza è possibile misurarla con l’indice di mutabilità del
Gini o con l’indice di entropia di Shannon, rispettivamente pari a:
#
"
k
X
k
2
fi
M Gr =
1−
k−1
i=1
Hr =
k
X
fi log(fi )
i=1
log(k)
16
CAPITOLO 1. STATISTICA DESCRITTIVA
con k il numero di modalità per il cui calcolo si utilizzano le informazioni nella seguente
tabella:
Cittadinanza
xi
ni
italiana
8
inglese
2
belga
2
spagnola 3
francese
3
tedesca
2
Totale
20
fi
0.4
0.1
0.1
0.15
0.15
0.1
fi2
0.16
0.01
0.01
0.02
0.02
0.01
0.23
log(fi )
-0.40
-1.00
-1.00
-0.82
-0.82
-1.00
da cui segue che l’indice di mutabilità del Gini è:
mentre l’indice di entropia di Shannon è:
Hr =
fi log(fi )
-0.16
-0.10
-0.10
-0.12
-0.12
-0.10
-0.70
M Gr = 56 (1 − 0.23) = 0.924
0.70
log(6)
= 0.90
Dai risultati precedenti è possibile affermare che il fenomeno presenta elevata eterogeneità.
Esercizio 8
Utilizzando i dati in Tabella 1.1:
1. Misurare l’asimmetria della variabile Livello minimo di reddito desiderato avvalendosi della
corrispondente distribuzione di frequenze.
2. Osservando i box plots in Figura 1.5: le due variabili V 1 e V 2 presentano uguale asimmetria
e variabilità?
3. La distribuzione della variabile Livello minimo di reddito desiderato può dirsi leptocurtica?
2
Soluzione
1. L’asimmetria della distribuzione della variabile Livello minimo di reddito desiderato è possibile misurarla con indici robusti e non robusti. Qualora si preferiscano questi ultimi ci si può
avvalere dell’indice di asimmetria di Fisher:
k
1 X
(xi − µ)3 ni
γ1 =
N σ 3 i=1
mentre un esempio di indice robusto è la differenza interquartile:
DIr =
(Q3 − Q2 ) − (Q2 − Q1 )
(Q3 − Q2 ) + (Q2 − Q1 )
17
1.2. INDICI STATISTICI DESCRITTIVI
Il calcolo di γ1 richiede l’utilizzo dei dati nella tabella che segue:
Livello minimo di reddito
classi
ni
ci
0.9| − |1.525
6 1.213
1.525 − |2.15 8 1.838
2.15 − |2.775 3 2.463
2.775 − |3.4
3 3.088
Totale
20
ed inoltre risultando, dall’esercizio n.
2.846
20×0.6323 = 0.564.
7, che
(ci − µ)3 × ni
-2.23
-0.007
0.449
4.634
2.846
√
σ2 =
√
0.4 = 0.632, segue che: γ1 =
Il calcolo della differenza interquartile richiede l’utilizzo dei quartili calcolati in precedenza e
quindi DIr = (2.358−1.837)−(1.837−1.421)
(2.358−1.837)+(1.837−1.421) = 0.112.
2. L’esame dei box-plots evidenzia come la variabile V 2 presenta maggiore variabilità, misurata
in termini di differenza tra quartili, rispetto alla V 1 mentre entrambe mostrano asimmetria
positiva come è immediatamente valutato dall’ osservazione della posizione della mediana nei
box rappresentati.
3. Per poter rispondere al quesito è necessario calcolare l’indice di curtosi:
γ2 =
k
1 X
(xi − µ)4 ni − 3
N σ 4 i=1
dove, da calcoli precedenti, µ = 1.931 e σ = 0.634.
Per rendere più agevole il calcolo di γ2 , può essere utile avvalersi dei dati nella seguente
tabella:
Livello minimo di reddito
classi
ni
ci
0.9| − |1.525
6 1.213
1.525 − |2.15 8 1.838
2.15 − |2.775 3 2.463
2.775 − |3.4
3 3.088
Totale
20
da cui segue che: γ2 =
7.2
20×0.6344
(ci − µ)4 × ni
1.603
0.001
0.239
5.357
7.2
− 3 = −0.744
Dai risultati ottenuti è possibile affermare che la distribuzione della variabile Livello minimo
di reddito non è leptocurtica ma bensı̀ platicurtica in quanto l’indice di curtosi γ2 è pari a
-0.744. Quindi l’affermazione è falsa.
18
CAPITOLO 1. STATISTICA DESCRITTIVA
Esercizio 9
La società Stat di cui all’esercizio 4 desidera fornire al committente dell’indagine maggiori dettagli
descrittivi sui dati presentati in Tabella 1.2, a tale scopo:
1. Calcolare la media e la varianza delle variabili RM ed NL utilizzando le distribuzioni di
frequenza precedentemente costruite.
2. Rappresentare il box plot della variabile RM e commentarlo opportunamente
3. Assumendo che per particolari incentivi governativi il reddito mensile medio familiare subisce
la seguente trasformazione lineare:
RMN = 0.3 + 1.15 × RM
calcolare la media e la varianza di RMN .
4. Misurare l’asimmetria e la curtosi della variabile RM utilizzando indici non robusti.
5. Misurare l’eterogeneità della variabile Res.
2
Soluzione
1. Il calcolo della media e della varianza delle due variabili è effettuato utilizzando i dati in
tabella:
Reddito medio
classi
1.4| − |3.675
3.675 − |5.95
5.95 − |8.225
8.225 − |10.5
Totale
- RM
ni
ci
8 2.538
2 4.813
3 7.088
2 9.363
15
ci × ni
20.304
9.626
21.264
18.726
69.920
N. età lavorativa - NL
xi
ni xi × ni x2i × ni
0
2
0
0
1
4
4
4
2
4
8
16
3
3
9
27
4
2
8
32
Totale 15
29
79
c2i
× ni
51.528
46.330
150.720
175.332
423.910
Da cui segue che le medie sono pari a:
µRM =
k
1 X
ci × ni = 4.66
N i=1
µN L =
N
1 X
xi × ni = 1.93
N i=1
mentre le varianze sono:
2
σRM
= µ2RM −µ2RM = 28.261−4.6612 = 6.536
2
3
2
σN
L = µ2N L −µN L = 5.267−1.933 = 1.536
2. Il grafico richiesto è riportato in Figura 1.7 da cui emerge l’assenza di valori eccezionali
nella variabile di interesse. Inoltre, tenuto conto della posizione delle mediana nel box, è
chiaramente visibile la presenza di asimmetria positiva nei dati.
19
1.2. INDICI STATISTICI DESCRITTIVI
Figura 1.7: Box plot della variabile RM
3. Per la soluzione del presente quesito è necessario utilizzare alcune note regole sulle trasformate
lineari di variabili. In particolare si dimostra che data la trasformata lineare y = a + bx con
media e varianza di x note e rispettivamente indicate con µx e σx2 , la media e la varianza di
y sono calcolare con:
σy2 = b2 σx2
µy = a + bµx
2
Quindi nel caso in esame, poichè è noto che µRM = 4.661 e σRM
= 6.536, allora:
2
2
= 8.644
= 1.152 × σRM
σRM
N
µRMN = 0.3 + 1.15 × µRM = 5.660
4. Per la misura dell’asimmetria e della curtosi della variabile RM mediante indici non robusti
γ1 e γ2 , si utilizzano i dati della corrispondente distribuzione di frequenze alla quale si aggiungono alcune colonne:
Reddito medio
classi
1.4| − |3.675
3.675 − |5.95
5.95 − |8.225
8.225 − |10.5
Totale
- RM
ni
ci
8 2.538
2 4.813
3 7.088
2 9.363
15
ci × ni
20.304
9.626
21.264
18.726
69.913
(ci − µ)3 × ni
-76.549
0.007
42.887
207.911
174.256
(ci − µ)4 × ni
162.514
0.001
104.088
977.598
1244.201
Dalle elaborazioni precedenti risulta inoltre che la media e lo scarto quadratico medio della
variabile RM sono rispettivamente µRM = 4.661 e σRM = 2.557, quindi:
γ1 =
174.256
= 0.695
15 × 2.5573
γ2 =
1244.201
− 3 = −1.06
15 × 2.5574
20
CAPITOLO 1. STATISTICA DESCRITTIVA
5. La misura dell’eterogenietà è effettuata in questo caso con l’indice di mutabilità del Gini
!
k
X
k
fi2
M Gr =
1−
k−1
i=1
per il cui calcolo si utilizzano i dati nella seguente tabella:
Residenza
xi
ni
Nord
5
Centro 4
Sud
6
Totale
15
fi
0.33
0.27
0.40
fi2
0.11
0.07
0.16
0.34
Quindi l’indice relativo M Gr = 0.987 ed evidenzia la presenza di elevata eterogenietà nella
mutabile osservata.
1.3
Concentrazione
Esercizio 10
Utilizzando i dati della variabile Livello minimo di reddito nell’esercizio 1 e la corrispondente
distribuzione di frequenze:
1. Misurarne la concentrazione e rappresentare la corrispondente curva di Lorenz.
2. È possibile affermare che il Livello minimo di reddito è equidistribuito?
2
Soluzione
1. La misura della concentrazione del livello minimo di reddito tramite la distribuzione per classi
di modalità precedentemente costruita richiede il calcolo del rapporto di concentrazione:
R=1−
con pi =
1
N
i
P
j=1
nj e qi =
1
Nµ
i
P
k
X
i=1
(pi − pi−1 )(qi + qi−1 )
cj nj per i = 1, 2, . . . , k.
j=1
Ricordando che la media del livello minimo di reddito è pari a µ = 1.932 (esercizio 5), segue
k
P
che il denominatore delle qi è N · µ =
ci · ni = 38.635.
i=1
21
1.3. CONCENTRAZIONE
Utilizzando le formule precedenti, si passa al calcolo delle pi e delle qi , come riportato in
tabella, e dei termini della sommatoria del rapporto di concentrazione.
Livello minimo di reddito
classi
ni
ci
0.9| − |1.525
6 1.213
1.525 − |2.15 8 1.838
2.15 − |2.775 3 2.463
2.775 − |3.4
3 3.088
Totale
20
ci · ni
7.278
14.704
7.389
9.264
38.635
pi
0.300
0.700
0.850
1
qi
0.188
0.569
0.760
1
pi − pi−1 = fi
0.30
0.40
0.15
0.15
qi + qi−1
0.188
0.757
1.329
1.760
(qi + qi−1 )fi
0.056
0.303
0.199
0.264
0.822
Segue quindi che R = 1 − 0.822 = 0.178, ovvero il fenomeno presenta bassa concentrazione.
Impiegando i dati in tabella è possibile rappresentare la curva di Lorenz (Figura 1.8) che dà
evidenza grafica dei risultati numerici riportati.
Figura 1.8: Curva di Lorenz
2. I dati osservati immediatamente escludono la possibilità che il livello minimo di reddito sia
equidistribuito in quanto la condizione teorica che deve verificarsi in questa circostanza è che:
x1 = x2 = ... = xN = µ
Quindi l’affermazione è falsa.
Esercizio 11
È stata misurata la quantità di nitrati (in mg) contenuta in un litro di 10 tipologie di acque commercializzate da un punto vendita, ottenendo i seguenti dati:
15
29
11
18
21
17
34
19
28
41
22
CAPITOLO 1. STATISTICA DESCRITTIVA
1. Misurare la concentrazione dei nitrati delle acque analizzate e rappresentare la spezzata di
Lorenz.
2. Può affermarsi che la concentrazione dei nitrati delle acque analizzate è elevata?
2
Soluzione
1. La misura della concentrazione della serie di dati in esame richiede il preliminare ordinamento,
in modo non decrescente, dei dati ed il calcolo dell’indice di concentrazione del Gini:
Rg =
NP
−1
(pi
i=1
NP
−1
− qi )
con
pi =
pi
i
N
i
e
qi =
i=1
1 X
xj
N µ j=1
A tale scopo si costruisce la seguente tabella:
i
1
2
3
4
5
6
7
8
9
10
Totale
da cui emerge che N µ =
1.068
4.5
N
P
x(i)
11
15
17
18
19
21
28
29
34
41
233
pi
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
qi
0.047
0.111
0.184
0.261
0.343
0.433
0.553
0.677
0.823
1
(pi − qi )
0.053
0.089
0.116
0.139
0.157
0.167
0.147
0.123
0.077
xi = 233 mentre l’indice di concentrazione del Gini è Rg =
i=1
= 0.237.
La spezzata di Lorenz del fenomeno in esame, che assume la caratteristica forma a gradini,
è rappresentata in Figura 1.9.
2. Dai risultati del precedente quesito (indice del Gini) è possibile osservare che i nitrati delle
acque analizzate sono poco concentrati quindi nessuna delle acque in esame presenta un
livello di nitrati molto più elevato rispetto alle altre.
Esercizio 12
La società Stat, utilizzando i dati in Tabella 1.2, vuole fornire alcuni dettagli sulla concentrazione
dei redditi delle 15 famiglie intervistate.
23
1.3. CONCENTRAZIONE
Figura 1.9: Spezzata di Lorenz
1. Misurare la concentrazione dei redditi medi (RM) e rappresentare la corrispondente curva
di Lorenz (a tale scopo impiegare la distribuzione di frequenze per classi della variabile RM
costruita in precedenza);
2. Il reddito medio presenta maggiore concentrazione al Nord o al Sud?
2
Soluzione
1. La misura della concentrazione della variabile RM richiede il calcolo del rapporto di concentrazione. A tal fine, come già precedentemente descritto nell’esercizio 10, si utilizzano i dati
nella tabella seguente:
Reddito medio
classi
1.4| − |3.675
3.675 − |5.95
5.95 − |8.225
8.225 − |10.5
Totale
- RM
ni
ci
8 2.538
2 4.813
3 7.088
2 9.363
15
ci × ni
20.304
9.626
21.264
18.726
69.920
pi
0.533
0.666
0.866 6
1
qi
0.290
0.428
0.732
1
pi − pi−1 = fi
0.533
0.133
0.200
0.133
qi − qi−1
0.290
0.718
1.160
1.732
da cui segue che il rapporto di concentrazione R = 1 − 0.712 = 0.288.
(qi − qi−1 )fi
0.155
0.095
0.232
0.230
0.712
La curva di Lorenz associata al fenomeno è rappresentata in Figura 1.10 e conferma, anche
graficamente, la contenuta concentrazione del reddito medio tra le famiglie intervistate.
24
CAPITOLO 1. STATISTICA DESCRITTIVA
Figura 1.10: Curva di Lorenz
2. Per poter rispondere al quesito proposto è necessario misurare la concentrazione del reddito
medio delle famiglie residenti al Nord ed al Sud costruendo quindi opportune serie di dati
estratte dalla Tabella 1.2 mediante le quali calcolare l’indice di concentrazione del Gini.
NORD
i
1
2
3
4
5
Totale
x(i)
2.30
4.25
4.30
7.89
10.50
29.24
pi
0.2
0.4
0.6
0.8
1
qi
0.079
0.224
0.371
0.641
1
pi − q i
0.121
0.176
0.229
0.159
0.685
SUD
i
1
2
3
4
5
6
Totale
x(i)
1.52
1.65
3.33
3.56
6.04
6.11
22.21
pi
0.167
0.333
0.500
0.667
0.833
1
qi
0.068
0.142
0.292
0.452
0.724
0.999
pi − q i
0.099
0.191
0.208
0.215
0.109
0.822
da cui segue che l’indice di concentrazione del Gini delle due sottopopolazioni è rispettivamente:
0.685
0.822
Rg,N ORD =
= 0.343
Rg,SU D =
= 0.329
2.0
2.5
quindi la concentrazione dei redditi delle famiglie del Nord e del Sud intervistate è simile.
25
1.4. DISTRIBUZIONI DOPPIE
1.4
Distribuzioni Doppie
Esercizio 13
Utilizzando le serie di dati in Tabella 1.1:
1. Costruire una distribuzione di frequenze doppia per le variabili Genere e Cittadinanza.
2. La presenza di mutabili nella tabella precedentemente costruita, rende impossibile la misura
dell’intensità del legame associativo? Motivare la risposta.
3. Costruire una distribuzione di frequenze doppia per le variabili Livello minimo di reddito
ed Anni di esperienza utilizzando, per ambo le variabili, 4 classi di modalità della stessa
ampiezza.
2
Soluzione
1. La distribuzione di frequenze richiesta è la seguente:
Genere
F
M
belga
2
0
2
francese
2
1
3
Cittadinanza
inglese italiana
1
5
1
3
2
8
spagnola
1
2
3
tedesca
1
1
2
12
8
20
2. L’intensità del legame associativo è misurato con l’indice di Cramer Φ2 . Esso per costruzione
richiede il solo utilizzo delle frequenze della distribuzione e quindi è possibile calcolarlo sia
quando nella distribuzione doppia si hanno ad oggetto mutabili che variabili.
3. La distribuzione di frequenze doppia delle variabili Livello minimo di reddito ed Anni di
esperienza è:
Reddito minimo
0.9| − |1.525
1.525 − |2.15
2.15 − |2.775
2.775 − |3.4
0| − |8
3
4
1
0
8
Anni di esperienza
8 − |16 16 − |24 24 − |32
1
1
1
2
1
1
0
2
0
0
2
1
3
6
3
6
8
3
3
20
Esercizio 14
Avvalendosi della distribuzione doppia delle variabili Livello minimo di reddito ed Anni di esperienza costruita nel precedente esercizio:
26
CAPITOLO 1. STATISTICA DESCRITTIVA
1. È possibile affermare che tra le variabili Livello minimo di reddito ed Anni di esperienza
esiste un legame lineare negativo? Perché?
2. Misurare l’intensità del legame associativo tra le variabili Livello minimo di reddito ed Anni
di esperienza.
3. Misurare la forza del legame lineare tra le variabili Livello minimo di reddito ed Anni di
esperienza.
2
Soluzione
1. È possibile valutare la presenza di un legame lineare negativo calcolando la covarianza tra le
variabili Livello minimo di reddito ed Anni di esperienza. A tale scopo, essendo già note le
medie delle variabili marginali della distribuzione doppia precedentemente costruita, è utile
avvalersi della seguente forma per la covarianza:
σxy = µxy − µx µy
dove µx e µy sono le medie delle variabili marginali e µxy =
1
N
h P
k
P
xi yj nij .
i=1 j=1
Per il calcolo di µxy risulta inoltre necessario calcolare i valori centrali delle classi di modalità
delle due variabili che sono quindi aggiunti alla precedente tabella:
Reddito minimo
0.9| − |1.525
1.525 − |2.15
2.15 − |2.775
2.775 − |3.4
ci
1.213
1.838
2.463
3.088
Anni di esperienza
0| − |8 8 − |16 16 − |24
4
12
20
3
1
1
4
2
1
1
0
2
0
0
2
8
3
6
24 − |32
28
1
1
0
1
3
6
8
3
3
20
da cui segue che:
µxy =
1
(14.556 + 14.556 + 24.260 + 33.964 + 29.408 + 44.112 + 36.760 + 51.464 + 9.852 + 98.520+
20
+123.520 + 86.464) = 28.372
dove ad esempio il primo termine della sommatoria è c1x × c1y × n11 = 1.213 × 4 × 3 = 14.556
ed alla stessa maniera si calcolano i restanti termini.
Il valore della covarianza è quindi pari a:
σxy = 28.372 − 1.932 × 13.6 = 2.097
La covarianza cosı̀ calcolata è positiva, quindi le variabili Livello minimo di reddito ed Anni
di esperienza presentano un legame lineare positivo. Quindi si conclude che l’affermazione
del quesito in esame è falsa perché la covarianza assume valore positivo.
27
1.4. DISTRIBUZIONI DOPPIE
2. La misura dell’intensità del legame associativo richiede il calcolo dell’indice di Cramer Φ2 . A
tale scopo si calcola prima l’indice di Pizzetti-Pearson:
χ2 =
k
h X
X
(nij − n∗ij )2
n∗ij
i=i j=1
e successivamente:
Φ2 =
χ2
N [min(h, k) − 1]
L’indice di Pizzetti-Pearson richiede il preliminare calcolo delle frequenze teoriche n∗ij =
ni. ×n.j
con i = 1, . . . , h e j = 1, . . . , k per le quali è utile costrure la seguente tabella:
N
Reddito minimo
0.9| − |1.525
1.525 − |2.15
2.15 − |2.775
2.775 − |3.4
Anni di esperienza
8 − |16 16 − |24 24 − |32
0.90
1.80
0.90
1.20
2.40
1.20
0.45
0.90
0.45
0.45
0.90
0.45
3
6
3
0| − |8
2.40
3.20
1.20
1.20
8
6
8
3
3
20
da cui segue che i termini della sommatoria dell’indice χ2 sono:
χ2
=
0.150 + 0.011 + 0.356 + 0.011 + 0.200 + 0.533 + 0.817 + 0.033 + 0.033 + 0.450 + 1.344 + 0.450 +
+1.200 + 0.450 + 1.344 + 0.672 = 8.054
dove ad esempio il primo termine è
2
(n11 −n∗
11 )
n∗
11
2
L’indice di Cramer è infine pari a Φ =
presentano un debole legame associativo.
=
8.054
20×3
(3−2.40)2
2.40
= 0.150 e cosı̀ via i restanti.
= 0.134 da cui emerge che le due variabili
3. La misura della forza del legame lineare è fornita dall’indice di correlazione per la cui
costruzione è richiesto l’utilizzo di alcuni indici già calcolati in precedenza, dati dalla covarianza tra le due variabili e dai rispettivi scarti quadratici medi.
Dal primo quesito del presente esercizio risulta che la covarianza tra le variabili Livello minimo
di reddito ed Anni di esperienza è σxy = 2.097, mentre dall’esercizio 7 la varianza del Livello
minimo di reddito è σx2 = 0.4 e quindi σx = 0.632. Resta quindi da calcolare la varianza della
variabile Anni di esperienza per la quale si utilizza la distribuzione di frequenze costruita per
tale variabile nell’esercizio 1 alla quale sono aggiunte alcune colonne necessare per il calcolo
dei momenti della variabile:
28
CAPITOLO 1. STATISTICA DESCRITTIVA
Anni di esperienza
classi
ni ci ci × ni
0| − |8
8
4
32
8 − |16
3 12
36
16 − |24 6 20
120
24 − |32 3 28
84
Totale
20
272
c2i × ni
128
432
2400
2352
5312
Dai dati in tabella si deriva che:
µy =
272
= 13.6
20
µ2y =
5312
= 265.6
20
σy2 = 256.6−13.62 = 80.64
e quindi
σy = 8.98
Utilizzando gli indici statistici opportunamente calcolati, l’indice di correlazione è:
ρxy =
2.097
= 0.369
0.632 × 8.98
quindi le due variabili presentano un legame lineare positivo piuttosto debole.
Esercizio 15
Utilizzando i dati in Tabella 1.2:
1. Costruire la distribuzione di frequenze doppia per le variabili RM ed Res (utilizzando per la
variabile RM quattro classi di modalità di uguale ampiezza).
2. Misurare l’intensità del legame associativo tra le variabili RM e Res.
2
Soluzione
1. La distribuzione di frequenze doppia delle variabili RM e Res è:
RM
1.4| − |3.675
3.675 − |5.95
5.95 − |8.225
8.225 − |10.5
Nord
1
2
1
1
5
Res
Centro
3
0
0
1
4
Sud
4
0
2
0
6
8
2
3
2
15
29
1.4. DISTRIBUZIONI DOPPIE
2. Come visto nell’esercizio precedente la misura del legame associativo richiede il preliminare
calcolo dell’indice di Pizzetti-Pearson χ2 e la sua successiva normalizzazione data dall’indice
Φ2 . A tale scopo si costruisce la seguente tabella delle frequenze teoriche:
RM
1.4| − |3.675
3.675 − |5.95
5.95 − |8.225
8.225 − |10.5
Nord
2.667
0.667
0.667
1
5
Res
Centro
2.133
0.533
0.533
1
4
Sud
3.200
0.800
0.800
0
6
8
2
3
2
15
da cui segue che l’indice χ2 è:
χ2
=
=
k
h X
X
(nij − n∗ij )2
=
n∗ij
i=i j=1
1.042 + 0.352 + 0.2 + 2.6640.533 + 0.8 + 0.8 + 0.533 + 0.166 + 0.409 + 0.8 = 8.30
2
χ
e quindi: Φ2 = N [min(h,k)−1]
=
legame associativo.
8.30
15×2
= 0.277, ovvero le le due variabili hanno un debole
Esercizio 16
Utilizzando nuovamente i dati in Tabella 1.2:
1. Costruire per le variabili RM e NL una distribuzione di frequenze doppia (utilizzando per la
variabile RM quattro classi di modalità della stessa ampiezza e per la variabile NL due classi
di modalità di pari ampiezza).
2. Misurare la forza del legame lineare tra RM ed NL impiegando la distribuzione di frequenze
doppia costruita nel precedente quesito.
3. Misurare la covarianza tra la variabile NL ed RMN precedentemente definita con la trasfromata lineare:
RMN = 0.3 + 1.15 × RM
4. Quale valore assume la correlazione tra RMN ed N L?
5. Calcolare la covarianza tra le variabili RM ed NL impiegando le due corrispondenti serie di
dati.
2
30
CAPITOLO 1. STATISTICA DESCRITTIVA
Soluzione
1. La distribuzione di frequenze doppia delle variabili RM ed N L è:
RM
1.4| − |3.675
3.675 − |5.95
5.95 − |8.225
8.225 − |10.5
0| − |2
8
2
0
0
10
2 − |4
0
0
3
2
5
8
2
3
2
15
2. Per misurare della forza del legame lineare è possibile avvalersi di alcune informazioni già
disponibili in precedenti quesiti. Infatti ricordando che:
ρRM,N L =
σRM,N L
σRM σN L
dove σRM,N L = µRM,N L − µRM µN L , dai risultati nell’esercizio 9 segue che:
µRM = 4.66
σRM = 2.557
La media e la varianza della variabile marginale N L sono calcolate agevolmente utilizzando
la tabella che segue:
NL
classi
0| − |2
2 − |4
Totale
ci
1
3
ni
10
5
15
ci × ni
10
15
25
c2i × ni
10
45
55
2
e quindi µN L = 1.667, µ2N L = 3.667, σN
L = 0.888 e σN L = 0.942.
Resta ora da calcolare il momento misto µRM,N L =
1
15
2
4 P
P
xi yi nij per il quale sono ne-
i=1 j=1
cessari i valori centrali delle classi delle due variabili, ci , riportati in tabella:
RM
1.4| − |3.675
3.675 − |5.95
5.95 − |8.225
8.225 − |10.5
ci
2.538
4.813
7.088
9.363
0| − |2
1
8
2
0
0
10
2 − |4
3
0
0
3
2
5
8
2
3
2
15
31
1.4. DISTRIBUZIONI DOPPIE
Segue quindi che:
µRM,N L =
1
(20.304 + 9.626 + 63.792 + 56.178) = 9.993
15
mentre la covarianza è: σRM,N L = 2.225.
Dai risultati precedenti il valore della correlazione è:
ρRM,N L =
9.993
= 0.923
2.557 × 0.942
che evidenzia la presenza di forte legame lineare positivo tra le due variabili.
3. L’impiego di alcune note regole sulle trasformate lineari agevola il calcolo della covarianza
tra le variabili N L ed RMN . In particolare ricordando che date due trasformate lineari, U e
V:
V = a + bX
U = c + dY
la loro covarianza è:
σU,V = bd · σX,Y
l’utilizzo di quest’ultima regola rende immediato il calcolo della covarianza richiesta.
Infatti:
σRMN ,N L = 1.15 · σRM,N L = 2.556
4. La correlazione tra le variabili RMN ed N L è invariata rispetto alla correlazione tra RM ed
N L in quanto, utilizzando ancora una volta alcune regole sulle trasformate lineari:
ρRMN ,N L =
1.15
ρRM,N L = 0.923
|1.15|
5. È noto che il calcolo degli indici statistici mediante l’utilizzo delle distribuzioni di frequenza
per classi rende il risultato conseguito approssimato rispetto a quello ottenuto dall’impiego
delle serie di dati. Per tale motivo si ripetono i calcoli della misura della correlazione tra le
variabili RM ed N L avvalendosi delle corrispondenti serie di dati in Tabella 1.2.
In particolare i momenti delle due variabili sono calcolati utilizzando i dati nella tabella che
segue da cui si deriva che:
µRM = 4.295
µN L = 1.933
µRM,N L = 11.196
σRM,N L = 2.894
32
CAPITOLO 1. STATISTICA DESCRITTIVA
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Totale
RM
4.25
1.78
10.5
6.11
3.56
8.3
1.52
2.3
1.5
4.3
1.65
3.33
1.4
6.04
7.89
64.43
NL
2
1
3
3
2
4
1
0
1
2
0
2
1
4
3
29
RM × N L
8.50
1.78
31.50
18.33
7.12
33.20
1.52
0.00
1.50
8.60
0.00
6.66
1.40
24.16
23.67
167.94
Esercizio 17
Si consideri la seguente distribuzione di frequenze doppia nella quale sono presi in esame il numero
di clienti di 100 aziende (NC) e l’ammontare delle spese di rappresentanza (SR):
SR
1 − |3.5
3.5 − |6
6 − |8.5
8.5 − |11
10 − |20
10
0
1
3
20 − |30
8
4
5
0
NC
30 − |40 40 − |50
3
6
2
4
3
7
2
4
50 − |60
12
1
11
0
60 − |70
2
0
3
9
1. Calcolare le medie delle sei distribuzioni condizionate SR|N C.
2. È possibile affermare che le distribuzioni condizionate derivate al punto precedente sono indipendenti in media?
3. Misurare la connessione tra le due variabili SR ed N C.
4. Dai risultati precedenti, è possibile affermare che N C ha una forte influenza su SR?
2
Soluzione
1. Il calcolo delle medie condizionate richiede l’utilizzo delle informazioni nella tabella proposta
che sono integrate con le frequenze marginali ed i valori centrali delle classi di modalità delle
due variabili:
33
1.4. DISTRIBUZIONI DOPPIE
SR
ci
2.250
4.750
7.250
9.750
1 − |3.5
3.5 − |6
6 − |8.5
8.5 − |11
10 − |20
15
10
0
1
3
14
20 − |30
25
8
4
5
0
17
30 − |40
35
3
2
3
2
10
NC
40 − |50
45
6
4
7
4
21
50 − |60
55
12
1
11
0
24
60 − |70
65
2
0
3
9
14
41
11
30
18
100
2. Le medie delle sei distribuzioni condizionate SR|N C sono quindi cosı̀ calcolate:
SR|N C = 15
2.250
4.750
7.250
9.750
Totale
µSR|N C=15
ni ci × ni
10
22.50
0
0.00
1
7.25
3
29.25
14
59
= 4.214
SR|N C = 45
2.250
4.750
7.250
9.750
Totale
µSR|N C=45
ni ci × ni
6
13.50
4
19.00
7
50.75
4
39.00
21 122.25
= 5.821
SR|N C = 25
2.250
4.750
7.250
9.750
Totale
µSR|N C=25
ni ci × ni
8
18
4
19
5
36.25
0
0
17 73.25
= 4.309
SR|N C = 55
2.250
4.750
7.250
9.750
Totale
µSR|N C=55
ni ci × ni
12
27.00
1
4.75
11
79.75
0
0.00
24 111.5
= 4.646
SR|N C = 35
2.250
4.750
7.250
9.750
Totale
µSR|N C=35
ni
3
2
3
2
10
= 5.75
ci × ni
6.75
9.50
21.75
19.50
57.5
SR|N C = 65
2.250
4.750
7.250
9.750
Totale
µSR|N C=65
ni ci × ni
2
4.50
0
0.00
3
21.75
9
87.75
14
114
= 8.143
3. Il carattere SR non è indipendente in media da NC in quanto le medie condizionate di SR|N C
sono differenti tra di loro ed a loro volta sono differenti dalla media della variabile marginale
SR, quindi la condizione di indipendenza in media data da:
µx|y1 = µx|y2 = ... = µx|yh = µx
non è soddisfatta.
4. La misura della connessione è effettuata mediante l’indice ηx|y =
r
var(µx|yj )
var(x)
(dove x ed y
corrispondono rispettivamente ad SR ed N C). Dalla formula appena proposta emerge la
necessità di calcolare la varianza delle medie condizionate e la varianza della variabile marginale SR. A tale scopo si utilizzano le medie delle distribuzioni condizionate del precedente
quesito e la loro varianza è calcolata con:
var(µx|yj ) =
h
1 X
(µx|yj − µx )2 n.j
N j=1
34
CAPITOLO 1. STATISTICA DESCRITTIVA
dove risulta necessario calcolare prima la media della marginale SR e successivamente si
ottiene la varianza delle medie condizionate.
È noto dalla teoria che µx = E[µx|yj ] quindi (ed è possibile verificarlo empiricamente) è
indifferente calcolare la media di SR utilizzando la distribuzione marginale SR dalla tabella
doppia costruita nel primo quesito, oppure ottenerla come media delle medie condizionate
delle distribuzioni SR|N C. Infatti nel primo caso si ha che:
SR
1 − |3.5
3.5 − |6
6 − |8.5
8.5 − |11
ci
2.250
4.750
7.250
9.750
Totale
ni
41
11
30
18
100
ci × ni
92.25
52.25
217.50
175.50
537.50
e quindi µSR = 5.375, mentre nel secondo caso:
µSR|N C
4.214
4.309
5.75
5.821
4.646
8.143
Totale
n.j
14
17
10
21
24
14
100
µSR|N C × n.j
58.996
73.253
57.500
122.241
111.504
114.002
537.496
la cui media è ancora pari a 5.375.
Le varianze della variabile marginale SR e delle medie condizionate µSR|N C sono invece
ottenute con:
SR
1 − |3.5
3.5 − |6
6 − |8.5
8.5 − |11
Totale
ci
2.250
4.750
7.250
9.750
ni
41
11
30
18
100
c2i × ni
207.563
248.188
1576.875
1711.125
3743.751
µSR|N C
4.214
4.309
5.75
5.821
4.646
8.143
Totale
n.j
14
17
10
21
24
14
100
(µSR|N C − µSR )2 × n.j
18.871
19.318
1.406
4.177
12.755
107.266
163.793
da cui segue che il momento secondo della variabile marginale SR è µ2SR = 37.438 e quindi
2
la varianza è σSR
= 37.438 − (5.375)2 = 8.547 mentre la varianza delle medie condizionate
2
σµSR|N C = 1.638
35
1.5. NUMERI INDICI
L’indice di connessione diventa quindi:
ηSR|N C =
r
1.638
= 0.438
8.547
5. Il risultato conseguito con l’indice di connessione permette di affermare che SR è dipendente
in media da N C ma tale influenza non è forte.
1.5
Numeri Indici
Esercizio 18
Il proprietario di un hotel chiede al suo consulente contabile alcune informazioni sulle spese sostenute
per l’acquisto di quattro beni negli ultimi 5 anni. A tale scopo gli fornisce alcuni dati relativi al
costo medio unitario (in Euro) ed al numero di unità di beni acquistati nei 5 anni di riferimento:
Anni
1999
2000
2001
2002
2003
Televisori
prezzo
quantità
( ×100)
2.5
2
2.7
7
2.8
6
3.1
15
2.9
9
Condizionatori
prezzo
quantità
( ×100)
4
3
4.8
6
5.2
1
4.9
4
4.2
7
Frigo Bar
prezzo
quantità
( ×100)
2.8
10
3.1
2
3.3
4
3.5
1
3.4
3
Impianti Stereo
prezzo
quantità
( ×100)
2.6
11
2.9
5
3.6
4
2.8
3
2.5
6
Il proprietario dell’hotel, allo scopo di avere dati di sintesi, chiede:
1. La serie dei numeri indici a base fissa 2001 dei prezzi dei Televisori
2. La serie dei numeri indici a base mobile dei prezzi dei Televisori
3. Le serie dei numeri indici di Laspeyres e di Paasches con anno base 2000.
2
Soluzione
1. La costruzione della serie dei numeri indici a base fissa 2001 dei prezzi dei Televisori è
effettuata utilizzando i seguenti rapporti:
01 It
pertanto la serie richiesta è:
=
pt
p01
t = 1999, . . . , 2003
36
CAPITOLO 1. STATISTICA DESCRITTIVA
Anno
01 It
1999
0.893
2000
0.964
2001
1.00
2002
1.107
2003
1.036
2. La serie dei numeri indici a base mobile è invece costruita con:
t−1 It
=
pt
pt−1
t = 1999, . . . , 2003
e quindi:
Anno
t−1 It
1999
-
2000
1.080
2001
1.037
2002
1.107
2003
0.935
3. I numeri indici di Laspeyres e Paasches con anno base 2000 sono calcolati utlizzando le
seguenti formule:
L
00 It
=
k
P
pt,i q00,i
i=1
k
P
P
00 It
=
p00,i q00,i
i=1
k
P
pt,i qt,i
i=1
k
P
t = 1999, . . . , 2003
p00,i qt,i
i=1
pertanto le corrispondenti serie sono calcolate utilizzando i dati nella seguente tabella dove
sono prima calcolati i singoli termini della sommatoria e successivamente è calcolato l’indice.
Numeri indici di Laspeyres
Televisori Condizionatori
Anni
1999
2000
2001
2002
2003
Frigo Bar
Impianti Stereo
pt × q 0
pt × q 0
pt × q 0
pt × q 0
17.5
18.9
19.6
21.7
20.3
24
28.8
31.2
29.4
25.2
5.6
6.2
6.6
7
6.8
13
14.5
18
14
12.5
Indice di Laspeyres
k
P
pti q00,i
L
00 It
60.1
68.4
75.4
72.1
64.8
0.879
1.000
1.102
1.054
0.947
i=1
In maniera simile è costruita la serie dei numeri indici di Paasches che, a differenza del’indice
di Laspeyres, richiede maggiori calcoli come evidenziato dalle seguenti tabelle.
37
1.5. NUMERI INDICI
Numeratori dei numeri indici di Paasches
Televisori Condizionatori Frigo Bar
Anni
pt × q t
pt × q t
pt × q t
pt × q t
5
18.9
16.8
46.5
26.1
12
28.8
5.2
19.6
29.4
28
6.2
13.2
3.5
10.2
28.6
14.5
14.4
8.4
15
1999
2000
2001
2002
2003
Denominatori dei numeri indici di Paasches
Televisori Condizionatori Frigo Bar
Anni
Impianti Stereo
pti qt,i
i=1
73.6
68.4
49.6
78
80.7
Impianti Stereo
p0 × q t
p0 × q t
p0 × q t
p0 × q t
5.4
18.9
16.2
40.5
24.3
14.4
8.8
4.8
19.2
33.6
31
6.2
12.4
3.1
9.3
31.9
14.5
11.6
8.7
17.4
1999
2000
2001
2002
2003
k
P
k
P
p0i qt,i
i=1
82.7
68.4
45
71.5
84.6
e quindi la serie dei numeri indici di Paasches è:
Anno
P
00 It
1999
0.890
2000
1.000
2001
1.102
2002
1.091
2003
0.954
Esercizio 19
Un gruppo di consumatori ha rilevato mensilmente i prezzi (in Euro) e le quantità di 4 beni di
prima necessità da loro acquistati in un semestre:
Mesi
Gennaio
Febbraio
Marzo
Aprile
Maggio
Giugno
Bene A
prezzo quantità
1.6
10
1.9
14
2.3
11
2.1
16
2.2
9
2.4
8
Bene B
prezzo quantità
3.7
15
3.9
12
4.5
18
4.2
11
4.4
16
4.8
10
Bene C
prezzo quantità
0.7
21
1.1
26
1.3
23
1.6
28
1.9
24
2.1
31
Bene D
prezzo quantità
7.8
12
8.2
15
8.4
9
8.5
13
8.1
12
8.8
9
1. Calcolare la serie dei numeri indici, a base fissa Marzo, dei prezzi del bene B.
2. Utilizzando quest’ultima serie, effettuare uno slittamento di base riportando i numeri indici
alla base Gennaio
38
CAPITOLO 1. STATISTICA DESCRITTIVA
3. Dai risultati del precedente quesito, è vero che il prezzo del Bene B ha subito un decremento
nel mese di Giugno rispetto a Gennaio? Commentare la risposta.
4. Calcolare la serie dei numeri indici a base mobile dei prezzi del bene C.
5. Osservando quest’ultima serie di numeri indici, i prezzi del bene C hanno subito decrementi
nel breve periodo?
6. Utilizzando la serie dei numeri indici a base mobile, costruire la serie dei numeri indici a
base fissa Febbraio.
2
Soluzione
1. La serie dei numeri indici a base fissa Marzo dei prezzi del bene A è generata come segue:
M arzo It
=
pt
pM arzo
t = Gennaio, . . . , Giugno
quindi la serie completa è pari a:
Mese
M arzo It
Gennaio
0.822
Febbraio
0.867
Marzo
1.000
Aprile
0.933
2. Per effettuare lo slittamento di base richiesto per la serie
formula:
Gennaio It
=
M arzo It
M arzo IGennaio
Maggio
0.978
M arzo It ,
Giugno
1.067
si utilizza la seguente
t = Gennaio, . . . , Giugno
dove il denominatore rimane costante ed è pari a M arzo IGennaio = 0.822 mentre la serie
completa dei numeri indici generata da tale cambiamento di base è:
Mese
M arzo It
Gennaio
1.000
Febbraio
1.054
Marzo
1.216
Aprile
1.135
Maggio
1.189
Giugno
1.297
3. L’affermazione è falsa in quanto Gennaio IGiugno = 1.297, ovvero il bene in esame presenta
un numero indice maggiore di uno e quindi nel mese di giugno il prezzo del bene B risulta
maggiore del prezzo osservato nel mese di Gennaio. In particolare tale incremento è stato
del 29.7%.
4. La serie dei numeri indici a base mobile per il bene C è generata, come visto in precedenza,
con:
t−1 It
da cui si ottiene:
=
pt
pt−1
t = Gennaio, . . . , Giugno
39
1.5. NUMERI INDICI
Mese
t−1 It
Gennaio
-
Febbraio
1.571
Marzo
1.182
Aprile
1.231
Maggio
1.188
Giugno
1.105
5. Dalla serie dei numeri indici a base mobile si osserva che in tutti i mesi oggetto di rilevazione
vi è stato un incremento dei prezzi rispetto al mese immediatamente precedente. Tale incremento è piuttosto marcato tra i mesi di Gennaio e Febbraio (in cui i prezzi si sono accresciuti
del 57, 1%) e meno elevato tra il mese di Maggio e Giugno in cui l’incremento è del 10, 5%.
6. Per generare la serie dei numeri indici a base fissa del bene C partendo da quelli a base
mobile, si utilizza la seguente relazione:
1 It
= 1 I2 · 2 I3 · ... · t−2 It−1 · t−1 It
Nel caso in esame è richiesto di costruire una serie dei numeri indici la cui base fissa non
coincide con il primo mese di rilevazione, come prevede invece la formula presentata, quindi
si rende necessario prima costruire la serie dei numeri indici a base fissa Gennaio e successivamente, mediante un cambio di base, generare la serie dei numeri indici a base fissa Febbraio.
Quindi si ottiene che le due serie da generare sono le seguenti:
Mese
Gennaio It
F ebbraio It
Gennaio
1.000
0.636
Febbraio
1.571
1.000
Marzo
1.857
1.182
Aprile
2.286
1.455
Maggio
2.714
1.727
Giugno
3.000
1.909
dove i numeri indici a base fissa Gennaio sono calcolati con:
Gennaio IF ebbraio
Gennaio IM arzo
Gennaio IAprile
e cos ı̀ via.
= Gennaio IF ebbraio = 1.571
=Gennaio IF ebbraio · F ebbraio IM arzo = 1.571 · 1.182 = 1.857
=Gennaio IF ebbraio ·F ebbraio IM arzo ·M arzo IAprile = 1.571 · 1.182 · 1.231 = 2.286
mentre il successivo slittamento di base necessario per generare la serie dei numeri indici con
base Febbraio è ottenuto dividendo Gennaio It con il valore di Gennaio IF ebbraio = 1.571 (per
t= Gennaio,...,Giugno).
Esercizio 20
Utilizzando i dati dell’esercizio precedente:
1. Costruire la serie dei numeri indici composti di Laspeyres con base Aprile per i 4 beni in
esame.
2. Osservando i risultati del precedente quesito, il paniere dei quattro beni esaminati dai consumatori ha subito incrementi nei prezzi tra il mese di Aprile ed il mese di Maggio?
3. Costruire la serie dei numeri indici composti di Paasches con base Aprile per i 4 beni in
esame.
2
40
CAPITOLO 1. STATISTICA DESCRITTIVA
Soluzione
1. Come nell’esercizio 18, la costruzione della serie dei numeri indice di Laspeyres può essere
semplificata utilizzando la seguente tabella:
Numeri indici di Laspeyres
Bene A
Bene B
Mesi
Gennaio
Febbraio
Marzo
Aprile
Maggio
Giugno
Bene C
Bene D
Indice di Laspeyres
pt × qAprile
pt × qAprile
pt × qAprile
pt × qAprile
25.6
30.4
36.8
33.6
35.2
38.4
40.7
42.9
49.5
46.2
48.4
52.8
19.6
30.8
36.4
44.8
53.2
58.8
101.4
106.6
109.2
110.5
105.3
114.4
k
P
pt,i qAprile,i
i=1
187.3
210.7
231.9
235.1
242.1
264.4
L
Aprile It
0.797
0.896
0.986
1.000
1.030
1.125
in cui nell’ultima colonna è presente la serie richiesta.
2. La serie dei numeri indici di Laspeyres evidenzia che il paniere dei beni esaminati ha subito
un incremento del 3% tra il mese di Aprile ed il mese di Maggio e quindi l’effermazione è
vera.
3. Anche la soluzione del presente quesito segue gli stessi passi dell’esercizio 18. In particolare
è calcolato il numeratore ed il denominatore dell’indice di Laspeyres e quindi si passa alla
costruzione degli opportuni rapporti.
Nella seguente tabella sono riportati in maniera più sintetica rispetto all’esercizio precedente
i risultati:
Numeri indici di Paasches
k
k
P
P
Mesi
pt,i qt,i
p0,i qt,i
i=1
Gennaio
Febbraio
Marzo
Aprile
Maggio
Giugno
179.8
225
211.8
235.1
233
211.5
Indice di Paasches
i=1
219.6
248.9
212
235.1
226.5
184.9
0.819
0.904
0.999
1.000
1.029
1.144
41
1.6. INTERPOLAZIONE
1.6
Interpolazione
Esercizio 21
La società Gamma s.p.a. utilizzando i dati in tabella 1.1 vuole valutare se un modello di interpolazione lineare sia in grado di descrivere la relazione esistente tra le variabili Livello minimo di
reddito mensile desiderato (RM) ed Anni di esperienza lavorativa(AL). A tale scopo:
1. Rappresentare graficamente le coppie di valori (AL,RM)
2. Osservando la nuvola di punti, è possibile affermare che tra le due variabili esiste un legame
lineare positivo?
3. Stimare i parametri del modello di interpolazione lineare:
RM = a + bAL + e
4. Utilizzando il modello di interpolazione stimato, a quale livello minimo di reddito ambirebbe
un individuo con 30 anni di esperienza lavorativa?
5. Se la variabile RM aumenta del 40%, le stime del modello di interpolazione restano immutate
o cambiano?
6. Se cambiano, riscrivere il nuovo modello di interpolazione stimando i parametri facendo uso
delle regole delle trasformate lineari.
2
Soluzione
1. La rappresentazione grafica delle coppie di valori (AL, RM ) è fornita dal diagramma scatter
in Figura 1.11
Figura 1.11: Diagramma scatter delle coppie di valori (ALi , RMi )
42
CAPITOLO 1. STATISTICA DESCRITTIVA
2. La nuvola di punti del grafico evidenzia un legame lineare positivo tra le due variabili. Infatti,
ad eccezione di qualche punto, tutte le coppie di valori possono essere ben interpolate da un
retta crescente.
3. La stima dei parametri a e b del modello di interpolazione lineare è ottenuta con:
â = Ȳ − b̂X̄
b̂ =
SXY
2
SX
dove Y = RM ed X = AL
Si rende quindi necessario calcolare la covarianza tra le due variabili in esame, la varianza
della variabile indipendente AL e le medie di ambo le variabili.
In particolare la covarianza e la varianza sono calcolate rispettivamente con:
SXY = mXY − X̄ · Ȳ
2
= m2X − X̄ 2
SX
A tal fine si fa uso dei dati in tabella:
unità
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Totale
RM
2.3
1.6
1.2
0.9
2.1
1.6
1.8
1.4
1.2
2.8
3.4
2.7
1.6
1.2
1.1
2.5
2
1.7
2.1
3.2
38.40
AL
2
8
21
1
15
3
28
5
13
20
32
23
1
0
29
18
19
7
12
23
280
RM × AL
4.6
12.8
25.2
0.9
31.5
4.8
50.4
7.0
15.6
56.0
108.8
62.1
1.6
0.0
31.9
45.0
38.0
11.9
25.2
73.6
606.9
AL2
4
64
441
1
225
9
784
25
169
400
1024
529
1
0
841
324
361
49
144
529
5924
38.4
Segue quindi che le medie delle due variabili sono X̄ = 280
20 = 14 e Ȳ = 20 = 1.92, il momento
606.9
misto mXY = 20 = 30.345 mentre il momento secondo di AL è m2X = 5924
20 = 296.2.
Si ottiene cosı̀ che:
SXY = 30.345 − 14 × 1.92 = 3.465
2
SX
= m2X − X̄ 2 = 296.2 − 142 = 100.2
43
1.6. INTERPOLAZIONE
Quindi le stime dei parametri sono:
b̂ =
3.465
= 0.035
100.2
â = 1.92 − 0.035 × 14 = 1.43
ed il modello di interpolazione lineare stimato è:
ˆ i = 1.43 + 0.035 × ALi
RM
i = 1, 2, . . . , 20
4. Assumendo che il modello di interpolazione lineare descrive correttamente il fenomeno oggetto
di studio, un individuo con 30 anni di esperienza (ovvero AL = 30) desidera il seguente livello
di reddito:
RM = 1.43 + 0.035 · 30 = 2.48
5. L’incremento del 40% di RM, come atteso, non lascia immutate le stime del modello di
interpolazione. Questo risultato emerge con evidenza se si osserva che tale variazione modifica
alcuni indici precedentemente calcolati.
Infatti la nuova variabile è RM 0 = RM + 0.40 × RM ovvero RM 0 = 1.40 × RM e quindi si
ottiene, utilizzando le regole delle trasformate lineari, che:
la media di RM 0
0
RM = 1.40RM = 1.40 × 1.92 = 2.688
la varianza di RM 0
2
2
2
SRM
0 = 1.40 · SRM = 0.949
la covarianza tra AL ed RM’
SAL,RM 0 = 1.40 · SAL,RM = 4.851
che quindi differiscono dai valori precedenti.
6. Utilizzando i risultati del precedente quesito è immediato stimare i parametri del modello di
interpolazione lineare:
RM 0 = a + b × AL + e
Infatti i parametri stimati a e b diventano:
b̂ =
SAL,RM 0
4.851
=
= 0.048
2
SAL
100.2
â = RM 0 − b̂ · AL = 2.688 − 0.048 × 14 = 2.016
e quindi il modello stimato è:
ˆ 0i = 2.016 + 0.048 × ALi
RM
i = 1, . . . , 20
44
CAPITOLO 1. STATISTICA DESCRITTIVA
Esercizio 22
Utilizzando i risultati dell’esercizio precedente relativi al modello di interpolazione RM = a+bAL+
e:
1. Valutare la bontà di accostamento del modello ai dati utilizzando l’indice R2 .
2. È vero che il modello stimato spiega almeno il 30% della variabilità totale?
3. Effettuare l’analisi grafica dei residui e commentare i risultati.
2
Soluzione
1. La verifica della bontà di accostamento del modello ai dati è effettuato mediante il calcolo
dell’indice R2 :
R2 =
SŶ2
SY2
ˆ ) ed S 2 è la varianza della variabile dipendove SŶ2 è la varianza dei valori interpolati (RM
Y
dente (RM ). A tale scopo si costruisce un’altra tabella, ad integrazione della precedente:
unità
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Totale
RM
2.3
1.6
1.2
0.9
2.1
1.6
1.8
1.4
1.2
2.8
3.4
2.7
1.6
1.2
1.1
2.5
2
1.7
2.1
3.2
38.40
AL
2
8
21
1
15
3
28
5
13
20
32
23
1
0
29
18
19
7
12
23
280
ˆ
RM
1.500
1.710
2.165
1.465
1.955
1.535
2.410
1.605
1.885
2.130
2.550
2.235
1.465
1.430
2.445
2.060
2.095
1.675
1.850
2.235
38.40
ˆ 2
RM
2.250
2.924
4.687
2.146
3.822
2.356
5.808
2.576
3.553
4.537
6.503
4.995
2.146
2.045
5.978
4.244
4.389
2.806
3.423
4.995
76.183
RM 2
5.29
2.56
1.44
0.81
4.41
2.56
3.24
1.96
1.44
7.84
11.56
7.29
2.56
1.44
1.21
6.25
4.00
2.89
4.41
10.24
83.400
45
1.6. INTERPOLAZIONE
ˆ i (i = 1, . . . , 20) sono ottenuti con:
dove i valori interpolati RM
ˆ 1 = 1.43 + 0.035 × 2 = 1.50
RM
ˆ
RM 2 = 1.43 + 0.035 × 8 = 1.71
ˆ 3 = 1.43 + 0.035 × 21 = 2.165
RM
...
ˆ che, come dimostrato dai risultati
Dai risultati in tabella è possibile calcolare la media di RM
teorici, coincide con la media di RM :
ˆ = 38.4 = 1.92
RM
20
mentre il momento secondo m2RM
=
ˆ
interpolati è:
76.183
20
= 3.809. Segue cosı̀ che la varianza dei valori
2
2
SRM
ˆ = 3.809 − 1.92 = 0.123
mentre la varianza dei valori osservati RM è:
2
=
SRM
83.4
− 1.922 = 0.484
20
Si ottiene infine che:
R2 =
0.123
= 0.254
0.484
2. Dal valore calcolato dell’indice R2 si osserva che il modello interpolato spiega il 25.4% della
variabilità totale del fenomeno, quindi l’affermazione è falsa.
3. Per effettuare l’analisi grafica dei residui si rende necessario calcolare i residui stimati êi =
ˆ i , i = 1, 2, . . . , 20, come presentato in Tabella 1.3.
RMi − RM
L’analisi grafica dei residui è poi effettuata rappresentando graficamente le coppie di valori
(i, êi ) in Figura 1.12 ed (êi , êi−1 ) in Figura 1.13.
46
CAPITOLO 1. STATISTICA DESCRITTIVA
unità
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Totale
RM
2.3
1.6
1.2
0.9
2.1
1.6
1.8
1.4
1.2
2.8
3.4
2.7
1.6
1.2
1.1
2.5
2
1.7
2.1
3.2
38.40
AL
2
8
21
1
15
3
28
5
13
20
32
23
1
0
29
18
19
7
12
23
280
ˆ
RM
1.500
1.710
2.165
1.465
1.955
1.535
2.410
1.605
1.885
2.130
2.550
2.235
1.465
1.430
2.445
2.060
2.095
1.675
1.850
2.235
38.40
êi
0.800
-0.110
-0.965
-0.565
0.145
0.065
-0.610
-0.205
-0.685
0.670
0.850
0.465
0.135
-0.230
-1.345
0.440
-0.095
0.025
0.250
0.965
Tabella 1.3: Calcolo dei residui stimati del modello di interpolazione
Nella Figura 1.12 si osserva che i punti rappresentati mostrano ancora un andamento crescente. Ciò lascia ipotizzare che il modello esaminato non sia stato in grado di cogliere tutta
la dinamica che lega le due variabili in esame e quindi che il modello di interpolazione lineare sia stato in grado di spiegare solo parzialmente la relazione esistente tra RM ed AL.
Questo risultato è invece meno evidente nel grafico successivo (Figura 1.13). Questo fornisce
un’ulteriore conferma di quanto osservato a seguito del calcolo dell’indice R2 il cui valore
aveva già evidenziato i limiti del modello adattato.
1.6. INTERPOLAZIONE
Figura 1.12: Analisi dei residui: diagramma scatter delle coppie di valori (i, êi )
Figura 1.13: Analisi dei residui: diagramma scatter delle coppie di valori (êi , êi−1 )
47
Capitolo 2
Calcolo delle Probabilità
2.1
Calcolo delle probabilità
Esercizio 1
Dati gli eventi A, B ⊂ Ω è noto che: che P (A) = 14 , P (B) =
1
3
e P (A ∩ B) = 16 .
1. Calcolare le seguenti probabilità:
(a) P (Ā)
(b) P (A ∪ B)
(c) P (A ∩ B)
(d) P (Ā ∩ B̄)
2. Se si considera un altro evento C, facente parte dello stesso spazio campione di A e B ed
incompatibile con A, calcolare P (A ∩ C)
3. Sapendo che P (C) = 18 , calcolare P (A ∪ C).
2
Soluzione
Le probabilità richieste sono le seguenti:
1. Il calcolo delle probabilità proposte richiede l’impiego di alcuni teoremi che sono di volta in
volta richiamati.
(a) P (Ā) = 1 − P (A) = 1 −
1
4
=
3
4
= 0.75
(b) Per il calcolo di P (A∪B) si utilizza uno dei teoremi del calcolo delle probabilità, secondo
il quale:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
da cui segue che:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =
48
5
1 1 1
+ − =
= 0.417
4 3 6
12
49
2.1. CALCOLO DELLE PROBABILITÀ
(c) Impiegando nuovamente il teorema utilizzato nel quesito (a):
P (A ∩ B) = 1 − P (A ∩ B) = 1 −
1
5
= = 0.833
6
6
(d) Dall’uso delle regole del de Morgan:
P (Ā ∩ B̄) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − 0.417 = 0.583
2. L’incompatibilità tra gli eventi A e C implica che:
P (A ∩ C) = P (φ) = 0
3. Ricordando che A ∩ C = φ, è possibile quindi impiegare il quarto postulato del calcolo delle
probabilità:
3
1 1
P (A ∪ C) = P (A) + P (C) = + = = 0.375
4 8
8
Esercizio 2
Dati due eventi A, B ⊂ Ω, è noto che: P (A) = 0.12, P (B) = 0.89 e P (A ∩ B) = 0.07. Calcolare
le seguenti probabilità:
1. P (A ∪ B)
2. P (A ∪ B̄)
3. P (Ā ∪ B)
4. P (Ā ∪ B̄)
2
Soluzione
Le probabilità proposte sono cosı̀ calcolate:
1. P (A ∪ B) = P (A) + P (B) − P (A ∪ B) = 0.12 + 0.89 − 0.07 = 0.94
2. P (A ∪ B̄) = P (A) + P (B̄) − P (A ∩ B̄) (da uno dei teoremi del calcolo delle probabilità)
Inoltre, eventualmente aiutandosi con i diagrammi di Venn, è agevole osservare che:
P (A ∩ B̄) = P (A) − P (A ∩ B)
e quindi:
P (A ∪ B̄) = P (A) + P (B̄) − P (A) + P (A ∩ B) = 1 − P (B) + P (A ∩ B) = 1 − 0.89 + 0.07 = 0.18
3. La souzione del presente quesito segue gli stessi passi logici del precedente.
P (Ā ∪ B) = P (Ā) + P (B) − P (Ā ∩ B)
dove anche in questo caso è facile dimostrare che P (Ā ∩ B) = P (B) − P (A ∩ B) e quindi:
P (Ā ∪ B) = P (Ā) + P (B) − P (B) + P (A ∩ B) = 1 − P (A) + P (A ∩ B) = 1 − 0.12 + 0.07 = 0.95
50
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
4. Il calcolo di questa probabilità richiede l’uso delle regole del de Morgan, infatti:
P (Ā ∪ B̄) = P (A ∩ B) = 1 − P (A ∩ B) = 1 − 0.07 = 0.93
Esercizio 3
Dati due eventi A e B, con A, B ⊂ Ω, è noto che P (A) = 0.5 e P (A ∪ B) = 0.6. Calcolare P (B)
sotto le seguenti ipotesi:
1. A e B sono indipendenti
2. A e B sono incompatibili
3. P (A|B) = 0.4
2
Soluzione
1. L’indipendenza tra i due eventi A e B implica che:
P (A ∩ B) = P (A)P (B)
Ricordando uno dei teoremi del calcolo delle probabilità:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
quindi:
P (A ∩ B) = P (A) + P (B) − P (A ∪ B)
Sostituendo quest’ultima relazione nella condizione di indipendenza:
P (A)P (B) = P (A) + P (B) − P (A ∪ B)
ovvero
0.5P (B) = 0.5 + P (B) − 0.6
e quindi
P (B) =
0.1
0.5
= 0.2
2. L’incompatibilità tra A e B consente di utilizzare il quarto postulato del calcolo delle probabilità:
P (A ∪ B) = P (A) + P (B)
e quindi P (B) = 0.6 − 0.5 = 0.1
3. Dal quinto postulato del calcolo delle probabilità:
P (A|B) =
P (A ∩ B)
P (B)
ed utilizzando alcune considerazioni fatte nel quesito 1., il numeratore può essere riscritto
con:
P (A) + P (B) − P (A ∪ B)
P (A|B) =
P (B)
51
2.1. CALCOLO DELLE PROBABILITÀ
Dai risultati forniti segue che
0.4P (B) = 0.5 + P (B) − 0.6
e quindi
0.1 = 0.6P (B)
ovvero
P (B) =
0.1
= 0.17
0.6
Esercizio 4
Un’urna contiene 15 palline, di cui 5 bianche (B), 7 rosse (R) e 3 nere (N). Calcolare:
1. la probabilità di estrarre una pallina bianca
2. la probabilità di estrarre una pallina bianca o rossa
3. la probabilità di non estrarre una pallina bianca
4. la probabilità che estraendo con reimmissione due palline, una sia bianca ed una sia nera
5. la probabilità che estraendo con reimmissione due palline siano entrambe nere
6. la probabilità che estraendo in blocco (senza reimmissione) due palline, siano entrambe bianche
7. la probabilità che estraendo in blocco (senza reimmissione) due palline almeno una sia bianca.
2
Soluzione
Le probabilità richieste sono:
1. P (B) =
5
15
= 0.333
2. La prova consiste nell’estrazione di una sola pallina, quindi gli eventi ”estrazione pallina B”
5
7
e ”estrazione pallina R” sono incompatibili, pertanto P (B ∪ R) = P (R) + P (B) = 15
+ 15
=
12
=
0.8
15
3. P (B̄) = 1 − P (B) = 1 − 0.333 = 0.777
4. I possibili esiti dell’estrazione sono (B ∩ N ) ∪ (N ∩ B) che a loro volta sono due eventi
incompatibili in quanto o si verifica (B ∩ N ) o si verifica (N ∩ B) dall’estrazione.
Passando quindi alle probabilità:
P [(B ∩ N ) ∪ (N ∩ B)] = P (B ∩ N ) + P (N ∩ B)
L’estrazione con reimmissione assicura inoltre l’indipendenza tra i due eventi elementari ”estrazione B” ed ”estrazione N”, quindi:
P (B ∩ N ) + P (N ∩ B) = P (B) · P (N ) + P (N ) · P (B) =
5. P (N ∩ N ) = P (N ) · P (N ) =
3
15
·
3
15
=
9
225
= 0.04
3 5
15
5 3
·
+
·
= 2·
= 0.133
15 15 15 15
225
52
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
6. Per il calcolo di questa probabilità il mancato reimbussolamento della pallina estratta condiziona la probabilità associata alla successiva estrazione, quindi:
P (B ∩ B) = P (B) · P (B|B) =
5 4
= 0.095
15 14
7. la parola almeno nel quesito implica che nell’estrazione fatta ci sia una o più di una pallina
bianca, quindi può accadere (B ∩ B̄) ∪ (B̄ ∩ B) ∪ (B ∩ B).
Passando alle probabilità queste risulteranno condizionate in quanto anche in questo caso la
pallina estratta non è più immessa nell’urna, quindi:
P [(B ∩ B̄) ∪ (B̄ ∩ B) ∪ (B ∩ B)] = P (B) · P (B̄|B) + P (B̄) · P (B|B̄) +
5 4
4
5 10 10 5
·
+
·
+
·
= = 0.571
+P (B) · P (B|B) =
15 14 15 14 15 14
7
Esercizio 5
Si lanciano due dadi regolari. Calcolare le seguenti probabilità:
1. P(somma dei puntini è 4)
2. P(somma dei puntini è ≤ 2)
3. P(somma dei puntini è < 0)
4. P(che solo uno dei due dadi presenta sei puntini)
5. P(che entrambi i dadi presentano sei puntini)
6. È più probabile ottenere un sei dal lancio di un dado regolare o dal lancio di due dadi regolari?
2
Soluzione
Per la soluzione di questo esercizio si indicherà con Di , con i = 1, 2, . . . , 6, l’esito del lancio del
dado, ovvero, ad esempio D1 =”lancio il dado ed esce uno”, D4 =”lancio il dado ed esce quattro”
ecc.
Le probabilità richieste sono le seguenti:
1. La somma quattro si ottiene con {1, 3}, {2, 2} e {3, 1}, quindi:
P (somma 4) = P [(D1 ∩D3 )∪(D2 ∩D2 )∪(D3 ∩D1 )] = P (D1 ∩D3 )+P (D2 ∩D2 )+P (D3 ∩D1 )
le prove associate al lancio del primo e del secondo dado sono inoltre indipendenti quindi:
P (D1 ∩ D3 ) + P (D2 ∩ D2 ) + P (D3 ∩ D1 ) = P (D1 ) · P (D3 ) + P (D2 ) · P (D2 ) +
2 2 2
1
1
1
1
+P (D3 ) · P (D1 ) =
= 0.083
+
+
=
6
6
6
12
53
2.1. CALCOLO DELLE PROBABILITÀ
2. È evidente che in questo caso che la somma non può essere minore di 2, quindi si terrà conto
solo del simbolo di uguaglianza per il calcolo della probabilità:
P (somma ≤ 2) = P (D1 ∩ D1 ) = P (D1 ) · P (D1 ) =
2
1
1
=
= 0.028
6
36
3. P (somma < 0) = P (φ) = 0
4. la probabilità è:
P [(D6 ∩ D̄6 ) ∪ (D̄6 ∩ D6 )] = P (D6 ∩ D̄6 ) + P (D̄6 ∩ D6 ) = P (D6 ) · P (D̄6 ) + P (D̄6 ) · P (D6 ) =
1 5 5 1
5
5
= · + · =2·
=
= 0.278
6 6 6 6
36
18
5. P (D6 ∩ D6 ) = P (D6 ) · P (D6 ) =
1 2
6
=
1
36
= 0.0278
6. È noto che la probabilità di avere un sei dal lancio di un dado regolare è 16 = 0.167. La
probabilità di avere un sei dal lancio di due dadi regolari, tenuto conto dei risultati precedenti,
risulta invece 0.278.
Quindi si può concludere che è più probabile avere un sei dal lancio di due dadi regolari che
dal lancio di un solo dado (come era lecito attendersi).
Esercizio 6
Si considerino 2 urne contenenti palline bianche (B) e rosse (R):
URNA 1:
URNA 2:
10 B
7B
8 R (totale 15)
13 R (totale 20)
Calcolare:
1. la probabilità che estraendo a caso una pallina da una delle urne sia bianca.
2. la probabilità che estraendo a caso una pallina da una delle urne sia rossa.
3. la probabilità che estraendo a caso una pallina da una delle urne non sia né rossa né bianca.
2
Soluzione
In questo caso il calcolo delle probabilità è condizionata dall’urna dalla quale l’estrazione è effettuata. Se si indicano con U1 ed U2 rispettivamente l’Urna 1 e l’Urna 2 dalle quali è fatta
l’estrazione, le probabilità richieste sono:
1. P (B) = P [(U1 ∩B)∪(U2 ∩B)] = P (U1 ∩B)+P (U2 ∩B) = P (U1 )·P (B|U1 )+P (U2 )·P (B|U2 )
Trovandoci in presenza di due sole urne P (U1 ) = P (U2 ) = 21 e quindi le probabilità richieste
sono:
163
1 10 1 7
+ ·
=
= 0.453
P (U1 ) · P (B|U1 ) + P (U2 ) · P (B|U2 ) = ·
2 18 2 20
360
54
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
2. P (R) = P [(U1 ∩ R) ∪ (U2 ∩ R)] = P (U1 ∩ R) + P (U2 ∩ R) = P (U1 ) · P (R|U1 ) + P (U2 ) · P (R|U2 )
Seguendo gli stessi passi precedenti:
P (U1 ) · P (R|U1 ) + P (U2 ) · P (R|U2 ) =
1 13
197
1 8
·
+ ·
=
= 0.547
2 18 2 20
360
3. P (R̄ ∩ B̄) = P {[U1 ∩ (R̄ ∩ B̄)] ∪ [U2 ∩ (R̄ ∩ B̄)]} = P (U1 )P (R̄ ∩ B̄|U1 ) + P (U2 )P (R̄ ∩ B̄|U2 )
È immediato osservare che P (R̄∩ B̄|Ui ) = 0 (per i = 1, 2) in quanto gli eventi sono impossibili
disponendo nelle urne solo di palline rosse e bianche. Quindi P (R̄ ∩ B̄) = 0
Esercizio 7
Un punto di ristoro sta facendo un’indagine sulle abitudini al fumo dei suoi clienti al fine di valutare
la necessità di creare una sala fumatori. A tale scopo intervista 200 clienti e rileva per ciascun
intervistato il genere e l’abitudine al fumo:
• genere: M, F
• abitudine al fumo: fumatore (FUM), non fumatore (NFUM)
Rileva che dei 200 intervistati, 50 sono uomini fumatori, 30 sono donne non fumatrici ed in totale
ha intervistato 80 individui di genere maschile. Calcolare la probabilità che estraendo a caso un
individuo intervistato:
1. sia fumatore: P (F U M )
2. sia una donna: P (F )
3. sia un uomo fumatore: P (M ∩ F U M )
4. sia un uomo o un fumatore: P (M ∪ F U M )
2
Soluzione
Per una più agevole soluzione dell’esercizio è utile costruire una tabella a doppia entrata che
contenga le informazioni fornite dalla traccia e che sia opportunamente completata (numeri in
rosso):
M
F
FUM
50
90
140
NFUM
30
30
60
Utilizzando i dati in tabella le probabilità richieste sono:
1. P (F U M ) =
2. P (F ) =
120
200
140
200
= 0.7
= 0.6
80
120
200
55
2.1. CALCOLO DELLE PROBABILITÀ
3. P (M ∩ F U M ) =
50
200
= 0.25
4. P (M ∪ F U M ) = P (M ) + P (F U M ) − P (M ∩ F U M ) =
80
200
+
140
200
−
50
200
=
17
20
= 0.85
Esercizio 8
Il Signor Bianchi partecipa ad una trasmissione televisiva durante la quale il conduttore gli mette
a disposizione 7 pacchi (numerati da 1 a 7) ciascuno dei quali presenta i seguenti contenuti:
n. pacco
premio
1
giocattolo
2
1000
3
4000
4
volatile
5
6000
6
500
7
10000
dove il contenuto in denaro dei pacchi 2, 3, 5, 6 e 7 è espresso in Euro.
Il Sig. Bianchi, che è a conoscenza dei premi in palio ma non della loro collocazione nei pacchi,
deve scegliere in blocco 2 pacchi il cui contenuto rappresenta la sua vincita.
Calcolare le seguenti probabilità:
1. la probabilità che il Sig. Bianchi vinca il volatile
2. la probabilità che il Sig. Bianchi non vinca del denaro
3. la probabilità che il Sig. Bianchi vinca almeno 11 mila Euro
4. la probabilità che il Sig. Bianchi vinca meno di 11 mila Euro.
2
Soluzione
Le probabilità richieste sono le seguenti:
1. Indicato con ”V” l’evento ”il Sig. Bianchi sceglie il pacco con il volatile”, la probabilità è
cosı̀ calcolata:
P [(V ∩ V̄ ) ∪ (V̄ ∩ V )] =P (V ∩ V̄ ) + P (V̄ ∩ V ) =
=P (V )P (V̄ |V ) + P (V̄ )P (V |V̄ ) =
2
1 6 6 1
· + · = = 0.286
7 6 7 6
7
2. Il quesito richiede il calcolo della probabilità che il Sig. Bianchi vinca il volatile ed il giocattolo. Indicati con ”V” e ”G” rispettivamente gli eventi ”il Sig. Bianchi sceglie il pacco con
il volatile”, ”il Sig. Bianchi sceglie il pacco con il giocattolo”, la probabilità è:
P [(V ∩ G) ∪ (G ∩ V )] =P (V ∩ G) + P (G ∩ V ) =
=P (V )P (G|V ) + P (G)P (V |G) =
1 1 1 1
1
· + · =
= 0.048
7 6 7 6
21
56
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
3. Le combinazioni di pacchi che permettono al Sig. Bianchi di vincere almeno 11000 Euro sono
fornite dalle seguenti coppie:
{P2 , P7 }; {P3 , P7 }; {P5 , P7 }; {P7 , P2 }; {P7 , P3 }; {P7 , P5 }
Quindi la probabilità richiesta è:
P (vincita ≥ 11000)
= P [(P2 ∩ P7 ) ∪ (P3 ∩ P7 ) ∪ (P5 ∩ P7 ) ∪ (P7 ∩ P2 ) ∪ (P7 ∩ P3 ) ∪
∪(P7 ∩ P5 )] = P (P2 ∩ P7 ) + P (P3 ∩ P7 ) + P (P5 ∩ P7 ) +
+P (P7 ∩ P2 ) + P (P7 ∩ P3 ) + P (P7 ∩ P5 ) =
= P (P2 ) · P (P7 |P2 ) + P (P3 ) · P (P7 |P3 ) + . . . + P (P7 ) · P (P5 |P7 ) =
1 1
·
= 0.143
=6·
7 6
4. Questa probabilità è calcolata ricordando che:
P (vincita < 11000) = 1 − P (vincita ≥ 11000)
quindi
P (vincita < 11000) = 1 − 0.143 = 0.857
2.2
Variabili Casuali Discrete
Esercizio 9
Si consideri la seguente variabile X:
X
pi
1
1/2
2
1/5
3
1/8
4
1/4
5
1/3
Può essere considerata una variabile casuale discreta?
2
Soluzione
Ricordando che una variabile casuale discreta è ben definita se e solo se:
pi ≥ 0
e
k
X
pi = 1
i=1
la variabile in esame non può essere casuale in quanto seppure tutte le probabilità sono non negative,
k
P
pi = 1.
pi ≥ 0 (per i = 1, 2, . . . , k, con k = 5), non è verificato che
i=1
57
2.2. VARIABILI CASUALI DISCRETE
Esercizio 10
L’arrivo dei pacchi postali ricevuti giornalmente dall’azienda Beta s.p.a. è descritto dalla seguente
variabile casuale:
X
pi
2
1/8
4
1/4
5
3/8
8
p
calcolare:
1. il valore di p
2. il valore atteso di X
3. la varianza di X
4. la probabilità che l’azienda riceva più di 4 pacchi in un giorno
5. la probabilità che l’azienda riceva almeno 4 pacchi in un giorno.
2
Soluzione
1. Ricordando che la somma delle pi della variabile casuale è 1, p risulta:
1 1 3
1
p=1−
+ +
=
8 4 8
4
2. Il valore atteso di X è:
k
X
i=1
xi · pi = 2 ·
1
3
1
41
1
+4· +5· +8· =
= 5.125
8
4
8
4
8
3. La varianza di X è calcolata come differenza tra momenti, V ar(X) = E(X 2 ) − E(X)2 , dove
il momento secondo:
E(X 2 ) = 4 ·
1
1
3
1
239
+ 16 · + 25 · + 64 · =
= 29.875
8
4
8
4
8
Quindi la varianza è:
V ar(X) = 29.875 − (5.125)2 = 3.609
4. Questa probabilità risulta:
P (X > 4) =
3 1
5
+ = = 0.625
8 4
8
58
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
5. La probabilità di ricevere almeno 4 pacchi è:
P (X ≥ 4) =
7
1 3 1
+ + = = 0.875
4 8 4
8
Esercizio 11
Un esperimento casuale si compone di 15 prove ed il suo modello probabilistico che lo descrive è
una variabile casuale Binomiale X ∼ B(15; 0.4). Calcolare:
1. la probabilità di avere 4 successi
2. la probabilità di avere non più di 4 successi
3. la probabilità di avere almeno 3 successi
4. la probabilità di avere più di 15 successi
2
Soluzione
La variabile in esame è la Binomiale X ∼ B(n, p) che, come noto, ha distribuzione di probabilità:
n
px (1 − p)n−x
con x ∈ [0, n]
P (X = x) =
x
con media E(X) = n · p e varianza V ar(X) = n · p · (1 − p). Quindi:
1. Il valore atteso è
E[X] = 15 · 0.4 = 6
2.
P (X = 4) =
15
4
mentre la varianza è
0.44 · 0.611 =
V ar(X) = 15 · 0.4 · 0.6 = 3.6
15!
0.44 · 0.611 = 0.1268
4!11!
3.
P (X ≤ 4)
= P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) =
15
15
15
0.42 · 0.613 +
0.41 · 0.614 +
0.40 · 0.615 +
=
2
1
0
15
15
+
0.43 · 0.612 +
0.44 · 0.611 =
3
4
= 0.00047 + 0.0047 + 0.02194 + 0.06339 + 0.1268 = 0.2173
4.
P (X ≥ 3) = 1 − P (X < 3) = 1 − 0.02711 = 0.97289
5. La probabilità richiesta in questo caso è relativa ad un evento impossibile quindi:
P (X > 15) = P (φ) = 0
2.2. VARIABILI CASUALI DISCRETE
59
Esercizio 12
È noto che un calciatore su 10 rigori ne mette a segno 7. Calcolare la probabilità che tirando 20
rigori:
1. ne mette a segno almeno 3
2. ne mette a segno più di 18
3. non sbaglia alcun rigore
2
Soluzione
L’esercizio ha ad oggetto eventi che presentano una chiara dicotomia: il calciatore ”segna il rigore”,
7
= 0.7
”non segna il rigore” e la probabilità di successo (ovvero ”segna il rigore”) è p = 10
Quindi è possibile rispondere al quesito utilizzando una variabile casuale Binomiale che è in grado
di descrivere il fenomeno in esame: X ∼ B(20, 0.7). Segue quindi che:
1. La probabilità che il giocatore metta a segno almeno tre rigori è:
P (X ≥ 3) = 1 − P (X < 3) = 1 − [P (X = 0) + P (X = 1) + P (X = 2)] =
20
20
20
0
20
1
19
2
18
=1−
0.7 (1 − 0.7) +
0.7 (1 − 0.7) +
0.7 (1 − 0.7)
0
1
2
Tutte le probabilità tra le parentesi quadre sono approssimabili a zero, quindi:
P (X ≥ 3) = 1 − P (X < 3) ≈ 1
2. La probabilità che il giocatore metta a segno più di 18 rigori è:
20
20
P (X > 18) = P (X = 19) + P (X = 20) =
0.719 (1 − 0.7)1 +
0.720 (1 − 0.7)0 =
19
20
= 20 · 0.719 (0.3) + 0.720 = 0.0068 + 0.0008 = 0.0076
3. Dai risultati precedenti: P (X = 20) = 0.0008
Esercizio 13
Dovete sostenere un esame scritto sotto forma di quiz con 5 domande per ognuna delle quali
la risposta è vero o falso. Per superare la prova bisogna rispondere correttamente ad almeno 3
domande. Calcolare la probabilità di superare l’esame rispondendo a caso.
2
Soluzione
La soluzione del quesito può essere fornita utilizzando la variabile casuale Binomiale.
Sapendo che ciascuna domanda prevede due sole possibili risposte vero o falso, la probabilità di
rispondere correttamente è p = 0.5 che può essere intesa come probabilità di successo nella risposta
alla domanda del quiz.
60
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
Poichè la risposta è valutata dalla commissione in maniera dicotomica ”corretta” ”non corretta”,
il fenomeno in esame può essere descritto da una variabile casuale Binomiale B(5, 0.5), dove N=5
è il numero di prove (quesiti nel nostro caso) e p = 0.5 è la probabilità di successo.
Ricordando che per superare la prova bisogna rispondere correttamente ad almeno tre domande
(ovvero a tre o più domande), il problema si riduce quindi a calcolare la probabilità P (X ≥ 3),
con X ∼ B(5, 0.5).
Quindi, ricordando la distribuzione di probabilità della Binomiale:
n
px (1 − p)n−x
con x ∈ [0, n]
P (X = x) =
x
segue che:
5 X
5
0.5i (1 − 0.5)5−i = 0.3125 + 0.15625 + 0.03125 = 0.5
P (X ≥ 3) =
i
i=3
ovvero fornendo risposte a caso alle domande del quiz, la probabilità di superare la prova è pari a
0.5.
Esercizio 14
La probabilità che un giocatore di basket faccia canestro al tiro libero è 0.7. Assumendo che in una
partita vi siano 15 tiri liberi, calcolare:
1. la probabilità che il giocatore metta a segno tutti i tiri liberi
2. la probabilità che il giocatore metta a segno 14 tiri liberi
2
Soluzione
Indicato con ”T” l’evento che il giocatore di basket metta a segno il tiro libero ed osservando che
la sua probabilità di successo è 0.7, le probabilità richieste possono essere calcolate con semplicità.
In particolare, la dicotomia dell’esito del tiro libero del giocatore rende il fenomeno descrivibile
con una variabile casuale Binomiale B(15; 0.7) e quindi:
15
(0.7)15 · (1 − 0.7)0 = 0.0047
1. P (T = 15) =
15
15
2. P (T = 14) =
(0.7)14 · (1 − 0.7) = 0.03
14
Esercizio 15
Sia X una variabile casuale di Poisson con parametro λ = 4. Calcolare:
1. il valore atteso e la varianza di X
2. P (X = 2)
61
2.2. VARIABILI CASUALI DISCRETE
3. P (X > 2)
4. la probabilità che X sia almeno pari a 2.
2
Soluzione
1. Dai risultati teorici relativi alla variabile casuale di Poisson E(X) = V ar(X) = λ, quindi il
valore atteso e la varianza di X sono entrambi pari a 4.
2. Utilizzando la distribuzione di probabilità della variabile casuale di Poisson:
P (X = x) =
P (X = 2) =
e−4 ·42
2!
e−λ · λx
x!
con
x>0
= 0.1465
3.
P (X > 2)
= 1 − P (X ≤ 2) = 1 − [P (X = 0) + P (X = 1) + P (X = 2)] =
−4 0
e ·4
e−4 · 41
+
+ 0.1465 = 1 − [0.0183 + 0.0733 + 0.1465] = 0.7622
= 1−
0!
1!
4. L’affermazione equivale al calcolo della probabilità P (X ≥ 2) che, utilizzando i risultati
precedenti, è pari a:
P (X ≥ 2) = 0.1465 + 0.7622 = 0.9087
Esercizio 16
Un ingresso autostradale possiede 5 caselli. Sapendo che il numero di auto che arrivano ai caselli
in un minuto si distribuisce come una variabile casuale di Poisson con λ = 3, calcolare:
1. la probabilità che in un minuto non arrivino auto
2. la probabilità che in un minuto arrivino 2 auto
3. la probabilità che vi siano auto incolonnate per l’attraversamento del casello
2
Soluzione
La variabile che descrive il fenomeno è X ∼ P (λ), con λ = 3.
1. La probabilità che non arrivino auto per un minuto è:
P (X = 0) =
e−3 30
= e−3 = 0.0498
0!
62
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
2. La probabilità che arrivino 2 auto in un minuto è:
P (X = 2) =
e−3 32
e−3 · 9
=
= 0.224
2!
2
3. La probabilità che vi siano auto incolonnate per l’attraversamento del casello equivale a dire
che sono arrivate più di 5 auto (ovvero un numero di auto superiore ai caselli disponibili) e
quindi:
P (X > 5) = 1 − P (X ≤ 5) = 1 − [P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) +
e−3 34
e−3 35
e−3 33
−3
+
+
=
+P (X = 4) + P (X = 5)] = 1 − 0.0498 + e 3 + 0.224 +
3!
4!
5!
= 1 − (0.0498 + 0.1494 + 0.224 + 0.224 + 0.168 + 0.1008) = 0.084
2.3
Variabili Casuali Continue
Esercizio 17
Sia X ∼ N (5; 14), calcolare le seguenti probabilità:
1. P (X < 2)
2. P [(X − µ) > 4]
3. P (|X| > 1)
4. P [(X − µ) < 0.5]
5. P (|X − µ| < 3)
6. P (X > 2 ∩ X < 4)
7. P (X < 3 ∪ X > 9.5)
2
Soluzione
Data la variabile casuale X ∼ N (5; 14), le probabilità richieste sono:
1.
=
2−5
= P (Z < −0.80) = Φ(−0.80) =
3.74
1 − Φ(0.80) = 1 − 0.7881 = 0.2119
P (X < 2) = P
Z<
2.
P [(X − µ) > 4]
= P Z>
=
4
= P (Z > 1.07) = 1 − Φ(1.07) =
3.74
1 − 0.8577 = 0.1423
63
2.3. VARIABILI CASUALI CONTINUE
3.
P (|X| > 1)
1−5
−1 − 5
∪Z >
=
3.74
3.74
= P (Z < −1.60 ∪ Z > −1.07) = 1 − P (−1.60 < Z < −1.07) =
= P (X < −1 ∪ X > 1) = P
Z<
avvalendosi della simmetria della variabile casuale Normale
=
=
1 − P (1.07 < Z < 1.60) = 1 − [Φ(1.60) − Φ(1.07)] =
1 − (0.9452 − 0.8577) = 0.9125
4.
P [(X − µ) < 0.5]
0.5
=
3.74
= P (Z ≥ 0.13) = 1 − Φ(0.13) = 1 − 0.5517 = 0.4483
= P [(X − µ) ≥ 0.5] = P
Z≥
5.
P (|X − µ| < 3) = P [−3 < (X − µ) < 3] = P (−0.80 < Z < 0.80) = Φ(0.80) − Φ(−0.80) =
= 2 · Φ(0.80) − 1 = 2 · 0.7781 − 1 = 0.5562
6.
P (X > 2 ∩ X < 4)
= P (2 < X < 4) = P (−0.80 < Z < −0.27) = P (0.27 < Z < 0.8) =
= Φ(0.8) − Φ(0.27) = 0.7881 − 0.6064 = 0.1817
(anche in questo caso si è fatto uso della simmetria della variabile casuale Normale)
7.
P (X < 3 ∪ X > 9.5)
=
i due eventi in esame sono incompatibili e quindi dal quarto postulato
= P (X < 3) + P (X > 9.5) = P (Z < −0.53) + P (Z > 1.20) =
= [1 − Φ(0.53)] + [1 − Φ(1.20)] = (1 − 0.7019) + (1 − 0.8849) =
=
0.4132
Esercizio 18
Sia X ∼ N (5; 14) e sia Y una sua trasformata lineare: Y = 4 + 3X. Calcolare:
1. P (|Y | > 20)
2. P (Y < 4 ∪ Y > 1)
3. P [(Y − µ) < 3.9]
4. P (Y < 9 ∩ Y > 5)
2
64
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
Soluzione
Data la variabile casuale X ∼ N (5; 14), la sua trasformata lineare Y = 4 + 3X, per la proprietà
riproduttiva della variabile casuale Normale, ha distribuzione ancora Normale ma con valore atteso
e varianza date rispettivamente da:
E(Y ) = E(4 + 3X) = 4 + 3 · E(X) = 4 + 3 · 5 = 19
V ar(Y ) = 32 · V ar(X) = 9 · 14 = 126
ovvero Y ∼ N (19, 126). Quindi le probabilità sono calcolate con:
1.
P (|Y | > 20)
= P (Y < −20 ∪ Y > 20) =
l’incompatibilità dei due eventi permette di utilizzare ancora una volta il quarto postulato
−20 − 19
20 − 19
+P Z >
=
11.22
11.22
= P (Z < −3.48) + P (Z > 0.09) = 1 − Φ(3.48) + 1 − Φ(0.09) =
= P (Y < −20) + P (Y > 20) = P
=
2.
Z<
0.0003 + 0.0.4641 = 0.4644
P (Y < 4 ∪ Y > 1) = P (Ω) = 1
ovvero almeno una delle due disuguaglianze è sempre verificata.
3.
P [(X − µ) < 3.9]
4.
P (Y < 9 ∩ Y > 5)
= P
Z<
3.9
11.22
= P (Z < 0.35) = 0.6368
9 − 19
5 − 19
<Z<
=
= P (5 < Y < 9) = P
11.22
11.22
= P (−1.25 < Z < −0.89) = P (0.89 < Z < 1.25) =
= Φ(1.25) − Φ(0.89) = 0.8944 − 0.8133 = 0.0811
Esercizio 19
Si consideri la seguente variabile casuale X ∼ N (4; 37) e si calcolino le seguenti probabilità:
1. P [(X − µ) > 1.3 ∪ X > 4.5]
2. P [|X| < 5 ∩ (X − µ) < 0.5]
3. P (|X − µ| < 2)
4. P (|X| > 3 ∪ |X| < 1)
5. P (|X − µ| < 1.5 ∩ X > 0)
6. P (|X − µ| > 1.5 ∩ X > 0)
2
2.3. VARIABILI CASUALI CONTINUE
65
Soluzione
Utilizzando la variabile casuale X ∼ N (4; 37) le probabilità richieste sono le seguenti:
1.
P [(X − µ) > 1.3 ∪ X > 4.5] = P [(X − µ) ≤ 1.3 ∪ X > 4.5] =
4.5 − 4
1.3
∪Z >
=P Z≤
= P [Z ≤ 0.21 ∪ Z > 0.08] = P (Ω) = 1
6.08
6.08
2.
P [|X| < 5 ∩ (X − µ) < 0.5] = P [−5 < X < 5 ∩ (X − µ) < 0.5] =
−5 − 4
5−4
0.5
<Z<
∩Z <
= P [(−1.48 < Z < 0.16) ∩ Z < 0.08] =
=P
6.08
6.08
6.08
= P [−1.48 < Z < 0.08] = Φ(0.08) − Φ(−1.48) = Φ(0.08) − [1 − Φ(1.48)] =
= 0.5319 − (1 − 0.9306) = 0.4625
3.
P [|X − µ| < 2] = P [|X − µ| ≥ 2] = P [(X − µ) ≤ −2 ∪ (X − µ) ≥ 2] =
2
−2
∪Z ≥
=P Z≤
= P [Z ≤ −0.33 ∪ Z ≥ 0.33] =
6.08
6.08
a seguito dell’incompatibilità dei due eventi
= P (Z ≤ −0.33) + P (Z ≥ 0.33) = [1 − Φ(0.33)] + [1 − Φ(0.33)] = 2 · [1 − Φ(0.33)] =
= 2 · (1 − 0.6293) = 0.7414
4.
P (|X| > 3 ∪ |X| < 1) = P [(X < −3 ∪ X > 3) ∪ (−1 < X < 1)] =
−3 − 4
3−4
1−4
−1 − 4
=P
Z<
∪
=
∪Z >
<Z<
6.08
6.08
6.08
6.08
= P [(Z < −1.15 ∪ Z > −0.16) ∪ −0.82 < Z < −0.49] =
= P (Z < −1.15) + P (−0.82 < Z < −0.49) + P (Z > −0.16) =
utilizzando la simmetria della variabile casuale Normale
= [1 − Φ(1.15)] + Φ(0.82) − Φ(0.49) + Φ(0.16) = 0.1251 + 0.7939 − 0.6879 + 0.5636 = 0.7947
5.
P (|X − µ| < 1.5 ∩ X > 0) = P [−1.5 < (X − µ) < 1.5 ∩ X > 0] =
1.5
−4
−1.5
<Z<
∩Z >
=P
= P [(−0.25 < Z < 0.25) ∩ Z > −0.66] =
6.08
6.08
6.08
= P (−0.25 < Z < 0.25) = Φ(0.25) − [1 − Φ(0.25)] = 2 · Φ(0.25) − 1 = 2 · 0.5987 − 1 = 0.1974
66
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
6.
P (|X − µ| > 1.5 ∩ X > 0) = P [((X − µ) < −1.5 ∪ (X − µ) > 1.5) ∩ X > 0] =
= P [(Z < −0.25 ∪ Z > 0.25) ∩ Z > −0.66] = P (−0.66 < Z < −0.25) + P (Z > 0.25) =
utilizzando la proprietà di simmetria della variabile casuale Normale
= P (0.25 < Z < 0.66) + P (Z > 0.25) = Φ(0.66) − Φ(0.25) + [1 − Φ(0.25)] =
= Φ(0.66) + 1 − 2 · Φ(0.25) = 0.7454 + 1 − 2 · 0.5987 = 0.548
Esercizio 20
Sia X ∼ N (2; 15), calcolare le seguenti probabilità:
1. P [|X| < 1.5 ∪ (X − µ) < 0]
2. P [X ≤ 3 ∪ (X − µ) > 0.5]
3. P [(X − µ) < 1.8 ∩ X = 2]
2
Soluzione
Data la variabile casuale X ∼ N (2; 15), le probabilità sono:
1.
P [|X| < 1.5 ∪ (X − µ) < 0]
= P [−1.5 < X < 1.5 ∪ (X − µ) < 0] =
= P (−0.90 < Z < −0.13 ∪ Z < 0) = P (Z < 0) = 0.5
2.
P [X ≤ 3 ∪ (X − µ) > 0.5]
3.
= P [X > 3 ∪ (X − µ) > 0.5] =
= P (Z > 0.26 ∪ Z > 0.13) = P (Z > 0.13) = 1 − Φ(0.13) = 0.4483
P [(X − µ) < 1.8 ∩ X = 2] = P (X = 2) = 0
Esercizio 21
Sia X ∼ N (4; 37), si calcolino i seguenti percentili:
1. P (X < x0 ) = 0.67
2. P (X > x0 ) = 0.1423
3. P [(X − µ) < x0 ] = 0.8413
2
2.3. VARIABILI CASUALI CONTINUE
67
Soluzione
Il calcolo dei percentili è effettuato ricordando che data la v.c. X ∼ N (4; 37), la probabilità
P (X < x0 ) = P (Z < z0 ), dove Z è la v.c. Normale standardizzata N (0, 1) e z0 = x0σ−µ .
Da quest’ultima relazione segue che x0 = z0 · σ + µ, ovvero se sono noti z0 ed i parametri (µ e σ)
della variabile casuale Normale X, è possibile risalire al valore di x0 .
Quindi i percentili della variabile X ∼ N (4; 37) saranno i seguenti:
1. P (X < x0 ) = 0.67
Consultando le tavole della variabile casuale Normale standardizzata Φ(z0 ) = 0.67 corrisponde a z0 = 0.44, quindi:
x0 = 0.44 · 6.08 + 4 = 6.675
2. P (X > x0 ) = 0.1423
È noto che P (X ≤ x0 ) = 1 − P (X > x0 ), quindi P (X ≤ x0 ) = 1 − 0.1423 = 0.8577.
Il percentile corrispondente a 0.8577 è z0 = 1.07 ed allora:
x0 = 1.07 · 6.08 + 4 = 10.506
3. P [(X − µ) < x0 ] = 0.8413
In questo caso z0 = x0 /σ, ovvero x0 = z0 · σ. Quindi osservando che a 0.8413 corrisponde
z0 = 1, allora x0 = 1 · 6.08 = 6.08
Esercizio 22
Sia X ∼ t(15) calcolare le seguenti probabilità:
1. P (X > 1.341)
2. P (X < 2.602)
3. P (1.753 < X < 2.947)
4. P (X < −1.341)
5. P (X > −0.691)
2
Soluzione
Le probabilità richieste sono:
1. P (X > 1.341) = 0.1
2. P (X < 2.602) = 1 − 0.01 = 0.99
3. P (1.753 < X < 2.947) = 0.05 − 0.005 = 0.045
4. P (X < −1.341) =
per la simmetria della variabile casuale t
P (X < −1.341) = P (X > 1.341) = 0.10
68
CAPITOLO 2. CALCOLO DELLE PROBABILITÀ
5. P (X > −0.691) =
ancora una volta sfruttando la simmetria della variabile casuale t
P (X > −0.691) = P (X < 0.691) = 1 − P (X > 0.691) = 1 − 0.25 = 0.75
Esercizio 23
Sia X ∼ t(15) calcolare i seguenti percentili:
1. P (X > x0 ) = 0.05
2. P (X > x0 ) = 0.025
3. P (X < x0 ) = 0.9
4. P (X > x0 ) = 0.95
2
Soluzione
Utilizzando le tavole della v.c. t, i percentili sono i seguenti:
1. x0 = 1.753
2. x0 = 2.131
3. Ricordando che per la simmetria della variabile casuale t-Student P (X < x0 ) = 1 − P (X ≥
x0 ), quindi P (X ≥ x0 ) = 1 − P (X < x0 ) = 1 − 0.90 = 0.10 e segue che: x0 = 1.341
4. Anche in questo caso si fa uso della simmetria della variabile casuale t-Student rispetto
all’origine degli assi. In particolare, è noto che l’area sottesa alla sua funzione di densità
nell’intervallo (−∞, 0) è 0.5 e lo stesso vale per l’intervallo [0, +∞). Quindi affichè la probabilità sia quella indicata dall’esercizio, ovvero P (X > x0 ) = 0.95, il valore di x0 deve
essere negativo. A tale scopo, per fini esplicativi, il percentile è fatto precedere da un segno
negativo e la probabilità è indicata con P (X > −x0 ) = 0.95. Inoltre se P (X > −x0 ) = 0.95
allora P (X ≤ −x0 ) = 0.05 e quindi utilizzando nuovamente la simmetria della t-Student
P (X ≤ −x0 ) = P (X ≥ x0 ) = 0.05 Segue che il percentile corrispondente a 0.05 è x0 = 1.753
e quindi −x0 = −1.753.
Esercizio 24
Sia X ∼ χ2(5) , si calcolino le seguenti probabilità:
1. P (X > 11.0705)
2. P (X > 0.5543)
3. P (X < 12.8325)
4. P (X < 1.61031)
2
2.3. VARIABILI CASUALI CONTINUE
69
Soluzione
Per calcolare le probabilità richieste bisogna utilizzare, in maniera opportuna, le due tavole della
variabile casuale χ2(g) . In particolare limitando l’attenzione al caso g = 5:
1. P (X > 11.0705) = 0.05
2. P (X > 0.55430) = 1 − 0.01 = 0.99
3. P (X < 12.8325) = 1 − 0.025 = 0.975
4. P (X < 1.61031) = 0.1
Esercizio 25
Sia X ∼ χ2(5) , si calcolino i seguenti percentili:
1. P (X > x0 ) = 0.01
2. P (X < x0 ) = 0.9
3. P (X < x0 ) = 0.05
4. P (X > x0 ) = 0.05
2
Soluzione
I percentili sono i seguenti:
1. x0 = 15.0863
2. La P (X < x0 ) = 1 − P (X ≥ x0 ), quindi P (X ≥ x0 ) = 1 − 0.90 = 0.10 ed il percentile
corrispondente è x0 = 9.23635
3. x0 = 1.14547
4. x0 = 11.0705
Capitolo 3
Inferenza Statistica
3.1
Stime puntuali
Esercizio 1
Un campione casuale di 20 unità è estratto da una popolazione X ∼ f (µ, σ 2 ), dove f è una funzione
di densità:
{2.62, 9.78, 1.11, 6.39, 6.81, 4, 4.74, 0.48, 3.96, 0.64, 0.91, 6.51, 5.77, 6.7, 8.75, 9.96, 7.64, 5.7, 9.9, 0.63}
Stimare i parametri incogniti µ e σ 2 di X avvalendosi di stimatori non distorti.
2
Soluzione
È dimostrato in teoria che uno stimatore non distorto per la media µ è la media campionaria
n
n
P
P
1
X̄ = n1
xi mentre uno stimatore non distorto per la varianza σ 2 è s2 = n−1
(xi − x̄)2 .
i=1
i=1
Utilizzando i dati campionari ed avvalendosi dei dati in Tabella 3.1, la stima della media è x̄ = 5.15
mentre la stima della varianza è ŝ2 = 10.62.
Esercizio 2
Data la popolazione X ∼ N (14; 56) da cui è estratto un campione di 20 unità, calcolare le seguenti
probabilità:
1. P (X̄ > 3)
2. P (|X̄ − µ| < 1.2)
3. Sia Y = 2.1 − 3.4X̄, calcolare la probabilità: P [Y < 2 ∪ (Y − µ) > 3.1].
2
70
71
3.1. STIME PUNTUALI
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Totale
xi
2.62
9.78
1.11
6.39
6.81
4
4.74
0.48
3.96
0.64
0.91
6.51
5.77
6.7
8.75
9.96
7.64
5.7
9.9
0.63
103
(xi − x̄)2
6.4
21.44
16.32
1.54
2.76
1.32
0.17
21.81
1.42
20.34
17.98
1.85
0.38
2.4
12.96
23.14
6.2
0.3
22.56
20.43
201.72
Tabella 3.1: Tabella Esercizio 1 - Inferenza Statistica
Soluzione
Si dimostra che, date le ipotesi sulla popolazione, la distribzione della media campionaria in oggetto
è:
56
X̄ ∼ N 14,
20
quindi le probabilità desiderate sono:
1. P (X̄ > 3) = P Z > 3−14
= P (Z > −6.59) = 1
1.67
2. P (|X̄ − µ| < 1.2) = P [−1.2 < (X̄ − µ) < 1.2] = P (−0.72 < Z < 0.72) = 0.5284
3. Dalla trasformata lineare della variabile casuale X̄ in esame, Y = 2.1 − 3.4X̄, risulta inoltre
che Y ∼ N (−45.5; 32.37) e quindi la probabilità richiesta è:
P [Y ≥ 2 ∪ (Y − µ) > 3.1]
3.1
2 + 45.5
∪Z >
= P Z≥
= P (Z ≥ 8.35 ∪ Z > 0.54) =
5.69
5.69
= P (Z > 0.54) = 1 − Φ(0.54) = 1 − 0.7054 = 0.2946
72
CAPITOLO 3. INFERENZA STATISTICA
Esercizio 3
Si consideri la popolazione X ∼ f (x, θ), con θ = (µ, σ 2 ) e con µ = 2, σ 2 = 14. Si estragga da X
un campione casuale di n = 50 unità e calcolare le seguenti probabilità:
1. P (|X̄| < 1.8)
2. P [(X̄ − µ) < 1]
3. Sia Y = 2 − 3X̄, calcolare:
P [Y > 1 ∩ (Y − µ) < 3]
2
Soluzione
In questo caso è presa in esame la media campionaria in presenza di un campione casuale estratto
da una popolazione con distribuzione incognita e con parametri µ = 2 e σ 2 = 14. Tenuto conto
della elevata numerosità delle unità campionarie e quindi avvalendosi del Teorema Limite Centrale
segue che:
14
X̄ ∼ N 2,
50
e cosı̀ facendo uso della distribuzione di X̄, le probabilità richieste sono:
1.
1.8 − 2
−1.8 − 2
<Z<
=
P (|X̄| < 1.8) = P (−1.8 < X̄ < 1.8) = P
0.53
0.53
= P (−7.17 < Z < −0.38) = Φ(−0.38) − Φ(−7.17) = Φ(7.17) − Φ(0.38) =
= 1 − Φ(0.38) = 1 − 0.6480 = 0.352
2. P [(X̄ − µ) < 1] = P (Z < 1.89) = Φ(1.89) = 0.9706
3. Dalla trasformata lineare Y = 2 − 3X̄, segue che Y ∼ N (−4; 2.52) e quindi:
3
1+4
∩Z <
P [Y > 1 ∩ (Y − µ) < 3] = P Z >
= P (Z > 3.14 ∩ Z < 1.89) = P (φ) = 0
1.59
1.59
Esercizio 4
L’andamento della produttività dei dipendenti di un call center (misurata in termini di numero
di contatti per ora) è descritta da una variabile casuale X ∼ N (13; 45). Estraendo un campione
casuale di 15 nominativi di operatori, calcolare la probabilità che la loro produttività media sia
maggiore di 21.
2
Soluzione
Anche in questo caso sono utilizzati i risultati teorici relativi alla distribuzione della media campionaria. In particolare dai dati forniti emerge che:
73
3.2. TEST DELLE IPOTESI
X̄ ∼ N
45
13;
15
e quindi la probabilità che il numero medio di contatti del campione di operatori è maggiore di 21
è:
21 − 13
= P (Z > 4.62) = 0
P (X̄ > 21) = P Z >
1.73
ovvero gli operatori in media non sono in grado di contattare più di 21 nominativi.
3.2
Test delle ipotesi
Esercizio 5
Dalla popolazione X ∼ N (µ, σ 2 ) è estratto un campione casuale di 15 unità che assumono i seguenti
valori:
{6.33; 0.39; 2.09; 5.81; 5.86; 4.87; 4.00; 8.18; 5.72; 8.05; 1.77; 6.27; 9.71; 0.95; 4.56}
Sottoporre a test, con livello di significatività pari a 0.05, che la media di X sia pari a 3.
2
Soluzione
Il test in oggetto è relativo ad una media con varianza incognita avente sistema di ipotesi:
H0 : µ = 3
H1 : µ 6= 3
mentre la statistica test è:
tc =
√
n·(x̄ − µ0 )
∼ t(n−1)
s
con regione critica |tc | > t(n−1;1−α/2) .
Dai dati campionari emerge che:
√
15 · (4.97 − 3)
√
tc =
= 2.79
7.48
mentre i valori tabulati sono t(14;1−0.025) = 2.145 e t(14;0.025) = −2.145. Quindi ad un livello di
significatività del 5% rifiuto H0 .
Esercizio 6
Il partito politico Alfa decide di proporre la candidatura del Sig. Bianchi. È noto che per essere
eletti bisogna avere almeno il 25% dei voti del distretto elettorale.
Per valurare il gradimento della candidatura del Sig. Bianchi, è intervistato un campione di 80
74
CAPITOLO 3. INFERENZA STATISTICA
individui di cui 37 risultano favorevoli al potenziale candidato. Sottoporre a test, con α = 0.05,
che il signor Bianchi riceva una percentuale di voti pari al 25% o superiore al 25%, ovvero:
(
H0 : p = 0.25
H1 : p > 0.25
2
Soluzione
Il test in esame è quello su una proporzione la cui statistica test è:
p̂ − p0
Zc = q
p0 (1−p0 )
n
Dalle informazioni campionarie p̂ =
37
80
∼ N (0, 1)
= 0.4625. Quindi la statistica calcolata diventa:
0.4625 − 0.25
= 4.389
Zc = q
0.25(1−0.25)
80
Poichè il test è unidirezionale ed il valore critico z(1−α) = 1.64, rifiuto H0 ad un livello di significatività α = 0.05.
Esercizio 7
Utilizzando i valori del campione estratto nell’esercizio 5, sottoporre a test (con α = 0.05) il
seguente sistema di ipotesi:
H0 : σ 2 = 8
H1 : σ 2 6= 8
2
Soluzione
Avvalendosi dei risultati delle stime dell’Esercizio 5 e ricordando che la statistica del test in esame
è:
χ2c =
(n − 1) · s2
∼ χ2(n−1)
σ02
segue che:
χ2c =
(15 − 1) · 7.48
= 13.09
8
mentre i valori che delimitano la regione di accettazione sono χ2(14;1−0.025) = 26.119 e χ2(14;0.025) =
5.629, quindi ad un livello di significatività del 5% accetto H0 .
75
3.2. TEST DELLE IPOTESI
Esercizio 8
La società Alpha desidera monitorare il fatturato settimanale delle sue aziende situate in Lombardia
ed in Sicilia. A tale scopo estrae un campione di 6 aziende lombarde e 4 siciliane che hanno i
seguenti fatturati settimanali (espressi in migliaia di Euro):
Lombardia {20.4; 24.8; 30.2; 16.8; 15.3; 13.8}
Sicilia {19.5; 33.6; 21.9; 25.7}
Sottoporre a test (con α = 0.05) che il fatturato medio delle aziende in Lombardia è uguale a quello
delle aziende in Sicilia.
2
Soluzione
Il test in oggetto è relativo al confronto tra medie sotto l’ipotesi che le popolazioni di riferimento
siano indipendenti (non emerge dalla traccia alcuna indicazione che lasci pensare ad un legame di
dipendenza tra le popolazioni da cui sono estratti i campioni). Quindi il sistema di ipotesi è il
seguente:
H0 : µ1 = µ2
H1 : µ1 6= µ2
mentre la statistica test di riferimento è:
tc = p
X̄1 − X̄2
(m − 1) ·
s21
+ (n − 1) ·
s22
·
r
m · n(m + n − 2)
∼ t(m+n−2)
m+n
con regione critica |tc | > t(n+m−2;1−α/2) .
Dai dati campionari segue che:
20.22 − 25.17
·
tc = √
197.75 + 114.18
r
6 · 4(6 + 4 − 2)
= −1.231
6+4
Osservando che t(8;1−0.025) = 2.306 e t(8;0.025) = −2.306 segue che ad un livello di significatività
del 5% accetto H0 .
Esercizio 9
È stata effettuata un’indagine statistica presso un punto vendita volta a valutare la disponibilità
dei consumatori ad acquistare prodotti a marchio commerciale. A tale scopo è stato intervistato
un campione di n = 40 unità e 18 persone si sono mostrate disponibili all’acquisto di tali prodotti.
Si sottoponga a test, con α = 0.05, che il 60% della popolazione sia disponibile all’acquisto dei
prodotti a marchio commerciale contro l’alternativa che tale percentuale sia inferiore.
2
Soluzione
Il test in esame è quello su una proporzione avente sistema di ipotesi:
H0 : p = p 0
H1 : p < p0
76
CAPITOLO 3. INFERENZA STATISTICA
con statistica test:
√
n · (p̂ − p0 )
∼ N (0; 1)
Zc = p
p0 · (1 − p0 )
e regione critica Zc < z(α) .
18
Dai dati rilevati sul campione intervistato p̂ = 40
= 0.45 e quindi:
√
40(0.45 − 0.60)
√
Zc =
= −1.936
0.60 · 0.40
Osservando dalle tavole che z(0.05) = −1.64, rifiuto H0 ad un livello di significatività del 5%.
Esercizio 10
L’indagine precedente è stata ripetuta presso un altro punto vendita e su 56 intervistati, 21 erano
disponibili ad acquistare prodotti a marchio commerciale. Si sottoponga a test che la proporzione
di clienti disponibili all’acquisto di prodotti a marchio commerciale è uguale nei due punti vendita.
2
Soluzione
Il test richiesto è di confronto tra proporzioni con sistema di ipotesi:
H0 : p 1 = p 2
H1 : p1 6= p2
e con statistica test:
Zc = p
p̂1 − p̂2
p̂(1 − p̂)[1/n + 1/m]
∼ N (0; 1)
dove
p̂ =
n · p̂1 + m · p̂2
n+m
Dai dati campionari emerge che p̂ = 0.406 e:
Zc = p
0.45 − 0.375
0.406(1 − 0.406)[1/40 + 1/56]
= 0.738
Ricordando che la regione critica del test è |Zc | > z(1−α/2) , i valori che la delimitano sono z(0.025) =
−1.96 e z(1−0.025) = 1.96 . Quindi H0 è accettata ad un livello di significatività del 5%.
Esercizio 11
Un’azienda commerciale ha effettuato un’indagine campionaria mediante la quale ha chiesto a 18
clienti l’ammontare di spesa settimanale effettuata presso il proprio punto vendita, rilevando i
seguenti dati:
{2.91; 6.54; 19.74; 16.05; 2.55; 17.24; 6.99; 2.55; 18.26; 6.59; 17.52; 17.11; 4.39; 1.24; 1.33; 13.17; 10.12; 4.06}
A seguito della ristrutturazione dei locali l’azienda commerciale ha nuovamente intervistato il campione dei 18 clienti chiedendo loro l’ammontare della spesa settimanale sostenuta presso l’esercizio
commerciale, ottenendo le seguenti risposte:
77
3.2. TEST DELLE IPOTESI
{1.46; 12.02; 7.2; 17.24; 10.84; 0.1; 5.23; 15.91; 9.67; 12.11; 3.06; 3.96; 9.09; 16.81; 10.5; 17.57; 10.57; 16.43}
Sottoporre a test, con α = 0.05, che la media della spesa dei clienti dell’azienda commerciale prima
e dopo la ristrutturazione sia rimasta invariata.
2
Soluzione
Il test proposto è di confronto tra medie con dati appaiati avente il seguente sistema di ipotesi:
H0 : µ1 = µ2
H1 : µ1 6= µ2
e con statistica test:
√
n(X̄2 − X̄1 )
tc = p 2
∼ t(n−1)
s1 + s22 − 2s12
Dai dati campionari risulta che la statistica calcolata è:
√
18(9.99 − 9.35)
= 0.269
tc = p
45.55 + 31.14 − 2 · (−12.69)
mentre i valori che delimitano la regione di accettazione sono t(17;1−0.025) = 2.11 e t(17;0.025) =
−2.11. Quindi ad un livello di significatività del 5% accetto H0 .
Esercizio 12
Le taglie degli abiti realizzati da un atelier hanno distribuzione N (µ, σ 2 ). L’azienda ritiene che,
affinchè non vi sia merce invenduta, è necessario che la variabilità delle taglie realizzate sia σ 2 > 30.
Per valutare se tale condizione è verificata tra i capi disponibili, si estrae un campione casuale di
15 capi le cui taglie sono:
{55, 49, 55, 38, 41, 53, 43, 38, 47, 38, 47, 39, 52, 42, 56}
Sottoporre a test, con α = 0.05, che:
(
H0 : σ 2 = 30
H1 : σ 2 > 30
2
Soluzione
Il test da utilizzare in questo caso è quello su una varianza (con media incognita) la cui statistica
test è:
χ2c =
(n − 1)s2
∼ χ2(n−1)
σ02
dove, dai dati campionari risulta che s2 = 46, 314 ed n = 15. La statistica calcolata sarà quindi:
78
CAPITOLO 3. INFERENZA STATISTICA
14 · 46.314
= 21, 613
30
Il test è unidirezionale e dalle tavole della variabile casuale χ2 si osserva che χ2(n−1,1−α) = χ2(14,1−0.05) =
23.685 e quindi accetto H0 ad un livello di significatività α = 0.05.
χ2c =
Esercizio 13
La distribuzione dei numeri di visite domiciliari per influenze stagionali effettuate presso gli assistiti
di 2 medici di famiglia nell’anno 2002 ha rispettivamente le seguenti distribuzioni X1 ∼ N (µ1 , σ 2 )
e X2 ∼ N (µ2 , σ 2 ).
I due medici vogliono valutare, sulla base di un campione di 15 assistiti, se il numero medio di
visite domiciliari da loro effettuate sono uguali.
A tale scopo sono estratti i seguenti campioni:
medico 1
medico 2
4
9
4
8
numero visite domiciliari presso 15 assistiti
5 2 9 5 10 1 8 6 1 5 3 3
0 0 2 4 7 4 2 7 2 10 5 1
6
7
1. Fissato un livello di significatività α = 0.05, verificare il seguente sistema di ipotesi:
(
H0 : µ1 = µ2
H1 : µ1 6= µ2
2. Il medico 2 nell’anno 2003 ha somministrato il vaccino antinfluenzale ai 15 assistiti del
campione 2002 ed il numero di visite che ha effettuato presso di loro è il seguente:
{8, 1, 8, 8, 3, 5, 6, 4, 1, 8, 3, 3, 6, 2, 4}
Verificare, con un opportuno test, se il numero medio di visite del medico 2 nel 2003 è rimasto
invariato o si è ridotto rispetto al 2002. Ovvero fissato α = 0.05, verificare il seguente sistema
di ipotesi:
(
H0 : µ2,2002 = µ2,2003
H1 : µ2,2002 > µ2,2003
3. Il medico 2 desidera inoltre valutare, sulla base dei dati campionari osservati negli anni 2002
e 2003, l’eventuale presenza di correlazione tra le visite domiciliari per influenze stagionali
effettuate nei due anni di riferimento (con α = 0.05), sottoponendo a test il seguente sistema
di ipotesi:
(
H0 : ρ = 0
H1 : ρ 6= 0
2
79
3.2. TEST DELLE IPOTESI
Soluzione
1. Il primo test in esame ha ad oggetto il confronto tra medie di due popolazioni indipendenti.
A tale scopo la statistica test è:
(m−1)s2 +(n−1)s2
X̄1 − X̄2
∼ t(m+n−2)
tc = q
1
ŝ m
+ n1
1
2
dove ŝ2 =
e la cui regione critica, nel caso bidirezionale in esame è |tc | >
m+n−2
t(n+m−2;1−α/2) . Dai dati campionari emerge che m = 15, n = 15, x̄1 = 4.8, x̄2 = 4.533,
s21 = 7.314, s22 = 10.981, pertanto:
tc =
4.8 − 4.533
q
1
3.025 · 15
+
1
15
= 0.242
e quindi poichè t(28,1−0.025) = 2.048 e t(28,0.025) = −2.048, accetto H0 .
2. La seconda parte del caso esaminato richiede il confronto di due medie in presenza di dati
dipendenti. In particolare si sono osservate le unità campionarie prima e dopo la somministrazione del vaccino ai clienti del medico 2. Quindi il test da utilizzare è quello di confronto
tra medie con dati appaiati:
dove sxy =
1
n−1
n
P
i=1
tc = q
√
n(X̄ − Ȳ )
s2x + s2y − 2sxy
∼ t(n−1)
(xi − x̄)(yi − ȳ)
Segue che n = 15, X̄ = 4.533, Ȳ = 4.667, s2x = 10.981, s2y = 6.524 mentre sxy = 0.047,
quindi:
√
15(4.533 − 4.667)
tc = √
= −0.124
10.981 + 6.524 − 2 · 0.047
Ricordando che il test è unidirezionale, la regione critica è data da: tc > t(n−1,1−α) . Poichè
t(14,1−0.05) = 1.761, accetto H0 .
3. Il test sul coefficiente di correlazione si avvale della seguente statistica:
√
r· n−2
∼ t(n−2)
tc = √
1 − r2
dove r è la stima del coefficiente di correlazione e la regione critica è |tc | > t(n−2;1−α/2) .
Utilizzando i dati campionari emerge che:
√
0.006 · 15 − 2
tc = √
= 0.022
1 − 0.0062
80
CAPITOLO 3. INFERENZA STATISTICA
mentre i valori tabulati sono t(13;1−0.025) = 2.16 e t(13;0.025) = −2.16.
Quindi dato α = 0.05, accetto l’ipotesi nulla del test.
Esercizio 14
L’ufficio statistico dell’università Beta ha estratto un campione casuale di 500 laureati dell’anno
solare 2004. Avvalendosi dei loro dati disponibili presso la segreteria studenti vuole valutare
l’eventuale presenza di legame associativo tra il voto di laurea ed il tempo impiegato (espresso
in anni) per il conseguimento del titolo.
A tale scopo si avvale dei dati in tabella:
VL \Anni
60| − |80
80 − |100
100 − |105
105 − |110
3
15
13
37
19
84
4| − |5
46
32
58
27
163
6| − |7
19
40
18
34
111
oltre 7
45
34
19
44
142
125
119
132
124
500
Sottoporre a test, con α = 0.05, l’indipendenza tra le variabili V L ed Anni
2
Soluzione
La verifica dell’indipendenza tra le variabili V L ed Anni è effettuata utilizzando un test non
parametrico avente sistema di ipotesi:
(
H0 : X ed Y sono indipendenti
H1 : X ed Y non sono indipendenti
la cui statistica è:
χ2c =
k X
h
X
(nij − n∗ij )2
∼ χ2(k−1)(h−1)
∗
n
ij
i=1 j=1
con
n∗ij ≥ 5
e con regione critica χ2c > χ2[(k−1)(h−1);1−α]
La statistica test evidenzia la necessità di costruire la tabella delle frequenze teoriche n∗ij :
VL \Anni
60| − |80
80 − |100
100 − |105
105 − |110
3
21
19.992
22.176
20.832
84
4| − |5
40.75
38.794
43.032
40.424
163
6| − |7
27.75
26.418
29.304
27.528
111
oltre 7
35.5
33.796
37.488
35.216
142
125
119
132
124
500
81
3.3. INTERVALLI DI CONFIDENZA
in cui si osserva che ciascuna frequenza n∗ij soddisfa la condizione teorica richiesta dal test n∗ij ≥ 5.
Si può pertanto passare a determinare la statistica calcolata:
χ2c = 1.714 + 0.676 + 2.759 + 2.542 + 2.445 + 1.19 + 6.983 + 0.001 + 9.909 + 5.206 +
+4.361 + 9.118 + 0.161 + 4.458 + 1.522 + 2.191 = 55.236
Il valore teorico χ2[(4−1)(4−1);1−0.05] = 16.919 e quindi si conclude che ad un livello di significatività
del 5% rifiuto H0 .
3.3
Intervalli di confidenza
Esercizio 15
Un’azienda ha commissionato ad una società di software la riprogettazione del proprio sito web.
Dopo che quest’ultimo è stato messo on-line vuole studiare gli effetti del rinnovo esaminando il
numero di contatti giornaliero al sito. Sotto l’ipotesi che tali contatti hanno distribuzione Gaussiana, N (µ, σ 2 ), seleziona un campione casuale di 10 giorni in cui il numero di contatti è stato il
seguente:
giorni
n. contatti
1
226
2
803
3
625
4
871
5
326
6
288
7
724
8
149
9
637
10
807
1. Costruire un intervallo di confidenza per la media dei contatti giornalieri della popolazione,
fissando α = 0.05.
2. Costruire un intervallo di confidenza per la media dei contatti giornalieri della popolazione,
fissando α = 0.02.
2
Soluzione
1. L’intervallo di confidenza per la media della popolazione è dato da:
s
s
x̄ − t(n−1;1−α/2) √ ≤ µ ≤ x̄ + t(n−1;1−α/2) √
n
n
tale che:
P
s
s
x̄ − t(n−1;1−α/2) √ ≤ µ ≤ x̄ + t(n−1;1−α/2) √
n
n
Dai dati campionari emerge che:
x̄ = 545.6
mentre t(n−1;1−α/2) = t(9;1−0.025) = 2.262.
ed
s = 271
=1−α
82
CAPITOLO 3. INFERENZA STATISTICA
Avvalendosi di tali risultati l’intervallo di confidenza, con α = 0.05, è:
271
271
545.6 − 2.262 √ ; 545.6 + 2.262 √
10
10
ovvero
[351.75; 739.45]
2. Ad un livello di confidenza α = 0.02 l’intervallo risulterà di ampiezza maggiore, infatti in
questo caso t(9;1−0.01) = 2.821 e l’intervallo di confidenza è:
271
271
545.6 − 2.821 √ ; 545.6 + 2.821 √
10
10
quindi
[303.85; 787.35]
Esercizio 16
Il partito XX desidera sottoporre al consiglio comunale una modifica al piano del traffico. Per
valutare il gradimento della proposta decide di intervistare un campione casuale di 20 cittadini
residenti ai quali chiede di manifestare il prorio accordo o disaccordo in merito ricevendo le seguenti
risposte:
cittadino
risposta
1
0
2
1
3
1
4
1
5
0
6
0
7
0
8
0
9
0
10
1
11
0
12
0
13
0
14
0
15
0
16
1
17
1
18
1
19
1
20
0
dove 1=accordo mentre 0=disaccordo.
1. Stimare la proporzione di cittadini favorevoli alla modifica del piano del traffico.
2. Costruire un intervallo di confidenza per la proporzione di popolazione favorevole alla modifica
del piano del traffico (con α = 0.05).
2
Soluzione
1. La stima della proporzione è p̂ =
(
1 se ”accordo”
xi =
0 se ”disaccordo”
1
20
20
P
i=1
xi =
8
20
= 0.4, dove:
2. L’intervallo di confidenza per la proporzione p è:
r
r
p̂(1 − p̂)
p̂(1 − p̂)
p̂ − z1−α/2
≤ p ≤ p̂ + z1−α/2
≤p
n
n
83
3.3. INTERVALLI DI CONFIDENZA
tale che:
P
p̂ − z1−α/2
r
p̂(1 − p̂)
≤ p ≤ p̂ + z1−α/2
n
r
p̂(1 − p̂)
n
!
=1−α
Dalle tavole della variabile casuale Normale standardizzata, N (0, 1), si osserva che z(1−0.025) =
1.96 e quindi l’intervallo di confidenza per p è:
"
#
r
r
0.4 · 0.6
0.4 · 0.6
; 0.4 + 1.96
0.4 − 1.96
20
20
ovvero:
[0.185; 0.615]
Capitolo 4
Il Modello di Regressione
4.1
Modello di Regressione Lineare Semplice
Esercizio 1
È stato intervistato un campione di 10 famiglie alle quali è stato richiesto il luogo di residenza, il
reddito mensile e le spese per la cura personale mensile:
Famiglia
Residenza
1
2
3
4
5
6
7
8
9
10
Nord
Centro
Nord
Sud
Sud
Centro
Sud
Nord
Nord
Sud
Reddito (R)
(×1000 Euro)
1.16
7.26
6.09
2.58
3.82
9.43
5.31
5.61
5.17
5.71
Cura Personale (C)
(×1000 Euro)
0.68
2.71
2.03
0.84
1.54
3.11
1.79
2.46
2.35
2.37
1. stimare i parametri del seguente modello di regressione lineare semplice:
C = a + bR + e
2. verificare la bontà di accostamento del modello stimato ai dati osservati
3. sottoporre a test, con α = 0.05, il seguente sistema di ipotesi:
(
H0 : b = 0
H1 : b 6= 0
2
84
85
4.1. MODELLO DI REGRESSIONE LINEARE SEMPLICE
Soluzione
1. Il grafico richiesto per la rappresentazione delle coppie di valori è i presentato in Figura 4.1
da cui è possibile osservare la presenza di un legame lineare positivo tra le due variabili in
esame.
Figura 4.1: Diagramma scatter delle coppie di valori (Ri , Ci )
2. Le stime dei parametri a e b del modello di regressione sono date da:
b̂ =
SR,C
2
SR
â = C̄ − b̂R̄
Come già evidenziato per il modello di interpolazione, è utile avvalersi dei dati nella tabella
seguente per agevolare i calcoli necessari alla stima dei due parametri:
Famiglia
1
2
3
4
5
6
7
8
9
10
Totale
Segue quindi che:
10
P
1
Ci = 1.988
C̄ = 10
R
1.16
7.26
6.09
2.58
3.82
9.43
5.31
5.61
5.17
5.71
52.14
R̄ =
i=1
SR,C = mR,C − R̄ · C̄ = 1.554
1
10
C
0.68
2.71
2.03
0.84
1.54
3.11
1.79
2.46
2.35
2.37
19.88
10
P
C ×R
0.789
19.675
12.363
2.167
5.883
29.327
9.505
13.801
12.15
13.533
119.193
Ri = 5.214
C2
0.462
7.344
4.121
0.706
2.372
9.672
3.204
6.052
5.523
5.617
45.073
mR,C =
i=1
m2C =
1
10
10
P
i=1
Ci2 = 4.507
R2
1.346
52.708
37.088
6.656
14.592
88.925
28.196
31.472
26.729
32.604
320.316
1
10
10
P
i=1
Ri · Ci = 11.919
m2R =
1
10
10
P
i=1
Ri2 = 32.032
86
CAPITOLO 4. IL MODELLO DI REGRESSIONE
2
= m2R − R̄2 = 4.846
SR
2
= m2C − C̄ 2 = 0.555
SC
quindi le stime dei parametri sono:
b̂ =
1.554
= 0.321
4.846
â = 1.988 − 0.321 · 5.214 = 0.314
3. La bontà di accostamento ai dati è valutata con l’indice R2 . Ricordando che:
2
R2 = rR,C
(dove rR,C è la stima dell’indice di correlazione)
2
0.948
è facile calcolare: R2 = √0.555·4.846
= 0.899. Il valore assunto dall’indice R2 evidenzia
la rilevante capacità del modello nel cogliere la variabilità del fenomeno osservato, ovvero più
particolare il modello stimato coglie l’89.9% della variabilità totale del fenomeno.
4. Il test sul parametro b è fondato sul seguente sistema di ipotesi:
H0 : b = 0
H1 : b 6= 0
avente statistica test:
tc =
b̂
∼ t(n−2)
sb̂
con
s2b̂ =
ŝ2
n · SP2
e regione critica |tc | > t(n−2;1−α/2) .
Il calcolo di tc richiede la preliminare stima della varianza degli errori êi (indicata con ŝ2 ):
êi = Ci − Ĉi
tale che ŝ2 =
1
n−2
n
P
i=1
dove
Ĉi = 0.314 + 0.321 · Ri
i = 1, 2, . . . , 10
ê2i
Si rende quindi necessaria l’aggiunta di ulteriori colonne alla tabella precedente:
Famiglia
1
2
3
4
5
6
7
8
9
10
Totale
R
1.16
7.26
6.09
2.58
3.82
9.43
5.31
5.61
5.17
5.71
52.14
C
0.68
2.71
2.03
0.84
1.54
3.11
1.79
2.46
2.35
2.37
19.88
Ĉi
0.686
2.644
2.269
1.142
1.54
3.341
2.019
2.115
1.974
2.147
êi
-0.006
0.066
-0.239
-0.302
0
-0.231
-0.229
0.345
0.376
0.223
ê2i
0
0.004
0.057
0.091
0
0.053
0.052
0.119
0.141
0.05
0.567
4.1. MODELLO DI REGRESSIONE LINEARE SEMPLICE
87
da cui emerge che la stima della varianza degli errori è ŝ2 = 0.071 mentre la statistica test
assume valore: tc = √0.321
0.001
Confrontando quest’ultimo con i valori tabulati t(8;1−0.025) = 2.306 e t(8;0.025) = −2.306, è
possibile concludere che ad un livello di significatività del 5% rifiuto l’ipotesi nulla del test.
Esercizio 2
Utilizzando i dati dell’esercizio 1 del corrente capitolo ed il modello in esso stimato:
1. Effetturare l’analisi grafica dei residui del modello stimato
2. Fissato α = 0.05, la costante a può essere considerata significativamente diversa da 0?
2
Soluzione
1. L’analisi grafica dei residui è generalmente effettuata avvalendosi dei diagrammi scatter delle
coppie di valori (i, êi ) ed (êi , êi−1 ).
Il primo dei due grafici è presentato in Figura 4.2 da cui non merge la presenza di struttura
nelle coppie di valori e quest’assenza di struttura è ulteriormente confermata dalla Figura 4.3
dove sono rappresentate le coppie (êi , êi−1 ).
Figura 4.2: Diagramma scatter delle coppie di valori (i, êi )
Tale valutazione grafica conferma la validità del modello stimato nel rappresentare la struttura dei dati osservati come già verificato, con una procedura differente, nel precedente
esercizio con l’indice R2 .
2. Per verificare se l’intercetta del modello è significativamente diversa da zero, fissato α = 0.05,
è necessario costruire un test su a avente sistema di ipotesi:
H0 : a = 0
H1 : a 6= 0
88
CAPITOLO 4. IL MODELLO DI REGRESSIONE
Figura 4.3: Diagramma scatter delle coppie di valori (êi , êi−1 )
e statistica test:
tc =
â
∼ t(n−2)
sâ
con
s2â =
ŝ2 · m2R
2
n · SR
2
dove m2R è il momento secondo della variabile indipendente R, SR
è la varianza di quest’ultima,
2
ŝ è la varianza degli errori mentre la regione critica è |tc | > t(n−2;1−α/2)
Utilizzando i risultati del precedente esercizio segue che:
s2â =
0.071 · 32.032
= 0.047
10 · 4.846
e quindi la statistica test è tc = 1.448.
Fissato α = 0.05 i valori che delimitano la regione di accettazione del test sono t(8;1−0.025) =
2.306 e t(8;0.025) = −2.306, quindi H0 è accettata, ovvero il parametro a non è significativamente diverso da zero.
Esercizio 3
È stata effettuata una ricerca medica su un campione di 350 pazienti, volta a valutare la relazione
esistente tra l’assunzione di sale (SL) e la pressione sanguigna (PS).
Dai dati campionari è emerso che il consumo medio giornaliero di sale è 25.4 mg e la media della
pressione sanguigna massima è 117.8. È inoltre emerso che la varianza campionaria di SL è 134.3
mentre quella di PS è 75.9 mentre la loro correlazione è 0.521.
L’equipe medica ritiene che la relazione tra SL e PS è ben descritta da un modello di regressione
lineare semplice:
P S = a + b · SL + e
1. Stimare i parametri a e b del modello di regressione
2. Verificare la bontà di accostamento del modello ai dati
2
4.1. MODELLO DI REGRESSIONE LINEARE SEMPLICE
89
Soluzione
1. La stima dei parametri del modello richiede la conoscenza della covarianza tra SL e PS.
Osservando che:
SSL,P S = rSL,P S · SSL SP S
√
la covarianza sarà SSL,P S = 0.521 · 134.3 · 75.9 = 52.60.
Quindi le stime dei due parametri sono:
b̂ =
52.60
SSL,P S
=
= 0.39
2
SSL
134.3
â = 117.8 − 0.39 · 25.4 = 107.89
2. La bontà di accostamento del modello ai dati è possibile valutarla con l’indice R2 . Utilizzando
2
2
la relazione R2 = rSL,P
S segue che R = 0.271 e quindi il 27.1% della variabilità totale del
fenomeno osservato è spiegato dal modello di regressione lineare stimato.
Scarica