(media dei dati) ± t49,0.995 × (sqm ottenuto dividendo per “n

STATISTICA PER L’ANA LISI ORGANIZZATIVA
AA 2006-2007
Per casa – 1
Soluzioni
Esercizio 1.1. Durante una ricerca sono state rilevate le lunghezze di tre differenti
variabili economiche per ciascuno di 50 paesi in via di sviluppo.
Alcuni dati di sintesi sono riportati nel seguito, dove per semplicità abbiamo indicato con
“X”, “Y” e “Z” le tre variabili (tutti calcoli sono stati fatti con le misure espresse in milioni di
dollari).
X
Y
Z
media
30.6 14.2 57.3
mediana 31.1 14.5 44.7
varianza 1.47 1.54 5.46
a. Ipotizzando che la distribuzione di X sia normale, costruire un intervallo di confidenza al
99% per la media della distribuzione stessa (la varianza riportata in tabella è stata
ottenuta dividendo per “n”).
[Schema di risposta] Il contesto in cui siamo è quello del test t ad un campione.
L’intervallo di confidenza è quindi
(media dei dati) ± t49,0.995 × (sqm ottenuto dividendo per “n-1”)/ n
dove tm,p indica il quantile p-simo di una distribuzione t di Student con m gradi di libertà.
In questo caso, la media vale 30,6. Lo scarto quadratico medio può essere calcolato
come
(sqm ottenuto dividendo per “n-1”) =
Ovvero,
n
(varianza ottenuta dividendo per “n”)
n −1
(sqm ottenuto dividendo per “n-1”) =
50 × 1,47
≈ 1,23 .
49
Il percentile della t può, visti i gradi di libertà, essere approssimato con quello di una
normale standard che vale 2,58.
In definitiva l’intervallo cercato vale 30,6 ± 2,58 × 1,23/ 50 ovvero [30,15 - 31,05].
b. Quale delle assunzioni richieste dal test “t” a un campione potrebbero non essere
soddisfatte da “Z”?
[Schema di risposta] Il test si basa sull’assunzione che la distribuzione della variabile
di cui sono disponibili i dati sia una normale. La differenza tra media e mediana per Z
indica la possibile presenza di una qualche forma di asimmetria. La normalità di Z è
quindi dubbia.
Esercizio 1.2. In Madagascar due appezzamenti di terreno del tutto simili e coltivati con
un certo ortaggio sono stati uno trattato con un nuovo prodotto che dovrebbe ridurre la
velocità di crescita di una pianta infestante e l’altro non trattato. A distanza di una
settimana è stato poi rilevato il peso (in grammi) delle piante infestanti trovate. Alcuni
risultati sono riportati nella seguente tabella
appezzamento
Non trattato
trattato
Numero
di piante
20
26
somma dei pesi
delle piante
33.72
34.36
somma dei quadrati
dei pesi
61.90
48.93
E’ possibile affermare sulla base di questi dati che il nuovo prodotto ha ridotto la velocità
di crescita dell’infestante?
[Schema di risposta]. Indichiamo con y1,Κ , y n y (n y = 20) i pesi delle piante trovate
nell’appezzamento “non trattato” e con x1 ,Κ , x n x (n y = 26) i pesi delle piante trovate
nell’appezzamento “trattato”. Per poter rispondere con le tecniche note è necessario
assumere che “le y ” e “le x” siano determinazioni indipendenti ed identicamente
distribuite di due variabili casuali normali di media rispettivamente µ y e µ x e varianza
comune (indichiamola con σ2). In questo caso il problema rientra nel reame del test t a
due campioni.
Il sistema d’ipotesi sotto verifica è
H 0 : µ x = µ y
H :µ < µ
y
 1 x
o, alternativamente,
H 0 : µ x ≥ µ y
H :µ < µ
y
 1 x
La statistica test appropriata è
t oss =
y−x
1
1
s
+
n y nx
dove y e x sono le medie campionarie delle “y” e delle “ x” mentre
nx
ny

1
2
2
 ∑ ( yi − y ) + ∑ ( xi − x )  .
s =
n x + n y − 2  i =1

i =1

2
Calcoliamo quindi toss.
y=
(
33,72
= 1,69
20
x=
)
(
34,36
= 1,32
26
)
20 61,90 / 20 − 1,69 2 + 26 48,93 / 26 − 1,32 2
s =
= 0,191
20 + 26 − 2
2
t oss =
1,69 − 1,32
≈ 2,8
0,191(1 / 20 + 1 / 26 )
dove abbiamo utilizzato la relazione
1
ny
ny
∑ ( yi − y )
2
i =1
1
=
ny
ny
∑ y2 − y2
i =1
i
e la relazione analoga per le “ x”.
Osservando che
• se µ y < µ x ci aspettiamo valori di toss negativi;
• se µ y = µ x , toss si distribuisce come una variabile casuale t di Student con 44 gradi
di libertà;
• se µ y > µ x , ci aspettiamo che toss assuma valori positivi
possiamo concludere che i dati ci forniscono delle indicazioni contro H0 (in ambedue le
versioni precedenti) quando la statistica test assume valori più grandi di quelli che ci
aspetteremmo di osservare da una variabile casuale t di Student con n y + ny - 2 = 44
gradi di libertà.
Possiamo approssimare questa distribuzione con quella di una normale standard. Il
valore osservato di toss è posizionato alla destra dei “valori tipici” di questa
distribuzione. Ad esempio, dalle tavole disponibili dei percentili di una normale standard
troviamo che
0.001 < pr {N (0,1) ≥ 2,8} < 0.005 .
I dati ci suggeriscono quindi di rifiutare H0 e, perciò di concludere che il nuovo prodotto
ha ridotto la velocità di crescita delle piante infestanti. Si osservi tra l’altro che la
probabilità appena approssimata coincide in questo caso con il livello di significatività
osservato.
Procedere seguendo un test accetto-rifiuto ci porterebbe alla stessa conclusione. Infatti
rifiuteremmo H0 per toss più grande del percentile 1 − α di una t con 44 gradi di
libertà. Quindi, ponendo, ad esempio, α = 0,01 e approssimando il percentile della t
con quello corrispondente di una normale standard arriviamo a una “regola” che ci
suggerirebbe di rifiutare se toss > 2,326.
Esercizio 1.3. In un sondaggio condotto su 100 docenti dell’Ateneo di Pavia è stato
rilevato che 58 avevano intenzione di partecipare all’elezione del Rettore mentre gli altri
42, per vari motivi, non si sarebbero recati a votare. Per la validità dell’elezione è
necessario che almeno il 50% degli elettori si rechi alle urne. Sulla base del sondaggio è
possibile affermare che:
(a) è sicuro che il quorum verrà raggiunto; (b) è molto plausibile che il quorum verrà
raggiunto; (c) è poco plausibile che il quorum non verrà raggiunto; (d) i dati non ci
permettono di scegliere tra nessuna delle alternative precedenti.
Rispondere sia utilizzando un intervallo di confidenza che un appropriato test.
[Schema di risposta] Poniamo
n = (num. individui intervistati) = 100
e
p = percentuale di docenti che hanno intenzione di andare a votare
Supponendo che sia possibile assumere che le risposte dei soggetti intervistati siano
indipendenti ed identicamente distribuite il numero di intenzioni di voto espresse (58)
può essere visto come una determinazione di una variabile casuale binomiale con
probabilità di successo p e numero di prove uguale a 100. La stima di p vale
num. intenzioni di voto 58
=
= 0,58
num. intervstat i
100
Un intervallo di confidenza per p può essere calcolato come
pˆ (1 − pˆ )
pˆ ± z1−α 2
n
Ponendo α = 0,05 otteniamo z1−α 2 = z 0,975 = 1,96 e quindi l’intervallo di confidenza
pˆ =
diventa
0,58 ± 1,96 0,58 × 0,42 / 100 = [0,46;0,68 ]
Questo “calcolo” mostra che valori della percentuale di votanti inferiori al 50% non
possono essere esclusi sulla base dei dati. Quindi il raggiungimento del quorum
necessario per rendere le elezioni valide è incerto. Può d’altra parte essere osservato,
che la “maggior parte” dell’intervallo di confidenza si estende su valori superiori al 50%
dei votanti. Non possiamo quindi neanche escludere la possibilità che il quorum venga
raggiunto.
Volendo utilizzare un test potremmo considerare l’ipotesi
H 0 : p ≤ 0 .5
contro l’alternativa
H 1 : p > 0 .5
e la relativa statistica test
z=
p − 0,5
= 1,6
0,5 × 0,5 / 100
Questo valore va confrontato con i valori che ci aspetteremmo da una normale standard
sapendo che
(a) valori più bassi di quelli previsti da una N(0, 1) ce li aspettiamo se p < 0,5;
(b) valori “uguali” a quelli generati da una N(0, 1) ce li aspettiamo se p = 0,5;
(c) valori pi`u alti di quelli previsti da una N(0, 1) ce li aspettiamo se p > 0,5.
Ovviamente i primi due casi sono a favore di H0, l’ultimo caso a favore di H1.
Ora, 1,6 è all’incirca il quantile 0,945 di una N(0, 1) . Quindi il valore osservato è
abbastanza “grande” ma non “enormemente” grande. In conclusione sembra
ragionevole concludere a favore di una “dubbiosa” accettazione o, equivalentemente, di
un “dubbioso” rifiuto di H0. La conclusione non cambierebbe se avessimo formulato il
problema come uno di verifica di ipotesi bidirezionale.
In conclusione, tra le ipotesi formulate nel testo del problema la (d) sembra essere la
più “vicina” ai dati seguita dalla (b).
Esercizio 1.4. Si vuole stimare mediante una indagine campionaria la percentuale di
persone che faranno meno di 7 giorni di vacanza durante l’estate prossima. Quante
persone dovranno essere intervistate per ottenere alla fine un intervallo di confidenza per
l’ignota probabilità di ampiezza certamente non maggiore di 0,05?
[Schema di risposta]. Supponendo che le persone intervistate rispondano
indipendentemente siamo nel contesto di un campionamento di tipo binomiale. Una
volta condotte le interviste, l’intervallo di confidenza verrà quindi calcolato utilizzando la
formula
pˆ ± z1−α
pˆ (1 − pˆ )
n
2
dove p̂ è la stima della percentuale delle persone che faranno meno di 7 giorni di
vacanza durante l’estate prossima, mentre zp indica il percentile p-simo di una normale
standard. Quello che viene richiesto è di determinare n in maniera tale che l’ampiezza di
questo intervallo risulti, qualsiasi siano i risultati campionari ovvero qualsiasi sia p̂ ,
minore di 0,05.
Poiché (lo si verifichi), se 0 ≤ x ≤ 1, x(1 − x ) ≤ 1 4 , troviamo
ampiezza ≤ 2 z1− α
2
1
1
= z1− α 2
.
4n
n
Quindi l’ampiezza dell’intervallo di confidenza risulterà sempre minore di 0,05 qualsiasi
siano i dati campionari se
0.05 ≤ z1−α
2
1
n
0.05 2 ≤ z 21−α 2
cioè se
1
n
che, esplicitando n , diventa
2
 z1−α 2 
 .
n ≥ 

0
,
05


Per fornire una risposta numerica, è poi ovviamente necessario prefissare la α . Ad
esempio, se si vuole un intervallo di confidenza che includa con probabilità 0,95 la vera
percentuale, α=0,05 , z1−α 2 = 1,96 e
2
 1,96 
n ≥
 ≈ 1536 ,7
 0,05 
Quindi il più piccolo numero di interviste da fare per garantire la condizione richiesta è
1537.
Esercizio 1.5. Per capire se il peso influenza l’ordine alla nascita nei gemelli, per dieci
coppie di gemelli è stata calcolata la differenza (in Kg).
D = peso alla nascita primo gemello nato - peso alla nascita secondo gemello nato
La media e la varianza (calcolata dividendo per n - 1) delle 10 differenze ottenute valgono
rispettivamente 0,27 e 1,21. Supponendo che sia possibile assumere che la distribuzione di
D sia normale, dire se i dati indicano o meno che l’ordine alla nascita è influenzato dal
peso utilizzando
(a) un intervallo di confidenza
[Schema di risposta] Siamo nel “reame della t di Student”. Un intervallo di
confidenza
al 90% (tanto per fare un esempio) può essere calcolato come
0,27 ± t 9, 0, 95
1,21
= [− 0,37;0,91] .
10
L’intervallo include lo 0. Ovvero, ci dice che non possiamo escludere che in media il
peso alla nascita del primo gemello sia uguale a quello del secondo.
(b) un test di ipotesi.
[Schema di risposta] Siamo nel “reame della t di Student” La statistica test
normalmente utilizzata può in questo caso essere calcolata come
t oss =
10
0,27 ≈ 0,78
1,21
Il valore osservato deve essere confrontato con i valori “previsti” da una variabile
casuale
t di Student con 9 gradi di libertà. Il valore osservato è compreso tra i quantili 0,75 e
0,9 di questa distribuzione. Ovvero è un valore “prevedibile”. Il livello di significatività
osservato in questo caso risulta maggiore di 0,2 (e minore di 0,5).
Esercizio 1.6. In un ospedale italiano è stato rilevato il peso di neonati in 189 nascite ed
è stata fatta una classificazione in base alle abitudine al fumo della madre. Il vettore
peso.fumo contiene il peso (in grammi) di 74 neonati con madre fumatrice e il vettore
peso.non.fumo il peso (in grammi) di 115 neonati con madre non fumatrice. Si
commenti l'output di alcune analisi statistiche di seguito riportato, ottenute usando un
software comune:
> t.test(peso.fumo,peso.non.fumo)
Standard Two-Sample t-Test
data, peso.fumo and peso.non.fumo
t = -2.7729, df = 187, p-value = 0.0061
alternative hypothesis, true difference in means is not equal to 0
95 percent confidence interval,
-413.2819 -69.6875
sample estimates,
mean of x
mean of y
2824.173
3065.658