STATISTICA PER L’ANA LISI ORGANIZZATIVA AA 2006-2007 Per casa – 1 Soluzioni Esercizio 1.1. Durante una ricerca sono state rilevate le lunghezze di tre differenti variabili economiche per ciascuno di 50 paesi in via di sviluppo. Alcuni dati di sintesi sono riportati nel seguito, dove per semplicità abbiamo indicato con “X”, “Y” e “Z” le tre variabili (tutti calcoli sono stati fatti con le misure espresse in milioni di dollari). X Y Z media 30.6 14.2 57.3 mediana 31.1 14.5 44.7 varianza 1.47 1.54 5.46 a. Ipotizzando che la distribuzione di X sia normale, costruire un intervallo di confidenza al 99% per la media della distribuzione stessa (la varianza riportata in tabella è stata ottenuta dividendo per “n”). [Schema di risposta] Il contesto in cui siamo è quello del test t ad un campione. L’intervallo di confidenza è quindi (media dei dati) ± t49,0.995 × (sqm ottenuto dividendo per “n-1”)/ n dove tm,p indica il quantile p-simo di una distribuzione t di Student con m gradi di libertà. In questo caso, la media vale 30,6. Lo scarto quadratico medio può essere calcolato come (sqm ottenuto dividendo per “n-1”) = Ovvero, n (varianza ottenuta dividendo per “n”) n −1 (sqm ottenuto dividendo per “n-1”) = 50 × 1,47 ≈ 1,23 . 49 Il percentile della t può, visti i gradi di libertà, essere approssimato con quello di una normale standard che vale 2,58. In definitiva l’intervallo cercato vale 30,6 ± 2,58 × 1,23/ 50 ovvero [30,15 - 31,05]. b. Quale delle assunzioni richieste dal test “t” a un campione potrebbero non essere soddisfatte da “Z”? [Schema di risposta] Il test si basa sull’assunzione che la distribuzione della variabile di cui sono disponibili i dati sia una normale. La differenza tra media e mediana per Z indica la possibile presenza di una qualche forma di asimmetria. La normalità di Z è quindi dubbia. Esercizio 1.2. In Madagascar due appezzamenti di terreno del tutto simili e coltivati con un certo ortaggio sono stati uno trattato con un nuovo prodotto che dovrebbe ridurre la velocità di crescita di una pianta infestante e l’altro non trattato. A distanza di una settimana è stato poi rilevato il peso (in grammi) delle piante infestanti trovate. Alcuni risultati sono riportati nella seguente tabella appezzamento Non trattato trattato Numero di piante 20 26 somma dei pesi delle piante 33.72 34.36 somma dei quadrati dei pesi 61.90 48.93 E’ possibile affermare sulla base di questi dati che il nuovo prodotto ha ridotto la velocità di crescita dell’infestante? [Schema di risposta]. Indichiamo con y1,Κ , y n y (n y = 20) i pesi delle piante trovate nell’appezzamento “non trattato” e con x1 ,Κ , x n x (n y = 26) i pesi delle piante trovate nell’appezzamento “trattato”. Per poter rispondere con le tecniche note è necessario assumere che “le y ” e “le x” siano determinazioni indipendenti ed identicamente distribuite di due variabili casuali normali di media rispettivamente µ y e µ x e varianza comune (indichiamola con σ2). In questo caso il problema rientra nel reame del test t a due campioni. Il sistema d’ipotesi sotto verifica è H 0 : µ x = µ y H :µ < µ y 1 x o, alternativamente, H 0 : µ x ≥ µ y H :µ < µ y 1 x La statistica test appropriata è t oss = y−x 1 1 s + n y nx dove y e x sono le medie campionarie delle “y” e delle “ x” mentre nx ny 1 2 2 ∑ ( yi − y ) + ∑ ( xi − x ) . s = n x + n y − 2 i =1 i =1 2 Calcoliamo quindi toss. y= ( 33,72 = 1,69 20 x= ) ( 34,36 = 1,32 26 ) 20 61,90 / 20 − 1,69 2 + 26 48,93 / 26 − 1,32 2 s = = 0,191 20 + 26 − 2 2 t oss = 1,69 − 1,32 ≈ 2,8 0,191(1 / 20 + 1 / 26 ) dove abbiamo utilizzato la relazione 1 ny ny ∑ ( yi − y ) 2 i =1 1 = ny ny ∑ y2 − y2 i =1 i e la relazione analoga per le “ x”. Osservando che • se µ y < µ x ci aspettiamo valori di toss negativi; • se µ y = µ x , toss si distribuisce come una variabile casuale t di Student con 44 gradi di libertà; • se µ y > µ x , ci aspettiamo che toss assuma valori positivi possiamo concludere che i dati ci forniscono delle indicazioni contro H0 (in ambedue le versioni precedenti) quando la statistica test assume valori più grandi di quelli che ci aspetteremmo di osservare da una variabile casuale t di Student con n y + ny - 2 = 44 gradi di libertà. Possiamo approssimare questa distribuzione con quella di una normale standard. Il valore osservato di toss è posizionato alla destra dei “valori tipici” di questa distribuzione. Ad esempio, dalle tavole disponibili dei percentili di una normale standard troviamo che 0.001 < pr {N (0,1) ≥ 2,8} < 0.005 . I dati ci suggeriscono quindi di rifiutare H0 e, perciò di concludere che il nuovo prodotto ha ridotto la velocità di crescita delle piante infestanti. Si osservi tra l’altro che la probabilità appena approssimata coincide in questo caso con il livello di significatività osservato. Procedere seguendo un test accetto-rifiuto ci porterebbe alla stessa conclusione. Infatti rifiuteremmo H0 per toss più grande del percentile 1 − α di una t con 44 gradi di libertà. Quindi, ponendo, ad esempio, α = 0,01 e approssimando il percentile della t con quello corrispondente di una normale standard arriviamo a una “regola” che ci suggerirebbe di rifiutare se toss > 2,326. Esercizio 1.3. In un sondaggio condotto su 100 docenti dell’Ateneo di Pavia è stato rilevato che 58 avevano intenzione di partecipare all’elezione del Rettore mentre gli altri 42, per vari motivi, non si sarebbero recati a votare. Per la validità dell’elezione è necessario che almeno il 50% degli elettori si rechi alle urne. Sulla base del sondaggio è possibile affermare che: (a) è sicuro che il quorum verrà raggiunto; (b) è molto plausibile che il quorum verrà raggiunto; (c) è poco plausibile che il quorum non verrà raggiunto; (d) i dati non ci permettono di scegliere tra nessuna delle alternative precedenti. Rispondere sia utilizzando un intervallo di confidenza che un appropriato test. [Schema di risposta] Poniamo n = (num. individui intervistati) = 100 e p = percentuale di docenti che hanno intenzione di andare a votare Supponendo che sia possibile assumere che le risposte dei soggetti intervistati siano indipendenti ed identicamente distribuite il numero di intenzioni di voto espresse (58) può essere visto come una determinazione di una variabile casuale binomiale con probabilità di successo p e numero di prove uguale a 100. La stima di p vale num. intenzioni di voto 58 = = 0,58 num. intervstat i 100 Un intervallo di confidenza per p può essere calcolato come pˆ (1 − pˆ ) pˆ ± z1−α 2 n Ponendo α = 0,05 otteniamo z1−α 2 = z 0,975 = 1,96 e quindi l’intervallo di confidenza pˆ = diventa 0,58 ± 1,96 0,58 × 0,42 / 100 = [0,46;0,68 ] Questo “calcolo” mostra che valori della percentuale di votanti inferiori al 50% non possono essere esclusi sulla base dei dati. Quindi il raggiungimento del quorum necessario per rendere le elezioni valide è incerto. Può d’altra parte essere osservato, che la “maggior parte” dell’intervallo di confidenza si estende su valori superiori al 50% dei votanti. Non possiamo quindi neanche escludere la possibilità che il quorum venga raggiunto. Volendo utilizzare un test potremmo considerare l’ipotesi H 0 : p ≤ 0 .5 contro l’alternativa H 1 : p > 0 .5 e la relativa statistica test z= p − 0,5 = 1,6 0,5 × 0,5 / 100 Questo valore va confrontato con i valori che ci aspetteremmo da una normale standard sapendo che (a) valori più bassi di quelli previsti da una N(0, 1) ce li aspettiamo se p < 0,5; (b) valori “uguali” a quelli generati da una N(0, 1) ce li aspettiamo se p = 0,5; (c) valori pi`u alti di quelli previsti da una N(0, 1) ce li aspettiamo se p > 0,5. Ovviamente i primi due casi sono a favore di H0, l’ultimo caso a favore di H1. Ora, 1,6 è all’incirca il quantile 0,945 di una N(0, 1) . Quindi il valore osservato è abbastanza “grande” ma non “enormemente” grande. In conclusione sembra ragionevole concludere a favore di una “dubbiosa” accettazione o, equivalentemente, di un “dubbioso” rifiuto di H0. La conclusione non cambierebbe se avessimo formulato il problema come uno di verifica di ipotesi bidirezionale. In conclusione, tra le ipotesi formulate nel testo del problema la (d) sembra essere la più “vicina” ai dati seguita dalla (b). Esercizio 1.4. Si vuole stimare mediante una indagine campionaria la percentuale di persone che faranno meno di 7 giorni di vacanza durante l’estate prossima. Quante persone dovranno essere intervistate per ottenere alla fine un intervallo di confidenza per l’ignota probabilità di ampiezza certamente non maggiore di 0,05? [Schema di risposta]. Supponendo che le persone intervistate rispondano indipendentemente siamo nel contesto di un campionamento di tipo binomiale. Una volta condotte le interviste, l’intervallo di confidenza verrà quindi calcolato utilizzando la formula pˆ ± z1−α pˆ (1 − pˆ ) n 2 dove p̂ è la stima della percentuale delle persone che faranno meno di 7 giorni di vacanza durante l’estate prossima, mentre zp indica il percentile p-simo di una normale standard. Quello che viene richiesto è di determinare n in maniera tale che l’ampiezza di questo intervallo risulti, qualsiasi siano i risultati campionari ovvero qualsiasi sia p̂ , minore di 0,05. Poiché (lo si verifichi), se 0 ≤ x ≤ 1, x(1 − x ) ≤ 1 4 , troviamo ampiezza ≤ 2 z1− α 2 1 1 = z1− α 2 . 4n n Quindi l’ampiezza dell’intervallo di confidenza risulterà sempre minore di 0,05 qualsiasi siano i dati campionari se 0.05 ≤ z1−α 2 1 n 0.05 2 ≤ z 21−α 2 cioè se 1 n che, esplicitando n , diventa 2 z1−α 2 . n ≥ 0 , 05 Per fornire una risposta numerica, è poi ovviamente necessario prefissare la α . Ad esempio, se si vuole un intervallo di confidenza che includa con probabilità 0,95 la vera percentuale, α=0,05 , z1−α 2 = 1,96 e 2 1,96 n ≥ ≈ 1536 ,7 0,05 Quindi il più piccolo numero di interviste da fare per garantire la condizione richiesta è 1537. Esercizio 1.5. Per capire se il peso influenza l’ordine alla nascita nei gemelli, per dieci coppie di gemelli è stata calcolata la differenza (in Kg). D = peso alla nascita primo gemello nato - peso alla nascita secondo gemello nato La media e la varianza (calcolata dividendo per n - 1) delle 10 differenze ottenute valgono rispettivamente 0,27 e 1,21. Supponendo che sia possibile assumere che la distribuzione di D sia normale, dire se i dati indicano o meno che l’ordine alla nascita è influenzato dal peso utilizzando (a) un intervallo di confidenza [Schema di risposta] Siamo nel “reame della t di Student”. Un intervallo di confidenza al 90% (tanto per fare un esempio) può essere calcolato come 0,27 ± t 9, 0, 95 1,21 = [− 0,37;0,91] . 10 L’intervallo include lo 0. Ovvero, ci dice che non possiamo escludere che in media il peso alla nascita del primo gemello sia uguale a quello del secondo. (b) un test di ipotesi. [Schema di risposta] Siamo nel “reame della t di Student” La statistica test normalmente utilizzata può in questo caso essere calcolata come t oss = 10 0,27 ≈ 0,78 1,21 Il valore osservato deve essere confrontato con i valori “previsti” da una variabile casuale t di Student con 9 gradi di libertà. Il valore osservato è compreso tra i quantili 0,75 e 0,9 di questa distribuzione. Ovvero è un valore “prevedibile”. Il livello di significatività osservato in questo caso risulta maggiore di 0,2 (e minore di 0,5). Esercizio 1.6. In un ospedale italiano è stato rilevato il peso di neonati in 189 nascite ed è stata fatta una classificazione in base alle abitudine al fumo della madre. Il vettore peso.fumo contiene il peso (in grammi) di 74 neonati con madre fumatrice e il vettore peso.non.fumo il peso (in grammi) di 115 neonati con madre non fumatrice. Si commenti l'output di alcune analisi statistiche di seguito riportato, ottenute usando un software comune: > t.test(peso.fumo,peso.non.fumo) Standard Two-Sample t-Test data, peso.fumo and peso.non.fumo t = -2.7729, df = 187, p-value = 0.0061 alternative hypothesis, true difference in means is not equal to 0 95 percent confidence interval, -413.2819 -69.6875 sample estimates, mean of x mean of y 2824.173 3065.658