Soluzione

TEST DI AUTOVALUTAZIONE
TEST CHI-QUADRO
I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Metodi statistici per la biologia
1
Parte A
1.1
In un test χ2 di adattamento viene verificato
l’adattamento dei dati ad un particolare valore della media;
l’adattamento dei dati ad un particolare valore della varianza;
l’adattamento dei dati alla distribuzione χ2 ;
l’adattamento dei dati ad una distribuzione ipotizzata;
1.2
Quale delle seguenti affermazioni è vera per un test χ2 di buon adattamento?
Il numero di gradi di libertà del quantile di riferimento è uguale al numero di elementi del
campione meno uno;
ogni parametro incognito della distribuzione teorica, stimato con gli stetti dati usati per il test,
abbassa di un’unità il numero di gradi di libertà del quantile di riferimento;
si può usare solo per campioni normali;
può essere usato anche per campioni poco numerosi, purchè con distribuzione normale.
1.3
Una casa farmaceutica afferma che un certo farmaco ha l’effetto di aumentare in media il valore di
una variabile ematica x, che assumiamo avere distribuzione normale. Per verificare tale affermazione,
viene misurato il valore di x ad un gruppo di volontari, prima e dopo la somministrazione del farmaco.
Quale Test è opportuno usare?
Un test χ2 di indipendenza
Un test su una proporzione
Un test di confronto di medie per campioni normali indipendenti
Un test per dati appaiati.
1.4
Per gli studenti del Corso di Studi in Biologia Molecolare, si vuole verificare se il voto medio ottenuto
nell’esame di Metodi Statistici per la Biologia sia maggiore quello ottenuto nell’esame di Fisica.
Quale dei seguenti metodi statistici è opportuno utilizzare?
un test χ2 di adattamento
un test χ2 di indipendenza
un test di confronto di medie
un test di confronto di proporzioni
1
2
Parte B
2.1
In un sondaggio viene posta una domanda con 4 risposte possibili (chiamiamole A, B, C, D). In un
campione di 1000 intervistati, 212 scelgono la risposta A, 256 la B, 265 la C e 267 la D. Questi dati
sono compatibili con l’ipotesi che le 4 scelte di risposta siano equidistribuite nella popolazione alla
quale il sondaggio è riferito? (Usare un test di livello 0.05)
Soluzione. La statistica del test χ2 è
ST =
(212 − 250)2
(267 − 250)2
+ ··· +
= 7.976 > χ20.05,3 = 7.81
250
250
Pertanto l’ipotesi di equidisctribuzione viene rifiutata al 5%.
2.2
Bambi osserva incuriosito gli alberi della foresta. Durante il proprio cammino Bambi conta 34 querce,
20 tigli, 30 acacie e 16 ontani. Supponendo che nella foresta non ci siano altri tipi di albero, Bambi
può concludere che gli alberi della foresta non sono equidistribuiti tra i quattro tipi sopra elencati?
(Usare un test di livello 0.05)
Soluzione. Il procedimento è identico a quello dell’esercizio precedente. Si ottiene ST = 8.48, e
pertanto l’ipotesi di equidisctribuzione viene rifiutata al 5%.
2.3
Un gioco d’azzardo consiste nel lanciare tre dadi: la vincita è proporzionale al numero di sei ottenuti.
Un giocatore lancia i tre dadi 100 volte. Per 48 volte non ottiene alcun sei, 35 volte ne ottiene 1, 15
volte 2 e 2 volte ottiene 3 sei. Questi risultati sono compatibili con l’equità dei dadi utilizzati?
Soluzione. Sia pk la probabilità di ottenere k sei nel lancio di tre dadi equi. Chiaramente
pk =
k k
5
3
1
.
6
6
k
Da ciò si calcolano le frequenze attese: 100p0 = 58, 100p1 = 34.5, 100p2 = 7, 100p3 = 0.5. I valori
2 e 3 vanno riuniti in un’unica classe, la cui frequenza attesa è 7.5. Usando pertanto le tre classi
corrispondenti ai valori {0}, {1}, {2, 3} si trova
ST =
(48 − 58)2
(35 − 34.5)2
(17 − 7.5)2
+
+
= 13.76
58
34.5
7.5
Essendo, ad esempio, χ20.005,2 = 10.597, l’ipotesi di equità dei dadi viene rifiutata ad ogni livello
maggiore del 0.5%. I dati sono in contraddizione con tale ipotesi.
2.4
Si dica se i dati riportati nella seguente tabella sono compatibili con una distribuzione di Poisson di
media 1.76:
valore frequenza
0
10
1
14
2
15
3
5
4
3
5
2
6
0
7
1
2
Soluzione. Dopo aver calcolato le frequenze attese, ne risulta che è opportuno suddividere i valori
nelle seguenti classi: C1 = {0}, C2 = {1}, C3 = {2}, C4 = {3}, C5 = {3 o più}. Come valore della
statistica del test si ottiene
ST = 1.69
che è minore di χ2α,3 per qualunque valore ragionevole di α: i dati sono in accordo con una
distribuzione di Poisson.
2.5
Un indagine ha classificato i 1725 bambini di una scuola secondo l’intelligenza e l’apparente livello
economico della famiglia.
Molto ben vestito
Ben vestito
Poveramente vestito
Tardo
81
141
127
Intelligente
322
457
163
Molto capace
233
153
48
Verificare l’ipotesi di indipendenza al livello 0.01.
Soluzione. Utilizziamo il metodo delle tabelle di contingenza. Per i, j = 1, 2, 3, siano Ni,j gli
elementi della tabella di contingenza, Ri la somma dell’i-ma riga, Cj la somma della j-ma colonna.
L’ipotesi di indipendenza tra intelligenza e apparente livello economico è rifiutata se
ST =
X Ni,j − Ri Cj /1725)2
> χ20.01,4 .
R
C
/1725
i
j
i,j
Si ha: ST = 134.68, χ20.01,4 = 13.28. L’ipotesi è rifiutata: intelligenza e livello economico sono
quantità dipendenti.
2.6
Le Facolta‘ di Scienze Politiche di tre Atenei italiani vogliono confrontare la loro capacita‘ di attrarre
studenti ”brillanti” (con voto di maturita‘ > 90/100). Le immatricolazioni per gli Anni Accademici
2001/02 e 2002/03 forniscono i seguenti dati
immatricolati con voto di
maturita‘ ≥ 90/100
immatricolati con voto di
maturita‘ < 90/100
Ateneo A
Ateneo B
Ateneo C
22
31
45
312
408
602
Tali dati indicano una differenza significativa nella capacita‘ di attrarre studenti ”brillanti” (effettuare un test con livello di significatifita‘ del 5%)?
Soluzione. La statistica test ST è come nell’esercizio precedente. In questo caso ST = 0.072.
Conforntando con χ20.05,2 = 5.99 l’ipotesi le ipotesi di indipendenza tra le variabili “Ateneo” e
“capacità di attrarre studenti brillanti” viene ampiamente accettata: non vi è differenza significativa
tra i diversi Atenei.
2.7
Una compagnia aerea vende i biglietti di classe economica per la tratta Venezia-Londra a due prezzi
diversi (scontato e non) a seconda dell’anticipo con cui viene fatta la prenotazione. La compagnia
vuole stabilire se il livello di soddisfazione dei suoi clienti sia sensibilmente influenzato dal prezzo
pagato. Un’indagine ha prodotto i seguenti dati:
prezzo scontato
prezzo non scontato
insoddisfatto
317
207
abbastanza soddisfatto
821
650
3
molto soddisfatto
507
308
Si può concludere che il livello di soddisfazione sia sensibilmente influenzato dal prezzo pagato
(eseguire un test al 5%)?
Soluzione. Si usa un test χ2 di indipendenza. Se Nij è il termine di posto i, j nella tabella
precedente, Ni è la somma della riga i-ma e N j la somma della colonna j-ma, l’ipotesi di indipendenza
viene rifiutata a livello 0.05 se
2
j
X Nij − NinN
> χ20.05,2 ,
ST :=
N Nj
i
i,j
n
dove n = 2810 è il numero totale di persone intervistate. Essendo ST = 9.85 e χ20.05,2 = 5.99,
l’ipotesi di indipendenza viene rifiutata: i dati indicano che il livello di soddisfazione sia sensibilmente
influenzato dal prezzo pagato.
2.8
La Nicorette è una gomma da masticare concepita per aiutare a smettere di fumare. Per verificare
l’eventuale presenza di effetti collaterali, la Nicorette viene somministrata ad un gruppo di 150 volontari, mentre ad altri 150 viene somministrato un placebo dall’identico aspetto. Ad ogni volontario
viene controllata l’eventuale insorgere di dolori alla bocca o alla gola. I dati raccolti sono contenuti
nella seguente tabella.
Dolori alla bocca o alla gola
Nessun dolore
Nicorette
41
109
placebo
32
118
a. Effettuando un test chi-quadro al 5%, quali conseguenze si possono trarre da questi dati?
b. Quale altro metodo visto durante il corso pu essere usato in alternativa al test chi-quadro?
Soluzione. a. Si usa un test χ2 di omogeneità. La statistica test è la stessa dell’esercizio precedente,
e si trova ST = 0.367. Questo valore va confrontato con χ21,0.05 = 3.841. Pertanto l’ipotesi di
omogeneità viene accettata.
b. È anche possibile effettuate un test di confronto tra due proporzioni. Sia p1 la probabilità
che ad un individuo a cui è stata somministrata la Nicorette insorgano dolori alla bocca o alla gola,
e p2 l’analoga probabilità per coloro a cui viene somministrato il placebo. Abbiamo
p̂1 = 41/150 p̂2 = 32/150 p̂ = 73/300.
Verifichiamo l’ipotesi H0 : p1 = p2 , che corrisponde all’omogeneità. La statistica test è
p̂1 − p̂2
= 1.21
z=q
2
p̂(1 − p̂) 150
H0 viene rifiutata al 5% se |z| > z0.025 . Essendo z0.025 = 1.96, H0 viene accettata.
2.9
La riuscita di un intervento chirurgico per l’applicazione di una protesi al ginocchio con la tecnica
tradizionale è molto soddisfacente nel 56% dei casi, abbastanza soddisfacente nel 31% dei casi, e
non soddisfacente nei casi rimanenti. Varie equipe mediche stanno sperimentando un nuovo tipo di
intervento. In 112 operazioni effettuate, gli esiti molto soddisfacenti sono stati 71, quelli abbastanza
soddisfacenti 34, e gli altri non soddisfacenti. Vi sono differenze significative tra le percentuali di
riuscita di questo intervento rispetto a quello tradizionale (effettuare un test al 5% di significatività)?
Soluzione. Assumendo che il nuovo intervento abbia la stessa percentuale di riuscita del vecchio,
ricaviamo le frequenze teoriche 112 ∗ 0.56, 112 ∗ 0.31, 112 ∗ 0.13, tutte maggiori di 5. La statistica
del test χ2 di adattamento è
ST =
(112 ∗ 0.31 − 34)2
(112 ∗ 0.13 − 7)2
(112 ∗ 0.56 − 71)2
+
+
= 5.033 < χ20.05,2 = 5.99.
112 ∗ 0.56
112 ∗ 0.31
112 ∗ 0.13
4
A livello di significatività del 5%, i dati non sono sufficienti a concludere che vi sono differenze
significative tra le percentuali di riuscita del nuovo intervento rispetto a quello tradizionale
2.10
Un dato farmaco, secondo l’azienda produttrice, può causare due effetti collaterali, entrambi con
probabilità p = 0.1. Inoltre i due effetti si manifestano indipendentemente l’uno dall’altro.
a. Sia X = 0, 1, 2 il numero di effetti collaterali che si manifestano in un individuo scelto a
caso a cui è stato somministrato il farmaco. Secondo le indicazioni della casa produttroce, qual è la
distribuzione di X?
b. Allo scopo di mettere alla prova le affermazioni della casa produttrice, il farmaco viene
somministrato ad un campione di 1000 individui. Di questi, 782 non manifestano alcun effetto
collaterale, 186 ne manifestano uno e i rimanenti manifestano entrambi gli effetti collaterali. Questi
dati sono compatibili con quanto affermato dalla casa produttrice? (Effettuare un test al 5%)
Soluzione. a. X ∼ B(2, 0.1).
b. Le frequenze attese sono:
nπ0 = 1000(0.9)2 = 810, nπ1 = 1000 × 2(0.9)(0.1) = 180, nπ2 = 10.
L’ipotesi nulla che la distribuzione del numero di effetti collaterali sia B(2, 0.1) si verifica con un
test χ2 di buon adattamento, la cui statistica test è
ST =
(186 − 180)2
(32 − 10)2
(782 − 810)2
+
+
= 49.5679
810
180
10
Essendo T > χ20.05,2 = 5.9915, l’ipotesi nulla viene rifiutata: i dati non sono compatibili con quanto
affermato dalla casa produttrice.
2.11
In un esame con domande a risposta multipla (senza alcuna penalizzazione per le risposte sbagliate) è
stata per errore inserita una domanda il cui contenuto non è parte del corso; si può perciò presumere
che gli studenti non ci capiscano nulla, e scelgano a caso una delle quattro risposte possibili (la prima
è quella giusta). In fase di correzione si vede che 34 studenti hanno scelto la prima risposta, 21 la
seconda, 27 la terza e 26 la quarta. Questi dati sono coerenti con l’assunzione che tutti gli studenti
abbiano risposto a caso? (Effettuare un test al 5%)
Soluzione. Effettuiamo un test χ2 di buon adattamento. Se gli studenti rispondono a caso (ipotesi
H0 ), ogni risposta viene scelta con probabilità 1/4. Poichè in tutto gli studenti sono 108, le frequenze
attese delle 4 risposte sono tutte 108/4 = 27. La statistica test è
ST =
34 − 27)2
21 − 27)2
27 − 27)2
26 − 27)2
+
+
+
' 3.19.
27
27
27
27
H0 è rifiutata al 5% se ST > χ23,0.05 = 7.815. Tale disuguaglianza non è verificata: i dati sono
coerenti con l’assunzione che tutti gli studenti abbiano risposto a caso.
2.12
Un analista politico americano vuole verificare quanto importante sia la promessa di non aumentare
le tasse per i cittadini di diverse convinzioni politiche. Vengono selezionati tre campioni di 100
cittadini, per ognuno dei gruppi Democratici, Repubblicani e Indipendenti. Ognuno degli intervistati
assegna un punteggio tra 1 e 4 all’importanza della promessa di non aumentare le tasse. I risultati
sono rappresentati nella seguente tabella (1 = molto importante; 4 = poco importante):
1
2 3
Democratici 42 26 19
Repubblicani 55 21 14
Indipendenti 38 30 22
5
4
13
10
10
Ritenete che vi sia una differenza significativa nella percezione dell’aumento delle tasse tra i diversi
gruppi? (effettuare un test al 5%).
Soluzione. Effettuiamo un test χ2 di omogeneità. L’ipotesi nulla H0 corrisponde all’omogeneità
della distribuzione dei punteggi all’interno dei tre gruppi. La statistica test è
ST =
135×100 2
300
135×100
300
42 −
+
77×100 2
300
77×100
300
26 −
+ ··· +
55×100 2
300
55×100
300
22 −
+
33×100 2
300
33×100
300
10 −
' 7.42
Il valore della statistica ST va confrontato con il percentile
χ26,0.05 ' 12.59.
Il valore di ST non cade nella regione critica: a livello di significatività del 5% i dati non mostrano
una differenza significativa nella percezione dell’aumento delle tasse tra i diversi gruppi.
2.13
Un provider per il collegamento internet afferma che i suoi abbonati riescono a connettersi immediatamente (linea libera) nel 50% dei casi, con un’attesa inferiore ad 1 minuto nel 40% dei casi e
con un’attesa maggiore di 1 minuto nel 10% dei casi. Un utente decide di verificare l’affermazione
del provider, annota i tempi di attesa da lui sperimentati in 70 tentativi di collegamento e ottiene i
seguenti risultati:
Numero di tentativi
attesa ≤ 1 min.
22
linea libera
37
attesa > 1 min.
11
Sottoponete a test, al livello dell’1%, l’affermazione H0 : “il provider ha ragione”.
Soluzione. Dobbiamo eseguire un test χ2 di buon adattamento con tre classi. Secondo il provider,
le probabilità teoriche delle classi sono
π(linea libera) = 0.5 ,
π(attesa ≤ 1 min.) = 0.4 ,
π(attesa > 1 min) = 0.1 ,
da cui si ricavano le frequenze teoriche f (γ) = 70 · π(γ):
Numero di tentativi
Frequenze teoriche
attesa ≤ 1 min.
22
28
linea libera
37
35
attesa > 1 min.
11
7
Essendo tutte le frequenze teoriche ≥ 5, non occorre effettuare raggruppamenti. La statistica di
Pearson vale
P =
(37 − 35)2
(22 − 28)2
(11 − 7)2
4
9 16
129
+
+
=
+ +
=
= 3.69 .
35
28
7
35 7
7
35
Dato che la regione critica del test è C = {P > χ22,0.01 = 9.21}, l’ipotesi H0 è accettata: a questo
livello di significatività, i dati osservati non sono in contraddizione con quanto afferma il provider.
6