TEST DI AUTOVALUTAZIONE TEST CHI-QUADRO I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia 1 Parte A 1.1 In un test χ2 di adattamento viene verificato l’adattamento dei dati ad un particolare valore della media; l’adattamento dei dati ad un particolare valore della varianza; l’adattamento dei dati alla distribuzione χ2 ; l’adattamento dei dati ad una distribuzione ipotizzata; 1.2 Quale delle seguenti affermazioni è vera per un test χ2 di buon adattamento? Il numero di gradi di libertà del quantile di riferimento è uguale al numero di elementi del campione meno uno; ogni parametro incognito della distribuzione teorica, stimato con gli stetti dati usati per il test, abbassa di un’unità il numero di gradi di libertà del quantile di riferimento; si può usare solo per campioni normali; può essere usato anche per campioni poco numerosi, purchè con distribuzione normale. 1.3 Una casa farmaceutica afferma che un certo farmaco ha l’effetto di aumentare in media il valore di una variabile ematica x, che assumiamo avere distribuzione normale. Per verificare tale affermazione, viene misurato il valore di x ad un gruppo di volontari, prima e dopo la somministrazione del farmaco. Quale Test è opportuno usare? Un test χ2 di indipendenza Un test su una proporzione Un test di confronto di medie per campioni normali indipendenti Un test per dati appaiati. 1.4 Per gli studenti del Corso di Studi in Biologia Molecolare, si vuole verificare se il voto medio ottenuto nell’esame di Metodi Statistici per la Biologia sia maggiore quello ottenuto nell’esame di Fisica. Quale dei seguenti metodi statistici è opportuno utilizzare? un test χ2 di adattamento un test χ2 di indipendenza un test di confronto di medie un test di confronto di proporzioni 1 2 Parte B 2.1 In un sondaggio viene posta una domanda con 4 risposte possibili (chiamiamole A, B, C, D). In un campione di 1000 intervistati, 212 scelgono la risposta A, 256 la B, 265 la C e 267 la D. Questi dati sono compatibili con l’ipotesi che le 4 scelte di risposta siano equidistribuite nella popolazione alla quale il sondaggio è riferito? (Usare un test di livello 0.05) Soluzione. La statistica del test χ2 è ST = (212 − 250)2 (267 − 250)2 + ··· + = 7.976 > χ20.05,3 = 7.81 250 250 Pertanto l’ipotesi di equidisctribuzione viene rifiutata al 5%. 2.2 Bambi osserva incuriosito gli alberi della foresta. Durante il proprio cammino Bambi conta 34 querce, 20 tigli, 30 acacie e 16 ontani. Supponendo che nella foresta non ci siano altri tipi di albero, Bambi può concludere che gli alberi della foresta non sono equidistribuiti tra i quattro tipi sopra elencati? (Usare un test di livello 0.05) Soluzione. Il procedimento è identico a quello dell’esercizio precedente. Si ottiene ST = 8.48, e pertanto l’ipotesi di equidisctribuzione viene rifiutata al 5%. 2.3 Un gioco d’azzardo consiste nel lanciare tre dadi: la vincita è proporzionale al numero di sei ottenuti. Un giocatore lancia i tre dadi 100 volte. Per 48 volte non ottiene alcun sei, 35 volte ne ottiene 1, 15 volte 2 e 2 volte ottiene 3 sei. Questi risultati sono compatibili con l’equità dei dadi utilizzati? Soluzione. Sia pk la probabilità di ottenere k sei nel lancio di tre dadi equi. Chiaramente pk = k k 5 3 1 . 6 6 k Da ciò si calcolano le frequenze attese: 100p0 = 58, 100p1 = 34.5, 100p2 = 7, 100p3 = 0.5. I valori 2 e 3 vanno riuniti in un’unica classe, la cui frequenza attesa è 7.5. Usando pertanto le tre classi corrispondenti ai valori {0}, {1}, {2, 3} si trova ST = (48 − 58)2 (35 − 34.5)2 (17 − 7.5)2 + + = 13.76 58 34.5 7.5 Essendo, ad esempio, χ20.005,2 = 10.597, l’ipotesi di equità dei dadi viene rifiutata ad ogni livello maggiore del 0.5%. I dati sono in contraddizione con tale ipotesi. 2.4 Si dica se i dati riportati nella seguente tabella sono compatibili con una distribuzione di Poisson di media 1.76: valore frequenza 0 10 1 14 2 15 3 5 4 3 5 2 6 0 7 1 2 Soluzione. Dopo aver calcolato le frequenze attese, ne risulta che è opportuno suddividere i valori nelle seguenti classi: C1 = {0}, C2 = {1}, C3 = {2}, C4 = {3}, C5 = {3 o più}. Come valore della statistica del test si ottiene ST = 1.69 che è minore di χ2α,3 per qualunque valore ragionevole di α: i dati sono in accordo con una distribuzione di Poisson. 2.5 Un indagine ha classificato i 1725 bambini di una scuola secondo l’intelligenza e l’apparente livello economico della famiglia. Molto ben vestito Ben vestito Poveramente vestito Tardo 81 141 127 Intelligente 322 457 163 Molto capace 233 153 48 Verificare l’ipotesi di indipendenza al livello 0.01. Soluzione. Utilizziamo il metodo delle tabelle di contingenza. Per i, j = 1, 2, 3, siano Ni,j gli elementi della tabella di contingenza, Ri la somma dell’i-ma riga, Cj la somma della j-ma colonna. L’ipotesi di indipendenza tra intelligenza e apparente livello economico è rifiutata se ST = X Ni,j − Ri Cj /1725)2 > χ20.01,4 . R C /1725 i j i,j Si ha: ST = 134.68, χ20.01,4 = 13.28. L’ipotesi è rifiutata: intelligenza e livello economico sono quantità dipendenti. 2.6 Le Facolta‘ di Scienze Politiche di tre Atenei italiani vogliono confrontare la loro capacita‘ di attrarre studenti ”brillanti” (con voto di maturita‘ > 90/100). Le immatricolazioni per gli Anni Accademici 2001/02 e 2002/03 forniscono i seguenti dati immatricolati con voto di maturita‘ ≥ 90/100 immatricolati con voto di maturita‘ < 90/100 Ateneo A Ateneo B Ateneo C 22 31 45 312 408 602 Tali dati indicano una differenza significativa nella capacita‘ di attrarre studenti ”brillanti” (effettuare un test con livello di significatifita‘ del 5%)? Soluzione. La statistica test ST è come nell’esercizio precedente. In questo caso ST = 0.072. Conforntando con χ20.05,2 = 5.99 l’ipotesi le ipotesi di indipendenza tra le variabili “Ateneo” e “capacità di attrarre studenti brillanti” viene ampiamente accettata: non vi è differenza significativa tra i diversi Atenei. 2.7 Una compagnia aerea vende i biglietti di classe economica per la tratta Venezia-Londra a due prezzi diversi (scontato e non) a seconda dell’anticipo con cui viene fatta la prenotazione. La compagnia vuole stabilire se il livello di soddisfazione dei suoi clienti sia sensibilmente influenzato dal prezzo pagato. Un’indagine ha prodotto i seguenti dati: prezzo scontato prezzo non scontato insoddisfatto 317 207 abbastanza soddisfatto 821 650 3 molto soddisfatto 507 308 Si può concludere che il livello di soddisfazione sia sensibilmente influenzato dal prezzo pagato (eseguire un test al 5%)? Soluzione. Si usa un test χ2 di indipendenza. Se Nij è il termine di posto i, j nella tabella precedente, Ni è la somma della riga i-ma e N j la somma della colonna j-ma, l’ipotesi di indipendenza viene rifiutata a livello 0.05 se 2 j X Nij − NinN > χ20.05,2 , ST := N Nj i i,j n dove n = 2810 è il numero totale di persone intervistate. Essendo ST = 9.85 e χ20.05,2 = 5.99, l’ipotesi di indipendenza viene rifiutata: i dati indicano che il livello di soddisfazione sia sensibilmente influenzato dal prezzo pagato. 2.8 La Nicorette è una gomma da masticare concepita per aiutare a smettere di fumare. Per verificare l’eventuale presenza di effetti collaterali, la Nicorette viene somministrata ad un gruppo di 150 volontari, mentre ad altri 150 viene somministrato un placebo dall’identico aspetto. Ad ogni volontario viene controllata l’eventuale insorgere di dolori alla bocca o alla gola. I dati raccolti sono contenuti nella seguente tabella. Dolori alla bocca o alla gola Nessun dolore Nicorette 41 109 placebo 32 118 a. Effettuando un test chi-quadro al 5%, quali conseguenze si possono trarre da questi dati? b. Quale altro metodo visto durante il corso pu essere usato in alternativa al test chi-quadro? Soluzione. a. Si usa un test χ2 di omogeneità. La statistica test è la stessa dell’esercizio precedente, e si trova ST = 0.367. Questo valore va confrontato con χ21,0.05 = 3.841. Pertanto l’ipotesi di omogeneità viene accettata. b. È anche possibile effettuate un test di confronto tra due proporzioni. Sia p1 la probabilità che ad un individuo a cui è stata somministrata la Nicorette insorgano dolori alla bocca o alla gola, e p2 l’analoga probabilità per coloro a cui viene somministrato il placebo. Abbiamo p̂1 = 41/150 p̂2 = 32/150 p̂ = 73/300. Verifichiamo l’ipotesi H0 : p1 = p2 , che corrisponde all’omogeneità. La statistica test è p̂1 − p̂2 = 1.21 z=q 2 p̂(1 − p̂) 150 H0 viene rifiutata al 5% se |z| > z0.025 . Essendo z0.025 = 1.96, H0 viene accettata. 2.9 La riuscita di un intervento chirurgico per l’applicazione di una protesi al ginocchio con la tecnica tradizionale è molto soddisfacente nel 56% dei casi, abbastanza soddisfacente nel 31% dei casi, e non soddisfacente nei casi rimanenti. Varie equipe mediche stanno sperimentando un nuovo tipo di intervento. In 112 operazioni effettuate, gli esiti molto soddisfacenti sono stati 71, quelli abbastanza soddisfacenti 34, e gli altri non soddisfacenti. Vi sono differenze significative tra le percentuali di riuscita di questo intervento rispetto a quello tradizionale (effettuare un test al 5% di significatività)? Soluzione. Assumendo che il nuovo intervento abbia la stessa percentuale di riuscita del vecchio, ricaviamo le frequenze teoriche 112 ∗ 0.56, 112 ∗ 0.31, 112 ∗ 0.13, tutte maggiori di 5. La statistica del test χ2 di adattamento è ST = (112 ∗ 0.31 − 34)2 (112 ∗ 0.13 − 7)2 (112 ∗ 0.56 − 71)2 + + = 5.033 < χ20.05,2 = 5.99. 112 ∗ 0.56 112 ∗ 0.31 112 ∗ 0.13 4 A livello di significatività del 5%, i dati non sono sufficienti a concludere che vi sono differenze significative tra le percentuali di riuscita del nuovo intervento rispetto a quello tradizionale 2.10 Un dato farmaco, secondo l’azienda produttrice, può causare due effetti collaterali, entrambi con probabilità p = 0.1. Inoltre i due effetti si manifestano indipendentemente l’uno dall’altro. a. Sia X = 0, 1, 2 il numero di effetti collaterali che si manifestano in un individuo scelto a caso a cui è stato somministrato il farmaco. Secondo le indicazioni della casa produttroce, qual è la distribuzione di X? b. Allo scopo di mettere alla prova le affermazioni della casa produttrice, il farmaco viene somministrato ad un campione di 1000 individui. Di questi, 782 non manifestano alcun effetto collaterale, 186 ne manifestano uno e i rimanenti manifestano entrambi gli effetti collaterali. Questi dati sono compatibili con quanto affermato dalla casa produttrice? (Effettuare un test al 5%) Soluzione. a. X ∼ B(2, 0.1). b. Le frequenze attese sono: nπ0 = 1000(0.9)2 = 810, nπ1 = 1000 × 2(0.9)(0.1) = 180, nπ2 = 10. L’ipotesi nulla che la distribuzione del numero di effetti collaterali sia B(2, 0.1) si verifica con un test χ2 di buon adattamento, la cui statistica test è ST = (186 − 180)2 (32 − 10)2 (782 − 810)2 + + = 49.5679 810 180 10 Essendo T > χ20.05,2 = 5.9915, l’ipotesi nulla viene rifiutata: i dati non sono compatibili con quanto affermato dalla casa produttrice. 2.11 In un esame con domande a risposta multipla (senza alcuna penalizzazione per le risposte sbagliate) è stata per errore inserita una domanda il cui contenuto non è parte del corso; si può perciò presumere che gli studenti non ci capiscano nulla, e scelgano a caso una delle quattro risposte possibili (la prima è quella giusta). In fase di correzione si vede che 34 studenti hanno scelto la prima risposta, 21 la seconda, 27 la terza e 26 la quarta. Questi dati sono coerenti con l’assunzione che tutti gli studenti abbiano risposto a caso? (Effettuare un test al 5%) Soluzione. Effettuiamo un test χ2 di buon adattamento. Se gli studenti rispondono a caso (ipotesi H0 ), ogni risposta viene scelta con probabilità 1/4. Poichè in tutto gli studenti sono 108, le frequenze attese delle 4 risposte sono tutte 108/4 = 27. La statistica test è ST = 34 − 27)2 21 − 27)2 27 − 27)2 26 − 27)2 + + + ' 3.19. 27 27 27 27 H0 è rifiutata al 5% se ST > χ23,0.05 = 7.815. Tale disuguaglianza non è verificata: i dati sono coerenti con l’assunzione che tutti gli studenti abbiano risposto a caso. 2.12 Un analista politico americano vuole verificare quanto importante sia la promessa di non aumentare le tasse per i cittadini di diverse convinzioni politiche. Vengono selezionati tre campioni di 100 cittadini, per ognuno dei gruppi Democratici, Repubblicani e Indipendenti. Ognuno degli intervistati assegna un punteggio tra 1 e 4 all’importanza della promessa di non aumentare le tasse. I risultati sono rappresentati nella seguente tabella (1 = molto importante; 4 = poco importante): 1 2 3 Democratici 42 26 19 Repubblicani 55 21 14 Indipendenti 38 30 22 5 4 13 10 10 Ritenete che vi sia una differenza significativa nella percezione dell’aumento delle tasse tra i diversi gruppi? (effettuare un test al 5%). Soluzione. Effettuiamo un test χ2 di omogeneità. L’ipotesi nulla H0 corrisponde all’omogeneità della distribuzione dei punteggi all’interno dei tre gruppi. La statistica test è ST = 135×100 2 300 135×100 300 42 − + 77×100 2 300 77×100 300 26 − + ··· + 55×100 2 300 55×100 300 22 − + 33×100 2 300 33×100 300 10 − ' 7.42 Il valore della statistica ST va confrontato con il percentile χ26,0.05 ' 12.59. Il valore di ST non cade nella regione critica: a livello di significatività del 5% i dati non mostrano una differenza significativa nella percezione dell’aumento delle tasse tra i diversi gruppi. 2.13 Un provider per il collegamento internet afferma che i suoi abbonati riescono a connettersi immediatamente (linea libera) nel 50% dei casi, con un’attesa inferiore ad 1 minuto nel 40% dei casi e con un’attesa maggiore di 1 minuto nel 10% dei casi. Un utente decide di verificare l’affermazione del provider, annota i tempi di attesa da lui sperimentati in 70 tentativi di collegamento e ottiene i seguenti risultati: Numero di tentativi attesa ≤ 1 min. 22 linea libera 37 attesa > 1 min. 11 Sottoponete a test, al livello dell’1%, l’affermazione H0 : “il provider ha ragione”. Soluzione. Dobbiamo eseguire un test χ2 di buon adattamento con tre classi. Secondo il provider, le probabilità teoriche delle classi sono π(linea libera) = 0.5 , π(attesa ≤ 1 min.) = 0.4 , π(attesa > 1 min) = 0.1 , da cui si ricavano le frequenze teoriche f (γ) = 70 · π(γ): Numero di tentativi Frequenze teoriche attesa ≤ 1 min. 22 28 linea libera 37 35 attesa > 1 min. 11 7 Essendo tutte le frequenze teoriche ≥ 5, non occorre effettuare raggruppamenti. La statistica di Pearson vale P = (37 − 35)2 (22 − 28)2 (11 − 7)2 4 9 16 129 + + = + + = = 3.69 . 35 28 7 35 7 7 35 Dato che la regione critica del test è C = {P > χ22,0.01 = 9.21}, l’ipotesi H0 è accettata: a questo livello di significatività, i dati osservati non sono in contraddizione con quanto afferma il provider. 6