Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera TRACCIA DI STUDIO Verifica di ipotesi Test di confronto per misure qualitative Nelle analisi statistiche di dati sperimentali riguardanti più gruppi di studio (talvolta più variabili) si pone come ipotesi da verificare la cosiddetta ipotesi zero: quanto riscontrato sperimentalmente quale probabilità ha di verificarsi casualmente, cioè con campioni provenienti da una stessa popolazione? Se la probabilità di un risultato giustificato dalla casualità è modesta, viene rifiutata l’ipotesi zero e si pone l’ipotesi alternativa: i gruppi non sono omogenei, esistono giustificazioni per una differenza non casuale (i diversi trattamenti sperimentali o la provenienza da popolazioni diverse). La probabilità tollerabile di errore nel rifiutare l’ipotesi zero viene detta livello di significatività α e convenzionalmente i livelli di uso comune sono il 5% e l’1%. Rifiutare erroneamente l’ipotesi zero comporta un errore di Tipo I; per contro, non rifiutarla quando è falsa porta a commettere un errore di Tipo II con probabilità β. Queste analisi inferenziali si basano sui parametri di distribuzioni teoriche di misure quantitative; in altre situazioni, sono previste tecniche non parametriche. Test del chi quadrato per campioni indipendenti Quando si vuole stabilire se due percentuali differiscono oltre la variabilità legata al caso, il test di riferimento per campioni indipendenti è il chi quadrato, basato sulle frequenze assolute del riscontro sperimentale e le frequenze teoriche attese nell’ipotesi di una loro distribuzione casuale. Test di confronto per misure quantitative Differenza tra medie di campioni indipendenti Per il confronto tra due medie, si utilizza il test parametrico denominato t di Student, basato sulle stime campionarie delle medie e delle loro deviazioni standard. Differenza tra medie di campioni dipendenti Quando ogni osservazione di un campione è accoppiata con una sola osservazione di un altro campione (appaiamento dei dati), il test che si utilizza è il t di Student per dati appaiati. La situazione più frequente riguarda misurazioni effettuate sugli stessi soggetti prima e dopo un trattamento. Il test è organizzato in modo da eliminare la variabilità individuale. Analisi della dipendenza La relazione fra due variabili in un campione può essere analizzata con due tecniche di significato diverso, ma complementari: la correlazione e la regressione. Correlazione lineare La correlazione lineare stabilisce il tipo e il grado di associazione tra due variabili. È negativa se all’aumentare di una l’altra diminuisce, positiva se si muovono congiuntamente. Il grado di associazione è espresso dal coefficiente di correlazione r, il cui valore è compreso, in termini assoluti, tra zero (nessuna correlazione) e uno (perfetta correlazione). Il coefficiente di determinazione (r 2) fornisce l’indicazione della percentuale di variabilità di una variabile spiegata dall’altra, cioè la forza associativa tra le due. Il riscontro di una associazione statistica non deve però essere identificato come un rapporto di causa ed effetto. Regressione lineare Nel caso di associazione statistica tra due variabili, la regressione lineare ha un significato predittivo in quanto stima i valori di una di esse (definita dipendente) in funzione dell’altra (indipendente o predittiva). La retta di regressione rappresenta la migliore stima in base alla relazione tra due variabili, ma possiamo calcolare due rette di regressione a seconda della variabile considerata indipendente. Queste due rette tendono a coincidere quanto più elevato è il grado di associazione tra le variabili, fino a identificarsi quando la correlazione è perfetta. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera ESERCIZI 1. Nella procedura di verifica di un’ipotesi statistica viene assunta come vera l’ipotesi zero o ipotesi nulla H0. Vero o falso? 2. Da che cosa dipende il numero dei gradi di libertà nel contesto del test t di Student? 3. Che tipo di errore si commette se non si rifiuta l’ipotesi zero, quando è falsa? 4. Il rapporto relativo alla sperimentazione di un nuovo farmaco evidenzia un’efficacia superiore rispetto a quella di un farmaco tradizionale e termina definendo il risultato significativo con p < 0.05. Il valore 0.05 a che cosa si riferisce? 5. Che cosa identifica la potenza di un test statistico? 6. In uno studio sul tempo di svuotamento gastrico condotto su due campioni di pazienti, uno di controllo e l’altro costituito da soggetti edentuli, si sono rilevati i seguenti tempi (in minuti): Controllo 97 87 95 89 96 92 99 92 95 89 87 89 Edentuli 102 85 93 91 99 101 90 96 98 89 97 100 92 94 Verificare, con opportuno procedimento statistico, se i soggetti edentuli presentano un rallentato svuotamento gastrico rispetto ai controlli. 7. Per verificare l’efficacia di un nuovo metodo di apprendimento, 15 pazienti con disturbi neurologici e tic in età evolutiva vengono sottoposti a un test valutativo, i cui punteggi si possono considerare quantitativi e seguono una distribuzione normale, prima e dopo un mese di applicazione del nuovo metodo. Il quadro dei punteggi di ciascuno è riportato nella seguente tabella: Prima 25 22 20 23 24 26 21 23 27 24 25 22 24 23 21 Dopo 26 24 25 22 25 25 26 24 27 25 24 23 24 22 23 Possiamo affermare che il nuovo metodo favorisce l’apprendimento dei pazienti? 8. Stabilire se si possano considerare diversi i risultati ottenuti nel reparto (A) rispetto a quelli del reparto (B): Reparto (A) Reparto (B) Guariti Migliorati Stabili Peggiorati Totale 20 32 14 13 7 8 9 12 50 65 9. Per verificare la preferenza nell’uso di prodotti analgesici di largo consumo, si intervistano 120 pazienti chiedendo loro quale sia stato l’ultimo prodotto acquistato: 12 rispondono il farmaco A, 30 il B, 18 il C, 8 il D, 48 l’E, 4 l’F. Verificare se la scelta rientra nella casualità. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera 10. Date le seguenti misure: Codice paziente Colesterolo (mg/dl) Acido urico (mg/dl) 1 2 3 4 5 6 7 8 9 10 195 195 200 175 275 190 260 195 170 230 7.5 7.8 7.9 7.0 9.4 7.5 9.0 7.7 6.9 8.5 a) b) c) d) Disegnare un grafico a punti del colesterolo in funzione dell’acido urico. Che cosa suggerisce il grafico? Esiste una correlazione statistica tra le due variabili? Utilizzando il colesterolo come variabile dipendente, calcolare l’equazione della retta di regressione e interpretarne i parametri. e) Calcolare e commentare il coefficiente di determinazione. 11. Su un campione di 10 feti con differenti età gestazionali sono state valutate ecograficamente le misure della circonferenza cranica: Caso Età gestazionale (settimane) Circonferenza cranica (cm) A B C D E F G H I L 25.0 26.0 27.0 30.0 31.0 26.0 29.0 24.0 22.0 24.0 22.0 23.0 24.0 26.0 27.0 24.0 26.0 21.0 20.0 22.0 a) A quale età gestazionale si prevede il raggiungimento di una circonferenza cranica di 25 cm ? b) A quale età gestazionale possiamo ragionevolmente prevedere che la circonferenza cranica sia di 35 cm? Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera RISPOSTE 1. È corretto. In statistica viene valutata la probabilità che il risultato osservato (per esempio, la differenza tra le medie di due gruppi) si verifichi solo in virtù del caso (tenendo conto delle variabilità riscontrate), partendo dal presupposto che i gruppi di confronto provengano da una stessa popolazione. Se la probabilità è superiore al livello di significatività prescelto, il risultato si considera compatibile con la casualità della scelta campionaria; se è invece è inferiore, si rifiuta l’ipotesi nulla e si pone l’ipotesi alternativa che i campioni provengano da popolazioni diverse (per esempio, che le differenze riscontrate siano giustificate da situazioni o trattamenti diversi). 2. Bisogna considerare se il confronto è tra misure ripetute (dipendenti) oppure se i campioni sono indipendenti. Nel primo caso, i gradi di libertà sono dati dal numero di soggetti meno uno; per il secondo caso, avremo il numero totale di soggetti meno due, cioè n 1 per ciascun gruppo. 3. La conclusione falsa negativa è legata all’incapacità di un test statistico di rilevare una differenza reale. Viene definita come errore di Tipo II, al quale è associata la probabilità β. 4. Segnala che la valutazione statistica dei risultati sperimentali ha permesso di rifiutare l’ipotesi nulla al livello di significatività α 0.05, vale a dire che la probabilità di commettere un errore di Tipo I nell’affermare che il farmaco nuovo è più efficace di quello tradizionale è inferiore al 5%. 5. La potenza di un test statistico è la capacità di rifiutare correttamente l’ipotesi nulla, quando esiste una reale differenza tra i valori campionari. In genere, dipende dalla numerosità campionaria ed è complementare all’errore di Tipo II, per cui corrisponde a una probabilità 1 β. 6. Dobbiamo effettuare un confronto tra i valori di una variabile quantitativa rilevata su due campioni indipendenti (le misure effettuate su di un campione non sono influenzate dall’altro). Nell’ipotesi che le distribuzioni siano di tipo normale con varianze omoscedastiche (non significativamente diverse), il test di riferimento è il t di Student per dati indipendenti. Occorre calcolare, per ciascun gruppo, media e devianza e poi applicare la formula per calcolo della statistica t. Controllo (14) x2 Edentuli (12) x2 97 9409 87 95 7569 9025 89 7921 96 92 99 92 95 89 87 89 9216 8464 9801 8464 9025 7921 7569 7921 102 85 93 10 404 7225 8649 91 8281 99 101 90 96 98 89 97 100 9801 10 201 8100 9216 9604 7921 9409 10 000 Devianza Edentuli x2 92 8464 media 94 1293 92.36 8836 119 605 1141 95.08 108 811 (x)2 11412 108 811 320.9 N 12 12932 Devianza Controlli 119 605 187.2 14 xEd xC t ––––––––––––––––––––––– · DevianzaEd DevianzaC nEd nC 2 95.08 92.36 · n n ––––––––––––--–––– 12 14 1.503. nEd · nC Ed C 12 · 14 320.9 187.2 12 14 2 Con questo risultato, inferiore al livello critico t 2.064 (per 24 gradi di libertà e al livello di significatività α 0.05), non è possibile respingere l’ipotesi zero che i due campioni provengano da una stessa popolazione, pertanto la differenza riscontrata tra le velocità di svuotamento gastrico dei due campioni è giustificata dalla casualità del campionamento. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera 7. Dobbiamo utilizzare la statistica t di Student per dati dipendenti. Si devono preventivamente calcolare le differenze riscontrate in ciascun paziente, la media delle differenze e la deviazione standard della media. Prima Dopo 25 26 22 24 20 25 23 22 24 25 26 25 21 26 23 24 27 27 24 25 25 24 22 23 24 24 23 22 21 23 Differenza d 1 Differenza d 2 1 2 4 5 25 1 1 1 1 1 1 5 25 1 1 0 0 1 1 1 1 1 1 0 0 1 1 2 4 d 15 d 2 67 15 1 d 15 (d0)00 d 2 000 n 2 sd n 1 225 67 00 0 15 3.7 1 4 1.93 15 1 d 1 · 1 5 2.00. t · n sd 1.93 Il valore critico del t di Student al livello α 0.05 con 15 1 14 gradi di libertà è 2.145. Il nostro valore è inferiore, anche se di poco. Non possiamo respingere l’ipotesi zero: affermare che il nuovo metodo aumenta la capacità di apprendimento comporta una probabilità di errore di Tipo I superiore al 5%. Rimane tuttavia il dubbio che, a causa della numerosità modesta del campione, la potenza del test non fosse adeguata a evidenziare una differenza. Prima di abbandonare il nuovo metodo, potrebbe essere ripetuta l’esperienza con un campione più numeroso. 8. La variabile in esame è qualitativa, o meglio semiquantitativa, con quattro modalità, per cui non è proponibile un confronto con il test t di Student. Occorre verificare l’ipotesi zero di nessuna differenza tra i reparti impiegando il test del chi quadrato. Dopo aver completato la tabella con i totali generali, si calcolano le frequenze attese considerando che, nel caso dell’ipotesi nulla, dovremmo riscontrare nei due reparti le stesse proporzioni di casi del risultato complessivo. Con la formula che utilizza i totali marginali, le frequenze attese risultano: 52 · 50 21 · 65 guariti del reparto A: FA 22.61, …, peggiorati del reparto B: FA 11.87. 115 115 La tabella sottostante mostra il quadro generale (in corsivo le frequenze attese): Reparto (A) Reparto (B) Totale Guariti Migliorati Stabili Peggiorati 20 14 7 9 22.61 11.74 6.52 9.13 32 13 8 12 29.39 15.26 8.48 11.87 52 27 15 21 Totale 50 65 115 (20 22.61)2 (14 11.74)2 (7 6.52)2 (9 9.13)2 χ2 22.61 6.52 9.13 11.74 (13 15.26)2 (32 29.39)2 (8 8.48)2 (12 11.87)2 1.37. 8.48 29.39 15.26 11.87 Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Con (4 1) (2 1) 3 gradi di libertà il valore critico al 5% è χ2 7.81, superiore a quello ricavato. Non vi è motivo di rifiutare l’ipotesi nulla e i risultati dei due reparti si possono considerare corrispondenti. Sono presenti alcune caselle con frequenza bassa, ma tutte le frequenze attese sono superiori a 5. L’uso del test è quindi ammesso. 9. Inseriamo in una tabella i dati osservati: Farmaco A B C D E F Totale Preferenze 12 30 18 8 48 4 120 L’ipotesi nulla è che non vi sia stata una preferenza per un particolare prodotto. In questo caso, la probabilità di scelta casuale risulta uguale per tutti i farmaci H0: P(A) P(B) P(C) P(D) P(E) P(F) 1/6 e le frequenze attese per ciascun farmaco sono 1/6 · 120 20 confezioni. Questo è un caso particolare di impiego del test del chi quadrato, riferito a un singolo campione con le frequenze attese calcolate in base a una distribuzione teorica di riferimento. Si può organizzare una tabella delle frequenze e procedere al calcolo del chi quadrato: Frequenze osservate Frequenze attese A B C D E F Totale 12 20 30 20 18 20 8 20 48 20 4 20 120 120 (12 20)2 (30 20)2 (18 20)2 (8 20)2 (48 20)2 (4 20)2 χ2 67.6. 20 20 20 20 20 20 Il valore ottenuto supera il valore critico anche all’1% (con 5 gradi di libertà χ2 15.086). È lecito respingere l’ipotesi che la scelta sia stata casuale: i pazienti hanno maturato diverse preferenze verso quei farmaci. 10. a) Da come è posto il quesito, si comprende che deve essere considerata indipendente la variabile acido urico, da inserire quindi sull’asse delle ascisse. 280 260 Colesterolo (mg/dl) Colesterolo = –128.060 + 42.495 * acido urico 240 220 200 180 160 6.5 7 7.5 8 8.5 Acido urico (mg/dl) 9 9.5 b) Il grafico evidenzia una relazione positiva tra le variabili (all’aumentare dell’acido urico cresce anche il colesterolo), con i dati che tendono a distribuirsi in maniera lineare. Il legame (correlazione) tra le due variabili può essere studiato statisticamente per analizzarne il segno (che dovrà risultare positivo) e il grado. c) Per stimare il coefficiente di correlazione, occorre calcolare, oltre alle abituali sommatorie delle variabili e dei loro quadrati, la sommatoria dei prodotti (xy 195 · 7.5 … 230 · 8.5 16 768). Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Colesterolo y (mg/dl) Acido urico x (mg/dl) 208.5 2085 445 825 7.92 79.2 633.3 Media x o y x 2 o y 2 xy 16 768 Sostituendo i dati nella formula x · y xy n 79.2 · 2085 16 768 10 r ––––––––––––––––––––––––––––––––– –––––––––––––––––––––––––––––––––––––– 0.988. ( x)2 (y)2 x 2 n · y2 n 79.22 20852 633.3 · 445825 10 10 Per verificare l’esistenza di una correlazione che vada oltre la casualità, ovvero rifiutare l’ipotesi zero, si ricorre alla distribuzione del t di Student. Considerando che la distribuzione campionaria di r è legata a quella del t con 2 gradi di libertà mediante la relazione: tr· (n 2) 0.988 · 1 r2 10 2 18.09. 1 0.976 Il valore è superiore quello critico al livello α 0.01 con 10 2 8 gradi di libertà (t 3.355). La correlazione riscontrata è pertanto diversa da zero con una probabilità di errore p < 0.01. Stessa conclusione si sarebbe raggiunta consultando direttamente la tabella dei valori critici della distribuzione r, sempre con 8 g.l. d) Tra le infinite rette che è possibile tracciare, la retta di regressione è quella che rende minimi gli scarti tra i valori predittivi calcolati con la retta e i valori osservati: è il metodo dei minimi quadrati. I parametri della retta sono: x · y xy n 79.2 · 2085 16 768 10 b ––––––––––––––– ––––––––––––––––––– 42.495 79.22 (x)2 633.3 x 2 n 10 a y bx 208.5 42.495 · 7.92 128.060 e l’equazione risulta: y 128.060 42.495 x. L’intercetta a 128.060 è il valore previsto della variabile dipendente, in questo frangente il colesterolo, corrispondente allo zero della variabile indipendente, l’acido urico. Si tratta di valori puramente matematici, che non hanno alcun senso in quanto al di fuori dell’intervallo di ogni logica fisiopatologica. Il coefficiente b (pendenza della retta) indica che per ogni mg/dl di acido urico il colesterolo aumenta in media di 42.495 mg/dl. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera e) Il coefficiente di determinazione è il quadrato del coefficiente di correlazione: r 2 0.9882 0.976. Poiché r può assumere qualsiasi valore nell’intervallo 1 e 1, r 2 deve essere ovviamente compreso tra 0 e 1. Il coefficiente di determinazione indica che il 97.6% della variazione tra i valori osservati del colesterolo è spiegato dalla sua relazione lineare con l’acido urico, mentre il restante 100 97.6% 2.4% è imputabile a fattori non spiegabili con i dati osservati. 11. Come nell’esercizio precedente, si preparano le informazioni per stimare i parametri della retta di regressione: Media x o y x 2 o y 2 xy Età gestazionale y (settimane) Circonferenza cranica x (cm) 26.4 264.0 7044.0 23.5 235.0 5571.0 235 · 264 6263 10 b –––––––––––––––– 1.216 2352 5571 10 6263 a 26.4 1.216 · 23.5 2.188 L’equazione della retta è: y 2.188 1.216 x. a) Inseriamo il valore di 25 cm come variabile indipendente e otteniamo il numero di settimane necessarie: y 2.188 1.216 · 25 28.2 settimane. b) Per 35 cm saranno necessarie: y 2.188 1.216 · 35 40.4 settimane. Bisogna però considerare che la retta di regressione è stata calcolata su dati in cui la circonferenza varia tra 20 e 27 settimane, per cui rimane il dubbio sulla relazione al di fuori di questo intervallo: potrebbe non esserci associazione o non essere lineare, oppure non essere adatta la precedente retta di regressione. Copyright © 2007 - The McGraw-Hill Companies s.r.l.