Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 1 Con questa lezione si inizia l'argomento dell'inferenza statistica, cioè il percorso che dai dati di un singolo campione stima il parametro nella popolazione. inferenza Campione Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 2 Si osserva facilmente che campioni ripetuti dalla stessa popolazione forniscono medie campionarie diverse. Ciascuna di queste medie campionarie costituisce una stima non distorta del parametro (media della popolazione) ma non può essere usata come stima del parametro da sola, senza tenere conto dell’incertezza causata dall’errore campionario. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 3 Una statistica calcolata su un campione di soggetti (statistica campionaria) costituisce una stima non distorta del parametro (la statistica calcolata nella popolazione) ma la statistica campionaria è affetta da una imprecisione, detta ‘errore campionario’, determinato dalla variabilità casuale del campionamento. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 4 Possiamo trarre conclusioni sul valore del parametro nella popolazione a partire dai dati campionari seguendo due percorsi: 1. La stima intervallare (Il calcolo dell'intervallo di confidenza) 2. Il test dell'ipotesi La 'stima intervallare' o 'intervallo di confidenza' fornisce un range di possibili valori entro i quali si ritiene sia compreso il parametro in esame. Il range è stimato a partire dai risultati del campione (es. la media della popolazione), con un certo grado di confidenza (fiducia? prudenza?). Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 5 Cosa significa esattamente l'intervallo di confidenza? Il 95% dei campioni estratto da una popolazione con media µ avrà un "intervallo di confidenza al 95%" della media campionaria che include µ. E il restante 5% ? Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 6 Campionamento ripetuto. I tratti orizzontali sono gli intervalli di confidenza. Quelli che non comprendono il valore medio della popolazione sono in rosso (4,3%). Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 7 In pratica abbiamo a disposizione un solo campione. Come facciamo a sapere se il nostro campione è tra quelli del 95 o del 5%? "We do not know whether our interval estimate includes the unknown population mean. Being right most of the time is the best one can hope for -- there is always the possibility of being misled by an unlucky sample." (anonimo) Non possiamo dire con certezza se è uno dei 'fortunati 95%' il cui intervallo comprende il valore 12 (il valore del parametro) ma siamo fiduciosi al 95% ("abbiamo probabilità del 95%") che lo sia. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 8 Se vogliamo una maggiore confidenza possiamo ottenerla: L’ampiezza dell’intervallo è proporzionale al grado di confidenza. Se vogliamo che il grado di confidenza sia maggiore , anche l'intervallo dovrà essere più ampio. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 9 Dagli stessi dati, con diversi gradi di confidenza 152 151 150 149 148 147 146 145 IC_99% Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica IC_95% Intervalli di confidenza IC_90% 10 Calcolo dell’intervallo di confidenza: il caso della media Abbiamo visto che la media campionaria costituisce la stima migliore della media della popolazione ma questo non significa che la media campionaria sia priva di errore campionario: si osserva facilmente che campioni ripetuti danno medie campionarie diverse. L’intervallo di confidenza è un intervallo di valori intorno ad una media campionaria; Tale intervallo ha una probabilità definita di includere il parametro (cioè il valore della statistica nella popolazione). L’intervallo di confidenza viene solitamente riferito ad un test a 2 code. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 11 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 12 Se conosco σ (deviazione standard della popolazione), l’intervallo di confidenza è definito in modo tale da soddisfare la seguente equazione (procedura analoga al calcolo del test Z per la verifica dell’ipotesi): σ σ = 1 − α = 1 − p( Z α ) p X − Z α ∗ ≤ µ ≤ X + Zα ∗ n n 2 2 Limite fiduciale superiore = X + Zα/2 *(σ/√n). Limite fiduciale inferiore = X - Zα/2 *(σ/√n). Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 13 Dove: X media campionaria µ: media della popolazione (σ/√n): errore standard della media (calcolato da σ) Zα/2= valore della deviata normale standardizzata corrispondente alla precisione desiderata. Viene calcolata dalla distribuzione di probabilità Normale Standard, per un test a 2 code. Ad es. per un intervallo di confidenza al 95% su due code Zα/2= 1,96. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 14 Di solito l’intervallo di confidenza intorno alla media viene indicato come: X ± Zα/2 *(σ/√n) Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 15 Incertezza Intervallo di confidenza = X ± Zα/2 *(σ/√n). Statistica campionaria (es. media) Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 16 Incertezza Intervallo di confidenza = X ± Zα/2 *(σ/√n). Statistica campionaria (es. media) Variabilità del campione (Errore Standard) Ampiezza (‘sicurezza’) dell’intervallo Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 17 Intervallo di confidenza = X ± Zα/2 *(σ/√n). Statistica campionaria (es. media) ‘sicurezza’ della stima (ampiezza dell’intervallo) Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Variabilità del campione (Errore Standard) Intervalli di confidenza 18 Dati i 50 campioni dell’esempio seguente, osserviamo che in tre casi (6% dei campioni) l’intervallo di confidenza al 95% non comprende la media. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 19 Estrazione di 50 campioni di numerosità 20 da distribuzione gaussiana con µ=0 e δ=1. Le barre rappresentano l’intervallo di confidenza al 95% (test a 2 code). 1 .0 0 .5 0 .0 -0 .5 -1 .0 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 20 Esempio: calcolo dell’intervallo di confidenza nel caso di una media: N 15 Media campionaria 149,133 mmHg (calcolo omesso) σ=2,53 mmHg Limite superiore dell’ Int. conf. 95%= 149,133 + 1,960 *(2,53/√15) = 150,41 Limite inferiore dell’ Int. conf. 95%= 149,133 – 1,960 *(2,53/√15) = 147,85 Intervallo di confidenza al 95%: 147,85 <= µ <=150,41 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 21 Limite superiore dell’ Int. conf. 90%= 149,133 + 1,645 *(2,53/√15) = yyyyy Limite inferiore dell’ Int. conf. 90%= 149,133 – 1,645 *(2,53/√15) = yyyyy Limite superiore dell’ Int. conf. 99%= 149,133 + xxxxx *(2,53/√15) = yyyyy Limite inferiore dell’ Int. conf. 99%= 149,133 – xxxxx *(2,53/√15) = yyyyy Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 22 Il modo comunemente usato per indicare media campionaria ed intervallo di confidenza è il seguente: Media = 149,13 (IC 95%: 147,85 - 150,41) Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 23 Il 90% dei campioni avrà un intervallo di confidenza al 90% della media che include µ. Limite superiore dell’ Int. conf. 90%= 149,133 + 1,645 *(2,53/√15) = 150,21 Limite inferiore dell’ Int. conf. 90%= 149,133 – 1,645 *(2,53/√15) =148,06 Intervallo di confidenza al 90%: 148,06 <= µ <=150,21 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 24 Il 99% dei campioni avrà un intervallo di confidenza al 99% della media che include µ. 149,133+2,57*(2,53/√15) 149,133-2,57*(2,53/√15) Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 25 152 151 150 149 148 147 146 145 IC_99% Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica IC_95% Intervalli di confidenza IC_90% 26 Se non conosciamo σ possiamo definire un intervallo di confidenza della media campionaria basandoci sul test t e sulla distribuzione di probabilità t L’intervallo di confidenza è definito in modo tale da soddisfare la seguente equazione: X −t gl , α 2 ∗ s s ≤ µ ≤ X +t α ∗ gl , n n 2 Dove: tgl,α/2= valore della funzione t corrispondente all’errore di 1° tipo (gl: gradi di libertà, in questo caso pari a n-1) Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 27 Limite fiduciale superiore = X + tgl,α/2 *(s/√n). Limite fiduciale inferiore = X - tgl,α/2 *(s/√n). Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 28 Intervallo di confidenza = X ± t(α/2,g.l.) * (s/√n). Errore Standard Media campionaria ‘sicurezza’ dell’intervallo Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 29 Estrazione di 50 campioni di numerosità 20 da una distribuzione gaussiana con µ=0. σ è ignota, quindi l’errore standard è stato calcolato dalla deviazione standard campionaria. Le barre rappresentano l’intervallo di confidenza al 95%. Si noti che le barre sono di ampiezza diversa tra loro, a causa della variabilità campionaria della deviazione standard . 1 .0 0 .5 0 .0 µ -0 .5 -1 .0 -1 .5 I Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 30 Esempio: calcolo dell’intervallo di confidenza usando la distribuzione t Risultati: N 15 Media campionaria 149,1 mmHg (calcolo omesso) s= 4,72 mmHg (calcolo omesso) Il valore della statistica t (errore 1° tipo <= 0,05 e test a due code, 14 gl) = 2,145 Lim.superiore dell’ Int. conf. 95% = 149,1 + 2,145 *( 4,72/√15) = 151,75 mmHg Lim.inferiore dell’ Int. conf. 95% = 149,1 – 2,145 *( 4,72/√15) = 146,52 mmHg Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 31 Come si calcola l’intervallo di confidenza relativo ad altre statistiche? La procedura per il calcolo dell’intervallo di confidenza è una procedura generale che si applica a tutte le statistiche. La differenza tra le statistiche è soltanto nel calcolo dell’errore standard. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 32 Intervallo di confidenza = Statistica ± z(α/2) * (Errore standard). Statistica ‘sicurezza’ dell’intervallo Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Variabilità del campione (Errore Standa della statistica) Intervalli di confidenza 33 Intervallo di confidenza delle proporzioni Nota: i metodi descritti sono validi solo per campioni grandi σ = √[π*(1-π)] Nella popolazione: Deviazione standard di una proporzione: Nel campione: Deviazione standard di una proporzione: s = √[p*(1-p)] Errore standard di una proporzione campionaria ( se σ nota): Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza ES = σ / √n 34 Se σ ignota: Errore standard di una proporzione campionaria: ES = s / √n Intervallo di confidenza = [p ± Zα/2 *(s/√n)] Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervallo di confidenza = Proporzione p Intervalli di confidenza ± z(α/2 ) * (Errore standard di p) ‘sicurezza’ dell’intervallo Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica 35 Intervalli di confidenza Variabilità del campione (Errore Standard della proporzione) 36 Per calcolare l’intervallo di confidenza nel caso dell’OR dobbiamo utilizzare la seguente formula poiché la distribuzione di OR è asimmetrica (va da 0 a + ∞): IC (log(OR)) = log(OR) ± Zα/2 * ES(log(OR)) log(OR) = logaritmo dell’ Odds Ratio ES (log(OR)) = 1 1 1 1 + + + a b c d Quindi: log( OR ) ± IC (OR ) = e Ζα2 *ES (log(OR )) Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 37 Intervallo di confidenza = log(OR) ± z(α/2) * ES (log(OR)). Statistica ‘sicurezza’ dell’intervallo Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza Variabilità del campione (Errore Standard della statistica) 38 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 39 Vantaggi dell’intervallo di confidenza: Il test dell’ipotesi porta ad una valutazione binaria (rifiuto / non rifiuto di H0). L’intervallo di confidenza indica l’intervallo di valori del parametro (nella popolazione) con cui il risultato campionario che abbiamo osservato è compatibile. Esiste una corrispondenza tra ‘p’ ed ‘intervallo di confidenza’ calcolati rispetto allo stesso errore di I tipo: l’intervallo di confidenza comprende tutti i valori che non sarebbero stati rifiutati da un test dell’ipotesi. Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 40 Esercizi dal testo p 174 n 1 p 174 n 2 p 174 n 3 p 174 n 4 p 174 n 5 p 175 n 7 Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza 41