Università degli Studi di Padova Corso di Laurea in Medicina e Chirurgia - A.A. 2015-16 Corso Integrato: Statistica e Metodologia Epidemiologica Disciplina: Statistica e Metodologia Epidemiologica 2 Docenti: prof.ssa Anna Chiara FRIGO – prof.ssa Egle PERISSINOTTO Modulo 2: Stima • Stima puntuale e intervallare • Stima della media di una popolazione mediante intervallo di fiducia • Stima della proporzione di una popolazione mediante intervallo di fiducia • Calcolo della dimensione del campione per la stima della media di una popolazione • Calcolo della dimensione del campione per la stima della proporzione di una popolazione PRODOTTI CONOSCITIVI DELL’INFERENZA STIMA Attribuire il valore “più appropriato” ad un parametro o a una caratteristica di una popolazione: in base ai risultati campionari, che soddisfi a criteri di ottimalità, con prefissata probabilità di errore. VERIFICA DI IPOTESI Accettare o respingere un’ipotesi formulata su un parametro, una caratteristica o sulla forma di una distribuzione di una variabile relativa alla popolazione: in base ai risultati campionari, con pre-assegnate probabilità di errore. CRITERI DI STIMA (1) Stima puntuale: si attribuisce al parametro o alla caratteristica della popolazione un singolo valore (puntuale) espresso dall’informatore campionario. Stima intervallare: il parametro o la caratteristica della popolazione è stimato da due numeri, che definiscono un intervallo di numeri reali. ► Le stime intervallari indicano la precisione di una stima e sono perciò da preferire alla stima puntuale. Esempio: se si dice che una definita opinione è espressa dal 48% della popolazione, si dà una stima puntuale. Se invece si dice che la vera percentuale è compresa tra il 45% ed il 51%, si dà una stima intervallare. CRITERI DI STIMA (2) • Una regola con fondamento logico e intuitivo è quella di considerare gli stimatori “naturali”, cioè che abbiano lo stesso significato dei parametri incogniti della popolazione: n xi M i 1 n n s2 i 1 p xi M2 n1 x n 2 PROPRIETÀ DELLO STIMATORE (1) • Correttezza: il valore medio della variabile casuale campionaria (v.c.c.) associata all’informatore è uguale al parametro o alla caratteristica da stimare. – Esempio: la media M di una distribuzione campionaria di medie M è uguale a , la media della popolazione. Perciò la media campionaria M è una stima corretta (o non distorta) del parametro . PROPRIETÀ DELLO STIMATORE (2) • Consistenza: al divergere di n (dimensione del campione) il valore dell’informatore tende a quello del parametro o della caratteristica da stimare. – Esempio: la v.c.c. descritta dalle medie campionarie, di media M, ha varianza ²/n, che tende a zero per n tendente all’infinito: così M tende al vero parametro , ed è una stima consistente. PROPRIETÀ DELLO STIMATORE (3) • Efficienza: tra due stimatori, a parità di n, conviene quello che presenta varianza minore. – Esempio: le v.c. descritte dalla media e dalla mediana campionaria hanno la stessa media , cioè la media della popolazione. Tuttavia, mentre la varianza delle medie campionarie è ²/n, quella della mediana è (/2)(²/n) (= 1,57²/n), e quindi maggiore: perciò la media aritmetica campionaria rappresenta una stima di più efficiente della mediana campionaria. STIMA INTERVALLARE • • Siano I e I rispettivamente la media e la deviazione standard della v.c.c. descritta dall’informatore I. Se la distribuzione di tale v.c. è approssimativamente Normale (ciò è vero per molti informatori quando n 30) allora ci si può attendere che una sua determinazione cada, ad esempio, nell’intervallo: ( I - 2I , I + 2I) il 95,45% delle volte. EQUIVALENTEMENTE, noi possiamo attenderci (o avere fiducia) che lo stesso intervallo ( I - 2 I , I + 2 I) includa al suo interno l’ignoto valore I. Perciò esso è chiamato intervallo di fiducia (o di confidenza), ed i suoi estremi limiti di fiducia. La percentuale 95,45% che lo caratterizza è detta livello di fiducia. STIMA DELLA MEDIA DELLA POPOLAZIONE /n - 2/n M P( - 4/n M + 4/n) 100% P( - 2/n M + 2/n) 95% M + 2/n INTERVALLO DI FIDUCIA PER LA MEDIA DELLA POPOLAZIONE /n /n - 2/n M M + 2/n - 2/n M M + 2/n STIMA INTERVALLARE • • • L’intervallo di stima è costruito sulla base del valore dell’informatore campionario e delle caratteristiche della distribuzione da cui è espresso. Si afferma che tale intervallo contiene il vero parametro della popolazione, avendo prefissato per tale affermazione un livello di fiducia pari a 1 - . L’affermazione può essere corretta o errata: si sa, tuttavia, che essa è estratta a caso da un insieme di siffatte affermazioni costituito per il 100(1 - )% da affermazioni corrette, e per il 100% da affermazioni errate. INTERVALLI DI FIDUCIA (1 - ) 0,95 /2 /2 2I 2I I I I1 I2 I3 I4 I6 I5 STIMA INTERVALLARE DELLA MEDIA • Sulla base delle proprietà della v.c. descritta dall’informatore media campionaria, si può scrivere: P Z 2 M Z 2 1 n n oppure, dopo equivalente: alcuni passaggi, l’espressione PM Z 2 M Z 2 1 n n • Gli estremi dell’intervallo (limiti di fiducia) dipendono dalla determinazione campionaria di M, e sono perciò casuali. ESEMPIO: intervallo di fiducia per la variazione di glicemia Si vuole trovare un intervallo di fiducia per la variazione media di glicemia (pre-post prandiale) con un grado di fiducia pari a 1- = 0,95. Supponiamo di sapere che la variazione della glicemia si distribuisce secondo una Normale e che = 20 mg/dl. Da un campione casuale di 5 soggetti la variazione risulta: Soggetto Variazione glicemia (mg/dl) 1 2 3 4 5 -70 -30 10 -40 -20 La media quindi è pari a M = -150/5 = -30 mg/dl e l’intervallo di fiducia sarà: (-30 - 1,9620/5 ; -30 + 1,9620/5) = (- 47,53 ; -12,47) Distribuzione campionaria t di Student Di solito la deviazione standard è ignota e si stima mediante la seguente funzione dei dati campionari: n s 2 x M i i 1 n 1 dove: n-1 = è detto numero di gradi di libertà (g.d.l.). La funzione campionaria: M t s n • se X si distribuisce normalmente, si distribuisce come una t di Student con gradi di libertà; • si modifica al variare di e, per n 30, è pressoché uguale ad una Normale standardizzata; • può essere utilizzata per fare inferenza su quando è ignoto (come accade quasi sempre). Distribuzione t di Student per alcuni valori di =1 Probabilità Probabilità = 10 = 30 Probabilità Probabilità = 20 INTERVALLO DI FIDUCIA PER QUANDO È IGNOTO • È pari a 1- la probabilità di ottenere un valore campionario della t compreso tra gli estremi: t 2; n1 • M t 2; n1 s n Da ciò si deducono i limiti di fiducia per ad un fissato livello di fiducia pari a 1 - : s s M t 2; n1 M t 2; n1 n n INTERVALLI DI FIDUCIA CON LA t DI STUDENT • • Generalmente si ha: t; z (l’uguaglianza vale solo per ) Ripetuti intervalli si modificano anche in ampiezza: s s ,M t 2; M t 2; n n M ESEMPIO: intervallo di fiducia con la t Si vuole trovare un intervallo di fiducia per la variazione media di glicemia (pre-post prandiale) con un grado di fiducia pari a 1- = 0,95. Supponiamo di sapere che la variazione della glicemia si distribuisce secondo una Normale. Da un campione casuale di 5 soggetti la variazione risulta: Soggetto Variazione glicemia (mg/dl) 1 2 3 4 5 TOTALE -70 -30 10 -40 -20 -150 xi-M -40 0 40 -10 10 0 (xi-M)2 1600 0 1600 100 100 3400 La deviazione standard campionaria risulta quindi: s 3400 29,15 5 1 e l’intervallo di fiducia sarà: (- 30 - 2,7829,15/5 ; -30 + 2,7829,15/5) = (- 66,24 ; + 6,24) DIMENSIONE DEL CAMPIONE (stima di media con noto) • Si noti che, con riferimento all’intervallo basato sulla distribuzione Normale, la sua ampiezza è data dalla differenza tra il limite di fiducia superiore e quello inferiore, ossia da: M z 2 (M z 2 ) 2 z 2 n n n • • Si desideri un intervallo con prefissati: – ampiezza (il semi-intervallo è detto precisione), – limite di fiducia 1 - . Si assuma noto il valore di (sulla base di indagini pilota). ►Soluzione: 4 z 2 2 2 2 z 2 n 2 n ESEMPIO: dimensione del campione nel caso di stima di una media con noto Si vuole stimare il peso medio alla nascita in un’area urbana prefissando per l’intervallo di fiducia un’ampiezza = 120g e un livello di fiducia 1- = 99%. Da studi precedenti si è trovato che il peso alla nascita ha una deviazione standard = 600g. Quanto deve essere grande il campione? 4 2,582 6002 n 665,64 666 neonati 2 120 INTERVALLO DI FIDUCIA PER UNA PROPORZIONE • • • Si voglia stimare l’ignota frequenza relativa di unità che nella popolazione sono portatrici di una determinata caratteristica (es.: prevalenza del diabete = numero diabetici/totale popolazione). A tal fine, si estrae un campione di numerosità n. Si osservano x (distribuzione Binomiale) soggetti con la caratteristica in esame (es.: diabetici), ottenendo così p = x/n quale informatore (stima puntuale di ). Se n 30, la distribuzione Binomiale è bene approssimata dalla Normale e i limiti di fiducia possono essere così espressi: p z 2 p (1 p) p (1 p) p z 2 n n ESEMPIO: intervallo di fiducia per una proporzione Si vuole stimare la percentuale di fumatori tra gli studenti delle medie superiori, con un livello di fiducia pari a 1- = 0,95. Si conduce quindi un’indagine su un campione di n = 1.737 studenti. Si trova che i fumatori sono x = 308. La proporzione (prevalenza) di fumatori risulta quindi: x 308 p 0,177. n 1.737 L’intervallo di fiducia sarà: 0,177 0,823 0,177 0,823 0,177 1,96 ; 0,177 1,96 1.737 1.737 0,159 ; 0,195 15,9% ; 19,5% DIMENSIONE DEL CAMPIONE (stima di una proporzione) • Per la stima della frazione , l’ampiezza dell’intervallo è data da: p (1 p) 2 z 2 n • Il parametro viene sostituito dalla stima p desunta da indagini precedenti sullo stesso fenomeno, o dal valore 0,5 che riflette la condizione più sfavorevole. ►Soluzione: n 4 z 2 2 p (1 p) 2 ESEMPIO: dimensione del campione nel caso di stima di una proporzione (percentuale) Si vuole stimare la prevalenza dei diabetici ultra-65enni, che si presume essere all’incirca del 30%, prefissando per l’intervallo di fiducia un’ampiezza = 0,04 ed un livello di fiducia 1- = 95%. Qual è la dimensione campionaria necessaria? 4 1,962 0,30 0,70 n 2016,84 2.017 ultra - 65enni 2 0,04 LIVELLI DI FIDUCIA E COEFFICIENTI (1-)% Z/2 99,73 3,0 99,00 2,58 95,45 2,0 95,00 1,96 90,00 1,645 80,00 1,28 68,27 1,0 50,00 0,6745 VARIABILITÀ, NUMEROSITÀ CAMPIONARIA E AMPIEZZA DELL’INTERVALLO DI FIDUCIA Per ridurre l’ampiezza dell’intervallo dovremmo: 1. ridurre 2. aumentare n. n Intervallo di fiducia al 95% per 10 M 0,620 100 M 0,196 1000 M 0,062 Ampiezza dell’intervallo 1,240 0,392 0,124