Statistica Inferenziale • Generalizzare i risultati ottenuti da un insieme campione alla popolazione dal quale esso è stato estratto Modello Struttura idealizzata che si adatta alla realtà e serve per descriverla, interpretarla, comprenderla Non è VERO o FALSO ma può essere UTILE o INUTILE È una semplificazione: …il più semplice possibile, …ma non di più Distribuzione Normale o Gaussiana 1 x − µ 2 1 f(x) = exp − σ 2π 2 σ Sembra complicato, ma… µ è la media σ è Var, ovvero la deviazione standard forma simmetrica a campana area sotto la curva pari a 1 Conoscendo solo due parametri, media e varianza varianza, possiamo sapere come è fatta la variabile di interesse Caratteristiche della distribuzione gaussiana X~N(µ,σ) µ determina la posizione della curva sull’asse delle ascisse. σ determina la maggiore o minore concentrazione della curva attorno a µ Caratteristiche della distribuzione gaussiana Per qualsiasi distribuzione gaussiana lo scarto σ contrassegna intervalli tipici: • il • il • il • il 68.27% delle oss. è compreso nell’intervallo [µ-σ; µ+σ] 95% nell’intervallo [µ-1.96σ; µ+1.96σ] 95.45% nell’intervallo [µ-2σ; µ+2σ] 99.73% nell’intervallo [µ-3σ; µ+3σ] Distribuzione Normale standard (µ (µ=0, =0,σ σ=1) I valori di probabilità della Normale con µ=0 e σ=1 sono già stati calcolati e riportati in una tavola: Z~N(0,1) Come si usano le tavole? 0.8944 ad es. P(Z<1.25)= 0.8944 Come si usano le tavole? f(z) 0.4 Detto p (0<p<1) il valore dell'area a destra di +z*, l'area a sinistra di +z* vale (1-p). 0.3 1-p 0.2 p 0.1 0 -3 -2 -1 0 z* 2 1 3 deviata gaussiana standard z f(z) 0.4 0.3 1-2p 0.2 p p 0.1 0 -3 -2 -z* -1 0 1 +z*2 3 L'area a sinistra di -z* è uguale all'area a destra di +z*. Detto p (0<p<1) il valore di tale area, l'area esterna a ±z* vale 2p, e l'area interna vale (1-2p). deviata gaussiana standard z f(z) 0.4 0.3 1-p 1 -p 2 0.2 0.1 p1 0 -3 -2 p2 z-1 1 0 z21 2 deviata gaussiana standard z 3 L'area compresa tra due valori z1* < z2* si ricava per differenza (1 - p1 - p2), dove p1 è il valore dell'area a sinistra di z1*, e p2 quello dell'area a destra di z2*. Distribuzione Normale (µ (µ≠0, ≠0,σ σ≠1) E’ possibile trasformare una qualsiasi funzione gaussiana f(x) con media µ e varianza σ2 in una funzione gaussiana standard, f(z) con media 0 varianza 1, se si pone: standard Z= X −µ σ Z è una trasformata di X, centrata rispetto a µ e scalata rispetto a σ. Il modello si semplifica… 1 x − µ 2 1 f(x) = exp− 2 σ σ 2π E diventa… (z) 2 1 f(x) = exp− 2 2π Spostare il valore medio: xx-µ 0 µ x Modificare la larghezza −σ -1 0 +1 +σ xz Gaussiana (µ σ²) Gaussiana standardizzata (0 1) Utilizzo gaussiana standard I caso: I parametri µ e σ sono noti, si vuole conoscere la probabilità che la variabile x assuma valori compresi all’interno dell’intervallo a,b con a<b. II caso: I parametri µ e σ sono noti, si vogliono conoscere gli estremi a,b dell’intervallo, centrato su µ, il quale comprende un livello di probabilita’ fissato p. Esercizio 1 Data la distribuzione normale standardizzata, si trovi: 1. 2. 3. 4. 5. 6. 7. 8. 9. L’area sottesa alla curva fra z=0 e z=1.43 P(z<1.43)-P(z<0)=0.9236-0.5000 P(z≥0.55) 1-P(z<0.55)=1-0.7088 P(z≥-0.55) P(z<0.55)= P(z<2.33) 0.4236 =_____ 0.2912 =_____ 0.7088 =_____ 0.9901 =_____ P(z<-2.33) 0.0099 P(z>2.33)=1-P(z<2.33)=1-0.9901 =_____ P(-1.96<z<1.96) 0.95 1-2*P(z>1.96)=1-2*(1-P(z<1.96))=1-2*(1-0.9750)=1-2*0.025 =_____ P(-2.58<z<2.58) 0.9902 1-2*P(z>2.58)=1-2*(1-P(z<2.58))=1-2*(1-0.9951)=1-0.0098 =_____ P(-1.65<z<1.65) 0.901 1-2*P(z>1.65)=1-2*(1-P(z<1.65))=1-2*(1-0.9505)=1-0.099 =_____ P(0.49<z<1.74) 0.2712 P(z<1.74)-P(z<0.49)=0.9591-0.6879= =_____ Esercizio 2 Date le seguenti relazioni, si trovi z1: 10. P(z≤z1)=0.7703 0.74 z1 =_____ 11. P(z≤z1)=0.6103 0.28 z1 =_____ 12. P(z≤z1)=0.9664 1.83 z1 =_____ 13. P(z≤z1)=0.8051 0.86 z1 =_____ Esercizio 3 Qual è la probabilità per un soggetto “sano” di avere un valore di albumina (x) ≥42.0 g/l? P(x ≥42.0) = ? Se si dispone della distribuzione dei valori della concentrazione sierica di albumina in soggetti “sani”… Albumina (g/l) Freq. % % cum. 20|-22 2 0.95 0.95 22|-24 7 3.32 4.27 24|-26 8 3.79 8.06 26|-28 10 4.74 12.80 28|-30 20 9.48 22.27 30|-32 19 9.00 31.28 32|-34 28 13.27 44.55 34|-36 40 18.96 63.51 36|-38 28 13.27 76.78 38|-40 22 10.43 87.20 40|-42 11 5.21 92.42 42|-44 10 4.74 97.16 44|-46 3 1.42 98.58 46|-48 2 0.95 99.53 48|-50 1 0.47 100.00 Totale 211 100.00 Concentrazione sierica di albumina in soggetti “sani” P(x ≥ 42.0 g/l) = ? 16/211=7.58% 100-92.42=7.58% Esercizio 3 Se si conosce solo media (=34.21 g/l) e deviazione standard (=5.39 g/l) se la distribuzione dei valori è approssimativamente gaussiana posso trasformare la variabile un una gaussiana standard ~N(0,1) z= (x− µ) σ z= (42 − 34 .21) = 1 .45 5 .39 P(X≥42)=P(Z≥1.45)=1-P(Z<1.45) =1-0.9265=0.0735=7.35% X Z Freq. % % cum. 21 -2.45 2 0.95 0.95 23 -2.08 7 3.32 4.27 25 -1.71 8 3.79 8.06 27 -1.34 10 4.74 12.80 29 -0.97 20 9.48 22.27 31 -0.60 19 9.00 31.28 33 -0.22 28 13.27 44.55 35 0.15 40 18.96 63.51 37 0.52 28 13.27 76.78 39 0.89 22 10.43 87.20 41 1.26 11 5.21 92.42 43 1.63 10 4.74 97.16 45 2.00 3 1.42 98.58 47 2.37 2 0.95 99.53 49 2.74 1 0.47 100.00 211 100.00 Tot CON LA TRASFORMAZIONE z= (x − µ ) σ Valori standardizzati m=0 s=1 Gli ZZ-score … indicano esattamente quanto un singolo dato è lontano dalla media descrivendo la sua posizione in unità di deviazione standard. Quando trasformiamo un valore grezzo in questa maniera, chiameremo il risultato della trasformazione valore della distribuzione gaussiana standardizzata o punteggio standard o z-score Un punteggio standard, standard abbreviato con z è un modo per esprimere ogni valore grezzo in termini di unita di d.s. Esercizio 4 Dalla letteratura scientifica risulta che in una popolazione apparentemente sana il valore dell’HDL (high density lipoprotein) colesterolo ha µ = 57 mg/100ml e σ = 10 mg/100ml Sapendo che i valori dell’HDL si distribuiscono in modo approssimativamente gaussiano, si vuole stimare la probabilità che un soggetto “sano” abbia valori di HDL < 45 mg/100ml z = (45-57)/10 = -1.2 P(x≤45) = P(Z ≤ -1.2) = 1-P(Z≤1.2)=1-0.8849 = 0.1151 (11.51%) -1.2 z 0 P(Z ≤ -1.2) = P(Z ≥ 1.2) = 1-P(Z ≤ 1.2) z 0 1.2 Si vuole stimare ora la probabilità che un soggetto abbia valori di HDL compresi tra 45 mg/100 ml e 60 mg/100ml. z1 = (45-57)/10 = -1.2 z2 = (60-57)/10 = 0.3 P(45 ≤X≤ 60) = P(-1.2 ≤Z≤ 0.3) = P (0.3)- P(z≤-1.2)= 0.6179-0.1151=0.5028 = 50.28% media 0.1151 0.6179 50.3% 45 60 | | -1.2 +0.3 Esercizio 5 Dopo diversi sondaggi un fabbricante di calze da donna arriva alla conclusione che la lunghezza del piede di una donna adulta segue una legge normale con parametri µ=24 e σ=3 cm. Decide di utilizzare tale distribuzione per determinare le taglie e le quantità corrispondenti da mettere in produzione. Si chiede: In quale percentuale di casi si osserva una lunghezza di piedi: Superiore rispettivamente a 25, 30, 36 cm. Inferiore rispettivamente a 15, 20, 21 cm. Esercizio 5 µ = 24 σ = 3 P(X>25)=P(Z>(25-24)/3)=P(Z>0.33)=1-P(Z<0.33)=1-0.6293=0.3707 P(X>30)=P(Z>(30-24)/3)=P(Z>2)=1-P(Z<2)=1-0.9772=0.0228 P(X>36)=P(Z>(36-24)/3)=P(Z>4)=1-P(Z<4)=1-1.0000=0.0000 P(X<15)=P(Z<(15-24)/3)=P(Z<-3)=1-P(Z<3)=1-0.9987=0.0013 P(X<20)=P(Z<(20-24)/3)=P(Z<-1.33)=1-P(Z<1.33)=1-0.9082=0.0918 P(X<21)=P(Z<(21-24)/3)=P(Z<-1)=1-P(Z<1)=1-0.8413=0.1587 Esercizio 6 Il signor W.P. è tenuto sotto controllo e la sua pressione sanguigna media in molte occasioni è 85 mmHg. Si supponga che la sua vera deviazione standard per misure singole sia 6 mmHg. Quante volte vi aspettereste una lettura di 95 mmHg o superiore? µ= 85 σ=6 Supponendo ragionevolmente che la pressione sanguigna sia normalmente distribuita: P(X≥95)=P(Z≥(95-85)/6)=P(Z≥1.67)=1-P(Z<1.67)= 1-0.9525=0.0475 cioè, circa il 5% delle volte. Statistica Inferenziale Generalizzare i risultati ottenuti da un insieme campione alla popolazione dal quale esso è stato estratto Stima dei parametri • stima puntuale • stima intervallare Verifica d’ipotesi (test) Stima puntuale: la media campionaria Dato un campione che si ritiene rappresentativo della popolazione, possiamo ritenere che la media calcolata su questo campione fornisca una buona stima della media ignota della popolazione da cui il campione è stato tratto? Stima puntuale: la media campionaria Si supponga di aver individuato una popolazione I di interesse composta da N unità. Da questa popolazione estraiamo tutti i possibili campioni di una determinata ampiezza n IN=4={1, 3, 5, 7} N=4 n=2 x fi (x-µ) (x-µ)2 1 1 -3 9 3 1 -1 1 5 1 1 1 7 1 3 9 4 0 20 µ= 1 + 3 + 5 + 7 16 = =4 4 4 20 σ = =5 4 2 Quali sono tutti i possibili campioni di ampiezza n=2 che possono venire estratti da tale popolazione? (42=16) 1 1; 1 3; 1 5; 1 7; 3 1; 3 3; 3 5; 3 7; 5 1; 5 3; 5 5; 5 7; 7 1; 7 3; 7 5; 7 7. Stima puntuale: la media campionaria Si calcoli poi la media per tutti i campioni ottenuti di dimensione n=2. Possibili campioni 1 1 1 3; 3 1 1 5; 3 3; 5 1 1 7; 3 5; 5 3; 7 1 3 7; 5 5; 7 3 5 7; 7 5 7 7 fi xi 1 2 3 4 3 2 1 16 1 2 3 4 5 6 7 Medie campionarie Distribuzione delle medie campionarie Cosa osserviamo? Stima puntuale: la media campionaria Solo 4 dei possibili 16 campioni hanno una media campionaria che coincide con la vera media della popolazione. I restanti campioni hanno una media che si discosta da 4 per più o meno 3 unità (da 1 a 7). Le medie dei diversi campioni variano perché estraiamo dei singoli componenti da una popolazione che è a sua volta distribuita in un campo più o meno vasto di valori. Stima puntuale: la media campionaria Dalla distribuzione di campionamento relativa alle medie campionarie, si possono ora calcolare le due misure di posizione e dispersione principali, e cioè la media e la varianza. xi fi x i × fi (x i − x )2 × fi 1 2 3 4 5 6 7 1 2 3 4 3 2 1 16 1 4 9 16 15 12 7 64 9 8 3 0 3 8 9 40 E( x )= x =64/16=4 E( x )=µ 2 Var( x )=σ /n ( ) Var x = 40 / 16 = 2.5 n=2 in questo esempio Stima puntuale: la media campionaria ATTENZIONE! Per evitare confusione di terminologia… σ della media campionaria viene chiamato errore standard E’ una misura che indica la dispersione delle medie calcolate nei singoli campioni, rispetto alla media delle medie. Errore standard Per inciso… Si calcola in modo diverso a seconda della stima campionaria che stiamo considerando Media campionaria ES(m) = σ oppure: ES(m) = n s n Differenza tra due medie ES(m1– m2) = σ 12 n1 + σ 2 2 n2 oppure: ES(m1– m2) = Proporzione ES(p) = p (1 − p ) n sp = sp 1 1 + n1 n2 s12 ( n1 − 1) + s 22 ( n 2 − 1) n1 + n 2 − 2 Stima puntuale Finora abbiamo considerato cosa succede in una situazione ipotetica in cui estraiamo n campioni da una popolazione nota Nella realtà, in genere, disponiamo di un solo campione e la popolazione da cui è stato estratto non è nota Stima puntuale Il principio che ha consentito di ottenere la distribuzione della media campionaria può essere applicato a qualsiasi altra statistica calcolata sul campione: ad es. varianza campionaria, mediana campionaria, prevalenza, proporzione, ecc... La precisione di una stima dipende: - dalla numerosità (n) del campione - dalla variabilità (d.s.) del fenomeno Se il fenomeno è “poco variabile” è sufficiente un campione di ridotte dimensioni per ottenere una stima attendibile dei parametri della popolazione. Se invece la variabilità è elevata, per ottenere una stima attendibile occorre un campione di elevata numerosità. La precisione di una stima Se il fenomeno è “poco variabile” è sufficiente un campione di ridotte dimensioni per ottenere una stima attendibile dei parametri della popolazione; Media della popolazione Ho una probabilità elevata di estrarre valori vicino alla media µ indipendentemente da n, ho stime piuttosto precise La precisione di una stima Se la variabilità è elevata, per ottenere una stima attendibile occorre un campione di elevata numerosità. Media della popolazione Se n è piccolo ho una probabilità bassa di estrarre valori vicino alla media µ Se n è grande ho una probabilità elevata di estrarre valori vicino alla media µ Per ottenere stime precise devo avere un campione molto numeroso Stima puntuale e stima intervallare Con la stima puntuale non si è certi di individuare in modo esatto il vero valore del parametro che si vuole stimare Da diversi campioni si otteranno stime diverse Per tener conto di questa incertezza è opportuno presentare, accanto alla stima puntuale, un intervallo di valori plausibili plausibili: Intervallo di Confidenza Intervallo di confide confidenza nza al (1(1-α)% IC(1-α)(µ) = m ± zα/2 × e.s.(m) Livello di confidenza Stima Valore soglia puntuale Determinato in base al modello (z) che interpola i dati e al livello di confidenza (1-α) Errore standard del parametro L'intervallo di confidenza varia casualmente attorno al parametro µ, ed ha probabilità pari a (1-α) di includere il parametro µ della variabile x _ f(x) 0.4 0.3 0.2 (1−α) α/2 α/2 0.1 0 l µ− zσ/√ n INTERVALLO DI PROBABILITA' | _ µ | _ l | µ+ zσ/√ n _ x+z σ/√n x-z σ/√ n x UN INTERVALLO DI CONFIDENZA Ciò significa che, benché sia impossibile risalire da una stima campionaria al vero valore del parametro µ di un universo, è però possibile determinare attorno a tale stima un intervallo che ha una prefissata probabilità (1-α) di includere il parametro µ di quell'universo. Esercizio 1 Se la media della pressione sistolica in un campione di uomini tra 45 e 65 anni è 126.4 mmHg (stima campionaria), allora si può ritenere che la media della pressione sistolica di tutti gli uomini della popolazione di riferimento sia anch’essa «più o meno» 126.4 mmHg? «Più o meno»? Sapendo che l’errore standard è pari a 7.4 e avendo scelto un livello di confidenza del 95% α=0.05 zα/2= z0.025=1.96 IC95%(µ) = 126.4 ± 1.96×7.4 = (111.896 – 140.904) INTERPRETAZIONE non conosco il vero valore della pressione INTERPRETAZIONE: sistolica media nella popolazione, ma, data la stima campionaria che ho osservato (126.4 mmHg), sono confidente al 95% che l’intervallo 111.894 e 140.904 contenga la vera media Esercizio 2 In una popolazione di soggetti sani il livello medio di protrombina è distribuito in modo approssimativamente gaussiano, con media µ=20 mg/dl e deviazione standard σ=4 mg/dl. In un campione di 40 pazienti con deficit di vitamina K si è riscontrato un livello medio di protrombina di 18.8 mg/dl. Nonostante la differenza osservata (18.8 vs 20.0) si può ritenere che il vero valore medio (µ) di protrombina dei pazienti con deficit di vitamina K sia pari a quello della popolazione dei sani? IC95%(µ) = 18.8 ± 1.96×4/√40 = 18.8 ± 1.96×0.63 = (17.57 – 20.03) σ E.S .(x ) = n Esercizio 2 INTERPRETAZIONE IC95%(µ) = 18.8 ± 1.96×4/√40 = 18.8 ± 1.96×0.63 = (17.57 – 20.03) In base ai risultati ottenuti posso affermare che il valore medio di protrombina dei pazienti con deficit di vitamina K è un valore compreso tra 17.57 e 20.03. Ho la quasi certezza (con la confidenza del 95%) che la protrombina media dei pazienti con deficit di vitamina K sia uguale a quella della popolazione sana. Questa affermazione potrebbe anche essere falsa, perché c’è una probabilità del 5% che l’intervallo di confidenza non contenga il vero valore di µ. Esercizio 2 E se volessi una maggiore certezza? Calcolo l’intervallo di confidenza al 99% IC99%(µ) = 18.8 ± 2.58×4/√40 = 18.8 ± 2.58×0.63 = (17.17 – 20.43) IC(95 95%): (17.57 - 20.03) 99%): IC(99 (17.17 - 20.43) “confidenza” maggiore intervallo più ampio Esercizio 3 Si vuole stimare il vero valore medio dell'uricemia in una popolazione maschile: è noto che in tale popolazione la dispersione dell'uricemia è = 1.1 mg/dl. Si richiede che la confidenza sia del 95%. Esercizio 3 Si supponga ora di estrarre un campione casuale di 40 soggetti dalla popolazione, di determinare il valore di uricemia di ognuno dei 40 soggetti, e di calcolare la media di tali valori (x =5.55 mg/dl). Si ricava che l'intervallo di confidenza della media al 95% vale: I.C.95% = 5.55 ± 1.96× 1.1 = 5.55 ± 0.34 = (5.21, 5.89) 40 E.S .(x ) = σ n Posso affermare con una confidenza del 95% che l’ignoto parametro µ è compreso tra 5.21 e 5.89 mg/dl Come si decide con l’intervallo di confidenza? L’intervallo di confidenza può essere utilizzato come “test” per determinare se una stima sia significativamente diversa da un valore fissato, oppure se le stime osservate in due gruppi siano diverse tra loro Se l’intervallo di confidenza della media contiene il valore fissato allora ritengo che le medie non siano significativamente diverse. Se l’intervallo di confidenza della differenza tra le medie contiene 0 allora ritengo che le medie non siano significativamente diverse. Se l’intervallo di confidenza di un odds ratio o rischio relativo o contiene 1 allora ritengo che non vi sia associazione tra fattore di rischio e malattia. Esempio Verifica d’ipotesi Oltre all’intervallo di confidenza, per valutare la significatività di una stima (media, differenza tra medie, proporzioni…) posso costruire un sistema di ipotesi ed effettuare un test Prima si definisce una ipotesi nulla H0: non c’è differenza/associazione Poi una ipotesi alternativa H1: c’è differenza/associazione Verifica d’ipotesi Ad es. se si vogliono confrontare le medie di due campioni… Ipotesi nulla H0: µ1 = µ2 Ipotesi alternativa H1: µ1 ≠ µ2 oppure H1: µ1 < µ2 oppure H1: µ1 > µ2 ipotesi bilaterale: α/2 ipotesi unilaterale: α Verifica d’ipotesi: come si decide? Se la differenza (o associazione) osservata tra i gruppi è abbastanza forte in confronto alla variabilità delle misure presente all’interno dei gruppi allora è ragionevole concludere che esiste il segnale. (si rifiuta H0) Se la differenza non è abbastanza forte rispetto alla variabilità allora è ragionevole concludere che, in base a quanto esaminato, non si ha evidenza che esista una differenza. (si accetta H0) Verifica d’ipotesi: criterio di decisione Si costruisce una statistica test, test in base all’ipotesi nulla H0 che stiamo testando e che dipende dalla distribuzione della variabile di interesse. Si identifica una soglia di rifiuto e si calcola la probabilità ad essa associata: se la probabilità “p” è piccola si rifiuta H0 se “p” è grande non si rifiuta H0 Nella letteratura medica generalmente si usano due valori di probabilità (o livelli di significatività) quali soglie per costruire una regola di decisione relativa al rifiuto di H0 altamente significativo: p<0.01 significativo: 0.01<p<0.05 non significativo: p>0.05 il risultato osservato potrebbe essere frutto del caso Verifica d’ipotesi: criterio di decisione Stabilire il criterio di decisione significa stabilire, per i valori * della media campionaria, una soglia x oltre la quale il risultato sperimentale viene ritenuto incompatibile con l'ipotesi H0 : µ = ϑ _ f(x) 0.5 H1 H0 0.4 0.3 _______ σ/√ n 0.2 0.1 0 _______ α/2 σ/√ n α/2 (1−α) | µ=ϑ β | x* (1−β) | µ=ϑ+δ _ x Verifica d’ipotesi: possibili risultati S E È V ERA H 0 SE È VERA H 1 ... e in base al campione decido che è vera H 0 decisione giusta protezione: (1-α) decisione sbagliata errore di 2° tipo: β ... e in base al campione decido che è vera H 1 decisione sbagliata errore di 1° tipo: α decisione giusta potenza: (1-β ) Analogia con i test di screening 0.5 0.4 Sani=H0 Malati=H1 Specificità Sensibilità 0.3 % FP % FN 0.2 σ√ σ√(2/n) (2/n) σ√ σ√(2/n) (2/n) 0.1 β (1-α) α (1-β) 0 0 d* δ Valore soglia Verifica d’ipotesi: possibili risultati 1. Abbiamo creduto di osservare un effetto che non c’era (errore di 1° tipo). 2. Abbiamo osservato un effetto che c’era veramente (potenza). 3. Abbiamo ritenuto che non ci fosse alcun effetto quando invece c’era (errore di 2° tipo). 4. Non abbiamo osservato alcun effetto ed effettivamente non c’era (protezione). Intervalli di confidenza e test d’ipotesi Gli intervalli di confidenza e la verifica di ipotesi svolgono una funzione simile. Se l’intervallo di confidenza al 95% include il valore sottoposto ad ipotesi nulla (0 o 1), allora il valore di p sarà maggiore di 0.05. Se l’intervallo di confidenza al 95% non include il valore sottoposto ad ipotesi nulla (0 o 1), allora il valore di p sarà minore di 0.05. Gli intervalli di confidenza sono generalmente da preferire perché forniscono anche un range di valori plausibili rispetto al valore del parametro cercato, mentre il test di ipotesi dice solo se rifiutare o non rifiutare l’ipotesi nulla H0. Esempio 1 Il valor medio di un parametro fisiologico (distribuito in modo gaussiano) misurato nel corso di una vasta indagine sulla popolazione italiana è risutato µ=50 con σ=26.3. In un campione di 25 individui residenti in una zona sospetta di inquinamento da prodotti tossici si è osservato un valore medio pari a 60. Esiste una differenza significativa tra la media campionaria e quella della popolazione? Esempio 1 µ=50 z= (60 − 50 ) 26.3 25 σ=26.3 n=25 x = 60 α=0.05 H 0 : µ = 50 H1 : µ ≠ 50 = 1.90 P(Z>1.90)=0.0287 Il valore di z calcolato è inferiore di zα 2 = 1.96 o, equivalentemente, P(z > 1.90 )=0.028 > P(zα 2 > 1.96)=0.025. Pertanto non si rifiuta l'ipotesi nulla. Non esistono ragioni sufficienti per asserire che esiste una differenza significativa tra la media campionaria e quella della popolazione. Esempio 2 In un campione di 24 pazienti affetti da malattia parodontale, la media del fosforo inorganico titolato nel plasma è stata x = 3.62 mg% . Il valore normale fornito in bibiografia per il fosforo inorganico plasmatico è µ=3.36 mg% con una deviazione standard di 0.40 mg%. Si può affermare che la patologia da cui sono affetti i pazienti altera il valore del fosforo inorganico plasmatico? µ=3.36 σ=0.40 n=24 x = 3.62 α=0.01 Esempio 2 H0 : µ = 3.36 H1 : µ ≠ 3.36 z= Con α=0.01, (3.62 − 3.36) 0.40 24 = 0.26 = 3.186 0.0816 z α 2 = 2.58 Il valore di z calcolato è maggiore di zα 2 , si rifiuta l’ipotesi nulla. La patologia da cui sono affetti i pazienti altera il valore del fosforo inorganico plasmatico. Esempio 3 Esempio 3 INTERPRETAZIONE Nel campione la densità minerale ossea a livello lombare differisce in media di 0.08 g/cm2 (1.07 meno 1.00 con arrotondamento). Cioè, nel campione la densità minerale ossea media a livello lombare è di 0.08 g/cm2 maggiore nelle donne normali rispetto alle donne depresse. L’intervallo di confidenza al 95% relativo alla differenza tra le medie (da 0.02 a 0.14) fornisce un range plausibile per la differenza vera. L’intervallo di confidenza non contiene lo 0, la differenza è statisticamente significativa. Potenza del test (1(1-β) Probabilità che un particolare studio sia in grado di individuare una prefissata differenza dall’ipotesi nulla nel caso in cui tale differenza esista. La potenza deve essere calcolata dopo aver stabilito una definita differenza (δ) di interesse clinico (µ1 = µ0 + δ) Potenza del test Visto che gli esperimenti generalmente si fanno per dimostrare l’esistenza di differenze, correndo spesso il rischio di non trovarle, la probabilità di trovare una differenza quando esiste è una cosa che interessa molto lo sperimentatore. La potenza è la probabilità di concludere che c’è una differenza quando di fatto la differenza c’è davvero. Potenza del test Per vedere bene… una formica è sufficiente una lente di ingrandimento i batteri ci vuole un microscopio i virus è necessario un microscopio elettronico ... Potenza del test Quanto più piccolo è “l’oggetto” (la differenza differenza) che voglio “vedere”, tanto maggiore deve essere la capacità di ingrandire della lente (la potenza del test) Potenza (1 (1-β) vs differenza minima osservabile (δ (δ) n = 40 σ = 4 mg/dl 1-β α = 5% δ Numerosità campionaria (n) vs potenza (1(1-β) δ = 2 mg/dl σ = 4 mg/dl n α = 5% 1-β Dimensione del campione Tutto parte da un’indicazione dei clinici su: Minima differenza che si ritiene rilevante da un punto di vista clinico Probabilità di commettere un errore di 1°tipo che si ritiene accettabile Probabilità di commettere un errore di 2°tipo che si ritiene accettabile Variabilità del fenomeno oggetto di studio Prossima lezione Merc 25 novembre 9:30-12:30