Corso in “Statistica Medica” Introduzione alle tecniche statistiche di elaborazione dati Intervalli di confidenza Dott. Angelo Menna Università degli Studi di Chieti “G. d’Annunzio” Anno Accademico 2008-2009 STATISTICA INFERENZIALE La statistica inferenziale è rivolta all’induzione probabilistica circa la popolazione sulla base di osservazioni su un campione di unità estratte con procedure casuali dalla popolazione. I termini generali la statistica inferenziale è rivolta ad affrontare e risolvere il cosiddetto problema inverso in cui la struttura della popolazione è incognita e induttivamente si cerca di utilizzare un insieme limitato di informazioni fornite da un campione casuale estratto dalla popolazione. Popolazione Campione Stima Stimadei deiParametri Parametri Argomenti Argomentifondamentali fondamentali di dicui cuisisioccupa occupa l’inferenza l’inferenzastatistica: statistica: Intervalli Intervallidi diConfidenza Confidenza Verifica Verificadelle delleIpotesi Ipotesi Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009 INTERVALLI DI CONFIDENZA Nella pratica si dispone di un solo campione, per cui la stima puntuale difficilmente darà il valore esatto del parametro della popolazione. E’ preferibile allora stimare due estremi, entro i quali tutti i valori sono possibili stime del parametro, secondo un certo grado di plausibilità. L’intervallo di confidenza è un intervallo di valori determinato sulla base di un campione che si ritiene contenere il vero parametro (incognito della popolazione) con un prefissato grado di fiducia. Se ad esempio si vuole costruire l’intervallo di confidenza per la media della popolazione µ, si calcoleranno due valori (θ1 e θ2) simmetrici rispetto alla media campionaria. µ θ1 X θ2 X Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009 INTERVALLI DI CONFIDENZA Dire che il livello di confidenza è prefissato significa assegnare una probabilità di questo tipo: P(θ1 < µ < θ2) = 1 - α Poiché sono gli estremi dell’intervallo (θ1 e θ2) che variano al variare delle realizzazioni campionarie, mentre il parametro incognito (es. µ) è fisso, 1 - α è la probabilità che l’intervallo contenga il parametro incognito. Così, se 1-α=95%, immaginando di avere tutti i possibili campioni, ci aspettiamo che il 95% di essi contenga il parametro incognito della popolazione. µ θ1 X θ2 X Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009 INTERVALLI DI CONFIDENZA Vediamo come si costruisce un intervallo di confidenza con un esempio. Bisogna stimare la superficie media µ delle abitazioni di una città. Da uno studio precedente sappiamo che lo scarto quadratico medio σ=8. In un campione di 50 appartamenti si osserva una media campionaria X = 120. Si vuole determinare l’intervallo di confidenza per µ al 95%, sotto l’ipotesi di Normalità. Ricordiamo che la media campionaria si distribuisce normalmente con i seguenti parametri: 2 σ X ≈ N µ , n quindi possiamo scrivere… x−µ P − Zα 2 ≤ ≤ Zα 2 = 1 − α σ n Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009 INTERVALLI DI CONFIDENZA Dalla precedente ricaviamo σ σ P x − Zα 2 ≤ µ ≤ x + Zα 2 =1−α n n A questo punto i nostri dati sono i seguenti: X = 120; σ = 8; n = 50; 1 - α = 95% Per cui manca solo il valore di Zα 2 che andiamo a cercare con l’ausilio delle tavole della normale. Dalle tavole ottengo il valore Z α/2 = 1,96 Siccome α=0,05 allora α/2=0,025 α/2 α/2 -1,96 0 1,96 z Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009 INTERVALLI DI CONFIDENZA A questo punto basta sostituire i valori e otteniamo l’intervallo cercato: 8 8 P120 − 1,96 ≤ µ ≤ 120 + 1,96 = 0 ,95 50 50 P(117 ,78 ≤ µ ≤ 122,22) = 0 ,95 CONCLUSIONE: si ha una FIDUCIA del 95% che l’intervallo [117,78 ; 122,22] contenga il parametro incognito µ. Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009 INTERVALLI DI CONFIDENZA Un caso particolare è quello in cui si deve costruire un intervallo per la media senza conoscere la varianza della popolazione. In tal caso si possono avere 2 situazioni: 1. 1.La Lanumerosità numerositàdel del campione campioneèègrande grande (diciamo (diciamon>30) n>30) 2. 2.Il Ilcampione campioneèè piccolo piccolo(diciamo (diciamon<=30) n<=30) Si Siprocede procedecon conlala distribuzione distribuzionenormale. normale. Si Siutilizza utilizzalaladistribuzione distribuzione ttcon conn-1 n-1gradi gradidi dilibertà libertà (G.L.) (G.L.) In Inquesto questocaso casolalaprocedura procedurarimane rimaneinvariata, invariata,solo soloche chealalposto posto dello dellos.q.m s.q.m(incognito) (incognito)sisiutilizzerà utilizzeràililsuo suostimatore stimatorenaturale, naturale,cioè cioè lo loscarto scartoquadratico quadraticomedio mediocampionario campionariocorretto corretto Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009 INTERVALLI DI CONFIDENZA Vediamo ora un esempio sulla stima della percentuale π. Una ditta farmaceutica vuole stabilire l’efficacia di un nuovo farmaco. Ha condotto un esperimento su 900 pazienti, affetti dalla malattia in questione, e si è riscontrato che il farmaco è stato efficace in 740 casi. Si vuole determinare l’intervallo di confidenza al 95% per la percentuale dei casi (π) in cui il farmaco è efficace nell’intera popolazione dei malati. Ricordiamo che per stimare π uso la statistica p = ∑x i n che rappresenta la frequenza relativa dei successi nel campione; quindi abbiamo: p= 740 = 0 ,82 900 Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009 INTERVALLI DI CONFIDENZA Dato che la seguente quantità ha distribuzione Normale Standardizzata Z = Possiamo scrivere: P − Z α 2 ≤ p −π π (1 − π ) n p − π ≤ Zα 2 = 1− α π (1 − π ) n Dalla quale, sostituendo al parametro ignoto π sotto radice il suo stimatore p, si ha: ( ) P p − Zα 2 p(1− p ) n ≤ π ≤ p + Zα 2 p(1− p ) n =1−α Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009 INTERVALLI DI CONFIDENZA I dati che abbiamo sono: p = 0,82; (1-p) = 0,18; 1-α = 95%; Zα/2 = 1,96 Quest’ultimo valore si ricava dalle tavole con lo stesso procedimento visto per la media. Per cui facendo le sostituzioni otteniamo: ( ) P 0 ,82 − 1,96 0 ,82 ⋅ 0 ,18 900 ≤ π ≤ 0 ,82 + 1,96 0 ,82 ⋅ 0 ,18 900 = 0 ,95 P (0 ,80 ≤ π ≤ 0 ,84 ) = 0 ,95 CONCLUSIONE: si ha una FIDUCIA del 95% che questo intervallo contenga il valore incognito della popolazione π Dott. Angelo Menna, Statistico – Anno Accademico 20082008-2009