OD STATISTICA INFERENZIALE 26 OD INFERENZA STATISTICA Insieme di metodi che cercano di raggiungere conclusioni sulla popolazione, sulla base delle informazioni contenute in un campione estratto da quella popolazione. INFERENZA STATISTICA CAMPIONE POPOLAZIONE 27 OD LA STIMA Processo che consiste nell’utilizzare i dati campionari per calcolare una data statistica (media, proporzione,…), che verrà considerata un’approssimazione del corrispondente parametro nella popolazione. POPOLAZIONE Parametri µ; σ; ... CAMPIONE Statistiche (stime di parametri) x ; s; ... STIMA PUNTUALE Il parametro di interesse è stimato attraverso un unico valore (puntuale). Esempio: la media campionaria è una stima puntuale della media di popolazione. STIMA INTERVALLARE Viene calcolato un intervallo di valori entro cui è probabile che rientri il vero valore del parametro. 28 OD STIMA E STIMATORI STIMA: valore calcolato dai dati campionari. STIMATORE: regola, formula, che indica come calcolare questo valore o stima. Esempio: Si vuole stimare la media µ della popolazione. Stima puntuale: x Stimatore: xi ∑ x= n media campionaria formula per il calcolo di x STIMATORE NON DISTORTO Uno stimatore è buono se è non distorto, cioè se il valore atteso* dello stimatore è uguale al valore del parametro. *valore atteso: valore medio dello stimatore, calcolato su tutti i possibili campioni da una data popolazione. 29 OD POPOLAZIONE CAMPIONATA E POPOLAZIONE DI RIFERIMENTO (O TARGET) POPOLAZIONE CAMPIONATA È la popolazione campionata da cui si estrae realmente il campione. POPOLAZIONE DI RIFERIMENTO (o TARGET) È la popolazione a cui si vuole estendere l’inferenza. Le due popolazioni non sempre coincidono. • Se coincidono si possono trarre conclusioni sulla popolazione target, usando le tecniche di inferenza statistica. • Se non coincidono si possono trarre conclusioni sulla popolazione target, solo sulla base di considerazioni non statistiche. 30 OD Esempio Si vuole valutare l’efficacia di un certo metodo per il trattamento dell’artrite reumatoide. Popolazione target: tutti i pazienti affetti da artrite reumatoide. Popolazione campionata: i pazienti affetti da artrite reumatoide visti in un certo ospedale. Le due popolazioni non coincidono: si possono trarre conclusioni sulla popolazione target, solo sulla base di considerazioni non statistiche. N.B.: quanto più le due popolazioni sono simili, tanto più il ricercatore è portato ad estrapolare i risultati alla popolazione target. Attenzione a non fare considerazioni arbitrarie. 31 OD INTERVALLI DI CONFIDENZA 32 OD INTERVALLO DI CONFIDENZA PER UNA MEDIA Scopo della ricerca Stima dell’altezza media di tutti gli studenti dell’Università di Pavia. Attuazione della ricerca • Estrazione di un campione casuale di 35 studenti; • calcolo della media campionaria ( x = 168,9 cm ), usata come stima puntuale della media µ della popolazione. x (168,9 cm) → STIMA PUNTUALE → µ (168,9 cm) Domanda. L’altezza media calcolata sul campione è esattamente uguale all’altezza media di tutti gli studenti dell’Università? Domanda. È possibile stabilire quanto è attendibile questa stima puntuale? 33 OD Considerazione La procedura seguita è corretta: • il campionamento è casuale; • lo stimatore non è distorto. Tuttavia, a causa delle fluttuazioni casuali, è impossibile pretendere che la media campionaria sia esattamente uguale al valore vero nella popolazione. L’errore commesso, dovuto a fluttuazioni casuali, non è eliminabile. Come risolvere il problema? È possibile stimare la media della popolazione non in modo puntuale, ma con una stima intervallare. STIMA INTERVALLARE. ? < µ < ? Limite inferiore Limite superiore Si costruisce un intervallo entro cui si può supporre sia contenuto il valore vero (fisso) della media della popolazione. 34 OD COSTRUZIONE DI UNA STIMA INTERVALLARE Obiettivo Calcolare una stima per intervallo della media di popolazione µ di una variabile X con distribuzione normale. Ricordiamo le caratteristiche campionamento della media: della distribuzione di σ • x~N • µx=µ • ES= n La media della distribuzione di campionamento (e quindi la media della popolazione) hanno un valore ignoto; essendo ignota la media è impossibile posizionare la distribuzione di campionamento sull’asse x; si conosce, però, la media del campione (stima puntuale) e pertanto è possibile posizionare arbitrariamente la distribuzione sull’asse x sulla base di tale media; attorno alla media campionaria costruiamo l’intervallo compreso tra la media e ± 2 errori standard( si suppone nota la varianza della popolazione). L1 x L2 35 OD Estraiamo dalla popolazione d’interesse altri campioni di ugual dimensione e costruiamo con il criterio precedente un intervallo attorno alla media di ciascuno. Avremo tanti intervalli dalla forma media ± 2 errori standard, tutti di ugual ampiezza, e ciascuno centrato attorno alla propria media. Domanda Dove si collocano questi intervalli rispetto alla vera media della popolazione? CAMPIONAMENTO RIPETUTO µ C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 36 OD Consideriamo l’intervallo µ ± 2 σx costruito attorno alla vera media µ della popolazione: qualunque sia il valore di µ, l’intervallo considerato conterrà il 95% dei possibili valori di x In altre parole, il 95% degli intervalli della stessa forma, costruiti attorno ad ogni possibile valore di x , dovrebbe avere il centro all’interno dell’intervallo µ ± 2 σx . I concetti espressi sono illustrati nel grafico seguente: 0.95 2σx 2σx x µ x1 x2 x3 x4 x5 Le medie dei campioni 1, 3, 4 cadono all’interno dell’intervallo µ ± 2 σx e quindi gli intervalli intorno ad essi contengono la media della popolazione. Le medie dei campioni 2 e 5 cadono all’esterno dell’intervallo µ ± 2 σx e quindi gli intervalli intorno ad essi non contengono la media della popolazione. 37 OD Esempio (Daniel pag.142 6.2.1) Supponiamo che un ricercatore, interessato a stimare il livello medio di un dato enzima in una certa popolazione umana, prenda un campione di 10 individui, determini il livello dell’enzima in ogni individuo e calcoli il valore medio nel campione x =22 mg/ml. Supponiamo, inoltre, che la variabile di interesse sia approssimativamente distribuita come una normale con una varianza di 45. Vogliamo stimare µ. Soluzione Un intervallo di confidenza al 95% circa per µ è dato da : x ± 2σ x = = 22 ± 45 10 = = 22 ± 2(2.1213) = 17.76 ; 26.24 Estremo inferiore L1 = 17.76 Estremo superiore L2 = 26.24 38 OD ELEMENTI DELLE STIME PER INTERVALLI Nella formula: x ± 2σ x compaiono i seguenti elementi: • x è il centro dell’intervallo (è la stima puntuale di µ); • 2 è un valore ottenuto dalla distribuzione normale standardizzata (valore di z) che indica entro quanti errori standard si trova il 95% di tutti i possibili valori della media campionaria. In questo caso z = 2. z è detto coefficiente di attendibilità. • σx è l’errore standard o deviazione standard della distribuzione di campionamento della media. 39 OD FORMULA GENERALE PER IL CALCOLO DI UN INTERVALLO DI CONFIDENZA Un intervallo di confidenza, in generale, è espresso da: stimatore ± coeff. di attendibilità X errore standard margine d’errore o precisione Se il campionamento è fatto da una distribuzione normale con varianza nota la formula è la seguente: x ± z1-α/2 L1= x - z1-α/2 σ n σ n L2= x + z1-α/2 σ n Ν.Β. → α rappresenta l’errore, equamente ripartito nelle due code, che si è disposti ad accettare. 40 OD INTERPRETAZIONE DEGLI INTERVALLI DI CONFIDENZA In generale è possibile dare le seguenti interpretazioni di un intervallo di confidenza. INTERPRETAZIONE PROBABILISTICA Estraendo tutti i possibili campioni da una popolazione distribuita normalmente con varianza nota, il (1- α)100 per cento degli intervalli della forma x ± z1-α/2 σx conterrà a lungo andare la media della popolazione µ. INTERPRETAZIONE PRATICA Quando il campionamento è effettuato da una popolazione distribuita normalmente con varianza nota, abbiamo un grado di fiducia del (1- α)100 per cento che il singolo intervallo x ± z1-α/2 σx contenga la media della popolazione µ. N.B. 1–α α area interna all’intervallo area esterna all’intervallo 41 OD IL LIVELLO DI CONFIDENZA 1- α La quantità (1-α), che corrisponde alla frequenza degli intervalli che contengono µ, è detta livello di confidenza o grado di fiducia; l’intervallo x ± z(1-α/2) σx è detto intervallo di confidenza. Se (1-α)=0.95, l’intervallo di confidenza è chiamato intervallo di confidenza al 95%. IL COEFFICIENTE DI ATTENDIBILITÀ z Il coefficiente di attendibilità z varia in funzione di α, cioè della frequenza degli intervalli che non contengono µ. In tabella sono riportati i livelli di confidenza più usati e i corrispondenti valori di z1-α/2. Livello di confidenza (1-α)*100% 90% 95% 99% 1-α/2 z1-α/2 0.05 0.025 0.005 1.645 1.96 2.58 N.B.: si ricorda che i valori di z sono tabulati. 42 OD CAMPIONAMENTO DA POPOLAZIONI NON NORMALI E DIMENSIONE CAMPIONARIA ≥ 30 • Quando la variabile non ha una distribuzione normale, è possibile calcolare l’intervallo di confidenza utilizzando la tecnica esaminata, purché il campione sia sufficientemente grande (Teorema del Limite Centrale). Per campioni sufficientemente grandi (n≥30) la distribuzione delle medie campionarie è approssimativamente normale, indipendentemente dalla forma della distribuzione della popolazione da cui il campione è stato estratto. • Se la varianza della popolazione non è nota e n≥30, nella formula per il calcolo dell’intervallo di confidenza è possibile usare la varianza campionaria s al posto della varianza della popolazione σ. Essendo n grande, s può essere considerata una buona approssimazione di σ 43 OD Esercizio (Daniel pag.144 6.2.3) Un gruppo di ricerca è interessato a studiare la puntualità dei pazienti nel mantenere gli appuntamenti. È stato studiato un flusso di pazienti presso gli studi di medici generici ed è stato trovato che un campione di 35 pazienti era in ritardo agli appuntamenti di 17.2 minuti in media. Una ricerca precedente aveva evidenziato che la deviazione standard era di 8 minuti; inoltre era stato ipotizzato che la distribuzione della popolazione non fosse normale. Qual è l’intervallo di confidenza al 90% per µ, l’ammontare vero di ritardo per gli appuntamenti? Soluzione n≥30 σ nota T.L.C: → distribuzione di x è normale α = 10% = 0.10 P(L1<µ<L2) = 90% Z(1-α/2) = z0.95 = 1.645 L 1; L 2 = x ± z L1;L2 = 17.2±1.645· 8 35 (1 − α 2) ⋅ σ n = 17.2±2.2 = 15.0;19.4 44 OD CAMPIONAMENTO DA POPOLAZIONE CON VARIANZA σ2 INCOGNITA Spesso nella realtà la varianza della popolazione è incognita. • 1° caso: n≥30 campioni grandi Si utilizza s, deviazione standard del campione, al posto di σ e nel calcolo degli intervalli di confidenza si può ricorrere alla distribuzione z (come negli esempi precedenti). Essendo n grande, s può essere considerata una buona approssimazione di σ e si può utilizzare la teoria della distribuzione normale per la costruzione degli intervalli di confidenza. È possibile utilizzare anche la distribuzione t. • 2° caso: n<30 campioni piccoli Nel calcolo degli intervalli di confidenza si deve ricorrere alla distribuzione di Student o distribuzione t. 45 OD DISTRIBUZIONE t di STUDENT È necessario ricorrere alla distribuzione t se σ è INCOGNITA e n<30 La relazione utilizzata per la costruzione di intervalli di confidenza con l’uso della distribuzione t non cambia: stimatore ± coeff. di attendibilità X errore standard margine d’errore o precisione Cambia solo la tabella da cui si legge il coefficiente di attendibilità, che si riferisce alla distribuzione t e non più alla distribuzione normale standardizzata. L1 ; L2 = x ± t1-α/2;(n-1)gdl s n 46 OD INTERVALLO DI CONFIDENZA PER LA DIFFERENZA TRA DUE MEDIE Si vuole stimare la differenza tra le medie di due popolazioni µ1 – µ2. a. LE VARIANZE DELLE POPOLAZIONI SONO NOTE L1 ; L2 = ( x 1 – x 2) ± z12 2 σ1 σ 2 + α · n n 47 OD b. LE VARIANZE DELLE POPOLAZIONI NON SONO NOTE • Se le varianze delle popolazioni non sono note e le dimensioni campionarie sono ≥ 30 si può ricorrere alla distribuzione z (utilizzando s al posto di σ) o alla distribuzione t; • se le varianze delle popolazioni non sono note e le dimensioni campionarie sono < 30 si deve ricorrere alla distribuzione t. 2 2 sp sp L1 ; L2 = ( x 1 – x 2)±t1-α/2 ; (n1+n2-2)gdl· n + n 1 2 Formula valida nel caso si possa assumere l’uguaglianza delle varianze delle due popolazioni. Le varianze campionarie sono impiegate per stimare la varianza comune come media ponderata (rispetto ai rispettivi gradi di libertà) delle due varianze campionarie. s2 pond = (n 1 − 1) ⋅ s1 + (n 2 − 1) ⋅ s2 n1 + n 2 − 2 2 2 48 OD INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE Domanda Qual è la proporzione di individui in una certa popolazione che ha una data malattia? Per stimare la proporzione in una popolazione (p) si procede nel seguente modo: L1; L 2 = pˆ ± z1−α / 2 ⋅ pˆ (1 − pˆ ) n p̂ = proporzione campionaria p = proporzione nella popolazione INTERVALLO DI CONFIDENZA PER LA DIFFERENZA TRA DUE PROPORZIONI pˆ 1(1 − pˆ 1) pˆ 2(1 − pˆ 2) L1; L2 = ( pˆ 1 − pˆ 2) ± z1−α / 2 ⋅ + n1 n2 49