Inferenza statistica Donata Rodi 23/03/2016 Inferenza statistica Disciplina che utilizza l’informazione campionaria per fare delle affermazioni sulla popolazione da cui il campione è stato tratto • La popolazione non esiste ancora o, se esiste, non può essere studiata tutta o è costoso farlo o richiede un tempo troppo lungo • Studio del campione con la statistica descrittiva • Estensione delle informazioni alla popolazione, che può comportarsi in modo diverso dal campione • Nel passaggio campione - popolazione si ricorre alla Probabilità per accompagnare le conclusioni Rodi, 2016 Campionamento Popolazione Parametri µ, ϭ2 Campione Inferenza Stima Statistiche descrittive X, s2 Rodi, 2016 Qualche definizione…. Popolazione Campione Insieme delle unità statistiche sede del fenomeno in studio Piccola parte rappresentativa di un «tutto» Finita o infinita Dati indipendenti o dati correlati Parametro Costante caratteristica della popolazione Spazio campionario Ω Insieme di tutti i possibili campioni estraibili dalla popolazione Discreto o Continuo se X è discreta o continua Rodi, 2016 Procedura in base alla quale dal campione osservato si ottengono informazioni per assegnare un valore al parametro incognito θ (stima puntuale) o un insieme di valori (stima intervallare). Si stima attraverso una statistica Occorre quantificare la precisione della stima (ES e intervallo di confidenza) 1. Stima Inferenza Stimatore Formula usata per calcolare la stima del parametro Possono esistere diversi stimatori per uno stesso parametro 2. Test di ipotesi Procedura che consiste nel fare un ipotesi sul valore vero dei parametri ignoti θ e nel decidere, sulla base dell’informazione campionaria, se è accettabile Rodi, 2016 Statistiche campionarie: media e varianza Parametri di popolazione N i 1 N Statistiche campionarie N x (x ) n 2 i 2 i 1 N ̂ X n i 1 n n x (x i ˆ 2 s 2 X n )2 i 1 n 1 NB. Poiché il campione è casuale, la statistica campionaria è una variabile casuale…. (x1,…,xn) n-upla campionaria (cambia con il campione) (X1,…Xn) variabile casuale (modello probabilistico idoneo a interpretare il carattere X) Rodi, 2016 Stima puntuale Valore assunto dalla statistica, in corrispondenza dei dati campionari, usata per stimare il parametro di popolazione incognito. Sintetizza la n-upla campionaria Proprietà 1. 2. 3. 4. Correttezza Precisione Efficienza Consistenza Metodi di stima 1. Massima verosimiglianza 2. Momenti 3. Dei minimi quadrati La stima della media di popolazione µ è la media campionaria 𝑥 Rodi, 2016 Incertezza di una stima Errore Standard • Misura di dispersione della stima (media campionaria 𝑥), calcolata su n osservazioni, rispetto al valore vero di popolazione (media µ). SE = ϭ 𝑛 • Deviazione standard della distribuzione campionaria della stima, rispetto al parametro (Precisione) Rodi, 2016 µ Stima intervallare Intervallo costruito attorno allo stima puntuale in modo che venga fissata la probabilità che il valore vero del parametro appartenga all’intervallo stesso α = livello di significatività Solo un IC non contiene la media vera 1-α = livello di confidenza P che IC non includa θ Se ripetessimo il calcolo dell’IC su tutti i Minore è α, più grande è IC, quindi siamo campioni possibili di dimensione n, l’IC meno precisi nel collocare θ. Se fosse 0, l’IC conterrebbe θ comprenderebbe tutti i valori, quindi non sarebbe utile 0.001< α <0.1 Rodi, 2016 Distribuzione di probabilità Rodi, 2016 Distribuzione normale Rodi, 2016 Distribuzione z La normale standardizzata è definita attraverso la trasformazione Esempio bilaterale Esempio unilaterale Peso: µ=75 Kg, ϭ=10.0 Quale è il peso del 5% delle persone che hanno peso > o <? Peso: µ=66.12 Kg, ϭ=9.04 Quanti hanno peso < 55 Kg? < 55 Kg = 10.9% > 55Kg = 89.1% 55.40 Kg – 94.60 Kg Rodi, 2016 Distribuzione campionaria delle medie Supponendo di estrarre tutti i possibili campioni di dimensione n e di calcolare tutte le medie, la distribuzione delle medie ottenuta si dice «distribuzione della media campionaria» La distribuzione delle medie campionarie ha come media µ e ha minore variabilità rispetto ai dati originali Qual è la distribuzione della media campionaria? Spesso è una normale Standardizzando: Rodi, 2016 Intervallo di confidenza della media Stima intervallare Intervallo costruito intorno alla stima del parametro, che ha alta probabilità di contenere il parametro (valore vero) Misura della precisione della media campionaria. Più è ampio, meno precisa è la stima della media parametrica ottenibile. Esempio: IC della media al 95%. Siamo fiduciosi al 95% che l’intervallo calcolato conterrà la media vera della popolazione. Limite: campioni piccoli, ES non noto NB. La P si applica all’intervallo ma non al parametro che è fisso Si ricorre alla distribuzione t di Student, curva simmetrica un po più bassa della normale con freq maggiori agli estremi (DF = n-1). Per DF all’infinito, la curva tende alla normale Rodi, 2016 Esempio Rodi, 2016 Distribuzione t In genere, ϭ non è noto, quindi per costruire un IC intorno alla media, usiamo 𝑋 e S La statistica campionaria t usata per stimare il parametro ignoto è la STIMA La variabile casuale T di cui t è la realizzazione sul campione, è lo STIMATORE, una V.C. dotata di una sua distribuzione campionaria • T: distribuzione t di Student, n-1 gradi di libertà (GDL o DF) Simile alla normale standardizzata: grafico più appiattito e maggiore area sottesa sulle code (s non noto, stimato da S) • Maggiore variabilità di t dovuta all’incertezza su s • Se aumenta DF, la distribuzione tende alla normale Rodi, 2016 Verifica di ipotesi 1. Ipotesi: ipotesi nulla (H0) e alternativa (H1) 2. Raccolta dati: tipo di variabile, caratteristiche della distribuzione 3. Scelta del test: in base a ipotesi, variabile e distribuzione 4. Risultato del test 5. Decisione: attraverso la Probabilità, si definisce quanto si può essere confidenti riguardo a una conclusione basata sul campione ma estesa alla popolazione 6. Analisi del test e dei dati per un nuovo esperimento: potenza a posteriori e a priori, β Rodi, 2016 Ipotesi nulla e alternativa Ipotesi nulla: E’ l’ipotesi di NON differenza o di casualità. Esempio: La pressione media dei pazienti che assumono il farmaco A antiipertensivo è la stessa di quelli che assumono un placebo (Controllo). Si presume l’inefficacia del farmaco, fino a prova contraria H0: µA=µC Verifica di un’ipotesi: stabilire se un campione casuale contiene abbastanza «evidenza» per rifiutare H0 Si somministra il farmaco A a 20 soggetti e un placebo ad altri 20. Le Pressioni medie nei due gruppi sono «molto» diverse? No: non posso rifiutare H0 Si: rifiuto H0. Ipotesi Alternativa H1: le differenze riscontrate nelle statistiche campionarie rispecchiano quelle dei parametri delle popolazioni H1: µA≠µC Rodi, 2016 Errore I tipo II tipo • Si rifiuta H0 quando questa è vera • Non si rifiuta H0 quando questa è falsa • La probabilità di un errore di I tipo è α • La probabilità di un errore di I tipo è β • 1-α Coefficiente di Confidenza o Protezione • 1-β Potenza del test • (1- α) x 100 Livello di Confidenza Rodi, 2016 Il test confronta la stima campionaria con le due ipotesi Regione di rifiuto: campioni che hanno sufficiente evidenza contro H0 P<0.05 Regione di accettazione: campioni che non contengono sufficiente evidenza contro H0 P>0.05 Bipartizione dello spazio campionario: decisione Per minimizzare sia α che β (test potente, senza perdita di protezione): distanziare le due distribuzioni (H0 e H1) per ridurre la regione di sovrapposizione. Ridurre le dispersioni: aumento le dimensioni del campione H0: l’imputato è innocente P value Probabilità che, assumendo vera l’ipotesi nulla, si abbia un campione che si allontani tanto o più dai valori ideali di H0 Raccolgo indizi pro e contro P=probabilità che, nell’ipotesi che l’imputato sia innocente, si raccolgano indizi per la colpevolezza, almeno tanto gravi rispetto a quelli da noi raccolti P=0.4 La probabilità che per un innocente si raccolgano indizi cosi pesanti o più pesanti, rispetto ai nostri, è del 40%. Non riusciamo pertanto a convincere i giurati della sua colpevolezza. P=0.02 Se è innocente, solo nel 2% dei casi riusciamo a raccogliere indizi cosi a favore o più della sua colpevolezza. Quindi ce la sentiamo di condannarlo P NON è la probabilità che lui sia innocente P NON è la P di condannare un innocente (errore I tipo): non appartiene allo Spazio di P, la P non è definita Rodi, 2016 P value Esempio: studio su un antidepressivo H0: il nuovo farmaco non ha effetto P molto piccolo: elevata significatività Significativa è solo la Probabilità che rileviamo Il test non dice nulla sull’entità della differenza che il test dimostra che esiste Non si riferisce mai all’effetto Il test si basa sul senso di ilarità che produce P=0.7 : il 70%degli antidepressivi inefficaci fa ridere almeno quanto quello esaminato. Non posso rifiutare H0 P=0.001 : solo 1 su 1000 degli antidepressivi che non hanno effetto provoca lo stesso senso di ilarità di questo farmaco. Possiamo credere che abbia un effetto, quindi rifiuto H0 Puo essere che il nuovo farmaco (magari molto più costoso) faccia ridere di più, ma in modo impercettibile…. Rodi, 2016 K.A. fisher: il p value • Sistema informale in cui il P value doveva essere un valore guida della forza dell’evidenza contro H0. Strumento flessibile da contestualizzare • Significant: termine da usare per P piccoli…qualcosa degna di nota 1. Ripetere l’esperimento 2. Vedere se gli studi successivi confermano P significativi 3. Conclusione: è improbabile che gli effetti osservati siano solo effetto del caso P value e Test di ipotesi (Neyman-Pearson): un matrimonio difficile che genera molti concetti errati Rodi, 2016 Intervallo di confidenza e verifica di ipotesi • Gli IC sono usati per stimare i parametri di popolazione • La verifica di ipotesi è usata per prendere decisioni che dipendono dal valore dei parametri • Anche gli IC consentono di valutare se un parametro è minore, uguale o maggiore rispetto a un certo valore: costruisco un IC attorno alla media µ e non rifiuto H0 se il valore ipotizzato è compreso nell’intervallo costruito Rodi, 2016