Inferenza statistica Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata a.a. 2011/2012 Prof. Roberta Siciliano Statistica 1 Obiettivo dell’unità didattica n Definire i concetti di base sull’inferenza statistica Contenuti n L’induzione statistica n Definizione di statistica campionaria e distribuzione campionaria n Stima puntuale e per intervalli n Il test statistico Prof. Roberta Siciliano α.α. 2002-2003 Statistica 2 1 Inferenza statistica Il problema di risalire alla struttura non nota delle popolazioni (e delle v.c.) viene affrontato teoricamente dalla inferenza statistica. Prof. Roberta Siciliano Statistica 3 Problema inverso Si passa dalla Deduzione alla Induzione, dal Problema diretto al Problema Inverso. L Inferenza statistica è lo strumento metodologico utile ad affrontare e a risolvere il problema inverso. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 4 2 Il problema inverso Le informazioni sulla struttura della popolazione sono fornite da un campione casuale. Prof. Roberta Siciliano Statistica 5 Problema inverso I risultati e le decisioni comportano un rischio, dovuto alla limitatezza delle informazioni usate. Il rischio può essere valutato e controllato in termini probabilistici con gli strumenti della inferenza statistica. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 6 3 La Procedura Inferenziale Popolazione Collettivo oggetto di inferenza Campione Parte delle unità statistiche nella popolazione sottoposta alla osservazione Nota: L osservazione di un fenomeno è vista come la realizzazione di un modello di probabilità teorico. Prof. Roberta Siciliano Statistica 7 La Procedura inferenziale Parametri Valori caratteristici della popolazione Informazioni a priori sulla popoAssunzioni lazione che consentono di scegliere un modello piuttosto che un altro. Ritenere più probabile che una data Incertezza osservazione sia stata generata da alcune distribuzioni di probabilità che da altre appartenenti al modello. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 8 4 La Procedura inferenziale Inferenza Modello Prof. Roberta Siciliano Essere indotti a ritenere piu probabile che la popolazione appartenga ad un certo sottoinsieme del modello che ad un altro. L insieme delle distribuzioni di probabilità definite su un opportuno spazio campionario e caratterizzato da uno o più parametri. Statistica 9 Stima Teoria della stima Conoscere il valore numerico o un intervallo di valori di uno o più parametri incogniti del modello di probabilità teorico (ovvero della popolazione) a partire dai dati campionari. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 10 5 Test Teoria della verifica delle ipotesi Verificare con una regola di decisione una certa affermazione fatta relativamente alla popolazione, ovvero se essa debba ritenersi vera o falsa sulla base di ciò che appare dal campione. Prof. Roberta Siciliano Statistica 11 Campionamento Campione casuale o probabilistico: ogni elemento della popolazione ha una probabilità non nulla di entrare a far parte del campione. Estrazione con ripetizione: la struttura della probabilità non si modifica ad ogni estrazione perché ciascuna unità estratta è inserita nuovamente nella popolazione. Estrazione senza ripetizione: si estraggono n unità in blocco dalla popolazione e la struttura di probabilità si modifica ad ogni estrazione. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 12 6 Statistica campionaria La statistica campionaria e la sua distribuzione Realtà operativa In teoria Si avrà a disposizione un solo campione o comunque un numero limitato di campioni. Prof. Roberta Siciliano Se si avessero un numero elevato di campioni o tutti i campioni possibili, cioè un universo campionario. Statistica 13 Concetti teorici Statistica campionaria: Una v.c. definita quale funzione di un campione casuale ( X 1 , X 2 ,...X n ) ovvero una qualunque trasformazione dei valori osservati che consente di inferire sui parametri non noti della popolazione. Distribuzione campionaria: É la distribuzione delle stime al variare del campione. Estraendo tutti i possibili campioni di numerosità n dalla popolazione si ottengono tutti i possibili valori che la statistica campionaria può assumere, ovvero l insieme delle possibili stime del parametro incognito della popolazione. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 14 7 xH campione H = Nn x2 x1 Prof. Roberta Siciliano x1 ≤ x 2 ≤ ...x H Statistica 15 v.c. media campionaria Consideriamo una popolazione di quattro unità statistiche, e proviamo ad estrarre tutti i possibili campioni di ampiezza 2, generando quindi Nn possibili campioni, cioè 42=16.. Universo di campioni Calcoliamo poi la media di ogni campione e costruiamo la distribuzione di frequenza di tutte le medie. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 16 8 U1U 2U 3U 4 1 1 4 U 1 U1 U1 U 2 U1 U 3 U 1 U 4 U 2 U1 U 2 U 2 U 2 U 3 U 2 U 4 U 3 U1 U 3 U 2 U 3 U 3 U 3 U 4 6 U 4 U1 U 4 U 2 U 4 U 3 U 4 U 4 N =4 n=2 n N possibili campioni 1 1 1 1 1 4 1 6 1 1 1 1 1 4 1 6 4 1 4 1 4 4 4 6 6 1 6 1 6 4 6 6 tutti i possibili campioni Prof. Roberta Siciliano X= 1 fi = 1 4 Statistica 2 .5 3 .5 1 4 4 1 4 1 16 17 5 6 1 1 8 16 ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ E (X ) = 1⎜ ⎟ + 2.5⎜ ⎟ + 3.5⎜ ⎟ + 4⎜ ⎟ + 5⎜ ⎟ + 6⎜ ⎟ = 3 ⎝ 4 ⎠ ⎝ 4 ⎠ ⎝ 4 ⎠ ⎝ 16 ⎠ ⎝ 8 ⎠ ⎝ 16 ⎠ ( VAR (X ) = 1 − 3 ) ⎛⎜ 14 ⎞⎟ + (2.5 − 3) ⎛⎜ 14 ⎞⎟ + (3.5 − 3) ⎛⎜ 14 ⎞⎟ + 2 2 2 ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ 2 ⎛ 1 ⎞ 2 ⎛ 1 ⎞ 2 ⎛ 1 ⎞ + (4 − 3) ⎜ ⎟ + (5 − 3) ⎜ ⎟ + (6 − 3) ⎜ ⎟ = 2.25 ⎝ 16 ⎠ ⎝ 8 ⎠ ⎝ 16 ⎠ Prof. Roberta Siciliano α.α. 2002-2003 Statistica 18 9 Nella popolazione si ha: 1 1 + 1 + 4 + 6 12 x = = =3 ∑ i n 4 4 1 4 + 4 +1+ 9 2 σ 2 = ∑ (xi − µ ) = = 4.5 n 4 µ= v.c Media Campionaria E (X ) = µ = 3 VAR (X ) = Prof. Roberta Siciliano σ2 n = 4.5 = 2.25 2 Statistica 19 v.c. media campionaria (senza reintroduzione) Consideriamo una popolazione di quattro unità statistiche, e proviamo ad estrarre tutti i possibili campioni di ampiezza 2 (senza reintroduzione), generando quindi 12 possibili campioni. Calcoliamo poi la media di ogni campione e costruiamo la distribuzione di frequenza di tutte le medie. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 20 10 Senza ripetizione U1 U 4 tutti i possibili campioni U2 U3 U1 U 2 U 3 U 2 U 4 U1 U 3 U 2 U 3 U 4 Medie di tutti i campioni U4 U1 U 4 U 2 U 4 U 3 U1 U 2 1 1 4 6 1 1 1 1 U1 U 3 1 1 4 6 4 4 1 1 1 1 4 6 6 6 6 4 Prof. Roberta Siciliano X= 1 fi = 1 6 1 2 .5 3 .5 1 2 .5 3 .5 2 .5 2 .5 5 3 .5 3 . 5 Statistica 5 21 2.5 3.5 5 1 3 1 3 1 6 v.c Media Campionaria E (X ) = 3 VAR (X ) = Prof. Roberta Siciliano α.α. 2002-2003 σ2 N −n n N −1 = 1. 5 Statistica 22 11 Concetti teorici Supponiamo di avere una popolazione che segue un modello noto a meno di uno o più parametri. Ciò implica ad es.che: la v.c. X (associata alla popolazione) ha una distribuzione di probabilità (v.c. discreta) o una funzione di densità di probabilità (v.c.continua), indicata con f(x;θ), in cui il parametro θ è incognito. - Il problema che si pone è quello di stimare θ . Prof. Roberta Siciliano Statistica 23 Concetti teorici Estraiamo con ripetizione un campione casuale di n unità: • Prima che l operazione di estrazione sia effettuata le n estrazioni campionarie generano n v.c. campionarie indipendenti ( X 1 , X 2 ,... X n ) • Dopo che l estrazione campionaria è avvenuta, si otterranno solo n osservazioni campionarie (x1 , x2 ,...xn ) cioè n numeri. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 24 12 Concetti teorici Lo stimatore di stimatore θ è la v.c. T ( X ) = t ( X1, X 2 ,....., X n ) definita quale funzione nota del campione. stima La stima di θ é il valore assunto dallo stimatore assunto in corrispondenza di un particolare campione. Funzione di É la particolare funzione (t.) che lega le v.c. stima del campione. Prof. Roberta Siciliano Statistica 25 Concetti teorici Alcune proprietà degli stimatori Correttezza Efficienza relativa Prof. Roberta Siciliano α.α. 2002-2003 Uno stimatore T(X) di θ, è corretto se, in media, fornisce stime non distorte del parametro incognito. Uno stimatore corretto T1 ( X ) di θ è più efficiente di un altro stimatore corretto T2 (X ) di θ se ha varianza più piccola. Impossibile visualizzare l'immagine. La memoria del computer potrebbe essere insufficiente per aprire Statistica 26 13 Concetti teorici Efficienza assoluta Coerenza Prof. Roberta Siciliano Esiste un limite inferiore alla varianza di uno stimatore di θ che può essere raggiunto dallo stimatore più efficiente in senso assoluto, sebbene non si può escludere, che uno stimatore la cui varianza non raggiunge tale limite non sia il più efficiente. Uno stimatore T(X) di θ è coerente se contemporaneamente la sua distorsione e la sua varianza tendono a zero al crescere della numerosità campionaria. Statistica 27 Stima per intervalli La Teoria della Stima precisa delle proprietà ottimali per uno stimatore e costruisce degli stimatori i quali, una volta ottenuto il campione, forniscono – mediante semplice sostituzione – il valore numerico della stima. Per un altro campione, generalmente, lo stesso stimatore condurrà ad una stima differente. Il valore numerico della singola stima non informa sul probabile campo di variazione delle stime del parametro. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 28 14 In presenza di campioni di numerosità limitata questi problemi divengono particolarmente gravi in quanto il semplice "affidamento" al valore numerico trovato può essere inopportuno per l'elevata variabilità delle osservazioni. Vi è pertanto l'esigenza di costruire un intervallo, anziché un punto, che con probabilità fissata includa il parametro da stimare. Prof. Roberta Siciliano Statistica 29 Intervalli di stima Dato un campione casuale (X 1, X 2 ,... X n ) con estrazioni con ripetizione da una popolazione X con nota la f(x; θ). L intervallo di confidenza: É un intervallo casuale che contiene il parametro incognito θ con una probabilità nota (ciò prima di estrarre il campione) P(L1 ≤ θ ≤ L2 ) = (1 − α) dove L1 ed L 2 sono funzione dello stimatore puntuale di θ. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 30 15 Intervalli di stima Non è corretto affermare : (L , 1 L 2) contiene con probabilità (1–α) il vero valore di θ. Ma si è confidenti al [ L1, 100(1–α)% che l'intervallo L 2] includa il vero valore di θ. Per un ipotetico processo di estrazioni campionarie l'intervallo osservato – non casuale – conterrebbe θ nel 100(1-α)% dei casi mentre lo escluderebbe nel 100α%. Tanto minore è il livello fissato di α tanto più ampio risulta l'intervallo di confidenza. Prof. Roberta Siciliano Statistica 31 Elementi chiave n La variabilità del fenomeno n La numerosità campionaria n L ampiezza dell intervallo n Il livello di confidenza Prof. Roberta Siciliano α.α. 2002-2003 Statistica 32 16 Metafora ampiezza intervallo variabilità σ2 ε n dimensione del campione x ± zα 2 σ n Grado di fiducia Variabilità nella popolazione campione 0,99 1− α Prof. Roberta Siciliano 0,95 Statistica 0,90 33 …(minore è la distanza dal bersaglio) variabilità σ 2 ampiezza intervallo ε n dimensione del campione σ 2, ε A parità di minore è n maggiore 1− α Prof. Roberta Siciliano α.α. 2002-2003 Statistica 34 17 … (più grande è il bersaglio) ampiezza intervallo variabilità ε σ2 n dimensione del campione A parità di σ2 , n piú grande è maggiore è ε 1− α (il bersaglio) Prof. Roberta Siciliano Statistica 35 … (più preciso è lo strumento di tiro) variabilità σ ampiezza intervallo 2 ε n Dimensione del campione A parità di n, ε, 2 minore è (varianza) σ maggiore è 1− α Prof. Roberta Siciliano α.α. 2002-2003 (grado di fiducia) Statistica 36 18 Test statistico ipotesi statistiche n tavola delle decisioni n variabili test n regole di decisione n Prof. Roberta Siciliano Statistica 37 Il Test Statistico Il Test Statistico è un giudizio di conformità probabilistica fra campione e popolazione e serve per decidere se alcune situazioni ipotetiche concernenti la popolazione appaiono ragionevoli o meno alla luce dell'evidenza empirica. Ipotesi Statistica: è un'affermazione riguardante i parametri della f(x; θ) o il processo cha ha generato le osservazioni campionarie. Ipotesi nulla vs. Ipotesi alternativa Prof. Roberta Siciliano α.α. 2002-2003 Statistica 38 19 Tavola delle decisioni DECISIONE REALTA‘ H0 H0 Decisione giusta H1 Errore del II tipo 1− α β H1 Errore del I tipo α Decisione giusta 1− β A-posteriori, ovvero dopo aver estratto il campione e presa una decisione con la statistica test, non ha senso parlare di probabilità di decisioni giuste o errate, in quanto non essendo nota l'ipotesi vera sulla popolazione si è già commesso di fatto un errore o si è già presa di fatto una decisione giusta. Prof. Roberta Siciliano Statistica 39 Variabile test Statistica Test: è una funzione d(X) che fa corrispondere ad ogni campione casuale un valore numerico che può essere classificato come coerente o meno con l'ipotesi specificata dalla H0. Il test statistico conduce ad una partizione dell'universo dei campioni in due sottoinsiemi complementari: la regione di accettazione, ovvero i campioni per i quali la statistica test assume valori compatibili con H0 , la regione critica o di rifiuto, ovvero i campioni per i quali la statistica test assume valori compatibili con H1. Prof. Roberta Siciliano α.α. 2002-2003 Statistica 40 20 Numerosità Campionaria e Potenza del Test Nella costruzione del test si pone come ipotesi nulla quella per la quale si ritengono più gravi le conseguenze derivanti dal commettere un errore del primo tipo, così che si sceglie un opportuno valore α del livello di significatività. Qualora si desideri controllare, oltre alla probabilità dell'errore del primo tipo, anche quella dell'errore del secondo tipo, occorre determinare la numerosità campionaria in modo tale che il test garantisca, oltre al livello di significatività a, anche una potenza del test prefissata. Prof. Roberta Siciliano Statistica 1- β 41 Lo Schema per l'Applicazione 1. Considerazioni generali: scelta del modello di probabilità, campionamento, assunzioni; 2. Ipotesi statistiche da verificare: definizione dell'ipotesi nulla e dell'ipotesi alternativa; 3. Statistica Test: si definisce la funzione dello stimatore, la sua distribuzione (con eventuale stima di parametri incogniti non sottoposti a test), e si determina il valore osservato della statistica test; Prof. Roberta Siciliano α.α. 2002-2003 Statistica 42 21 Lo Schema per l'Applicazione α 4. Regione critica di ampiezza : sulla base della distribuzione nota della statistica test e quindi della corrispondente tavola statistica, si determina il valore critico (test unidirezionale) o i valori critici (test bidirezionale) per distinguere la regione critica dalla regione di accettazione; 5. Commenti e generalizzazioni: Si conclude il test accettando l'ipotesi nulla o rifiutandola, e si commentano i risultati. Prof. Roberta Siciliano Statistica 43 Regione di accettazione Regione critica d* Regione critica Valori di statistica test Regione di accettazione d* Regione di accettazione d1 d2 d(X) valore osservato da confrontare con il valore critico di d* Regioni critiche e di accettazione per test uni- e bidirezionali Prof. Roberta Siciliano α.α. 2002-2003 Statistica 44 22 Consideriamo una variabile casuale distribuita come una Normale: ( X ~ N µ ,σ 2 ) con σ 2 = nota Si estrae un campione di ampiezza n Si fissa il livello di significatività Prof. Roberta Siciliano α Statistica 45 Test sul valore medio con varianza nota: Abbiamo tre possibili situazioni: 1) H 0 : µ = µ0 H1 : µ > µ0 RCO (α ): X ≥ µ 0 + zα σ 2) H 0 : µ = µ0 H1 : µ < µ0 RCO (α ): X ≤ µ 0 - zα σ H 0 : µ = µ0 3) H1 : µ ≠ µ0 Prof. Roberta Siciliano α.α. 2002-2003 n n σ ⎧ ⎪⎪ X ≥ µ 0 + zα 2 n RC (α ): ⎨ σ ⎪ X ≤ µ 0 - zα ⎪⎩ 2 n Statistica 46 23 Test sul valore medio con varianza nota: 1) H 0 : µ = µ0 H1 : µ > µ0 1- α H0 α µ0 zα Regione di accettazione Prof. Roberta Siciliano Regione di rifiuto Statistica 47 Test sul valore medio con varianza nota: H 0 : µ = µ0 2) H1 : µ < µ0 H0 1- α α µ0 Regione di rifiuto Prof. Roberta Siciliano α.α. 2002-2003 - zα Regione di accettazione Statistica 48 24 Test sul valore medio con varianza nota: 3) H 0 : µ = µ0 H1 : µ ≠ µ0 α 1- α H0 α 2 2 µ0 Regione di rifiuto - zα zα 2 2 Regione di rifiuto Regione di accettazione Prof. Roberta Siciliano Statistica 49 Test e intervalli di stima n Si costruisce l intervallo di stima e si verifica se esso è coerente con l ipotesi nulla x ± zα 2 σ n 0,99 1− α Prof. Roberta Siciliano α.α. 2002-2003 Comprende µ0 ? test sulla media 0,95 0,90 Statistica 50 25 Caso particolare n n Popolazioni descritte da una v.c. dicotomica (0,1) in corrispondenza di insuccesso e successo con probabilità di successo π La media campionaria di 0 e 1 corrisponde al conteggio dei successi sul totale delle osservazioni campionarie (proporzione campionaria p) Prof. Roberta Siciliano Statistica 51 Inferenza sulla probabilità di successo n La variabile test è Z= n L P — π0 ~ N 0;1 π 0 (1−π 0 ) n ) intervallo di confidenza è: ⎡ ⎢ p ± zα ⎣ 2 Prof. Roberta Siciliano α.α. 2002-2003 ( p (1-p ) ⎤ ⎥ n ⎦ Statistica 52 26 Test di indipendenza n Data una tabella di contingenza di dimensioni r x c H o : π ij = π i + π + j per ogni coppia ( i , j ) H 1 : π ij ≠ π i +π + j per almeno una coppia ( i , j ) con i = 1,..., r ; j = 1,..., c Statistica test r c ∑∑ 2 ( nij −ni +n+ j n ) i =1 j =1 Se ni + n+ j n 2 χ oss Prof. Roberta Siciliano α.α. 2002-2003 2 ~ χ ( r −1)( c −1) se è vera H o Valori tabulati Decisione 2 < χ critico si accetta Ho Statistica 53 27