Programma del corso di Statistica 2 Corso di Laurea in S.I.G.A.D./St.A.D. aa 2010/2011/12/13 (v.0.1) Vito M.R. Muggeo L’insegnamento di Statistica 2 si pone come obiettivo quello di fornire le basi concettuali e metodologiche dell’inferenza statistica ‘classica’. L’enfasi maggiore è posta sugli aspetti concettuali ed in questo contesto rivestono una importanza fondamentale le esercitazioni in laboratorio attraverso l’impiego dell’ambiente R; studi di simulazioni consentiranno di comprendere meglio alcuni aspetti e consolidare concetti che potrebbero risultare in un primo approccio un po’ astratti e complicati. I codici delle esercitazioni in laboratorio sono disponibili su http://dssm.unipa.it/vmuggeo e i relativi argomenti sono sintetizzati di seguito nelle righe etichettate con ‘L’. • Introduzione – Scopi e logica dell’inferenza statistica, terminologia e concetti introduttivi: popolazione, campione, spazio campionario, modello statistico, parametro e spazio campionario. Richiami alle v.c. più comuni. – Definizione di statistica e distribuzione campionaria. Il principio del campionamento ripetuto. Un semplice esempio: enumerazione dello spazio campionario da una popolazione nota e finita. L Brevi richiami ad R. • Inferenza basata sulla Verosimiglianza – La verosimiglianza di un modello. Log-verosimiglianza, funzione punteggio (score) ed informazione attesa ed osservata. Caso scalare e cenni a quello vettoriale. – Modelli regolari (cenni alle condizioni di regolarità) e proprietà della statistica punteggio. – Score ed Informazione per alcuni modelli statistici. Distribuzione esatta ed asintotica della statistica punteggio. Alcuni esempi. – Fattorizzazione della verosimiglianza, classe esponenziale e statistiche sufficienti (cenni). L Disegno di (log) verosimiglianze per alcuni modelli statistici. • Stima Puntuale – Stimatore e stima. Definizioni. – Proprietà degli stimatori. Distorsione, varianza e MSE di stimatori e relativa distribuzione campionaria – Stimatori di massima verosimiglianza e loro proprietà. Soluzioni esplicite e non esplicite (metodi iterativo di Newton-Raphson). Stimatori per riparametrizzazioni, metodo Delta e diseguaglianza di Jensen. – Efficienza e limite inferiore di Rao-Cramer; formula Sandwich per il calcolo della varianza degli stimatori. – Alcuni cenni ad altri metodi di stima: metodo dei momenti e di minima distanza (in norma L1 e L2 ). L Simulazioni per la verifica di distribuzioni esatte e approssimate. • Stima Intervallare – Stimatore intervallare e definizioni. Livello di confidenza. Intervalli di confidenza asimmetrici e conservativi. Ampiezza e bilanciamento degli intervalli di confidenza. – Il metodo della quantità pivotale. Quantità Pivot esatte ed approssimate. Intervalli di confidenza per riparametrizzazioni. L Simulazioni per la verifica della copertura degli IC con quantità pivot esatte e approssimate. • Verifica di Ipotesi – Logica e razionale della verifica di ipotesi: ipotesi nulla/alternativa, semplice/composta. Errore di I e II specie e loro probabilità. Il test statistico: la statistica test, la regola di decisione e livello di significatività. La statistica test e la sua distribuzione sotto H0 (distribuzione nulla). La distribuzione nulla del P -valore. La funzione potenza ed interpretazione del p-valore. – Proprietà dei test statistici (l’impostazione classica di Neyman-Pearson: non-distorsione e uniforme maggior potenza). – Alcune statistiche test: statistica di massima verosimiglianza, Wald e Score; asintotica equivalenza; caso scalare e cenni al caso vettoriale. – Intervalli di confidenza attraverso inversione del test statistico: IC basati sulla statistica Wald, LRT, e Score. L Simulazioni per ottenere la distribuzione nulla; verifica dell’ampiezza dei test e confronti di potenza. • Inferenza per Relazioni tra Variabili – Introduzione: Richiami ai modelli di dipendenza ed interdipendenza, distribuzioni condizionate e congiunte. – Modelli di dipendenza (risposta quantitativa, esplicativa dicotomica): Confronto di medie di due popolazioni; assunzioni (caso Normale, varianze note ed ignote, campioni dipendenti ed indipendenti) ed esempi. Confronto di varianze di due popolazioni; assunzioni (caso Normale) ed esempi. – Modelli di dipendenza (risposta quantitativa, esplicativa politomica): Confronto di medie di più popolazioni (ANOVA); assunzioni (caso Normale, campioni indipendenti) ed esempi. – Modelli di dipendenza (risposta ed esplicativa quantitativa): Il modello di regressione lineare. Assunzioni (insieme debole e forte degli assunti). Stima di massima verosimiglianza e minimi quadrati. Stima intervallare e verifica di ipotesi. – Modelli di interdipendenza (due variabili quantitative): Il coefficiente di correlazione lineare di Pearson. La trasformata z di Fisher. Testi consigliati – Appunti dalle lezioni – Mood AM, Graybill FA, Boes DC, Introduzione alla statistica, McGraw-Hill, 2003. – Azzalini A, Inferenza statistica, una presentazione basata sul concetto di verosimiglianza, Springer-Verlag, 2001 – Casella G, Berger RL (2001) Statistical Inference, Duxbury Press, 2001. – Muggeo VMR, Ferrara G., Il linguaggio R: concetti introduttivi ed esempi, II ed., disponibile sul CRAN all’indirizzo http://cran.r-project.org/doc/contrib/nozioniR.pdf.