Programma del corso di Statistica da tenersi nell'ambito dei Dottorati di Ricerca in Bioingegneria, Ingegneria Informatica & Elettronica Industriale, Automatica & Ricerca Operativa ed altri (rielaborazione della proposta del 31/05/02) a cura della Dott.ssa Alessandra R. Brazzale, ISIB-CNR, Padova [email protected] 15 novembre 2002 Premessa Obiettivo: Fornire un'introduzione ai concetti ed alle metodologie inerenti ai quattro settori tematici di seguito riportati. Approccio: Orientato alla pratica (illustrazione dell'utilizzo dei concetti e delle metodologie presentate tramite esercitazioni al calcolatore) Livello: Studenti iscritti al Dottorato di Ricerca Libri di testo e di consultazione: Da definire (quelli riportati nella proposta del 31/05/02 sono indicativi) Software utilizzato: R (Ihaka and Gentleman, 1996), versione corrente (att. 1.6.0) Ore: 33 Modulo 0: Richiami Ore: 2 Obiettivo: Richiamare brevemente elementi di Calcolo delle Probabilità e Teoria dell'Inferenza che si suppongono noti allo studente. Lezioni teoriche: A.Il modello probabilistico 9 variabile casuale (discreta, continua), funzione di probabilità/densità, funzione di ripartizione, momenti (media, varianza, ...) e indici (asimmetria, curtosi) 9 distribuzione normale e collegate (χ2, t di Student, F di Snedecor) 9 successioni di variabili casuali, convergenza (in legge, in probabilità, quasi certa), legge dei grandi numeri, teorema limite centrale B.Il modello statistico-probabilistico 9 popolazione, campionamento casuale, unità statistica 9 riassunti numerici (posizione, scala, forma), quantili, funzione di ripartizione empirica, misure della dipendenza 9 parametro, stimatore, statistica, quantità pivotale, (verosimiglianza) Modulo I: Verifica d'ipotesi e stima intervallare Ore: 8 + 4 Obiettivo: Dare allo studente un'idea della complessa realtà che il problema inferenziale della verifica d'ipotesi rappresenta. Lezioni teoriche: A.Test di pura significatività (approccio Fisheriano) 1.ipotesi nulla (semplice, composita), statistica test e distribuzione nulla, livello di significatività osservato (p-value) 2.approssimazioni asintotiche, ricampionamento B.Test di significatività (approccio di Neyman-Pearson) 3.ipotesi nulla e ipotesi alternativa (semplice/composita, unilaterale/bilaterale, mono/multidimensionale), livello del test e potenza, regioni critiche (accettazione/rifiuto) 3.calcolo della potenza statistica, curve ROC C.Test di tipo distribution-free 4.proprietà, randomizzazione e permutazione, correzioni per la continuità D.Test di verosimiglianza 5.statistiche test (Wald, Rao, rapporto di verosimiglianza) 6.distribuzioni asintotiche E.Stima intervallare 7.quantità pivotale, limite superiore/inferiore, livello di copertura (nominale, reale) F.Approccio bayesiano (cenni) 8.distribuzione a priori, distribuzione a posteriori 9.fattore di Bayes, intervalli di credibilità Laboratorio R: Presentazione e utilizzo (corretto) dei più comuni test statistici: A.Test di bontà di adattamento (X2 di Pearson, Kolmogorov-Smirnov, Anderson-Darling) B.Test su popolazioni normali (test t ad un campione, test F, test t per due/più campioni, test t per dati appaiati) C.Test di aleatorietà (test dei runs) Test di indipendenza (X2 di Pearson, test di Kendall, test di Spearman) Confronto tra popolazioni: (dati appaiati : test dei segni, test di Wilcoxon; due campioni : test di Wilcoxon, test di Mann-Whitney; più campioni : test di Kruskal-Wallis) Modulo II: Analisi della varianza (ANOVA) Ore: 4 + 2 Obiettivo: Introduzione (informale) all'analisi della varianza. Lezioni teoriche: A.Concetti base 1.scomposizione in somme di quadrati, statistica F 2.ortogonalità e indipendenza, bilanciamento B.Alcuni disegni sperimentali 3.ANOVA ad un criterio, ANOVA a due criteri, disegni a blocchi randomizzati 4.disegni fattoriali 5.replicazioni e interazioni 6.disegni non ortogonali e/o incompleti Laboratorio R: Da definire. Modulo III: Disegno ottimo Ore: 6 o 4 + 2 Obiettivo: Introduzione (informale) al disegno ottimo. Lezioni teoriche: A.Richiami 1.il modello di regressione lineare B.Criteri di ottimalità 2.D-ottimalità, teorema di Kiefer-Wolfowitz 3.criteri alternativi (G-, A-, E-) C.Estensioni 4.Il modello di regressione non lineare Laboratorio R: Da definire. Modulo IV: Modelli per dati di sopravvivenza Ore: 4 + 3 Obiettivo: Introduzione all'analisi dei dati di sopravvivenza. Accenno al modello di Cox. Lezioni teoriche: A.Concetti base 1.dati di durata, funzione di sopravvivenza, funzione di rischio 2.censura di I e II tipo, verosimiglianza B.Stima della funzione di sopravvivenza 3.approccio non parametrico: stimatore di Kaplan-Meier 4.approccio parametrico: modelli log-normale, gamma, Weibull C.Modelli di regressione 5.il modello a rischi proporzionali di Cox Laboratorio R: Analisi di dati di sopravvivenza utilizzando la libreria survival TOTALE Ore: 33