Programma del corso di Statistica
da tenersi nell'ambito dei Dottorati di Ricerca in Bioingegneria,
Ingegneria Informatica & Elettronica Industriale,
Automatica & Ricerca Operativa
ed altri
(rielaborazione della proposta del 31/05/02)
a cura della Dott.ssa Alessandra R. Brazzale, ISIB-CNR, Padova
[email protected]
15 novembre 2002
Premessa
Obiettivo: Fornire un'introduzione ai concetti ed alle metodologie inerenti ai quattro settori tematici di
seguito riportati.
Approccio: Orientato alla pratica (illustrazione dell'utilizzo dei concetti e delle metodologie presentate
tramite esercitazioni al calcolatore)
Livello: Studenti iscritti al Dottorato di Ricerca
Libri di testo e di consultazione: Da definire (quelli riportati nella proposta del 31/05/02 sono indicativi)
Software utilizzato: R (Ihaka and Gentleman, 1996), versione corrente (att. 1.6.0)
Ore: 33
Modulo 0: Richiami
Ore: 2
Obiettivo: Richiamare brevemente elementi di Calcolo delle Probabilità e Teoria dell'Inferenza che si suppongono noti
allo studente.
Lezioni teoriche:
A.Il modello probabilistico
9 variabile casuale (discreta, continua), funzione di probabilità/densità, funzione di ripartizione,
momenti (media, varianza, ...) e indici (asimmetria, curtosi)
9 distribuzione normale e collegate (χ2, t di Student, F di Snedecor)
9 successioni di variabili casuali, convergenza (in legge, in probabilità, quasi certa), legge dei grandi
numeri, teorema limite centrale
B.Il modello statistico-probabilistico
9 popolazione, campionamento casuale, unità statistica
9 riassunti numerici (posizione, scala, forma), quantili, funzione di ripartizione empirica, misure
della dipendenza
9 parametro, stimatore, statistica, quantità pivotale, (verosimiglianza)
Modulo I: Verifica d'ipotesi e stima intervallare
Ore: 8 + 4
Obiettivo: Dare allo studente un'idea della complessa realtà che il problema inferenziale della verifica d'ipotesi
rappresenta.
Lezioni teoriche:
A.Test di pura significatività (approccio Fisheriano)
1.ipotesi nulla (semplice, composita), statistica test e distribuzione nulla, livello di significatività
osservato (p-value)
2.approssimazioni asintotiche, ricampionamento
B.Test di significatività (approccio di Neyman-Pearson)
3.ipotesi
nulla
e
ipotesi
alternativa
(semplice/composita,
unilaterale/bilaterale,
mono/multidimensionale), livello del test e potenza, regioni critiche (accettazione/rifiuto)
3.calcolo della potenza statistica, curve ROC
C.Test di tipo distribution-free
4.proprietà, randomizzazione e permutazione, correzioni per la continuità
D.Test di verosimiglianza
5.statistiche test (Wald, Rao, rapporto di verosimiglianza)
6.distribuzioni asintotiche
E.Stima intervallare
7.quantità pivotale, limite superiore/inferiore, livello di copertura (nominale, reale)
F.Approccio bayesiano (cenni)
8.distribuzione a priori, distribuzione a posteriori
9.fattore di Bayes, intervalli di credibilità
Laboratorio R: Presentazione e utilizzo (corretto) dei più comuni test statistici:
A.Test di bontà di adattamento (X2 di Pearson, Kolmogorov-Smirnov, Anderson-Darling)
B.Test su popolazioni normali (test t ad un campione, test F, test t per due/più campioni, test t per dati appaiati)
C.Test di aleatorietà (test dei runs)
Test di indipendenza (X2 di Pearson, test di Kendall, test di Spearman)
Confronto tra popolazioni: (dati appaiati : test dei segni, test di Wilcoxon;
due campioni : test di Wilcoxon, test di Mann-Whitney;
più campioni : test di Kruskal-Wallis)
Modulo II: Analisi della varianza (ANOVA)
Ore: 4 + 2
Obiettivo: Introduzione (informale) all'analisi della varianza.
Lezioni teoriche:
A.Concetti base
1.scomposizione in somme di quadrati, statistica F
2.ortogonalità e indipendenza, bilanciamento
B.Alcuni disegni sperimentali
3.ANOVA ad un criterio, ANOVA a due criteri, disegni a blocchi randomizzati
4.disegni fattoriali
5.replicazioni e interazioni
6.disegni non ortogonali e/o incompleti
Laboratorio R: Da definire.
Modulo III: Disegno ottimo
Ore: 6 o 4 + 2
Obiettivo: Introduzione (informale) al disegno ottimo.
Lezioni teoriche:
A.Richiami
1.il modello di regressione lineare
B.Criteri di ottimalità
2.D-ottimalità, teorema di Kiefer-Wolfowitz
3.criteri alternativi (G-, A-, E-)
C.Estensioni
4.Il modello di regressione non lineare
Laboratorio R: Da definire.
Modulo IV: Modelli per dati di sopravvivenza
Ore: 4 + 3
Obiettivo: Introduzione all'analisi dei dati di sopravvivenza. Accenno al modello di Cox.
Lezioni teoriche:
A.Concetti base
1.dati di durata, funzione di sopravvivenza, funzione di rischio
2.censura di I e II tipo, verosimiglianza
B.Stima della funzione di sopravvivenza
3.approccio non parametrico: stimatore di Kaplan-Meier
4.approccio parametrico: modelli log-normale, gamma, Weibull
C.Modelli di regressione
5.il modello a rischi proporzionali di Cox
Laboratorio R: Analisi di dati di sopravvivenza utilizzando la libreria survival
TOTALE
Ore: 33