Corso di Statistica per il Personale Tecnico Amministrativo dell’Università degli Studi di Milano-Bicocca 1 Obiettivi Il corso si propone di fornire una panoramica dei principali concetti della statistica descrittiva univariata, bivariata e multivariata. Le lezioni teoriche sono integrate da sessioni presso il laboratorio informatico tenute nel linguaggio R. Le applicazioni riguarderanno l’analisi di data set reali. 2 Programma Prima parte (statistica univariata e bivariata) a. Concetti introduttivi: popolazione statistica, fenomeni statistici, rilevazione, distribuzioni di frequenza, rappresentazioni grafiche, indici di sintesi (moda, mediana e quantili, medie potenziate), variabilità assoluta, relativa e normalizzata. b. Rilevazione congiunta di 2 caratteri: tabelle a doppia entrata, distribuzioni di frequenza congiunta e marginali, distribuzioni condizionate, scomposizione della varianza, indipendenza, connessione e sua misura (chi quadrato). c. Diagrammi di dispersione, correlazione e sua misura, regressione semplice (metodo dei minimi quadrati), analisi dei residui, indici di adattamento, regressione multipla. Seconda parte (statistica multivariata) d. Matrice dei dati e prime sintesi. Cluster analysis: principali procedure di raggruppamento, valutazione della qualità del raggruppamento, applicazioni a caratteri quantitativi e qualitativi. e. Componenti Principali: approccio fattoriale, estrazione delle componenti principali, regole di arresto, valutazione della variabilità riprodotta; applicazioni. f. Una panoramica su ulteriori tecniche di analisi esplorativa: multidimensional scaling, analisi delle corrispondenze, analisi fattoriale. 3. Materiale didattico Il materiale del corso verrà fornito dai docenti sotto forma di dispense. Ulteriori indicazioni bibliografiche consentiranno l’approfondimento degli argomenti ritenuti di maggiore interesse. 4 Durata Ciascuna delle due parti del programma ha durata pari a 12 ore per un totale di 24 ore. La prima parte verrà svolta in laboratorio dove verranno forniti sia i concetti teorici sia l’implementazione informatica. La seconda parte consterà di 6 ore di teoria e 6 di laboratorio. 5 Collocazione temporale Novembre 2012 - Gennaio 2013 6 Numero massimo di partecipanti Una gestione efficiente del laboratorio informatico suggerisce un numero massimo di partecipanti pari a 25. 7 Docenti coinvolti Prof. Sonia Migliorati, Dott. Gianna Serafina Monti, Dott. Aldo Solari 8 Programma analitico Prima parte: 3 settimane (4 ore per settimana) tra fine novembre e metà dicembre Lezione 1: 20.11.2012, h. 9.30-11.30. (2 ore in laboratorio informatico) – Dott. Solari Introduzione all’uso di R (RStudio). Lezione 2: 21.11.2012, h. 9.30-11.30. (2 ore in laboratorio informatico) - Dott. Solari Concetti introduttivi: popolazione statistica, tipologie di dati, distribuzioni di frequenza, rappresentazioni grafiche: grafico a barre, diagrammi a torta, istogramma. Indici di posizione (moda, mediana e quantili, box-plot, medie potenziate). Lezione 3: 27.11.2012, h. 9.30-11.30. (2 ore in laboratorio informatico) - Dott. Solari Indici di dispersione: varianza, scarto quadratico medio, coefficiente di variazione e etereogeneità. Forma delle distribuzioni: curtosi e asimmetria. Lezione 4: 28.11.2012, h. 9.30-11.30. (2 ore in laboratorio informatico) - Dott. Solari Relazione tra variabili: tabelle a doppia entrata, distribuzioni di frequenza congiunta e marginali, distribuzioni condizionate, connessione e indipendenza (chi quadrato). Paradosso di Simpson. Dipendenza in media e analisi per gruppi. Lezione 5: 4.12.2012, h. 9.30-11.30. (2 ore in laboratorio informatico) – Dott. Solari Diagrammi di dispersione, covarianza e correlazione. La retta di regressione (metodo dei minimi quadrati). Previsioni. Lezione 6: 5.12.2012, h. 9.30-11.30. (2 ore in laboratorio informatico) – Dott.ssa Monti Bontà di adattamento (analisi dei residui e valori anomali). Trasformazione delle variabili. Regressione multipla. Seconda parte: 3 settimane (4 ore a settimana) a gennaio Lezione 7: 15.01.2013, h. 10-12. (2 ore in aula) – Prof.ssa Migliorati Matrice dei dati e prime sintesi. Cluster analysis: principali procedure di raggruppamento, valutazione della qualità del raggruppamento, applicazioni a caratteri quantitativi e qualitativi. Lezione 8: 16.01.2013, h. 10-12. (2 ore in laboratorio informatico) - Dott.ssa Monti Cluster analysis in R con esempi tratti da dataset reali. Lezione 9: 22.01.2013, h. 10-12. (2 ore in aula) – Prof.ssa Migliorati Componenti Principali: approccio fattoriale, estrazione delle componenti principali, regole di arresto, valutazione della variabilità riprodotta; applicazioni. Lezione 10: 23.01.2013, h. 10-12. (2 ore in laboratorio informatico) - Dott.ssa Monti Componenti Principali in R con esempi tratti da dataset reali. Lezione 11: 29.01.2013, h. 10-12. (2 ore in aula) – Prof.ssa Migliorati Una panoramica su ulteriori tecniche di analisi esplorativa: multidimensional scaling, analisi delle corrispondenze, analisi fattoriale. Lezione 12: 30.01.2013, h. 10-12. (2 ore in laboratorio informatico) - Dott.ssa Monti Tecniche di analisi esplorativa in R con esempi tratti da dataset reali.