Corso di Statistica per il Personale Tecnico Amministrativo

Corso di Statistica per il Personale Tecnico Amministrativo
dell’Università degli Studi di Milano-Bicocca
1 Obiettivi
Il corso si propone di fornire una panoramica dei principali concetti della statistica
descrittiva univariata, bivariata e multivariata.
Le lezioni teoriche sono integrate da sessioni presso il laboratorio informatico tenute
nel linguaggio R. Le applicazioni riguarderanno l’analisi di data set reali.
2 Programma
Prima parte (statistica univariata e bivariata)
a. Concetti introduttivi: popolazione statistica, fenomeni statistici, rilevazione,
distribuzioni di frequenza, rappresentazioni grafiche, indici di sintesi (moda,
mediana e quantili, medie potenziate), variabilità assoluta, relativa e normalizzata.
b. Rilevazione congiunta di 2 caratteri: tabelle a doppia entrata, distribuzioni di
frequenza congiunta e marginali, distribuzioni condizionate, scomposizione della
varianza, indipendenza, connessione e sua misura (chi quadrato).
c. Diagrammi di dispersione, correlazione e sua misura, regressione semplice (metodo
dei minimi quadrati), analisi dei residui, indici di adattamento, regressione multipla.
Seconda parte (statistica multivariata)
d. Matrice dei dati e prime sintesi. Cluster analysis: principali procedure di
raggruppamento, valutazione della qualità del raggruppamento, applicazioni a
caratteri quantitativi e qualitativi.
e. Componenti Principali: approccio fattoriale, estrazione delle componenti principali,
regole di arresto, valutazione della variabilità riprodotta; applicazioni.
f. Una panoramica su ulteriori tecniche di analisi esplorativa: multidimensional scaling,
analisi delle corrispondenze, analisi fattoriale.
3. Materiale didattico
Il materiale del corso verrà fornito dai docenti sotto forma di dispense. Ulteriori
indicazioni bibliografiche consentiranno l’approfondimento degli argomenti ritenuti di
maggiore interesse.
4 Durata
Ciascuna delle due parti del programma ha durata pari a 12 ore per un totale di 24 ore.
La prima parte verrà svolta in laboratorio dove verranno forniti sia i concetti teorici
sia l’implementazione informatica. La seconda parte consterà di 6 ore di teoria e 6 di
laboratorio.
5 Collocazione temporale
Novembre 2012 - Gennaio 2013
6 Numero massimo di partecipanti
Una gestione efficiente del laboratorio informatico suggerisce un numero massimo di
partecipanti pari a 25.
7 Docenti coinvolti
Prof. Sonia Migliorati, Dott. Gianna Serafina Monti, Dott. Aldo Solari
8 Programma analitico
Prima parte: 3 settimane (4 ore per settimana) tra fine novembre e metà
dicembre
Lezione 1: 20.11.2012, h. 9.30-11.30.
(2 ore in laboratorio informatico) – Dott. Solari
Introduzione all’uso di R (RStudio).
Lezione 2: 21.11.2012, h. 9.30-11.30.
(2 ore in laboratorio informatico) - Dott. Solari
Concetti introduttivi: popolazione statistica, tipologie di dati, distribuzioni di
frequenza, rappresentazioni grafiche: grafico a barre, diagrammi a torta, istogramma.
Indici di posizione (moda, mediana e quantili, box-plot, medie potenziate).
Lezione 3: 27.11.2012, h. 9.30-11.30.
(2 ore in laboratorio informatico) - Dott. Solari
Indici di dispersione: varianza, scarto quadratico medio, coefficiente di variazione e
etereogeneità. Forma delle distribuzioni: curtosi e asimmetria.
Lezione 4: 28.11.2012, h. 9.30-11.30.
(2 ore in laboratorio informatico) - Dott. Solari
Relazione tra variabili: tabelle a doppia entrata, distribuzioni di frequenza congiunta e
marginali, distribuzioni condizionate, connessione e indipendenza (chi quadrato).
Paradosso di Simpson. Dipendenza in media e analisi per gruppi.
Lezione 5: 4.12.2012, h. 9.30-11.30.
(2 ore in laboratorio informatico) – Dott. Solari
Diagrammi di dispersione, covarianza e correlazione. La retta di regressione (metodo
dei minimi quadrati). Previsioni.
Lezione 6: 5.12.2012, h. 9.30-11.30.
(2 ore in laboratorio informatico) – Dott.ssa Monti
Bontà di adattamento (analisi dei residui e valori anomali). Trasformazione delle
variabili. Regressione multipla.
Seconda parte: 3 settimane (4 ore a settimana) a gennaio
Lezione 7: 15.01.2013, h. 10-12.
(2 ore in aula) – Prof.ssa Migliorati
Matrice dei dati e prime sintesi. Cluster analysis: principali procedure di
raggruppamento, valutazione della qualità del raggruppamento, applicazioni a caratteri
quantitativi e qualitativi.
Lezione 8: 16.01.2013, h. 10-12.
(2 ore in laboratorio informatico) - Dott.ssa Monti
Cluster analysis in R con esempi tratti da dataset reali.
Lezione 9: 22.01.2013, h. 10-12.
(2 ore in aula) – Prof.ssa Migliorati
Componenti Principali: approccio fattoriale, estrazione delle componenti principali,
regole di arresto, valutazione della variabilità riprodotta; applicazioni.
Lezione 10: 23.01.2013, h. 10-12.
(2 ore in laboratorio informatico) - Dott.ssa Monti
Componenti Principali in R con esempi tratti da dataset reali.
Lezione 11: 29.01.2013, h. 10-12.
(2 ore in aula) – Prof.ssa Migliorati
Una panoramica su ulteriori tecniche di analisi esplorativa: multidimensional scaling,
analisi delle corrispondenze, analisi fattoriale.
Lezione 12: 30.01.2013, h. 10-12.
(2 ore in laboratorio informatico) - Dott.ssa Monti
Tecniche di analisi esplorativa in R con esempi tratti da dataset reali.