Tecniche Psicometriche e Analisi dei Dati a.a. 2016/2017 Prof. Rocco Micciolo [email protected] Dettagli logistici • Consultare frequentemente la pagina web del corso all’indirizzo http://hostingwin.unitn.it/micciolo/ • Ricevimento: su appuntamento (o al termine delle lezioni) • E-mail : [email protected] • Ufficio: a Rovereto, 2° piano della palazzina di Palazzo Fedrigotti. Stanza 222. Modalità di svolgimento del corso • Lezione: lunedì, martedì, mercoledì • I materiali relativi alle lezioni sono depositati on-line • Le lezioni nelle intenzioni sono interattive (sta a voi renderle tali). È utile portare a lezione un pc • La frequenza è obbligatoria? No, ma è assolutamente consigliato frequentare regolarmente il corso • Modalità di esame: in aula informatica • Testi di riferimento http://hostingwin.unitn.it/micciolo/RcR/home.html Agresti - Finlay Statistical Methods for the Social Sciences Pearson Prentince Hall • Capitolo 12 (ANOVA) • Capitolo 13 (ANCOVA) • Capitolo 15 (Modello logistico) Modalità di esame • Esame “scritto” (al computer, in aula informatica) con la possibilità di portare e consultare il testo di riferimento Ricerca con R (l’originale, non le fotocopie!) • Pre-appello… Statistica 21–mo secolo Disponibilità di grandi moli di informazioni. La sfida: come usare le informazioni disponibili per prendere le decisioni migliori? Bisogna capire e conoscere la Statistica! Una definizione di Statistica: “tecnica che ha per scopo la conoscenza quantitativa dei fenomeni collettivi”. Lo studio del fenomeno collettivo si può fare osservando interamente la collettività di individui (Popolazione). Statistica descrittiva Esempi di raccolta delle informazioni su tutta la collettività: Censimento della Popolazione e delle Abitazioni Censimento dell’Agricoltura Censimento dell’Industria e dei Servizi. … oppure osservandone una sua parte (Campione) Statistica inferenziale C P Indagine Istat sulle forze di lavoro “Proiezioni” elettorali Esperimenti Studi osservazionali L’unità statistica è l’elemento di osservazione di base della popolazione oggetto di indagine statistica. L’unità di rilevazione è l’elemento di osservazione di base della rilevazione e può non coincidere con l’unità statistica. Stili di vita e condizioni di salute (Istat) Il Campione: 21718 famiglie per 58653 individui. L’unità statistica (elemento di base di investigazione) è l’individuo. L’unità di rilevazione è la famiglia. Unità statistica unità di rilevazione • Le lezioni non avranno soltanto carattere “teorico” ma saranno integrate con esemplificazioni pratiche • Verrà impiegato il software R per l’analisi dei dati • Siete invitati a installare R e a riprodurre tutto quanto viene fatto vedere a lezione e a integrarlo con opportune varianti • Per lavorare al meglio con R è opportuno disporre di un editor come R studio Getting Started • • • • • Where to get R? Go to cran.r-project.org Select the version for your OS For Windows: select base Select the latest version (…) The R GUI The R Working Area This is the area where all commands are issued, and non-graphical outputs observed when run interactively Quitting – q() Packages To load a package from the GUI menu • A package is a standardized collection of material extending R • Contain R functions, data sets, compiled dll’s • A default R installation contains several packages. • Additional packages can be installed. • Not part of the user workspace • Can be loaded with a library statement rmf • È una libreria di funzioni sviluppata preparando le lezioni di vari corsi di Statistica • È scritta esclusivamente usando funzioni preesistenti di R e si occupa(va) principalmente di produrre un output • Permette (al docente e allo studente) di eseguire simulazioni per “dimostrare” empiricamente le regole e i metodi dell’inferenza statistica • Potete scaricarla e installarla dal link seguente: http://hostingwin.unitn.it/micciolo/ • Come tutte le librerie (packages) va installata una volta per tutte e richiamata all’apertura di ogni sessione di R con il comando library(rmf) • La versione di R deve essere 3.0.0 o successive Lavoriamo un po’ con R R as a calculator > x <- c(1,3,2,10,5); y <- c(1:5) > x [1] 1 3 2 10 5 > x+y [1] 2 5 5 14 10 > x*y [1] 1 6 6 40 25 > x/y [1] 1.0000000 1.5000000 0.6666667 2.5000000 1.0000000 > x^y [1] 1 9 8 10000 3125 R as a calculator • > x <- c(1,3,2,10,5); y <- c(1:5) • > sum(x) [1] 21 • > cumsum(x) [1] 1 4 6 16 21 • > x <- 0.5; 2*x^2-3*x+1<0 [1] FALSE Frequently used operators <Assign + Sum Difference * Multiplication / Division ^ Exponent %% Mod %*% Dot product %/% Integer division %in% Subset | & < > <= >= ! != == Or And Less Greater Less or = Greater or = Not Not equal Is equal R as a plotter • R has many nice and easy-touse plotting functions • > plot(cars) *) • > lines(lowess(cars), col = "Red") • > lines(c(4, 25), c(4, 25)*3.932- 17.579, lty = 2, col = "Blue") • > legend(5, 118, c("lowess smoother", "linear regression"), lty = 1:2, col = c("Red", "Blue")) *) The data give the speed of cars and the distances taken to stop. Note that the data were recorded in the 1920s. > plot(sin, 0, 2*pi, type = "p", pch = "*", col = 2) > plot(table(rpois(1000,5)), type="h",col="red",lwd=10, main="rpois(1000,lambda=5)") > curve(dnorm,-3,3)