La realtà in numeri L'ambiente statistico R: una prima visita guidata Statistica Davide Massidda [email protected] ● ● ● Università di Cagliari, a.a. 2013/2014 La statistica nel XXI secolo ● ● ● ● Sempre più spesso, a chi fa statistica oggi non è chiesto semplicemente di analizzare dati. Fare statistica nel XXI secolo significa fare qualcosa di più, ovvero creare con i dati. Oggi serve gente che sappia comunicare con i numeri, li sappia interrogare e sia in grado di trasformarli in conoscenza. La figura professionale della scimmia schiaccia-bottoni è destinata a essere messa da parte*. * Ma i bottoni – per fortuna – continueranno a esistere. I dati consentono di digitalizzare la realtà, descrivendo un fenomeno attraverso un codice numerico o testuale. I dati veicolano informazioni, che però necessitano di opportune tecniche e adeguati strumenti per essere estratte. La statistica è quella disciplina che fa da ponte tra i numeri e l'informazione. Che cos'è R, in breve ● ● ● R è un ambiente di sviluppo pensato appositamente per la realizzazione di analisi statistiche. Si tratta di un linguaggio di programmazione figlio di un altro linguaggio analogo (chiamato S), di cui R è l'alternativa open source. Fondamentalmente, R è un pacchetto statistico che permette di elaborare dati, eseguire calcoli e realizzare rappresentazioni grafiche. Che cos'è R, in breve ● ● ● Nasce intorno alla metà degli anni '90 presso l'Università di Auckland. I primi sviluppatori furono Robert Gentleman e Ross Ihaka. Fin dall'inizio, il progetto R aveva l'obiettivo di fornire un ambiente statistico di alta qualità e a costo zero. Oggi, R è diventato il riferimento per le analisi statistiche nel mondo accademico, e negli ultimi anni sta entrando prepotentemente anche in quello aziendale. Un progetto di successo ● ● ● Personalizzabile: è concepito come un linguaggio di programmazione, per cui consente all’utente di creare istruzioni personalizzate per risolvere problemi nuovi, originariamente non previsti dal programma, oppure per migliorare istruzioni già esistenti. Gratuito: svincola l’utilizzatore dalla dipendenza da costose licenze software che difficilmente un privato potrebbe permettersi. Open source: chiunque può lavorare sul software e svilupparlo, anche per derivarne altri prodotti. Un progetto di successo ● ● Completo: permette di gestire modelli statistici dai più semplici ai più complessi, realizzare rappresentazioni grafiche di alto livello, creare applicazioni web, fare del web scraping... e molto altro ancora! All’avanguardia: difficilmente l’ultima frontiera dell’analisi statistica non ha un’implementazione in R. E se non ce l’ha oggi, molto probabilmente ce l’avrà domani (se non tra qualche ora). Perché R e non... Analizzare dati psicologici ● Psicologo “R non-user” Archiviazione dati Analisi statistica “ordinaria” Modelli di equazioni strutturali Modelli di Rasch Analisi di dati testuali Totale software necessari: ● Installare R in Windows LibreOffice SPSS Lisrel WINSTEPS Spad-T 5 Psicologo “R user” Archiviazione dati Analisi statistica “odinaria” Modelli di equazioni strutturali Modelli di Rasch Analisi di dati testuali Totale software necessari: LibreOffice R R R R 2 ● ● ● ● ● ● URL del progetto: www.r-project.org Sul menù di sinistra scegliere la voce CRAN. Scegliere un CRAN geograficamente vicino (Milano, Padova o Palermo). Scegliere il download per Windows. Scegliere la distribuzione base. Effettuare il download e installare il software. Un foglio bianco R è una calcolatrice! ● L'utente invia un comando in input; dall'altra parte, un interprete legge l'istruzione, elabora la risposta e fornisce un output. > 2+2 > 2+2 [1] 4 [1] 4 > 3^5 > 3^5 [1] 243 [1] 243 > log(0) > log(0) [1] 1 [1] 1 > 7 + (3­4) > 7 + (3­4) [1] 6 [1] 6 ● Da dove partire?! Migliore UX con R Studio Migliore UX con R Studio www.rstudio.com/ide/download/ ● ● ● R Studio è un ambiente integrato per R che fornisce funzionalità di alto livello per migliorare l'esperienza utente. Consente di eseguire alcune basilari operazioni tramite pulsanti e rende un po' più semplice organizzare il codice. ● Per funzionare, necessita che R sia installato sulla macchina. Vita più facile con Rcmdr Diverse funzionalità migliorano l'esperienza utente e sono presenti utilissimi pulsanti. Non si tratta comunque di una vera e propria interfaccia grafica a bottoni. Cosa faremo noi con R ● Corso di sopravvivenza: basilare introduzione al linguaggio per comprenderne la logica di funzionamento. ● Organizzazione e importazione dati. ● Analisi della varianza. ● Un po' di visualizzazioni. ● Nota bene: Dal lato R, questo corso vi fornirà gli strumenti strettamente necessari per analizzare i dati con l'ANOVA. Diventare esperti di R non sarà certo argomento di queste lezioni.