Introduzione a R
2014­2015
Emanuele Taufer
Caratteristiche di base
R è un software opensource,
R è un ambiente estremamente versatile:
Architettura del sistema R
R­studio
R­isorse
Manuali in italiano
Caratteristiche di base
R è un ambiente integrato per l’analisi dei dati nato nel 1993 dall’elaborazione del linguaggio di
programmazione S (ideata da John Chambers presso i Bell Laboratories) ad opera di Robert
Gentleman e Ross Ihaka, colleghi presso l’Università di Auckland.
capacità di gestione e manipolazione dei dati;
accesso ad un vasto insieme di strumenti integrati per l’analisi statistica;
potenzialità grafiche particolarmente flessibili;
possibilità di adoperare un vero e proprio linguaggio di programmazione orientato ad oggetti
che consente l’uso di strutture condizionali e cicliche, nonché di funzioni create dall’utente.
distribuito gratuitamente sotto i vincoli della GPL (General Public License) e virtualmente
disponibile per qualsiasi sistema operativo (anche PS3)
Sta diventando il riferimento sia non solo per l’accademia: Bank of America, Facebook, Ford,
NewScientist,The New York Times, FDA sono solo alcune delle aziende che utilizzano R per la
gestione dei loro dati.
R è un software opensource,
Scaricalo da http://cran.r­project.org/ (http://cran.r­project.org/)
si ha la possibilità di accedere al codice sorgente e di modificarlo
ha un costo zero per l’utente finale
dispone di una vasta manualistica (in lingua inglese) consultabile e scaricabile da Internet
è possibile accedere tramite Internet ad una vasta gamma di librerie per analisi statistiche
molte dettagliate create e messe a disposizione di tutti da parte di ricercatori di tutto il pianeta
esiste una comunità R molto attiva: R­help and R­devel mailing lists e Stack Overflow
R è un ambiente estremamente versatile:
con possibilità di creare strumenti personali di analisi statistica ad hoc necessari per le proprie
ricerche
con disponibilità di strumenti di analisi statistica (già pronti) dai più elementari ai più sofisticati
probabilmente il miglior software per l’analisi grafica.
un software in continuo e rapido sviluppo
può essere integrato facilmente, ad esempio con Microsoft Excel MySql, Microsoft Access,
Oracle, PostgreSQL
consente di importare file di dati da software statistici quali: Minitab, S, SAS, SPSS, Stata
Architettura del sistema R
L’ambiente R è diviso in 2 parti concettuali:
1. Il sistema R “base” che si scarica da CRAN
2. Tutto il resto.
R è suddiviso in un certo numero di pacchetti.
Il sistema R “base” contiene, tra le altre cose, il pacchetto di base che è necessario per
eseguire R e contiene le funzioni fondamentali.
Gli altri pacchetti contenuti nel sistema “base” includono utils, stats, datasets, graphics,
grDevices, grid, methods, tools, parallel, compiler, splines, tcltk, stats4.
Ci sono anche pacchetti “consigliati” : boot, class, cluster, codetools, foreign, KernSmooth,
lattice, mgcv, nlme, rpart, survival, MASS, spatial, nnet, Matrix.
Ci sono più di 5000 pacchetti in CRAN che sono stati sviluppati dagli utenti e programmatori di
tutto il mondo.
R­studio
R­studio è un’interfaccia grafica che permette di gestire agevolmente molte funzionalità di R
Quasi tutto viene gestito in ambiente Windows
Scaricabile gratuitamente da http://www.rstudio.com/ (http://www.rstudio.com/)
R­isorse
Il sito di R http://cran.r­project.org/ (http://cran.r­project.org/) (download, pacchetti, tutorials)
R­ bloggers http://www.r­bloggers.com/ (http://www.r­bloggers.com/) (notizie, esempi, sviluppi)
Self­teaching http://swirlstats.com/ (http://swirlstats.com/) (programma interattivo di auto­
apprendimento)
Manuali in italiano
Una Guida all’utilizzo dell’Ambiente Statistico R ­ Angelo Mineo http://cran.r­
project.org/doc/contrib/Mineo­dispensaR.pdf (http://cran.r­project.org/doc/contrib/Mineo­
dispensaR.pdf)
Introduzione a R ­ Agostinelli http://cran.r­project.org/doc/contrib/manuale.0.3.pdf (http://cran.r­
project.org/doc/contrib/manuale.0.3.pdf)
Principali tecniche di regressione con R ­ Vito Ricci http://cran.r­project.org/doc/contrib/Ricci­
regression­it.pdf (http://cran.r­project.org/doc/contrib/Ricci­regression­it.pdf)