L`ambiente statistico R: una prima visita guidata

La realtà in numeri
L'ambiente statistico R:
una prima visita guidata
Statistica
Davide Massidda
[email protected]
●
●
●
Università di Cagliari, a.a. 2013/2014
La statistica nel XXI secolo
●
●
●
●
Sempre più spesso, a chi fa statistica oggi non è chiesto
semplicemente di analizzare dati.
Fare statistica nel XXI secolo significa fare qualcosa di
più, ovvero creare con i dati.
Oggi serve gente che sappia comunicare con i numeri,
li sappia interrogare e sia in grado di trasformarli in
conoscenza.
La figura professionale della scimmia schiaccia-bottoni è
destinata a essere messa da parte*.
* Ma i bottoni – per fortuna – continueranno a esistere.
I dati consentono di digitalizzare la realtà, descrivendo
un fenomeno attraverso un codice numerico o testuale.
I dati veicolano informazioni, che però necessitano di
opportune tecniche e adeguati strumenti per essere
estratte.
La statistica è quella disciplina che fa da ponte tra i
numeri e l'informazione.
Che cos'è R, in breve
●
●
●
R è un ambiente di sviluppo pensato appositamente
per la realizzazione di analisi statistiche.
Si tratta di un linguaggio di programmazione figlio di un
altro linguaggio analogo (chiamato S), di cui R è
l'alternativa open source.
Fondamentalmente, R è un pacchetto statistico che
permette di elaborare dati, eseguire calcoli e realizzare
rappresentazioni grafiche.
Che cos'è R, in breve
●
●
●
Nasce intorno alla metà degli anni '90 presso l'Università
di Auckland. I primi sviluppatori furono Robert
Gentleman e Ross Ihaka.
Fin dall'inizio, il progetto R aveva l'obiettivo di fornire un
ambiente statistico di alta qualità e a costo zero.
Oggi, R è diventato il riferimento per le analisi statistiche
nel mondo accademico, e negli ultimi anni sta entrando
prepotentemente anche in quello aziendale.
Un progetto di successo
●
●
●
Personalizzabile: è concepito come un linguaggio di
programmazione, per cui consente all’utente di creare
istruzioni personalizzate per risolvere problemi nuovi,
originariamente non previsti dal programma, oppure per
migliorare istruzioni già esistenti.
Gratuito: svincola l’utilizzatore dalla dipendenza da
costose licenze software che difficilmente un privato
potrebbe permettersi.
Open source: chiunque può lavorare sul software e
svilupparlo, anche per derivarne altri prodotti.
Un progetto di successo
●
●
Completo: permette di gestire modelli statistici dai più
semplici ai più complessi, realizzare rappresentazioni
grafiche di alto livello, creare applicazioni web, fare del
web scraping... e molto altro ancora!
All’avanguardia:
difficilmente
l’ultima
frontiera
dell’analisi statistica non ha un’implementazione in R. E
se non ce l’ha oggi, molto probabilmente ce l’avrà
domani (se non tra qualche ora).
Perché R e non...
Analizzare dati psicologici
●
Psicologo “R non-user”
Archiviazione dati
Analisi statistica “ordinaria”
Modelli di equazioni strutturali
Modelli di Rasch
Analisi di dati testuali
Totale software necessari:
●
Installare R in Windows
LibreOffice
SPSS
Lisrel
WINSTEPS
Spad-T
5
Psicologo “R user”
Archiviazione dati
Analisi statistica “odinaria”
Modelli di equazioni strutturali
Modelli di Rasch
Analisi di dati testuali
Totale software necessari:
LibreOffice
R
R
R
R
2
●
●
●
●
●
●
URL del progetto: www.r-project.org
Sul menù di sinistra scegliere la voce CRAN.
Scegliere un CRAN geograficamente vicino (Milano, Padova
o Palermo).
Scegliere il download per Windows.
Scegliere la distribuzione base.
Effettuare il download e installare il software.
Un foglio bianco
R è una calcolatrice!
●
L'utente invia un comando in input; dall'altra parte, un
interprete legge l'istruzione, elabora la risposta e
fornisce un output.
> 2+2
> 2+2
[1] 4
[1] 4
> 3^5
> 3^5
[1] 243
[1] 243
> log(0)
> log(0)
[1] 1
[1] 1
> 7 + (3­4)
> 7 + (3­4)
[1] 6
[1] 6
●
Da dove partire?!
Migliore UX con R Studio
Migliore UX con R Studio
www.rstudio.com/ide/download/
●
●
●
R Studio è un ambiente integrato per R che fornisce
funzionalità di alto livello per migliorare l'esperienza utente.
Consente di eseguire alcune basilari operazioni tramite
pulsanti e rende un po' più semplice organizzare il codice.
●
Per funzionare, necessita che R sia installato sulla macchina.
Vita più facile con Rcmdr
Diverse funzionalità migliorano l'esperienza utente e sono
presenti utilissimi pulsanti. Non si tratta comunque di una vera
e propria interfaccia grafica a bottoni.
Cosa faremo noi con R
●
Corso di sopravvivenza: basilare introduzione al
linguaggio per comprenderne la logica di funzionamento.
●
Organizzazione e importazione dati.
●
Analisi della varianza.
●
Un po' di visualizzazioni.
●
Nota bene:
Dal lato R, questo corso vi fornirà gli strumenti
strettamente necessari per analizzare i dati con
l'ANOVA. Diventare esperti di R non sarà certo
argomento di queste lezioni.