L’analisi dei dati
Come reperirlo
Claudio Locci - Vincenzo Rundeddu
Corso di Analisi di Mercato - Anno 2011
- Download dal sito: www
www..r-project.
project.org
1
Corso di Analisi di Mercato - Anno 2011
Primi passi:
2
L’importazione
• Posizionare il file .csv o .txt su cui svolgere l’analisi in
> dati2<-read.csv2("centrocomm.csv")
una cartella a piacere;
• Entrare in R e dal menù “File – Cambia directory”
Ora possiamo richiamare in qualsiasi momento l’oggetto
individuare la cartella selezionata nel punto precedente;
“dati”.
• Effettuare l’importazione del file attraverso il comando
Si noti che la scelta del nome “dati” è puramente
read.csv2
casuale.
Corso di Analisi di Mercato - Anno 2011
3
Corso di Analisi di Mercato - Anno 2011
4
Verifica corretta importazione
Media
1) > fix (dati)
Visualizza il database in stile excel;
Il comando che permette di calcolare la media di una
variabile è “mean”.
Calcoliamo la media della variabile “etainterv”:
2) > str (dati)
Visualizza le tipologie di variabili importate e indica il
numero di osservazioni presenti nel database;
> mean (dati$etainterv)
[1] 52.27778
3) > summary (dati)
Principali statistiche descrittive
Corso di Analisi di Mercato - Anno 2011
Il simbolo “$” permette di richiamare una o più variabili
da un database. Esso dev’essere sempre preceduto
dal nome del database e seguito dal nome della
variabile.
5
Corso di Analisi di Mercato - Anno 2011
Varianza
6
Le tabelle di frequenza
Il comando che permette di calcolare la varianza di una
variabile è “var”.
Calcoliamo la varianza della variabile “nspesemese”:
Attraverso il comando “table” possiamo costruire una
tabella di frequenza per la variabile desiderata:
> table(dati$genereinterv)
> var(dati$nspesemese)
[1] 23.51705
Corso di Analisi di Mercato - Anno 2011
f m
67 41
7
Corso di Analisi di Mercato - Anno 2011
8
Le tabelle di frequenza
La logica del linguaggio
Se volessimo costruire un tabella a doppia entrata è
sufficiente inserire un seconda variabile dopo la
virgola:
•
Le elaborazioni in R vanno effettuate su oggetti. Per creare
oggetti si utilizza l’operatore di assegnazione “<
<-” o “-->”
•
> table(dati$genereinterv,dati$luogodomicilio)
Il trattino e il maggiore o minore formano una freccia il cui
senso indica l’assegnazione
nomeoggetto <<- funzione(parametro1, parametro2)
lontano vicino
f
25 42
m
15 26
o alternativamente
funzione(parametro1, parametro2) -> nomeoggetto
Corso di Analisi di Mercato - Anno 2011
9
Corso di Analisi di Mercato - Anno 2011
10
La logica del linguaggio
Eliminare gli oggetti
Ad esempio, salviamo la tabella di frequenza vista in
Se si vogliono eliminare più oggetti, bisogna elencarli
separati da virgole.
precedenza
> rm(thing1, thing2)
> tabella<-table(dati$genereinterv,dati$luogodomicilio)
> ls()
[1] "dati"
Quando si inizia una nuova sessione di lavoro, `e
opportuno rimuovere tutti i vecchi oggetti che non servono.
Un comando utile `e:
"tabella"
> rm(list = ls())
o, in alternativa, rm(list=objects()).
Corso di Analisi di Mercato - Anno 2011
11
Corso di Analisi di Mercato - Anno 2011
12
Il salvataggio dei dati
Importanza della cronologia
Nella directory di lavoro R salva 2 file:
1.un file ASCII(.Rhistory) che riporta i codici digitati
sul prompt, senza comunque riportare le “risposte” di
R.
• si salva da “File” – “salva cronologia”;
• si apre con “notepad”;
2.un file “workspace” (.Rdata) che contiene tutti gli
oggetti creati durante la sessione.
• si salva da “File” – “salva area di lavoro”;
Corso di Analisi di Mercato - Anno 2011
13
Importanza dell’Help
•
Per conoscere parametri e modalità di utilizzo di una
help (mean) oppure ?mean
Per osservarne l’utilizzo con esempi
•
Può essere aperta e modificata con il blocco note/notepad
•
Con un semplice “Copia e incolla” si può “rilanciare” in un
attimo tutto il codice sull’area di lavoro (anche migliaia di
elaborazioni)
Corso di Analisi di Mercato - Anno 2011
14
Il simbolo # consente di inserire commenti dopo la
digitazione di un comando.
Poiché esiste la possibilità di salvare la cronologia
(tutto ciò che si è digitato), un commento dopo i
comandi più significativi permette di creare un
promemoria sul significato di quel comando.
Esempio:
> 3 * 3 # moltiplicazione
[1] 9
example(mean)
Corso di Analisi di Mercato - Anno 2011
Permette di richiamare il codice già digitato con le frecce
Il simbolo #
funzione (es: mean)
•
•
15
Corso di Analisi di Mercato - Anno 2011
16
I grafici: variabili quantitative
I grafici: variabili quantitative
“Hist” è il comando per creare un istogramma con le
variabili quantitative:
> hist(dati$etainterv,freq=T)
“Boxplot” è il comando per creare una scatola a baffi
con le variabili quantitative:
> boxplot(dati$etainterv)
Corso di Analisi di Mercato - Anno 2011
17
I grafici: variabili qualitative
18
I grafici: variabili qualitative
“Barplot” è il comando per creare un diagramma a barre
con le variabili qualitative:
> barplot(table(dati$luogodomicilio))
Corso di Analisi di Mercato - Anno 2011
Corso di Analisi di Mercato - Anno 2011
19
“Pie” è il comando per creare grafico a torta con le
variabili qualitative:
> pie(table(dati$luogodomicilio))
Corso di Analisi di Mercato - Anno 2011
20
I grafici bivariati: 2 variabili
qualitative
I grafici bivariati: 2 variabili
qualitative
Utilizzo la virgola per separare le due variabili qualitative
> plot(table(dati$luogodomicilio,dati$genereinterv))
Utilizzo la virgola per separare le due variabili qualitative
> plot(table(dati$luogodomicilio,dati$mezzipubb),col=rainbow(5))
lontano
vicino
x
vicino
si
m
piedi
no
f
lontano
Corso di Analisi di Mercato - Anno 2011
21
I grafici bivariati: 2 variabili
quantitative
Corso di Analisi di Mercato - Anno 2011
22
I grafici bivariati: 1 variabile
qualitativa e 1 quantitativa
> boxplot(split(dati$nspesemese,dati$genereinterv))
20
Utilizzo un grafico a dispersione
> plot(dati$etainterv,dati$nspesemese)
5
10
15
> cor(dati$etainterv,dati$nspesemese)
[1] 0.3671785
f
Corso di Analisi di Mercato - Anno 2011
23
Corso di Analisi di Mercato - Anno 2011
m
24