L’analisi dei dati Come reperirlo Claudio Locci - Vincenzo Rundeddu Corso di Analisi di Mercato - Anno 2011 - Download dal sito: www www..r-project. project.org 1 Corso di Analisi di Mercato - Anno 2011 Primi passi: 2 L’importazione • Posizionare il file .csv o .txt su cui svolgere l’analisi in > dati2<-read.csv2("centrocomm.csv") una cartella a piacere; • Entrare in R e dal menù “File – Cambia directory” Ora possiamo richiamare in qualsiasi momento l’oggetto individuare la cartella selezionata nel punto precedente; “dati”. • Effettuare l’importazione del file attraverso il comando Si noti che la scelta del nome “dati” è puramente read.csv2 casuale. Corso di Analisi di Mercato - Anno 2011 3 Corso di Analisi di Mercato - Anno 2011 4 Verifica corretta importazione Media 1) > fix (dati) Visualizza il database in stile excel; Il comando che permette di calcolare la media di una variabile è “mean”. Calcoliamo la media della variabile “etainterv”: 2) > str (dati) Visualizza le tipologie di variabili importate e indica il numero di osservazioni presenti nel database; > mean (dati$etainterv) [1] 52.27778 3) > summary (dati) Principali statistiche descrittive Corso di Analisi di Mercato - Anno 2011 Il simbolo “$” permette di richiamare una o più variabili da un database. Esso dev’essere sempre preceduto dal nome del database e seguito dal nome della variabile. 5 Corso di Analisi di Mercato - Anno 2011 Varianza 6 Le tabelle di frequenza Il comando che permette di calcolare la varianza di una variabile è “var”. Calcoliamo la varianza della variabile “nspesemese”: Attraverso il comando “table” possiamo costruire una tabella di frequenza per la variabile desiderata: > table(dati$genereinterv) > var(dati$nspesemese) [1] 23.51705 Corso di Analisi di Mercato - Anno 2011 f m 67 41 7 Corso di Analisi di Mercato - Anno 2011 8 Le tabelle di frequenza La logica del linguaggio Se volessimo costruire un tabella a doppia entrata è sufficiente inserire un seconda variabile dopo la virgola: • Le elaborazioni in R vanno effettuate su oggetti. Per creare oggetti si utilizza l’operatore di assegnazione “< <-” o “-->” • > table(dati$genereinterv,dati$luogodomicilio) Il trattino e il maggiore o minore formano una freccia il cui senso indica l’assegnazione nomeoggetto <<- funzione(parametro1, parametro2) lontano vicino f 25 42 m 15 26 o alternativamente funzione(parametro1, parametro2) -> nomeoggetto Corso di Analisi di Mercato - Anno 2011 9 Corso di Analisi di Mercato - Anno 2011 10 La logica del linguaggio Eliminare gli oggetti Ad esempio, salviamo la tabella di frequenza vista in Se si vogliono eliminare più oggetti, bisogna elencarli separati da virgole. precedenza > rm(thing1, thing2) > tabella<-table(dati$genereinterv,dati$luogodomicilio) > ls() [1] "dati" Quando si inizia una nuova sessione di lavoro, `e opportuno rimuovere tutti i vecchi oggetti che non servono. Un comando utile `e: "tabella" > rm(list = ls()) o, in alternativa, rm(list=objects()). Corso di Analisi di Mercato - Anno 2011 11 Corso di Analisi di Mercato - Anno 2011 12 Il salvataggio dei dati Importanza della cronologia Nella directory di lavoro R salva 2 file: 1.un file ASCII(.Rhistory) che riporta i codici digitati sul prompt, senza comunque riportare le “risposte” di R. • si salva da “File” – “salva cronologia”; • si apre con “notepad”; 2.un file “workspace” (.Rdata) che contiene tutti gli oggetti creati durante la sessione. • si salva da “File” – “salva area di lavoro”; Corso di Analisi di Mercato - Anno 2011 13 Importanza dell’Help • Per conoscere parametri e modalità di utilizzo di una help (mean) oppure ?mean Per osservarne l’utilizzo con esempi • Può essere aperta e modificata con il blocco note/notepad • Con un semplice “Copia e incolla” si può “rilanciare” in un attimo tutto il codice sull’area di lavoro (anche migliaia di elaborazioni) Corso di Analisi di Mercato - Anno 2011 14 Il simbolo # consente di inserire commenti dopo la digitazione di un comando. Poiché esiste la possibilità di salvare la cronologia (tutto ciò che si è digitato), un commento dopo i comandi più significativi permette di creare un promemoria sul significato di quel comando. Esempio: > 3 * 3 # moltiplicazione [1] 9 example(mean) Corso di Analisi di Mercato - Anno 2011 Permette di richiamare il codice già digitato con le frecce Il simbolo # funzione (es: mean) • • 15 Corso di Analisi di Mercato - Anno 2011 16 I grafici: variabili quantitative I grafici: variabili quantitative “Hist” è il comando per creare un istogramma con le variabili quantitative: > hist(dati$etainterv,freq=T) “Boxplot” è il comando per creare una scatola a baffi con le variabili quantitative: > boxplot(dati$etainterv) Corso di Analisi di Mercato - Anno 2011 17 I grafici: variabili qualitative 18 I grafici: variabili qualitative “Barplot” è il comando per creare un diagramma a barre con le variabili qualitative: > barplot(table(dati$luogodomicilio)) Corso di Analisi di Mercato - Anno 2011 Corso di Analisi di Mercato - Anno 2011 19 “Pie” è il comando per creare grafico a torta con le variabili qualitative: > pie(table(dati$luogodomicilio)) Corso di Analisi di Mercato - Anno 2011 20 I grafici bivariati: 2 variabili qualitative I grafici bivariati: 2 variabili qualitative Utilizzo la virgola per separare le due variabili qualitative > plot(table(dati$luogodomicilio,dati$genereinterv)) Utilizzo la virgola per separare le due variabili qualitative > plot(table(dati$luogodomicilio,dati$mezzipubb),col=rainbow(5)) lontano vicino x vicino si m piedi no f lontano Corso di Analisi di Mercato - Anno 2011 21 I grafici bivariati: 2 variabili quantitative Corso di Analisi di Mercato - Anno 2011 22 I grafici bivariati: 1 variabile qualitativa e 1 quantitativa > boxplot(split(dati$nspesemese,dati$genereinterv)) 20 Utilizzo un grafico a dispersione > plot(dati$etainterv,dati$nspesemese) 5 10 15 > cor(dati$etainterv,dati$nspesemese) [1] 0.3671785 f Corso di Analisi di Mercato - Anno 2011 23 Corso di Analisi di Mercato - Anno 2011 m 24