15/04/10 Riepilogo Il data mining Claudio Locci - Vincenzo Rundeddu Corso di Analisi di Mercato - Anno 2010 • Che cos’è una base dati? • Tipologie di dati: Variabili qualitative (discontinue Variabili quantitative (discrete ovvero continue) 1 Corso di Analisi di Mercato - Anno 2010 Riepilogo Francesca 170 Marco 185 … … 2 Riepilogo L’unità statistica “Marco” presenta i valori 185 e M per le variabili “Altezza” e “sesso” Altezza in cm nominali ovvero ordinali) • R: uno strumento open source ottimale per il data mining Potente, gratuito, flessibile, leggero e multipiattaforma Consente di creare nuove funzionalità in base alle esigenze dell’analista (software/linguaggio di programmazione) Sesso F M … www.r--project.org www.r Nell’esempio: “Sesso” variabile qualitativa ”Altezza” variabile quantitativa Corso di Analisi di Mercato - Anno 2010 3 Corso di Analisi di Mercato - Anno 2010 4 1 15/04/10 Riepilogo Riepilogo E’ importante saper riconoscere la natura dei dati per interpretarli al meglio e per scegliere lo strumento ottimale di rappresentazione (grafici e tabelle) • Le rappresentazioni grafiche Tipologia variabile Grafico a torta e/o a barre Grafico a Boxplot bastoncini Qualitativa* SI SI NO Quantitative discrete NO SI SI Quantitative continue NO NO SI Nome/ide altezza in altezza ntificativo cm * Se il fenomeno qualitativo è ordinale, è importante rappresentare anche l’ordinalità anche graficamente Corso di Analisi di Mercato - Anno 2010 5 peso anni sesso stato civile viaggi 2008 marco 190 alto >=160 81 25 m coniug 1 claudia 150 basso <160 50 30 f non coniug 1 roberto 160 alto >=160 60 24 m non coniug 5 elena 155 basso <160 81 28 f non coniug 2 giulia 165 alto >=160 70 30 f coniug 1 Corso di Analisi di Mercato - Anno 2010 Il data mining 6 Introduzione •L’analisi univariata • Il data mining permette di studiare un fenomeno elaborando corpose basi dati con metodologie complesse che consentono di riassumere le caratteristiche fondamentali delle unità statistiche, tenendo conto della multidimensionalità del fenomeno • Utilizzare tecniche che permettono di muoversi in uno spazio a più variabili permette di ottenere maggiori informazioni rispetto alle considerazioni che scaturiscono dalla mera analisi uni e bidimensionale •L’analisi bivariata •L’analisi multivariata •Come redigere un report Corso di Analisi di Mercato - Anno 2010 classi altezza 7 Corso di Analisi di Mercato - Anno 2010 8 2 15/04/10 Approccio ai dati • Nel seguito illustreremo una procedura logica da seguire per un approccio più sistematico all’analisi di un dataframe • Vedremo poi cosa dovrebbe contenere il documento che scaturisci da una sessione di data mining (report). • Prima di iniziare • Studiare attentamente la natura dei dati a disposizione • Attenzione all’importazione (In R è complesso) • Eventuale “pulizia” dei dati • Come trattare i valori anomali e/o i dai mancanti?! Importante: l’approccio ai dati è molto soggettivo Corso di Analisi di Mercato - Anno 2010 Corso di Analisi di Mercato - Anno 2010 9 Studio del fenomeno Studio del fenomeno 1) Analisi univariata: • analisi delle variabili prese singolarmente • studio delle statistiche descrittive Es. di informazioni che scaturiscono dall’analisi univariata: chiarirsi ogni curiosità/dubbio che si presenti sintetizzare con efficacia e efficienza le conclusioni dell’analisi univariata, evitando di dilungarsi e di fornire • Quanti maschi? Quante femmine? • Che età hanno gli intervistati? • Che caratteristiche ha ogni individuo? • Ci sono valori che non mi aspetto? (ad es. in un’indagine al supermercato l’80% degli intervistati è di sesso informazioni ridondanti Corso di Analisi di Mercato - Anno 2010 10 maschile) 11 Corso di Analisi di Mercato - Anno 2010 12 3 15/04/10 Studio del fenomeno Studio del fenomeno 2) Analisi bivariata: • analisi di coppie di variabili • verificare eventuali relazioni significative • seguire il filo logico dell’analisi univariata Analisi uni e bivariata: problema di sintesi • da tali analisi in genere si ottiene una mole elevata di informazioni (grafici, tabelle) • bisogna scegliere alcuni aspetti più rilevanti di altri da descrivere: non si può inserire tutto nel documento (report) E’ fondamentale la capacità di sintetizzare le caratteristiche significative del fenomeno Corso di Analisi di Mercato - Anno 2010 13 • Corso di Analisi di Mercato - Anno 2010 14 Studio del fenomeno 3) Analisi multivariata: • BISOGNA SCEGLIERE …e naturalmente bisogna saper motivare la scelta. Ogni analisi è soggettiva. Studio del fenomeno • • 3) Analisi multivariata: Consente di studiare molte (anche tutte) le variabili Ad es. per l’acquisto di un auto contemporaneamente. Se ho le variabili prezzo auto, consumi, confort e prestazioni: Ciò consente di studiare meglio eventuali interazioni che non tutte queste variabili potrebbero essere sintetizzate da un’unica si percepirebbero analizzando le singole variabili o coppie di variabile/indicatore che potrebbe essere il segmento dell’auto. Ad variabili. es. tutte le auto del segmento B avranno tendenzialmente Si sintetizzano in maniera efficace ed efficiente i fenomeni consumi, prezzi, confort e prestazioni inferiori rispetto a quelle oggetto di studio rientranti nel segmento D. Corso di Analisi di Mercato - Anno 2010 15 Corso di Analisi di Mercato - Anno 2010 16 4 15/04/10 Struttura elaborato/relazione Struttura report Segue la logica dell’analisi Analisi statistica univariata e bivariata: Introduzione Introduzione: - presentare il dataframe (come dove e quando sono stati raccolti i dati; tipologia di variabili e unità statistiche); - obbiettivi dell’analisi; descrivere le PRINCIPALI risultanze, cercando sempre di essere sintetici, ma fornendo informazioni necessarie al lettore a farsi una prima idea del fenomeno Corso di Analisi di Mercato - Anno 2010 17 Struttura elaborato/relazione 18 Struttura elaborato/relazione Analisi statistica multivariata: Conclusioni: -riassumere brevemente le conclusioni PIU’ SIGNIFICATIVE; -in genere si fa riferimento alla multivariata (ma non necessariamente), con brevi richiami a uni e bivariata -E’ il fulcro dell’elaborato: spesso il committente si limita a leggere solo l’introduzione e le conclusioni è la parte principale dell’analisi e dell’elaborato; non sottovalutarlo assolutamente; introdurre brevemente le tecniche utilizzate e le risultanze Corso di Analisi di Mercato - Anno 2010 Corso di Analisi di Mercato - Anno 2010 19 Corso di Analisi di Mercato - Anno 2010 20 5 15/04/10 Struttura elaborato/relazione Struttura elaborato/relazione IMPORTANTE • IMPORTANTE Non appesantire il documento con informazioni inutili per • chi legge • casi possono avere maggiore efficacia Il destinatario del nostro lavoro potrebbe avere poco tempo • per leggere l’elaborato: le informazioni rilevanti devono • Non limitarsi assolutamente ai soli grafici: i numeri in taluni Dall’introduzione devono risultare chiari gli obbiettivi dell’analisi essere ben evidenziate • Le conclusioni devono essere brevi, ma curate Non dare nulla per scontato: il destinatario della nostra • Il linguaggio è fondamentale e deve essere consono ad una analisi potrebbe non conoscere il fenomeno analizzato. Corso di Analisi di Mercato - Anno 2010 pubblicazione (paper, tesi o simili) 21 Corso di Analisi di Mercato - Anno 2010 22 Il data mining Claudio Locci - Vincenzo Rundeddu Corso di Analisi di Mercato - Anno 2010 23 6