15/04/10
Riepilogo
Il data mining
Claudio Locci - Vincenzo Rundeddu
Corso di Analisi di Mercato - Anno 2010
•
Che cos’è una base dati?
•
Tipologie di dati:

Variabili qualitative (discontinue

Variabili quantitative (discrete ovvero continue)
1
Corso di Analisi di Mercato - Anno 2010
Riepilogo
Francesca
170
Marco
185
…
…
2
Riepilogo
L’unità statistica “Marco” presenta i valori 185
e M per le variabili “Altezza” e “sesso”
Altezza in cm
nominali ovvero ordinali)
•
R: uno strumento open source ottimale per il data
mining

Potente, gratuito, flessibile, leggero e multipiattaforma

Consente di creare nuove funzionalità in base alle
esigenze dell’analista (software/linguaggio di programmazione)
Sesso
F
M
…
www.r--project.org
www.r
Nell’esempio:
“Sesso” variabile qualitativa
”Altezza” variabile quantitativa
Corso di Analisi di Mercato - Anno 2010
3
Corso di Analisi di Mercato - Anno 2010
4
1
15/04/10
Riepilogo
Riepilogo
E’ importante saper riconoscere la natura dei dati per interpretarli al
meglio e per scegliere lo strumento ottimale di rappresentazione
(grafici e tabelle)
•
Le rappresentazioni grafiche
Tipologia variabile
Grafico a torta
e/o a barre
Grafico a Boxplot
bastoncini
Qualitativa*
SI
SI
NO
Quantitative discrete
NO
SI
SI
Quantitative continue
NO
NO
SI
Nome/ide altezza in
altezza
ntificativo
cm
* Se il fenomeno qualitativo è ordinale, è importante rappresentare anche
l’ordinalità anche graficamente
Corso di Analisi di Mercato - Anno 2010
5
peso
anni sesso
stato
civile
viaggi
2008
marco
190
alto
>=160
81
25
m
coniug
1
claudia
150
basso
<160
50
30
f
non
coniug
1
roberto
160
alto
>=160
60
24
m
non
coniug
5
elena
155
basso
<160
81
28
f
non
coniug
2
giulia
165
alto
>=160
70
30
f
coniug
1
Corso di Analisi di Mercato - Anno 2010
Il data mining
6
Introduzione
•L’analisi univariata
•
Il data mining permette di studiare un fenomeno
elaborando corpose basi dati con metodologie
complesse che consentono di riassumere le
caratteristiche fondamentali delle unità statistiche,
tenendo conto della multidimensionalità del fenomeno
•
Utilizzare tecniche che permettono di muoversi in uno
spazio a più variabili permette di ottenere maggiori
informazioni rispetto alle considerazioni che
scaturiscono dalla mera analisi uni e bidimensionale
•L’analisi bivariata
•L’analisi multivariata
•Come redigere un report
Corso di Analisi di Mercato - Anno 2010
classi
altezza
7
Corso di Analisi di Mercato - Anno 2010
8
2
15/04/10
Approccio ai dati
•
Nel seguito illustreremo una procedura logica
da seguire per un approccio più sistematico
all’analisi di un dataframe
•
Vedremo poi cosa dovrebbe contenere il
documento che scaturisci da una sessione di
data mining (report).
•
Prima di iniziare
•
Studiare attentamente la natura dei dati a
disposizione
•
Attenzione all’importazione (In R è complesso)
•
Eventuale “pulizia” dei dati
•
Come trattare i valori anomali e/o i dai
mancanti?!
Importante: l’approccio ai dati è molto
soggettivo
Corso di Analisi di Mercato - Anno 2010
Corso di Analisi di Mercato - Anno 2010
9
Studio del fenomeno
Studio del fenomeno
1) Analisi univariata:
•
analisi delle variabili prese singolarmente
•
studio delle statistiche descrittive
Es. di informazioni che scaturiscono dall’analisi
univariata:
chiarirsi ogni curiosità/dubbio che si presenti
 sintetizzare con efficacia e efficienza le conclusioni
dell’analisi univariata, evitando di dilungarsi e di fornire
•
Quanti maschi? Quante femmine?
•
Che età hanno gli intervistati?
•
Che caratteristiche ha ogni individuo?
•
Ci sono valori che non mi aspetto? (ad es. in un’indagine
al supermercato l’80% degli intervistati è di sesso
informazioni ridondanti
Corso di Analisi di Mercato - Anno 2010
10
maschile)
11
Corso di Analisi di Mercato - Anno 2010
12
3
15/04/10
Studio del fenomeno
Studio del fenomeno
2) Analisi bivariata:
•
analisi di coppie di variabili
•
verificare eventuali relazioni significative
•
seguire il filo logico dell’analisi univariata
Analisi uni e bivariata: problema di sintesi
•
da tali analisi in genere si ottiene una mole elevata di
informazioni (grafici, tabelle)
•
bisogna scegliere alcuni aspetti più rilevanti di altri da
descrivere: non si può inserire tutto nel documento (report)
E’ fondamentale la capacità di sintetizzare le caratteristiche
significative del fenomeno
Corso di Analisi di Mercato - Anno 2010
13
•
Corso di Analisi di Mercato - Anno 2010
14
Studio del fenomeno
3) Analisi multivariata:
•
BISOGNA SCEGLIERE …e naturalmente bisogna saper
motivare la scelta. Ogni analisi è soggettiva.
Studio del fenomeno
•
•
3) Analisi multivariata:
Consente di studiare molte (anche tutte) le variabili
Ad es. per l’acquisto di un auto
contemporaneamente.
Se ho le variabili prezzo auto, consumi, confort e prestazioni:
Ciò consente di studiare meglio eventuali interazioni che non
tutte queste variabili potrebbero essere sintetizzate da un’unica
si percepirebbero analizzando le singole variabili o coppie di
variabile/indicatore che potrebbe essere il segmento dell’auto. Ad
variabili.
es. tutte le auto del segmento B avranno tendenzialmente
Si sintetizzano in maniera efficace ed efficiente i fenomeni
consumi, prezzi, confort e prestazioni inferiori rispetto a quelle
oggetto di studio
rientranti nel segmento D.
Corso di Analisi di Mercato - Anno 2010
15
Corso di Analisi di Mercato - Anno 2010
16
4
15/04/10
Struttura elaborato/relazione
Struttura report
Segue la logica dell’analisi
Analisi statistica univariata e bivariata:
Introduzione
Introduzione:
- presentare il dataframe (come dove e quando
sono stati raccolti i dati; tipologia di variabili e
unità statistiche);
- obbiettivi dell’analisi;
descrivere le PRINCIPALI risultanze, cercando
sempre di essere sintetici, ma fornendo
informazioni necessarie al lettore a farsi una
prima idea del fenomeno
Corso di Analisi di Mercato - Anno 2010
17
Struttura elaborato/relazione
18
Struttura elaborato/relazione
Analisi statistica multivariata:
Conclusioni:
-riassumere brevemente le conclusioni
PIU’
SIGNIFICATIVE;
-in genere si fa riferimento alla multivariata (ma
non necessariamente), con brevi richiami a uni e
bivariata
-E’ il fulcro dell’elaborato: spesso il committente si
limita a leggere solo l’introduzione e le conclusioni
è la parte principale dell’analisi e dell’elaborato;
non sottovalutarlo assolutamente; introdurre
brevemente le tecniche utilizzate e le risultanze
Corso di Analisi di Mercato - Anno 2010
Corso di Analisi di Mercato - Anno 2010
19
Corso di Analisi di Mercato - Anno 2010
20
5
15/04/10
Struttura elaborato/relazione
Struttura elaborato/relazione
IMPORTANTE
•
IMPORTANTE
Non appesantire il documento con informazioni inutili per
•
chi legge
•
casi possono avere maggiore efficacia
Il destinatario del nostro lavoro potrebbe avere poco tempo
•
per leggere l’elaborato: le informazioni rilevanti devono
•
Non limitarsi assolutamente ai soli grafici: i numeri in taluni
Dall’introduzione devono risultare chiari gli obbiettivi
dell’analisi
essere ben evidenziate
•
Le conclusioni devono essere brevi, ma curate
Non dare nulla per scontato: il destinatario della nostra
•
Il linguaggio è fondamentale e deve essere consono ad una
analisi potrebbe non conoscere il fenomeno analizzato.
Corso di Analisi di Mercato - Anno 2010
pubblicazione (paper, tesi o simili)
21
Corso di Analisi di Mercato - Anno 2010
22
Il data mining
Claudio Locci - Vincenzo Rundeddu
Corso di Analisi di Mercato - Anno 2010
23
6