analisi dei dati per il marketing 2016 trattamenti

ANALISI DEI DATI
PER IL MARKETING
2016
Marco Riani
[email protected]
http://www.riani.it
TRATTAMENTI
PRELIMINARI
DEI DATI
•“Pulizia
dei dati” (data cleaning) =
processo capace di garantire, con una
certa soglia di affidabilità, la correttezza
d’un insieme di dati (dataset, database,
data warehouse).
1
QUALITA’ DEI DATI
• definita con riguardo alle seguenti caratteristiche:
• rilevanza, cioè la capacità di soddisfare le reali esigenze
conoscitive degli utilizzatori;
• accuratezza, cioè la corrispondenza tra le stime ottenute ed i
valori veri (ma ignoti) nella popolazione di riferimento;
• tempestività, cioè la capacità di fornire i risultati in tempi
ravvicinati rispetto all’esecuzione dell’indagine;
• accessibilità, cioè la possibilità per l’utente di reperire
facilmente e comprendere l’informazione richiesta;
• confrontabilità, che fa riferimento alla validità dei raffronti
dei dati nel tempo o nello spazio.
PROBLEMI NEL DATA CLEANING
• Le unità statistiche non rilevate (casi
mancanti);
• i valori mancanti di singole variabili;
• la tipologia degli errori;
• i valori anomali e le osservazioni influenti.
2
CASI MANCANTI
• Se
le
unità
statistiche
campionarie
effettivamente rilevate sono in numero di m,
invece delle n originariamente previste (m<n), si
può procedere in due modi:
• i) si considera la matrice dei dati formata dalle m
unità disponibili;
• ii) si rilevano (n-m) unità ulteriori, sostituendo
ciascuna unità mancante con un’altra.
• DISTORSIONI, AUTOSELEZIONE
MISSING VALUES
• Matrice dei dati formata da n righe, ma
con vuoti (blank) in alcune caselle.
• i) Carattere non pertinente per la singola
unità
• ii) Risposta “non so” in una domanda
riguardante un’opinione
• iii) Rifiuto di singole risposte
• iv) Mancata rilevazione dovuta a cause
esterne
3
PROCESSO GENERATORE DEI
MISSING VALUES
• X con tutti i dati, Y con dati mancanti
• i) Missing Completely at Random (MCAR)
• La probabilità di riscontrare un valore mancante è
indipendente dai valori di X e di Y, per cui i dati omessi sono
completamente casuali.
• ii) Missing at Random (MAR)
• I valori mancanti dipendono da X ma non da Y; se
s’individuano opportune classi o categorie di X la probabilità
d’un dato mancante di Y non è uguale per tutte le classi (o
categorie), ma nell’ambito di ciascuna di esse i valori
mancanti sono casuali.
• iii) Missing not at Random
• La probabilità di riscontrare un dato mancante dipende dai
valori che assume Y ed eventualmente anche da quelli di X.
STRATEGIE POSSIBILI
• Analisi solo dei casi completi
(esclusione listwise),
• Analisi dei casi disponibili per
ciascun
fenomeno
(criterio
columnwise) o per ciascuna coppia
di variabili (criterio pairwise)
• Altri
criteri:
ponderazione,
imputazione
4
File di esempio
• TAGLIAT40.SAV
• Effettuare un’analisi dei dati mancanti e
dei valori estremi univariati (ossia esterni
all’intervallo [Q1-1.5*IQR Q3+1.5*IQR])
• Calcolare medie e deviazioni standard
escludendo i dati mancanti
Traccia di soluzione in SPSS
5
Traccia di soluzione in SPSS
Traccia di soluzione in SPSS
6
Traccia di soluzione in SPSS
• Es. l’unità 15 è
mancante per la
variabile «rotte»
ed è un valore
estremo
univariato
superiore per la
variabile
«umidit»
(simbolo +)
n=40
X= simbolo
di variabile
esclusa
• Es. se si esclude la variabile ceneri il numero di casi
completi è 30. Se si considerano tutte e tre le variabili le
unità con tutti i valori sono 23 (esclusione listwise)
7
Per ottenere le statistiche descrittive con
criterio listwise e a coppie selezionare le
relative caselle di controllo (v. schermata
di seguito)
Output
8
File di esempio
• NAVIG(GPS).SAV
• Effettuare un’analisi dei dati mancanti e
dei valori estremi univariati (ossia esterni
all’intervallo [Q1-1.5*IQR Q3+1.5*IQR])
• Calcolare medie e deviazioni standard con
tutti i dati e solo i dati mancanti
(esclusione listwise e pairwise)
PROCEDURA IN SPSS
100 navigatori (GPS)
9
Numerosità escludendo una o più
variabili
CRITERIO LISTWISE
10
Esercizio file
• File TAGLIAT40MIS.xlsx
Suggerimenti per la scelta della
STRATEGIA
• Poche unità con dati mancanti (<5%):
LISTWISE
• Variabile con molti dati mancanti: SI
ELIMINA
• Unità con molti valori mancanti: SI
ELIMINA
11
COMPITO VECCHIO
• Si è effettuata un’indagine campionaria su
quattrocento individui, mediante un questionario
che prevedeva 10 domande con risposte
quantitative. Per sei di queste variabili si sono
ottenute risposte complete, mentre le restanti
quattro presentano rispettivamente 3, 5, 12 e 316
dati mancanti. Volendo effettuare analisi bivariate
e analisi multivariate di questo data set:
• quali strategie può ragionevolmente adottare il
ricercatore per il trattamento dei missing values?
• Quali conseguenze comporta ciascuna delle
scelte effettuate?
RISOLUZIONE
• Si deve osservare in primo luogo che la decima
domanda presenta ben 316 dati mancanti su un
totale di 400 individui partecipanti all’indagine. Ai fini
delle analisi multivariate, la decisione più ragionevole
è dunque quella di eliminarla, effettuando le
elaborazioni sul data set costituito dalla restanti 9
variabili (vedi il testo: ZANI – CERIOLI, 2007, p. 77, n.
2).
• La matrice dei dati di dimensioni 400×9 può ora
essere trattata con il criterio pairwise o con il criterio
listwise. Quest’ultimo è preferibile poiché i dati
mancanti nelle variabili considerate sono pochi
12
TIPI DI ERRORI
• Errori campionari
• Errori non campionari
• Errore totale
• La stima delle componenti dell’errore
totale attribuibili ad ogni singola fonte di
errore è denominata profilo dell’errore e
rende possibile l’attività di convalida
(validation) dell’informazione ottenuta.
ERRORI DI MISURA
(parte dell’errore non campionario)
• Costituiti dalla differenza tra il valore vero
(ma ignoto!) del fenomeno in un certa
unità statistica ed il valore rilevato
dall’indagine:
• valori inammissibili o dati fuori dominio;
• valori anomali (outliers);
• errori non facilmente individuabili, in
quanto non corrispondono a valori
inammissibili o anomali.
13
VALORI ANOMALI
• Definizione. Un valore anomalo è
un’osservazione che, essendo atipica
o erronea, si scosta decisamente dal
comportamento degli altri dati, con
riferimento al tipo di analisi
considerata.
RICHIAMI SUL BOXPLOT
14
Boxplot di 16 punti
Boxplot di 16 punti
Il punto di troncamento superiore è in
corrispondenza del valore più grande
≤ x75%+1.5DI
Il punto di troncamento inferiore si
colloca in corrispondenza del valore
più piccolo ≥ x25%-1.5DI
15
Boxplot dei 20 valori della
tabella 4.2 libro STAT (p. 159)
Tasso di disoccupazione
16
Tasso di attività
Boxplots in Excel 2016
• Excel 2016 ha introdotto i grafici a scatola.
17
Boxplots in Excel
• Aprire il file HT_box.xls. Utilizzando il
componente aggiuntivo boxplot.xla
costuire il boxplot per le variabili prezzo e
potenza. Aggiungere le etichette alle unità
che risultano anomale
Boxplots in SPSS
• Una variabile: boxplot
• Esempio: home theatre, prezzo e potenza
18
Esercizio
• Nel file ex23.sav
analizzare tramite
boxplot come
varia la
distribuzione della
retribuzione al
variare del titolo
di studio
(identificare i
valori anomali)
Separare la precedente analisi per
maschi e femmine
19
Esercizio
• Nel file ex23.sav analizzare tramite
boxplot come varia la distribuzione
della retribuzione al variare del titolo di
studio, inserendo come variabile di
gruppo lo stato civile
20
Soluzione
Boxplot in SPSS: riepilogo
opzioni
•
•
•
•
Vai al caso
Etichetta ID punti
Modalità etichette valori
Variabile riquadro
righe/colonne
• Variabile di gruppo su X
21
INDIVIDUAZIONE DEGLI OUTLIERS
BIVARIATI
• Diagramma di dispersione
OUTLIERS BIVARIATI
22
TIPI DI OUTLIERS (p. 81)
TRATTAMENTO DEGLI OUTLIERS
• Se esso è dovuto ad un errore di rilevazione non
correggibile: eliminazione (trattandolo come un
dato mancante).
• Se è attribuibile ad una distribuzione differente:
esclusione listwise della corrispondente unità
statistica.
• Se è dovuto alla variabilità intrinseca del
fenomeno:
conservarlo
(eventualmente
trasformazione della corrispondente variabile, ad
esempio logaritmica).
23
OUTLIERS PER VARIABILI
ORDINALI E NOMINALI
OSSERVAZIONI INFLUENTI
• Il vettore dei dati di un’unità statistica è una
osservazione influente se incide in misura molto
rilevante sul valore numerico d’un certo indice
statistico oppure sui parametri o
sull’adattamento d’uno specifico modello.
• Omission approach: calcolo delle variazioni
dell’indice o dei parametri del modello
eliminando una singola unità fra le n
considerate.
24
rxy = 0.6, senza outlier rxy = 0 (p. 85)
rxy = 0.6, senza outlier rxy = 0.98 (p. 85)
25
Teorema (di Sastry and Nag, 1990).
• Considerando n coppie di dati (xi, yi), i = 1, 2, …,
n, di due variabili X e Y, delle quali (n -1)
assumono valori prefissati, risulta:
• lim r2xy = 1 per x2n → +∞ e y2n → +∞
• Una sola osservazione molto più grande
delle altre fa tendere ad 1 il coefficiente di
correlazione!
ESERCIZIO
• Si disegni un diagramma di dispersione
riferito a 12 unità ed a due variabili X e Y
con forte correlazione lineare inversa.
• Si inserisca in tale grafico un’ulteriore
unità, che risulta anomala per la variabile
X, ma non per la variabile Y.
• Si dica quale effetto produce sul
coefficiente di correlazione l’inserimento
della suddetta tredicesima unità
26
Esercizio
• Generare 50 osservazioni y in base al
modello di regressione
• Generare i dati x in base alla distribuzione
uniforme [0 1] e i disturbi epsilon in base
alla distribuzione normale N(0, σ). Stimare
i parametri a e b del modello di
regressione.
Esercizio (continua)
• Verificare empiricamente il teorema di
Sastry and Nag, 1990, ossia aggiungere
un’osservazione molto distante dalla
nuvola dei punti e vedere come cambia
r2xy
27