ANALISI DEI DATI PER IL MARKETING 2016 Marco Riani [email protected] http://www.riani.it TRATTAMENTI PRELIMINARI DEI DATI •“Pulizia dei dati” (data cleaning) = processo capace di garantire, con una certa soglia di affidabilità, la correttezza d’un insieme di dati (dataset, database, data warehouse). 1 QUALITA’ DEI DATI • definita con riguardo alle seguenti caratteristiche: • rilevanza, cioè la capacità di soddisfare le reali esigenze conoscitive degli utilizzatori; • accuratezza, cioè la corrispondenza tra le stime ottenute ed i valori veri (ma ignoti) nella popolazione di riferimento; • tempestività, cioè la capacità di fornire i risultati in tempi ravvicinati rispetto all’esecuzione dell’indagine; • accessibilità, cioè la possibilità per l’utente di reperire facilmente e comprendere l’informazione richiesta; • confrontabilità, che fa riferimento alla validità dei raffronti dei dati nel tempo o nello spazio. PROBLEMI NEL DATA CLEANING • Le unità statistiche non rilevate (casi mancanti); • i valori mancanti di singole variabili; • la tipologia degli errori; • i valori anomali e le osservazioni influenti. 2 CASI MANCANTI • Se le unità statistiche campionarie effettivamente rilevate sono in numero di m, invece delle n originariamente previste (m<n), si può procedere in due modi: • i) si considera la matrice dei dati formata dalle m unità disponibili; • ii) si rilevano (n-m) unità ulteriori, sostituendo ciascuna unità mancante con un’altra. • DISTORSIONI, AUTOSELEZIONE MISSING VALUES • Matrice dei dati formata da n righe, ma con vuoti (blank) in alcune caselle. • i) Carattere non pertinente per la singola unità • ii) Risposta “non so” in una domanda riguardante un’opinione • iii) Rifiuto di singole risposte • iv) Mancata rilevazione dovuta a cause esterne 3 PROCESSO GENERATORE DEI MISSING VALUES • X con tutti i dati, Y con dati mancanti • i) Missing Completely at Random (MCAR) • La probabilità di riscontrare un valore mancante è indipendente dai valori di X e di Y, per cui i dati omessi sono completamente casuali. • ii) Missing at Random (MAR) • I valori mancanti dipendono da X ma non da Y; se s’individuano opportune classi o categorie di X la probabilità d’un dato mancante di Y non è uguale per tutte le classi (o categorie), ma nell’ambito di ciascuna di esse i valori mancanti sono casuali. • iii) Missing not at Random • La probabilità di riscontrare un dato mancante dipende dai valori che assume Y ed eventualmente anche da quelli di X. STRATEGIE POSSIBILI • Analisi solo dei casi completi (esclusione listwise), • Analisi dei casi disponibili per ciascun fenomeno (criterio columnwise) o per ciascuna coppia di variabili (criterio pairwise) • Altri criteri: ponderazione, imputazione 4 File di esempio • TAGLIAT40.SAV • Effettuare un’analisi dei dati mancanti e dei valori estremi univariati (ossia esterni all’intervallo [Q1-1.5*IQR Q3+1.5*IQR]) • Calcolare medie e deviazioni standard escludendo i dati mancanti Traccia di soluzione in SPSS 5 Traccia di soluzione in SPSS Traccia di soluzione in SPSS 6 Traccia di soluzione in SPSS • Es. l’unità 15 è mancante per la variabile «rotte» ed è un valore estremo univariato superiore per la variabile «umidit» (simbolo +) n=40 X= simbolo di variabile esclusa • Es. se si esclude la variabile ceneri il numero di casi completi è 30. Se si considerano tutte e tre le variabili le unità con tutti i valori sono 23 (esclusione listwise) 7 Per ottenere le statistiche descrittive con criterio listwise e a coppie selezionare le relative caselle di controllo (v. schermata di seguito) Output 8 File di esempio • NAVIG(GPS).SAV • Effettuare un’analisi dei dati mancanti e dei valori estremi univariati (ossia esterni all’intervallo [Q1-1.5*IQR Q3+1.5*IQR]) • Calcolare medie e deviazioni standard con tutti i dati e solo i dati mancanti (esclusione listwise e pairwise) PROCEDURA IN SPSS 100 navigatori (GPS) 9 Numerosità escludendo una o più variabili CRITERIO LISTWISE 10 Esercizio file • File TAGLIAT40MIS.xlsx Suggerimenti per la scelta della STRATEGIA • Poche unità con dati mancanti (<5%): LISTWISE • Variabile con molti dati mancanti: SI ELIMINA • Unità con molti valori mancanti: SI ELIMINA 11 COMPITO VECCHIO • Si è effettuata un’indagine campionaria su quattrocento individui, mediante un questionario che prevedeva 10 domande con risposte quantitative. Per sei di queste variabili si sono ottenute risposte complete, mentre le restanti quattro presentano rispettivamente 3, 5, 12 e 316 dati mancanti. Volendo effettuare analisi bivariate e analisi multivariate di questo data set: • quali strategie può ragionevolmente adottare il ricercatore per il trattamento dei missing values? • Quali conseguenze comporta ciascuna delle scelte effettuate? RISOLUZIONE • Si deve osservare in primo luogo che la decima domanda presenta ben 316 dati mancanti su un totale di 400 individui partecipanti all’indagine. Ai fini delle analisi multivariate, la decisione più ragionevole è dunque quella di eliminarla, effettuando le elaborazioni sul data set costituito dalla restanti 9 variabili (vedi il testo: ZANI – CERIOLI, 2007, p. 77, n. 2). • La matrice dei dati di dimensioni 400×9 può ora essere trattata con il criterio pairwise o con il criterio listwise. Quest’ultimo è preferibile poiché i dati mancanti nelle variabili considerate sono pochi 12 TIPI DI ERRORI • Errori campionari • Errori non campionari • Errore totale • La stima delle componenti dell’errore totale attribuibili ad ogni singola fonte di errore è denominata profilo dell’errore e rende possibile l’attività di convalida (validation) dell’informazione ottenuta. ERRORI DI MISURA (parte dell’errore non campionario) • Costituiti dalla differenza tra il valore vero (ma ignoto!) del fenomeno in un certa unità statistica ed il valore rilevato dall’indagine: • valori inammissibili o dati fuori dominio; • valori anomali (outliers); • errori non facilmente individuabili, in quanto non corrispondono a valori inammissibili o anomali. 13 VALORI ANOMALI • Definizione. Un valore anomalo è un’osservazione che, essendo atipica o erronea, si scosta decisamente dal comportamento degli altri dati, con riferimento al tipo di analisi considerata. RICHIAMI SUL BOXPLOT 14 Boxplot di 16 punti Boxplot di 16 punti Il punto di troncamento superiore è in corrispondenza del valore più grande ≤ x75%+1.5DI Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo ≥ x25%-1.5DI 15 Boxplot dei 20 valori della tabella 4.2 libro STAT (p. 159) Tasso di disoccupazione 16 Tasso di attività Boxplots in Excel 2016 • Excel 2016 ha introdotto i grafici a scatola. 17 Boxplots in Excel • Aprire il file HT_box.xls. Utilizzando il componente aggiuntivo boxplot.xla costuire il boxplot per le variabili prezzo e potenza. Aggiungere le etichette alle unità che risultano anomale Boxplots in SPSS • Una variabile: boxplot • Esempio: home theatre, prezzo e potenza 18 Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la distribuzione della retribuzione al variare del titolo di studio (identificare i valori anomali) Separare la precedente analisi per maschi e femmine 19 Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la distribuzione della retribuzione al variare del titolo di studio, inserendo come variabile di gruppo lo stato civile 20 Soluzione Boxplot in SPSS: riepilogo opzioni • • • • Vai al caso Etichetta ID punti Modalità etichette valori Variabile riquadro righe/colonne • Variabile di gruppo su X 21 INDIVIDUAZIONE DEGLI OUTLIERS BIVARIATI • Diagramma di dispersione OUTLIERS BIVARIATI 22 TIPI DI OUTLIERS (p. 81) TRATTAMENTO DEGLI OUTLIERS • Se esso è dovuto ad un errore di rilevazione non correggibile: eliminazione (trattandolo come un dato mancante). • Se è attribuibile ad una distribuzione differente: esclusione listwise della corrispondente unità statistica. • Se è dovuto alla variabilità intrinseca del fenomeno: conservarlo (eventualmente trasformazione della corrispondente variabile, ad esempio logaritmica). 23 OUTLIERS PER VARIABILI ORDINALI E NOMINALI OSSERVAZIONI INFLUENTI • Il vettore dei dati di un’unità statistica è una osservazione influente se incide in misura molto rilevante sul valore numerico d’un certo indice statistico oppure sui parametri o sull’adattamento d’uno specifico modello. • Omission approach: calcolo delle variazioni dell’indice o dei parametri del modello eliminando una singola unità fra le n considerate. 24 rxy = 0.6, senza outlier rxy = 0 (p. 85) rxy = 0.6, senza outlier rxy = 0.98 (p. 85) 25 Teorema (di Sastry and Nag, 1990). • Considerando n coppie di dati (xi, yi), i = 1, 2, …, n, di due variabili X e Y, delle quali (n -1) assumono valori prefissati, risulta: • lim r2xy = 1 per x2n → +∞ e y2n → +∞ • Una sola osservazione molto più grande delle altre fa tendere ad 1 il coefficiente di correlazione! ESERCIZIO • Si disegni un diagramma di dispersione riferito a 12 unità ed a due variabili X e Y con forte correlazione lineare inversa. • Si inserisca in tale grafico un’ulteriore unità, che risulta anomala per la variabile X, ma non per la variabile Y. • Si dica quale effetto produce sul coefficiente di correlazione l’inserimento della suddetta tredicesima unità 26 Esercizio • Generare 50 osservazioni y in base al modello di regressione • Generare i dati x in base alla distribuzione uniforme [0 1] e i disturbi epsilon in base alla distribuzione normale N(0, σ). Stimare i parametri a e b del modello di regressione. Esercizio (continua) • Verificare empiricamente il teorema di Sastry and Nag, 1990, ossia aggiungere un’osservazione molto distante dalla nuvola dei punti e vedere come cambia r2xy 27