Statistica per le ricerche di mercato A.A. 2013/14 09. Matrice dei dati e analisi preliminari La classificazione dei caratteri statistici [Stevens, 1946] Esame del carattere statistico: si denota concetto di quantità? Sì No Carattere quantitativo Esame del carattere statistico: si individua zero assoluto? Carattere qualitativo Esame del carattere statistico: le modalità sono ordinabili? Sì No Sì No Scala di rapporti Scala di intervalli Scala ordinale Scala nominale 2 Esempio di dataset (1/2) ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Qualitativa ordinale dicotomica CORSO LAUREA SESSO MEDIA VOTI CREDITI RENDIMENTO SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SAM SPO SPO SPO SPO SPO ORU ORU ORU M F M F F M F M F F M M F M F F M M F F 22.1 24.4 21.8 26.4 27.9 26.0 25.1 24.1 27.8 24.0 26.0 30.0 29.2 27.4 23.4 27.9 28.5 29.2 28.8 26.3 6 71 19 27 9 10 18 27 10 17 18 18 84 27 9 30 33 30 48 66 discreto buono discreto buono ottimo buono buono buono ottimo buono buono ottimo ottimo ottimo discreto ottimo ottimo ottimo ottimo buono Qualitativa nominale Quantitativa continua Quantitativa discreta (è una media!) (deriva da un conteggio!) 3 Esempio di dataset (2/2) 4 La matrice dei dati (1/5) E’ una “tabella” contenente le informazioni disponibili relativamente ad un insieme di unità statistiche. Ciascuna riga della matrice contiene le informazioni relative ad una determinata unità, mentre ciascuna colonna contiene le modalità assunte da un determinato carattere nelle diverse unità. In generale, supponendo di aver osservato i valori di p caratteri su un collettivo di n unità statistiche, la matrice di dati, denotata X avrà dimensione n x p. 5 La matrice dei dati X (2/5) x11 x12 ... x1h ... x1 j ... x1 p x21 ... xi1 x22 ... x2 h ... x2 j ... x2 p xi 2 ... xih ... xij ... xip ... xr 1 xr 2 ... xrh ... xrj ... xrp ... xn1 xn 2 ... xnh ... xnj ... xnp 6 La matrice dei dati (3/5) La matrice può essere vista come un insieme di n vettori riga (di dimensioni 1 x p) contenenti ciascuno il profilo di una unità statistica, ovvero i valori che in essa assumono le p variabili osservate. X x11 x12 ... x1h ... x1 j ... x1 p x21 ... xi1 x22 ... x2 h ... x2 j ... x2 p xi 2 ... xih ... xij ... xip xr 2 ... xrh ... xrj ... xrp xn 2 ... xnh ... xnj ... xnp ... xr 1 ... xn1 o, alternativamente, indicando con xi il generico vettore colonna contenente il profilo della i-esima unità. 7 La matrice dei dati xi (4/5) xi1 xi 2 ... xi p La matrice X può dunque essere considerata X x1 , x 2 ,...,xi ,...x n 8 La matrice dei dati (5/5) La matrice può essere composta da caratteri qualitativi (in scala nominale o in scala ordinale, che prevedono modalità non numeriche e non ordinabili) o da caratteri quantitativi (in scala ad intervalli o in scala di rapporti, che prevedono modalità numeriche). Spesso è composta da variabili miste, alcune qualitative e altre quantitative. Come le variabili, anche le unità statistiche possono essere di varia natura. Nelle analisi intra-aziendali per esempio, le unità osservate possono essere i singoli prodotti dell’azienda, oppure i diversi stabilimenti produttivi, i diversi reparti di uno stabilimento, i dipendenti o i clienti dell’azienda. Nelle analisi inter-aziendali, invece, le unità osservate possono essere costituite dalle diverse aziende concorrenti o da un campione di consumatori dei prodotti del settore. 9 La qualità dei dati e le mancate risposte parziali Una volta costruita la matrice dei dati, un problema da affrontare in via preliminare riguarda la qualità delle informazioni in essa contenute. I due principali problemi di qualità in una matrice dei dati sono costituiti dalla presenza di valori errati o di valori mancanti. 10 I valori errati 1/3 Nel caso di dati rilevati tramite indagine i valori errati possono derivare da: Errore di risposta dell’intervistato Errore dell’intervistatore nel porre il quesito Errore nel data-entry o negli strumenti automatici di acquisizione su supporto informatico dei questionari cartacei; 11 I valori errati 2/3 La presenza di valori errati può essere segnalata da: Valori fuori dominio: ossia valori non appartenenti a un insieme predefinito di valori ammissibili; Valori anomali (outlier): valori significativamente diversi da quelli osservati nella maggior parte delle unità; Incompatibilità di risposte all’interno dello stesso questionario: si ha quando i valori di una o più variabili rilevate contraddicono predefinite regole di natura logica e/o relazioni di tipo matematico. 12 I valori errati 3/3 L’individuazione di valori errati in genere si avvale di una serie di controlli classificabili come segue: Controlli di consistenza: verificano che prefissate combinazioni di valori assunti da variabili rilevate in una stessa unità soddisfino determinati requisiti (regole di incompatibilità); Controlli di validità o di range: verificano che i valori assunti da una data variabile siano interni all’intervallo di definizione della variabile stessa; Controlli per gli outlier: sono utilizzati per isolare le unità statistiche che presentano, per alcune delle variabili, valori che si discostano in modo significativo dai valori che le stesse assumono nel resto delle unità rilevate o rispetto a rilevazioni precedenti. 13 Le analisi sui profili di colonna 1/23 Le analisi bivariate sui profili di colonna sono volte allo studio dell’associazione esistente tra le diverse variabili considerate a coppie. Si ottiene una matrice di associazione di dimensioni p x p L’indice con cui misurare questa associazione dipende dal tipo delle variabili presenti nella matrice dei dati 14 Le analisi sui profili di colonna 2/23 In generale, l’obiettivo delle analisi bivariate è ottenere, a partire dalla matrice dei dati X (di dimensione n x p) una matrice delle associazioni A (di dimensione p x p) del tipo seguente: a11 a21 a12 a22 ... a1h ... a2 h ... a1 j ... a2 j ... a1 p ... a2 p ah 2 ... ahh ... ahj ... ahp a j1 a j 2 ... a jh ... a jj ... a p1 a p 2 ... a ph ... a pj ... a jp ... A ah1 ... ... a pp 15 Le analisi sui profili di colonna Nella matrice A, l’elemento ahj 3/23 è una misura dell’associazione esistente tra la h-esima e la j-esima variabile. La misura di tale associazione dipende dal tipo variabili considerate nel loro insieme che possono essere: • qualitative sconnesse; • qualitative ordinali; • quantitative; • miste. 16 Le analisi sui profili di colonna 4/23 Variabili qualitative sconnesse A partire da ciascuna coppia di variabili può essere costruita una tabella a doppia entrata e, da questa può essere ricavato l’indice Chi-quadrato S T 2 s 1 t 1 2 cst nst S e T sono rispettivamente il numero di modalità del primo e del secondo carattere; n’st sono le frequenze teoriche di indipendenza nella tabella doppia, cioè le frequenze che si sarebbero osservate, dati i valori marginali di riga e di colonna, nel caso di perfetta indipendenza tra i due caratteri; cst = nst – n’st sono le contingenze, cioè le differenze tra le frequenze osservate e quelle teoriche di indipendenza. 17 Le analisi sui profili di colonna 5/23 Variabili qualitative sconnesse L’indice Chi-quadrato vale zero quando tutte le contingenze sono pari a zero e assume valori via via crescenti quanto maggiore è l’associazione tra i due caratteri. Il valore dell’indice risulta comunque influenzato dalla numerosità del collettivo e dal numero di modalità dei due caratteri il che non consente il confronto tra due valori dell’indice. Una misura relativa di associazione (variabile tra zero e uno) è data dall’indice v di Cramer: 2 v 1/ 2 n min S 1 , (T 1) L’indice v vale zero quando i due caratteri sono indipendenti, mentre assume valore pari a uno quando tra i due caratteri vi è massima associazione. 16 Le analisi sui profili di colonna 6/23 Variabili qualitative ordinali Un indice utilizzabile per variabili (almeno) qualitative ordinali è l’indice di associazione tra graduatorie di Spearman (coefficiente di correlazione tra ranghi): n 6 rs 1 di i 1 2 n( n 2 1) di indica la differenza tra le posizioni in graduatoria, per i due caratteri in esame, relativa alla i-esima unità. 19 Le analisi sui profili di colonna 7/23 Variabili qualitative ordinali Il criterio sul quale si basa l’indice di Spearman, nella misurazione della relazione esistente tra due fenomeni (variabili) H e J, consiste nella sostituzione delle modalità di ciascun fenomeno con i rispettivi posti d’ordine o “gradi” (ranks) che esse occupano nella graduatoria ordinata delle osservazioni. Proprio perché si considerano solo i posti d’ordine, questo criterio è applicabile, oltre che per le variabili quantitative, anche per le variabile rilevate su scala ordinale. Si definisce quindi cograduazione (rank correlation) la metodologia statistica che studia le relazioni tra i posti d’ordine delle modalità di variabili quantitative oppure ordinali. 20 Le analisi sui profili di colonna 8/23 Variabili qualitative ordinali Si considerino due fenomeni (variabili) H e J, rilevati almeno su scala ordinale, per i quali si conoscono le modalità xih e xij in corrispondenza delle n unità statistiche; Si suppone che per ciascuna variabile le modalità siano tutte distinguibili fra loro (non vi siano cioè modalità ripetute); Se si sostituiscono alle modalità xih e xij di ciascun fenomeno i rispettivi “gradi”, g (xih) e g (xij), che esse occupano nella successione ordinata in senso crescente, lo studio delle relazioni tra H e J può essere condotto sui seguenti vettori: g x1h ...g xih ...g xnh g x1 j ...g xij ...g xnj ciascuno dei quali contiene i numeri da 1 a n (in un ordine che dipende dalle modalità dei due fenomeni). 21 Le analisi sui profili di colonna 9/23 Variabili qualitative ordinali Si dice che tra due fenomeni H e J esiste: perfetta cograduazione se: g(xih) = g(xij) per i = 1, 2, …, n cioè quando al primo posto nella graduatoria d’un fenomeno corrisponde il primo posto nella graduatoria dell’altro fenomeno, al secondo corrisponde il secondo, e così via; perfetta contrograduazione se: g(xih) = n + 1 – g(xij) per i = 1, 2, …, n cioè quando al primo posto nella graduatoria di un fenomeno corrisponde l’ultimo posto nella graduatoria dell’altro fenomeno, al secondo corrisponde il penultimo, etc. 22 Le analisi sui profili di colonna 10/23 Variabili quantitative La più comune misura di associazione per caratteri quantitativi è la covarianza n ( xi h shj xh )( xij xj) i 1 n Il segno della covarianza sarà: • positivo se al numeratore prevalgono prodotti di segno positivo che indicano concordanza (valori di xh e xj congiuntamente o maggiori delle rispettive medie aritmetiche, o minori di esse); • negativo se al numeratore prevalgono prodotti di segno negativo che indicano discordanza. Valori pari a zero si hanno quando la somma algebrica dei prodotti al numeratore si annulla ovvero i due caratteri sono linearmente 19 indipendenti. Le analisi sui profili di colonna 11/23 Variabili quantitative Calcolata la covarianza per tutte le coppie di caratteri si può costruire la matrice di associazione (p x p) detta matrice delle covarianze S s11 s12 ... s1h ... s1 j s21 ... sh1 s22 ... s2 h ... s2 j ... s2 p sh 2 ... shh ... shj ... s j1 s j 2 ... s jh ... s jj ... s p1 s p 2 ... s ph ... s pj ... s1 p ... shp La matrice è simmetrica e sulla diagonale principale presenta le varianze delle p variabili. n ... s jp n ( xi h shh xh )( xih i 1 xh ) ( xih i 1 n n xh ) 2 2 h ... s pp I valori assunti dalle covarianze dipendono dalle scale di misura dei diversi caratteri e non sono direttamente confrontabili, al fine di valutare se tra una coppia di variabili vi sia una associazione maggiore o minore rispetto ad un’altra. 24 Le analisi sui profili di colonna 12/23 Variabili quantitative Si può utilizzare il coefficiente di correlazione lineare di Bravais-Pearson definito come la covarianza diviso il prodotto delle due deviazioni standard COVARIANZA rhj shj h hj j h j dove σh e σj sono le deviazioni standard dei due caratteri. 25 Le analisi sui profili di colonna 13/23 Variabili quantitative Il coefficiente di correlazione lineare assume lo stesso segno della covarianza ed è compreso tra –1 e 1. rhj= -1 : tra la variabile h e la variabile j vi è perfetta correlazione lineare negativa ossia una perfetta relazione lineare di tipo inverso; rhj= 0 : le variabili h e j sono tra loro indipendenti e non esiste alcun legame di tipo lineare tra le due variabili; rhj= 1 : tra la variabile h e la variabile j vi è perfetta correlazione lineare positiva ossia una perfetta relazione lineare di tipo diretto; 26 Le analisi sui profili di colonna 14/23 Variabili quantitative Calcolata la correlazione per tutte le coppie di caratteri si può costruire la matrice di associazione R (di dimensione pxp) detta matrice delle correlazioni R r11 r12 ... r1h ... r1 j ... r1 p r21 ... rh1 r22 ... r2 h ... r2 j ... r2 p rh 2 ... rhh ... rhj ... rhp ... rj1 rj 2 ... rjh ... rjj ... rp1 rp 2 ... rph ... rpj La matrice è simmetrica e con valori unitari sulla diagonale principale. ... rjp ... rpp 27 Le analisi sui profili di colonna 15/23 Variabili quantitative Per mettere in evidenza la relazione lineare esistente tra due caratteri è possibile rappresentare l’insieme delle coppie di punti su un asse cartesiano (in cui sull’asse delle ascisse viene riportata, come di consueto, la variabile H e sull’asse delle ordinate la variabile J). Il grafico derivante prende il nome di grafico di dispersione (o scatter plot). Dalla forma che assume la nuvola di punti è possibile “stabilire” il tipo di correlazione lineare esistente tra le due variabili. 28 Le analisi sui profili di colonna 16/23 Variabili quantitative I quadrante II quadrante rhj j shj h 0 j j III quadrante IV quadrante h h 29 Le analisi sui profili di colonna 17/23 Variabili quantitative I quadrante II quadrante rhj j shj h 0 j j III quadrante IV quadrante h h 30 Le analisi sui profili di colonna 18/23 Variabili quantitative I quadrante II quadrante rhj j shj h 0 j j III quadrante IV quadrante h h 31 Le analisi sui profili di colonna 19/23 Relazioni tra gli indici di correlazione e cograduazione Come già specificato, gli indici di cograduazione sono applicabili anche a fenomeni puramente ordinali, per i quali non è possibile determinare la correlazione. In presenza di variabili quantitative, invece, l’indice di cograduazione rappresenta un criterio alternativo rispetto al coefficiente di correlazione lineare. L’esistenza di perfetta relazione lineare diretta (inversa) implica perfetta cograduazione (controcograduazione), ma non viceversa, ovvero: rxy 1 rs 1 rxy 1 rs 1 rxy 1 rs 1 rxy 1 Ma: rs 1 32 Le analisi sui profili di colonna 20/23 Esempio Unità statistiche Valori di X Valori di Y Valori di Y A 100 210 150 B 400 810 810 C 250 510 510 D 300 610 800 In questa tabella esiste perfetta correlazione lineare, in quanto: yi = 2xi + 10 per cui risulta: rxy = 1; rs = 1. Sostituendo in Y il valore 150 a 210 (unità A) ed il valore 800 a 610 (unità D), vi è ancora perfetta cograduazione, poiché i posti d’ordine delle due variabili rimangono immutati, ma non vi è più perfetta correlazione lineare (rxy = 0,948). 33 Le analisi sui profili di colonna 21/23 L’applicazione di un indice di correlazione o cograduazione si traduce in un differente approccio all’analisi dei dati: con la correlazione si considerano i valori effettivi che assumono le variabili; con la cograduazione si tiene conto soltanto delle loro posizioni nelle graduatorie ordinate. 34 Le analisi sui profili di colonna 22/23 Variabili miste Nelle analisi statistiche di dati aziendali o di mercato, la matrice dei dati è spesso a carattere misto, con alcune variabili quantitative e altre qualitative, ordinali o sconnesse. I possibili casi sono: 1. Variabili qualitative sconnesse con qualitative ordinali 2. Variabili qualitative sconnesse con quantitative 3. Variabili qualitative ordinali con quantitative Un indice che può essere applicato nei casi 2 e 3 è il rapporto di correlazione η2y/x di Pearson, specificato come segue: 2 2 y/x media( y / x ) 2 y x e y indicano la variabile qualitativa (sconnessa o ordinale) e quella quantitativa, rispettivamente; σy2 è la varianza della variabile quantitativa; σ2media(y/x) è la varianza delle medie del carattere quantitativo condizionata alle modalità di quello qualitativo. 28 Le analisi sui profili di colonna 23/23 Variabili miste Il rapporto di correlazione η2y/x esprime la quota della varianza complessiva di una variabile quantitativa spiegata dalle medie condizionate alle modalità di una variabile qualitativa. Quando tali medie sono uguali tra loro vuol dire che la variabile y non dipende, in media, dalle modalità della variabile x e l’indice vale zero; Quando tali medie sono invece diverse tra loro, vuol dire che esiste una relazione tra le modalità delle due variabili, che ha intensità massima quando tutta la varianza di y è spiegata dalla variabilità tra le medie condizionate, l’indice in questo caso vale uno. 36 Le analisi sui profili di riga 1/9 Le analisi sui profili di riga hanno l’obiettivo di misurare in modo sintetico la distanza o la similarità tra coppie di unità del collettivo statistico, che sono appunto collocate nelle righe della matrice dei dati. La distanza non è intesa in senso spaziale, bensì come differenza, tra le due unità, relativamente ai valori assunti dalle variabili contenute nella matrice dei dati. La distanza tra due unità tiene quindi conto di quanto esse sono diverse in relazione alle caratteristiche rilevate. Ad esempio, ipotizziamo di aver condotto una indagine volta a misurare il livello di soddisfazione da parte dei clienti di una compagnia aerea in relazione a diverse caratteristiche (qualità dei servizi di terra, puntualità dei voli, cortesia del personale di volo, qualità del servizio di ristorazione). Misurare la distanza tra due clienti significa pervenire a una misura sintetica di quanto essi sono tra loro diversi in relazione alle caratteristiche rilevate. 37 Le analisi sui profili di riga 2/9 Indicando con dir la distanza tra l’unità i-esima e l’unità r-esima, la misura di distanza individuata dovrebbe godere delle seguenti proprietà: Non negatività: (dir≥0) Valori sulla diagonale pari a zero (dii=0) Simmetria (dir=dri) SPAZIO METRICO Diseguaglianza triangolare: dir≤dis+dsr 38 Le analisi sui profili di riga 3/9 A partire dalla matrice dei dati X, una volta calcolate tutte le distanze tra le n unità statistiche si ottiene una matrice delle distanze D (nxn) D d11 d12 ... d1i ... d1r ... d1n d 21 ... d i1 ... d 22 ... d 2i ... d 2 r ... d 2 n di 2 ... d ii ... d ir ... d in d r1 ... d r 2 ... d ri ... d rr ... d rn d n1 d n 2 ... d ni ... d nr ... d nn 39 Le analisi sui profili di riga 4/9 Variabili quantitative La più elementare misura di distanza per variabili quantitative è la distanza euclidea, definita come la radice quadrata della somma delle differenze al quadrato tra le modalità delle due unità in esame relative a tutti i caratteri presenti nella matrice dei dati. 1/ 2 p d ir xik xrk 2 k 1 dove xik e xrk rappresentano le modalità assunte dalla variabile k nelle unità i e r 1/2 dir xi xr xi xr xi xr 40 Le analisi sui profili di riga 5/9 Variabili quantitative I due principali problemi della distanza euclidea sono i. Problema di scala – l’ipotesi che si adotta è che, ai fini del calcolo della distanza tra le due unità, una differenza di una unità espressa nell’unità di misura di un carattere abbia la stessa importanza di una differenza di una unità espressa nell’unità di misura di un altro carattere. Una possibile soluzione consiste nella preventiva standardizzazione della matrice dei dati depurando le variabili dall’effetto delle diverse unità di misura adottate e poi calcolare la distanza euclidea tra i profili standardizzati. 41 Le analisi sui profili di riga 6/9 Variabili quantitative La forma più comune di standardizzazione è quella che consiste nel sottrarre a ciascun elemento della matrice dei dati la media di colonna e dividere per la relativa deviazione standard, come specificato nella seguente espressione: zik xik xk k La matrice dei dati standardizzati è di conseguenza adimensionale con tutti i vettori colonna che presentano media pari a zero e varianza unitaria. 42 Le analisi sui profili di riga Limiti della distanza Euclidea 7/9 Variabili quantitative ii. Correlazione tra le variabili – la distanza euclidea non tiene conto della possibile correlazione tra le variabili presenti nella matrice dei dati, nel senso che tiene conto più volte delle differenze relative a variabili, almeno in parte espressione dello stesso fenomeno (dello stesso fattore). Una possibile soluzione a questo fenomeno consiste nel calcolare la distanza euclidea ponderata. 43 Le analisi sui profili di riga 8/9 Variabili quantitative Distanza euclidea ponderata 1/ 2 p d ir ( xik xrk ) 2 wk k 1 1/2 dir xi x r W (xi xr ) dove: wk è il coefficiente di ponderazione della k-esima variabile. W è una matrice diagonale (di dimensione p x p) contenente i coefficienti di ponderazione delle p variabili. 44 Le analisi sui profili di riga 9/9 Variabili quantitative Distanza di Mahalanobis E’ un caso particolare di distanza euclidea ponderata utilizzando come matrice di ponderazione W, l’inversa della matrice delle covarianze (che è una matrice simmetrica piena). 1/ 2 d ir xi 1 x r S (x i xr ) La distanza di Mahalanobis costituisce una misura della distanza calcolata al netto della correlazione esistente tra le variabili. Allo stesso tempo, elimina anche l’effetto derivante dalle diverse scale di misura adottate per le variabili e può essere quindi calcolata direttamente sulle variabili rilevate. 45