Analisi esplorativa dei dati Introduzione Analisi esplorativa dei dati Introduzione Introduzione L’analisi esplorativa dei dati • • • • La fase esplorativa d’una ricerca è quella nella quale si fa una prima raccolta di dati empirici, necessari a cercare nella realtà una possibile soluzione alla domanda che ci si è posta. Introduzione Osservazioni e dati Esempio 1: Se si studiano gli effetti delle piogge acide sulle foreste, si cercheranno informazioni sull’acidità delle piogge, sulla composizione delle foreste, il loro clima, il tipo d’ambiente umano circostante, ecc. Esempio 2 : Se si vuol sapere la relazione fra pazienti, sintomi d’una malattia e farmaci, si raccoglieranno informazioni relative questi aspetti del problema. Statistiche descrittive Relazioni fra caratteri "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 1 Introduzione Obiettivi d’un’analisi esplorativa dei dati sono la ricerca di possibili fattori che influenzano il fenomeno e una possibile classificazione delle osservazioni in gruppi omogenei. Esempio 1: Nel caso delle piogge acide, l’acidità della pioggia è un fattore, che causa la malattia delle piante. Anche il tipo d’insediamenti umani circostanti è un fattore, perché potrebbe provocare acidità della pioggia. Diverse classi di foreste servono a decidere su quali intervenire. Esempio 2 : Lo stato di salute generale d’un paziente può esser un fattore che favorisce una malattia. Diverse condizioni possono favorire un’evoluzione diversa della malattia e suggerire trattamenti diversi. "Lezione 4".tex 22 ottobre 2014 IV - 3 "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 2 Osservazioni e dati Osservazioni e dati Quando si rilevano elementi relativi ad un aspetto del fenomeno che si studia, si dice che si fanno delle osservazioni. Gli elementi rilevati sono degli attributi delle osservazioni, che si chiamano caratteri. Esempio 1 : un osservazione può esser un rilievo delle piante della foresta, i caratteri sono allora le specie presenti, o la loro abbondanza, l’altitudine, il tipo di suolo, la quantità di pioggia in un mese, ecc. Esempio 2 : Ogni paziente osservato in una data precisa è un’osservazione; i caratteri sono i sintomi osservati, alcune misure (peso, età, lo stato fisico, la febbre, le medicine assunte), ecc. "Lezione 4".tex 22 ottobre 2014 IV - 4 Analisi esplorativa dei dati Sinonimi: Osservazioni e dati osservazioni, individui, unità statistiche; caratteri, variabili, indicatori statistici. La modalità secondo la quale un dato carattere si presenta in un’osservazione prende il nome di dato. La tavola di dati è l’insieme dei caratteri osservati nel corso d’una sperimentazione. Normalmente si fa in modo che in tutte le osservazioni si rilevino gli stessi caratteri, secondo gli stessi criteri. La tavola s’organizza in modo che ad ogni osservazione corrisponda una riga della tavola e ad ogni carattere corrisponda una colonna. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 5 Osservazioni e dati Esempio 1 : la tavola dei dati delle foreste Altezza Orientamento Pendenza Quercus pub. .... ril 1 1315 SW 12% 4 .... ril 2 915 N 0% 3 .... ril 3 1225 NE 5% 2 .... Esempio 2 : la tavola dei dati dei pazienti Rossi Letti Magri Età Febbre Sangue Mal di testa Aspirina Colesterolo 43 38.2 0 si 1 112 35 36.8 A no 2 — 83 39.2 B si 0 155 "Lezione 4".tex 22 ottobre 2014 IV - 7 Analisi esplorativa dei dati Osservazioni e dati Car 1 Car 2 ... Car j . . . Car p Oss 1 x11 x12 ... x1j ... x1p Oss 2 x21 x22 ... x2j ... x2p ................................................................................ Oss i xi1 xi2 ... xij ... xip ................................................................................ Oss n xn1 xn2 ... xnj ... xnp xij è la modalità assunta dal carattere j nell’osservazione i. I nomi Car 1, Car 2, Car 3, ....., Car p, Oss 1, Oss 2, ..., Oss n sono le etichette, identificative di caratteri ed unità. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 6 Osservazioni e dati Si riconoscono almeno i seguenti tipi di dati: • Dicotomici: tipo presenza / assenza, di essi si può solo constatare se in un’osservazione si manifestano o no. • Qualitativi: i caratteri presentano modalità differenti, senza alcuna relazione fra di esse. • In scala: le modalità sono dotate d’un ordine totale. • Quantitativi discreti: le modalità sono dei numeri interi, in quantità limitata. • Frequenze: la modalità corrisponde al numero d’elementi che sono rilevati. • Quantitativi continui: vere e proprie misure. "Lezione 4".tex 22 ottobre 2014 IV - 8 Analisi esplorativa dei dati Osservazioni e dati Analisi esplorativa dei dati Osservazioni e dati Dati dall’Annuario Statistico Italiano, Istat, 1978 Regione Piemonte e Valle d’Aosta Lombardia Trentino Alto Adige Veneto Friuli Venezia Giulia Liguria Emilia Romagna Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna Popolaz. 4465.500 8496.683 847.226 4135.960 1245.143 1868.065 3852.833 3502.541 773.195 1350.974 4764.149 1120.770 299.775 4984.677 3498.932 560.057 1861.537 4575.421 1441.284 "Lezione 4".tex Camere Primar. Second. Terziario Reddito Matrim. Nascite 6081.300 212 945 723 1721 24.620 50.101 9861.440 164 1897 1461 1277 50.166 105.810 1080.889 52 100 167 987 5.332 10.936 5258.836 206 703 697 1053 27.897 52.820 1722.637 39 178 245 1134 6.813 1.227 3034.254 52 211 394 1292 9.535 15.943 5107.119 278 642 740 1245 21.139 38.352 4850.555 137 589 636 1126 20.184 36.149 960.612 45 117 141 966 4.951 9.246 1805.806 118 244 230 989 8.553 16.826 5440.567 172 423 1033 1109 29.862 65.626 1473.219 100 120 198 876 7.877 15.034 397.862 51 26 41 706 2.036 3.875 4507.638 394 456 794 816 39.921 96.683 3381.271 416 315 523 893 27.163 68.134 559.093 83 55 71 754 4.022 8.812 1870.928 179 148 256 710 13.550 32.409 4802.599 364 370 661 842 31.908 77.726 1637.154 87 127 236 954 11.374 25.799 22 ottobre 2014 Analisi esplorativa dei dati IV - 9 Statistiche descrittive A volte esistono dati mancanti, se non è stato possibile rilevarli. Il problema dei dati mancanti non va trascurato. Esistono diverse ragioni per avere dati mancanti e vanno tenute in conto. Per esempio, è diverso che il dato non sia possibile rilevarlo, oppure che sia possibile ma non sia stato rilevato, oppure che in quella particolare situazione il dato non abbia senso. Ancora, nei sondaggi, esistono persone che non rispondono mai: su di loro si possono fare solo congetture. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 10 Statistiche descrittive Statistiche descrittive L’osservazione della tavola di dati può esser molto difficoltosa e raramente porta a delle conclusioni. Anche considerando un carattere alla volta, è difficile farsene un’idea sintetica ed efficace. Per questo s’usano delle statistiche descrittive. Una statistica è un valore che s’usa al posto d’una serie di altri valori per darne una informazione sintetica. Le statistiche descrittive sono valori che servono a descrivere in maniera sufficiente il modo in cui si manifesta un carattere osservato. "Lezione 4".tex 22 ottobre 2014 IV - 11 Si chiama distribuzione d’un carattere l’insieme delle modalità che esso assume, unitamente con la numerosità delle osservazioni che assumono ciascuna modalità. Ci sono due tipi di statistiche: • di tendenza centrale della distribuzione, una modalità attorno alla quale s’addensano le altre; • di distribuzione o dispersione che indicano come le altre modalità si dispongono rispetto alla statistica di tendenza centrale, cioè informano sulla loro dispersione rispetto ad essa. "Lezione 4".tex 22 ottobre 2014 IV - 12 Analisi esplorativa dei dati Statistiche descrittive Analisi esplorativa dei dati Statistiche descrittive Caratteri dicotomici Ciascuna statistica dovrebbe informare in maniera utile sulla distribuzione d’un carattere. Dunque essa dipende dal tipo di carattere. Strumenti grafici. Non sono statistiche, ma sono molto utili per rappresentare la distribuzione delle modalità. Anch’essi dipendono dal tipo di caratteri che si studiano. Per studiare un carattere come insieme di n osservazioni, lo si indicherà come � Xj = (x1j , x2j ,..., xnj ) "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 13 Statistiche descrittive Caratteri qualitativi Il carattere presenta s modalità differenti, v1, v2 ,..., vs. • le s frequenze assolute n1, n2,..., ns, ciascuna rappresentante il numero di osservazioni in cui compare una delle modalità; • l’insieme delle s frequenze rappresenta la distribuzione delle modalità del carattere; • les frequenze relative p1 = n1/ n , p2 = n2/ n ,..., ps = ns/ n danno il profilo del carattere • valori f1 = n1/n × 100, f2 = n2/n × 100, . . . , fs = ns/n × 100 ne danno le percentuali. "Lezione 4".tex 22 ottobre 2014 IV - 15 Sono disponibili due informazioni sintetiche: • Il numero n1 d’osservazioni dove il carattere è presente (frequenza); • Il numero n0 d’osservazioni dove il carattere è assente; Si chiama frequenza relativa il valore p1 = n1 / n, indipendente da n. Lo si esprime anche come percentuale f1= p1 × 100 . Il valore p0 = n0 / n = 1 − (n1 / n) = (n − n1) / n è la frequenza relativa delle assenze, che in percentuale vale f0= p0× 100 . "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 14 Statistiche descrittive • come statistica di tendenza centrale s’usa la moda, la modalità con la frequenza relativa massima; • come statistica di distribuzione s’usa l’entropia, misura del disordine della distribuzione, derivante dalla teoria dell’informazione H = − �si = 1 pi log 2 pi che rappresenta il numero di bit necessari a descrivere la distriuzione. Quando tutte le osservazioni presentano la stessa modalità, H = 0, minima. È massima HM AX = − log2 s , quando ogni modalità ha la stessa frequenza relativa. • l’entropia relativa h = H / HM AX , che vale fra 0 ed 1, serve a confrontare le distribuzioni di due caratteri. "Lezione 4".tex 22 ottobre 2014 IV - 16 Analisi esplorativa dei dati Statistiche descrittive Come rappresentazione grafica, si possono utilizzare: • i diagrammi a settori od a pizza, ciascun settore proporzionale alla frequenza della modalità; • i diagrammi a barre, ciascuna d’altezza proporzionale alla frequenza relativa: la disposizione delle barre è indifferente. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 17 Statistiche descrittive • i quantili sono statistiche di dispersione. Si suddividono le osservazioni ordinate in m gruppi di n/ m unità e si considera la modalità che separa gruppi contigui. • i quartili sono i valori che corrispondono a 25% (primo, Q1), 50% (mediana), 75% (terzo, Q3) delle osservazione. • i percentili sono ottenuti dividendo in 100 parti la distribuzione. • il minimo ed il massimo sono i valori estremi della distribuzione. "Lezione 4".tex 22 ottobre 2014 IV - 19 Analisi esplorativa dei dati Statistiche descrittive Caratteri in scala Si possono usare frequenze, moda ed entropia, nonché diagrammi a pizza. Tuttavia esistono statistiche più adatte: infatti, le osservazioni possono esser ordinate in scala crescente e la distribuzione può esser vista di conseguenza. • la mediana è la statistica di tendenza centrale: la modalità che divide le osservazioni ordinate in due parti di uguale numerosità. Se le osservazioni sono n, dispari, allora è la modalità assunta dall’osservazione che si trova al posto (n-1) / 2 + 1; altrimenti, si prendono le due osservazioni di posto n/2 e n/2 + 1 e si fa la metà della somma delle rispettive modalità. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 18 Statistiche descrittive • i diagrammi a barre ora possono esser ordinati opportunamente, in modo da vedere le modalità nel loro ordine. • si possono anche cumulare le frequenze progressivamente, ottenendo una sequenza di valori F1 = p1 , F2 = F1 + p2 , ...., Fs−1 = Fs−2 + ps−1 , Fs = F s−1 + ps = 1 che rappresentano la ripartizione della distribuzione. "Lezione 4".tex 22 ottobre 2014 IV - 20 Analisi esplorativa dei dati Statistiche descrittive Caratteri quantitativi discreti I caratteri quantitativi discreti possono esser trattati come caratteri in scala. Si possono però aggiungere: • l’estensione della distribuzione, differenza fra massimo e minimo; • la distanza interquartile è la differenza fra il terzo ed il primo quartile (Q3 - Q1); che rappresentano statistiche di dispersione. Inoltre • l’indice di concentrazione di Lorenz; indica come è distribuito un carattere cumulabile vi nelle osservazioni. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 21 Statistiche descrittive Frequenze e misure Per le frequenze e le misure, molte di queste statistiche perdono senso. In compenso, esistono indici appropriati, inutilizzabili per i tipi descritti precedentemente: media, varianza e statistiche derivate. • La media è una statistica di tendenza centrale: è la media aritmetica dei valori delle modalità moltiplicati per la loro frequenza relativa: se v1, v2 ,..., vs sono tali valori, e p1, p2 ,..., ps, �si = 1 pi = 1 , le loro frequenze relative, la media è m = "Lezione 4".tex s � i=1 pi vi = � 22 ottobre 2014 s i = 1 n i vi Analisi esplorativa dei dati Statistiche descrittive Se T è il totale di vi in tutte le osservazioni, per i = 1,...,s modalità T = �si = 1 ni vi e si pone qi = ni vi j =1 T i � ogni qi è la quota del carattere attribuibile alle osservazioni con modalità non superiore a vi (e si pone q0= 0 ). L’indice di Lorenz è allora 1 − �si = 1 pi ( qi − 1 + qi ) 2 che è compreso fra 0 e 1 . C = "Lezione 4".tex 22 ottobre 2014 IV - 22 Analisi esplorativa dei dati Statistiche descrittive • La varianza è una misura di dispersione, che rappresenta lo scarto dalla media: s2 = s � i=1 p i ( vi − m ) 2 = � s 2 i = 1 n i ( vi − m ) n • Lo scarto quadratico medio (o deviazione standard) è la sua radice quadrata (stessa unità di misura della media): s = � � � � � � s � i=1 p i ( vi − m ) 2 • il coefficiente di variazione (sua normalizzazione) cvj = sj / mj . n IV - 23 "Lezione 4".tex 22 ottobre 2014 IV - 24 Analisi esplorativa dei dati Statistiche descrittive Dati dell Annuario Statistico Italiano (Istat, 1978)Media, varianza, scarto quadratico medio, coefficiente di variazione. Carattere Popolazione regionale Numero di vani Numero d’occupati primario Numero d’occupati secondario Numero d’occupati terziario Reddito pro-capite Numero di matrimoni Natalità "Lezione 4".tex Media 2823.41 3359.67 165.74 403.47 486.68 1023.68 18.26 39.08 Varianza 4262944.80 5673685.80 13724.12 183706.53 130834.12 57893.17 174.77 922.34 22 ottobre 2014 Analisi esplorativa dei dati Sc.q.m. 2064.69 2381.95 117.15 428.61 361.71 240.61 13.22 30.37 C.Var. 0.731 0.709 0.707 1.062 0.743 0.235 0.724 0.777 IV - 25 Statistiche descrittive Analisi esplorativa dei dati Statistiche descrittive Nota: media e varianza sono usate abusivamente anche in casi inammissibili, come per variabili in scala. Esempi: La media dei voti universitari è un tale abuso, perché ogni docente usa una scala diversa (e gli intervalli di scala non sono ben definiti). Dire che �in media in una famiglia ci sono 1.2 bambini� è un abuso, perché i bambini non si possono affettare. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 26 Statistiche descrittive Trasformazioni di caratteri Statistiche robuste Si chiama robusta una statistica che non dipende troppo da alcune modalità del carattere: la media e la varianza non sono molto robuste, perché valori estremi molto diversi dagli altri le modificano fortemente. Talvolta al loro posto si preferisce allora considerare la mediana e la distanza interquartile (Q3 - Q1), perché sono quasi insensibili ai valori estremi. "Lezione 4".tex 22 ottobre 2014 IV - 27 A volte può esser conveniente trasformare i caratteri, per avere un diverso tipo d’informazioni. Ripartire un carattere quantitativo in classi, permette d’avere delle frequenze relative delle classi (che sono un carattere in scala). Esempio: Trasformare l’età o il reddito in classi d’età e classi di reddito, permette di rappresentare la distribuzione dell’età e del reddito con un diagramma a barre, altrimenti impossibile. "Lezione 4".tex 22 ottobre 2014 IV - 28 Analisi esplorativa dei dati Relazioni fra caratteri Analisi esplorativa dei dati Relazioni fra caratteri Caratteri dicotomici o qualitativi Relazioni fra caratteri Esistono statistiche che servono a valutare il grado d’interazione fra due (o più) caratteri. Si tratta del primo passo verso la ricerca di relazioni causali fra i caratteri. Anche in questo caso, le statistiche dipendono dal tipo di caratteri. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 29 Relazioni fra caratteri Se si hanno n osservazioni con due caratteri osservati, con s et t modalità rispettivamente. Allora si può costruire una tabella di contingenza o tabella incrociata in cui in ogni casella si trova la frequenza in cui si presentano due modalità dei due caratteri congiuntamente. Agli estremi della tavola si riportano la distribuzione delle frequenze dei due caratteri: si chiamano frequenze marginali di riga e colonna. Se nij sono le frequenze delle celle, i totali marginali ne sono le somme per riga n.j e per colonna ni.. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 30 Relazioni fra caratteri Colore degli occhi e colore dei capelli di 592 studenti inglesi (Snee, 1974). Colore dei capelli Colore degli occhi Neri Castani Rossi Biondi Totale Castani scuri 68 119 26 7 220 Castani chiari 15 54 14 10 93 Verdi 5 29 14 16 64 Blu 20 84 17 94 215 Totale 108 286 71 127 592 "Lezione 4".tex 22 ottobre 2014 IV - 31 "Lezione 4".tex 22 ottobre 2014 IV - 32 Analisi esplorativa dei dati Relazioni fra caratteri Analisi esplorativa dei dati Relazioni fra caratteri Una tavola di contingenza da sola non dice molto. Si cerca quindi di trarre ulteriori informazioni, trasformando la tabella. Se ne ottengono altre tre: • profili di riga: s’ottengono dividendo ogni riga per il suo totale marginale: frij = nij / n.j . Risulta �si=1 f rij = 1. • profili di colonna: s’ottengono dividendo ogni colonna per il suo totale marginale: fcij = nij / ni. Risulta �s i=1 f cij = 1. • frequenze relative: s’ottengono dividendo ogni casella per il totale delle osservazioni: fij = pij = nij / n . Risulta �s �t i=1 j=1 fij = 1. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 33 Relazioni fra caratteri "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 34 Relazioni fra caratteri Considerando che si tratta di frequenze, si possono usare come statistiche di distribuzione: • l’entropia del carattere in linea H1 = − �si = 1 pi . log 2 pi . • l’entropia del carattere in colonna H2 = − �tj = 1 p. j log 2 p. j • l’entropia congiunta H1 + 2 = − �si = 1 �tj = 1 pij log 2 pij • l’informazione mutua I12 = H1 + H2 − H1+2 "Lezione 4".tex 22 ottobre 2014 IV - 35 "Lezione 4".tex 22 ottobre 2014 IV - 36 Analisi esplorativa dei dati Relazioni fra caratteri L’entropia congiunta misura l’entropia della tabella, cioè quanto tutte le celle sono diverse, non considerando l’entropia delle distribuzioni marginali; l’informazione mutua indica la quantità d’informazione comune ai due caratteri. Di conseguenza l’informazione propria d’ogni carattere è rispettivamente H1|2 = H1+2 − H2 e H2|1 = H1+2 − H1 I12 invece misura l’informazione della tabella una volta tolta quella data dai profili marginali. Siccome i profili sono propri dei due caratteri che si incrociano, è questa l’informazione veramente importante data dalla tabella di contingenza. Analisi esplorativa dei dati Relazioni fra caratteri Per studiare l’influenza delle modalità d’un carattere su quelle dell’altro, occorre studiare i profili, confrontandoli con i profili marginali. Se non ci fosse influenza fra caratteri, i profili di riga e quelli di colonna sarebbero tutti uguali fra loro ed al corrispondente profilo marginale. In questo caso, in ogni cella si troverebbe il valore atteso npip.j invece che il valore osservato npij = nij . Si dimostra che l’informazione mutua è p s t � � I12 = pij log 2 ij i=1 j =1 pi . p. j è cioè una misura di deviazione dall’indipendenza fra caratteri. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 37 Relazioni fra caratteri Per le sue proprietà statistiche, si preferisce tuttavia usare la statistica del chi-quadro, data da χ2 = n (pij − pi. p. j )2 i=1 j =1 pi. p. j s � 22 ottobre 2014 Analisi esplorativa dei dati • il coefficiente di contiguità di Pearson C = � � � � � � � � � χ2 n + χ2 • il coefficiente di Tschuprow T = χ2 varia fra 0, nel caso dell’indipendenza, in cui pij = pi.p.j per ogni i, j, ed n min(s-1, t-1) nel caso della perfetta dipendenza (una sola casella per linea e per colonna non nulle). χ2 varia con la numerosità delle osservazioni: per una statistica fra 0 ed 1 si usano: 22 ottobre 2014 IV - 38 Relazioni fra caratteri t � Esiste tuttavia una relazione fra le due statistiche. "Lezione 4".tex "Lezione 4".tex IV - 39 � � � � � � � � � � χ2 n (r − 1)(s − 1) � • il coefficiente di Cramer ϕ2 = "Lezione 4".tex � � � � � � � � � χ2 n inf ( r − 1 , s − 1 ) 22 ottobre 2014 IV - 40 Analisi esplorativa dei dati Relazioni fra caratteri Esempio: La tabella di Snee (1974) ha le seguenti statistiche: Quando si trattano caratteri in scala, si considera il rango d’ogni osservazione, cioè la sua posizione nell’ordine dato dal carattere. Si misura quindi la distanza fra i ranghi d’ogni osservazione nei due caratteri rki ed rkj , cioè dk = rki - rkj . Il coefficiente di correlazione di Spearman è la statistica si j = 1 − 6 �nk=1 dk 2 n ( n2 − 1 ) L’accordo può essere perfetto (sij = 1 ), totalmente inverso (sij = -1 ). Se (sij = 0 ) non c’è relazione fra i ranghi. 22 ottobre 2014 Analisi esplorativa dei dati Relazioni fra caratteri Caratteri in scala H1 = 1.798227 H2 = 1.827862 H1+2 = 3.447648 I12 = 0.17844 χ2 = 138.2912 C = 0.4352 T = 0.2790 ϕ2 = 0.2790 "Lezione 4".tex Analisi esplorativa dei dati IV - 41 Relazioni fra caratteri "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 42 Relazioni fra caratteri Relazione fra un carattere qualitativo ed uno quantitativo Caratteri quantitativi Si costruisce una tabella di medie, riportando, per ogni modalità i del carattere qualitativo, il numero d’osservazioni con tale modalità, nk , la media del carattere quantitativo in queste osservazioni, ȳk e la sua varianza s2k . Si riportano anche numerosità n, media ȳ e varianza s2 totali. La statistica che s’usa è il rapporto di correlazione empirico Il problema della relazione fra due caratteri quantitativi è molto più difficile, perché si dovrebbe cercare una funzione che esprima un carattere in funzione dell’altro. Occorre quindi procedere per tentativi. Normalmente, si cerca una risposta provvisoria, considerando una relazione di tipo lineare. Per questo s’usa la covarianza e2 = � s 2 k=1 nk ( ȳk − ȳ ) n s2 cov ( x , y ) = che vale 0 se le medie sono uguali ed 1 se le medie sono diverse per ogni modalità. "Lezione 4".tex 22 ottobre 2014 IV - 43 � n ( x − x̄ ) ( y − ȳ ) i i i=1 n misura dello scarto congiunto dalle medie dei caratteri x ed y. Risulta cov (x,x) = var(x), la varianza di x. "Lezione 4".tex 22 ottobre 2014 IV - 44 Analisi esplorativa dei dati Relazioni fra caratteri La covarianza varia fra − ∞ ed ∞ , con i valori negativi che indicano un comportamento opposto. Come la varianza, la covarianza dipende dalle medie dei caratteri. Per questo si preferisce usare il coefficiente di correlazione di Bravais-Pearson, che vale r = cov ( x , y ) sx sy e che varia fra -1 ed 1, lo 0 indicando la mancanza di correlazione lineare fra i due caratteri. "Lezione 4".tex 22 ottobre 2014 Analisi esplorativa dei dati IV - 45 Relazioni fra caratteri Analisi esplorativa dei dati Relazioni fra caratteri Dati dell Annuario Statistico Italiano (Istat, 1978) Matrice di correlazione Pop Vani Prim Seco Terz Repc Mat Nata Pop 1.00 0.98 0.60 0.89 0.98 0.43 0.98 0.93 Pop Vani Prim Seco Terz Repc Mat Nata 1.00 0.49 0.93 0.98 0.59 0.91 0.84 Vani "Lezione 4".tex 1.00 0.29 0.51 -0.04 0.71 0.77 Prim 1.00 0.88 0.59 0.80 0.71 Seco 1.00 0.49 0.94 0.88 Terz 22 ottobre 2014 Analisi esplorativa dei dati 1.00 0.28 1.00 0.17 0.99 1.00 Repc Mat Nata IV - 46 Relazioni fra caratteri Rappresentazioni grafiche Per rappresentare l’incrocio di due caratteri qualitativi, si può usare un diagramma a barre tridimensionale. Per la relazione fra un carattere qualitativo ed uno quantitativo si può usare un diagramma a barre normale. Per la relazione fra due caratteri quantitativi, si usa il diagramma di dispersione, un piano cartesiano dove le osservazioni sono punti le cui coordinate corrispondono ai valori dei due caratteri. "Lezione 4".tex 22 ottobre 2014 IV - 47 "Lezione 4".tex 22 ottobre 2014 IV - 48 Analisi esplorativa dei dati "Lezione 4".tex Relazioni fra caratteri 22 ottobre 2014 Analisi esplorativa dei dati IV - 49 Relazioni fra caratteri Trasformazione dei dati Covarianza e correlazione non informano sulle eventuali relazioni non lineari. L’osservazione dei diagrammi di dispersione può aiutare in tal senso. Pertanto conviene suddividere l’insieme dei valori d’ogni carattere in intervalli e considerare le classi d’osservazioni che cadono negli intervalli. Ne risulta così una tabella di contingenza, che può dare le informazioni che altrimenti non si potrebbero ottenere. "Lezione 4".tex 22 ottobre 2014 IV - 51 Analisi esplorativa dei dati "Lezione 4".tex Relazioni fra caratteri 22 ottobre 2014 IV - 50