LA MATRICE DEI DATI Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili) Esempi di: unità variabili individui imprese comuni …. Reddito, sesso, titolo di studio… Fatturato, addetti, ragione sociale… Ampiezza dem., regione, presenza di stazione ferr.… … ___________________________________________________________________________________________________________________________________________ Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna 1 Questionario - Indagine su reddito, consumo e fruizione dei quotidiani in Emilia Romagna Tipo di variabile I caratteri (variabili) possono essere o qualitativi (sconnessi o ordinali) o quantitativi (discreti o continui) Fenomeno indagato VARIABILI 1. sesso 2. età 3. titolo di studio Possibili risposte MODALITA’ maschio femmina _____ (in anni compiuti) elementare diploma media inferiore laurea dottorato TIPO DI VARIABILE Qualitativo sconnesso (dicotomico) Quantitativo Qualitativo ordinabile (politomico) 4. reddito mensile ______ (in euro) Quantitativo 5. consumo mensile ______ (in euro) Quantitativo 6. acquista almeno un quotidiano al giorno? si no Qualitativo sconnesso (dicotomico) ___________________________________________________________________________________________________________________________________________ Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna 2 Si possono codificare le modalità di variabili qualitative: Sesso Titolo di studio Acquisto quotidiano M=0; F=1 Elem.=1, Media inf.=2, Media sup.=3, Laurea=4, Dottorato=5 SI=1; NO=0 Matrice dei dati X= 0 0 1 1 1 1 1 0 0 1 20 19 21 75 45 35 21 60 18 12 Dimensioni 1 3 3 2 4 5 2 2 2 1 1050 1000 2000 1200 2200 2500 1250 1800 1640 1400 800 900 1300 1000 800 1500 1000 1100 1350 1000 1 1 1 0 1 0 0 1 1 1 10 x 6 N. B. : le variabili quantitative non sono espresse nella stessa unità di misura (anni, euro…) ___________________________________________________________________________________________________________________________________________ Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna 3 MATRICE x11 ... xi1 ... xn1 dei dati X, di dimensioni n x p ( n righe e p colonne) ... x1s ... ... ... xis ... ... ... xns ... x1 p ... ... ... xip ... ... ... xnp Notiamo che i = 1,…,n s= 1,…,p unità variabili matrice X - unità x variabile Matrice composta da • n vettori riga: ad ogni riga, xi , corrisponde una unità (elemento del campione o della popolazione studiata) e la riga i-esima fornisce le modalità osservate dei p caratteri per l’unità statistica i-sima; • p vettori colonna: ad ogni colonna corrisponde un carattere, una variabile, e la colonna s-esima X s fornisce la distribuzione delle modalità della variabile s fra le n unità statistiche; • l’elemento xis all’interno della matrice rappresenta il valore del carattere s nella i-esima unità statistica. ___________________________________________________________________________________________________________________________________________ Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna 4 Con riferimento alla matrice dei dati possiamo analizzare: • un singolo fenomeno (analisi di tipo unidimensionale, riferita alla singola variabile) attraverso l'uso di medie, indici di variabilità, ecc.): Qual è l'età media con riferimento alle 10 unità in oggetto? E quale il consumo medio mensile? • due fenomeni e la relazione che li lega (analisi di tipo bidimensionale): Che relazione c'è tra età e consumo? • una pluralità di fenomeni (analisi multidimensionale o multivariata – generalizzazione di quella bidim.) Ci occuperemo dell'ANALISI MULTIDIMENSIONALE DEI DATI i cui obiettivi si possono sintetizzare nei seguenti punti: • sintesi delle relazioni tra le p variabili • analisi della dipendenza lineare e non lineare di una variabile rispetto a p covariate • misura della diversità/somiglianza tra le n unità statistiche, con riferimento ai p fenomeni indagati • classificazione delle unità in gruppi omogenei • ricerca di regole discriminanti tra due o più gruppi, sulla base di una pluralità di fenomeni ___________________________________________________________________________________________________________________________________________ Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna 5 RAPPRESENTAZIONE GRAFICA DELLE UNITA' secondo le VARIABILI (quantitative) Supponiamo di aver osservato il reddito e il consumo di 3 unità statistiche (in euro): unità 1 2 3 Media Reddito mens. 1000 1200 850 1017 Consumo mens. 600 900 800 767 X= 1000 1200 850 600 900 800 3x2 Possiamo rappresentare le 3 unità statistiche in R2: 1100 1000 900 consumo 800 700 600 500 700 800 900 1000 1100 1200 1300 reddito ___________________________________________________________________________________________________________________________________________ Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna 6 Per p variabili: SPAZIO DELLE UNITA’ nella matrice unità x variabile, i vettori riga di dimensione p possono essere rappresentati in Rp (spazio a p dimensioni, delle unità o degli individui) Due o più unità saranno tanto più simili, in relazione alle variabili considerate, quanto più sono vicine nello spazio delle unità. Possiamo individuare il vettore delle medie delle p variabili detto centroide (o baricentro): x′ = [x1 , ..., xs , ..., x p ] nell'esempio: x = [1017, 767] 1100 1000 900 consumo 800 700 600 500 700 800 900 1000 1100 1200 1300 reddito ___________________________________________________________________________________________________________________________________________ Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna 7 LA MATRICE DEGLI SCOSTAMENTI (O SCARTI) DALLA MEDIA variabile Xs , di tipo quantitativo, consideriamo gli scarti dalla media: ~ ~ xis = xis − xs X = [~ xis ] per i = 1, ..., n s=1,…, p Nell'esempio: Scarto riferito al Reddito mens. 1000-1017= 1200-1017= 850-1017= unità 1 2 3 Matrice ~ X - 17 +183 -167 Scarto riferito al Consumo mens. 600-767= -167 900-767= 133 800-767= 33 degli scarti dalla media: - 17 +183 -167 -167 133 33 ~ L'impiego di X equivale a considerare in Rp un nuovo sistema di assi cartesiani, uguale a quello dei dati originari se non per l'origine che, in tale nuovo sistema, è nel centroide: la nuvola di punti presenta il medesimo aspetto, è l'origine degli assi che si sposta nel punto che ha come coordinate le medie delle p variabili ___________________________________________________________________________________________________________________________________________ Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna 8 LA MATRICE DEGLI SCARTI STANDARDIZZATI Per ogni variabile, consideriamo gli scarti standardizzati, cioè gli scarti dalla media in rapporto allo scarto quadratico medio: zis = xis − xs σs = ~ xis σs i = 1, ..., n per Matrice degli scarti standardizzati: Z = [zis ] i=1,…, n s=1,…, p Caratteristiche delle p variabili considerate nella matrice Z (p scostamenti standardizzati), cioè dei vettori colonna z s : • sono numeri puri, cioè non hanno unità di misura e non risentono dell'ordine medio di grandezza della variabile originaria • hanno media pari a 0 e varianza pari ad 1 ___________________________________________________________________________________________________________________________________________ Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna 9 Perché consideriamo la matrice degli scarti standardizzati? Essa consente di analizzare congiuntamente variabili che hanno, in origine, diversa unità di misura e/o diverso ordine medio di grandezza/variabilità trasformandole in variabili che non hanno unità di misura e stesso ordine medio di grandezza/var.. sono “confrontabili” 1,5 Matrice Z riferita all'esempio precedente: -0.1162 1.2787 -1.1625 -1.3363 1.0690 0.2673 scost. stand. consumo 1 0,5 0 -0,5 -1 -1,5 -1,5 -1 -0,5 0 0,5 1 1,5 scost. stand. reddito ___________________________________________________________________________________________________________________________________________ 10 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna LA MATRICE DI COVARIANZA E LA MATRICE DI CORRELAZIONE Misura la relazione lineare tra due variabili di tipo quantitativo Consideriamo due generici vettori colonna della matrice X, contengono i valori delle p variabili, con riferimento ad n unità. I dati sono rappresentati dalle coppie di valori Si definiscono gli scarti dalle rispettive medie ( xis , xik ) xɶs = ( xis − xs ) xs ed xk (di dim. n x1), che i = 1,… , n xɶk = ( xik − xɶk ) Se a valori di xk maggiori (minori) della media corrispondono valori di xs maggiori (minori) della media, allora si dice che tra le due variabili esiste una relazione diretta la maggior parte degli scarti ~ xk e ~ x s ha lo stesso segno concordanza tra le var. Se a valori di xk maggiori (minori) della media corrispondono valori di xh minori (maggiori) della media, allora si dice che tra le due variabili esiste una relazione inversa la maggior parte degli scarti ~ xk e ~ x s ha segno opposto discordanza tra le var. ___________________________________________________________________________________________________________________________________________ 11 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Una misura sintetica della relazione LINEARE tra le due variabili è la covarianza (media aritmetica dei prodotti degli scarti) 1 n ssk = cov( X s , X k ) = ∑ ( xis − xs )( xik − xk ) n i =1 (la troveremo indicata anche come σ sk ) Si noti che 1 n s k = var( X k ) = ∑ ( xik − xk )2 n i =1 2 (la troveremo indicata anche come σ k2 ) La COVARIANZA: • è positiva se a valori crescenti di Xs si associano valori crescenti di Xk (analogamente se a valori decrescenti di Xs si associano valori decrescenti di Xk). • è negativa se a valori crescenti di Xs si associano valori decrescenti di Xk (e viceversa). • cresce in valore assoluto quanto più è forte la relazione lineare tra le variabili. • è tanto più piccola e vicina allo zero in assenza di una relazione lineare tra le due variabili. ___________________________________________________________________________________________________________________________________________ 12 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Esempio di relazione non lineare non individuabile attraverso la Covarianza: (1,3) (2,2) (3,1) (4,1) (5,2) (6,3) 3.5 3 2.5 2 1.5 1 0.5 0 0 2 4 6 8 ⇒Cov(Xs, Xk)=0 !!! Cov ( X s , X k ) ≠ 0 , non consente di stabilire l’entità del legame (la covarianza non è un numero puro): per ottenere un indice normalizzato occorre rapportare la covarianza al suo massimo E’ noto che: cov 2 ( X s , X k ) ≤ var( X s ) var( X k ) cov( X s , X k ) ≤ var( X s ) var( X k ) ___________________________________________________________________________________________________________________________________________ 13 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna quindi possiamo definire il coefficiente di correlazione (lineare) corr( X s , X k ) = rsk = cov( X s , X k ) var( X s ) var( X k ) ssk s s sk − 1 ≤ corr( X s , X k ) ≤ 1 − 1 ≤r sk ≤ 1 • rsk r=-1 : i dati sono allineati su una retta con coefficiente angolare negativo (perfetta rel. lineare inversa) • rsk =1 : i dati sono perfettamente allineati su una retta con coefficiente angolare positivo (perfetta rel. lineare diretta) • rsk =0 : non c’è associazione lineare tra le due variabili • -1< rsk <0 : esiste associazione (lineare) negativa tra le due variabili, cioè al crescere dell’una decresce l’altra; • 0< rsk <1: esiste associazione (lineare) positiva, cioè al crescere dell’una cresce anche l’altra; ___________________________________________________________________________________________________________________________________________ 14 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Si noti che: Cov ( Z s , Z k ) ≡ Corr ( X s , X k ) Correlazione spuria: può manifestarsi tra variabili per cui r ≠ 0 ma non vi è una effettiva relazione Con riferimento alla matrice X dei dati originari, consideriamo la covarianza tra tutte le possibili coppie di variabili (in numero pari a p x p): Cov( X s , X k ) = ssk per s,k =1,…, p e il coefficiente di correlazione tra tutte le possibili coppie di variabili: Corr ( X s , X k ) = rsk per s, k =1,…, p ___________________________________________________________________________________________________________________________________________ 15 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna LA MATRICE DI COVARIANZA Possiamo riorganizzare le p x p covarianze nella matrice di covarianza: s12 s21 ... SX = sk 1 ... s p1 s12 ... s1k s22 ... ... ... ... ... ... ... sk2 ... ... ... ... ... ... ... s1 p ... ... ... ... ... ... ... ... ... s 2p • è una matrice quadrata di dim. p x p • è una matrice simmetrica in quanto Cov( xs , xk ) = Cov( xk , xs ) ∀ s, k • sulla diagonale principale ha le varianze in quanto Cov( xs , xs ) = Var ( xs ) ∀ s • la matrice di covarianza può essere ottenuta in funzione della matrice degli scarti dalla media: 1~ ~ S X = X′ X n ___________________________________________________________________________________________________________________________________________ 16 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna LA MATRICE DI CORRELAZIONE r11 = 1 r21 ... R= rs1 ... rp1 r12 ... r1 k ... ... ... ... ... ... ... ... ... rss = 1 rsk ... ... ... ... ... ... ... ... ... ... r1 p ... ... ... ... rpp = 1 • è una matrice quadrata di dim. p x p • è una matrice simmetrica in quanto rsk = rks ∀ s, k • sulla diagonale principale ha valori pari ad 1 La matrice di correlazione può essere ottenuta in funzione della matrice degli scarti standardizzati: 1 R = Z′ Z n ___________________________________________________________________________________________________________________________________________ 17 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Strumento molto importante dell'analisi multidimensionale dei dati: pone in luce le relazioni lineari tra tutte le coppie di variabili. Più in dettaglio tale matrice ci indica: • quali coppie di variabili forniscono all'incirca le medesime informazioni ( rsk ≅ 1), in tal caso la considerazione di entrambe le variabili potrebbe portare ad una ridondanza di informazioni oppure una di queste due variabili potrebbe risultare utile per "prevedere" l'altra (analisi di regressione) • quali coppie di variabili non sono correlate linearmente ( rsk ≅ 0 ) - caso in cui le due variabili “portano” informazioni diverse ___________________________________________________________________________________________________________________________________________ 18 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Esempio Consideriamo i dati relativi alle variabili quantitative all’esempio 1 precedente: Età, Reddito e Consumo riferite Matrice dei dati (10 x 3) X= 20 19 21 75 45 35 21 60 18 12 1050 1000 2000 1200 2200 2500 1250 1800 1640 1400 800 900 1300 1000 800 1500 1000 1100 1350 1000 Matrice di Covarianza S= 396 1617 -325 1617 235644 65100 (3 x 3) -325 65100 50625 Matrice di Correlazione R= 1 0,167 0,167 1 -0,072 0,596 (3 x 3) -0,072 0,596 1 ___________________________________________________________________________________________________________________________________________ 19 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna ETÀ REDDITO CONSUMO ___________________________________________________________________________________________________________________________________________ 20 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna LA MATRICE DELLE DISTANZE/DISSOMIGLIANZE Consideriamo il concetto di prossimità/diversità tra unità statistiche …prossimità = somiglianza = similarità (tuttavia, quest'ultimo termine ha un significato ben preciso…) …diversità = dissomiglianza = dissimilarità La prossimità viene definita tra coppie di individui matrice di dim. n x n Indici di prossimità: • distanze • similarità per variabili quantitative per variabili qualitative ___________________________________________________________________________________________________________________________________________ 21 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna distanza La distanza tra due generiche unità statistiche i e j sarà, in generale, calcolata con riferimento a due vettori riga della matrice X, xi e xj: ( ) d xi , x j = dij per i , j = 1,..., n MATRICE DELLE DISTANZE d11 = 0 d12 d 0 21 ... ... D= ... di1 ... ... ... d n1 ... d1 j ... ... ... ... ... dij ... ... ... ... di dim. n x n: ... d1n ... ... ... ... ... ... ... ... ... 0 …ma non abbiamo ancora definito dij ….. ___________________________________________________________________________________________________________________________________________ 22 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Alcuni tipi di distanza LA DISTANZA EUCLIDEA Consideriamo il reddito ed il consumo mensile con riferimento ai primi 2 individui (esempio 1): (1050, 800) (1000, 900) ( x js , x jk ) ( xis , xik ) Xk consumo 1000 975 950 925 xik 900 875 850 825 xjk 800 775 750 980 990 1000 xis 1010 1020 1030 1040 1050 xjs 1060 Xs reddito ___________________________________________________________________________________________________________________________________________ 23 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Distanza euclidea tra i due individui, con riferimento a due variabili, reddito e consumo: (1050 - 1000) 2 + (800 - 900) 2 = 111,8 Con riferimento a p variabili: 2 d ij 2 d ij = = ( xis − x js ) 2 + ( xik − x jk ) 2 p 2 ∑ ( xis − x js ) s =1 Con riferimento alle variabili Età, Reddito e Consumo (Esempio 1): Matrice delle distanze 1 1 2 3 4 5 6 7 8 9 10 112 1074 256 1150 1610 283 809 807 403 2 3 4 112 1074 256 1077 231 1077 856 231 856 1204 539 1020 1616 539 1393 269 808 74 826 286 608 782 363 565 412 671 210 Distanza euclidea 5 6 7 1150 1610 283 1204 1616 269 539 539 808 1020 1393 74 762 971 762 1346 971 1346 500 807 560 785 873 524 825 1209 150 8 809 826 286 608 500 807 560 300 415 9 807 782 363 565 785 873 524 300 10 403 412 671 210 825 1209 150 415 424 Attenzione!!! Questa matrice presenta un problema: le variabili non sono espresse nella stessa unità di misura …le distanze calcolate risentono di tale problema…. 424 Questa è una matrice di dissimilarità ___________________________________________________________________________________________________________________________________________ 24 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna LA DISTANZA DI MINKOWSKI Definizione più generale, distanza di ordine q: 1q q p d = x − x ∑ q ij is js s =1 q ≥1 Attenzione: le somme considerate, e, quindi, le relative distanze, hanno senso solo se tutte le variabili sono espresse nella stessa unità di misura Anche in tal caso, tuttavia, le distanze considerate non sono del tutto appropriate per misurare la diversità tra le unità in quanto esse risultano influenzate dai caratteri con più elevato ordine di grandezza e maggiore variabilità (che presentano differenze preponderanti rispetto alle altre) Ad esempio X1 = (45 X2 = (30000 2 d12 =((45-43)2+(30000-35000)2)1/2=5000 43 35000 47) 34000) il peso di X1 sul calcolo di d è trascurabile! Come superare tale problema? ___________________________________________________________________________________________________________________________________________ 25 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Ad esempio, calcolando le distanze con riferimento agli scarti standardizzati Z: Matrice delle distanze Cas o 1 2 3 4 5 6 7 8 9 10 1 ,44 2,81 2,77 2,54 4,15 ,93 2,72 2,59 1,15 2 ,44 2,58 2,73 2,69 3,95 ,65 2,64 2,27 ,95 3 2,81 2,58 3,27 2,43 1,45 1,94 2,08 ,75 1,78 Distanza euclidea 4 5 6 2,77 2,54 4,15 2,73 2,69 3,95 3,27 2,43 1,45 2,56 3,81 2,56 3,05 3,81 3,05 2,58 2,34 3,30 1,44 1,65 2,48 3,21 2,87 1,97 3,03 2,37 3,20 7 ,93 ,65 1,94 2,58 2,34 3,30 2,19 1,67 ,52 8 2,72 2,64 2,08 1,44 1,65 2,48 2,19 2,28 2,46 9 2,59 2,27 ,75 3,21 2,87 1,97 1,67 2,28 10 1,15 ,95 1,78 3,03 2,37 3,20 ,52 2,46 1,57 1,57 Questa è una matrice di dissimilarità anche se la standardizzazione attenua le differenze… ___________________________________________________________________________________________________________________________________________ 26 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Distanza di Mahalanobis Consente di “eliminare” la correlazione tra le variabili: [ ] ′ S −1 (x − x ) ( ) d = x − x M ij i j i j 1 2 coincide con la dist. euclidea su var. stand. incorrelate Le distanze ponderate Nel caso in cui si voglia attribuire diversa importanza ad ogni variabile (anche se la determinazione dei pesi lascia ampi margini alla soggettività). Distanza di MINKOWSKI PONDERATA Definizione più generale, distanza di ordine q: 1q q p d = x − x w ∑ q ij is js s s =1 q ≥1 in cui ws è il peso attribuito alla variabile s-sima ___________________________________________________________________________________________________________________________________________ 27 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna RELAZIONE TRA 1) DISTANZA EUCLIDEA CALCOLATA TRA LE SINGOLE OSSERVAZIONI ED IL PUNTO MEDIO E DEVIANZA (NUMERATORE DELLA VARIANZA) Con riferimento alle p variabili (s=1,…,p) consideriamo i valori medi xs (vettore dei valori medi): 2) centroide x = (x1 , x2 ,..., xs ,..., x p ) 6 5 4 M(X2) 3 2 1 0 M(X1) ___________________________________________________________________________________________________________________________________________ 28 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Somma delle Devianze riferite alle p variabili = somma delle distanze euclidee al quadrato tra le singole osservazioni ed il centroide x : ∑ ∑ ( xis p n s =1 i =1 − xs ) = ∑ ∑ ( xis − xs ) = ∑ 2 d 2 (i , x 2 n p 2 i =1s =1 n i =1 ) INDICI DI SIMILARITA' Sij Per fenomeni dicotomici (….1=presenza, 0=assenza…) Supponiamo di considerare p caratteri dicotomici. La misura della similarità tra due unità statistiche i e j si basa sulla seguente tabella i\j 1 0 tot 1 a c a+c 0 b d b+d tot a+b c+d p a = n. di fenomeni presenti contemp. nelle 2 unità (co-presenze) d = numero di fenomeni assenti in entrambe le unità (co-assenze) b = numero di fenomeni presenti in i ma non in j c = numero di fenomeni presenti in j ma non in i • a e d segnalano similarità (anche se a concorre maggiormente a definire la similarità) • b e c segnalano dissimilarità ___________________________________________________________________________________________________________________________________________ 29 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Esempio Con riferimento a due città osserviamo la presenza dell'aeroporto (AP), della stazione ferroviaria (SF), dell'ingresso in autostrada (IA), del porto (P) -- Si noti che sono possibili più risposte….(simile a più variabili di tipo dicotomico) Città 1 Città 2 Città 1 \ città 2 1 0 tot …alcuni indici… AP 0 1 SF 1 0 IA 1 1 P 0 1 c b a c 1 1 2 3 0 1 0 1 tot 2 2 4 Indice di similarità di Russel e Rao: 1 S ij = a = 1/ 4 p ___________________________________________________________________________________________________________________________________________ 30 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna Indice di similarità di Jaccard 2 S ij = a = 1/ 4 a+b+c (usato se le co-assenze sono ritenute poco significative) PER FENOMENI POLITOMICI (AD ES.: TITOLO DI STUDIO) E' necessario innanzitutto passare ad una codifica di tipo disgiuntivo di ognuna delle variabili qualitative. In questo caso le co-assenze non hanno nessun significato e quindi gli indici da impiegare sono quelli che valutano la similarità sono in funzione delle co-presenze (I. di Jaccard) Ci sono alcuni indici che valutano la somiglianza con riferimento a variabili quantitative e qualitative considerate congiuntamente… ___________________________________________________________________________________________________________________________________________ 31 Unità 2 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna