Gerardo Massimi Ambiti e sistemi territoriali Un approccio esplorativo alle tematiche geospaziali Strumenti esplorativi nell’analisi dei dati Versione preliminare al dicembre 2001 Spezzone di una carta dei posti letto per abitante negli esercizi turistici italiani al 1991. WP Web 2001 - Serie RE 6 Laboratorio di Geografia - Dipartimento di Studi Filosofici, Storici e Sociali Facoltà di Lingue e Letterature Straniere Ud’A di Chieti – sede di Pescara G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 2 STRUMENTI ESPLORATIVI NELL’ANALISI DEI DATI Il grafico a rami e foglie o stem-and-leaf I sommari a cinque numeri o letter-value displays Numerosità dei rami nei diagrammi a rami e foglie e delle classi negli istogrammi e nelle carte a coroplete I diagrammi a scatola o box plots Medie ordinate o medie troncate La media TRI Impiego della mediana per la ricerca dei valori anomali Analisi esplorativa dei dati spaziali – baricentro e mediana Calcolo della mediana con dati raggruppati La mediana spaziale bivariata Un caso di studio L’approccio esplorativo alla regressione Procedure alternative per la regressione I rischi della regressione La standardizzazione esplorativa dei dati Lo scaling Osservazioni sulla trasformazione dei dati I grafici del tipo Q-Q plots Conclusioni interlocutorie Applicazione al valore aggiunto nelle province per il 1991 4 4 7 8 11 13 15 15 16 18 20 22 24 27 28 29 32 34 37 40 41 Figura 1 Stesura preliminare di un diagramma a rami e foglie. 5 Figura 2 Versione intermedia e finale di un diagramma a rami e foglie. 6 Figura 3 Visualizzazione degli elementi caratteristici di un diagramma a rami e 7 foglie. Figura 4 Schema di sommario a 5 numeri o letter-value display. 8 Figura 5Esempio di sommario a 5 numeri. 8 Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 9 Figura 7 Rappresentazione degli elementi costitutivi di un diagramma a scatola. 11 Figura 8 Famiglia di diagrammi a scatola semplificati. 12 Figura 9 Medie ordinate per la stazione pluviometrica di Campli. 13 Figura 10 Sequenza di medie ordinate o troncate. 14 Figura 11 Confronto tra la posizione del baricentro e quella della mediana tra i capoluoghi di provincia della regione Lombardia in assenza di ponderazione. 17 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 3 Figura 12 Distribuzione spaziale dei baricentri ponderati nella regione Lombardia 17 Figura 13 Ogive delle frequenze e mediane. 18 Figura 14 L’area mediana dell’insieme di luoghi puntiformi “capoluoghi di provincia della regione Lombardia”. 21 Figura 15 Popolazione residente nei comuni della provincia di Teramo al 23 censimento 1991 per aree anulari equivalenti. Figura 16 Dispersione rispetto a Frosinone degli attributi superficie, popolazione e valore aggiunto nei comparti indicati in legenda (anno di riferimento 1991), 23 rilevati nelle province italiane, Frosinone inclusa. Figura 17 Esempi di regressione con il metodo dei minimi quadrati - caso dei 25 dipendenti regionali e caso dei dipendenti provinciali. Figura 18 Esempio di regressione con il metodo dei minimi quadrati - caso dei 25 dipendenti comunali. Figura 19 Esempio di regressione esplorativa con il metodo dei 3 gruppi. 26 Figura 20 I rischi della regressione. 28 Figura 21 Distribuzione delle distanze dei capoluoghi comunali dal capoluogo provinciale in provincia di Gorizia . 30 Figura 22 Confronto grafico tra nove distribuzioni statistiche. Indicatori originali. 30 Figura 23 Confronto grafico tra nove distribuzioni statistiche. Indicatori 31 standardizzati. Figura 24 Esempio di scaling. 33 Figura 25 Esempio di applicazione dello scaling. 33 Figura 26 Famiglia di trasformazioni tramite potenze. 35 Figura 27 Popolazione residente nelle province italiane al censimento 1981: 36 diagrammi della radice quadrata e della radice cubica. Figura 28 Popolazione residente nelle province italiane al censimento 1981: 36 diagramma della trasformazione logaritmica. Figura 29 Schema metacartografico dell’attributo superficie nelle province italiane, 38 Figura 30 Confronto tra le distribuzioni degli attributi superficie e popolazione residente nelle province italiane al censimento 1991. 39 Prospetto 1 Esempio di medie di posizione con distribuzioni discrete di dati territoriali puntiformi. 19 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 4 STRUMENTI ESPLORATIVI NELL’ANALISI DEI DATI Il grafico a rami e foglie o stem-and-leaf Il primo compito del ricercatore, nell'approccio tradizionale, di fronte a una serie di dati statistici consiste in una preliminare ispezione delle informazioni numeriche al fine di raggrupparle secondo prefissate regole, ritenute idonee a far emergere soggiacenti regolarità. In particolare, è antica e radicata consuetudine quella di disegnare istogrammi delle frequenze, ma le modalità di esecuzione non sono affatto pacifiche e comportano, in ogni caso, il sacrificio di un gran numero di informazioni, nel senso che situazioni distinte confluiscono in contenitori, le singole colonne dell'istogramma, nei quali tutte le differenze sono eliminate. Considerazioni similari valgono per la costruzione di cartogrammi a coroplete nel senso che essi comportano, in via preliminare, la definizione del numero delle classi o colori (se si utilizzano tonalità di grigio o tratteggi, il problema è sempre lo stesso) da utilizzare; se esse sono stabilite in accordo ai criteri di numerosità dei rettangoli negli istogrammi, si possono seguire le raccomandazioni di Norcliffe (1977) che propone k = √ n, dove k è il numero delle classi e n il numero dei dati da rappresentare. Ma queste raccomandazioni non sono assecondabili in moltissimi casi; infatti, per n maggiore di 100 le rappresentazioni grafiche tendono a svolgere il ruolo di elementi decorativi, e in ogni caso possono obliterare aspetti di grande rilievo se le classi sono equispaziate 1. Tornando al problema degli istogrammi, si rileva come l'EDA aggiri con eleganza e successo gli ostacoli con la proposta di un mix grafico numerico, chiamato stem-andleaf, traducibile in italiano come grafico a rami e foglie. La realizzazione del grafico (figg. xxx) – l’esempio è costruito con il valore dei seminativi nelle regioni agrarie abruzzesi (riferimento 1991; i dati sono riportati in tab. 1) – comporta i seguenti passi: A - si stabilisce l'unità di misura, ad esempio i milioni di lire, e si inizia il diagramma con tale indicazione; B - si individuano i valori minimo (2.120) e massimo (19.600) e si impone un ordinamento ascendente (crescente) o discendente (decrescente) dei dati. Se l'ordine è crescente si scrivono in colonna le cifre dei milioni da 2 a 19; esse costituiscono i rami; C - si ricercano le foglie: esse sono date dalle cifre delle centinaia di migliaia di lire. Ad esempio le foglie del ramo 2 si individuano isolando tutti valori compresi tra 2.0 e 2.9 milioni di lire; D - si completa il diagramma con tutte le foglie e si eliminano, eventualmente (lo scrivente è d’opinione contraria) i rami secchi ( quelli, cioè, non rappresentati nella serie dei dati originali); G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 5 E - si conteggiano le foglie ramo per ramo (o in altre parole si individuano le frequenze assolute) e le si cumulano, al fine di verificare che il numero delle foglie corrisponda al numero totale dei dati, e retrocumulano. A questo punto la sintesi grafico-numerica dell'EDA mostra tutti i suoi vantaggi rispetto all'approccio tradizionale in quanto unifica efficacemente più strumenti tipici del secondo: il diagramma della dispersione, l'istogramma, la tabella delle frequenze relative cumulate e retrocumulate. Il confronto tra i valori cumulati e retrocumulati permette l’introduzione di un importante e nuovo indicatore, la profondità, da intendersi come la distanza di un dato ramo dall’estremo più vicino della distribuzione. Il prodotto finale non include le colonne dei valori cumulati e retrocumulati, non necessari per la comprensione dei caratteri fondamentali delle distribuzioni, desumibili dalle profondità, ma si avvale di una linea verticale ben marcata da disegnare tra la colonna dei rami e la colonna delle foglie; il tutto, per l’esempio in esame, si presenta come in figura … U = 1 milione di lire Rami Foglie 2 7741774974 3 997770 45 50 6 534 7 01 80 9 52 10 _ 11 336 12 _ 13 _ 14 _ 15 98 16 _ 17 _ 18 61 19 6 Numero delle foglie Cumulate 10 10 6 16 1 17 1 18 3 21 2 23 1 24 2 26 26 3 29 29 29 29 2 31 31 31 2 33 1 34 Figura 1 Stesura preliminare di un diagramma a rami e foglie. Retrocumulate 34 24 18 17 16 13 11 10 8 8 5 5 5 5 3 3 3 1 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 6 Da notare il non ordinamento delle foglie. U = 1 milione di lire Numero delle foglie idem idem Rami Foglie o frequenze cumulate retrocumulate Profondità 2 1444777779 10 10 34 10 3 77799 6 16 24 16 4 5 1 17 18 17 5 0 1 18 17 17 6 345 3 21 16 16 7 01 2 23 13 13 8 0 1 24 11 11 9 25 2 26 10 10 10 0 26 8 8 11 336 3 29 8 8 12 0 29 5 5 13 0 29 5 5 14 0 29 5 5 15 39 2 31 5 5 16 0 31 3 3 17 0 31 3 3 18 16 2 33 3 3 19 6 1 34 1 1 U = 1 milione di lire Rami 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Foglie 1444777779 77799 5 0 345 01 0 25 336 39 16 6 Figura 2 Versione intermedia e finale di un diagramma a rami e foglie. Versione intermedia, a sinistra: da notare l’ordinamento delle foglie e la colonna intitolata profondità. La profondità è data dal valore più piccolo tra le frequenze cumulate e retrocumulate; sul piano concettuale corrisponde alla distanza, come numero di casi , dall'estremo (il minimo o il massimo più vicino);la profondità massima compete al ramo o ai rami con il valore mediano della distribuzione: al riguardo si noti che, essendo pari il numero dei casi (34, per la precisione), la distribuzione in esame ha 2 valori mediani, il 17° e il !8°, o la loro media aritmetica. Versione finale, a destra: nella versione finale, in forma semplificata al massimo di un diagramma a rami e foglie, traspare con grande immediatezza la configurazione asimmetrica della distribuzione statistica soggiacente e la poca significatività, in casi del genere, della media aritmetica come indicatore sintetico; infatti, essa vale 7.3 milioni di lire e risulta superiore a ben 22 regioni agrarie su 34. Osservazione generale: è strettissima la somiglianza del diagrammi a rami e foglie con il grafico a barre avente suddivisione uniforme delle classi. La somiglianza è accentuata laddove le foglie sono iscritte su un fondo in colore. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 7 40 35 Frequenze 30 Figura 3 Visualizzazione degli elementi caratteristici di un diagramma a rami e foglie. 25 20 15 Il grafico è stato costruito con gli elementi del diagramma a rami e foglie riportato nella figura precedente. 10 5 0 0 5 10 15 20 Rami Frequenze Frequenze cum. Frequenze retrocum. Profondità I sommari a cinque numeri o letter-value displays I diagrammi in esame possono essere integrati da indicazioni, consistenti nell’apposizione di simboli letterali, circa i rami che accolgono la mediana e i quartili, o anche da segmentazioni che discriminano i casi anomali (sul come riconoscerli, v. più avanti nel testo). Sommari delle distribuzioni molto più semplici, ma parimenti utili per la loro essenzialità e immediatezza di lettura, sono nell’ambito dell’EDA i cosiddetti sommari a 5 numeri, conosciuti anche come letter-value displays. Essi si presentano in conformità allo schema grafico illustrato in figura 4 ed esemplificato in figura 6 per i dati già utilizzati per illustrare i diagrammi a rami e foglie. Noti, ma poco diffusi, sono i sommari a 7 numeri, che si realizzano introducendo gli ottili; per le modalità di riconoscimento dei casi anomali si rinvia a quanto si scrive a proposito dei diagrammi a scatola. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 8 n (numero dei casi) Nome della distribuzione Mediana M (profondità della mediana Quartile inferiore Quartile superiore F (Profondità del quartile) Estremo inferiore Estremo superiore Soglia di anomalia inferiore Soglia di anomalia superiore Eventuali casi anomali Figura 4 Schema di sommario a 5 numeri o letter-value display. La lettera F indica il quartile, in inglese fourth. n = 34 Regioni agrarie abruzzesi M = 17.5 F = 8.5 Valore dei seminativi per l'anno 1991 56.7 3722.5 2120 9425 19600 17979 18199;18653; 19600. Figura 5Esempio di sommario a 5 numeri. Numerosità dei rami nei diagrammi a rami e foglie e delle classi negli istogrammi e nelle carte a coroplete Tornando ai diagrammi a rami e foglie, sembra opportuno rilevare come anche per essi possa manifestarsi il problema della numerosità delle linee diagrammatiche (i rami). A tal proposito, senza entrare in discussioni tecniche, si richiamano le formulazioni più seguite: k = 10 log n; k = 2√ n; k = 1 + log2 n G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 9 dove k è il numero delle linee ed n il numero dei casi: per n inferiore a 100 si preferisce la seconda formulazione; la prima, per n maggiore di 100; la terza, per n molto grande. In linea generale, la numerosità dei rami nei diagrammi a rami e foglie, delle classi negli istogrammi, e dei colori nelle carte a coroplete, deve rispondere a criteri di leggibilità delle rappresentazioni e di salvaguardia, per quanto possibile, del contenuto informativo nelle distribuzioni dei dati da raggruppare, specie quando il raggruppamento è la fase preliminare di un prodotto cartografico. È ovvio che il numero k delle classi, se n è il numero dei valori distinti in una data distribuzione, deve risultare compreso tra 1 e n, ma soltanto l’esperienza e il buon senso possono guidare in una scelta per la quale mancano regole generali. La letteratura geografica e statistica sembra comunque concordare verso valori di k compresi tra 4 e 12-16, a seconda - nel caso delle coroplete - dell’impiego di graduazioni delle intensità di 1 o 2 colori. Non mancano, tuttavia, proposte precise che possono aiutare nella scelta del numero delle classi: 1) Norcliffe (1977) k = n0.5 2) Huntsberger (1961) k = 1 + 3.3logn 3) Brooks e Carruthers (1953) k < 5logn 4) Cowden (1948) 6 ≤k ≥ 16 100 80 A: Norcliffe; B: Huntsberger; C. Brooks e Carruthers. k 60 Figura 6 Confronto grafico tra alcune proposte circa la numerosità delle classi. 40 20 A parere dello Evans (1977), il disegno delle classi, allorquando 10 100 1000 10000 esse sono alla base delle carte a n coroplete, dovrebbe fondarsi su una suddivisione uniforme quando, così A B C facendo, esse risultassero, grosso modo, ugualmente numerose (distribuzioni rettangolari). Negli altri casi valgono questi suggerimenti: a) se la suddivisione uniforme implica un forte addensamento delle frequenze nella classe centrale (distribuzioni leptocurtiche), le classi dovrebbero essere ridisegnate con l’assunzione dello scarto quadratico medio come unità di misura; b) se le classi equispaziate originano un disegno a J o a J rovesciata, le stesse si ridisegnano scandendo gli intervalli con progressioni geometriche, con ragioni tanto più elevate quanto più marcata è l’asimmetria nella distribuzioni dei dati; c) se le classi equispaziate originano rappresentazioni a U o a M il ricorso a classi ridisegnate in maniera da risultare egualmente numerose, tramite il ricorso alle medie di posizione (mediana, quartili e percentili) può essere la soluzione più idonea. 0 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 10 In conclusione i criteri più diffusi nella redazione di carte a coroplete si riassumono in questi termini schematici: 1. Esogeni: significativi in relazione ai valori di soglia che non sono derivati dai dati cartografati, come un rapporto tra sessi pari a 1. 2. Arbitrari: numeri privi di particolare significato, sovente con intervalli diseguali tra le classi, come 5, 10, 20, 30, 80,120... 3. Sistemi ideogratici diversi, influenzati dalle particolarità insite nei dati da cartografare, del tipo: a) multimodali, grazie all'impiego di intervalli naturali nella distribuzione di frequenza dei dati; b) multigraduati, con intervalli corrispondenti ai punti nei quali la curva delle frequenze cumulate presenta variazioni di inclinazione; c) basati sulla contiguità, al fine di rendere massima l'estensione e minimo il numero delle regioni di una data classe; d) basati sulla correlazione, al fine di rendere massima la somiglianza rispetto a una data carta; e) su classi percentuali, che contengono un numero uguale di aree o superfici grosso modo uguali delle aree; f) su limiti tra le classi ancorati alla media, quando la media della distribuzione di frequenza e utilizzata come una soglia per una prima suddivisione in due classi, poi queste ultime sono suddivise ottenendosi così quattro classi, e via di seguito. 4. Vari schemi periodici, con classi i cui limiti presentano tra di loro una relazione matematica definita, come: a) percentuali rispetto alla normale, con limiti tra classi posti in relazione a classi di uguale frequenza in una prefissata curva normale; b) unita della deviazione standard, centrate sulla media, che e una classe centrale, se il numero delle classi e dispari, e un limite di classe, se le stesse sono pari; c) intervalli uguali; d) intervalli uguali in una scala dei reciproci; e) intervalli uguali in una serie trigonometrica; f) progressioni geometriche nell'ampiezza delle classi; g) progressioni aritmetiche; h) progressioni curvilineari, quando il grafico del logaritmo del limite di classe in funzione del logaritmo del numero della classe si configura come una retta. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 11 I diagrammi a scatola o box plots Un carattere distintivo dell’EDA è la diffidenza nei riguardi della media aritmetica quando essa è impiegata per sintetizzare le distribuzioni di dati, in ragione della poca resistenza di tale media nei riguardi dei valori estremi, anomali o errati. Per contro, mediana e quartili sono utilizzati ampiamente nell’analisi esplorativa dei dati, nel cui ambito si utilizzano per una rappresentazione grafica efficace e molto semplice: i diagrammi a scatola (box-and-whiskers plots o semplicemente box plots)3. Il tutto si riduce a riportare in scala, su una linea, questi valori: il minimo, il primo quartile, la mediana, il terzo quartile, il massimo: sulla linea si disegna inoltre un rettangolo avente per base l’intervallo tra i due quartili e altezza a piacere - il buon senso consiglia 4-5 mm - , rettangolo che poi si suddivide in due parti, che si estendono a destra e a sinistra della mediana (v. figura 7). Intervallo interquartilico Primo quartile Mediana Minimo Terzo quartile Massimo Campo di variazione dei dati Figura 7 Rappresentazione degli elementi costitutivi di un diagramma a scatola. La differenza tra il terzo quartile e il primo quartile prende il nome di campo di variazione interquartilico; essa è utilizzata nell’analisi esplorativa, della quale parleremo in seguito, per il riconoscimento dei valori anomali da un punto di vista statistico (ma non geografico): quartile superiore - quartile inferiore = dF I valori anomali sono quelli maggiori di terzo quartile +1.5 dF e inferiori a primo quartile -1.5 dF. Il grado di anomalia può essere discriminato introducendo soglie più severe corrispondenti a terzo quartile +3dF e primo quartile -3dF. (numerosi esempi di distribuzioni con valori anomali sono reperibili in uno studio dello scrivente sul valore aggiunto attribuito alle province italiane nel 1991). G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 12 I programmi di statistica consentono di disegnare con immediatezza i diagrammi a scatola di distribuzioni contenenti centinaia di elementi, ma tali programmi sono costosi e di non facile utilizzo per i non esperti che, però, si possono avvalere di software più semplici e molto diffusi. Un esempio del genere è il programma Microsoft Excel, che offre diverse alternative, con il quale sono stati realizzati i grafici semplificati riportati nel testo. Esercizi extralberghieri posti letto Alberghi: posti letto Alberghi: numero Bar, caffè, gelaterie e birrerie Ristoranti, osterie e tavole calde Commercio ambulante Di cui: non alimentari T otale 0 Minim o 5 Quartile I 10 Mediana 15 Quartile III 20 Max Figura 8 Famiglia di diagrammi a scatola semplificati. Il grafico illustra, tramite diagrammi a scatola semplificati, i valori di posizione caratteristici delle distribuzioni statistiche “autorizzazioni per il commercio ecc” nelle province italiane, espresse in termini di densità (rapporto con la superficie) e intensità (rapporto con la popolazione) relative nei riguardi dell’Italia (il valore medio nazionale è sempre uguale a 1). Per tutti i raggruppamenti statistici: in basso, l’intensità relativa; in alto, la densità relativa. I dati analitici sono riportati nella tab. xxxx. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 13 Medie ordinate o medie troncate Anche l’Eda si avvale delle medie aritmetiche, ma con una selezione preliminare dei dati sui quali effettuare le elaborazioni. In particolare si segnalano le medie ordinate (anche medie troncate), o trimmed means, molto utili per valutare o per eliminare l'incidenza dei valori estremi, verso l’alto e verso il basso. Per il loro calcolo, dopo aver ordinato i dati in senso crescente o decrescente, si procede come per una normale media aritmetica, ma omettendo una pari percentuale iniziale e terminale dei dati. È consuetudine (Rent, , p. 203) eliminare il primo e l'ultimo 10% (decili estremi), oppure il primo e l'ultimo 25% (così facendo si ottiene la cosiddetta media interquartile). Se si indica con p la % dei dati da eliminare, risulta: (100 - 2p)% = media aritmetica, per p = 0 % (100 - 2p)% = mediana, per p=50 % (100 - 2p)% = semimediana o media interquartile, per p=25 % Si noti che, in linea di principio, il valore di p deve essere scelto a secondo del grado di resistenza che si intende attribuire alla media (massima quando p = 50), ma anche in ragione della natura e dell'andamento dei dati. Pertanto, non bisognerebbe mai limitarsi ad un solo valore di p e, al contrario, avvalersi di una successione di termini piuttosto numerosa, rivelatrice di una più o meno rapida convergenza, dalla media aritmetica classica alla mediana: i risultati così conseguiti sono visualizzabili con un grafico elementare di correlazione tra medie e p%. Cam pli - Medie ordinate delle precipitazioni Figura 9 Medie ordinate per la stazione pluviometrica di Campli. mm di pioggia 1020 1010 1000 990 980 0 5 10 15 20 25 p% 30 35 40 45 50 Il commento è immediato, nel senso che l'incidenza dei valori estremi si deve ritenere modesta, seppure con un maggiore grado di anomalia dei valori più elevati, in ragione dell'andamento discendente del grafico. Esempio: nella stazione pluviometrica di Campli il Servizio Idrografico Italiano ha registrato tra il 1924 e il 1950 gli afflussi annui in mm indicati nella prima parte della tabella che seguenel testo. Ordinando i dati in senso crescente si ottiene una nuova tabella dalla quale si ottengono immediatamente (ricorrendo ad un comune foglio elettronico di calcol, quale Excel 97) le medie p% per G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 14 p = 0; 1015 p = 7; 1016 p = 17; 1017 p = 28; 1006 p = 38 999 p = 50 991 media aritmetica mediana I risultati così conseguiti sono visualizzabili con un grafico elementare di correlazione tra medie e p%, al fine di verificare il tipo di percorso che si compie per passare dalla media aritmetica alla mediana. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 644 668 777 865 870 887 892 903 915 920 924 953 978 982 993 996 997 1002 1021 1072 1084 1129 1155 1183 1262 1324 1332 1350 1357 n = 29; p = 0 p=0 n = 25 media 1015 p = 7% media = 1017 n = 19 p = 17 % media = 999 n = 13 p = 28 % media = 987 n=7 p = 38 % media = 986 mediana =993 Figura 10 Sequenza di medie ordinate o troncate. L’esempio è stato costruito con i dati della stazione pluviometrica Campli in provincia di Teramo per il periodo 1921-1950. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 15 La media TRI Altra particolare media aritmetica è la TRI, utilizzata nelle procedure che si richiamano all’EDA per riassumere le caratteristiche dell’intervallo interquartilico, allorquando tale intervallo risulta asimmetrico o si ritiene possa essere tale: media TRI = ((primo quartile + mediana) + (mediana + terzo quartile))/4 Da precisare che l’asimmetria è tanto più marcata quanto maggiore è la differenza tra la mediana e la media TRI. Esempio: superficie territoriale delle province italiane al censimento 1991: Minimo 212.0 Primo quartile Mediana Terzo quartile Massimo Media aritmetica Media TRI 2079.0 2759.0 3645.0 7520.0 3171.6 2810.5 Impiego della mediana per la ricerca dei valori anomali La procedura, riportata in Sprent (p. 196-197), si basa sulla seguente condizione di anomalia xo - med(xi) / med[xi - med(xi) ]> 5 il valore 5 sarebbe giustificato dal fatto che in una distribuzione approssimativamente normale tale rapporto dovrebbe risultare inferiore per tutti i dati, tranne quelli anomali. Il denominatore med[xi - med(xi) ] prende il nome di deviazione assoluta dalla mediana o MAD. Dati originali Dati ordinati Deviazioni dalla mediana 8.9 6.2 7.2 5.4 3.7 2.8 2.8 3.7 5.4 6.2 6.9 7.2 -4.1 -3.2 -1.5 -0.7 0 0.3 Deviazioni Id. ordinate Rapporti Iid. in assolute d'anomalia valoee dalla assoluto mediana 4.1 0 1 3.2 0.3 -0.35 1.5 0.7 0.15 0.7 1.5 -0.75 0 2 -1.6 0.3 3.2 -2.05 1 0 0 1 2 2 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 16 17.2 13.7 6.9 8.9 13.7 17.2 Mediana = 6.9 2 6.8 10.3 2 6.8 10.3 4.1 5.15 6.8 3.4 10.3 0 Mediana (MAD) = 2.0 5 3 0 Rapporto superiore alla soglia d'anomalia Valore anomalo L’interesse verso questo rapporto d’anomalia sembra, allo scrivente, alquanto modesto. Analisi esplorativa dei dati spaziali – baricentro e mediana L’interesse dell’EDA nei riguardi delle medie di posizione si riflette nello studio delle tendenze centrali e della dispersione nelle distribuzioni di punti. Il luogo centrale per eccellenza è, secondo una radicata e lunga consuetudine, identificato nel baricentro o nel luogo puntiforme più vicino ad esso, ma può essere ricercato anche con il criterio della mediana spaziale4, più in linea con le normali esigenze geografiche in quanto quest’ultima gode della proprietà del minimo rispetto alla somma delle distanze lineari5 (il baricentro, invece, rappresenta il minimo della somma delle distanze al quadrato; la mediana è alla base dell’impostazione della localizzazione secondo Isard, il baricentro di Weber, che però aveva intuito alcune proprietà della mediana, senza trarne tutte le conclusioni). La procedura per ricercare la mediana è illustrata (figure 11 e 13) assumendo come caso esemplificativo i capoluoghi provinciali della regione Lombardia, in relazione al carico di bovini al 1991 nelle corrispondenti province, e distinguendo i due casi fondamentali: la mediana semplice e quella ponderata. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 17 140 120 SO N D R IO 100 VA R ESE 80 km COM O B ER G A M O m edia m ediana 60 40 B R ESC IA M ILA N O 20 M A N TO VA C R EM O N A P A VIA 0 0 20 40 60 80 100 120 140 160 180 km Figura 11 Confronto tra la posizione del baricentro e quella della mediana tra i capoluoghi di provincia della regione Lombardia in assenza di ponderazione. 20 Ovini 10 bar.ST semplice km 0 SAT SAU -10 Bovini -20 Suini -30 0 10 20 30 40 km Figura 12 Distribuzione spaziale dei baricentri ponderati nella regione Lombardia G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 18 Coordinata x Coordinata y 100.00 100.00 75.00 75.00 50.00 50.00 25.00 25.00 0.00 0.00 0 20 40 % 60 80 Cum 100 120 140 160 180 0 Retrocum 20 40 % 60 Cum 80 100 120 140 Retrocum Figura 13 Ogive delle frequenze e mediane. Sinistra: andamento nel senso della longitudine delle percentuali e delle percentuali cumulate dei capi bovini nelle province lombarde. Destra: andamento nel senso della latitudine delle percentuali e delle percentuali cumulate dei capi bovini nelle province lombarde. Osservazione: Devono essere sempre ben presenti due fondamentali proprietà della mediana: a) la mediana spaziale dipende dall’orientamento degli assi: se essi ruotano, il punto mediano può spostarsi e disegnare un’area centrale (il baricentro è, invece, sempre un punto, indipendente dagli orientamenti degli assi); b) se un elemento ha un peso pari o superiore al 50%, il valore mediano compete, in ogni caso, a tale elemento. Nel caso della regione Lazio la popolazione residente nella città di Roma (2.693.383 ab.), alla data del censimento 1991, è pari al 53,5% del totale (5.031.230 ab.); pertanto, senza necessità di elaborazioni dei dati si può assegnare a Roma la posizione mediana. Calcolo della mediana con dati raggruppati Per il calcolo della mediana con dati raggruppati, come le classi quinquennali d’età, si procede prima ad individuare la classe contenente la mediana (quella che accoglie il 50% della popolazione cumulata), e poi ad applicare la seguente relazione: lm +((Pt/2) - SPa)/(Pm-Pm-i)]. i G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 19 dove: lm = limite inferiore in anni della classe contenente la mediana; SPa = popolazione cumulata fino alla classe contenente la mediana; Pm = popolazione effettiva della classe contenente la mediana; Pt = popolazione totale; i = intervallo di ciascuna classe. In maniera analoga si procede per il calcolo dell’età del primo e del terzo quartile. Prospetto 1 Esempio di medie di posizione con distribuzioni discrete di dati territoriali puntiformi. Capoluoghi comunali della provincia di Teramo ordinati per distanze (in km) crescenti a partire dal capoluogo; le frequenze cumulate e retrocumulate si riferiscono alla popolazione residente (in % del totale provincia) alla data del censimento 1921. Nome distanza Cum Retrocum Nome distanza Cum Retrocum Teramo 0.0 12.5 100.0 Pietracamela 18.2 56.5 44.2 Torricella Sicura 4.1 14.1 87.5 Torano Nuovo 18.6 57.4 43.5 Campli 8.0 18.6 85.9 Sant'Egidio alla Vibrata 18.7 59.2 42.6 Basciano 8.1 19.5 81.4 Nereto 19.1 60.8 40.8 Canzano 8.1 20.5 80.5 Castelli 19.3 62.4 39.2 Castellalto 9.3 22.0 79.5 Arsita 19.7 63.3 37.6 Penna Sant'Andrea 9.7 22.6 78.0 Ancarano 19.9 64.1 36.7 20.3 66.4 35.9 Montorio al Vomano 9.7 26.0 77.4 Valle Castellana Cermignano 11.3 27.6 74.0 Corropoli 20.3 68.6 33.6 Bellante 11.6 29.8 72.4 Crognaleto 20.7 71.1 31.4 Tossicia 12.7 31.0 70.2 Montefino 20.9 72.0 28.9 Cortino 13.3 32.2 69.0 Giulianova 21.6 76.0 28.0 Castel Castagna 13.3 32.9 67.8 Tortoreto 21.6 78.3 24.0 Colledara 13.3 34.1 67.1 Castiglione Messer Raimondo 21.8 80.0 21.7 Civitella del Tronto 13.6 38.7 65.9 Controguerra 22.7 81.6 20.0 Notaresco 15.2 41.0 61.3 Castilenti 23.9 82.5 18.4 Rocca Santa Maria 15.3 41.7 59.0 Alba Adriatica 24.2 82.8 17.5 Sant'Omero 15.4 43.9 58.3 Roseto degli Abruzzi 24.9 87.2 17.2 Cellino Attanasio 15.9 45.8 56.1 Atri 25.3 92.7 12.8 Fano Adriano 16.7 46.6 54.2 Colonnella 25.5 94.8 7.3 28.4 95.9 5.2 Mosciano Sant'Angelo 16.8 50.2 53.4 Martinsicuro Morro d'Oro 17.0 51.5 49.8 Pineto 31.1 97.7 4.1 Isola del Gran Sasso d'Italia 17.5 54.1 48.5 Silvi 36.5 100.0 2.3 Bisenti 17.7 55.8 45.9 Alla base di questa procedura vi sono due ipotesi: la distribuzione statistica è continua; è giustificata, ai fini pratici, l’interpolazione lineare per la ricerca del valore mediano. La procedura in questione appare inapplicabile con dati territoriali discreti, come quelli che si riferiscono a luoghi puntiformi. In tali evenienze l’unica strada percorribile appare il ricorso alle frequenze cumulate, o a quelle retrocumulate. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 20 In merito, si consideri (vedi prospetto) quale caso concreto la distribuzione dei capoluoghi comunali della provincia di Teramo, ordinati per distanze crescenti a partire dal capoluogo di provincia e qualificati dalla popolazione residente nei corrispondenti comuni alla data del censimento 1921, popolazione espressa in termini percentuali del totale provinciale. Si conviene di considerare quale a) espressivo del primo quartile delle distanze, ponderate con la popolazione, il capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 25% e quelle retrocumulate risultano pari o superiori al 75% (Montorio al Vomano, alla distanza di 9.7 km); b) espressivo della mediana, il capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 50% e quelle retrocumulate risultano pari o superiori al 50% (Mosciano Sant’Angelo, alla distanza di 16.8 km); c) espressivo del terzo quartile, il capoluogo comunale in cui le frequenze cumulate risultano pari o superiore al 75% e quelle retrocumulate risultano pari o superiori al 25% (Giulianova, a 21.6 km). La mediana spaziale bivariata La mediana spaziale calcolata sulle singole coordinate non assicura, come visto in precedenza, la proprietà del minimo al ruotare degli assi; pertanto, laddove lo si ritenga utile, è necessario rifarsi alla mediana spaziale bivariata. La mediana in questione si calcola con procedura iterativa, manca infatti la possibilità di una soluzione analitica generale, sotto il vincolo di rendere minima la somma delle distanze complessive dei luoghi puntiformi in esame e il punto immagine della mediana. L’iterazione porta a soluzioni rapidamente convergenti, ma dobbiamo rilevare la laboriosità dei calcoli necessari anche per poche ripetizioni delle elaborazioni (la procedura è illustrata più avanti nel testo di questo paragrafo). Come esempio introduttivo si propone la situazione di coordinate e pesi di 8 luoghi A, B...H definiti nel prospetto che segue nel testo: luoghi A B C D E F coordinate X 4 6 3 7 2 6 pesi Y 6 6 3 2 9 2 P 9 4 10 4 20 8 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 21 G H 2 5 totale pesi 7 3 coordinate del baricentro 20 6 81 X1 = 3.407; Y1 = 5.802 Effettuate le iterazioni, emerge il seguente quadro riassuntivo: Iterazioni I II III IV x 3.407 3.358 3.285 3.21 y Sommatoria delle distanze Differenze 5.802 228.254 6.045 226.449 -1.805 6.145 225.906 -0.543 6.205 225.506 -0.400 dal quale si desumono differenze progressivamente contenute tra successive sommatorie delle distanze, e la possibilità di attribuire con sufficiente precisione la qualità di punto mediano a quello individuato con la quarta iterazione. 6.5 229 228 y IV III 227 II 6 226 I 225 224 5.5 3 3.5 x I II III IV Som m atoria delle distanze Figura 14 L’area mediana dell’insieme di luoghi puntiformi “capoluoghi di provincia della regione Lombardia”. A sinistra, spostamenti della mediana spaziale bivariata per successive iterazioni; a destra, progressiva contrazione della distanza complessiva. Infatti, se le coordinate dei luoghi hanno il chilometro come unità di misura, ulteriori iterazioni potrebbero comportare variazioni globali di qualche centinaia di metri, del tutto irrilevanti in un’analisi territoriale. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 22 Circa la dispersione nell’intorno dell’area mediana, o di un qualsiasi punto assunto come centrale, la logica interna all’EDA suggerisce di apprezzarla tramite rappresentazioni grafiche o cartografiche delle frequenze cumulate, computate dal centro verso la periferia per anelli successivi. La procedura è abbastanza semplice e comporta, come primo passaggio, la ricerca del baricentro che funge da prima e provvisoria soluzione; successivamente si calcolano le distanze dei luoghi dal baricentro e le quantità: Σ (pi/di)xi e Σ (pi/di)yi dalle quali si derivano le coordinate della seconda provvisoria soluzione: x’ = Σ( (pi/di)xi)/Σ (pi/di) e y’ = Σ ((pi/di)yi)/ Σ (pi/di) della quale si verifica la correttezza con il calcolare nuovamente la somma delle distanze complessive dai luoghi sotto indagine, nel senso che dovrà risultare inferiore alla somma trovata in precedenza. La procedura si arresta allorquando le differenze tra le sommatorie delle distanze diventano irrilevanti ai fini concreti della ricerca. Da precisare che, allorquando ai luoghi sono attribuiti pesi diversi da caso a caso, le coordinate del baricentro e le sommatorie delle distanze devono essere, ovviamente, ponderate, previa verifica della non attribuzione ad un singolo luogo di un peso pari o superiore al 50% del totale dei pesi. Infatti, in un caso del genere la qualità di mediana compete, per definizione, a tale luogo. Un caso di studio L’utilizzo meccanico ed acritico degli strumenti quantitativi, specie se associato a procedure automatiche di calcolo, può facilmente condurre non solo a interpretazioni erronee, ma anche a rappresentazioni del tutto fuorvianti. Non sfugge a questo rischio l’analisi esplorativa in generale e, in particolare, la mediana bivariata e le medie di posizione delle distanze, specie quando sono impiegate nello studio della distribuzione spaziale di un solo attributo. Un caso concreto, la distribuzione delle ampiezze demografiche comunali in provincia di Teramo al censimento 1991, è di aiuto nell’esplicitare i rischi. Effettuate tutte le elaborazioni, se si assume come centro della provincia di Teramo la mediana spaziale bivariata, ponderata con la popolazione residente, le circonferenze concentriche, aventi raggio pari al primo quartile, alla mediana, al terzo quartile e al valore massimo delle distanze ponderate con la popolazione residente, disegnano quattro fasce in ciascuna delle quali, a prima vista, risiede un quarto della popolazione residente nella provincia. In realtà, poiché la distribuzione spaziale dei capoluoghi comunali è discreta, le quantità non sono del tutto uguali. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 23 Figura 15 Popolazione residente nei comuni della provincia di Teramo al censimento 1991 per aree anulari equivalenti. 40 30 20 Commento nel testo. 10 0 5 -10 -20 -30 -40 -40 -30 -20 -10 0 10 20 30 40 1000 750 500 250 0 0 100 200 300 400 500 600 700 pop.zione sup. Agricoltura foreste e pesca industria Servizi destinabili alla vendita Figura 16 Dispersione rispetto a Frosinone degli attributi superficie, popolazione e valore aggiunto nei comparti indicati in legenda (anno di riferimento 1991), rilevati nelle province italiane, Frosinone inclusa. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 24 Le ogive delle frequenze cumulate per distanze crescenti forniscono preziose informazioni circa la concentrazione o la rarefazione di insiemi di attributi geografici negli intorni spaziali dei luoghi assunti come origine delle misure. Nel caso della provincia di Frosinone il grafico ne sottolinea il ruolo subordinato nel contesto italiano. L’approccio esplorativo alla regressione Il metodo più diffuso, ma non sempre soddisfacente e comunque molto laborioso, per adattare una funzione matematica ad un insieme di coppie di dati empirici, x e y, si avvale della procedura dei minimi quadrati. Essa, inoltre, deve essere applicata due volte - regressione di y rispetto ad x, regressione di x rispetto ad y - in quanto si tratta di rendere minima la sommatoria ∑( y i − yi ') 2 oppure ∑( x − x ') i 2 i dove xi e yi sono i dati empirici e xi’ e yi’ sono quelli teorici. Se la regressione è di tipo lineare, il problema implica il calcolo dei parametri delle rette y ' = ax' +b x ' = my ' +n Il coefficiente angolare a si ottiene con la relazione − − − a = ∑ x i − x y i − y / ∑ x i − x − 2 − dove x e y indicano le medie aritmetiche dei valori x e y; la costante b, a sua volta, è espressa da − − b = y− a x Il computo dei parametri, se i dati sono numerosi, è agevole soltanto se si dispone di una calcolatrice espressamente progettata per i calcoli statistici, o di un foglio elettronico.Ma quel che maggiormente conta è che le funzioni di regressione, calcolate con il vincolo dei minimi quadrati, rispecchiano in maniera accentuata i casi estremi. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 25 Notevole interesse presenta l’approccio esplorativo alla regressione, essendo orientato a discriminare, molto opportunamente da un punto di vista geografico, le situazioni anomale da quelle rilevabili nella maggioranza dei casi. 30 y = 0.3787x + 3.1057 R2 = 0.1262 % addetti nelle province % addetti nelle regioni 30 20 10 y = 0.4437x + 2.7801 R2 = 0.2333 20 10 0 0 0 10 20 % Popolazione 30 0 10 20 30 % Popolazione Figura 17 Esempi di regressione con il metodo dei minimi quadrati - caso dei dipendenti regionali e caso dei dipendenti provinciali. Il calcolo della retta di regressione è stato effettuato con procedura automatica tramite Microsoft Excel. % Addetti nei comuni 30 y = 0.9226x + 0.387 R2 = 0.9434 20 10 Figura 18 Esempio di regressione con il metodo dei minimi quadrati - caso dei dipendenti comunali. Il calcolo della retta di regressione è stato effettuato con procedura automatica tramite Microsoft Excel. In sostituzione del metodo dei minimi quadrati, fondato sulla media aritmetica e sullo scarto quadratico medio, nell’ambito 0 dell’EDA sono disponibili diverse procedure 0 10 20 30 tra le quali piuttosto diffuso risulta il % Popolazione cosiddetto metodo dei tre gruppi, illustrato tramite un esempio: la costruzione della retta di regressione del valore aggiunto globale lordo, rilevato nelle province italiane (anno di riferimento: 1991), in funzione del valore aggiunto pertinente al comparto industria. I dati G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 26 originali sono stati preliminarmente riespressi in parti per 1000 del totale Italia (figura 19). La procedura esplorativa in esame - dopo l’attribuzione al comparto industria del ruolo di variabile x, indipendente, e al valore aggiunto globale lordo quello di variabile y, dipendente - comporta l’ordinamento dei dati in senso crescente della variabile x per ottenere una nuova tabella ( tab. xxx) da suddividere in 3 gruppi egualmente numerosi che prendono, rispettivamente, il nome di gruppo di sinistra o left (acronimo: L), centrale o middle (M) e di destra o right (R). Se il numero n dei dati non è multiplo di 3 si formano i gruppi, di numerosità k, per convenzione, come dal prospetto: valore aggiunto lordo complessivo in parti per mille del totale Italia formazione dei gruppi caso I caso II n=3k n= 3k +1 sinistra o left k k centrale o middle k k+1 destra o right k k+1 caso III n= 3k +2 k+1 k k+1 Figura 19 Esempio di regressione esplorativa con il metodo dei 3 gruppi. 120 100 I dati dell’esempio sono riferiti al 1991. 80 60 dati empirici 40 regr. esplor 20 0 0 50 100 150 Valore aggiunto dell'industria in parti per mille del totale Italia caso si ottiene questo prospetto: Poiché il numero delle province italiane è 95 (si discorre della situazione amministrativa anteriore al 1991), si ricade nel caso III. I tre gruppi sono riassunti dalle rispettive mediane che si indicano con i simboli delle variabili, specificati da un pedice che richiama i gruppi (L, M, R). Effettuate le operazioni del G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 27 mediana L mediana M mediana R x 2.811 6.362 16.126 y 3.826 6.921 14.945 L’equazione della retta di regressione di y in funzione di x: y = a +bx si quantifica calcolando, per primo, il coefficiente angolare b con la relazione: b = (yR-yL)/(xR-xL) corrispondente a quello della retta che passa per i punti mediani L e R; effettuati i calcoli richiesti si ottiene b = 0.835057845. A sua volta il parametro a si determina ponendo a = (1/3)*[(yL-bxL)+(yM-bxM)+(YR-bxR)] da cui segue a = 1.522169367, sicché la richiesta equazione di regressione è: y = 1.522169367 +0.835057845x A proposito di a si può rilevare come questo parametro sia stato individuato in maniera tale da far passare la retta di regressione in un punto medio tra i 3 punti mediani riassuntivi dei gruppi. La bontà della regressione deve essere sempre saggiata con l’esame dei residui e l’apprezzamento visuale delle distribuzioni tramite un congruo numero di grafici; inoltre, è bene confrontare i risultati con quelli conseguenti all’applicazione di metodi alternativi. Procedure alternative per la regressione I metodi alternativi più noti sono: a) Metodo di Wald. Si tratta di un metodo, di tipo non esplorativo, ritenuto utile allorquando si ritiene che i dati empirici possano contenere errori. I dati, dopo essere stati ordinati rispetto alla x, sono suddivisi in 2 gruppi ugualmente numerosi e si calcolano i parametri con le relazioni: b = [(ym+1 + ....+yn) - (y1+.....ym)]/[(xm+1 +....+ xn) - ( x1 + ......+ xn)] a =y’-bx’ dove y’ e x’ indicano le medie aritmetiche dei valori empirici y e x. b) Metodo di Nair e Shrivastava. Si utilizzano direttamente solo i dati del primo e del terzo gruppo con i quali si individuano 2 punti riassuntivi L e U (da low ‘basso’ e upper ‘superiore’) tramite le medie aritmetiche: x’L = (x1 + ... + xnL)/nL ; y’L = (y1 + ...ynL)/nL x’U = (xn-nU + ...xn)/nU; y’U = (yn-nU + ...yn)/nU La retta di regressione è, molto semplicemente, quella che passa per i punti riassuntivi: G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 28 b = (y’U-y’L)/(x’U-x’L) a = y’L -bx’L c) Metodo di Bartlett. La suddivisione in 3 gruppi ugualmente numerosi è richiesto anche per questo metodo che si avvale di tre punti riassuntivi: le medie aritmetiche del primo (L) e dell’ultimo gruppo (U), e le medie aritmetiche delle due distribuzioni: L (x’L;y’L) U (x’U; y’U) baricentro (x’; y’) la retta di regressione è definita come quella passante per il baricentro e parallela alla retta congiungente i punti L e U; pertanto: b = (y’U-y’L)/(x’U-x’L) a = y’ -bx’ I rischi della regressione Le linee di tendenza costruite con la regressione, qualunque sia la procedura, sono molto utili in geografia allorquando sono utilizzate per analisi retrospettive, ma nel contempo possono condurre a valutazioni previsionali sempre dubbie e sovente assurde allorquando sono impiegate in indagini prospettiche. Un semplice esempio (figura 20) chiarisce gli aspetti in discussione: immaginiamo di trovarci nel comune di Milano all’indomani del censimento della popolazione effettuato nel 1951 e di voler effettuare una previsione per il quarantennio successivo sulla base dei risultati dei censimenti effettuati tra il 1921 e il 1951. 2500000 Figura 20 I rischi della regressione. Popolazione 2000000 Commento nel trsto. 1500000 1000000 500000 0 1921 1931 1941 1951 1961 1971 1981 Anno di censimento Pop effettiva Pop teorica 1991 L’equazione di regressione lineare, calcolata con il programma Excel (o con altro similare) secondo il principio dei minimi quadrati (y = 1.8898x+101.4) si adegua molto bene ai dati empirici, come documentano i modesti residui (dato teorico-dato empirico) e l’alto valore di R G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 29 quadro (0.9655), pertanto riassume efficacemente il trend del periodo 1921-1951. Al contrario, la proiezione della tendenza storica verso il futuro conduce ad errori via via più appariscenti, tanto che al 1991 il residuo sfiora il 40 % del dato reale. In merito è illuminante questo quadro analitico1: Censimento Popolazione 1921 818148 1931 960660 1936 1115768 1951 1274154 1961 1582421 1971 1732000 1981 1604773 1991 1369231 Popolazione teorica 829602 984216 1061522 1293443 1448057 1602670 1757284 1911897 Residuo 11454 23556 -54246 19289 -134364 -129330 152511 542666 In % 1.40 2.45 -4.86 1.51 -8.49 -7.47 9.50 39.63 La standardizzazione esplorativa dei dati Un cenno anche sulla standardizzazione dei dati, una procedura che consente di trasformare in puri numeri i valori di una tabella statistica e, conseguenza di rilievo, di confrontare tabelle diverse, riferite ad un certo insieme territoriale, anche se i valori originali sono espressi in differenti unità di misura.La standardizzazione si avvale di due distinti approcci: quello tradizionale e quello esplorativo (figura 21.Nel primo caso i valori standardizzati, zi, si ottengono tramite la relazione: zi = (xi - media aritmetica)/sqm Nel secondo caso i valori standardizzati, z’i , discendono da una formula similare, in ragione della sostituzione della media aritmetica con la mediana e dello scarto quadratico medio con la differenza interquartilica: z’i = (xi - mediana)/(quartile superiore - quartile inferiore) Indipendentemente dal criterio seguito nella standardizzazione l’utilità della trasformazione dei dati risulta evidente se si ricorda che tutte le tabelle standardizzate con il metodo tradizionale sono accomunate dall’avere la media aritmetica pari a zero e 1 L’esempio dovrebbe mettere in guardia verso le false profezie, propalate con corredi ingannevoli di grafici, estrapolazioni statistiche e scenari fittizi, dei circoli ambientalisti più agguerriti e amplificate dai mass-media circa l’esaurirsi a breve di risorse minerarie e alimentari . I tanti studi del Club di Roma, pubblicati nella seconda metà del Novecento offrono una casistica tanto numerosa quanto sconcertante. In realtà, per evitare gli sprechi dovrebbe bastare il buon senso. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 30 lo scarto quadratico medio pari a 1, le tabelle standardizzate con l’approccio esplorativo hanno invece pari a zero la mediana. Inoltre, numerose tabelle possono essere facilmente confrontate con la visualizzazione dei valori su linee graduate, sovrapposte o affiancate. Dati standardizzati 4 3 2 1 0 -1 -2 -3 0 10 20 30 40 Dati originali (km) tradizionale esplorativa Figura 22 Confronto grafico tra nove distribuzioni statistiche. Indicatori originali. 60000 50000 Il grafico è stato costruito con gli elementi, riportati nel prospetto che segue, che si riferiscono ai 47 comuni della provincia di Teramo. 40000 30000 20000 10000 0 min Figura 21 Distribuzione delle distanze dei capoluoghi comunali dal capoluogo provinciale in provincia di Gorizia . quartile I mediana quartile III max G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 31 Attributo Superficie in ha Popolazione al censimento 1921 Popolazione al censimento 1931 Popolazione al censimento 1936 Popolazione al censimento 1951 Popolazione al censimento 1961 Popolazione al censimento 1971 Popolazione al censimento 1981 Popolazione al censimento 1991 Minimo 704 738 1402 1385 1389 716 519 402 350 Quartile I Mediana 2032 3088 2125 3558 2332 3868 2443.5 4121 2739 4255 2377.5 3934 1748.5 3100 1733.5 2964 1692.5 2936 Quartile III 5151.5 5046.5 5341.5 5598.5 6364.5 6038 6088 6593 7198 Massimo 15200 27275 31790 33796 38643 41899 47804 51092 51756 Figura 23 Confronto grafico tra nove distribuzioni statistiche. Indicatori standardizzati. 12 10 Il grafico è stato costruito con gli elementi, riportati nel prospetto che segue, che si riferiscono ai 47 comuni della provincia di Teramo. 8 6 4 2 0 -2 min quartile I mediana Attributo Superficie in ha Popolazione al censimento 1921 quartile III Minimo -0.764 -0.965 max Quartile I Mediana -0.339 0.000 -0.491 0.000 Quartile III 0.661 0.509 Massimo 3.883 8.118 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 32 Popolazione al censimento 1931 Popolazione al censimento 1936 Popolazione al censimento 1951 Popolazione al censimento 1961 Popolazione al censimento 1971 Popolazione al censimento 1981 Popolazione al censimento 1991 -0.819 -0.867 -0.791 -0.879 -0.595 -0.527 -0.470 -0.510 -0.532 -0.418 -0.425 -0.311 -0.253 -0.226 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.490 0.468 0.582 0.575 0.689 0.747 0.774 9.278 9.406 9.485 10.372 10.302 9.904 8.867 Lo scaling La trasformazione dei dati è, nell’approccio esplorativo, un’abitudine da acquisire, e da coniugare con la sistematica rappresentazione grafica, al fine di saggiare, in via preliminare, l’esistenza di possibili regolarità statistiche, da interpretare per analogia ed omologia con isomorfismi scientifici o con specifici modelli esplicativi. Si inizia con lo scaling (dall’inglese to scale), un’importante trasformazione dei dati consistente nel sostituire le unità di misura originali con nuove unità, rappresentate per punti percentuali, e nel trasformare i campi di variazione dei dati in campi aventi per minimo il valore 0 e per massimo il valore 100. La procedura di trasformazione dei dati originali xi nei dati trasformati x’i si avvale di questa relazione: x’i = 100(xi - xmin)/(xmax - xmin) dalla cui applicazione al caso della popolazione residente nelle province italiane (censimento 1981) discende il grafico illustrativo riportato in figura 24. 100.00 90.00 80.00 70.00 x' 60.00 50.00 40.00 30.00 20.00 10.00 0.00 0 1000000 2000000 3000000 x 4000000 5000000 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 33 Figura 24 Esempio di scaling. Popolazione residente nelle province italiane al censimento 1981. Lo scaling va utilizzato con buon senso: il suo impiego deve facilitare i confronti tra dati territoriali e non comportare la pura e semplice sostituzione delle unità di misura. Pertanto, la regola di trasformazione si riscrive sostituendo xmin con xpeggiore e xmax con xmigliore , e si assume la convenzione di intendere peggiore e migliore in conformità alle specificità del particolare attributo geografico in esame. In altre parole, se si esaminano dati concernenti la disoccupazione, il dato minimo è quello che riflette una migliore situazione sociale; per contro il dato massimo implica la situazione peggiore. Ancora il buon senso suggerisce di avvalersi dello scaling per confrontare gruppi di almeno 3-4 attibuti, altrimenti il cambiamento di unità di misura rischia di tradursi in un esercizio di operazioni aritmetiche, prive di signifivatività geografica. È possibile avvalersi dei dati trasformati, semplicemente cumulandoli, attributo per attributo, al fine di addivenire a punteggi complessivi, utilizzabili come indicatori sintetici delle singole tessere territoriali, ma sempre con grande prudenza. Un caso applicativo concreto (figura 25) è costituito dagli attributi persone in cerca di occupazione, prodotto interno lordo per abitante e apparecchi istallati per il servizio telefonico attribuiti dall’ISTAT alle regioni amministrative italiane per il 1991 o al 31 dicembre 1991 (apparecchi telefonici). Al riguardo, il grafico illustrativo evidenzia un buon accordo tra le distribuzioni dei singoli attributi analitici, specie per quel che riguarda la condizione della Calabria - sempre qualificata dalla condizione peggiore -, e di tali distribuzioni con l’indicatore sintetico, ottenuto dalla somma dei valori scalati x’, y’ e z’. 100 indicatori analitici 75 Figura 25 Esempio di applicazione dello scaling. 50 25 0 0 25 50 75 indicatore sintetico x' y' z' 100 Il grafico è stato disegnato a partire dai dati raccolti in prospetto. Intitolazione delle colonne: x: persone in cerca di occupazione in % forze di lavoro; y: prodotto interno lordo per abitante (Italia pari a 100); z: apparecchi istallati per il servizio telefonico per 100 abitanti; x’, y’ e z’ valori scalati; w: G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 34 indicatore sintetico; w’: indicatore sintetico scalato. I dati sono riferiti all’anno 1991 per gli attributi x ed y, al dicembre 1991 per l’attributo z. Regioni Piemonte Valle d'Aosta Lombardia Trentino Alto Adige Veneto Friuli Venezia Giulia Liguria Emilia-Romagna Toscana Umbria Marche Lazio Abruzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna ITALIA x 7 4 4 3 5 6 9 5 8 10 7 11 11 15 22 16 21 23 23 19 11 y 120 127 131 120 115 117 111 123 107 93 105 111 86 72 69 73 59 58 65 73 100 z x' y' z' w (= x'+y'+z') w' 66 81 85 64 230 79 82 98 95 100 293 100 69 95 100 71 267 91 67 100 86 68 253 87 58 93 79 47 219 75 64 87 82 61 230 79 76 71 74 86 231 79 70 91 90 73 254 87 65 75 67 63 206 70 55 66 48 41 155 53 55 82 65 40 187 64 66 59 74 64 197 67 52 62 39 33 134 46 42 40 20 11 71 24 39 8 15 4 27 9 40 35 21 7 63 22 39 13 2 4 19 7 37 0 0 0 0 0 44 1 10 15 26 9 47 22 20 22 64 22 57 61 58 45 164 56 Osservazioni sulla trasformazione dei dati Trasformazioni radicali dei dati si ottengono con procedure più complesse, come la standardizzazione classica o quella esplorativa, tramite le quali le unità di misura originali sono sostituite con puri numeri, o con manipolazioni algebriche, da effettuare con grande prudenza in quanto esse consistono nell’impiego di funzioni che devono essere esplicitate e giustificate; in generale si pone: x’i = f(xi). La funzione più impiegata, anzi raccomandata nell’ambito dell’EDA, è la radice quadrata, ma anche quella logaritmica è utilizzata frequentemente dai geografi, in particolare nello studio delle relazioni del tipo rango-dimensione e della crescita relativa (discusse in altra parte di questo studio); tuttavia, in linea di principio non vi sono, a priori, regole specifiche da seguire nella scelta delle funzioni di trasformazione, salvo le G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 35 trasformazioni mirate al conseguimento di particolari proprietà statistiche nelle nuove distribuzioni, come la simmetria. Le trasformazioni più diffuse sono raggruppabili nei seguenti tipi fondamentali (figura 26): x’ = xp per p > 0 x’= - xp per p < 0 x’= logx per p = 0 x’= (xp - 1)/p per p diverso da 0 x’= lgx per p = 0 (lgx indica il logaritmo con base e) Trasformazioni dei dati tramite funzioni del tipo p p xx^ dati trasformati 3.00 p=2 2.00 p=1 p = 0.5 p = -0.5 p = -1 1.00 p = -2 3.00 2.50 2.00 1.50 1.00 0.50 0.00 0.00 dati originali Figura 26 Famiglia di trasformazioni tramite potenze. Quale caso applicativo riprendiamo in esame la popolazione residente nelle province italiane al censimento 1981 per trasformare i dati originali tramite le relazioni: x’ = x0.5 ; x’’ = x1/3 e x’’= logx G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 36 e verifichiamo tramite i corrispondenti grafici le caratteristiche delle nuove distribuzioni. Il grafico di x’ o diagramma delle radici, raccomandato dalla letteratura geografico-statistica, mostra una buona relazione empirica dei dati trasformati con una funzione di potenza (figura 27), mentre il grafico logaritmico (figura 28) presenta un apprezzabile andamento lineare nei dati: in entrambi i casi le funzioni interpolanti e lo stimatore R2 indicano una apprezzabile regolarità statistica nei dati, il che non implica alcuna valutazione territoriale in quanto i dati non sono spazializzati. Radice quadrata dei dati originali Radice cubica dei dati originali 3000 200 180 y = 172.55x -0.2393 R2 = 0.9294 160 y = 2450.5x-0.3625 R2 = 0.9294 2000 Popolazione Popolazione 2500 1500 1000 140 120 100 80 60 40 500 20 0 0 0 50 100 Rango 0 50 100 Rango Figura 27 Popolazione residente nelle province italiane al censimento 1981: diagrammi della radice quadrata e della radice cubica. Logaritm o base 10 dei dati originali Figura 28 Popolazione residente nelle province italiane al censimento 1981: diagramma della trasformazione logaritmica. Popolazione 7 6 5 In questa figura, come nella precedente, la popolazione è visualizzata in funzione del rango secondo un ordine decrescente della popolazione residente. y = 6.8559x -0.0544 R2 = 0.9115 4 0 50 Rango 100 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 37 A proposito del grafico logaritmico (la denominazione corretta è grafico semilogaritmico in quanto uno degli assi è a suddivisione uniforme) si noti che procedendo in senso inverso la funzione lineare di tendenza si può scrivere: y = k/xq del tipo: y = a/xb già noto quale espressione formale della regolarità statistica rango-dimensione2. I grafici del tipo Q-Q plots Un gruppo particolare di raffigurazioni è costituito da metacarte, progettate e realizzate dallo scrivente (sono novità per l’impostazione, non per la tecnica che si richiama ai grafici del tipo Q-Q plots della letteratura statistica, sarebbe a dire grafici che pongono a confronto i quantili di due fenomeni interconnessi), del tutto coerenti con lo spirito dell'EDA. Si tratta di computare in via preliminare le frequenze ponderate (con i singoli attributi del valore aggiunto della popolazione e della superficie) della longitudine e della latitudine, rilevate con coordinate piane per ciascun capoluogo di provincia, ai quali si attribuisce inoltre il peso nell'intera provincia per l'attributo da cartografare. Successivamente si rilevano per la longitudine e per la latitudine i valori ponderati corrispondenti al primo quartile, alla mediana e al terzo quartile, tutti ovviamente compresi tra gli estremi del valore minimo e del valore massimo sempre costanti per la longitudine o per la latitudine, indipendentemente dalla ponderazione: longitudine* min km 0 (Aosta) max km 974 (Lecce) latitudine* min km 0 (Ragusa) max km 1064 (Bolzano) * La longitudine e la latitudine sono quelle conseguenti alla traslazione degli assi dei valori originali in modo tale da far coincidere in ambo i casi i minimi con il valore zero. Rappresentando su un grafico cartesiano i valori suddetti si ottiene una metacarta caratterizzata da sedici comparti, come illustrato in figura per il caso dei valori ponderati con la superficie: è evidente che al mutare degli attributi si modifica la configurazione 2 L’analogia non è completa perché nel caso della regola rango dimensione la trasformazione logaritmica è duplice (rango e popolazione). G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 38 all'interno della rappresentazione ed è possibile analizzare ciascuno dei sedici comparti come un caso particolare (figura 29). Figura 29 Schema metacartografico dell’attributo superficie nelle province italiane, Per esplicitare ulteriormente il metodo di rappresentazione si propone come esperimento mentale il rettangolo delimitato dai valori minimi e dai primi quartili: se la ponderazione con l'attributo industria comporta una dilatazione di tale rettangolo rispetto a quello conseguente alla ponderazione con l'attributo superficie, significa che le province sud-occidentali hanno un valore aggiunto nel comparto dell'industria men che proporzionale rispetto a quello richiesto dall'estensione areale di tali province. Poiché il raffronto visivo tra coppie di carte può non risultare facile e la sovrapposizione di carte non sembra praticabile, le raffigurazioni sono state ulteriormente semplificate con la costruzione di semplici linee diagrammatiche con valore metacartografico: le linee sono rappresentate da spezzate che collegano per un dato attributo i punti di incontro di longitudine e di latitudine per il primo quartile, per la mediana e il terzo quartile. Tali linee diagrammatiche sono inseribili a gruppi di due o più all'interno G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 39 di un rettangolo standard (figura 30) e rendono immediato e semplice l'apprezzamento visivo degli spostamenti. 1000 900 800 700 sup. 600 pop 500 400 300 200 200 400 600 800 1000 Figura 30 Confronto tra le distribuzioni degli attributi superficie e popolazione residente nelle province italiane al censimento 1991. Nulla vieta, per particolari esigenze, di procedere a misure areali o lineari degli spostamenti al passare da un attributo a un altro. Al riguardo si propone come caso d'esempio il confronto tra valori di posizione, ponderati con la superficie e la popolazione: la linea diagrammatica della popolazione è tutta al di sopra di quella della superficie quale conseguenza di un significativo addensamento del carico demografico nelle province settentrionale rispetto a quelle meridionali. Inoltre, si può rilevare come anche nel Mezzogiorno vi sia un maggior addensamento relativo delle popolazioni nella sua posizione più a nord. Infatti, i dati analitici c’informano che il primo quartile della latitudine cade in corrispondenza della provincia di Salerno per la superficie, e di Napoli per la popolazione. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 40 Conclusioni interlocutorie In conclusione, le linee fondamentali dell’EDA, delineate finora, dovrebbero essere bastevoli delle potenzialità applicative, specie sul versante della didattica universitaria, pur nell’eccessiva sintesi di aspetti molto rilevanti, come le anomalie e i residui. Sul versante della ricerca molto resta da fare. In particolare, lo scrivente ritiene che l’analisi esplorativa, opportunamente affinata e arricchita di strumenti progettati per l’impiego in geografia, possa qualificarsi come uno degli approcci più idonei per esaltare la geo-graficità e orientare con forte carica innovativa l’interpretazione dei dati territoriali. Un filone che appare molto promettente riguarda una più soddisfacente descrizione delle linee di tendenza (rispetto alle metodologie tradizionali) finalizzate a far emergere le specificità regionali, subregionali e locali, in genere non congruenti. Alla base della procedura, in via di sperimentazione, si colloca l’uso sistematico della mediana spaziale mobile per terne di punti vicini, o di tessere areali contigue. G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 41 Applicazione al valore aggiunto nelle province per il 1991 Valore aggiunto relativo per abitante Intitolazione delle colonne: A: Agricoltura foreste e pesca; B: Industria; C: Servizi destinabili alla vendita; D: Totale parziale; E: Servizi non destinabili alla vendita; F: Valore aggiunto al costo dei fattori al lordo dei servizi bancari imputati; G: Servizi bancari imputati; H: Valore aggiunto al costo dei fattori al netto dei servizi bancari imputati. Indicatori classici Media tra province SQM SQM/media Min Max Asimmetria Curtosi Max-min (Max-min)/media A 1250 694 0.56 122 3212 0.64 0.22 3090 2.47 B 973 446 0.46 291 1945 0.34 -0.91 1654 1.70 C 950 254 0.27 493 1739 0.21 -0.26 1245 1.31 D 971 266 0.27 472 1489 -0.23 -1.19 1017 1.05 E 997 207 0.21 608 1848 1.08 2.61 1240 1.24 F 975 226 0.23 532 1412 -0.24 -1.19 880 0.90 G 888 357 0.40 334 2074 0.55 -0.03 1740 1.96 H 980 222 0.23 536 1426 -0.25 -1.18 890 0.91 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 42 Valore aggiunto pro capite nelle province al 1995 Indicatori esplorativi min quartile I mediana quartile III max dF Q1 - 1.5dF Q3 + 1.5dF Q1 - 3dF Q3 + 3dF A 122 838 1159 1581 3212 743 -277 2695 -1391 3809 B 291 550 967 1298 1945 747 -571 2419 -1692 3539 C 493 714 963 1128 1739 414 94 1749 -527 2370 B C D D 472 717 1051 1168 1489 451 40 1845 -637 2522 E 608 857 979 1104 1848 247 487 1474 116 1844 F G 532 334 752 568 1052 874 1158 1168 1412 2074 406 600 143 -331 1767 2068 -466 -1231 2375 2967 5000 4000 3000 2000 1000 0 -1000 -2000 A min quartile III Q3 + 1.5dF E quartile I max Q1 - 3dF F G mediana Q1 - 1.5dF Q3 + 3dF H H 536 759 1051 1159 1426 400 160 1759 -440 2358 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 43 Percentili Indicatori 0.000 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 A 122 441 838 1025 1159 1351 1581 2091 3212 B 291 434 550 773 967 1114 1298 1595 1945 C 493 634 714 875 963 1063 1128 1221 1739 D 472 618 717 901 1051 1108 1168 1275 1489 E 608 787 857 922 979 1031 1104 1197 1848 F 532 680 752 889 1052 1092 1158 1228 1412 G 334 471 568 747 874 956 1168 1310 2074 Valore aggiunto 10000 1000 100 A B C D E Comparti F G H H 536 692 759 896 1051 1096 1159 1226 1426 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 44 Valori scalati Indicatori esplorativi min quartile I mediana quartile III max A 0 23 34 47 100 B 0 16 41 61 100 C 0 18 38 51 100 D 0 24 57 68 100 E 0 20 30 40 100 F 0 25 59 71 100 G 0 13 31 48 100 H 0 25 58 70 100 Valore aggiunto 100 80 60 40 20 0 A B C D E F G H Comparti min quartile I mediana quartile III max Percentili dei valori scalati Indicatori 0.000 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 A 0 10 23 29 34 40 47 64 100 B 0 9 16 29 41 50 61 79 100 C 0 11 18 31 38 46 51 58 100 D 0 14 24 42 57 63 68 79 100 E 0 14 20 25 30 34 40 47 100 F 0 17 25 41 59 64 71 79 100 G 0 8 13 24 31 36 48 56 100 H 0 18 25 40 58 63 70 78 100 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 45 Valori standardizzati con criterio esplorativo A -1.40 -0.43 0.00 0.57 2.76 -0.56 -1.93 2.07 -3.43 3.57 min quartile I mediana quartile III max dF Q1 - 1.5dF Q3 + 1.5dF Q1 - 3dF Q3 + 3dF B -0.90 -0.56 0.00 0.44 1.31 -0.29 -2.06 1.94 -3.56 3.44 C -1.14 -0.60 0.00 0.40 1.87 -1.33 -2.10 1.90 -3.60 3.40 D -1.28 -0.74 0.00 0.26 0.97 -1.33 -2.24 1.76 -3.74 3.26 E -1.50 -0.50 0.00 0.50 3.52 -2.97 -2.00 2.00 -3.50 3.50 F -1.28 -0.74 0.00 0.26 0.89 -1.59 -2.24 1.76 -3.74 3.26 G -0.90 -0.51 0.00 0.49 2.00 -0.46 -2.01 1.99 -3.51 3.49 G H 4 3 2 1 0 -1 -2 -3 -4 -5 A min Q1 - 1.5dF B C quartile I Q3 + 1.5dF D mediana Q1 - 3dF E F quartile III Q3 + 3dF max H -1.29 -0.73 0.00 0.27 0.94 -1.63 -2.23 1.77 -3.73 3.27 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 46 Percentili 0.000 0.125 0.250 0.375 5.000 0.625 0.750 0.875 1.000 A -1.40 -0.97 -0.43 -0.18 0.00 0.26 0.57 1.25 2.76 B -0.90 -0.71 -0.56 -0.26 0.00 0.20 0.44 0.84 1.31 C -1.14 -0.80 -0.60 -0.21 0.00 0.24 0.40 0.62 1.87 D -1.28 -0.96 -0.74 -0.33 0.00 0.13 0.26 0.50 0.97 E -1.50 -0.78 -0.50 -0.23 0.00 0.21 0.50 0.88 3.52 F -1.28 -0.91 -0.74 -0.40 0.00 0.10 0.26 0.44 0.89 G -0.90 -0.67 -0.51 -0.21 0.00 0.14 0.49 0.73 2.00 H -1.29 -0.90 -0.73 -0.39 0.00 0.11 0.27 0.44 0.94 Riepilogo delle distanze in cui si collocano i quartilidi ordinando i dati per distanze crescenti nel senso della longitudine e della latitudine. I quartilidi nelle distribuzioni con due variabili corrispondono ai quartili nelle distribuzioni con una sola variabile. A:Superficie; B: Popolazione; C: Industria in senso stretto; D: Costruzioni e lavori del Genio civile;E. Commercio, riparazioni e attività di recupero; F: Alberghi e pubblici esercizi; G: Trasporti e comunicazioni;H: Credito e assicurazioni; I: Altri servizi destinabili alla vendita. Longitudine Quartilidi Q0 Q1 Q2 Q3 Q4 A km 0 225 393 636 974 B km 0 218 397 633 974 C km 0 150 292 440 974 D km 0 192 361 603 974 E km 0 150 349 544 974 F km 0 192 337 467 974 G km 0 184 397 556 974 H km 0 150 335 467 974 I km 0 150 337 510 974 A km 0 417 687 905 1064 B km 0 437 742 942 1064 C km 0 726 905 949 1064 D km 0 465 810 949 1064 E km 0 504 810 947 1064 F km 0 552 833 949 1064 G km 0 504 769 946 1064 H km 0 552 833 949 1064 I km 0 552 833 949 1064 Max min 225 397 636 150 292 440 Max min 726 905 949 417 687 905 Latitudine Quartilidi Q0 Q1 Q2 Q3 Q4 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 47 Parti per 1000/km Longitudine Intervalli Q1-Q0 Q2-Q1 Q3-Q2 Q4-Q3 Latitudine Intervalli Q1-Q0 Q2-Q1 Q3-Q2 Q4-Q3 A B C D E F G H I Max min 1.14 1.46 1.01 0.74 1.20 1.39 1.11 0.66 2.27 1.16 1.71 0.45 1.31 1.48 1.09 0.63 1.74 1.24 1.28 0.57 1.33 1.81 1.87 0.47 1.37 1.28 1.43 0.60 1.98 1.13 2.05 0.44 1.79 1.25 1.45 0.53 2.27 1.81 2.05 0.74 1.14 1.13 1.01 0.44 A B C D E F G H I Max min 0.63 0.94 1.13 1.50 0.61 0.77 1.27 2.00 0.34 1.68 5.51 1.82 0.57 0.70 2.18 1.69 0.50 0.84 1.81 2.09 0.51 0.81 2.48 1.76 0.50 0.94 1.54 1.93 0.60 0.64 2.95 1.28 0.62 0.59 2.92 1.34 0.63 1.68 5.51 2.09 0.34 0.59 1.13 1.28 Prospetti analitici per raggruppamento statisrico km 0 Superficie Popolazione Longitudine Longitudine Capoluogo Parti cum Aosta Parti /km km 11 0 Capoluogo Parti cum Aosta Parti /km 2 225 Nuoro 257 1.1447466 218 Cagliari 262 1.2010379 393 Arezzo 504 1.4628459 397 Venezia 511 1.3949965 636 Caserta 750 1.0128429 633 Napoli 773 1.1101161 974 Lecce 1000 0.7405093 974 Lecce 1000 0.6646603 Latitudine km Capoluogo Latitudine Parti cum Parti /km km Capoluogo Parti /km Ragusa 5 417 Salerno 263 0.6310444 687 Perugia 516 0.9354186 1.1287061 942 Padova 758 1.2687155 1.5020445 1064 Bolzano 1000 1.9950247 905 Torino 762 1064 Bolzano 1000 0 Parti cum 0 Ragusa 5 437 Napoli 268 0.6125828 742 Ancona 504 0.7744681 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 48 Industria in senso stretto Costruzioni e lavori del Genio civile Ordinamento longitudine km Capoluogo Parti cum Ordinamento longitudine Parti /km km 2 Capoluogo 0 Aosta Parti cum Parti /km 0 Aosta 150 Milano 341 2.2690727 192 Sondrio 251 1.305803 292 Trento 506 1.1634617 361 Padova 500 1.4762074 440 Perugia 759 1.7079717 603 Palermo 764 1.0928682 974 Lecce 1000 0.4512729 974 Lecce 1000 0.6348514 km Capoluogo Parti /km km Capoluogo Ordinamento Latitudine 5 Ordinamento Latitudine Parti cum 0 Ragusa Parti cum Parti /km 0 Ragusa 1 726 Arezzo 250 0.3440191 465 Bari 263 5 0.5651271 905 Torino 549 1.6763673 810 Forlì 503 0.6966107 949 Milano 791 5.5144055 949 Milano 806 2.1837157 1064 Bolzano 1000 1.8228861 1064 Bolzano 1000 1.6898275 Commercio, riparazioni e attività di recupero Alberghi e pubblici esercizi Ordinamento longitudine Ordinamento longitudine km Capoluogo Parti cum Parti /km km Capoluogo 0 Parti cum Parti /km 0 Aosta 2 Aosta 10 150 Milano 261 1.7356698 349 Ferrara 506 1.2350718 192 Sondrio 256 1.3285123 337 Firenze 519 1.8142781 544 Frosinone 755 1.2757876 467 Roma 760 1.8660704 974 Lecce 1000 0.5696502 974 Lecce 1000 0.4726854 km Capoluogo Ordinamento Latitudine Parti cum Ordinamento Latitudine Parti /km km Capoluogo Ragusa 4 504 Foggia 252 0.4994614 552 Roma 282 0.5114386 810 Forlì 509 0.8385731 833 Genova 510 0.8106321 1.8057217 949 Milano 798 2.4834202 2.089185 1064 Bolzano 1000 1.7583263 947 Novara 755 Bolzano 1000 Ragusa Parti /km 0 1064 0 Parti cum 3 G, Massimi, Strumenti esplorativi nell’analisi dei dati, WP Web 2001, Serie RE 6 49 Trasporti e comunicazioni Credito e assicurazioni Ordinamento longitudine km 0 Capoluogo Parti cum Aosta Ordinamento longitudine Parti /km 3 km Capoluogo 0 Parti cum Aosta 1 Parti /km 184 Bergamo 251 1.3657033 150 Milano 297 1.9819515 397 Venezia 523 1.2750246 335 Bologna 506 1.1333592 556 Teramo 751 1.433191 467 Roma 778 2.0498936 974 Lecce 1000 0.595544 974 Lecce 1000 0.4381795 km Capoluogo Parti /km km Capoluogo Ordinamento Latitudine Parti cum Ordinamento Latitudine Parti cum Parti /km 0 Ragusa 2 0 Ragusa 3 504 Foggia 251 0.4984948 552 Roma 331 0.5994162 769 Lucca 501 0.9417042 833 Genova 510 0.6378397 1.5360628 949 Milano 853 2.9519317 1.930549 1064 Bolzano 1000 1.282983 946 Venezia 773 1064 Bolzano 1000 Altri servizi destinabili alla vendita Ordinamento longitudine km Capoluogo Parti cum Parti /km 0 Aosta 3 150 Milano 269 1.7874472 337 Firenze 502 1.2466155 510 Latina 974 Lecce 753 1.4508205 1000 0.5332718 Ordinamento Latitudine km Capoluogo Parti cum Parti /km 0 Ragusa 552 Roma 833 Ravenna 3 341 0.6171523 506 0.5880653 949 Milano 846 2.9230434 1064 Bolzano 1000 1.3436503