ALESSIO FACCIA ELEMENTI DI STATISTICA DESCRITTIVA I edizione aprile 2010 Elementi di Statistica Descrittiva INDICE Introduzione ................................................................................................. 2 Capitolo 1 – Profili generali ....................................................................... 7 1.1 – Origini ed evoluzione storica del metodo statistico ......................... 7 1.1.1 – Il termine “statistica” e le sue origini ........................................................... 7 1.1.2 – Gli usi della statistica.................................................................................. 14 1.3 – Le fonti della statistica.................................................................... 15 1.4 – Concetti di statistica descrittiva ed inferenziale ............................ 18 1.5 – Variabili statistiche ......................................................................... 23 Capitolo 2 – Procedure relative all’analisi dei fenomeni di massa ....... 33 2.1 – Fasi dell’indagine ........................................................................... 33 2.1.1 – Pianificazione della rilevazione. ................................................................. 34 2.1.2 – Raccolta dei dati ......................................................................................... 34 2.1.3 – Spoglio (o presentazione) dei dati .............................................................. 36 2.1.4 – Elaborazione Numerica dei dati ................................................................. 39 2.1.5 – Interpretazione dei risultati ......................................................................... 39 Capitolo 3 – Esposizione dei risultati: principali rappresentazioni grafiche ....................................................................................................... 41 3.1 – Profili generali di applicazione delle rappresentazioni grafiche .. 41 3.2 – Sistemi di Riferimento ..................................................................... 42 3.2.1 – Riferimento Cartesiano ............................................................................... 44 3.2.2 – Riferimento Polare...................................................................................... 48 3.3 – Diagrammi ...................................................................................... 53 3.3.1 – Diagramma lineare ..................................................................................... 53 3.3.2 – Diagramma ad albero.................................................................................. 54 3.3.3 – Diagramma a blocchi .................................................................................. 55 3.3.4 – Diagramma di Gantt ................................................................................... 57 3.3.5 – Diagramma di Pareto .................................................................................. 58 3.4 – Ideogramma (o pictogramma) ........................................................ 59 3.5 – Cartogramma .................................................................................. 60 3.6 – Areogramma ................................................................................... 61 3.7 – Ortogramma (o “diagramma a barre”) ......................................... 62 3.8 – Istogramma ..................................................................................... 64 3.9 – Stereogramma ................................................................................. 66 Capitolo 4 – Concetto di “valore medio” ................................................ 68 4.1 – Indici di posizione: i tipi di media .................................................. 68 4.2 – Le medie di posizione...................................................................... 69 4.2.1 – Valori medi: “quantili” ............................................................................... 69 4.2.2 – Mediana ...................................................................................................... 75 4.2.3 – Moda (o “valore normale”, o “norma”) ...................................................... 80 4.2.4 – Valore massimo e minimo .......................................................................... 83 4.2.5 – Valore centrale............................................................................................ 84 4.3 – Le medie analitiche semplici .......................................................... 86 4.3.1 – Media Aritmetica Semplice ........................................................................ 87 4.3.2 – Media Geometrica Semplice ...................................................................... 94 4.3.3 – Media Quadratica Semplice........................................................................ 97 4.3.4 – Media Armonica Semplice ......................................................................... 99 4.4 – Le medie analitiche ponderate...................................................... 102 4.4.1 – Media Aritmetica Ponderata ..................................................................... 102 4.4.2 – Media Geometrica Ponderata ................................................................... 105 4.4.3 – Media Quadratica Ponderata .................................................................... 106 4.4.4 – Media Armonica Ponderata ...................................................................... 108 4.5 – La dispersione (variabilità) .......................................................... 111 4.5.1 – Principali misure di dispersione ............................................................... 112 4.5.2 – Gamma della Distribuzione (o “Campo di Variazione” o “Campo di Escursione”) ......................................................................................................... 113 4.5.3 – Scarto Semplice Medio dalla Media Aritmetica....................................... 115 4.5.4 – Scarto Quadratico Medio (o “Deviazione Standard”) .............................. 117 4.5.5 – Varianza .................................................................................................... 118 4.5.6 – Coefficiente di Variazione (o “Coefficiente di Variabilità”).................... 120 4.6 – Numeri indice (indici di posizione nel tempo) .............................. 121 4.6.1 – Numeri indice semplici a base fissa ......................................................... 122 4.6.2 – Numeri indice semplici a base mobile (o “base variabile”)..................... 123 4.6.3 – Passaggio dai numeri indice semplici a base fissa a quelli a base mobile 125 4.6.4 – Passaggio dai numeri indice semplici a base mobile a quelli a base fissa 126 4.6.5 – Numeri indice complessi calcolati su un paniere fisso di beni: indici di Laspeyres .............................................................................................................. 127 4.6.6 – Numeri indice complessi calcolati su un paniere variabile di beni: indici di Paasche ................................................................................................................. 130 Capitolo 5 – Il concetto di “concentrazione” ........................................ 134 5.1 – Il concetto di “concentrazione” ................................................... 134 5.2 – Misure della concentrazione......................................................... 137 5.2.1 – Retta di Equidistribuzione ........................................................................ 138 5.2.2 – Curva di Concentrazione (Curva di Lorenz) ............................................ 139 5.2.3 – Area di Concentrazione ............................................................................ 141 5.2.4 – Rapporto di Concentrazione (o Coefficiente di Gini, o Indice di Gini) ... 144 Ringraziamenti ........................................................................................ 148 Bibliografia............................................................................................... 149 Capitolo 1 – Profili generali 1.1 – Origini ed evoluzione storica del metodo statistico 1.1.1 – Il termine “statistica” e le sue origini Esistono innumerevoli definizioni del termine “statistica”, tra le quali: “1. Scienza che studia, in base a metodi matematici, fenomeni collettivi di carattere variabile. 2. […]. 3. Raccolta organica e ordinata di dati: fare la s. della popolazione / (est.) Calcolo: fare una s.”1. “1. Da Stato, nel senso di ciò che è, di modo di vivere, ovvero di paese, principato, regno; 2. Scienza che presenta il quadro numerico di fatti sociali importanti, quali ad esempio il movimento della popolazione, della ricchezza nazionale, della delinquenza e simili, all’oggetto di offrire l’agio di prevedere e provvedere.”2. Ai fini della presente trattazione, si può ritenere completa, generale ed esaustiva la seguente definizione della “statistica”: Scienza che studia fenomeni collettivi di tipo variabile, avvalendosi di metodi matematici, al fine di ottenere risultati numerici e/o grafici che possano fornire un quadro sintetico del fenomeno oggetto di studio. Da tale definizione è possibile ricavare il significato completo del termine mediante la scomposizione della definizione stessa. Scienza. In quanto disciplina fondata sul calcolo e l’osservazione, nonché basata su metodo, studio ed esperienza. 1 2 Cfr. Zingarelli N., “Lo Zingarelli 2008 – Vocabolario della lingua italiana”, Zanichelli, Bologna, 2008. “Etimo – Dizionario Etimologico Online”, http://www.etimo.it/?term=statistica&find=Cerca. 7 Fenomeni collettivi. Generalmente applicata su una pluralità di elementi3 di osservazione. Tipo variabile. L’oggetto di osservazione (“carattere” o “variabile”) può assumere diverse modalità sulle diverse unità osservate. Metodi matematici. Si avvale di strumenti matematici di calcolo, misurazione e rappresentazione. Fine. Sempre finalizzata all’ottenimento di un risultato. Si ricorda a tal proposito che lo svolgimento di un’indagine statistica comporta l’impiego (a volte anche ingente) di risorse e di tempo. L’assenza di utilità di una statistica costituirebbe uno spreco ingiustificabile. Risultati numerici e/o grafici. Le risultanze finali dell’indagine sono costituite di norma da un riepilogo numerico (in forma di valore assoluto o percentuale) e talvolta anche rappresentate graficamente al fine di fornire una riproduzione più chiara e immediata del fenomeno oggetto di studio. Quadro sintetico. Il risultato statistico deve fornire una rappresentazione sintetica, schematica e/o grafica del fenomeno complesso oggetto di analisi. La sola rilevazione dei dati non avrebbe senso se non fosse seguita da un riepilogo finale. Una definizione della statistica è stata anche ironicamente proposta da Trilussa, che, attraverso una poesia, ha sagacemente evidenziato i limiti delle medie statistiche, attraverso un esempio divenuto molto noto come i “polli di Trilussa”. 3 Esiste sempre un’esigenza di comparazione di dati, ovvero di disporre di informazioni quantitative sui fatti o “fenomeni collettivi”, ovvero fatti relativi a insiemi di unità o collettivi o popolazioni. Si analizzano fatti sociali inerenti alle singole unità in quanto appartenenti a un dato collettivo e non fatti singoli, casi individuali, accadimenti di vita del singolo (che risultano irrilevanti). 8 LA STATISTICA (di Trilussa) Sai ched’è la statistica? È na’ cosa che serve pe fa’ un conto in generale de la gente che nasce, che sta male, che mòre, che va in carcere e che spòsa. Ma pe’ me la statistica curiosa è dove c’entra la percentuale, pe’ via che, lì, la media è sempre eguale puro co’ la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche d’adesso risurta che te tocca un pollo all’anno: e, se nun entra nelle spese tue, t’entra ne la statistica lo stesso perch’é c’è un antro che ne magna due. Per quanto concerne l’etimologia della parola, “statistica” deriva da “stato”, inteso sia come nazione, entità territoriale guidata da un governo, sia come condizione, dal latino “status”, situazione4. L’origine della statistica come scienza autonoma, caratterizzata dall’uso del metodo empirico induttivo, si può far risalire al XVII Secolo5. Inizialmente tale filone di ricerca, i cui principali esponenti sono rappresentati da John Graunt6 (1620–1674) e William Petty (1623–1687), prese il nome di Political Arithmetic (ovvero “l’arte di ragionare mediante le cifre 4 Cfr. Carnevale Maffè C. A., Carnevale Maffè T., “Statistica”, A. Vallardi Editore, Milano, 1996, pag. 9 Cfr. Cicchitelli G., “Statistica, principi e metodi”, Pearson Paravia Bruno Mondadori, 2008, pag. 2. 6 Mercante londinese, che tramite lo studio dei registri di mortalità, riuscì per primo a rilevare l'approssimativa costanza di certi rapporti demografici e a costruire una prima e rudimentale "tavola della mortalità". Il suo testo “Natural and Political Observations on the Bills of Mortality” (“Osservazioni naturali e politiche”) risalente al 1662 può essere considerato come l'atto di nascita della Statistica e della Demografia. Il metodo statistico elaborato da Graunt per il settore demografico fu poi ripreso da William Petty, che nel suo “Fuve Essays on the Political Arithmetic”, del 1690, espose i principi fondamentali della nuova disciplina. 5 9 sulle cose che riguardano il governo”). Il termine “statistica” venne impiegato “per la prima volta per designare l’indirizzo scientifico iniziato in Germania da Hermann Conring (1606–1681), con l’avvio di un insegnamento universitario di scienza politica avente per obiettivo la descrizione delle «cose notevoli di uno Stato»”7. In conclusione, la statistica moderna, intesa come disciplina, nasce nel XVII Secolo ed è possibile individuarne due iniziali distinti indirizzi: Investigativo. Scuola Inglese dei cc.dd. “Aritmetici Politici”: J. Graunt (1620–1674), W. Petty (1623–1687). Tale indirizzo si occupava dello studio di fenomeni demografici (mortalità, rapporto dei sessi alla nascita, urbanesimo, ammontare della popolazione) finalizzato alla ricerca di leggi o regolarità per ricavarne informazioni o previsioni; Descrittivo, o Statistica universitaria. In Germania: H. Conrig (1606–1681) e G. Achenwall (1719–1772). Tale filone si occupava in prevalenza dei principali fatti concernenti la vita dello Stato (nascite, morti, commercio, clima, produzioni agrarie) al fine di fornire una valutazione tramite una descrizione quantitativa. L’evoluzione e lo sviluppo della disciplina ha condotto alla formazione di ulteriori filoni di ricerca. Calcolo delle probabilità, B. Pascal (1623–1662), J. Bernoulli (1654–1705), T. Bayes (1702–1761), P. S. de Laplace (1749–1827). Alla fine del XIX Secolo, matematica e calcolo delle probabilità (R. Von Mises 1883–1953; A.N. Kolmogorov 1903–1987; B de Finetti 1906–1985), entrano a far parte degli strumenti impiegati per gli stu7 Cfr. Cicchitelli G., “Statistica, principi e metodi”, op. cit., pag. 3. 10 di statistici, contribuendo allo sviluppo della c.d. statistica inferenziale o inferenza statistica (K. Pearson 1857–1936; R. A. Fisher 1890–1962; J. Neyman 1894–1961), che riguarda quel complesso di tecniche statistiche che consentono, in base ai risultati relativi a un gruppo di osservazioni (campione), di trarre conclusioni (stimare parametri, verificare ipotesi) la cui validità per un collettivo più ampio è espressa in termini probabilistici. A partire dagli ultimi anni Sessanta, infine, il connubio tra statistica e informatica in Francia ha condotto alla c.d. Analisi dei dati (Analyse des données) o Analisi Multidimensionale dei Dati (AMD) (Y. Escouffier 1972; J. P. Benzécri 1973; Bertier e Bouroche 1975; Caillez e Pages 1976). La misurazione di fenomeni sociali può essere fatta, però, risalire molto indietro nel tempo. Se ne riportano di seguito alcuni esempi. Nella preistoria veniva effettuata la conta dei capi di bestiame e dei prodotti agricoli attraverso dei graffiti (esempi ne sono stati rinvenuti nei cc.dd. “nuraghi”8). Tra il 3000 a.C. e il 1200 a.C. è stato accertato in Egitto il culto per una dea della scrittura e dei conti (Safhkit), che valutava la quantità dei prodotti raccolti e scambiati con altri paesi. Tra il 1700 a.C. e il 400 a.C. l’Antico Testamento testimonia che Mosè e David effettuavano regolari censimenti (Libro dei Numeri). Nell’Antica Roma esisteva un’organizzazione politico–giuridica che provvedeva a un organico sviluppo delle rilevazioni statistiche. Il census era una rilevazione che aveva lo scopo di conoscere anche il reddito dei cittadini oltre che il loro numero (→ censimento). Il pri8 Caratteristici monumenti preistorici tipici della Sardegna, adibiti a dimore fortificate. 11 mo censimento fu ordinato da Servio Tullio e si ebbero poi censimenti con periodicità quinquennale dalla fine del VI Secolo a.C., e con periodicità decennale a partire da Augusto. Intorno al X Secolo, le Repubbliche Marinare hanno segnato, oltre al fiorire delle statistiche, la nascita della contabilità, in quanto si era reso necessario adottare un sistema di rilevazione dei proventi o delle perdite derivanti da singoli affari determinati attraverso la stipula dei cc.dd. “contratti di commenda”9. Tra il 1545 e il 1563 in occasione del Concilio di Trento la Chiesa ha introdotto l’obbligo di registrazione dei matrimoni e delle morti. ATTENZIONE! L’origine della statistica può essere fatta risalire alla preistoria, ma l’origine della statistica moderna, intesa come scienza autonoma risale al XVII Secolo. Alla luce dell’importanza assunta dai censimenti nella storia della statistica, si è ritenuto doveroso approfondire la trattazione di questa particolare forma di statistica. Il termine censimento viene dal latino “censere” e significa valutare, il “censo” è lo stato sociale di una persona dato dalle sue ricchezze, il patrimonio che viene sottoposto a tributo ovvero l’elenco dei cittadini e dei loro beni. I censimenti costituiscono una delle più antiche e importanti fonti di dati statistici, in passato venivano effettuati principalmente per scopi militari o fiscali e non riguardavano la totalità delle persone, ma soltanto alcune 9 Tali contratti sono stati descritti in modo semplice e di immediata comprensione da Falcones I., nel romanzo “La cattedrale del mare”, Longanesi, 2007, pag. 346: “c'è un commerciante, il più delle volte un banchiere, che concede denaro ad un mercante perché questi possa comprare o vendere una certa mercanzia. Quando il mercante ha portato a termine l'affare, deve restituire al banchiere la stessa somma che ha ricevuto da lui, più una parte dei ricavi ottenuti. È la stessa cosa di un prestito ad interesse, solo che si chiama in un altro modo, e cioè una commenda”. 12 categorie di popolazione (maschi adulti atti alle armi, cittadini secondo la loro situazione patrimoniale o la misura dei diritti civili e politici di cui godevano) oppure la rilevazione si riferiva ai beni (terre, bestiame). Nell’epoca moderna le rilevazioni censuarie vengono fatte con cadenza periodica e hanno scopi prevalentemente scientifici e amministrativi, si riferiscono alla totalità delle famiglie, delle persone, delle case, delle attività economiche di un Paese. Scopi principali di un censimento sono: accertare la consistenza numerica e la distribuzione territoriale delle unità di rilevazione; rilevare i principali caratteri strutturali e descrittivi sia per le unità di rilevazione primarie (es. famiglie), che per le altre unità statistiche che le costituiscono (es. persone che compongono le famiglie). Il censimento è una rilevazione: totale, riguarda indistintamente tutte le unità statistiche a cui la rilevazione si riferisce; generale, riguarda i principali aspetti strutturali che caratterizzano le unità di rilevazione; diretta, la consistenza delle unità considerate non viene dedotta da altri dati, ad esempio il numero delle famiglie dalle abitazioni, ma rilevate direttamente; simultanea, la rilevazione è quella che risulta a uno stesso istante per tutto il territorio e tutte le unità considerate; periodica, ripetuta a intervalli di tempo regolari. 13 1.1.2 – Gli usi della statistica La statistica sta assumendo una sempre più penetrante (a volte inosservata) importanza nella vita quotidiana, lo attesta il continuo riferimento a dati “statistici” che si riscontra in ogni situazione. Per quanto concerne l’utilità della statistica, gli scopi principali dei metodi statistici possono essere sintetizzati come di seguito: valutare variazioni; verificare ipotesi; fare previsioni; analizzare le relazioni tra i soggetti; analizzare le relazioni tra le variabili; distinguere gruppi, individuare tipologie. Nel tempo si è rilevata una sempre crescente esigenza di “contare”, ovvero esprimere mediante numeri una serie di fatti importanti, rilevanti della vita sociale: - ammontare della popolazione; - numero delle nascite; - numero delle morti; - prodotti agricoli raccolti e scambiati; - capi di bestiame; - fenomeni atmosferici. 14