CONTENUTI DI STATISTICA CLASSE V MODULI UNITA’ DIDATTICHE U.D. 1 Origini e sviluppo della statistica……….pag. 3 U.D. 2 La statistica nella Roma antica…….....pag. 5 1_CENNI GENERALI E LINEAMENTI STORICI U.D. 3 La caduta dell’impero romano ai giorni nostri…..pag. 5 U.D. 4 L’organizzazione statistica italiana…..pag. 6 U.D. 1 L’unità statistica.……pag. 8 2_L’UNITA’ STATISTICA ED I SUOI CARATTERI U.D. 2 I caratteri dell’unità statistica ………….…….pag. 10 U.D. 3 I caratteri quantitativi…pag. 22 U.D. 4 I caratteri qualitativi.…pag. 14 U.D. 1 Rivelazione e spoglio dei dati……pag. 15 3_L’INDAGINE STATISTICA U.D. 2 Sistemazione dei dati: serie e seriazione……pag. 18 U.D. 3 Variabili e mutabili statistiche……pag. 20 U.D. 4 Rappresentazioni grafiche……pag. 21 U.D. 1 L’unità statistica.……pag. 8 2_L’UNITA’ STATISTICA ED I SUOI CARATTERI U.D. 2 I caratteri dell’unità statistica ………….…….pag. 10 U.D. 3 I caratteri quantitativi…pag. 22 U.D. 4 I caratteri qualitativi.…pag. 14 U.D. 1 Rivelazione e spoglio dei dati……pag. 15 3_L’INDAGINE STATISTICA U.D. 2 Sistemazione dei dati: serie e seriazione……pag. 18 U.D. 3 Variabili e mutabili statistiche……pag. 20 U.D. 4 Rappresentazioni grafiche……pag. 21 U.D. 1 La media aritmetica……pag. 23 4_LE SINTESI DELLE DISTRIBUZIONI SEMPLICI SECONDO IL CARATTERE QUANTITATIVO U.D. 2 La media geometrica….pag. 25 U.D. 3 La media armonica……pag. 27 U.D. 4 La media quadratica......pag. 28 U.D. 1 Il campo di variazione e lo scarto semplice medio……………….pag. 29 5_GLI INDICI DI VARIABILITA’ U.D. 2 Lo scarto quadratico medio…………………………pag. 31 U.D. 3 La distribuzione gaussiana………………….….pag. 33 MODULO 1 U.D. 1 ORIGINI E SVILUPPO DELLA STATISTICA La misura quantitativa dei fenomeni sociali ha una storia antica. In Egitto si rilevava l'ammontare della popolazione già ai tempi della prima dinastia e durante la seconda si rilevavano vari beni a fini fiscali. Durante le dinastie successive si tenevano elenchi delle famiglie dei soldati, dei dipendenti statali, delle merci. Sotto la ventesima dinastia si tenevano liste delle abitazioni e dei loro abitanti. In Israele il primo censimento fu fatto ai tempi del soggiorno nel Sinai (da cui il libro dei Numeri della Bibbia) e altri ne seguirono. Anche l'immenso impero cinese ha sempre curato i censimenti, che nell'epoca dei Ming avevano cadenza decennale. Non si hanno invece notizie di censimenti nella Grecia antica, ma venivano registrati ogni anno i nati dell'anno precedente. In genere, le origini della statistica nella concezione più moderna, si fanno risalire a quella che un economista e matematico inglese, William Petty (1623 - 1687), chiamo "aritmetica politica", ovvero "l'arte di ragionare mediante le cifre sulle cose che riguardano il governo"; tra le cose che maggiormente stavano a cuore al governo, del resto, vi erano l'entità della popolazione e la quantità di ricchezza che essa aveva a sua disposizione, dalle quali dipendeva in ultima analisi la forza degli Stati in competizione tra loro. Demografia e calcolo del reddito nazionale furono quindi gli ambiti in cui si esercitò la creatività dei primi "aritmeti politici". Nel primo campo un autentico precursore fu John Graunt (1620 - 1674), un mercante londinese, che tramite lo studio dei registri di mortalità, riuscì per primo a rilevare l'approssimativa costanza di certi rapporti demografici e a costruire una prima e rudimentale "tavola della mortalità". Le sue Natural and Political Observations on the Bills of Mortality risalente al 1662 possono essere considerate a buon diritto come l'opera fondatrice della demografia. Il metodo statistico elaborato da Graunt per il settore demografico fu poi ripreso da William Petty, che nel suo Fuve Essays on the Political Arithmetic del 1690 espose i principi fondamentali della nuova disciplina. Nei medesimi anni, venne data alle stampe l'opera di un altro grande aritmeta politico, Gregory King (1648 - 1712), il quale nelle sue Natural and Political Observations and Conclusion upon the State and Condition of England risalente al 1698 formulò una stima della popolazione e del reddito totale dell'Inghilterra, giungendo a conclusioni ritenute abbastanza veromisili. In Francia un tentativo simile venne effettuato dal ministro del re Luigi XIV ed economista Sebastien de Vauban (1633 1707), che stimò la popolazione del Regno di Francia intorno ai venti milioni di abitanti - valutazione condivisa dalgi storici attuali. Ai problemi statistici si interessarono anche alcune delle menti più brillanti dell'epoca: il fisico olandese Christiaan Huygens (1629 - 1695) elaborò delle tavole di mortalità, l'astronomo inglese Edmund Halley (1656 - 1742) avanzò una serie di ipotesi sul numero di abitanti dei vari Paesi europei, mentre in Germania il grande filosofo Gottfried Leibniz (1646 - 1716) suggerì la creazione di un ufficio statale di statistica. Nel frattempo, in concomitanza con lo sviluppo di queste prime ed ancora rudimentali metodologie demografiche, ci si cominiciò a porre questo tipo di problemi anche per quanto concerneva la storia precedente: ciò indusse a guardare in modo critico e diffidente ai dati forniti da quegli autori del passato che avevano cercato di quantificare il numero di abitanti di un territorio, le dimensioni di un esercito, i morti per un'epidemia, ecc. Un contributo importante, sotto questo profilo, venne da uno dei più grandi pensatori del XVIII secolo, lo scozzese David Hume (1711 - 1776) il cui Of the Populousness of Ancient Nations diede inizio alla demografia storica. In tale testo Hume rilevò come le cifre tramandateci dagli antichi fossero particolarmente inaffidabili, non solo perché le loro stime non avevano basi solide, ma anche perché i numeri di ogni tipo contenuti negli antichi manoscritti sono stati soggetti ad un' alterazione molto maggiore di qualsiasi altra parte del testo, in quanto ogni altro tipo di alterazione modifica il senso e la grammatica ed è quindi più facilmente individuata dal lettore e dal trascrittore. In Italia venne creato un Ufficio Statistico Nazionale nel 1861, che poi diventò ISTAT nel 1926. MODULO 1 U.D. 2 LA STATISTICA NELLA ROMA ANTICA U.D. 3 LA CADUTA DELL’IMPERO ROMANO AI GIORNI NOSTRI La rilevazione dei cittadini e dei loro beni ebbe grande importanza nella Roma antica. Il primo censimento fu ordinato da Servio Tullio e si ebbero poi censimenti con periodicità quinquennale dalla fine del VI secolo a.C., decennale a partire da Augusto. La caduta dell'impero romano comportò la sospensione di tali attività per secoli, fino alla ricostituzione di organismi statali da parte dei Carolingi. Il sorgere dei Comuni, poi delle signorie, delle repubbliche marinare e degli Stati nazionali comportò una progressiva frammentazione non solo politica, ma anche amministrativa. Già dal XII secolo si ebbero rilevazioni statistiche in Italia, da Venezia alla Sicilia, con obiettivi prevalentemente fiscali. Ebbero poi crescente importanza le registrazioni su nascite, matrimoni e morti effettuate dalle parrocchie, iniziate in Italia ed in Francia fin dal XIV secolo. L'esigenza di quantificare i fenomeni oggetto di studio, ossia di analizzarli e descriverli in termini matematici, fu una tendenza tipica del XVII secolo: non fu solo l' Universo ad essere concepito come un grande libro "scritto in caratteri matematici" - come aveva affermato Galileo Galilei -, ma si diffuse anche la convinzione che fosse possibile studiare la società tramite strumenti di tipo quantitativo. MODULO 1 U.D. 4 L’ORGANIZZAZIONE STATISTICA ITALIANA L'ISTAT, Istituto Nazionale di Statistica, è un ente di ricerca pubblico, italiano le cui attività comprendono: • • • • censimenti sulla popolazione, censimenti sull'industria, sui servizi e sull'agricoltura, indagini campionarie sulle famiglie (consumi, forze di lavoro, aspetti della vita quotidiana, salute, sicurezza, tempo libero, famiglia e soggetti sociali, uso del tempo, etc.) e numerose indagini economiche (contabilità nazionale, prezzi, commercio estero, istituzioni, imprese, occupazione, etc.). Fu istituito come Istituto Centrale di Statistica nel 1926 (legge 9 luglio 1926, n. 1162), durante il Fascismo, per raccogliere, in forma organizzata, alcuni dati essenziali riguardanti lo Stato. È stato in seguito riorganizzato, con il decreto legislativo 6 settembre 1989, n. 322 che ha istituito il Sistema Statistico Nazionale (SISTAN) e ha dettato norme sui compiti e l'organizzazione dell'ISTAT, cambiandone tra l'altro la denominazione in Istituto Nazionale di Statistica. Attuale presidente dell'Istat è l'economista Enrico Giovannini. Istituto nazionale di statistica Ruolo L'Istat è il principale[produttore di statistica ufficiale a supporto dei cittadini e dei decisori pubblici. Per statuto, la realizzazione di indagini, studi e analisi è finalizzata alla produzione di statistica ufficiale e a soddisfare il bisogno informativo espresso dalla collettività. Le rilevazioni di pubblico interesse sono stabilite dal Programma statistico nazionale, il documento che regola l'attività di produzione statistica. L'Istat svolge un ruolo di indirizzo, coordinamento, assistenza tecnica e formazione all'interno del Sistema statistico nazionale (Sistan). Il Sistema è stato istituito con il decreto legislativo 322/89 per razionalizzare la produzione e diffusione delle informazioni e ottimizzare le risorse destinate alla statistica ufficiale. Del Sistan fanno parte l'Istat, gli uffici di statistica centrali e periferici delle amministrazioni dello Stato, degli enti locali e territoriali, delle Camere di Commercio, di altri enti e amministrazioni pubbliche, e altri enti e organismi pubblici di informazione statistica. Il lavoro di preparazione del Programma statistico nazionale viene effettuato da circoli di qualità composti da esperti provenienti dagli uffici statistici di tutto il Sistan. L'Istituto è coinvolto nella costruzione del Sistema statistico europeo (regolamento CE 322/97) e produce informazioni che dovrebbero ispirarsi ai principi fondamentali della statistica ufficiale: imparzialità, affidabilità, pertinenza, efficienza, riservatezza e trasparenza. Per garantirne la qualità, nel 2005 la Commissione europea ha adottato il Codice delle statistiche europee che fissa 15 principi chiave cui gli istituti di statistica devono attenersi nella produzione e diffusione dell'informazione statistica. Oltre i confini dell'Europa, l'Istat partecipa ai processi standardizzazione e sviluppo della statistica internazionale. di Organizzazione La sede centrale dell'Istat è a Roma. Una rete di uffici regionali rappresenta l'Istituto su tutto il territorio nazionale. In ogni regione e provincia autonoma è presente infatti una struttura che opera a stretto contatto con gli enti locali. Organi dell'Istituto sono il Presidente, il Consiglio, il Comitato di indirizzo e coordinamento dell'informazione statistica e il Collegio dei revisori dei conti. Inoltre, presso la Presidenza del Consiglio dei ministri, è istituita la Commissione per la garanzia dell'informazione statistica con il compito di vigilare sull'imparzialità e la completezza dell'informazione prodotta. MODULO 2 U.D. 1 L’UNITA’ STATISTICA La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi (descritti attraverso formule matematiche) in cui una realtà fenomenica - limitatamente ai fenomeni collettivi - può essere sintetizzata e quindi compresa. Con il termine statistica, nel linguaggio di tutti i giorni, si indicano anche semplicemente i risultati numerici (le statistiche richiamate nei telegiornali, ad esempio: l'inflazione, il PIL etc.) di un processo di sintesi dei dati osservati. UNITÀ STATISTICHE E POPOLAZIONE L’oggetto dell’osservazione di ogni fenomeno individuale che costituisce il fenomeno collettivo `e detto unità statistica. L’insieme delle unità statistiche costituisce il collettivo o popolazione. Esempi di unità statistiche: - ciascun individuo di una popolazione, - ciascun una coppia di sposi, - ogni esercizio industriale. Prima di qualunque indagine risulta essenziale delimitare con precisione la popolazione che si vuole esaminare. Esempi di popolazione: tutti gli occupati di una data regione in un dato momento, tutte i clienti di un azienda in un dato anno, tutti gli studenti universitari iscritti in una università entro il 30 settembre 2001. POPOLAZIONE E CAMPIONE Le informazioni disponibili, di interesse per l'analisi statistica possono costituire: Popolazione: se il collettivo comprende tutte le unità omogenee rispetto ad una caratteristica comune; Campione: se il collettivo in esame costituisce un sottoinsieme della popolazione di riferimento. - consente di ridurre costi e di approfondire alcuni aspetti… Problema della rappresentatività …. Esperimento…… Nel primo caso l'analisi dei dati rilevati consente di raggiungere l'obiettivo dell'analisi statistica che è quello di descrivere le caratteristiche della popolazione di riferimento Nel secondo caso l'analisi dei dati rilevati è uno strumento per pervenire a conoscenze sulla popolazione di riferimento Attenzione, anche in presenza di rilevazioni complete non possiamo giungere alla formulazione di modelli di validità generale, le conclusione valgono per quella popolazione (…superpopolazione: la pop. osservata è la determinazione di un modello sottostante…) UNITA STATISTICHE E UNITA DI RILEVAZIONE L’unità di rilevazione a volte può non coincidere con l’unità statistica che forma il collettivo. Ad esempio: Censimenti demografici: unità statistica: individuo unità di rilevazione: famiglia Censimenti industriali: unità statistica: unità locale unità di rilevazione: impresa Attenzione La definizione corretta dell’unità che e dell’unità di rilevazione `e condizione fondamentale per l’esattezza della ricerca. L’inclusione o esclusione errata di numerose unita può portare a cambiamenti significativi nella popolazione e quindi a conclusioni fuorvianti. MODULO 2 U.D. 2 I CARATTERI DELL’UNITA’ STATISTICA CARATTERI E MODALITA' CARATTERI, fenomeni, variabili Il carattere di una unità statistica è una caratteristica degli elementi della popolazione, è l'aspetto rilevato in corrispondenza di ogni unità statistica MODALITA' Sono le differenti forme secondo cui si manifesta il carattere, Sono le categorie o i valori che ciascun carattere presenta in corrispondenza di ogni unità statistica Requisiti di un carattere in base a cui effettuare un’analisi di dati: 1) il carattere deve poter assumere modalità differenti; 2) più elementi delle popolazione possono avere la stessa modalità del carattere; 3) devono esistere almeno due elementi delle popolazione per cui il carattere si presenta con modalità differenti. Ad esempio, il personale di un’azienda può essere descritto in base a: sesso, età, anzianità di lavoro, salario, numero di figli a carico, comune di residenza, et . Requisiti delle modalità: devono essere 1) esaustive, cioè in grado di interpretare qualunque manifestazione del carattere (importanza della modalità "altro") 2) mutuamente esclusive, ogni elemento della popolazione deve possedere una sola modalità del carattere (settore di attività specificare "prevalente"); LE SCALE DI MISURAZIONE DEI CARATTERI Nomenclatura italiana 1. caratteri qualitativi o variabili qualitative o variabili categoriali o mutabili): sconnessi o ordinati (attributi); 2. caratteri quantitativi o variabili quantitative (misure, numeri). Nomenclatura anglosassone 1. un carattere è espresso su scala nominale (sconnessa) se per le sue modalità `e possibile affermare soltanto se sono uguali o diverse -fenomeni dicotomici; 2. un carattere è espresso su scala ordinale se `e possibile soltanto dare un ordine alle sue modalità (ovviamente oltre a uguali o diverse) -codifica numerica…, quantificazione…; 3. un carattere è espresso su scala a intervalli se il carattere `e (quantitativo) misurabile a partire da un’origine arbitraria; per tali modalità possiamo definire non solo rapporti di maggiore/minore ma distanze - Rimane arbitraria l'unità di misura e l'origine del sistema di misurazione (lo zero) Esempio: la temperatura 4. un carattere è espresso su scala a rapporti o proporzionale se il carattere `e (quantitativo) misurabile a partire da uno zero assoluto. Per tali caratteri è univoca e naturale la fissazione dell'origine, che corrisponde all'assenza del fenomeno (è arbitraria l'unità di misura) Esempi: reddito, numero di componenti di una fam., occupati, fatturato, PIL, Corrispondenze fra le due nomenclature: A. carattere qualitativo sconnesso può essere espresso su scala nominale B. carattere qualitativo ordinato può essere espresso su scala ordinale C. carattere quantitativo può essere espresso su scala a intervalli o di rapporti (quest'ultima è più frequente) MODULO 2 U.D. 3 I CARATTERI QUANTITATIVI I caratteri quantitativi possono essere: 1) discreti: l'insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un insieme di numeri interi (sono, quindi in numero finito, o un'infinità numerabile) Es.: valore aggiunto, fatturato, 2) continui: l'insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un insieme di numeri reali Es.: numero di addetti, numero di clienti, numero di incidenti sul lavoro… …un carattere continuo, al momento della rilevazione, della misura, può assumere solo un numero finito di modalità La scala di misurazione secondo la quale sono espressi i caratteri rilevati condiziona con riferimento alle metodologia statistiche applicabili E' possibile passare da una scala a quelle precedenti ( e ciò comporta una perdita di informazioni) ma non il viceversa I caratteri più semplici sono quelli che comportano solo due modalità chiamati anche caratteri dicotomici: un salariato può essere di sesso maschile o femminile; un individuo può avere più o meno di 65 anni; un pezzo meccanico può essere funzionante o difettoso. Il numero di modalità di un carattere varia a seconda del grado di dettaglio dell’informazione disponibile. Ad esempio il carattere “tipologia dell’utente Enel” può comportare i casi seguenti: due modalità: privato, azienda; tre modalità: privato, professionista, azienda; quattro modalità: privato, professionista, azienda, ente pubblico; cinque modalità: privato, professionista, azienda, ente pubblico, non dichiarato (se, in un’inchiesta, alcune persone rifiutano di rispondere a tale domanda). MODULO 2 U.D. 4 I CARATTERI QUALITATIVI Un carattere qualitativo esprime una qualità, ovvero dei valori non numerici (il genere o il credo religioso). • • Un carattere qualitativo ordinale (o ordinato o ordinabile) assume valori che posseggono naturalmente un ordine, ovvero che possono essere disposti lungo una scala (gli attributi "pessimo", "cattivo", "mediocre", "buono" e "ottimo"). Un carattere qualitativo nominale (o sconnesso) assume valori che non posseggono alcun ordine naturale (le malattie o i giorni della settimana) MODULO 3 U.D. 1 RILEVAZIONE E SPOGLIO DEI DATI Le rilevazioni statistiche La prima operazione da compiere per analizzare un fenomeno collettivo, è quella della rilevazione, la quale consiste nella raccolta dei dati statistici riguardanti i fenomeni individuali che compongono il fenomeno collettivo oggetto dell’indagine. Una rilevazione statistica può avere caratteristiche diverse e può essere: saltuaria o continua pubblica o privata parziale o totale diretta o indiretta preliminare o definitive Ad esempio un censimento è una rilevazione saltuaria, pubblica e totale. Per avere i dati dei nati in una certa popolazione (o la quotazione di alcune merci) si richiedono, invece, rilevazioni continue, pubbliche e complete. Una rilevazione statistica richiede, innanzitutto, l’esatta definizione del fenomeno da rilevare ed occorre anche stabilire il modo, il tempo, e lo spazio in cui essa deve essere effettuata e quali sono gli organi ed i mezzi interessati alla rilevazione. Il modo secondo cui può essere condotta la rilevazione si distingue in: automatica quando deriva da dichiarazioni provenienti direttamente dalle persone interessate (es. le rilevazioni dell’ufficio di stato civile per le nascite, i morti, i matrimoni, ecc.); riflessa quando i dati vengono raccolti da appositi rilevatori (es. il censimento). Riguardo al tempo la rilevazione può essere: continua quando le rilevazioni vengono registrate man mano che i fenomeni si verificano; periodica quando viene effettuata ad intervalli regolari di tempo (es. il censimento); occasionale quando viene compiuta senza alcuna periodicità (es. la rilevazione dei danni provocati da una guerra, oppure i sondaggi politici). 35Gli organi che eseguono le rilevazioni statistiche possono pubblici o privati. Le rilevazioni compiute dagli organi pubblici riguardano fenomeni di interesse pubblico come, ad esempio, quelle di carattere demografico ed economico. In Italia il principale organo pubblico dedito agli studi di statistica è l’ISTAT. Le rilevazioni private sono compiute da imprese commerciali su determinati fenomeni che rivestono particolare interesse di ricerca per alcuni privati. Per quanto riguarda i mezzi con i quali possono essere condotte le rilevazioni statistiche diciamo soltanto che per le rilevazioni automatiche si usano registri, ruoli, ecc., mentre per quelle riflesse si usano dei questionari. Lo spoglio dei dati Una volta ultimata la raccolta delle unità statistiche si riunisce tutto il materiale e si procede a controlli di natura diversa per cercare di eliminare inesattezze ed errori. Una volta eseguiti i controlli si passa allo spoglio ed alla classificazione dei risultati raggruppando gli elementi raccolti secondo i caratteri prestabiliti formando delle tabelle di spoglio. Queste sono costituite da varie colonne o righe che sono riferite ai diversi caratteri del fenomeno collettivo che sono stati oggetto della rilevazione. In ciascuna colonna (o riga) vengono riportati i rispettivi dati di frequenza che sono stati rilevati. Le tabelle statistiche si dividono in semplici, complesse e a doppia entrata. Le tabelle semplici sono prospetti nei quali sono elencate le modalità qualitative o quantitative del fenomeno in esame ed a fianco le relative frequenze o intensità. Esempio. Riportiamo una tabella semplice riguardante la distribuzione di una popolazione di 10.000 individui secondo la statura suddivisa in classi di intensità di 10cm in 10cm a partire dall’altezza di 120cm: Le tabelle complesse possono ritenersi una composizione di tabelle semplici che presentano dati statistici riguardanti più fenomeni. Quando lo spoglio delle unità statistiche è stato effettuato secondo due caratteri (ad esempio numero di abitanti e numero di stanze per unità abitative), l’osservazione di ogni unità statistica conduce a due risultati. Allora per la rappresentazione di queste distribuzioni statistiche si fa uso delle tabelle a doppia entrata: Le modalità del primo carattere sono rappresentate dal tipo di scuola, mentre quelle del secondo carattere sono rappresentate dalla professione del padre. In questo caso tanto le modalità del primo carattere quanto quelle del secondo sono qualitative. MODULO 3 U.D. 2 SISTEMAZIONE DEI DATI: SERIE E SERIAZIONE Prima di procedere all’elaborazione dei dati bisogna fare una distinzione fra le distribuzioni statistiche provenienti da caratteri qualitativi da quelle provenienti da caratteri quantitative. Orbene definiamo serie statistica una distribuzione statistica a carattere qualitativo. Chiameremo invece seriazione statistica una distribuzione avente carattere quantitativo. Così, ad esempio, una distribuzione di dati statistici riguardanti una popolazione ripartita secondo la professione degli abitanti costituisce una serie statistica. Così è pure una serie statistica la distribuzione degli individui di una collettività secondo il colore degli occhi. Se invece consideriamo una distribuzione di dati statistici riguardanti la ripartizione dei contribuenti secondo l’ammontare delle imposte cui sono soggetti, si ha una seriazione poiché la modalità assunta a base della ripartizione è di carattere quantitativo. Costituisce anche una seriazione la ripartizione di 1000 conteiner di un cargo secondo classi di peso. Quindi, per distinguere una serie da una seriazione è sufficiente stabilire se il carattere è qualitativo o quantitativo. Tra le serie statistiche rivestono particolare importanza le serie temporali ( o serie storiche) e quelle di luogo (o territoriali). Sono serie temporali quelle in cui viene esposta la distribuzione di un dato fenomeno nel tempo. Tipici esempi ne sono i dati statistici relativi alle produzioni industriali nei vari anni, quelli relativi alla natalità (o mortalità) distinti per giorni, mesi, anni, ecc. A loro volta le serie storiche possono essere statiche (quando non vi sono variazioni apprezzabili) e dinamiche (quando il fenomeno preso in considerazione tende a diminuire o ad aumentare). Una serie è di luogo (o territoriale) quando la distribuzione del fenomeno avviene nello spazio. Ad esempio, la serie dei nati in Italia in un dato anno distinti per regione costituisce una serie territoriale. Per concludere possiamo dire che, rispetto alla disposizione da darsi alle modalità del fenomeno preso in considerazione, le serie statistiche si distinguono in: a) Serie rettilinee che sono quelle le cui modalità vengono disposte secondo un ordine logico o naturale dal principio alla fine (es. è rettilinea la serie temporale dei nati vivi in Italia, di anno in anno, dal 1991 al 2001; b) Serie cicliche che sono quelle le cui modalità si succedono secondo un ordine logico il quale però si ripete ciclicamente. Ne costituiscono un tipico esempio quelle che espongono dati relativi alle stagioni; c) Serie sconnesse che sono quelle le cui modalità non necessitano di alcun ordine. È sconnessa, ad esempio, la serie che rappresenta la distribuzione di una data popolazione secondo la professione o la religione degli individui. MODULO 3 U.D. 3 VARIABILI E MUTABILI STATISTICHE È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica o fra due Mutabili statistiche. È di notevole interesse perché permette di individuare legami fra fenomeni diversi. Tale e può essere effettuato sia sull’intera popolazione statistica, sia su un campione estratto da essa. Esistono metodi diversi per la ricerca della connessione secondo che si vogliano esaminare i legami fra due variabili, oppure fra due mutabili, oppure fra una variabile e una mutabile. In statistica è più importante lo studio della connessione fra due variabili, studio che si può effettuare o ricercando se una variabile è dipendente dall’altra, oppure se si influenzano reciprocamente. MODULO 3 U.D. 4 RAPPRESENTAZIONI GRAFICHE In statistica si usano le rappresentazioni grafiche come tecnica di presentazione dei dati che affianca la presentazione in forma tabellare, con lo scopo di aiutare l'analisi e il ragionamento. Cenni storici Si ritiene che la nascita di questa tecnica sia dovuta a William Playfair verso la fine del Settecento, quando utilizzò decine di diagrammi (soprattutto serie storiche, ma anche il primo diagramma a barre) nel suo Commercial and Politica Atlas del 1786 e introdusse il diagramma a torta nel Statistical Breviary del 1801. Chiaramente ciò non nacque all'improvviso e sarebbe impossibile senza l'introduzione del sistema cartesiano e della geometria analitica da parte di Cartesio nel 1637 (appendice La Géometrie in Discours de la Méthode). Nel 1760 un matematico svizzero, Johann Heinrich Lambert (Mulhouse, 1728-1777), fece uso di grafici di elevata qualità nella sua opera Photometria. Lambert-Adolphe-Jacques Quételet (vissuto nell'Ottocento) fece ampio ricorso ai metodi grafici e in un certo senso li sistematizzò. I primi cartogrammi vengono attribuiti a A.W.Crome, economista tedesco, con la sua Producten-Karte von Europa del 1782. Un autore francese, C.T.Minard, introdusse i cartogrammi a bande proporzionali e li utilizzò per rappresentare i flussi di passeggeri tra le diverse stazioni ferroviarie. Tecniche • diagramma o diagramma areale diagramma circolare (o diagramma a torta) o istogramma o diagramma a barre diagramma a colonne diagramma a nastri o diagramma cartesiano diagramma semilogaritmico o diagramma triangolare o box-plot o box-and-whisker Plot (diagramma a scatola o diagramma a scatola e baffi) o piramide delle età o diagramma stem-and-leaf (diagramma ad albero e foglie) o diagramma di Lexis o Scatola di Edgeworth-Bowley dendrogramma cartogramma o mappa coropleta (Choropleth map) grafo ideogramma semivariogramma • • • • • MODULO 4 U.D. 1 LA MEDIA ARITMETICA Media aritmetica semplice La media aritmetica semplice è la media così come viene intesa comunemente. Viene usata per riassumere con un solo numero un insieme di dati su un fenomeno misurabile (per esempio, l'altezza media di una popolazione). Si chiama media aritmetica di più dati statistici tra la media e i dati stessi. Viene calcolata sommando i diversi valori a disposizione, i quali vengono divisi con il numero complessivo di valori. Formule La formula della media aritmetica semplice è: ovvero utilizzando il simbolo della sommatoria; Caratteristiche La media, come tutti gli indici di posizione, ci dice all'incirca l'ordine di grandezza (la posizione sulla scala dei numeri, appunto) dei valori esistenti. In particolare dice che: se abbiamo N valori, con media Ma, allora per conoscere la somma di tutti questi valori è sufficiente moltiplicare N con Ma. Ci permette così di avere un'idea della quantità complessiva conoscendo soltanto il valore medio e quanti valori ci sono. Che si tratti di un indicatore di posizione lo si verifica facilmente, in quanto se aggiungiamo a tutti i valori una stessa quantità allora la media è anch'essa aumentata di quella stessa quantità. Inoltre, se moltiplichiamo tutti i valori con un determinato numero, allora anche la media aritmetica viene moltiplicata con tale numero. Esempi Problema: • • Abbiamo cinque bambini: Alessandro, Beatrice, Carmelo, Davide e Esmeralda. Alessandro ha 5 cioccolate, Beatrice e Davide una sola, mentre Carmelo ed Esmeralda hanno ciascuno due cioccolate. Mediamente, quante cioccolate hanno i cinque bambini? . Soluzione: I 5 bambini hanno (in ordine alfabetico) 5, 1, 2, 1 e 2 cioccolate. Dunque: media = (5 + 1 + 2 + 1 + 2) / 5 = 11 / 5 = 2,2 Perciò possiamo dire che mediamente i cinque bambini hanno 2,2 cioccolate ciascuno e messi insieme ne hanno 11. È vero che in realtà nessuno dei cinque bambini ha 2,2 cioccolate: o ne hanno di più o ne hanno di meno. Scopriamo però che se anche Monica, Nando, Ottavio e Pinuccia hanno mediamente 2,5 cioccolate a testa, allora il primo gruppo di bambini ha complessivamente più cioccolate del secondo. Infatti 2,5·4 = 10 è più piccolo di 11. Altro esempio: Abbiamo 5 sacchetti di castagne che pesano mediamente 200 grammi. Moltiplicando 200 g con 5, otteniamo che stiamo tenendo in mano un chilo di castagne. Non sappiamo però se tutti i sacchetti sono di circa 200 g. Potrebbe anche darsi che ce ne sia uno da mezzo chilo, uno da due etti e tre da un etto. Non lo possiamo sapere conoscendo soltanto la media. MODULO 4 U.D. 2 LA MEDIA GEOMETRICA La media geometrica (semplice) è l'N-esima radice del prodotto di tutti gli N valori. La media geometrica viene usata soprattutto quando i diversi valori vengono per loro natura moltiplicati tra di loro e non sommati. Esempio tipico sono i tassi di crescita (anche i tassi d'interesse o i tassi d'inflazione), adeguatamente modificati. In questi casi è più corretto usare questo tipo di media al posto di quella aritmetica, perché ha caratteristiche utili in quelle situazioni. Caratteristiche e limiti Una caratteristica è che valori piccoli (rispetto alla media aritmetica) sono molto più importanti di valori grandi. In particolare, è sufficiente la presenza di un unico valore nullo, per rendere nulla la media, sia quella semplice che quella ponderata. Va ancora notato che la media geometrica non è altro che la "media di potenza" quando s tende a zero Media geometrica semplice Formula In formula si può definire la media geometrica come: Esempi Negli ultimi cinque anni sono stati rilevati i seguenti tassi d'inflazione: 3,2% per il 1997, 2,7% (1998), 2,8% (1999), 2,2% (2000) e 3,2% (2001). Trattandosi di valori relativi e percentuali, li trasformiamo anzitutto dividendo con 100 e poi sommando loro 1. Otteniamo così per gli ultimi cinque anni dei fattori di moltiplicazione pari a: 1,032 1,027 1,028 1,022 1,032 Moltiplicando tra di loro questi Estraendo la radice quinta, si ottiene che è la media geometrica cercata. cinque valori otteniamo MODULO 4 U.D. 3 LA MEDIA ARMONICA La media armonica reciproci. è il reciproco della media aritmetica dei Particolarmente utile per qualche tipo di variabili come ad esempio per calcolare la velocità media lungo un percorso. È vietato usare valori nulli per ovvi motivi, mentre sono leciti valori negativi. Valori (sia positivi che negativi) vicini allo zero, sono molto più importanti di valori grandi. Infatti se in autostrada percorriamo metà del percorso a 120 km/h, e l'altra metà a 10 km/h, la velocità media complessiva è molto più vicina a 10 che a 120. Esempi Sia il tratto A che il tratto B sono lunghi 120 km. Percorrendo il primo tratto a 120 km/h impieghiamo 1 ora, per fare il secondo tratto a 10 km/h impieghiamo 12 ore. Complessivamente impieghiamo 13 ore, percorrendo così l'intero percorso ad una media di 240 km/13h = 18,46 km/h. Utilizzando la media armonica otteniamo lo stesso risultato equivalente a: Mh = 2 / (1/120 + 1/10) 18,46 = 2 / (0,00833 + 0,1) = 2 / 0,10833 = MODULO 4 U.D. 4 LA MEDIA QUADRATICA Si dice media quadratica Mq di n valori x1,x2,...,xn, la radice quadrata della media aritmetica dei quadrati dei valori. Fra tutte le medie prese in considerazione, la media quadratica è quella che viene maggiormente influenzata dai valori molto piccoli e molto grandi della distribuzione e quindi viene usata per evidenziare i valori che si discostano molto dai valori centrali. Si ricorre alla media quadratica quando nella distribuzione sono presenti sia valori positivi che negativi. Nel caso di una distribuzione di frequenze di n valori x1,x2,...,xn con i relativi pesi p1, p2,...,pn si ha la media quadratica ponderata. MODULO 4 U.D. 1 IL CAMPO DI VARIAZIONE E LO SCARTO SEMPLICE MEDIO Campo di variazione È il più semplice da calcolare ed è dato dalla differenza fra il maggiore e il minore dei valori rilevati. Talvolta il campo di variazione si esprime indicando, invece della differenza fra il maggiore e il minore dei valori rilevati, gli estremi dell’intervallo. Il campo di variazione è un indice molto semplice da calcolare, ma di scarsa importanza perché tiene conto solo dei valori estremi e non degli altri. Scostamento semplice medio Un altro indice di variabilità è lo scostamento semplice medio, che è la media aritmetica dei valori assoluti degli scarti xi da un valore medio. Si utilizzano due scostamenti semplici medi: lo scostamento semplice medio dalla media aritmetica: lo scostamento semplice medio dalla mediana: Le precedenti relazioni sono date per una seriazione; nel caso di serie è sufficiente porre yi = 1. Per la proprietà caratteristica della mediana, lo scostamento semplice medio dalla mediana è minore di qualsiasi scostamento semplice medio delle xi da qualunque valore. Nelle applicazioni si preferisce usare s , invece di SM, poiché s evidenzia meglio gli scarti maggiori in valore assoluto. Indici di variabilità relativa Tutti gli indici di variabilità sono definiti indici di variabilità assoluta e sono espressi nella stessa unità di misura del fenomeno considerato; nel caso occorra confrontare più distribuzioni che siano espresse con diverse unità di misura, si ricorre agli indici di variabilità relativa. Tali indici si calcolano facendo il rapporto fra gli indici di variabilità assoluta e l’intensità media del fenomeno. Il più usato è il coefficiente di variabilità del Pearson dato dall’espressione: Gli altri indici hanno espressione: Gli indici di variabilità relativa hanno quindi la caratteristica di essere dei numeri puri, indipendenti cioè dall’unità di misura prescelta, e permettono di confrontare più distribuzioni. MODULO 4 U.D. 2 LO SCARTO QUADRATICO MEDIO Scarto quadratico medio e varianza Consideriamo gli scarti dei valori dalla media aritmetica, ossia le differenze xi-M. Per valutare la maggiore o minore dispersione dei valori dalla media aritmetica, si cerca un valore medio degli scarti. Abbiamo già visto che la media aritmetica degli scarti è zero e pertanto non è significativa. Uno degli indici più utilizzato è lo scarto quadratico medio. Si definisce scarto quadratico medio la media quadratica, semplice o ponderata, degli scarti dei valori dalla media aritmetica. Nel caso di serie si ha: Nel caso di seriazioni, dette yi le frequenze, si ha: Lo scarto quadratico medio è tanto più piccolo quanto più i dati sono prossimi al valore medio ed è uguale a zero se e solo se i dati sono tutti eguali fra loro. Il quadrato dello scarto quadratico medio s ² è detto varianza. Per il calcolo della varianza s ², o dello scarto quadratico medio s , si può utilizzare una formula che si ottiene con semplici passaggi. La ricaviamo per le serie, notando che una relazione analoga vale per le seriazioni. La varianza è eguale alla differenza fra la media aritmetica semplice o ponderata dei quadrati dei valori e il quadrato della media. Se i dati sono raggruppati in classi, come per il calcolo della media, si prende come xi il valore centrale di ogni classe anche se questo comporta un errore di approssimazione dovuto proprio al raggruppamento. Lo scarto quadratico medio è un indice della dispersione dei dati molto sensibile per misurare l’esistenza dei dati che si scostano molto dal valore medio. Lo scarto quadratico medio (o la varianza) sono utilizzati per determinare un modello teorico del fenomeno. MODULO 4 U.D. 3 LA DISTRIBUZIONE GAUSSIANA La gaussiana (curva di Gauss) è un concetto matematico abbastanza avanzato, ma che ha notevoli implicazioni con il mondo reale. Molte persone ritengono la matematica arida e finiscono per odiarla ("non sono portato per i numeri"). Questa posizione può essere senz'altro giustificata da un insegnamento troppo nozionistico della materia, insegnamento che fa danni notevoli perché si riscontra che chi ha scarso spirito matematico ben difficilmente comprende a fondo la realtà. Per spirito matematico non s'intende la conoscenza delle scienze matematiche, ma la comprensione (a volte intuitiva) di ciò che della matematica ha un'applicazione concreta, anzi concretissima. È vero che molte nozioni sono assolutamente inutili per chi non le userà poi nella sua professione. Pensiamo alla trigonometria, utilissima a un ingegnere, ma inutile a una commessa, a un giornalista ecc. Che importanza "pratica" (cioè per la comprensione del mondo) ha sapere che sen2a+cos2a=1? Nessuna. La stessa cosa invece non può dirsi per altri concetti: la curva di Gauss (da Karl Friedrich Gauss, grande matematico tedesco) ne è un esempio. Anzi, questo articolo sarà propedeutico a molti altri di alimentazione o di sport che spiegheranno concetti semplicissimi ma fondamentali. Armatevi quindi di buona volontà e provate a seguirmi in questa esposizione divulgativa della curva gaussiana. La distribuzione Quando dobbiamo giudicare un evento possiamo descriverlo con la distribuzione dei suoi possibili valori. Se lancio una moneta il valore testa ha probabilità 0,5 e idem ne ha il valore croce. Avremo una distribuzione a due soli valori, ognuno dei quali ha probabilità 0,5. La somma dei valori possibili dà l'unità (cioè la certezza, o esce testa o esce croce: non si considera la possibilità che la moneta resti in piedi!). Se analizziamo la distribuzione di un campione di persone che seguono un certo programma televisivo per decadi di età, magari otteniamo un grafico di questo tipo: Le cose si complicano quando ho molti valori possibili, addirittura infiniti. Supponiamo per esempio di effettuare tante misurazioni di una stessa grandezza con uno strumento; avremo risultati differenti, dovuti all'inevitabile imprecisione del nostro strumento e del nostro operato, che sono detti errori accidentali. Se rappresentiamo le misure ottenute su un grafico, se il numero di misurazioni è molto grande, al limite infinito, la curva che otterremo è proprio la curva di Gauss. Si tratta di una curva dalla classica forma a campana che ha un massimo attorno alla media dei valori misurati e può essere più o meno stretta a seconda della dispersione dei valori attorno alla media; la dispersione si misura con la deviazione standard: praticamente una delle proprietà della gaussiana è che il 68% delle misurazioni differisce dalla media meno della deviazione standard e che il 95% meno di due deviazioni standard: quindi maggiore è la deviazione standard, più la gaussiana è "aperta" e più c'è la possibilità che la media (il punto più alto) non sia rappresentativo di tanti casi. Anche nel caso della curva di Gauss l'area sottesa dalla curva vale 1 perché la somma delle probabilità di tutti i valori dà 1, cioè la certezza. Un esempio reale La distribuzione di Gauss è spesso detta normale. L'aggettivo è significativo perché indica che moltissimi fenomeni possono essere descritti da una curva gaussiana o Gauss-like (cioè simile). Se è vero che la gaussiana vale per una popolazione infinita di misurazioni e per eventi del tutto casuali, è altresì vero che curve a campana (Gauss-like) possono descrivere facilmente molti fenomeni; per detti fenomeni anche i concetti di media e di deviazione standard continuano a essere validi, anche se spesso solo il primo può essere definito con una notevole precisione. Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione di 1.000 soggetti. Probabilmente otterremmo una curva a campana, centrata attorno a una media, del tipo 174 cm di media con una "deviazione standard" di circa 20 cm, cioè il 95% dei soggetti analizzati sarebbe compreso fra 154 cm e 194 cm. L'importanza di questi concetti Siamo sommersi da mail di persone che, dopo aver fatto le analisi del sangue, si preoccupano che un dato valore sia fuori range. Qual è l'errore logico che commettono? Di solito uno dei due: • • credere che il range di normalità sia assoluto: al di fuori di esso c'è patologia; non conoscere la distribuzione del parametro. Il primo punto è quello che genera maggiori preoccupazioni; in realtà i parametri clinici si distribuiscono secondo curve a campana centrate attorno a una media; i range di riferimento cercano di indicare con buona probabilità quando si è di fronte a un individuo normalmente sano. Un po' come se io dicessi che gli italiani maschi sono alti da 165 a 185 cm: un soggetto alto 163 cm è comunque normale, mentre un soggetto adulto alto 140 cm è sicuramente affetto da nanismo. Per capire fino in fondo l'esame occorrerebbe quindi avere non solo il range di riferimento, ma anche la distribuzione completa dei valori nella popolazione, cioè capire la "gaussiana" dei valori normali e conoscere la sua deviazione standard. Per esempio, per la glicemia la deviazione standard potrebbe essere 10 mg/dl con una media di 95 mg/dl, per cui, nonostante i valori "consigliati" da un laboratorio siano 80-110, anche un valore di 75 (sportivo) o 115 potrebbe essere attribuito a un soggetto sano. Consideriamo poi che ci sarebbe sempre e comunque un 5% di soggetti sani con valori al di fuori del range 75-115. Per altri parametri la deviazione standard potrebbe essere ancora maggiore. Quindi se avete capito il concetto di gaussiana, non è tanto importante capire se un parametro è vicino alla media della popolazione, quanto se ne è talmente lontano da avere pochissime probabilità di essere sani!