Parte 1 - lezioni di statistica Loredana Cerbara Programma di Statistica e modalità d’esame Il programma è costituito da tre parti: ● Parte I (3 CFU) - Statistica descrittiva: Analisi esplorativa unidimensionale e bidimensionale dei dati ● Parte II (3 CFU) - Statistica: Analisi esplorativa multidimensionale dei dati ● Parte III (3 CFU) - Regressione lineare, Elementi di Campionamento e Inferenza statistica 3 esoneri superati con almeno 18/30 di media sostituiscono l'esame OGNI ESONERO DA DIRITTO A 3 CFU, QUINDI CHI DEVE SOSTENERE 6 CFU PUO’ FARE 2 ESONERI Esercitazioni e lezioni di informatica per la statistica completano il corso Statistica descrittiva Gottfried Achenwall (1719-1772 - docente nell’Università di Gottinga): la statistica è la disciplina che ha lo scopo di descrivere le cose notevoli dello Stato L'aggettivo 'descrittiva' è stato aggiunto per la sua funzione di descrizione della realtà La statistica ha avuto inizio come attività pratica, volta cioè alla soluzione dei problemi pratici della vita. Essa ha lo scopo di superare i limiti delle capacità umane che non riescono a cogliere con esattezza i fenomeni collettivi. Perciò la statistica può essere intesa come uno strumento, un mezzo, che consente all'uomo di superare i propri limiti arrivando alla conoscenza dei fenomeni collettivi e alla loro indagine. Gli studi sociali si basano notevolmente sulla statistica. Le origini della statistica Le sue origini si perdono nella notte dei tempi. Nel passaggio dalla piccola comunità umana alla società sempre più organizzata, si accrebbe il bisogno di conoscere quei fatti che costituivano le manifestazioni essenziali del gruppo sociale e perciò le statistiche divenivano sempre più frequenti e meno imperfette. I grandi imperi dell'antichità, centralizzati e unificatori, erano caratterizzati dall'utilizzazione di grandi quantità di uomini per le guerre e per i lavori pubblici. I governanti avevano quindi la necessità di conoscere l'ammontare della popolazione, e in particolare degli uomini e dei soldati, e quello dei beni disponibili; e perciò dovevano fare censimenti della popolazione e rilevazioni statistiche di natura economica. Si trovano tracce di rilevazioni statistiche in Egitto fin dal 3000 a.C., in Mesopotamia, in Cina, presso il popolo ebraico, nell'antica Roma. Anche nel Medioevo e fino ai giorni nostri. Le origini della statistica L’epoca della nascita della statistica, intesa senso lato, è ben definita: essa avvenne nel XVII secolo, lo stesso in cui si formò, per opera di Galileo Galilei (1564-1642), di Isaac Newton (1643-1727) e di tanti altri scienziati, la moderna scienza della natura. La nuova scienza della natura e la statistica nacquero nello stesso ambiente intellettuale. In quell’epoca avveniva, infatti, che gli studiosi, che si occupavano anche di discipline diverse, trasferivano nell’una la consapevolezza metodologica e – se appena possibile – anche i risultati maturati nell’altra. Compito della scienza doveva essere non solo quello di “descrivere” i fenomeni ma soprattutto di “spiegarli”, ossia di costruire una teoria matematica - costituita di definizioni, assiomi e teoremi – dalla quale dedurre il comportamento dei fenomeni. Per raggiungere questo scopo, risultò essenziale l’ausilio di strumenti d’indagine che costituissero forti correttivi ai limiti umani. Le origini della statistica È in questa epoca che si inventano apparecchiature (cannocchiale, microscopio, barometro, termometro, ecc.) che, superando le limitazioni dei sensi umani, consentirono di indagare in modo nuovo i fenomeni naturali. La nuova scienza della natura e la statistica si basarono poi sul medesimo metodo di conoscenza, fondato sulla matematica, ed entrambe perseguirono, oltre che obiettivi scientifici, anche finalità pratiche. L’atteggiamento operativo dell’uomo nei riguardi della scienza ebbe come conseguenza la necessità di ottenere risultati utili dagli studi e ciò costrinse gli studiosi a circoscrivere le proprie indagini e a studiare gruppi limitati di fenomeni. Ne conseguì il trionfo della varietà sull’unità, la frantumazione della scienza in discipline autonome. Le origini della statistica Dalla nuova scienza della natura nacquero la moderna fisica, con le sue articolazioni (meccanica, acustica, ottica, ecc.), l’astronomia, la chimica, la biologia, ecc.; dalla statistica derivarono l’attuale statistica, la demografia, la statistica sociale, la statistica economica, l’economia politica, le scienze attuariali, la biometria, l’antropometria, ecc.. Lo strumento concettuale atto allo studio dei fenomeni sociali fu il calcolo delle probabilità, che ebbe origine in Francia come branca autonoma della matematica all’inizio della seconda metà del XVII secolo per opera di Pascal e di Fermat. Essi, infatti, nel 1654, si scambiarono alcune lettere nelle quali si risolvevano alcune questioni relative ai giochi d’azzardo. Il calcolo delle probabilità è lo strumento essenziale per la statistica, in tutte le sue applicazioni, per l’economia e per ogni scienza sperimentale. Statistica descrittiva e statistica inferenziale Lo studio dei fenomeni collettivi si può distinguere in fasi successive. La prima fase si può chiamare schematizzazione e consiste nella definizione del fenomeno, individuazione della collettività in cui esso si realizza e la scelta delle caratteristiche della collettività che interessano. Seconda fase: dobbiamo distinguere due casi I caso: : quando la collettività di individui su cui si vuole studiare un certo fenomeno è interamente da osservare, si passa alla descrizione dei dati raccolti (STATISTICA DESCRITTIVA) II caso: se si osserva solo una parte della collettività, dopo la schematizzazione si passa alla formulazione delle ipotesi, poi all'osservazione della collettività e infine all'induzione o inferenza che fa risalire dalla descrizione della parte di un collettivo all'intero collettivo (STATISTICA INFERENZIALE) Fenomeni collettivi e statistica Chiamiamo fenomeni di massa o fenomeni collettivi quei fenomeni che la nostra mente non può conoscere con una sola osservazione, ma che invece apprende tramite la sintesi delle osservazioni di fenomeni più semplici. Esempio di fenomeni collettivi: Natalità, nuzialità, mortalità che si possono misurare contando le nascite, i matrimoni, le morti in un certo periodo. Esse vengono studiate mettendole in relazione con la misura di un altro fenomeno collettivo, l'ammontare della popolazione. Dunque la statistica è la tecnica che ha come scopo la conoscenza quantitativa dei fenomeni collettivi Dunque l'operazione di base della statistica è il conteggio, un'operazione semplice solo se riferita a piccoli collettivi, ma che necessita di tecniche specifiche per grandi collettivi (censimenti) Fenomeni collettivi e statistica Può venire in mente che tutto sommato la statistica non sia necessaria perché si possono dare giudizi esatti sulla collettività anche senza ricorrere ad essa. Esempio. È esatto che i figli rassomiglino spesso ai genitori, che gli uomini siano generalmente più alti delle donne, che le buone condizioni sanitarie diminuiscano la mortalità. Più di questo però senza la statistica non è possibile affermare perché solo con la statistica è possibile sostituire ad un'impressione qualitativa di un fenomeno collettivo la sua misura quantitativa. L'osservazione dei fenomeni collettivi senza la tecnica statistica può portare anche a giudizi errati. Esempio. Gli zoologi prima che si facessero rilevazioni statistiche erano convinti che tra gli animali i maschi fossero più numerosi delle femmine. Dato errato causato forse dal fatto che i maschi, spesso più appariscenti delle femmine, venivano osservati più frequentemente. Fenomeni collettivi e statistica Esempio. Nascono più femmine o più maschi? Tra i coniugi prevale analogia di caratteristiche o opposizione? Le risposte spesso sono viziate da preconcetti e pregiudizi, sedimenti culturali o fattori psicologici inducono 1'osservatore ad attribuire al verificarsi di un fenomeno una frequenza diversa da quella reale. Non siamo impressionati da ciò che desideriamo meno oppure i contrasti impressionano più profondamente delle somiglianze. Queste possono essere possibili spiegazioni di natura psicologica della nostra errata valutazione dei fenomeni collettivi. DEFINIZIONE: un fenomeno collettivo è quello relativo ad una collettività di individui o di casi singoli, oppure si può ritenere collettiva la ripetizione di osservazioni di un certo fenomeno (come le misure ripetute di una grandezza) L'unità statistica e i suoi caratteri Chiamiamo unità statistica l'oggetto dell'osservazione di ogni fenomeno individuale che costituisce il fenomeno collettivo. Esempio. Gli individui di una popolazione, ciascun nato, una coppia di sposi, ciascun emigrato, ciascuna azienda, ogni studente... Su un'unità statistica osserviamo dei caratteri. Chiamiamo caratteri di una unità statistica le caratteristiche che sono presenti in essa. Esempio. Per ciascuno studente possiamo determinare l'età, il luogo di nascita, la statura, il peso, il colore degli occhi, la nazionalità, il corso di studi, ecc. Questi sono i caratteri di quello studente. Non sempre è semplice la determinazione di ogni carattere. Esempio. Il numero di figli di una coppia può essere il numero totale dei figli, il numero dei figli avuti dopo il matrimoni, il numero dei figli di entrambi i coniugi, ecc. La rilevazione si può fare solo se sono chiare le regole di fondo. I caratteri Ciascun carattere è presente in ogni unità con una modalità. Esempio. Se rileviamo il colore dei capelli degli studenti di una classe, e verifichiamo che il primo studente ha i capelli castani, possiamo dire che esso presenta la modalità 'castani' del carattere 'colore dei capelli'. Alcuni caratteri possono variare col passare del tempo. Per ognuno di essi va rilevato anche l'istante in cui si è fatta l'osservazione. Altri caratteri invece sono invariabili nel tempo e non cambiano mai, quindi non variano e sono sempre posseduti in modo identico con la stessa modalità dall'unità che li presenta. Esempio. L'età varia nel tempo, quindi va riferita all'anno della rilevazione. L'anno di nascita è invariabile nel tempo ed è posseduto dall'unità da un certo punto in poi sempre con la stessa modalità. I caratteri I caratteri possono anche essere distinti in caratteri di stato e caratteri di movimento I caratteri di stato sono quelli in cui la modalità del carattere deve essere individuata nell’unità facendo riferimento ad un istante di tempo. I caratteri di movimento sono quelli in cui la modalità del carattere va osservata nell'unità facendo riferimento ad un intervallo di tempo. Esempio. Peso, altezza, stato civile sono caratteri di stato. Consumo di energia elettrica, guadagni, spese, sono caratteri di movimento. I caratteri Ma la caratteristica più importante dei caratteri è la distinzione tra caratteri quantitativi e caratteri qualitativi All'interno di questa distinzione se ne possono fare altre, a seconda della natura delle modalità del carattere. Vediamoli in uno schema che li distingue in 5 gruppi. GRUPPO I CARATTERE ESEMPIO II III QUALITATIVO A modalità non ordinate o sconnesse Rettilineo Sesso, colore dei capelli Grado nella gerarchia militare IV V QUANTITATIVO A modalità ordinate Ciclico Giorno della settimana Rettilineo Età, altezza, peso Ciclico Longitudine del luogo di nascita I caratteri A seconda del gruppo a cui appartiene il carattere si possono porre relazioni o effettuare operazione sulle modalità rilevate. Caratteri qualitativi sconnessi Caratteri qualitativi ordinati Caratteri quantitativi Uguaglianza e disuguaglianza sì sì sì Ordinamento no sì sì Addizione e sottrazione no no sì Relazioni e operazioni tra le modalità Fra i caratteri vi è dunque una gerarchia. Il livello più basso è occupato dai caratteri sconnessi, per i quali fra le modalità possiamo fare soltanto un confronto, ossia dire se esse sono uguali o diverse. Seguono i caratteri qualitativi a modalità ordinate, per le quali oltre che dire se sono uguali o diverse, possiamo anche affermare, quando non sono uguali, se l'una precede l'altra o anche se l'una è superiore all'altra. Alla sommità della gerarchia sono i caratteri quantitativi, per i quali possiamo fissare una misura delle modalità e quindi addizionarle o sottrarle. I caratteri Per misurare un carattere quantitativo su una unità statistica, si può far ricorso a strumenti di misura che sono dotati di una scala graduata e sono tarati per effettuare una misura corretta. Esempio. Molti apparecchi di misura di uso quotidiano sono tarati: metri, calibri, bilance, orologi, termometri, ecc. Ma si deve fare attenzione al significato della lettura della misura effettuata con tali strumenti. Esempio. Se misuriamo l'altezza e rileviamo 174 cm, significa che abbiamo osservato una misura che è più vicina a 174 che a 173 o 175. Cioè la misura è compresa in un intervallo che va tra 173,5 e 174,5. Se sbagliamo, commettiamo un errore massimo pari a mezzo centimetro, la metà dell'ampiezza dell'intervallo. Se invece diciamo che la statura è 174,0, significa che abbiamo valutato che essa è compresa nell'intervallo (173,95; 174,05) di ampiezza un millimetro e che ci fa commettere un errore massimo di mezzo millimetro Lo zero dopo la virgola in questo caso conta! I caratteri Nel misurare un carattere quantitativo dobbiamo sempre eseguire le misure con la stessa precisione, cioè con lo stesso numero di decimali dopo la virgola. Ma una certa imprecisione è ineliminabile a causa di errori sistematici e di errori accidentali. Gli errori sistematici sono quelli che vengono fatti all'incirca in egual misura e sempre con lo stesso segno ogni qualvolta si ripete la misurazione (ad esempio per un difetto dell'apparecchio con cui si fa la misura). Sono errori che si possono ridurre al minimo. Gli errori accidentali sono dovuti a varie cause, numerose, piccole e trascurate, che possono influire ora in un senso ora in un altro, ma agenti in modo da non potersi assolutamente stabilire a priori se l'errore sia in più, cioè per eccesso, o in meno, ossia per difetto. I caratteri I caratteri quantitativi possono essere continui, se le misure che possiamo rilevare possono assumere tutti i valori entro cui il carattere è osservabile, oppure discontinui, se i le misure che possiamo rilevare possono assumere solo valori discreti di un intervallo, e non possono verificarsi i valori intermedi. Esempio. Il peso (misurato in kg con quanti decimali consente lo strumento di rilevazione) è continuo. Il numero di figli è discreto perché può assumere solo valori interi e nessun valore intermedio a due valori interi. I caratteri quantitativi possono essere limitati (il caso più comune) se le modalità non possono assumere valori al di sopra o al di sotto di un certo limite. Altrimenti sono illimitati. Possiamo anche dire che i caratteri quantitativi sono finiti, se possono assumere un numero finito di modalità (es. numero di figli) o infiniti, se possono assumere un numero infinito di modalità (es. il peso, carattere infinito ma limitato) I caratteri I caratteri quantitativi possono essere presentati anche in forma discreta attraverso l'uso di classi. Questo può essere fatto sia per i caratteri continui che per quelli discreti. Osserviamo però che per questi ultimi, oltre all'indicazione degli estremi dell'intervallo che rappresenta la classe, va indicato se gli estremi stessi sono o no compresi nell'intervallo. In questo caso diciamo che la classe è chiusa o aperta a sinistra o chiusa o aperta a destra. Esempio. Il numero di addetti, carattere discreto, può essere rappresentato in classi nel modo seguente: fino a 2 addetti, tra 3 e 5 addetti, ecc., oltre 100 addetti. La statura, carattere continuo, può essere data in classi di 5 cm: fino a 160 cm, tra 161 e 165 cm, tra 166 e 170, ecc. Oppure si può scrivere, per la statura x: x≤160; 160<x≤165; 165<x≤170, ecc. questa classe è chiusa a destra e aperta a sinistra. Ovviamente, una classe può essere costituita da tutti i punti di un intervallo o solo da alcuni di essi. I caratteri È anche molto importante la scelta dell'ampiezza della classe. In genere si scelgono classi tutte uguali in ampiezza, tranne le classi terminali che possono essere illimitate. Però si considerano anche quante unità possono cadere in ciascuna classe e si determinano le rispettive ampiezze cercando di far cadere un numero congruo di unità in ciascuna classe. Esempio. Nel caso del reddito si sceglie di solito di avere classi di minore ampiezza per i redditi bassi e classi di maggiore ampiezza per quelli alti. Questo è determinato dal fatto che nelle classi a basso reddito cadono molte unità e un'ampiezza troppo elevata rischierebbe di non cogliere le differenziazioni tra i bassi redditi, mentre classi poco ampie per i redditi alti potrebbero risultare vuote o quasi. Anche se un carattere continuo è ridotto in classi, si può sempre eseguire un calcolo usando un valore che rappresenti la classe anziché il vero valore. Di solito si considera rappresentativo il valore centrale. Il collettivo statistico Una possibile definizione di collettivo statistico è riferibile alle unità che lo compongono. Diciamo che l'insieme di tutte le unità statistiche che sono uguali rispetto ad alcuni loro caratteri è un collettivo statistico (o soltanto un collettivo) o una popolazione. Ovviamente l'uguaglianza tra due unità è un concetto solo relativo. Diciamo infatti che due unità sono uguali rispetto ad uno o più caratteri da esse posseduti se ognuno di quei caratteri è presente in ciascuna delle due unità con la stessa modalità. Esempio. Se consideriamo il carattere corso di studio delle unità statistiche studenti universitari, due studenti che siano iscritti allo stesso corso di studio sono uguali rispetto al carattere corso di studio, ma sono o possono essere diversi rispetto ad altri caratteri, quali il sesso, la residenza, lo stato civile, ecc. Il collettivo statistico Anche per il collettivo possiamo avere alcune classificazioni Collettivo infinito o finito: Esempio. Popolazioni di cui non è possibile contare l'ammontare, come quelle degli insetti Generalmente è opportuno fare riferimento al tempo. Esempio. Parlare del collettivo degli studenti che hanno conseguito la laurea non ha significato fino a che non specifichiamo o l'anno accademico o la sessione ossia, in breve, il periodo di tempo a cui si fa riferimento. Quindi anche per i collettivi, possiamo parlare di collettivi di stato e collettivi di movimento: i primi sono riferiti ad un istante di tempo preciso (es. la popolazione di Roma alle 24 del 28 febbraio 2014) e i secondi sono relativi ad un intervallo di tempo (i nati a Roma nella giornata del 28 febbraio 2014) Se un collettivo di stato non è molto variabile in un intervallo di tempo, si usa riferirlo al periodo e non ad un istante (es. iscritti in un AA). Le fasi della ricerca statistica La prima fase di una qualunque ricerca, che sia relativa ad un fenomeno collettivo, è la schematizzazione. Essa consiste nella definizione del fenomeno, nell'individuazione del collettivo in cui esso si realizza e nella scelta delle caratteristiche del collettivo che interessano la ricerca. Alla schematizzazione segue l'osservazione che ha lo scopo di ricavare l'immagine prescelta del collettivo statistico concreto e di renderla percepibile a tutti. Questa fase si può schematizzare in altre quattro fasi distinte: 1. piano della raccolta, dello spoglio e della sistemazione dei dati, 2. raccolta dei dati, 3. spoglio dei dati raccolti, 4. sistemazione dei dati. Le fasi della ricerca statistica Debbono essere prese inoltre decisioni che riguardano: ● il tipo di indagine da effettuare, (totale o parziale); ● i metodi di rilevazione, (faccia-a-faccia o per mezzo del telefono – CATI - o per via telematica CAWI, ecc.); ● il personale da adibire alla ricerca e il suo addestramento; ● gli strumenti da utilizzare nella rilevazione. ● il calendario di tutta l'indagine; ● il piano dello spoglio dei dati raccolti, ● il piano della rappresentazione tabellare e grafica dei dati, ● il piano delle principali elaborazioni che si vogliono effettuare, ● il piano della diffusione dei dati. Le fasi della ricerca statistica Il materiale raccolto va sottoposto a revisione attenta e approfondita in due successive fasi; anzitutto si procede alla revisione quantitativa e poi a quella qualitativa. La revisione quantitativa ha lo scopo di accertare se qualche unità è sfuggita o è stata rilevata più volte. La revisione qualitativa è un esame critico dei dati per vedere se rispecchiano la vera situazione delle unità osservate. In questa fase si può tentare di correggere gli errori riscontrati nei dati, o tornando dagli intervistati per ottenere un dato corretto (caso che si verifica raramente) oppure con tecniche di correzione dei dati che aiutano, ad esempio, ad eliminare alcune risposte mancanti. Lo spoglio dei dati è l'insieme delle operazioni che hanno lo scopo di fare le prime aggregazioni delle informazioni raccolte sulle singole unità. Tra queste operazioni hanno un ruolo fondamentale l'enumerazione e la classificazione dei dati raccolti. Tabelle Possiamo sistemare i dati raccolti in tabelle che costituiscono un’immagine, una rappresentazione, del collettivo che è stato rilevato. Un’altra immagine del collettivo è quella grafica La più semplice tabella si ottiene considerando un solo carattere. Questa tabella si chiama proprio tabella semplice. Essa ha una colonna madre a sinistra e una colonna in cui sono riportati i numeri che indicano quante sono le unità del collettivo che presentano una certa modalità del carattere. Se invece si considerano due caratteri, si ottiene una tabella a doppia entrata. Generalmente le tabelle hanno anche una testata, un tilolo esplicativo del fenomeno rappresentato e una riga di totali. Nelle tabelle doppie ci può essere anche una colonna di totali. Rappresentazioni grafiche Ciò che da una tabella può dedursi solo con una certa fatica e soltanto da esperti è invece fornito immediatamente, e a chiunque, dalle rappresentazioni grafiche. Infatti, rispetto alle cifre, le figure sono percepite con maggiore rapidità, facilità e sintesi. Esse sono anche meglio memorizzate dalla mente umana, le cui facoltà si sono sviluppate principalmente in base alla vista, che è il senso più perfetto dell'uomo. La rappresentazione grafica però può contenere meno informazioni rispetto alle tabelle perché i disegni di cui si compone non possono essere troppo complessi in quanto si perderebbe l’immediatezza e l’efficacia della visuazione del fenomeno rappresentato. Le distribuzioni Quando si determina la modalità di un carattere presentata da ciascuna unità di un collettivo, si ottiene la distribuzione del collettivo secondo i caratteri considerati. Se il carattere, secondo cui e fatta la distribuzione, è uno solo, la distribuzione unitaria è detta unidimensionale o univariata o semplice; se i caratteri sono due, la distribuzione è detta bidimensionale o bivariata o doppia, se sono tre è detta tridimensionale o trivariata o tripla, ... , se sono m è detta multidimensionale o multivariata o m-upla Esempio di distribuzione semplice di un collettivo di 5 studenti secondo il voto riportato nell’anno x all’esame y Studente 1 2 3 4 5 Voto 24 30 18 27 28 Le distribuzioni Se la distribuzione è fatta contando il numero di unità che presentano una stessa modalità del carattere, allora essa prende il nome di distribuzione di frequenze. Se si considera una coppia di caratteri, la distribuzione doppia che ne risulta è costituita dalla frequenza assoluta delle unità che presentano quella coppia di modalità. Esempio di distribuzione unidimensionale: frequenza di 40 studenti secondo il voto riportato ad un esame Voto N. di studenti Voto N. di studenti 18 19 20 21 22 23 24 2 2 2 3 3 5 4 25 26 27 28 29 30 Totale 6 4 4 3 2 40 Le distribuzioni Dividendo il collettivo di riferimento in classi si possono ottenere tabelle sintetiche. Esempio di distribuzione doppia in cui il collettivo è diviso in classi per gruppo di corsi: iscritti nell’A.A. 2004 ai gruppo economicostatistico secondo il genere e il gruppo di corsi (Fonte: MIUR) Gruppo di corsi Scienze dell’economia e gestione aziendale Scienze economiche Scienze statistiche Totale Maschi Femmine Totale 55.407 48.140 103.547 16.846 2.499 74.752 14.851 1.950 64.941 31.697 4.449 139.693 Le distribuzioni Così come ci sono le distribuzioni di frequenze, vi sono le distribuzioni di quantità, che sono il risultato dell'operazione di classificazione, che suddivide il collettivo in classi, e dell'operazione di misurazione, in ciascuna classe, di un carattere quantitativo trasferibile. La denominazione distribuzione di quantità deriva dal fatto che essa indica come 1'ammontare globale del carattere quantitativo si distribuisce fra le varie classi. Esempio di distribuzione di quantità: ammontare dei protesti (2002) secondo il tipo del titolo di credito (Fonte: ISTAT) Tipo del titolo di credito Cambiale ordinaria Tratta Assegno bancario Totale Ammontare (in migliaia di €) dei titoli protestati 1.476.828 33.732 1.609.701 3.499.261 Le distribuzioni Attenzione: una distribuzione può essere interpretata sia come distribuzione di quantità che come distribuzione di frequenze. Spesso la distinzione è molto sottile. Esempio di distribuzione di frequenze: numero dei protesti (2002) secondo il tipo del titolo di credito (Fonte: ISTAT) Tipo del titolo di credito Cambiale ordinaria Tratta Assegno bancario Totale Numero dei titoli protestati 1.098.231 193.949 386.747 1.678.927 Le distribuzioni Nella stessa tabella possono coesistere distribuzioni di frequenze e di quantità Esempio di distribuzione di frequenze e di quantità: distribuzione delle famiglie (2003) secondo il reddito percepito distribuzione dell’ammontare del reddito stesso (Fonte: Banca d’Italia) Classe di reddito (in migliaia di euro) 0 -| 5 5 -| 25 25 -| 50 50 -| 75 75 -| 100 > 100 Totale Numero di famiglie che hanno un reddito compreso nella classe 89 4.070 2.913 684 136 115 8.007 Reddito complessivo posseduto dai redditieri della classe (in migliaia di euro) 298 65.699 102.149 40.645 11.464 19.061 239.317 Le distribuzioni Le distribuzioni unidimensionali, quando il carattere è il tempo, si chiamano serie storiche Esempio di serie storica: nati vivi in Italia dal 1999 al 2003 (Fonte: Istat) Anno 1999 2000 2001 2002 2003 Quinquennio 1999-2003 Nati vivi 523.463 538.999 531.880 535.538 542.629 2.672.509 Le distribuzioni Le distribuzioni unidimensionali, quando il carattere è il territorio, si chiamano serie territoriali Regione del’Italia Numero di abbonati Centrale alla televisione Esempio di serie territoriale: Numero di abbonati alla televisione in Italia Centrale nel 2003 per Regione (Fonte: Istat) Toscana 1.153.640 Umbria 253.577 Marche 450.648 Lazio 1.459.195 Non tutte le distribuzioni territoriali o temporali sono distribuzioni di frequenze. Per accertarsene basta pensare se la somma dei valori riportati in tabella abbia o no significato (ad es. ammontare della popolazione ai censimenti, densità della popolazione per area geografica, ecc.) Le rappresentazioni grafiche Le rappresentazioni grafiche hanno il vantaggio di rappresentare con immediatezza ed efficacia un fenomeno. Esse generalmente originano da tabelle dalle quali devono essere completamente autonome, nel senso che devono contenere tutte le indicazioni necessarie per consentire l’interpretazione dei fenomeni rappresentati. Perciò, come le tabelle, devono contenere un titolo, contenente l’oggetto della figura, l’epoca e l’ambito territoriale dei dati, e una fonte da cui sono tratte le informazioni. ● I caratteri che sono indicati nel grafico devono essere chiari ● Le unità di misura devono essere specificate chiaramente per consentire una lettura esatta dei dati rappresentati ● Devono essere indicati i troncamenti di scala con interruzioni degli assi ● Se rappresentiamo più fenomeni dobbiamo evitare che il grafico risulti confuso e che i due fenomeni siano distinti e chiari ● I dati e le didascalie scritti sul grafico devono essere leggibili Le rappresentazioni grafiche Diagrammi simbolici o pictogrammi: grafici molto divulgativi e adatti al grande pubblico. L’oggetto del fenomeno è descritto simbolicamente ed è ripetuto tante volte quant’è la frequenza che si vuole rappresentare. Le rappresentazioni grafiche Diagrammi a nastri: le frequenze o le quantità delle modalità sono rappresentate da rettangoli aventi tutti la stessa altezza e basi proporzionali alle frequenze o alle quantità. Le rappresentazioni grafiche Diagramma a colonne Le rappresentazioni grafiche Diagrammi tridimensionali Le rappresentazioni grafiche Diagramma a barre contrapposte Utile per confronti fre più distribuzioni Le rappresentazioni grafiche Distorsione di un grafico dovuta allo spostamento del punto di partenza delle colonne: la percezione nel grafico b) è di maggior differenza tra le barre rispetto al grafico a), ma i due grafici sono identici tranne che per il punto di partenza delle barre. Le rappresentazioni grafiche L'areogramma è un grafico in cui le frequenze o le quantità di una distribuzione statistica sono rappresentate da superfici di figure piane o anche da un'unica figura la cui superficie viene divisa proporzionalmente alle frequenze o alle quantità Per contraddistinguere le varie strisce, queste debbono essere tratteggiate o colorate in modo diverso Le rappresentazioni grafiche L'istogramma a basi uguali può essere usato per rappresentare le modalità di un carattere ordinato rettilineo sia qualitativo che quantitativo Le rappresentazioni grafiche Il grafico a raggi è utile per rappresentare distribuzioni secondo un carattere ordinato ciclico perché consente di non stabilire la prima e l’ultima modalità, ma di rappresentarle in modo che ognuna abbia una modalità che la precede e una che la segue. Le rappresentazioni grafiche I diagrammi cartesiani sono utili per rappresentare le distribuzioni unidimensionali secondo un carattere quantitativo rettilineo. Il sistema è individuato da due rette x e y, gli assi cartesiani, che si intersecano nel punto O detto origine. Se l’unità di misura sull’asse x è uguale a quella sull’asse y, il sistema è detto monometrico, altrimenti è detto dimetrico. Se x e y sono perpendicolari il sistema è detto ortogonale, altrimenti è detto obliquo Ogni punto P(a,b) è individuato da una ascissa a e da una ordinata b Le rappresentazioni grafiche Ricordiamo che: a) per tutti i punti (e solo per essi) giacenti sull'asse y l'ascissa è zero; b) per tutti i punti (e solo per essi) giacenti sull'asse x l'ordinata è zero; c) l'origine O ha entrambe le coordinate nulle, (0;0); d) il sistema cartesiano individua nel piano quattro regioni, dette quadranti nelle quali i segni che competono alle coordinate di un loro punto sono quelli indicati nella figura. Le rappresentazioni grafiche Diagramma cartesiano ad aste si può usare per rappresentare un carattere quantitativo discreto Sull’asse delle ascisse mettiamo le modalità e sull’asse delle ordinate la frequenza. Notiamo che non è consigliabile congiungere con un arco di curva i punti della distribuzione perché, essendo il carattere discreto, non ha significato un punto tra due modalità Le rappresentazioni grafiche Diagramma cartesiano di una serie storica di stato Sull’asse delle ascisse si mette il tempo e su quello delle ordinate la frequenza. Ogni Punto rappresenta un istante in cui è misurato il fenomeno. Le rappresentazioni grafiche La scelta dell’unità di misura degli assi di un diagramma cartesiano può influenzare l’aspetto finale del grafico e può far percepire il fenomeno in modo differente a seconda di quello che si sceglie. Le rappresentazioni grafiche ISTOGRAMMI sono utili per rappresentare graficamente le serie storiche di movimento o le distribuzioni secondo un carattere qualitativo rettilineo in classi Se tutti gli intervalli del carattere sono uguali, si ha un istogramma a basi uguali. Le altezze rappresentano la frequenza o la quantità. Le rappresentazioni grafiche ISTOGRAMMI Ci sono casi però in cui il carattere rappresentato in ascissa non è diviso in classi della stessa ampiezza. In questo caso gli istogrammi che possiamo ottenere si dicono a basi diverse NOTA: la dimensione del fenomeno in questo caso è rappresentata dall’area del rettangolo, quindi l’altezza è proporzionale al rapporto tra l’ammontare e l’ampiezza della classe Le rappresentazioni grafiche ISTOGRAMMI Se vogliamo trasformare un istogramma a basi uguali in uno a basi diverse, non è corretto disegnare un rettangolo di altezza pari alla somma delle altezze, ma occorre che l’area sia pari alla somma delle aree. Quindi l’altezza sarà pari al rapporto tra l’area che ne risulta e la dimensione della base. Nella figura il caso b) pertanto è errato, mentre è corretto il caso c) Le rappresentazioni grafiche ISTOGRAMMI PIRAMIDE DELLE ETA’ E’ un particolare istogramma formato dalla contrapposizione di due istogrammi, uno per i maschi e uno per le femmine, che ha una forma caratteristica ed è influenzato dalle fluttuazioni della natalità causate dai periodi storici che attraversa una popolazione.