Statistica La Statistica è quella scienza che ha come fine lo studio quantitativo o qualitativo dei fenomeni collettivi (ad es. numero di nascite in un anno, numero di studenti promossi in una scuola, reddito medio della popolazione di una nazione, ecc.). La statistica si divide in due grandi settori: - Statistica Descrittiva: ha il compito di raccogliere, ordinare ed elaborare i dati ottenuti dallo studio del fenomeno collettivo. - Inferenza Statistica: ha il compito di estendere i risultati ottenuti con la statistica descrittiva ad un insieme più vasto di quello studiato. La statistica trova applicazione in diversi settori come la ricerca scientifica, le scienze demografiche, economiche, sociali, ecc. Fasi di una indagine statistica Per studiare un fenomeno statistico occorre compiere una indagine statistica. Una qualsiasi indagine statistica si compone delle seguenti fasi: 1. Definizione degli obiettivi dell'indagine statistica: definizione dello scopo dell'indagine statistica. 2. Individuazione del fenomeno e del collettivo: individuazione del fenomeno da investigare, cioè individuazione delle informazioni (dati statistici) utili alla soluzione del problema, e individuazione del collettivo (o popolazione statistica o universo statistico) da osservare, cioè definizione dei soggetti sui quali effettuare l'indagine. 3. Rilevazione dei dati: consiste nella raccolta dei dati statistici e avviene attraverso schede, questionari, registri, ecc. 4. Spoglio (o ordinamento) dei dati: consiste nell'ordinamento dei dati ottenuti in opportune tabelle; le tabelle dei dati possono essere visualizzate e sintetizzate mediante rappresentazioni grafiche (istogrammi, diagrammi a torta, ecc.). 5. Elaborazione ed analisi dei dati: consiste nella trasformazione dei dati statistici in dati sintetici attraverso l'uso di opportune tecniche matematiche in modo da individuare le caratteristiche principali del fenomeno investigato. Per es. se l'indagine statistica riguarda i voti riportati nel precedente anno scolastico da un alunno, può essere utile sintetizzare tali voti calcolandone la media aritmetica. 6. Interpretazione dei risultati e divulgazione dei risultati dell'indagine. Per es. se i voti riportati dallo studente forniscono una media inferiore a 6, si potrà concludere che la preparazione complessiva raggiunta dallo studente non è sufficiente. Classificazione di una popolazione statistica Unità statistiche: sono gli elementi su cui viene svolta l'indagine statistica. Collettivo (o popolazione statistica o universo statistico): è l'insieme delle unità statistiche sulle quali viene svolta l'indagine statistica. Quando si svolge una indagine statistica si esaminano le unità statistiche della popolazione secondo una o più caratteristiche (caratteri statistici) comuni a tutti gli elementi della popolazione. Per es. per una popolazione di studenti sono caratteri statistici: l'età, il tipo di scuola frequentata, il colore degli occhi, la statura, ecc. Il carattere statistico investigato in generale si presenta in modi diversi nelle singole unità. I diversi modi di presentarsi di un carattere statistico si chiamano modalità del carattere statistico. Ad es. se si studia il carattere "colore degli occhi" della popolazione costituita dagli studenti dell'I.T.Aer Ferrarin, le modalità di questo carattere sono: azzurro, castano, verde, nero. I caratteri statistici possono essere quantitativi e qualitativi: - Caratteri quantitativi: le modalità sono espresse da numeri o da intervalli di valori. Le modalità di un carattere quantitativo vengono generalmente presentate dalla minore alla maggiore, quindi un carattere quantitativo è sempre a modalità ordinate. I caratteri quantitativi si distinguono in discreti e continui: - discreti: se le modalità sono espresse da un numero finito di valori ( per es. il carattere "voto in matematica riportato dagli studenti di questa classe" è un carattere quantitativo discreto perché le modalità sono espresse da un numero finito di valori: 1,2,3,…,10) oppure da una infinità numerabile di valori (ad es. è un carattere quantitativo discreto quello che ha per modalità i valori 1, 2, 3, 4, … ). - continui: se le modalità possono assumere qualsiasi valore all'interno di un certo intervallo (ad es. il carattere "statura degli studenti di questa classe" è un carattere quantitativo continuo perché le modalità possono essere: statura compresa tra 150cm e 160cm, statura compresa tra 160cm e 170cm, ecc.) - Caratteri qualitativi: le modalità rappresentano delle qualità, quindi sono espresse da aggettivi, attributi, espressioni verbali (ad es. il carattere "colore degli occhi" è un carattere qualitativo perché le modalità sono espresse aggettivi: azzurro, castano, verde, nero). L'ordine con cui si presentano le modalità di un carattere qualitativo può o essere definito a priori (modalità ordinate) oppure essere lasciato alla discrezione di chi le enumera (modalità non ordinate); in quest'ultimo caso il carattere si dice sconnesso. Rilevazione dei dati La rilevazione dei dati può essere di tipo totale o parziale: - Rilevazione totale: quando viene effettuata su tutte le unità statistiche della popolazione. - Rilevazione parziale (o campionaria): quando viene effettuata solamente su un sottoinsieme della popolazione statistica, detto campione statistico. Affinché le rilevazioni parziali non portino a conclusioni errate è necessario che il campione scelto sia rappresentativo dell'intera popolazione, cioè deve rispecchiare l'intera popolazione e deve avere le sue stesse caratteristiche. Le rilevazioni possono essere occasionali (ad es. le rilevazioni dei danni di un terremoto), periodiche (ad es. i censimenti), continue (ad es. le registrazioni inerenti le nascite e le morti). Errori dei dati statistici I dati statistici che si ottengono durante una rilevazione sono soggetti ad errori di varia natura. Quando la rilevazione statistica viene fatta con strumenti di misura, si possono commettere due tipi di errori: - Errori casuali (o accidentali). Quando durante una rilevazione è necessario misurare più volte una stessa grandezza nelle stesse condizioni, può capitare che i risultati ottenuti siano diversi. In tal caso gli errori che si verificano sono detti accidentali o casuali. Tali errori possono essere dovuti a: - errori nella lettura della misura - condizioni ambientali variabili (ad es. la temperatura) - disturbi meccanici (vibrazioni, scariche, rumori) Gli errori casuali non possono essere eliminati in alcun modo, ma possono essere stimati matematicamente dalla Teoria degli errori. - Errori sistematici. Sono errori che si presentano in tutte le ripetizioni di una data misurazione della grandezza falsando il risultato algebricamente sempre nello stesso verso (in eccesso o in difetto). Sono errori dovuti a cause ben determinate come: - errori di taratura degli strumenti - tecniche imperfette - teorie imperfette Gli errori sistematici possono essere, in linea di principio, individuati ed eliminati. Altri tipi di errori che possono essere commessi durante una rilevazione statistica sono: - Errori campionari: errori che si commettono quando l'indagine statistica viene effettuata su un campione anzi che sull'intera popolazione statistica. Tali errori sono inevitabili e diminuiscono al crescere del numero di unità statistiche che fanno parte del campione (dimensione del campione). - Errori dovuti a mancate risposte, risposte incomplete, inesatte. - Errori durante lo spoglio dei dati (errori di battitura dei dati, mancata introduzione dei dati) - Errori introdotti dagli intervistatori per eccessiva fretta nel condurre l'intervista, nell'indisporre l'intervistato e nel condizionarlo con proprie opinioni. - Errori introdotti dagli intervistati dovuti a incomprensioni, pregiudizi, diffidenza verso l'indagine, timori di ripercussioni fiscali. Organizzazione della statistica in Italia ISTAT (Istituto Centrale di Statistica): organismo con cui lo Stato italiano fornisce statistiche ufficiali su tutti gli aspetti della vita dello Stato e della collettività nazionale. L'ISTAT ha il compito di eseguire i censimenti e le altre rilevazioni per fornire dati statistici che interessano il Parlamento, il Governo, le Amministrazioni, le imprese, le parti sociali, la ricerca scientifica, le famiglie. L'ISTAT non possiede per legge il monopolio dell'informazione statistica, in quanto esistono istituti privati di statistica, ma ha il dovere di elaborare la Statistica ufficiale e garantire la massima obiettività e imparzialità dei risultati. Costruzione di un questionario L'acquisizione dei dati statistici avviene spesso tramite questionari ovvero modelli contenenti un insieme di domande. Le domande di un questionario possono essere di due tipi: - a risposta aperta: se l'intervistato può scegliere liberamente il contenuto e la forma della risposta. In tal caso i dati sono difficilmente codificabili e possono essere affetti da errori di interpretazione. - a risposta chiusa: se l'intervistato deve scegliere la risposta tra alcune già proposte. In tal caso i dati sono facilmente codificabili e possono essere affetti da errori di interpretazione. In un questionario a risposte chiuse ciascuna risposta deve essere classificata in tanti modi quante sono le possibili risposte. Il successo di una indagine statistica dipende principalmente dalla struttura del modello di rilevazione: il questionario deve essere chiaro ed esauriente, non deve contenere molte domande, le domande non devono essere troppo lunghe, nella successione delle domande si devono intercalare domande impegnative con domande semplici, nella successione delle domande si deve evitare che le risposte possano essere influenzate da domande precedenti. Distribuzioni statistiche Quando si effettua una indagine statistica si classificano le unità statistiche della popolazione secondo le modalità di uno o più caratteri. Ad ogni modalità del carattere è associato il numero di unità statistiche che presentano quella data modalità, chiamato numerosità o frequenza assoluta ( f i ) della modalità. Si chiama distribuzione statistica di frequenza l'insieme delle modalità dei caratteri secondo cui vengono classificate le unità statistiche della popolazione con le rispettive frequenze. Essa indica in che modo si "distribuiscono" le unità statistiche della popolazione investigata secondo le modalità dei caratteri considerati. Distribuzione semplice: distribuzione secondo un solo carattere Distribuzione doppia: distribuzione secondo due caratteri Esistono distribuzioni secondo più di due caratteri. Il modo più semplice per rappresentare una distribuzione statistica è una tabella. Tabella semplice: tabella relativa ad una distribuzione semplice. Una tabella semplice è formata da due colonne, nella colonna a sinistra (colonna madre) sono indicate le modalità del carattere, nell'altra colonna sono indicate le frequenze assolute di ciascuna modalità. Tabella a doppia entrata: tabella relativa ad una distribuzione doppia. Nella prima colonna (colonna madre) sono riportate le modalità del primo carattere, nella prima riga (testata) sono riportate le modalità del secondo carattere. Nelle caselle centrali è indicato il numero di unità statistiche che presentano contemporaneamente entrambe le modalità corrispondenti alla casella considerata (frequenze congiunte). Es. Classificazione di un gruppo di 35 studenti in base al colore degli occhi e al colore dei capelli. Colore capelli Totale Colore occhi neri biondi rossi castani (frequ. per righe) Azzurri 1 5 1 2 9 Neri 4 0 0 3 7 Verdi 2 1 1 2 6 Castani Totale (frequ. per colonne) 3 4 0 6 13 10 10 2 13 35 (Totale) Da una tabella a doppia entrata, se si calcolano i totali di ogni riga (frequenze per riga) e di ogni colonna (frequenze per colonna), si possono ricavare le tabelle semplici relative alle distribuzioni semplici dei due caratteri, dette distribuzioni marginali: colore occhi Azzurri Neri Verdi Castani totale Frequ. 9 7 6 13 35 colore capelli Neri Biondi Rossi Castani totale Frequ. 10 10 2 13 35 Distribuzione statistiche di intensità o di quantità: indicano come una quantità totale, espressa in una data unità di misura è suddivisa tra le varie modalità del carattere. Ad es. la distribuzione delle precipitazioni, in millimetri, nei diversi mesi del 1981, non è una distribuzione di frequenza, ma una distribuzione di intensità (mm di pioggia caduta). Mutabile statistica: è l'insieme delle modalità di un carattere qualitativo. Variabile statistica: è l'insieme delle modalità, dette valori, di un carattere quantitativo. Serie: tabelle relative a caratteri qualitativi. Tra le serie hanno particolare importanza le serie storiche e le serie geografiche: - serie storiche: tabelle che riportano modalità di tipo temporale (anni, mesi, giorni) - serie geografiche: tabelle che riportano modalità che si riferiscono a luoghi geografici. Seriazioni: tabelle relative a caratteri quantitativi. Osserviamo che, mentre una distribuzione statistica di frequenza è sempre rappresentabile tramite una tabella, non tutte le tabelle rappresentano distribuzioni statistiche. Una tabella rappresenta una distribuzione solo quando ha senso eseguire la somma delle frequenze o delle intensità associate alle modalità.