INTRODUZIONE ALLA STATISTICA La statistica è un metodo matematico che si occupa di studiare un insieme di dati con lo scopo di ricavare da essi informazioni sulla popolazione da cui provengono. Comprende anche i metodi che permettono di trarre conclusioni e fare previsioni. La statistica è una scienza abbastanza giovane che ha assunto rilevanza fondamentale solo nell’ultimo secolo. Il metodo statistico è usato ora in molti ambiti, da quello economico a quello medico e in tutti i settori della scienza per ordinare e analizzare i dati numerici ottenuti dagli esperimenti. L’INDAGINE STATISTICA Distinguiamo tre fasi fondamentali: il rilevamento dei dati, l’elaborazione dei dati e l’interpretazione dei risultati. RILEVAMENTO DEI DATI Prima di iniziare un’indagine statistica si deve aver ben chiaro qual è il problema che si vuole analizzare e di conseguenza si può stabilire il gruppo di individui oggetto dell’indagine. Si chiama POPOLAZIONE l’insieme degli individui oggetto di un’indagine statistica. In molti casi non è possibile effettuare una rilevazione di dati su tutta la popolazione, in questi casi ne viene presa in considerazione solo una parte detta CAMPIONE. Il campione deve essere scelto in modo da essere rappresentativo di tutta la popolazione. Ciascun elemento facente parte della popolazione si chiama UNITA’ STATISTICA Si possono prendere in esame una o più caratteristiche delle unità statistiche, esse prendono il nome di CARATTERE. Si chiama MODALITA’ ciascuna delle varianti con cui un carattere può presentarsi; le modalità osservate si chiamano DATI. ESEMPIO: Si vuole svolgere un’indagine sui gusti dei giovani italiani. POPOLAZIONE potrà essere, ad esempio, formata da tutti i residenti in Italia di età compresa tra i 18 e i 30 anni. In questo caso sarà necessario individuare un CAMPIONE che sia rappresentativo di tutta la popolazione. Si devono decidere il o i CARATTERI che interessano l’indagine (ad esempio: tipo di musica ascoltata, utilizzo di social network, tempo dedicato allo sport,…) Per ogni carattere selezionato si individueranno le MODALITA’( ad esempio per io gusti musicali si individueranno alcuni tipi di musica: rock, house, rap,…). Definiamo QUALITATIVI i caratteri le cui modalità sono descritte da attributi; QUANTITATIVI i caratteri le cui modalità sono espresse da numeri. 1 Le tecniche di raccolta dei dati possono essere l’intervista diretta o indiretta (ad esempio tramite un questionario spedito). Una volta raccolti i dati occorre contare quante unità statistiche del campione presentano una certa modalità del carattere osservato cioè la frequenza con cui si presenta. La FREQUENZA (assoluta) di una certa modalità è il numero di volte in cui si presenta. E’ rappresentata da un numero intero positivo: 0,1,2,3,…. che indicheremo con F. Spesso risulta più interessante conoscere la frequenza di un dato rispetto al totale dei casi osservati, definiamo quindi: FREQUENZA RELATIVA (f) di una certa modalità è il rapporto tra la frequenza assoluta e il numero totale dei casi: F f T La frequenza relativa è un numero positivo, compreso tra 0 e 1: 0 f 1 . La frequenza relativa può anche essere espressa in percentuale moltiplicandola per 100. I dati così determinati vengono riportati in tabelle. ESEMPIO Nell’ambito di una regione viene svolta una indagine su un campione di 1000 persone adulte per conoscere il grado di istruzione. La distribuzione che ne risulta è la seguente: Livello di istruzione Analfabeta Frequenza relativa Frequenza percentuale Frequenza relativa f% 10 0,01 1,00% Licenza elementare 98 0,098 9,80% Licenza media Diploma di qualifica professionale Diploma scuola superiore 194 273 0,194 0,273 19,40% 27,30% 329 0,329 32,90% Laurea Master 88 8 1000 0,088 0,008 1 8,80% 0,80% 100% totali Tab. 1 I caratteri quantitativi possono essere discreti, cioè variare per quantità finite, ad esempio: il numero di figli per famiglia, il numero di nascite in un anno, il numero di utenti di un servizio,…. O possono essere continui, cioè variare per quantità piccole a piacere e sono il risultato di una misurazione, come il peso, la statura, la temperatura, … Nel caso di caratteri continui le modalità vengono raggruppate in classi di frequenza. 2 ESERCIZIO Si sono misurate le stature di 30 bambini di una scuola materna, ottenendo i seguenti valori in cm: 100, 124, 88, 99, 95, 112, 102, 120, 116, 107, 110, 94, 98, 118, 86, 105, 100, 111, 92, 122, 106, 102, 115, 96, 99, 104, 91, 105, 103, 110 Devono essere riportati in una tabella di frequenze suddivisi in classi. Per determinarle individua un valore minimo e un valore massimo e suddividi l’intervallo in classi della stessa ampiezza ( ad esempio 5 classi). LA RAPPRESENTAZIONE GRAFICA DEI DATI ORTOGRAMMA Sull’asse verticale si riportano le frequenze, su quello orizzontale tanti segmenti congruenti quante sono le modalità osservate e sui segmenti si tracciano dei rettangoli che hanno per altezza la frequenza osservata. Ogni frequenza corrisponde a un rettangolo che ha l’altezza proporzionale alla frequenza stessa. In riferimento alla tab.1 si ottiene il seguente ortogramma. 350 300 250 200 150 100 50 Master Laurea Diploma scuola superiore Diploma di qualifica professionale Licenza media Licenza elementare ISTOGRAMMA Analfabeta 0 livello d'istruzione Molto simile all’ortogramma, viene usato in genere con caratteri continui. Sull’asse x vengono individuati dei segmenti adiacenti che rappresentano le classi in cui abbiamo suddiviso i dati. In questo tipo di diagramma le aree dei rettangoli sono proporzionali alle frequenze. Se i segmenti sono congruenti allora le altezze risultano proporzionali alle frequenze. ESERCIZIO: sono state misurate le lunghezze di 500 viti appartenenti allo stesso lotto. I valori sono stati raggruppati in classi della stessa ampiezza, come in tab. 2. Costruisci l’istogramma corrispondente. lunghezze 10-10,1 10,1-10,2 10,2-10,3 10,3-10,4 10,4-10,5 totale F 82 118 166 93 41 500 3 AREOGRAMMA Viene detto anche diagramma circolare o diagramma a torta e viene usato per rappresentare le frequenze relative percentuali. Un cerchio viene diviso in settori circolari aventi l’angolo al centro proporzionale alle frequenze. Per determinare la misura dell’angolo faccio una proporzione x : 360 f : 100 dove con f indichiamo la frequenza relativa in percentuale e con x l’angolo al centro Esempio: La tabella riporta i dati relativi alla superfici e delle terre emerse: continente Europa Asia Africa Americhe Oceania Antartide tot superficie in km2 10521 44311 30288 42042 8945 13200 149307 percentuale 7,05 29,68 20,29 28,16 5,99 8,84 100,00 Il diagramma circolare che la rappresenta è il seguente: percentuale di terre emerse per continente 8,84 7,05 5,99 Europa Asia 29,68 Africa Americhe 28,16 Oceania Antartide 20,29 I DIAGRAMMI CARTESIANI Per dati di natura discreta si possono segnare sull’asse x le modalità e sull’asse y le frequenze, si ottengono dei punti che possono essere uniti con una spezzata oppure si possono tracciare dei segmenti verticali di lunghezza proporzionale alla frequenza. 4 ESERCIZIO: riporta in un diagramma cartesiano i dati della seguente tabella ORE 4 8 12 16 20 24 TEMPERATURE in °C 8 10 15 16 12 10 I CARTOGRAMMI Con essi si rappresentano dati relativi ad aree geografiche. Si costruiscono utilizzando una carta geografica e colorando le varie aree in maniera diversa. GLI IDEOGRAMMI Utilizzano figure che ricordano il contenuto del fenomeno. Le figure hanno dimensioni diverse. 5