Non lasciamoci ingannare ….. CHI LO DICE? I dati possono anche provenire da una fonte autorevole, ma la conclusione … Come è stata posta la domanda?… Come è stato selezionato il campione?… COME SONO STATI OTTENUTI QUESTI DATI? Quanto numeroso è il campione?… MA HA PROPRIO SENSO? Un po’ di sano buonsenso … Il caro buon vecchio Trilussa …. LA STATISTICA Sai ched‘ è la statistica? È ‘na cosa che serve pe’ fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa. Ma pe’ me la statistica curiosa è dove c'entra la percentuale, pe’ via che lì la media è sempre eguale puro co' la persona bisognosa. Me spiego: da li conti che se fanno secondo le statistiche d'adesso risulta che te tocca un pollo all'anno: e, se nun entra nelle spese tue, t'entra ne la statistica lo stesso perchè c'è un antro che ne magna due. La scienza è fatta di dati come una casa di pietre. Ma un ammasso di dati non è scienza più di quanto un mucchio di pietre sia una casa. (Jules Henri Poincaré) Il termine “statistica” venne introdotto nel diciassettesimo secolo col significato di “scienza dello stato”, volta a raccogliere e ordinare informazioni utili all’amministrazione pubblica: entità e composizione della popolazione, movimenti migratori, mutamenti anagrafici, tavole di natalità e mortalità, dati sui commerci, sui raccolti, sulla distribuzione della ricchezza, sull’istruzione e la sanità. Cos’è la statistica? La STATISTICA si occupa di raccogliere ed elaborare informazioni su un fenomeno che si vuole studiare. La raccolta e l’elaborazione dei dati costituiscono l’INDAGINE STATISTICA vera e propria. Indagini statistiche Fasi di un’indagine statistica 1. 2. Individuazione dell’obiettivo da raggiungere, definendo con accuratezza i termini del problema a cui bisogna dare risposta, cioè quali variabili statistiche bisogna osservare. Individuazione dei metodi, dei mezzi e dei tempi da utilizzare nella raccolta dati. Per quanto riguarda i metodi è fondamentale decidere se l’osservazione viene fatta su tutta la popolazione oppure su un campione. Indagini statistiche 3. 4. 5. Programmazione dell’indagine ed effettiva rilevazione dei dati. Una raccolta dei dati ben organizzata, risparmia fatica nelle operazioni successive e permette la corretta impostazione del lavoro di analisi. Sistemazione dei dati raccolti in forma di facile lettura (tabelle e grafici). I dati allo stato grezzo sono riferiti alla singola unità statistica Determinazione di valori che descrivono sinteticamente il fenomeno: media, moda, mediana …... Indagini statistiche 6. Calcolo delle misure di dispersione che indicano quanto le misure di tendenza (per esempio la media) si discostano dai dati raccolti. 7. Determinazione di rapporti statistici o numeri indici: rapporti tra numeri che a volte sono più significativi dai valori assoluti. (es. rapporto tra m2 edificati in una regione e il numero di abitanti della regione) Indagini statistiche La statistica descrittiva si occupa di individuare metodi e tecniche per sintetizzare l’informazione contenuta nei dati. Gli strumenti di sintesi sono essenzialmente di tre tipi: • tabelle (vedremo con EXCEL quali sono le possibilità) • rappresentazioni grafiche (vedi EXCEL) • indici sintetici Nelle indagini statistiche a campione occorre effettuare delle generalizzazioni di cui si occupa la statistica inferenziale. Indagini statistiche IMPORTANTE Quando sintetizziamo l’informazione contenuta nei dati, ne perdiamo una parte. Gli strumenti di sintesi devono essere scelti in modo tale da: • preservare, per quanto possibile, l’informazione rilevante per il problema analizzato • eliminare l’informazione non necessaria COME RACCOGLIERE I DATI SCHEDE QUESTIONARI INTERVISTE (ANCHE TELEFONICHE) EXIT POLL Tipo della rilevazione Totale : viene effettuata su tutte le unità statistiche della popolazione (censimento) costi elevati e tempi elevati risultati affidabili Parziale (o campionaria): viene effettuata su una parte (o campione) della popolazione costi contenuti rapidità risultati approssimati Occasionale: fatta "quando serve“ sondaggi d'opinione Periodica: fatta regolarmente "ogni tanto tempo“ censimento (10 anni) Esempio Consideriamo l’indagine condotta su 30 famiglie per stabilire il numero dei figli n.figli 1 0 x 1 2 3 4 2 3 4 5 x 6 7 8 x x x x x x 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 x x x x x x x x x x x x x x x x x x x x x x La POPOLAZIONE statistica è l’insieme degli elementi oggetto dell’indagine, cioè le 30 famiglie. Il CARATTERE dell’indagine statistica è l’aspetto che si vuole studiare, cioè il numero dei figli. I DATI o le MODALITA’ di un carattere sono le informazioni acquisite all’interno della popolazione, nel nostro caso sono i numeri 0,1,2,3,4. Un po’ di definizioni …… La frequenza assoluta ni di un generico dato statistico xi è il numero delle volte in cui il dato si presenta nell’indagine. Ad es. il dato 3 (figli) ha frequenza assoluta 6. La frequenza totale (N) è la somma delle frequenze assolute, nel nostro caso 30. La frequenza relativa fi è il rapporto tra la frequenza assoluta e la frequenza totale ni cioè fi = N ……. Moltiplicando la frequenza relativa per 100 si ottiene la frequenza percentuale, pi Dopo aver ordinato i dati quantitativi in ordine crescente si chiama frequenza cumulata Fi di un dato xi la somma della frequenza del dato stesso con le frequenze di tutti i dati che lo precedono Natura dei caratteri I caratteri qualitativi vengono indicati mediante espressioni verbali. Sono caratteri qualitativi lo stato civile (celibe o nubile, coniugato/a, ecc.), il sesso (maschio o femmina), il colore degli occhi (grigi, azzurri, verdi, castani, neri..) I caratteri quantitativi sono esprimibili numericamente e si dividono in: caratteri discreti, come il numero degli alunni di una classe, o di reti segnate in una partita di calcio, possono assumere solo determinati valori, quasi sempre numeri interi. caratteri continui, quali i pesi, le stature e più in generale le grandezze che possono essere misurate, possono assumere qualsiasi valore reale in un dato intervallo (anche se usualmente si impiegano numeri decimali finiti). Matrice dei dati Matrice dei dati relativa ad una rilevazione statistica sugli studenti iscritti al corso di Laurea in Economia Aziendale Unità Sesso Peso(kg) Altezza (cm) Colore occhi Anno di corso n. fratelli 1 0 (f) 65 170 azzurri 1 1 2 1 (m) 72 180 marroni 1 2 3 1 70 180 neri 2 0 4 0 75 182 marroni 1 0 5 0 81 180 azzurri 3 1 6 1 75 178 neri 2 1 7 0 74 173 marroni 1 0 8 1 83 184 azzurri 2 1 9 0 72 180 marroni 2 2 10 1 78 183 neri 1 1 11 1 78 174 Neri 3 0 12 1 76 178 marroni 3 2 COME RAPPRESENTARE I DATI Il modo più semplice ed immediato per rappresentare i dati è costituito da tabelle. Esiste una classificazione SERIAZIONE STATISTICA: Tabella contenente frequenze di intensità di un carattere QUANTITATIVO SERIE STATISTICA: Tabella contenente frequenze di modalità di un carattere QUALITATIVO SERIE STORICHE: Tabella contenente intensità di un carattere QUANTITATIVO rilevato per modalità TEMPORALI ( p.es. le vendite di automobili negli ultimo 10 anni) TITOLO DI STUDIO N. PERSONE lic. elementare n. STANZE n. APPARTAMENTI 1 300 1.000 2 500 lic. Media 5.000 3 2.000 diploma 9.000 4 3.000 laurea 2.000 5 150 6 100 7 50 Serie statistica Seriazione statistica Peso (in grammi) N°neonati 1.800-2.200 10 ANNO VENDITE AUTO 2.200-2.600 32 1996 10.000 1997 15.000 1998 20.000 2.600-3.000 120 3.000-3.400 254 1999 18.000 3.400-3.800 134 2000 17.000 3.800-4.200 40 2001 22.000 2002 23.000 2003 10.000 4.200-4.600 10 Serie temporale Seriazione statistica con dati divisi in classi Si suddividono i dati in classi quando il carattere analizzato è continuo Come esempio si riportano i risultati su un’indagine condotta su un gruppo di 50 persone relativa al numero di sigarette fumate ogni giorno: Carattere Frequenza assoluta Frequenza relativa Frequenza percentuale Frequenza cumulata 0 20 0,4 40 % 40% 5 10 0,2 20 % 60% 10 10 0,2 20 % 80% 15 5 0,1 10 % 90% 20 5 0,1 10% 100% TOTALE 50 1 100% f relativa = f assoluta / Totale Talvolta può essere utile calcolare anche la frequenza cumulata (percentuale o relativa) USO DEI GRAFICI I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione del fenomeno in forma visiva. Possono essere utilizzati i seguenti tipi di grafici: Diagrammi cartesiani Istogrammi e ortogrammi Diagrammi a nastro Diagrammi circolari Diagrammi polari Cartogrammi Ideogrammi Diagrammi cartesiani sono usati soprattutto per le serie temporali 25 20 15 10 5 0 0 2 4 6 8 10 12 14 16 Istogrammi Si usano per rappresentare seriazioni continue con i dati raggruppati in classi. In generale, le aree dei rettangoli sono proporzionali alle frequenze. Se le classi hanno tutte la stessa ampiezza, le altezze dei rettangoli sono proporzionali alle frequenze. Istogramma delle altezze 9 frequenze assolute 8 7 6 5 4 3 2 1 0 <160 161-165 166-170 171-175 176-180 classi 181-185 186-190 191-195 >195 Ortogrammi Sono simili agli istogrammi ma usati per serie statistiche (cioè anche per dati qualitativi). Possono anche caratterizzarsi per più rettangoli affiancati Domanda 2.5 Qual è il modo migliore per ricevere comunicazioni e informazioni dalla scuola 250 200 150 cellulare internet posta diario modulo lib.giust. telefono 100 50 0 PROGRAMMATORI GEOMETRI IGEA NON SPECIFICATO TOTALE Diagrammi a nastro H 20000 G 20000 F 50000 E 18000 D 10000 C 15000 B 25000 A 5000 0 10000 20000 30000 40000 50000 60000 Diagrammi circolari o diagrammi a torta 3% 12% 15% 12% 9% 6% 11% 32% A B C D E F G H Le ampiezze degli angoli al centro dei settori colorati sono direttamente proporzionali alle frequenze percentuali. Ad esempio, per la zona arancio si ha: X:360°=32:100 cioè x=125,2° Diagrammi circolari T o r t a t r id im e n s io n a le 3% 12% 15% 12% 9% 6% 11% 32% A B C D E F G H Diagrammi polari sono usati per particolari serie storiche con carattere di ciclicità venerdì lunedì 50 40 30 20 10 0 assenze martedì assenze giovedì mercoledì Cartogrammi Sono utilizzati per rappresentare serie territoriali 7,3 11 20,1 Ideogrammi Sono rappresentazioni mediante figure stilizzate che rappresentano il fenomeno studiato Auto vendute anni