La Statistica è entrata a far parte del linguaggio comune. Tv e media riportano spesso statistiche e sondaggi di opinione. La Statistica riguarda la descrizione di fenomeni, in forma sintetica; essa serve a classificare le osservazioni e ad esprimerle in forma matematica e facilmente comunicabili a tutti. La Statistica fornisce delle regole per raccogliere, classificare e rappresentare le informazioni e per calcolare indici di posizione e di variabilità, che descrivono in forma sintetica e visiva la caratteristica del fenomeno che si intende studiare. Molto spesso le informazioni relative ad un fenomeno di natura fisica, biologica, sociale sono espresse in forma caotica e difficile da interpretare. Supponiamo di confrontare i risultati di un test di Matematica di due classi prime. La seguente tabella riporta l’elenco dei punteggi in centesimi, ottenuto dagli studenti delle due classi. PUNTEGGI di MATEMATICA Classe IA 86 Luca 28 Luciano Marta 31 Davide 76 Francesca 13 Classe IB 67 68 46 96 71 Marzia Giuliana Eleonora Alfredo Mario 18 72 72 96 45 Francesco Pietro Nicola Grazia Lina Laura Piero Franco Viola Antonio 38 69 46 23 26 Marika Salvatore 15 31 Roberto Filippo 18 80 Teresa Marco 17 83 Daniele Matteo 82 90 Giuseppe 75 Federico 42 Massimo 93 Tania 39 Silvia Anna Massimo Roberta 89 94 38 68 Deborah Monica Silvana Marina 45 26 14 15 Sergio Tina Rita Lorella 28 19 54 48 Fulvio Diana Nadia 36 43 32 Ipotizziamo di voler rispondere alle seguenti domande : Qual è la classe che riporta punteggi più alti? Qual è la classe che mostra i risultati più omogenei tra loro? Le alunne delle due classi possono ritenersi “più brave” in Matematica? E’ evidente che è difficile trarre delle conclusioni da una semplice occhiata dei risultati del test. Per farlo abbiamo bisogno di elaborare ed analizzare i nostri dati in forma sintetica. La Statistica descrittiva può definirsi come l’insieme delle metodologie per lo studio quantitativo di fenomeni collettivi di una popolazione statistica, che hanno attitudine a variare; tale studio serve a descriverli e ad individuare le leggi o i modelli che permettono di spiegarli e prevederli. Nel caso del suddetto test di Matematica, invece di enumerare i voti di ciascun allievo, si possono realizzare dei grafici che meglio visualizzano i punteggi, per poi calcolarne alcuni indici, quali le medie dei punteggi delle due classi e confrontarli tra di loro. Ogni indagine statistica è formata da tre fasi : la rilevazione, lo spoglio e l’elaborazione statistica. La rilevazione La rilevazione dei dati (ad es. l’orientamento al voto degli elettori di una città) si effettua su tutta la popolazione - l’universooggetto di studio, oppure su un campione, cioè una porzione della popolazione. Gli elementi della popolazione si dicono unità statistiche. Caratteri e modalità statistiche Per rilevare i dati di una statistica bisogna individuare innanzitutto il carattere, cioè la caratteristica della popolazione da studiare. La statura, il sesso, il grado di soddisfazione nei confronti di un certo oggetto, i punteggi di un test sono esempi di caratteri. Alcuni caratteri sono di tipo qualitativo, spesso espressi attraverso aggettivi, altri di tipo quantitativo, espressi da numeri. Il carattere di una popolazione viene rilevato attraverso le modalità con cui esso si può manifestare ESEMPI: • Il carattere qualitativo “sesso” ha due modalità: maschile e femminile. Il carattere quantitativo “punteggi di Matematica” della tabella precedente ha 100 modalità: 1, 2, 3, ….,100. Il carattere qualitativo “grado di soddisfazione della propria moto” può avere le seguenti modalità: molto insoddisfatto, abbastanza insoddisfatto, né insoddisfatto né soddisfatto, abbastanza soddisfatto, molto soddisfatto. Lo spoglio Dopo aver definito il carattere oggetto di studio, le sue modalità ed aver effettuato il rilevamento, i dati vengono organizzati e classificati nella fase di spoglio. Per prima cosa nello spoglio si conta il numero di volte in cui una modalità viene rilevata, ovvero la frequenza assoluta. ESEMPIO: I risultati di un piccolo sondaggio sul giudizio di gradimento di un succo di frutta tra 12 consumatori sono : Ottimo, buono, ottimo, buono, non molto buono, buono ottimo, così così, buono, così così, non molto buono, pessimo. Giudizio Frequenza assoluta Ottimo 3 Buono 4 Così così 2 Non molto buono 2 Pessimo 1 Totale 12 Spesso è utile confrontare la frequenza assoluta con il numero totale delle unità statistiche osservate. Si dice frequenza relativa, il quoziente fra quella assoluta ed il numero totale delle unità statistiche. Giudizio Frequenza assoluta Frequenza relativa Frequenza percentuale Ottimo 3 0,250 25,0% Buono 4 0,333 33,3% Così così 2 0,167 16,7% Non molto buono 2 0,167 16,7% Pessimo 1 0,083 8,3% Totale 12 1,00 100% A volte il carattere da misurare si manifesta su un numero molto elevato di modalità. Per analizzare meglio i dati, si possono raggruppare in classi di frequenza. Volendo, ad esempio, fare un’indagine statistica sull’altezza in cm delle donne italiane, si consideri una popolazione di 2000 donne. Intervallo della classe (in cm) Frequenza assoluta Frequenza relativa 144-146 4 0,2 146-148 10 0,5 148-150 20 1,0 150-152 24 1,2 152-154 54 2,7 154-156 100 5,0 156-158 190 9,5 158-160 332 16,6 160-162 342 17,1 162-164 334 16,7 164-166 192 9,6 166-168 132 6,6 168-170 100 5,0 170-172 74 3,7 172-174 50 2,5 174-176 20 1,0 176-178 18 0,9 178-180 4 0,2 totale 2000 100,0 Essa riguarda l’analisi statistica dei dati spogliati. I dati spogliati possono essere rappresentati graficamente per meglio evidenziarne il significato ed inoltre riassunti attraverso degli indicatori. Rappresentazione grafica delle distribuzioni di frequenza Vi sono diversi metodi per rappresentare graficamente una distribuzione di frequenza, a seconda del tipo di carattere che si vuol maggiormente evidenziare. Per i caratteri quantitativi si utilizzano diagrammi cartesiani o istogrammi. Per i caratteri qualitativi, si utilizzano spesso i settori circolari detti areogrammi. Per le serie storiche di risultati di una statistica(ad esempio i risultati di una squadra di calcio nel corso degli ultimi campionati , confrontando partite giocate in casa o fuori, gol fatti o subìti, etc.) si usano di frequente gli ortogrammi. DIAGRAMMI CARTESIANI Il diagramma cartesiano riporta, in ascissa, i valori o gli intervalli di valori relativi alle modalità, in ordinata, le rispettive frequenze. Congiungendo con una spezzata tutti i punti riportati nel piano cartesiano si otterrà il diagramma della distribuzione. Questo tipo di rappresentazione è utile per confrontare visivamente due o più serie di valori. ESEMPIO Riportiamo di seguito i dati relativi alla popolazione italiana, dall’annuario dell’Istat 2001, suddivisi per classi di età. Classi di età <1 1-4 5-9 10-14 15-24 25-44 45-64 >64 Popolazione 1542 2141 2769 2852 6602 17883 14500 10556 (in migliaia) popolazione (in migliaia) 20000 17883 15000 14500 10556 10000 6602 5000 0 1542 2141 2769 2852 • ISTOGRAMMI L’istogramma riporta in ascissa dei segmenti, le cui lunghezze rappresentano le ampiezze delle rispettive classi, che fungono da base dei rettangoli, le cui aree sono proporzionali alle frequenze delle classi stesse. Se le basi sono tutte uguali, le altezze dei rettangoli possono anche coincidere con le frequenze stesse. ESEMPIO: i partecipanti ad un campo estivo sono stati suddivisi in classi di età. Classi di età frequenza 10-12 12-14 14-16 16-18 18-20 23 12 31 15 9 partecipanti per classi di età Numero di partecipanti 40 30 20 10 0 Classi di età •SETTORI CIRCOLARI L’ areogramma o diagramma a torta presenta gli angoli al centro proporzionali alla frequenza assoluta o relativa dei dati. Essi rappresentano soprattutto distribuzioni di caratteri qualitativi. ESEMPIO: rappresentiamo con un areogramma la popolazione italiana per aree geografiche. popolazione italiana per area geografica (in migliaia) 11,160 25,834 Nord Centro Sud 20,850 • ORTOGRAMMI E’ costituito da rettangoli separati tra loro, di basi uguali, corrispondenti alle diverse modalità, e altezze proporzionali alle frequenze assolute e relative. Spesso è usato per confrontare diverse serie di valori. ESEMPIO: riportiamo in un ortogramma l’andamento dei prezzi dell’energia elettrica dal 1997 al 2001 (fonte Istat). Prezzi indice dell'energia elettrica 111.2 112 110 108 104 105.7 105.6 106 103.8 103.1 102 100 98 1997 1998 1999 2000 2001 Molto spesso, la Statistica per descrivere in maniera più sintetica, ma chiara, una serie di dati, utilizza degli indicatori di centralità e di dispersione. Gli indicatori di centralità forniscono informazioni sulla tendenza delle osservazioni di un carattere a raggrupparsi attorno ad un determinato valore numerico. LE MEDIE Dati n numeri x1, x2,…,xn ,si dice media quel numero che, sostituito a ciascuna di essi, lascia invariato il risultato di una prefissata operazione, eseguita sui medesimi numeri. La media è quindi un metodo per ridurre i diversi dati ad un sol numero, che rappresenti nel suo complesso la distribuzione. Vi sono diversi tipi di media, a seconda del tipo di significato e di operazione che viene eseguita su un determinato carattere. La media aritmetica semplice La media aritmetica di n numeri x1,x2,…,xn è quel numero M, che sostituito a ciascuno di essi, lascia inalterata la loro somma : x1+x2+…+xn = M+M+…+M (n volte) , ovvero x1+x2+…+xn = nM e quindi la formula della media aritmetica è: M = x1+x2+…+xn / n La media geometrica semplice La media geometrica di n numeri x1,x2,…,xn è quel numero M, che sostituito a ciascuno di essi, lascia inalterato il loro prodotto : x1 • x2 • … • xn = M • M • … • M (n volte) , ovvero x1 • x2 • … • xn = Mn da cui si ricava la formula della media geometrica: MEDIANA E MODA Un altro indicatore di centralità di una distribuzione statistica è la mediana, che si definisce come la modalità che divide gli elementi di una distribuzione ordinata in due gruppi di ugual numero. Se gli elementi sono in numero dispari, allora la mediana è il valore centrale; se sono in numero pari, la mediana è data dalla media dei due valori centrali. Si definisce moda la modalità della distribuzione che ha frequenza massima. Si possono avere distribuzioni unimodali, bimodali, e così via. ESEMPIO : consideriamo la seguente distribuzione di voti di un alunno agli orali delle discipline del corso di studi, durante un anno scolastico: 4, 4, 5 , 5, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8 La mediana è 6 La moda è 5 La media è 6 INDICATORI DI DISPERSIONE A volte due diverse distribuzioni di dati possono presentare la stessa media, ma una diversa distribuzione dei dati rilevati. Per conoscere di quanto una distribuzione di dati si discosta dalla media può essere interessante calcolare un indicatore di dispersione, detto scarto quadratico medio o deviazione standard, la cui formula è : Il valore σ2 prende il nome di varianza.