Brevi note ad uso degli studenti su statistica descrittiva e utilizzo del foglio elettronico Di Paolo Guidotti Ciò che esporremo nel seguito costituisce un insieme di note utili per introdurre alcune nozioni di statistica descrittiva e per permettere una semplice rappresentazione grafica di un insieme di dati attraverso l’uso del foglio elettronico. Quando si parla di statistica si ha di solito a che fare con un numero relativamente consistente di dati. Da questi dati si cerca di ottenere una serie di informazioni che permettano, in modo più o meno sintetico, di rappresentare il fenomeno che è l’oggetto del nostro studio e al quale i dati si riferiscono. Il primo passo di un’indagine statistica è la raccolta di dati. Da sola però questa fornisce solo un insieme di numeri che, prima di essere in qualche modo elaborati, esprimono poco del fenomeno di cui sono espressione. Ad esempio se rileviamo il numero di pezzi prodotti da un numero elevato di operai di un certo reparto, in un mese, ci possiamo trovare di fronte a un insieme di dati come quello presentato qui di seguito. 725 704 701 709 708 707 701 715 687 706 704 698 717 699 717 694 724 705 715 693 707 723 692 706 702 716 717 712 714 704 695 706 710 697 701 715 695 695 713 688 701 703 700 714 703 696 711 705 724 725 707 707 726 676 700 724 708 721 692 707 709 708 697 698 700 692 706 710 710 705 704 713 704 714 718 691 711 713 693 697 724 719 701 700 709 684 726 686 705 704 699 711 704 714 701 697 713 694 687 718 692 717 702 697 702 697 698 712 689 712 699 700 692 717 708 702 707 719 706 710 701 693 690 718 712 708 697 705 683 696 719 718 717 715 706 704 699 711 710 702 714 704 724 722 712 707 713 705 709 710 700 724 699 697 703 711 711 720 713 712 684 726 699 723 710 711 700 721 685 710 702 709 692 705 706 703 707 703 702 718 718 696 687 717 712 713 719 700 720 703 705 688 703 705 694 701 708 696 696 690 678 702 710 719 697 712 704 694 691 712 708 698 720 715 694 707 706 715 725 692 698 719 707 708 709 710 712 692 705 686 699 713 706 714 721 716 700 713 704 703 702 697 704 684 714 702 709 685 695 716 713 700 689 716 719 690 705 698 703 716 687 708 704 706 707 698 699 707 693 712 711 706 715 694 687 710 707 713 704 699 718 714 703 714 707 703 700 704 Prima di procedere ad illustrare come si possono trattare i questi dati diamo qualche riferimento sui termini che ricorrono spesso in statistica. Nell’esempio presentato l’operaio costituisce l’unità statistica che è in generale la minima unità della quale si raccolgono i dati. Il numero di pezzi prodotto è invece carattere, i caratteri in generale sono le proprietà oggetto di rilevazione. Si dice invece 1 popolazione l’insieme delle unità statistiche oggetto di studio, in questo caso tutti gli operai. I caratteri possono essere qualitativi o quantitativi. I caratteri qualitativi vengono indicati mediante espressioni verbali. Sono caratteri qualitativi lo stato civile (celibe o nubile, coniugato/a, ecc.), il sesso (maschio o femmina), il colore degli occhi (chiari, castani, neri), ecc. I caratteri quantitativi sono esprimibili numericamente e si dividono in discreti e continui. I caratteri discreti, come il numero degli alunni di una classe, o di reti segnate in una partita di calcio, possono assumere solo determinati valori, quasi sempre numeri interi. I caratteri continui, quali i pesi, le stature e più in generale le grandezze che possono essere misurate, possono assumere qualsiasi valore reale in un dato intervallo (anche se in pratica si impiegano numeri decimali finiti). Torniamo adesso al nostro esempio. Un modo per rappresentare i dati raccolti potrebbe essere quello di raggrupparli per valore o per intervalli di valori e di effettuare il conteggio di quanti dati rientrano nel primo gruppo, quanti nel secondo ecc., fino a contarli tutti. Questa operazione è comunque quella che si fa normalmente quando abbiamo a che fare con i caratteri qualitativi. Per esempio se raccogliamo dati sul colore degli occhi è significativo sapere quante persone della popolazione hanno gli occhi verdi, quanti gli occhi azzurri ecc. . Fare questo conteggio vuol dire valutare la frequenza con cui un carattere si ripete nella popolazione. In particolare il risultato del conteggio è detto frequenza assoluta. Se poi dividiamo i valori delle frequenze assolute per il numero totale di unità statistiche otteniamo quelle che sono dette le frequenze relative (queste possono essere espresse in percentuale moltiplicandole per 100). Il foglio elettronico permette in generale, di effettuare questa operazione di conteggio in modo automatico. Qui presentiamo alcune note a proposito di questa funzionalità e della modalità con cui si può costruire il grafico delle frequenze (faremo riferimento al foglio elettronico “Excel” versione 97-2003). Supponiamo quindi di avere raccolto in una colonna del foglio elettronico il dato sul colore degli occhi di una popolazione di 30 persone. I colori degli occhi individuati, cioè le modalità con cui si presenta il carattere, siano: verdi, azzurri, castani, neri. Una delle funzioni utilizzabili per contare quante persone sono da attribuire ad ognuna delle modalità con cui si presenta il carattere è la funzione “CONTA.SE”. La sua sintassi è: CONTA.SE(“intervallo”;”criteri”), dove “intervallo” è l'intervallo di celle a partire dal quale si desidera contare le modalità del carattere e “criteri” sono i criteri in forma di numeri, espressioni o testo che determinano quali celle verranno contate. Ad esempio, “criteri” può essere espresso come 32, "32", ">32", "mele". 2 Oppure richiamando il contenuto di una cella che ha come contenuto un espressione del criterio stesso. In generale e anche nel nostro caso conviene preparare una tabella come quella di Fig. 1 e inserire la funzione “CONTA.SE” nelle celle adiacenti a quelle in cui abbiamo inserito le modalità. Fig. 1 I dati così organizzati possono essere efficacemente presentati attraverso un grafico; in questo caso potrebbero essere ugualmente adatti un diagramma a barre, un istogramma o una torta. Scegliamo di seguire la procedura guidata del foglio elettronico che porta alla realizzazione di un istogramma. Ad ogni modalità sarà dunque associato un rettangolo di altezza proporzionale alla frequenza con cui la modalità si presenta. Al fine di rendere chiaro cosa si rappresenta occorre almeno non trascurare alcuni elementi essenziali: il titolo generale, i titoli degli assi e le etichette sugli assi. Ci sono moltissimi altri aspetti che in una trattazione più approfondita potrebbero essere presi in considerazione, ma normalmente si ottengono buoni grafici curando correttamente gli elementi sopra elencati. Vediamo come si opera: Dal menù generale si apre la finestra inserisci e si sceglie l’opzione grafico. 3 Viene mostrata una finestra nella quale viene chiesto il tipo di grafico da realizzare: nell’area “tipo di grafico” si clicca1 su “istogramma” e dopo, nell’area “scelte disponibili”, su una delle opzioni presentate (qui si è scelto quella evidenziata in nero (Fig. 2)). Fig. 2 Si clicca ora su “avanti” e si apre una seconda finestra. In questa viene chiesto di indicare l’intervallo dati. Cliccando sull’area del campo “intervallo dati” e poi “evidenziando” le celle colorate, dove sono i nostri dati, compare l’anteprima del grafico, come in Fig. 3. Fig. 3 Cliccando ancora su avanti viene chiesto di inserire il titolo generale e i titoli degli assi (Fig. 4). Dopo averlo fatto si clicca ancora sul tasto “avanti” 1 Con il termine cliccare si intende: portare il cursore del mouse su una certa zona o tasto del video e premere il tasto sinistro del mouse 4 Fig. 4 Appare quindi un’altra finestra dove viene chiesto dove posizionare il grafico. Dopo aver eseguito tale scelta si chiude la finestra cliccando su “fine” e viene mostrato il grafico come in Fig. 5. Fig. 5 In maniera analoga si possono realizzare i diagrammi a barre o con lievi modifiche alla procedura, diagrammi a torta. Per concludere facciamo cenno ad alcuni parametri che possono essere utilizzati per esprimere la tendenza “media” dei valori o dei caratteri che assumono i dati raccolti. Sia per i dati di tipo quantitativo che per quelli di tipo qualitativo può essere definita la MODA. La MODA è il valore o il carattere che si presenta nell’insieme dei dati con la frequenza maggiore. Nell’esempio precedentemente trattato la MODA è “occhi castani”. Solo per i dati di tipo quantitativo si possono definire la MEDIANA e la MEDIA ARITMETICA. La MEDIANA è il valore che occupa il posto di mezzo, quando i dati sono disposti in ordine crescente. La MEDIANA divide dunque la distribuzione in due parti, ognuna delle quali contiene il 50% dei valori. 5 La MEDIA ARITMETICA è invece data dalla somma di tutti i valori divisa per il loro numero. Tutti questi parametri esprimono la tendenza complessiva dell’insieme dei dati, ma non possono esprimere ovviamente parte dell’informazione disponibile. Ad esempio sono più sintetici della distribuzione di frequenze, ma ciascuno di loro nasconde qualche apetto della distribuzione stessa. Chiudiamo ricordando che MODA, MEDIANA e MEDIA ARITMETICA hanno specifiche funzioni nei fogli di calcolo. In “Excel” (nelle versioni in italiano) prendono rispettivamente i nomi: MODA(), MEDIANA() e MEDIA. 6