1 Brevi note ad uso degli studenti su statistica descrittiva e

Brevi note ad uso degli studenti su statistica descrittiva e utilizzo del foglio
elettronico
Di Paolo Guidotti
Ciò che esporremo nel seguito costituisce un insieme di note utili per introdurre alcune
nozioni di statistica descrittiva e per permettere una semplice rappresentazione
grafica di un insieme di dati attraverso l’uso del foglio elettronico.
Quando si parla di statistica si ha di solito a che fare con un numero relativamente
consistente di dati. Da questi dati si cerca di ottenere una serie di informazioni che
permettano, in modo più o meno sintetico, di rappresentare il fenomeno che è
l’oggetto del nostro studio e al quale i dati si riferiscono.
Il primo passo di un’indagine statistica è la raccolta di dati. Da sola però questa
fornisce solo un insieme di numeri che, prima di essere in qualche modo elaborati,
esprimono poco del fenomeno di cui sono espressione. Ad esempio se rileviamo il
numero di pezzi prodotti da un numero elevato di operai di un certo reparto, in un
mese, ci possiamo trovare di fronte a un insieme di dati come quello presentato qui di
seguito.
725
704
701
709
708
707
701
715
687
706
704
698
717
699
717
694
724
705
715
693
707
723
692
706
702
716
717
712
714
704
695
706
710
697
701
715
695
695
713
688
701
703
700
714
703
696
711
705
724
725
707
707
726
676
700
724
708
721
692
707
709
708
697
698
700
692
706
710
710
705
704
713
704
714
718
691
711
713
693
697
724
719
701
700
709
684
726
686
705
704
699
711
704
714
701
697
713
694
687
718
692
717
702
697
702
697
698
712
689
712
699
700
692
717
708
702
707
719
706
710
701
693
690
718
712
708
697
705
683
696
719
718
717
715
706
704
699
711
710
702
714
704
724
722
712
707
713
705
709
710
700
724
699
697
703
711
711
720
713
712
684
726
699
723
710
711
700
721
685
710
702
709
692
705
706
703
707
703
702
718
718
696
687
717
712
713
719
700
720
703
705
688
703
705
694
701
708
696
696
690
678
702
710
719
697
712
704
694
691
712
708
698
720
715
694
707
706
715
725
692
698
719
707
708
709
710
712
692
705
686
699
713
706
714
721
716
700
713
704
703
702
697
704
684
714
702
709
685
695
716
713
700
689
716
719
690
705
698
703
716
687
708
704
706
707
698
699
707
693
712
711
706
715
694
687
710
707
713
704
699
718
714
703
714
707
703
700
704
Prima di procedere ad illustrare come si possono trattare i questi dati diamo qualche
riferimento sui termini che ricorrono spesso in statistica.
Nell’esempio presentato l’operaio costituisce l’unità statistica che è in generale la
minima unità della quale si raccolgono i dati. Il numero di pezzi prodotto è invece
carattere, i caratteri in generale sono le proprietà oggetto di rilevazione. Si dice invece
1
popolazione l’insieme delle unità statistiche oggetto di studio, in questo caso tutti gli
operai.
I caratteri possono essere qualitativi o quantitativi. I caratteri qualitativi vengono
indicati mediante espressioni verbali. Sono caratteri qualitativi lo stato civile (celibe o
nubile, coniugato/a, ecc.), il sesso (maschio o femmina), il colore degli occhi (chiari,
castani, neri), ecc. I caratteri quantitativi sono esprimibili numericamente e si
dividono in discreti e continui. I caratteri discreti, come il numero degli alunni di una
classe, o di reti segnate in una partita di calcio, possono assumere solo determinati
valori, quasi sempre numeri interi. I caratteri continui, quali i pesi, le stature e più in
generale le grandezze che possono essere misurate, possono assumere qualsiasi
valore reale in un dato intervallo (anche se in pratica si impiegano numeri decimali
finiti).
Torniamo adesso al nostro esempio. Un modo per rappresentare i dati raccolti
potrebbe essere quello di raggrupparli per valore o per intervalli di valori e di
effettuare il conteggio di quanti dati rientrano nel primo gruppo, quanti nel secondo
ecc., fino a contarli tutti. Questa operazione è comunque quella che si fa normalmente
quando abbiamo a che fare con i caratteri qualitativi. Per esempio se raccogliamo dati
sul colore degli occhi è significativo sapere quante persone della popolazione hanno gli
occhi verdi, quanti gli occhi azzurri ecc. .
Fare questo conteggio vuol dire valutare la frequenza con cui un carattere si ripete
nella popolazione.
In particolare il risultato del conteggio è detto frequenza assoluta. Se poi dividiamo i
valori delle frequenze assolute per il numero totale di unità statistiche otteniamo
quelle che sono dette le frequenze relative (queste possono essere espresse in
percentuale moltiplicandole per 100).
Il foglio elettronico permette in generale, di effettuare questa operazione di conteggio
in modo automatico.
Qui presentiamo alcune note a proposito di questa funzionalità e della modalità con
cui si può costruire il grafico delle frequenze (faremo riferimento al foglio elettronico
“Excel” versione 97-2003).
Supponiamo quindi di avere raccolto in una colonna del foglio elettronico il dato sul
colore degli occhi di una popolazione di 30 persone. I colori degli occhi individuati, cioè
le modalità con cui si presenta il carattere, siano: verdi, azzurri, castani, neri.
Una delle funzioni utilizzabili per contare quante persone sono da attribuire ad ognuna
delle modalità con cui si presenta il carattere è la funzione “CONTA.SE”.
La sua sintassi è: CONTA.SE(“intervallo”;”criteri”), dove “intervallo” è l'intervallo di
celle a partire dal quale si desidera contare le modalità del carattere e “criteri” sono i
criteri in forma di numeri, espressioni o testo che determinano quali celle verranno
contate. Ad esempio, “criteri” può essere espresso come 32, "32", ">32", "mele".
2
Oppure richiamando il contenuto di una cella che ha come contenuto un espressione
del criterio stesso.
In generale e anche nel nostro caso conviene preparare una tabella come quella di
Fig. 1 e inserire la funzione “CONTA.SE” nelle celle adiacenti a quelle in cui abbiamo
inserito le modalità.
Fig. 1
I dati così organizzati possono essere efficacemente presentati attraverso un grafico;
in questo caso potrebbero essere ugualmente adatti un diagramma a barre, un
istogramma o una torta.
Scegliamo di seguire la procedura guidata del foglio elettronico che porta alla
realizzazione di un istogramma. Ad ogni modalità sarà dunque associato un rettangolo
di altezza proporzionale alla frequenza con cui la modalità si presenta.
Al fine di rendere chiaro cosa si rappresenta occorre almeno non trascurare alcuni
elementi essenziali: il titolo generale, i titoli degli assi e le etichette sugli assi.
Ci sono moltissimi altri aspetti che in una trattazione più approfondita potrebbero
essere presi in considerazione, ma normalmente si ottengono buoni grafici curando
correttamente gli elementi sopra elencati.
Vediamo come si opera:
Dal menù generale si apre la finestra inserisci e si sceglie l’opzione grafico.
3
Viene mostrata una finestra nella quale viene chiesto il tipo di grafico da realizzare:
nell’area “tipo di grafico” si clicca1 su “istogramma” e dopo, nell’area “scelte
disponibili”, su una delle opzioni presentate (qui si è scelto quella evidenziata in nero
(Fig. 2)).
Fig. 2
Si clicca ora su “avanti” e si apre una seconda finestra. In questa viene chiesto di
indicare l’intervallo dati. Cliccando sull’area del campo “intervallo dati” e poi
“evidenziando” le celle colorate, dove sono i nostri dati, compare l’anteprima del
grafico, come in Fig. 3.
Fig. 3
Cliccando ancora su avanti viene chiesto di inserire il titolo generale e i titoli degli assi
(Fig. 4). Dopo averlo fatto si clicca ancora sul tasto “avanti”
1
Con il termine cliccare si intende: portare il cursore del mouse su una certa zona o tasto del video e
premere il tasto sinistro del mouse
4
Fig. 4
Appare quindi un’altra finestra dove viene chiesto dove posizionare il grafico. Dopo
aver eseguito tale scelta si chiude la finestra cliccando su “fine” e viene mostrato il
grafico come in Fig. 5.
Fig. 5
In maniera analoga si possono realizzare i diagrammi a barre o con lievi modifiche alla
procedura, diagrammi a torta.
Per concludere facciamo cenno ad alcuni parametri che possono essere utilizzati per
esprimere la tendenza “media” dei valori o dei caratteri che assumono i dati raccolti.
Sia per i dati di tipo quantitativo che per quelli di tipo qualitativo può essere definita la
MODA.
La MODA è il valore o il carattere che si presenta nell’insieme dei dati con la frequenza
maggiore. Nell’esempio precedentemente trattato la MODA è “occhi castani”.
Solo per i dati di tipo quantitativo si possono definire la MEDIANA e la MEDIA ARITMETICA.
La MEDIANA è il valore che occupa il posto di mezzo, quando i dati sono disposti in
ordine crescente. La MEDIANA divide dunque la distribuzione in due parti, ognuna delle
quali contiene il 50% dei valori.
5
La MEDIA ARITMETICA è invece data dalla somma di tutti i valori divisa per il loro
numero.
Tutti questi parametri esprimono la tendenza complessiva dell’insieme dei dati, ma
non possono esprimere ovviamente parte dell’informazione disponibile. Ad esempio
sono più sintetici della distribuzione di frequenze, ma ciascuno di loro nasconde
qualche apetto della distribuzione stessa.
Chiudiamo ricordando che MODA, MEDIANA e MEDIA ARITMETICA hanno specifiche funzioni
nei fogli di calcolo. In “Excel” (nelle versioni in italiano) prendono rispettivamente i
nomi: MODA(), MEDIANA() e MEDIA.
6