DISTRIBUZIONE DI FREQUENZE PER CARATTERI CONTINUI

Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Questa nota consiste perlopiù nella traduzione da “Descriptive statistics” di J.
Shalliker e C. Ricketts, 2000, University of Plymouth
Consideriamo come esempio il data set contenuto nel foglio excel
“esercizio2_dati.xls”. Il data set si riferisce a 99 studenti di cui è stata rilevata la
statura in cm.
Creazione
guidata del
grafico
Barra dei
comandi
Somma
automatica
Tasto di incolla
funzione
Figura 1.
Costruzione della distribuzione di frequenza
Per costruire una distribuzione di frequenze, come prima cosa occorre la statura
massima e la statura minima rilevate. (In generale occorre conoscere la modalità
massima e la modalità minima osservate nella nostra popolazione).
Vediamo come si fa:
- nelle celle F3 scrivere il titolo MAX= e nella cella F4 scrivere il titolo MIN=
- nella cella G3 scrivere la formula =MAX(D4:D102) e nella ella G4 scrivere
la formula =MIN(D4:D102)
nel nostro esempio il massimo è 183.3 e il minimo è 158.8.
Nota: in alternativa il massimo e il minimo possono essere calcolati usando le
funzioni implementate in Excel. Per fare ciò occorre cliccare sull’icona , selezionare
le funzioni statistiche e tra queste scegliere MAX (se si desidera calcolare il massimo)
1
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
oppure MIN (se si desidera calcolare il minimo)1. In entrambi i casi si apre una
finestra di dialogo. Nella linea chiamata 1 scrivere D4:D102e poi cliccare OK.
Una volta trovate le stature massima e minima, occorre passare alla suddivisione in
classi dell’intervallo di osservazione [158.8, 183.3]. la scelta del numero delle classi è
piuttosto soggettiva ed in generale dipende dall’obiettivo dell’analisi statistica. Come
visto nel corso di Statistica, le classi possono essere di uguale ampiezza o di ampiezza
diversa. Qui consideriamo il caso di classi di uguale ampiezza. Supponiamo che
nel nostro esempio si decida di avere 12 classi.
Una volta stabilito il numero di classi e che queste hanno uguale ampiezza, possiamo
passare a definire queste classi. Visto che min=158.8 e max=183.3, possiamo
considerare che il carattere statura assume valore compresi tra 158cm e 185 cm;
quindi l’ampiezza dell’intervallo con cui il carattere si può manifestare (questo
intervallo è detto range) è pari a 27cm.
- Nella cella F6 scrivere Range=
- Nella cella G6 scrivere la formula =27
- Nella cella F7 scrivere Ampiezza classi=
- Nella cella G7 scrivere la formula =G6/12. Come risultato si ottiene 2.25
- nella cella I3 scrivere il titolo Estremo superiore Statura
- nella cella I4 scrivere l’estremo della prima classe ossia 160.25 (osservate che
160.25 è ottenuto 158+ampiezza classe ossia 158+2.25)
- nella cella I5 scrivere l’estremo superiore della seconda classe ossia 162.5
(osservate che 162.5 è ottenuto come estremo superiore della prima
classe+ampiezza classe=160.25+2.25)
- selezionare le celle I4:I5 e spostare il cursore sull’angolo in basso a destra
dello spazio selezionato. Quando il cursore appare come una crocetta,
premere il tasto sinistro del mouse e trascinare il cursore fino a
coprire la cella I15. Lasciando il mouse si otterranno come risultato gli
estremi superiori di tutte le classi, ossia 160.25, 162.5, 164.75,..., 185.
Nota: alternativamente (e in modo equivalente) gli estremi superiori delle classi
possono essere calcolati come segue:
- nella cella I4 scrivere l’estremo della prima classe ossia =158+G7 (ossia
158+ampiezza classe; ottenete 160.25)
- nella cella I5 scrivere =I4+G$7 ossia estremo superiore della prima
classe+ampiezza classe (ottenete 162.5)
- Posizionare il cursore nell’angolino in basso a destra della cella I5 in
modo che il cursore stesso diventi una crocetta
- Quando il cursore appare come una crocetta cliccare e tenere premuto
trascinando la formula fino a coprire la cella I15.
Scritte le classi, occorre passare al calcolo delle frequenze.
- Nella cella J3 scrivere il titolo Frequenza
1
Se l’icona non è presente nella barra degli strumenti, è possibili cliccare su Inserisci e nel menu che
si apre scegliere Funzione. Si apre una finestra di dialogo. In questa scegliere le funzioni statistiche e
tra questa scegliere Max o Min a seconda che si debba calcolare il massimo o il minimo.
Si noti che Excel dispone di un elevato numero di funzioni tra cui scegliere proprio usando
Inserisci/Funzione.
2
Corso di
Statistica Computazionale
-
Prof.ssa Paola Vicard
Selezionare le celle J4:J16 (ossia selezionare una cella in più di quante sono
le classi; questa aggiunta è utile quando si analizzano dati continui perché la
classe aggiuntiva può contenere valori maggiore dell’estremo superiore scelto)
Scrivere la formula =FREQUENZA(D4:D102;I4:I15) e premere
contemporaneamente i tasti
Ctrl e Invio.
La lista delle frequenze apparirà nelle celle J4:J16. Notare che Excel
inserisce in ciascuna classe quelle osservazioni (nel nostro esempio, stature)
che sono minori o uguali dell’estremo superiore della classe associata (ossia
sulla stessa riga).
Nella figura di seguito vedete come appare il risultato finale nel foglio Excel.
Per completare la tabella possiamo inserire il totale.
- nella cella I17 scrivere Totale
- nella cella J17 usare il tasto di somma automatica
Σ Premendo questo
tasto equivale a scrivere la funzione =SOMMA(J4:J16) e si ottiene il totale.
Il totale deve essere uguale al numero complessivo di studenti di cui è stata
rilevata la statura, ossia 99.
Rappresentazione della distribuzione di frequenza mediante
istogramma
Impariamo a rappresentare una distribuzione di frequenze mediante un istogramma.
L’istogramma somiglia nel sua aspetto a un diagramma a barre ma si differenza in
modo sostanziale nella definizione concettuale (che avete studiato nel corso di
3
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Statistica). Queste differenze si manifestano anche nella costruzione pratica
dell’istogramma mediante il software Excel. Le principali differenze sono:
1) le colonne (barre) non devono essere separate da spazi vuoti (ossia le
colonne devono essere contigue) perché i dati analizzati sono continui
2) per come abbiamo costruito la distribuzione di frequenza, ogni colonna si
riferisce ad un intervallo (classe) di valori e nella distribuzione è etichettata
con l’estremo superiore. Da un punto di vista grafico questo è scorretto e
quindi nella rappresentazione dobbiamo etichettare ciascuna classe
con il suo valore centrale e non con l’estremo superiore. Quindi
occorre calcolare il valore centrale di ogni classe e porre questo nel grafico.
Vediamo innanzitutto come calcolare il valore centrale delle classi.
- cliccare sull’intestazione della colonna J, ossia proprio dove è scritta la lettera
J (vedrete che si seleziona automaticamente tutta la colonna J). Nella barra dei
comandi cliccare su Inserisci e nel menu che si apre cliccare su Colonne (in
questo modo avete spostato la colonna delle frequenze alla colonna K
lasciando libera la colonna J dove calcolerete i valori centrali)
- nella cella J3 scrivere il titolo Valore centrale
- nella cella J4 scrivere la formula =I4-G7/2
il valore centrale è dato dall’estremo superiore meno la semiampiezza della
classe.
- nella cella J5 scrivere la formula =(I5+I4)/2 (questa è la media tra estremo
superiore e inferiore della classe)
- copiare la formula trascinandola fino alle cella J15
- nella cella J16 scrivere Oltre
Nota: il metodo sopra illustrato per calcolare il valore centrale delle classi vali in
generale (ossia per classi di uguale e di diversa ampiezza).
Se, come nel nostro esempio, le classi sono di uguale ampiezza, i valori centrali delle
classi possono essere calcolati anche più velocemente. Vediamo come:
- nella cella J3 scrivere il titolo Valore centrale
- nella cella J4 scrivere la formula =I4-G$7/2
il valore centrale è dato dall’estremo superiore meno la semiampiezza della
classe.
- Posizionare il cursore nell’angolino in basso a destra della cella J4 in
modo che il cursore stesso diventi una crocetta
- Quando il cursore appare come una crocetta cliccare e tenere premuto
trascinando la formula fino a coprire la cella J15.
- nella cella J16 scrivere Oltre
Produrre l’istogramma delle frequenze (si possono rappresentare le frequenze perché
le classi sono di uguale ampiezza) nelle celle K3:K16 (titolo incluso) usando i valori
centrali come etichette dell’asse X.
- selezionare le celle K3:K16 (includendo nella selezione anche il titolo)
- cliccare sull’icona di creazione guidata del grafico per aprire la prima
finestra di dialogo
Passo 1
- Controllare che la pagina attiva sia Tipi standard
- Tra le opzioni in Tipo di grafico selezionare Istogramma
4
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Selezionare la prima tra le Scelte disponibili nella parte destra della
finestra di dialogo
- Cliccare su Avanti
Passo 2
- Controllare che la pagina attiva sia Intervallo dati
- Confermare nello spazio sotto il grafico che Intervallo dati e Serie siano
in Colonne
- Sempre all’interno della stessa finestra di dialogo cambiare pagina e
passare da Intervallo dati a Serie
- Nella parte in basso di questa finestra cliccare nello spazio bianco posto
accanto alla dicitura Etichette asse categorie (X). Le etichette sono le
modalità del carattere (ossia, nel nostro esempio, i valori in J4:J16)
- per inserire le etichette di X, cliccare sulla freccetta rossa alla destra
dello spazio bianco accanto alla dicitura Etichette asse categorie (X).
- Selezionare le celle J4:J16 e premere Invio
- Cliccare su Avanti
Passo 3
- Sulla pagina Titoli, scrivere il Titolo del grafico (nel nostro esempio
distribuzione di 99 studenti per statura); scrivere il nome
dell’Asse delle categorie (X) (nel nostro esempio Statura); scrivere il
nome dell’Asse dei valori (Y) (nel nostro esempio n° di studenti)
- Sulla pagina Assi, confermare che Asse delle categorie (X) è fissato
su Automatico
- Sulla pagina Griglia, deselezionare tutte i tipi di griglie
- Sulla pagina Legenda, deselezionare l’opzione Mostra legenda
- Sulla pagina Etichette dati, assicurarsi che sia selezionato Assente
- Sulla pagina Tabella dati assicurarsi che Mostra tabella dati non sia
selezionato
- Cliccare su Avanti
Passo 4
- Posiziona il grafico Come oggetto in, ossia nel foglio di lavoro
corrente
- Cliccare su Fine
-
Terminata questa fase, è ancora necessario apportare delle modifiche al grafico in
modo da:
1) eliminare gli spazi vuoti tra le colonne
2) rendere chiara l’associazione tra il segmentino sull’asse orizzontale ed i valori
centrali.
Vediamo come fare.
Innanzitutto, se, quando si seleziona il grafico, la barra degli strumenti per editare il
grafico è ancora aperta chiuderla cliccando sulla piccola x nell’angolo in alto a destra.
Come modificare l’area del grafico
- Cliccare sull’area del tracciato (per fare questo posizionare il cursore
nell’area all’interno degli assi evitando le colonne e poi cliccare)
- Nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare
su Area del tracciato. Si apre una finestra di dialogo chiamata Motivo.
- Tra le opzioni per Bordo, scegliere Assente
- Tra le opzioni per Area scegliere Assente
- Cliccare su OK
5
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Come eliminare lo spazio tra le colonne:
- cliccare su una delle colonne del grafico
- nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare su
Serie dei dati selezionati. Si apre una finestra di dialogo chiamata
Formato serie dati.
- Tra le pagine disponibili in questa finestra scegliere Opzioni.
- Nello spazio destinato a Spazio tra le barre inserire 0
- Cliccare su OK
Sistemazione dei segmentini sull’asse delle X.
- posizionare il cursore sull’asse orizzontale e cliccare
- Nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare
su Asse selezionato. Si apre una finestra di dialogo chiamata.
- Nella pagina Motivo:
1) tra le opzioni per Segno di graduazione principale, scegliere
Interno
2) tra le opzioni per Segno di graduazione secondario, scegliere
Interseca
- nella pagina Allineamento fissare Orientamento a 90°
- Cliccare su OK
Alla fine di questa procedura otterrete il grafico seguente:
Altro
183.88
181.63
179.38
177.13
174.88
172.63
170.38
168.13
165.88
163.63
161.38
16
14
12
10
8
6
4
2
0
159.13
n° studenti
Distribuzione di 99 studenti per statura
Statura
Figura 2
Se non si è soddisfatti del grafico, è possibile anche cambiare la divisione in classi. In
tal caso, è necessario ricostruire ex novo la tabella di frequenza e quindi il grafico.
Le frequenze relative e percentuali
Torniamo alla nostra distribuzione di frequenze. Osserviamo che le frequenze che
abbiamo calcolato usando la funzione FREQUENZA di Excel sono le frequenze
6
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
assolute. A partire da queste è molto semplice calcolare anche le frequenze relative e
le frequenze percentuali. Basta seguire gli stessi passi visti nella nota 1 per il caso dei
caratteri quantitativi discreti.
In sostanza, torniamo quindi al nostro foglio excel. Sappiamo che nella cella K17 si
trova il totale. Quindi non ci resta che calcolare le frequenze relative dividendo ogni
frequenza assoluta per il totale delle osservazioni (ossia 99).
- Nella cella L3 scrivere il titolo Freq. Rel.
- posizionarsi nella cella L4 e scrivere la formula =K4/K$17
- Posizionare il cursore nell’angolino in basso a destra della cella L4 in
modo che il cursore stesso diventi una crocetta
- Quando il cursore appare come una crocetta cliccare e tenere premuto
trascinando la formula fino a coprire la cella L16.
Possiamo controllare di avere eseguito correttamente questo calcolo, facendo la
somma delle frequenze relative. Infatti, sappiamo che questa somma è sempre pari
a uno. A questo scopo
- nella cella L17 usare il tasto di somma automatica Σ . Così si esegue in
automatico il calcolo della funzione =SOMMA(L4:L16) e si ottiene il totale.
Il totale deve essere uguale 1.
Ricordiamo i passaggi per il calcolo delle frequenze percentuali.
- Nella cella M3 scrivere il titolo Freq. %
- posizionarsi nella cella M4 e scrivere la formula =L4*100
-
Posizionare il cursore nell’angolino in basso a destra della cella M4 in
modo che il cursore stesso diventi una crocetta
Quando il cursore appare come una crocetta cliccare e tenere premuto
trascinando la formula fino a coprire la cella M16.
Controllare che l’operazione sia stata bene eseguita calcolando il totale. Ossia
nella cella M17 usare il tasto di somma automatica Σ . Così si esegue in
automatico il calcolo della funzione =SOMMA(M4:M16) e si ottiene il totale.
Il totale deve essere uguale 100.
Costruzione della distribuzione di frequenze e del grafico usando
il comando Istogramma.
Un metodo alternativo per la costruzione di tabelle di frequenze e di istogrammi
consiste nell’uso del comando Istogramma.
Il comando Istogramma fa parte di quegli strumenti di Analisi dei dati che si
rendono disponibili una volta installati cliccando, nella barra dei comandi, su
Strumenti e scegliendo nel menu Componenti aggiuntivi. Una volta cliccato
su componenti aggiuntivi si apre una finestra di dialogo. Controllare che sia
selezionata la casellina relativa a Strumenti di analisi (se è già
selezionata, mantenerla selezionata). Fatto ciò, cliccare su OK.
Anche il comando istogramma si basa sull’uso degli estremi superiori delle classi.
Pertanto gli estremi superiori possono essere ricavati esattamente come visto a
pag.2 della presente nota.
7
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Possiamo quindi fare riferimento ai fini dell’illustrazione di questo metodo alla
lista Estremo superiore statura che si trova nelle celle I3:I15 (titolo incluso).
Vediamo come procedere.
- nella barra dei comandi cliccare su Strumenti
- dal menu che si apre cliccare su Analisi dati
- nella lista degli strumenti di analisi selezionare Istogramma e premere
OK
Si apre una finestra di dialogo in cui occorre inserire una serie di informazioni per
la costruzione della tabella e del grafico:
- per quanto riguarda Intervallo di input, posizionarsi nello spazio bianco
accanto e cliccare sulla freccetta rossa a destra dello spazio bianco.
Selezionare tutte le celle D3:D102 relative alla lista delle stature (titolo
incluso). Premere Invio
- per quanto riguarda Intervallo della classe, posizionarsi nello spazio
bianco accanto e cliccare sulla freccetta rossa a destra dello spazio
bianco. Selezionare tutte le celle I3:I15 relative alla lista degli estremi
superiori delle classi (titolo incluso). Premere Invio
- selezionare la casellina accanto ad Etichette (in questo modo si
esprime che nelle liste di dati fornite nei due passi precedenti sono stati inclusi
anche i titoli)
- inseriamo l’output in un nuovo foglio di lavoro e quindi controlliamo che
sia selezionata l’opzione Nuovo foglio di lavoro
- infine non resta che selezionare l’output grafico desiderato. Ai nostri fini basta
selezionare la casella Grafico in output
- Premere OK.
A differenza dell’istogramma prodotto con il metodo precedente, questo riporta
sull’asse delle X gli estremi superiori delle classi. Per una migliore rappresentazione,
ossia per ottenere un risultato come quello mostrato in Figura 2, è necessario
- sostituire nella tabella di frequenza data in output dal comando
Istogramma i valori degli estremi superiori delle classi con i valori
centrali (nel caso in cui detti valori centrali non siano stati calcolati,
calcolarli usando il metodo visto a pag. 4 di questa nota).
Come fare questa sostituzione.
a) Una volta calcolati i valori centrali (nel nostro esempio consideriamo
quelli nel foglio di lavoro dati nelle celle per J3:J15, titolo incluso)
ricopiarli. Per fare questo occorre selezionare le celle J3:J15 nel
foglio dati, cliccare su Modifica e poi scegliere nel menu Copia.
b) Quanto copiato va poi incollato nel foglio di lavoro dove è l’output del
metodo istogramma (nel nostro esempio abbiamo chiamato questo foglio
metodo “Istogramma”). Passare al foglio di lavoro metodo
“Istogramma”. Cliccare sulla cella A1 (ossia la cella con il titolo
Estremo superiore Statura) quindi cliccare su Modifica e poi scegliere
nel menu Incolla speciale. A questo punto si apre una finestra di
dialogo e nello spazio dedicato a Incolla selezionare Valori. Premere OK.
- Effettuare tutte le modifiche viste a pag. 5 della presente nota per: modificare
l’area del grafico, eliminare lo spazio tra le colonne, sistemare i segmentini
sull’asse delle X.
Osservazione 1: qualunque dei due metodi illustrati venga usato per costruire la
tabella, Excel lavora assumendo implicitamente che ciascuna classe sia aperta a
8
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
sinistra (ossia l’estremo inferiore sia escluso) e sia chiusa a destra (ossia l’estremo
superiore è incluso nella classe).
Osservazione 2: la funzione Istogramma consente anche: 1) di calcolare le frequenze
percentuali cumulate e 2) di costruire la funzione di ripartizione. Per fare questo basta
selezionare nella finestra di dialogo di Istogramma, oltre a Grafico in output, anche
Percentuale cumulativa.
Classi di ampiezza diversa
Quanto illustrato fino ad ora si riferisce al caso di caratteri quantitativi raggruppati in
classi di uguale ampiezza. Consideriamo ora il caso di classi di ampiezza diversa.
Ricordiamo che come valore minimo abbiamo assunto 158cm e come valore massimo
185cm. Prendiamo come estremi superiori i seguenti valori: 162, 165, 167, 169, 171,
173, 175, 177, 179, 182, 185.
- nella cella P3 scrivere il titolo Estremo superiore Statura
- nella cella P4 scrivere l’estremo della prima classe ossia 162 (ossia
l’ampiezza della prima classe è 4).
- nella cella P5 scrivere l’estremo superiore della seconda classe ossia 165
(ossia l’ampiezza della prima classe è 3)
- nella cella P6 scrivere 167 (ossia l’ampiezza della prima classe è 2).
- Procedere nello stesso modo inserendo uno dopo l’altro gli estremi superiori
fino a riempire la cella P14.
Scritte le classi, occorre passare al calcolo delle frequenze ripetendo quanto visto a
pag. 2 della presente nota. Ricapitolando:
- Nella cella Q3 scrivere il titolo Frequenza
- Selezionare le celle Q4:Q15 (ossia selezionare una cella in più di quante sono
le classi)
- Scrivere la formula =FREQUENZA(D4:D102;P4:P14) e premere
contemporaneamente i tasti
Ctrl e Invio.
La lista delle frequenze apparirà nelle celle Q4:Q15.
Excel non consente di effettuare un corretta rappresentazione grafica della
distribuzione con classi diverse. Questo perché non dispone della possibilità di
produrre grafici a colonne di base diversa. Noi potremmo, pertanto, anche calcolare le
densità ma poi non abbiamo lo strumento grafico adeguato.
Limitiamoci a vedere come calcolare le densità. Supponiamo di essere interessati in
particolare al calcolo delle densità relative. Si ricordi che la densità relativa per la
generica classe i è definita come segue:
densità relativa classe i =
freq. rel.classe i
ampiezza classe i
=
freq. ass.classe i
n ⋅ ampiezza classe i
Innanzitutto costruiamo la colonna per l’ampiezza delle classi.
- nella cella R3 scrivere il titolo Ampiezza
- nella cella R4 scrivere l’ampiezza della prima classe. Questa può essere
calcolata usando una formula. Si ricordi che abbiamo fissato pari a 158
l’estremo inferiore potenzialmente osservabile. Allora l’ampiezza della prima
9
Corso di
Statistica Computazionale
-
Prof.ssa Paola Vicard
classe si calcola scrivendo =P4–158 (ossia come differenza tra estremo
superiore ed estremo inferiore della classe)
nella cella R5 scrivere l’ampiezza della seconda classe usando la formula
=P5–P4 (ossia, anche qui, calcolando la differenza tra estremo superiore ed
estremo inferiore della classe)
le ampiezze delle altre classi possono essere calcolate trascinando la formula.
Trascinare la formula scritta nella cella R5 fino a coprire la cella
R14.
Avendo calcolato le ampiezze, possiamo costruire la colonna delle densità. Questo
può essere fatto o calcolando prima la colonna delle frequenze relative e poi le densità
oppure calcolando direttamente la densità.
Dal momento che abbiamo già visto varia volte come calcolare le frequenze relative,
consideriamo la seconda opzione e quindi calcoliamo direttamente le densità2.
- nella cella S3 scrivere il titolo Densità relativa
- nella cella S4 scrivere la formula =Q4/(Q$17*R4). Abbiamo messo il $
davanti al codice di riga di Q17 perché nella cella Q17 si trova il totale.
- Posizionare il cursore nell’angolo in basso a destra di S4 in modo che il
cursore diventi una crocetta. Cliccare e tenere premuto trascinando la
formula fino a coprire la cella S14.
2
Rimane inteso che, qualora si scegliesse la prima opzione, il risultato finale sarebbe lo stesso.
10