Concetti Introduttivi della Statistica - Studium

Concetti Introduttivi della Statistica
Antonio Punzo
Antonio Punzo - Università di Catania, Dipartimento di Economia e Impresa;
[email protected]
Orario delle lezioni: Martedı̀, ore 16:00-18:00, Palazzo Fortuna, Aula D.
Mercoledı̀, ore 18:00-20:00, Palazzo Fortuna, Aula D.
Orario di ricevimento: Venerdı̀ ore 11:00-13:00, Palazzo delle Scienze, 3° piano,
Stanza 24
Testo di riferimento: Zenga, M. (2007), Lezioni di Statistica Descrittiva, Giappichelli
Editore, Torino
Antonio Punzo
Concetti Introduttivi della Statistica
Modalità d’esame
L’esame consiste in un elaborato scritto (tesina) che segua le seguenti modalità:
può essere redatto in italiano o inglese;
gli argomenti del corso (non necessariamente tutti) devono essere applicati ad un
data set reale reperibile, ad esempio, al link:
http://archive.ics.uci.edu/ml/datasets.html
Per le analisi occorre utilizzare il software statistico R che verrà introdotto nella
parte finale del corso.
N.B.
R contiene al suo interno degli interessanti data set.
L’elaborato deve pervenirmi, tramite mail, qualche giorno prima rispetto alla data di
esame (almeno 3 giorni prima). In sede di esame, lo studente è tenuto a:
descrivere l’elaborato prodotto;
rispondere ad eventuali domande che possono vertere sull’intero programma.
Antonio Punzo
Concetti Introduttivi della Statistica
Alcuni termini tecnici propri della statistica
Popolazione
è qualsiasi insieme di elementi che forma oggetto di uno studio statistico.
Unità statistica
è l’elemento di base della popolazione sul quale viene effettuata la rilevazione o la
misurazione di uno o più fenomeni oggetto dell’indagine.
Osservazione
Ad esempio, la famiglia può essere un’unità statistica se si rileva il numero dei suoi
componenti, ma è composta da varie unità statistiche se si misura l’altezza dei suoi
componenti adulti.
Carattere
è il fenomeno oggetto di studio, indicato usualmente con la lettera maiuscola X ,
rilevato o misurato sulle unità statistiche.
E’ tipico dei fenomeni reali di interesse statistico che i caratteri assumano valori
differenti nelle varie unità statistiche.
Modalità
è l’espressione concreta del carattere nelle unità statistiche, cioé il numero (per
caratteri quantitativi) o l’attributo (per caratteri qualitativi) che l’unità statistica
manifesta.
Antonio Punzo
Concetti Introduttivi della Statistica
Il concetto di Popolazione
Dalla definizione precedente si capisce che in statistica il vocabolo “popolazione” ha un
significato più ampio di quello che si usa in demografia. In effetti, in demografia, con il
vocabolo popolazione si intende l’insieme delle persone viventi in un’area geografica
ad una determinata data. Quando si afferma che la popolazione italiana ammontava
(Fonte ISTAT) a 56.996.000 nel 2001, si intende indicare il numero delle persone
residenti in Italia alla data dell’ultimo censimento (21 ottobre 2001).
Esempi di popolazione statistica
In statistica si ha un significato più ampio in quanto le unità statistiche possono essere
di varia natura:
possono essere alberghi se si vuole studiare la struttura alberghiera di una
provincia e si avrà cosı̀, per esempio, la popolazione degli alberghi della provincia
di Catania nell’anno 2014;
possono essere le diverse università italiane se si vuole analizzare la struttura
universitaria italiana e si otterrà cosı̀ la popolazione delle università italiane, ad
esempio, nell’anno accademico 2014-2015.
Osservazione
Assume un ruolo importante il concetto di popolazione nella partizione della statistica
in: statistica descritiva e statistica inferenziale.
Antonio Punzo
Concetti Introduttivi della Statistica
Partizioni della statistica
Esistono due tipi di analisi statistiche (descrittiva ed inferenziale) che si caratterizzano
in base alla tipologia di dati a disposizione.
Statistica descrittiva
La statistica descrittiva si occupa di descrivere con opportuni metodi (procedure) le
caratteristiche più salienti dei fenomeni oggetto di indagine rilevabili sulle singole unità
statistiche. Queste descrizioni non sono altro che processi di sintesi. Le sintesi (indici,
tabelle, grafici, ecc.) si effettuano per avere una maggiore manegevolezza dei dati.
Osservazione
Nella statistica descrittiva i dati rilevati si riferiscono spesso all’intera popolazione di
interesse, per cui il loro studio può esaurire le finalità della ricerca.
Statistica inferenziale
La statistica inferenziale (o induttiva) predispone i metodi “probabilistici” che
permettono di estendere le sintesi campionarie a tutta la popolazione di interesse
(determinazione della numerosità del campione, scelta delle unità della popolazione
che devono far parte del campione, valutazione del grado di attendibilità delle
estensioni delle sintesi, ecc.).
Osservazione
Inferire vuole infatti dire: trarre delle conclusioni logiche “generali” a partire dai dati
disponibili.
Antonio Punzo
Concetti Introduttivi della Statistica
Formazione dei dati statistici 1/5
Per raccogliere i dati bisogna innanzitutto individuare la popolazione di interesse
ovvero le unità statistiche che la compongono. Dalle unità statistiche bisogna formare
(ricavare) i dati statistici.
Avvertenza
Ovviamente non sempre i dati già disponibili sono pienamente soddisfacenti per le
finalità delle “proprie” ricerche.
Esempio
Spesso si utilizzano dati raccolti e pubblicati da vari enti pubblici.
In Italia sono molto importanti le pubblicazioni dell’Istituto Centrale di Statistica, delle
Regioni, di alcuni comuni importanti, di alcuni Ministeri e della Banca d’Italia. Di una
certa importanza per i confronti internazionali sono anche le pubblicazioni dell’Istituto
Europeo di Statistica (Euro-Stat) con sede in Lussemburgo.
Antonio Punzo
Concetti Introduttivi della Statistica
Formazione dei dati statistici 2/5
Dopo aver precisato la popolazione di interesse bisogna determinare i caratteri da
rilevare. In effetti ogni unità statistica concreta è portatrice di molti fenomeni: bisogna
individuare quelli utili all’indagine.
Esempio
Supponiamo che la popolazione di interesse sia costituita dalle matricole iscritte alla
data del 31/10/2013 al corso di Laurea in Economia Aziendale presso l’Università di
Catania. Supponiamo che il numero totale di tali matricole sia N = 407. In questo caso
l’unità statistica è la singola matricola.
Per ciascuna matricola si possono considerare tantissimi caratteri, quali: il sesso, la
regione di nascita, l’età, l’altezza, il peso, il tipo di maturità, il voto all’esame di
maturità, la professione del padre, il reddito della famiglia, il tempo che impiega per
raggiungere l’Università, ecc.
Osservazione
Nel selezionare i caratteri bisogna sempre tenere presente che:
ogni carattere non interessante per la ricerca che venga preso in considerazione,
può appesantire inutilmente la ricerca;
viceversa, un carattere utile che non venga preso in considerazione può inficiare
la ricerca stessa.
Antonio Punzo
Concetti Introduttivi della Statistica
Formazione dei dati statistici 3/5
Dopo aver individuato i caratteri da considerare bisogna prevedere le modalità con le
quali gli stessi si possono presentare. Se consideriamo il carattere “sesso” delle
matricole le modalità sono: maschio e femmina. Se consideriamo il “tipo di maturità” le
modalità sono: liceo classico, liceo scientifico, istituto commerciale, ecc.
Osservazione
Questa semplificazione, cioè la sostituzione delle unità reali con i caratteri e le
modalità prescelte, permette di aggregare le unità aventi le stesse modalità.
Esempio
Tornando alle N = 407 matricole, possiamo considerare le matricole dello stesso
sesso uguali e quindi sommarle ed ottenere, per esempio, 211 maschi e 196 femmine.
È ovvio che due matricole dello stesso sesso possono differire per l’altezza, per il
peso, ecc.
Antonio Punzo
Concetti Introduttivi della Statistica
Formazione dei dati statistici 4/5
Nell’individuare la lista delle modalità di un carattere bisogna fare in modo che
1 le modalità siano fra loro incompatibili;
2 la lista sia esaustiva.
Incompatibilità
La proprietà dell’incompatibilità fra le modalità significa che prese due qualsiasi
modalità l’una deve escludere l’altra, di modo che sarà possibile assegnare
inequivocabilmente una sola modalità ad ogni unità statistica della popolazione.
Esempio
Supponiamo che per il carattere X =“luogo di nascita” delle matricole si sia
predisposta la seguente lista:
1
Comune di Catania
2
Provincia di Catania
3
Altre provincie della Sicilia
4
Altre regioni Italiane
Con questa lista, che non soddisfa la proprietà dell’incompatibilità, una matricola nata
a Catania si vedrebbe assegnata sia la modalità “Comune di Catania” che la modalità
“Provincia di Catania”. La seguente lista soddisfa la proprietà della incompatibilità:
1
Comune di Catania
2
Altri comuni della Provincia di Catania
3
Altre provincie della Sicilia
4
Altre regioni Italiane
Antonio Punzo
Concetti Introduttivi della Statistica
Formazione dei dati statistici 5/5
Esaustività
La proprietà dell’esaustività significa che ad ogni unità del gruppo di rilevazione si
debba poter attribuire una modalità.
Esempio
Supponiamo ora che una matricola sia nata a Tirana (capitale dell’Albania). A questa
matricola non possiamo attribuire nessuna modalità dell’ultima lista, ovvero l’ultima
lista non è esaustiva. Se alla lista precedente aggiungiamo la modalità estero si ha la
seguente lista che soddisfa sia la proprietà dell’esaustività che quella
dell’incompatibilità:
1
Comune di Catania
2
Altri comuni della Provincia di Catania
3
Altre provincie della Sicilia
4
Altre regioni Italiane
5
Estero
Antonio Punzo
Concetti Introduttivi della Statistica
Natura dei caratteri
La tradizione statistica italiana divide i caratteri in
qualitativi: contraddistinti da modalità espresse da categorie, vocaboli,
espressioni verbali, ecc. (ad esempio il sesso, il luogo di nascita ed il
titolo di studio);
quantitativi: contraddistinti da modalità che esprimono delle quantità o misure che
sono espresse numericamente (ad esempio il numero di figli, il peso
ed il reddito). I caratteri quantitativi si dividono a loro volta in:
discreti, caratterizzati dal fatto che le modalità possono
assumere solo un numero finito, o al più numerabile,
di valori (ad esempio il carattere numero di figli).
N.B.: Si parla di modalità al più numerabili quando,
data una modalità, si riesce sempre a stabilire
quella successiva. Trattasi per lo più di caratteri le
cui modalità si ottengono con un conteggio.
continui, caratterizzati dal fatto che le modalità possono
assumere “ipoteticamente” tutti i valori compresi in
un intervallo (a, b), con b > a (ad esempio peso ed
altezza). N.B.: Tali caratteri esistino solo
“ipoteticamente” a causa della precisione degli
strumenti con cui si ottengono le misurazioni.
Antonio Punzo
Concetti Introduttivi della Statistica
Scale di misurazione 1/2
La specificazione delle modalità di un carattere può presentare difficoltà.
Esempio
Si pensi al carattere X : “professione dei residenti con età superiore a 18 anni”.
In molti casi l’insieme delle modalità è suggerito dal linguaggio comune ed è
generalmente accettato. Non mancano situazioni in cui non esiste una specificazione
consolidata. In questi casi è il ricercatore che non solo fissa le categorie (modalità) che
ritiene di aspettarsi ma anche il criterio di appartenenza alle diverse categorie della
lista. Queste situazioni sono molto frequenti nelle scienze sociali.
Esempio
Si pensi alla classe sociale (bassa, media, alta), alla categoria degli esercizi alberghieri
(una stella, due stelle, tre stelle, quattro stelle, cinque stelle).
Quando uno studioso fissa la lista delle modalità di un carattere ed indica i criteri di
appartenenza alle stesse, “costruisce” una scala di misurazione del carattere.
Osservazione
Una lista di modalità (scala) di un carattere non è parte del carattere in quanto
scaturisce dalla definizione operativa della scala stessa. Ciò significa che per uno
stesso carattere si possono individuare più scale.
Esempio
Si pensi al carattere “grandezza” di un terremoto: si utilizzano le modalità sia della
scala Mercalli che della scala Richter. Trattasi di due scale convenzionali che fanno
dipendere le modalità del carattere dagli effetti del terremoto su edifici, strutture, ecc.
Antonio Punzo
Concetti Introduttivi della Statistica
Scale di misurazione 2/2
Le scale di misurazione delle modalità di un carattere – che differiscono per le relazioni
(operazioni) logico-matematiche istituibili fra le modalità – si dividono in:
nominale quando fra le modalità di un carattere qualitativo non è possibile
istituire nessun ordinamento (ad esempio il sesso). Prendendo due
unità statistiche della popolazione è solo possibile affermare se
posseggono o meno la stessa modalità. In questi casi le modalità si
possono scrivere in un ordine qualsiasi.
ordinale quando è possibile istituire un ordine naturale fra le modalità di un
carattere qualitativo (ad esempio il titolo di studio). N.B.: Su tali
modalità non ha senso effettuare differenze e rapporti, ma è solo
possibile impiegare le relazioni di “>”, “<”, “=”.
di intervalli quando le modalità di un carattere quantitativo si posizionano su un
continuum in cui lo zero è convenzionale perché non rappresenta
l’assenza del carattere (ad esempio la temperatura espressa in gradi
Celsius). Su tali modalità ha senso valutare delle differenze,
corrispondenti a lunghezze di intervalli.
di rapporti quando le modalità di un carattere quantitativo si posizionano su un
continuum in cui lo zero è assoluto perché rappresenta l’assenza del
carattere (ad esempio il reddito e la temperatura espressa in gradi
Kelvin). Su tali modalità è possibile effettuare rapporti.
Antonio Punzo
Concetti Introduttivi della Statistica
Osservazione sulle scale ordinali
Esempio
Esempio di carattere qualitativo con scala ordinale è la “categoria alberghiera” che si
estrinseca nelle modalità:
1 stella, 2 stelle, 3 stelle, 4 stelle, 5 stelle.
È ovvio che per la categoria alberghiera:
1 stella < 2 stelle < 3 stelle < 4 stelle < 5 stelle.
N.B.: in questo caso il numero di stelle non indica una quantità ottenuta con una
misurazione e non è quindi possibile affermare che fra gli alberghi a 5 stelle e quelli a 2
stelle vi è la stessa differenza di categoria esistente fra quelli a 4 stelle con quelli a una
stella.
Osservazione
Nelle scale ordinali, anche quando le modalità sono espresse con numeri, non si
possono effettuare sugli stessi le normali operazioni di addizione, sottrazione, divisione
e moltiplicazione. Sulle modalità di due unità è solo possibile impiegare le relazioni:
“maggiore di”, “minore di” ed “uguale a”.
Antonio Punzo
Concetti Introduttivi della Statistica
Scale di intervalli versus scale di rapporti 1/2
Osservazione
Su un carattere quantitativo è possibile alcune volte applicare sia scale di intervalli che
scale di rapporti.
L’esempio classico è la temperatura di un corpo che può essere espressa in gradi
centigradi °C ed in gradi Kelvin K .
Nel caso dei gradi centigradi il valore 0 è convenzionale e corrisponde alla temperatura
del ghiaccio fondente. In effetti temperatura 0 non significa assenza di temperatura,
infatti si possono avere temperature negative: −10°C. Si ha assenza di calore a
-273°C (è lo zero assoluto dei Fisici). Prese due unità statistiche (e le rispettive due
temperature):
1
è possibile affermare innanzitutto se le modalità sono uguali o meno (come nella
scala nominale);
2
se non sono uguali si può indicare quale sia minore dell’altra come nel caso dei
caratteri qualitativi su scala ordinale;
3
è possibile effettuare la differenza fra 2 modalità;
4
siccome lo 0 è convenzionale, non si può fare il rapporto fra due modalità.
Antonio Punzo
Concetti Introduttivi della Statistica
Scale di intervalli versus scale di rapporti 2/2
Si supponga che la temperatura di un corpo A sia di C1 = 30◦ centrigadi e quello di un
corpo B sia di C2 = 60◦ centigradi.
1
È possibile affermare che la differenza fra la temperatura dei due corpi è pari a
C2 − C1 = 30◦ centigradi.
2
Non ha però senso effettuare il rapporto C2 /C1 = 2 ed affermare che la
temperatura di B sia doppia di quella di A.
Per sapere quante volte la temperatura di B contiene quella di A bisogna adottare la
scala con lo zero assoluto cioè la scala Kelvin.
I gradi Kelvin si ottengono aggiungendo 273 ai gradi centigradi. Si ha cosı̀
K1 = 30◦ + 273◦ = 303◦ gradi Kelvin
e
K2 = 60◦ + 273◦ = 333◦ gradi Kelvin.
La differenza fra K2 e K1 è di 30◦ gradi Kelvin, il rapporto
333◦
K2
=
= 1.0990099
K1
303◦
indica che la temperatura di B è circa il 10% più grande di quella di A.
Antonio Punzo
Concetti Introduttivi della Statistica
Gerarchia tra le scale di misurazione
Natura del carattere
%
carattere qualitativo
&
Scala di misurazione
scala nominale
↓
scala ordinale
↓
%
carattere quantitativo
(discreto o continuo)
scala di intervalli
↓
&
scala di rapporti
Antonio Punzo
Concetti Introduttivi della Statistica
La matrice dei dati
Definizione
La matrice dei dati associa, in un pre-determinato ordine, ad ogni unità statistica le
modalità rilevate per ciascun carattere. Generalmente, in una matrice dei dati:
ciascuna riga viene riservata ad una unità statistica;
ciascuna colonna viene riservata ad un carattere.
Date N unità statistiche e p caratteri X1 , X2 , . . . , Xj , . . . , Xp , una matrice dei dati è uno
schema a doppia entrata che in generale si può schematizzare come segue:
Unità
statistica
1
2
..
.
i
..
.
N
X1
x11
x21
..
.
xi1
..
.
xN1
X2
x12
x22
..
.
xi2
..
.
xN2
CARATTERI
...
Xj
...
x1j
...
x2j
..
..
.
.
...
xij
..
.
...
xNj
...
...
...
...
..
.
...
Xp
x1p
x2p
..
.
xip
..
.
xNp
dove xij indica la modalità del carattere Xj riscontrata nella i-esima unità.
0
Il vettore colonna x1j , x2j , . . . , xij , . . . , xNj indica le modalità del carattere Xj
riscontrate nelle N unità.
Il vettore riga xi1 , xi2 , . . . , xij , . . . , xip indica le modalità dei p caratteri riscontrate
nell’i-esima unità statistica.
Antonio Punzo
Concetti Introduttivi della Statistica
Preparazione dei dati e delle tabelle statistiche
A partire dalla matrice dei dati, è preferibile riportare i dati statistici in tabelle.
Le tabelle devono essere redatte in modo che il lettore possa comprendere il
significato dei dati riportati senza dover ricorrere ad altre letture.
È essenziale che la tabella abbia una intestazione che indichi la popolazione (il
campione) di riferimento ed il carattere (o i caratteri) esaminato.
Esempio per carattere qualitativo
Tipo di maturità
Liceo Classico
Liceo Scientifico
Liceo Linguistico
Istituto Tecnico Commerciale
Ragioneria
Geometra
Altro
Totale
Frequenze assolute
113
754
43
82
754
25
31
1802
Table: Studenti iscritti alla graduatoria per l’iscrizione al Corso di Laurea in Economia e
Commercio, secondo il tipo di maturità (Università degli Studi di Milano; A.A. 1995/1996).
Antonio Punzo
Concetti Introduttivi della Statistica
Distribuzione di frequenza 1/3
Definizione
Per distribuzione di frequenza si intende la successione delle modalità di un carattere e
delle corrispettive frequenze riscontrate in una popolazione (o campione). Il vocabolo
“distribuzione” è impiegato perchè la tabella specifica come il totale della popolazione
(o campione) è ripartito (si distribuisce) fra le modalità del carattere.
Distribuzione di frequenza di un carattere qualitativo
La distribuzione di frequenza di un carattere qualitativo è detta mutabile statistica. Una
generica mutabile statistica di un carattere
qualitativo A può essere indicata con il
seguente insieme delle s coppie aj , nj
aj , nj ; j = 1, 2, . . . , s ,
essendo s il numero delle modalità, aj la generica modalità ed nj la frequenza di aj .
Esempio
Titolo di studio
Senza titolo di studio e licenza elementare
Licenza media inferiore
Licenza media superiore
Laurea
Totale
# Maschi
27000
56300
29400
7100
119800
# Femmine
8900
31000
21600
3800
65300
Table: Occupati secondo il sesso ed il titolo di studio in provincia di Trento nell’anno 1990.
Antonio Punzo
Concetti Introduttivi della Statistica
Distribuzione di frequenza 2/3
Distribuzione di frequenza di un carattere quantitativo discreto
La distribuzione di frequenza di un carattere quantitativo è detta variabile statistica. Nel
caso di un carattere quantitativo discreto X la variabile statistica può essere indicata
come segue
xj , nj ; j = 1, 2, . . . , s
essendo x1 , x2 , . . . , xj , . . . , xs i valori diversi assunti dalla variabile statistica X .
Esempio
Numero di
figli maschi
0
1
2
3
4
5
6
7
8
Totale
Numero delle
famiglie (nj )
215
1485
5331
10649
14959
11929
6678
2092
342
53680
Table: Famiglie con 8 figli classificate secondo il numero di figli maschi (Famiglie numerose della
Sassonia 1876-1885).
Antonio Punzo
Concetti Introduttivi della Statistica
Distribuzione di frequenza 3/3
Distribuzione di frequenza di un carattere quantitativo continuo
Se il carattere quantitativo è di tipo continuo i dati, se numerosi, vengono raggruppati in
classi. In questo caso bisogna formare la lista delle classi. Le classi diventano cosı̀ le
modalità del carattere. Consegue che la lista delle classi deve essere esaustiva e le
classi devono essere fra loro incompatibili.
Esempio (l’incompatibilità delle classi è garantita)
Reddito
(migliaia di lire)
0 a
2000
2000 a
3000
3000 a
4000
4000 a
5000
5000 a
6000
6000 a
7000
7000 a
8000
8000 a
9000
9000 a 10000
10000 a 12000
12000 a 15000
oltre 15000
Totale
Frequenze
nj
201
301
373
229
213
244
332
329
337
469
402
581
4011
Table: Distribuzione dei redditi individuali. Indagine campionaria della Banca d’Italia, anno 1982.
Antonio Punzo
Concetti Introduttivi della Statistica
Ampiezza di una classe di un carattere quantitativo continuo
Definizione
Nel caso dei caratteri quantitavi continui per ampiezza di una classe si intende la
lunghezza dell’intervallo della classe ovvero:
ampiezza = estremo superiore − estremo inferiore .
Esempio
La classe 9.000 a 10.000 della distribuzione precedente ha una ampiezza di:
10.000 − 9.000 = 1.000 migliaia di lire,
cioè un milione di lire.
L’ultima classe ha l’estremo superiore non precisato. Si dice che questa classe è
aperta superiormente.
Alcune volte non è indicato l’estremo inferiore della prima classe: si ha cosı̀ una
classe aperta inferiormente.
Antonio Punzo
Concetti Introduttivi della Statistica
Ampiezza di una classe di un carattere quantitativo discreto
Definizione
Nel caso dei caratteri quantitativi discreti per ampiezza di una classe si intende il
numero delle modalità della stessa.
Esempio
Voto
36 − 38
39 − 41
42 − 44
45 − 49
50 − 54
55 − 57
58 − 60
Totale
Frequenze (nj )
40
45
97
115
109
17
32
451
Table: Matricole della Facoltà di Economia classificate secondo il voto di maturità espresso in
sessantesimi (Università degli Studi di Milano; A.A. 1992-1993).
Osservazione
Nel caso di una variabile che assume valori pari ai numeri interi, come nell’esempio
sopra, si ha:
ampiezza = estremo superiore − estremo inferiore + 1.
La classe 45 − 49 comprende i seguenti 5 voti: 45, 46, 47, 48, 49. In effetti l’ampiezza
è pari a 49 − 45 + 1 = 5.
Antonio Punzo
Concetti Introduttivi della Statistica
Osservazioni su numero e ampiezza delle classi
Il numero delle classi e l’ampiezza delle stesse dipendono da tanti fattori.
L’importanza di N
Fra questi ha notevole importanza il numero totale delle osservazioni: all’aumentare
dell’ampiezza totale della popolazione si può aumentare il numero delle classi e quindi
si può ridurre l’ampiezza delle stesse.
Avvertenza
Aumentando l’ampiezza delle classi si perdono informazioni. Viceversa, con ampiezze
piccole si corre il rischio, se la numerosità totale non è elevata, di avere poche
osservazioni in alcune classi. Ad ogni modo si ritiene che anche per numerosità
elevate non bisogna prevedere più di una ventina di classi.
Osservazione
A volte è utile un’ampiezza fissa delle classi ed a volte una variabile.
Esempio
Per molti fenomeni economici, come il reddito, si prevedono ampiezze crescenti al
crescere dei valori del fenomeno.
Avvertenza
Evitare la predisposizione di classi senza frequenze o con frequenze molto piccole.
Antonio Punzo
Concetti Introduttivi della Statistica
Trattamento statistico-matematico dei dati
Con la formazione dei dati statistici si sono ottenute le distribuzioni di frequenza.
Le distribuzioni di frequenza ottenute sintetizzando opportunamente la matrice dei dati
contengono ancora molti dati che risultano poco maneggevoli sia per la descrizione
degli aspetti più significativi dei fenomeni che per i confronti.
È allora molto opportuno procedere ad elaborazioni dei dati che portano alla
determinazione di poche grandezze utili sia per la descrizione degli aspetti più salienti
dei fenomeni che per l’espletamento dei confronti.
Statistica (descrittiva) univariata
I metodi che descrivono gli aspetti più importanti di un solo carattere costituiscono la
statistica (descrittiva) univariata.
Statistica (descrittiva) multivariata
I metodi che analizzano contemporaneamente più caratteri, al fine di mettere in
evidenza eventuali relazioni esistenti fra gli stessi, costituiscono la statistica
(descrittiva) multivariata.
Antonio Punzo
Concetti Introduttivi della Statistica
Frequenze relative
Definizione
La frequenza relativa della modalità aj è fornita dal rapporto fra la sua frequenza
(assoluta) n(aj ) e la frequenza totale n:
n aj
fr aj =
.
n
Si osservi che:
spesso le frequenze relative vengono moltiplicate per 100 e si hanno, cosı̀, le
frequenze relative percentuali.
la frequenza assoluta n(aj ) si indica anche con nj .
le frequenze relative sono calcolabili per ogni tipo di carattere purché si disponga
di una distribuzione di frequenza.
Esempio di distribuzione di frequenza di un generico carattere qualitativo A
A
a1
a2
..
.
aj
..
.
as
Totale
Frequenze
n1
n2
..
.
nj
..
.
ns
n
Frequenze relative
fr (a1 )
fr (a2 )
..
.
fr (aj )
..
.
fr (as )
1
Antonio Punzo
%
fr (a1 ) · 100
fr (a2 ) · 100
..
.
fr (aj ) · 100
..
.
fr (as ) · 100
100
Concetti Introduttivi della Statistica
Proprietà delle frequenze relative
Le frequenze relative godono delle seguenti proprietà:
1 La frequenza relativa è sempre non negativa:
fr aj ≥ 0, per ogni j = 1, 2, . . . , s.
2
La somma delle frequenze relative di una distribuzione è uguale ad uno, cioè
s
X
fr aj = 1.
j=1
Dimostrazione:
1
2
Essendo n(aj ) ≥ 0 ed essendo n > 0, deriva che
La somma delle frequenze assolute
s
X
n(aj )
n
≥ 0.
n aj = n. Pertanto
j=1
s
X
n(aj )
j=1
n
n(a1 ) + · · · + n(aj ) + · · · + n(as )
n
n(aj )
n(a1 )
n(as )
+ ··· +
+ ··· +
n
n
n
fr (a1 ) + · · · + fr (aj ) + · · · + fr (as )
Antonio Punzo
=
1;
=
1;
=
1;
=
1.
Concetti Introduttivi della Statistica
Frequenze relative - Esempio
Nell’immediato dopo guerra molti italiani emigrarono in altri stati europei. Un numero
cospicuo trovò lavoro anche nel “piccolo” stato belga dove costituivano la comunità
straniera più numerosa. La seguente tabella ci permette di valutare, tra l’altro,
l’importanza relativa degli italiani fra gli stranieri residenti in Belgio.
Nazionalità
Residenti
Italiana
Francese
Spagnola
Olandese
Tedesca
Greca
Turca
Polacca
Britannica
Altra europea
Marocchina
Americana
Altre nazionalità
Totale
249490
86658
67534
61261
22956
22354
20312
18370
15340
37020
39294
12676
43017
696282
Frequenze relative
%
0.3583
35.83
0.1245
12.45
0.0970
9.70
0.0880
8.80
0.0330
3.30
0.0321
3.21
0.0292
2.92
0.0264
2.64
0.0220
2.20
0.0532
5.32
0.0564
5.64
0.0182
1.82
0.0617
6.17
1.0000
100.00
Table: Popolazione straniera residente in Belgio, nel 1970, secondo la nazionalità (Censimento
della popolazione del 1970, I.N.S.).
Antonio Punzo
Concetti Introduttivi della Statistica
Frequenze cumulate
Osservazione
Le frequenze relative si possono ricavare per ogni tipo di carattere. Le frequenze
cumulate, invece, si possono ricavare solo per i caratteri quantitativi e per quelli
qualitativi su scala ordinale.
Supponiamo che le modalità siano ordinate in senso crescente, ovvero
b1 ≤ b2 ≤ · · · ≤ bj ≤ · · · ≤ bs .
Definizione
La frequenza cumulata Cj in corrispondenza della modalità bj è fornita dalla somma:
j
X
ni = n1 + n2 + · · · + nj .
C bj = Cj =
i=1
Ovviamente C1 = n1 e Cs = n.
Interpretazione
Il valore Cj fornisce il numero di unità statistiche con modalità inferiore o uguale a bj (si
dice anche con modalità al più uguale a bj ).
Antonio Punzo
Concetti Introduttivi della Statistica
Frequenze cumulate - Schema
Frequenze cumulate relative
Dividendo per n le frequenze cumulate si ottengono le frequenze cumulate relative
Fj =
Cj
n
.
Dato che Cs = n, si ha Fs = 1.
B
b1
b2
..
.
bj
..
.
bs
Totale
Frequenze
n1
n2
..
.
nj
..
.
ns
n
Frequenze
cumulate
C1
C2
..
.
Cj
..
.
Cs
Frequenze cumulate
relative
%
F1
F1 · 100
F2
F2 · 100
..
..
.
.
Fj
Fj · 100
..
..
.
.
Fs
Fs · 100
Table: Distribuzione di frequenza di un carattere qualitativo B su scala ordinale.
Antonio Punzo
Concetti Introduttivi della Statistica
Frequenze retrocumulate
Spesso è utile per i caratteri su scala almeno ordinale ricavare le frequenze
retrocumulate Rj .
Definizione
La frequenza retrocumulata Rj in corrispondenza della modalità bj è fornita dalla
somma:
s
X
R bj = Rj =
ni = nj + nj+1 + · · · + ns .
i=j
Ovviamente R1 = n e Rs = ns .
Interpretazione
Il valore Rj fornisce il numero di unità statistiche con modalità maggiore o uguale a
(almeno pari a) bj .
Frequenze retrocumulate relative
Dividendo per n le frequenze retrocumulate si ottengono le frequenze retrocumulate
relative
Rj
Fj =
.
n
Dato che R1 = n, si ha F 1 = 1.
Antonio Punzo
Concetti Introduttivi della Statistica
Frequenze cumulate e retrocumulate - Esempio
Numero di
stelle
1
2
3
4
5
Totale
Numero di
esercizi
nj
299
78
123
52
8
560
Frequenze cumulate
relative
%
Cj
Fj
Fj · 100
299
0.5339
53.39
377
0.6732
67.32
500
0.8928
89.28
552
0.9857
98.57
560
1.0000
100.00
Frequenze retrocumulate
relative
%
Rj
Fj
F j · 100
560
1.0000
100.00
261
0.4661
46.61
183
0.3268
32.68
60
0.1071
10.71
8
0.0143
1.43
Table: Frequenze cumulate degli esercizi alberghieri secondo la categoria (Prov. Milano 1988).
La tabella informa, fra l’altro:
che gli esercizi alberghieri di categoria inferiore o uguale a 2 stelle
rappresentavano il 67.32% del numero totale degli esercizi alberghieri della
Provincia di Milano nel 1988;
che gli esercizi alberghieri con almeno 4 stelle erano il 10.71% degli esercizi totali.
Antonio Punzo
Concetti Introduttivi della Statistica
Interpretazione delle frequenze (retro)cumulate per dati in classi
Classi di
età
0`5
5 ` 10
10 ` 15
15 ` 20
20 ` 25
25 ` 30
30 ` 35
35 ` 40
40 ` 45
45 ` 50
50 ` 55
55 ` 60
60 ` 65
65 ` 70
70 ` 75
75 ` 80
80 ` 85
85 ` 90
90+
Totale
Numero di
morti
146
188
277
1254
1003
641
490
444
519
571
630
680
631
657
748
626
307
128
28
9968
Frequenze cumulate
Cj
%
146
1.5
334
3.4
611
6.1
1865
18.7
2868
28.8
3509
35.2
3999
40.1
4443
44.6
4962
49.8
5533
55.5
6163
61.8
6843
68.6
7474
75.0
8131
81.6
8879
89.1
9505
95.4
9812
98.4
9940
99.7
9968
100.0
Frequenze retrocumulate
Rj
%
9968
100.00
9822
98.53
9634
96.65
9357
93.87
8103
81.29
7100
71.23
6459
64.80
5969
59.88
5525
55.43
5006
50.22
4435
44.49
3805
38.17
3125
31.35
2494
25.02
1837
18.43
1089
10.92
463
4.64
156
1.57
28
0.28
Table: Morti per incidenti stradali per classi di età (Italia, 1982).
In corrispondenza della classe 15 ` 20:
si ha una frequenza cumulata pari a 1865: questa cifra informa che vi furono 1865
morti per incidenti stradali con età inferiore a 20 anni. N.B.: Le frequenze
cumulate fanno quindi riferimento agli estremi superiori delle classi.
si ha una frequenza retrocumulata pari a 9357; cioè vi furono 9357 morti per
incidenti stradali con età maggiore o uguale a 15 anni. N.B.: Le frequenze
retrocumulate fanno quindi riferimento agli estremi inferiori delle classi.
Punzo dei morti
Concetti aveva
Introduttiviun’et
della Statistica
La tabella informa, tra l’altro, cheAntonio
il 49.8%
à inferiore ai 45 anni.
Frequenze specifiche
Importante!
Le frequenze specifiche si determinano in presenza di dati raggruppati in classi.
Definizione
La frequenza specifica fs di una classe è fornita dal rapporto:
fs =
frequenza della classe
frequenza della classe
=
.
ampiezza della classe
∆j
Se al numeratore si considera la frequenza
assoluta si ottiene la frequenza specifica assoluta;
relativa si ottiene la frequenza specifica relativa.
Interpretazione
La frequenza specifica è un rapporto di densità indicante la frequenza che spetta:
ad una modalità della classe, nel caso di caratteri discreti;
ad un intervallo unitario della classe, nel caso di caratteri continui.
Per confrontare l’addensamento di due classi di una distribuzione non è possibile
impiegare le frequenze (assolute) delle due classi perchè il loro valore dipende anche
dall’ampiezza delle classi che può essere differente. Le frequenze specifiche, invece,
sono confrontabili perché sono frequenze che fanno riferimento ad una modalità (per
caratteri discreti) o ad un intervallo unitario (per caratteri continui).
Antonio Punzo
Concetti Introduttivi della Statistica
Frequenze specifiche - Esempio 1
Numero di
camere
7−8
9 − 10
11 − 13
14 − 16
17 − 20
21 − 24
25 − 29
30 − 39
40 − 49
50 − 59
Totale
Frequenza
Ampiezza
27
39
50
30
28
10
14
8
3
3
212
2
2
3
3
4
4
5
10
10
10
Frequenza
specifica
13.5
19.5
16.6
10.0
7.0
2.5
2.8
0.8
0.3
0.3
Table: Esercizi alberghieri ad una stella del comune di Milano classificati secondo il numero di
camere (anno 1988; Primo Rapporto sul turismo a Milano. CERIT-CAMERA DI COMMERCIO,
1989, Milano).
Le frequenze assolute riportate nella seconda colonna non sono idonee ad un
immediato utilizzo perché sul loro valore incide anche l’ampiezza delle classi che non è
costante. La frequenza assoluta più elevata si ha nella classe 11 − 13, ma ciò non
significa che in questa classe vi sia l’addensamento più elevato.
Interpretazione
La frequenza specifica nella classe 17 − 20, pari a 7, indica che a ciascuna delle 4
modalità 17, 18, 19 e 20 camere spetta una frequenza di 7 esercizi alberghieri.
Antonio Punzo
Concetti Introduttivi della Statistica
Frequenze specifiche - Esempio 2
Altezza
cm
160 a 165
165 a 170
170 a 180
180 a 190
190 a 195
195 a 200
Totale
Frequenza
Ampiezza
cm
10
25
45
35
13
2
130
5
5
10
10
5
5
Frequenza
specifica
2.0
5.0
4.5
3.5
2.6
0.4
Frequenze
cumulate
10
35
80
115
128
130
Table: Allievi di una scuola calcistica di Milano classificati secondo l’altezza.
Interpretazione
La frequenza specifica riportata nella quarta colonna indica il numero di allievi per un
intervallo di 1 cm di altezza.
L’addensamento più elevato si ha nella classe 165 a 170 dove si hanno 5 allievi per
ogni intervallo di 1 cm.
Antonio Punzo
Concetti Introduttivi della Statistica
Rappresentazione grafica per caratteri quantitativi discreti
Diagramma a barre
La rappresentazione grafica delle frequenze assolute della distribuzione di frequenza
xj , nj ; j = 1, 2, . . . , s
si ottiene riportando in ascissa i valori xj ed in corrispondenza di essi si tracciano delle
ordinate con lunghezza proporzionale alle frequenze assolute nj .
Il grafico
delle frequenze relative si ottiene ponendo in ordinata le frequenze relative
fr xj .
Tali rappresentazioni grafiche vengono dette diagrammi a barre.
Rappresentazione grafica delle frequenze cumulate
La rappresentazione grafica delle frequenze cumulate Cj (frequenze cumulate relative
F ) si ottiene riportando dei segmenti orizzontali che, in corrispondenza dell’intervallo
j
xj , xj+1 , hanno altezza proporzionale alla frequenza Cj (alla frequenza Fj ).
Antonio Punzo
Concetti Introduttivi della Statistica
Esempio 1/2
Voto
18
19
20
21
22
23
24
25
26
27
28
29
30
Totale
Numero di
studenti
Frequenze
cumulate (Cj )
11
10
15
20
30
25
20
15
12
9
6
3
4
180
Frequenze
relative (fj )
11
21
36
56
86
111
131
146
158
167
173
176
180
0.061
0.055
0.083
0.111
0.167
0.139
0.111
0.083
0.067
0.050
0.033
0.017
0.022
Frequenze
relative
cumulate (Fj )
0.061
0.117
0.200
0.311
0.478
0.617
0.728
0.811
0.878
0.928
0.961
0.978
1.000
Table: Voti conseguiti da un gruppo di n = 180 studenti ad un esame di statistica.
Antonio Punzo
Concetti Introduttivi della Statistica
Esempio 2/2
Figure: Grafico delle frequenze assolute nj e delle frequenze relative fr xj .
Figure: Grafico delle frequenzeAntonio
cumulate
frequenze
cumulate
Punzo Cj e delle
Concetti
Introduttivi della
Statistica relative F xj .
Rappresentazione grafica per caratteri quantitativi discreti in classi
Diagramma a pettine
Nel caso in cui i dati siano raggruppati in classi, la rappresentazione grafica delle
frequenze assolute avviene ponendo in corrispondenza di ciascuna modalità, di una
stessa classe, un’ordinata con lunghezza proporzionale alla corrispondente frequenza
specifica. Tali rappresentazione grafica viene detta diagramma a pettine.
Classi di
voto
18 − 20
21 − 22
23 − 24
25 − 27
28 − 30
Totale
Numero di
studenti
36
50
45
36
13
180
Ampiezza
delle classi
3
2
2
3
3
Frequenza
specifica
12.0
25.0
22.5
12.0
4.3̄
Table: Voti conseguiti ad un esame di statistica da 180 studenti (dati raggruppati in classi).
Antonio
Punzo
Concetti
Introduttivi della
Figure: Grafico
delle
frequenze
specifiche
fs Statistica
xj .
Rappresentazione grafica per caratteri quantitativi continui
Istogramma
La rappresentazione grafica della distribuzione delle frequenze assolute (o relative),
detta istogramma, viene effettuata con i grafici areali che si ottengono rappresentando
la frequenza nj (o fj ) di una classe con l’area di un rettangolo avente per base
l’ampiezza della classe e per altezza la frequenza specifica assoluta (o relativa).
Si vuole che
Frequenza assoluta = area rettangolo.
Dal fatto che
Area rettangolo = base × altezza
Quindi
Altezza =
→
Altezza =
Area rettangolo
.
base
frequenza assoluta
= frequenza specifica assoluta.
ampiezza
Antonio Punzo
Concetti Introduttivi della Statistica
Rappresentazione grafica per caratteri quantitativi continui - Esempio
Altezza
cm
160 a 165
165 a 170
170 a 180
180 a 190
190 a 195
195 a 200
Totale
Frequenza
10
25
45
35
13
2
130
Ampiezza
cm
5
5
10
10
5
5
Frequenza
specifica
2.0
5.0
4.5
3.5
2.6
0.4
Frequenze
cumulate
10
35
80
115
128
130
Table: Allievi di una scuola calcistica di Milano classificati secondo l’altezza.
Figure: Grafico delle frequenze
(istogramma)
della
distribuzione
delle altezze.
Antonio Punzo
Concetti
Introduttivi
della Statistica
Rappresentazione grafica per caratteri quantitativi continui
Osservazione
Dalla convenzione che, nei grafici areali le frequenze assolute di una classe sono pari
all’area del corrispondente rettangolo, deriva che l’area compresa fra due ascisse di un
intervallo è pari alla frequenza dei valori compresi fra queste ascisse.
Consideriamo l’intervallo j-esimo i cui estremi sono xj−1 e xj . Sia x un valore
compreso fra gli estremi. L’area sottesa al grafico e compresa fra xj−1 e x è pari a:
(x − xj−1 ) · fsj = (x − xj−1 ) ·
nj
(xj − xj−1 )
=
(x − xj−1 )
(xj − xj−1 )
· nj .
Essendo il rapporto
(x − xj−1 )
(xj − xj−1 )
una frazione compresa fra 0 e 1, il suo prodotto per nj indica la frequenza che spetta
all’intervallo x − xj−1 . Questa frequenza è pari a 0 per x = xj−1 ed è pari ad nj per
x = xj . La frequenza dell’intervallo varia linearmente con x.
Antonio Punzo
Concetti Introduttivi della Statistica
Rappresentazione grafica per caratteri quantitativi continui - Esempio
Quesito
Si valuti la frequenza degli allievi calciatori con altezza compresa fra 170 e 176 cm.
Dalla relazione:
n (170 < X ≤ 176) : n (170 < X ≤ 180) = (176 − 170) : (180 − 170)
da cui
(176 − 170)
· n (170 < X ≤ 180)
(180 − 170)
6
=
· 45 = 27.
10
La frequenza 27 corrisponde all’area tratteggiata della seguente figura
n (170 < X ≤ 176)
=
Figure: Grafico delle
frequenze
della
distribuzione
delle
altezze.
Antonio
Punzo
Concetti
Introduttivi della
Statistica
Grafico delle freq. cumulate per caratteri quantitativi continui
Osservazione
Da quanto sino ad ora precisato deriva che l’area compresa fra le altezza 160 cm e
176 cm fornisce il numero di calciatori con altezza da 160 cm a 176 cm, ovvero con
altezza inferiore o uguale a 176 cm. Questa frequenza è una valutazione della
frequenza cumulata in corrispondenza di x = 176 cm.
Relazione tra i grafici delle freq. assolute e freq. cumulate assolute
Per i caratteri quantitativi continui, la frequenza cumulata in corrispondenza di un
valore x è fornita dall’area sottesa all’istogramma alla sinistra di x.
Osservazione
Per i valori di x coincidenti con gli estremi superiori delle classi queste aree non sono
altro che i valori di Cj .
Per tracciare il grafico delle frequenze cumulate C(x) di un carattere continuo bisogna
innanzitutto riportare in ascissa i limiti delle classi. Quindi si riportano in ordinata i
corrispettivi valori C(x) e si congiungono i punti cosı̀ ottenuti con segmenti di retta.
Antonio Punzo
Concetti Introduttivi della Statistica
Grafico delle freq. cumulate per caratteri quantitativi continui - Esempio
Figure: Grafico delle frequenze cumulate C(x) delle altezze dei 130 allievi di una scuola calcistica.
L’ordinata in corrispondenza di x = 176 è pari a 35 + 27 = 62
⇒
C (176) = 62.
Osservazione
L’inclinazione del segmento che unisce i due punti successivi che si hanno in
corrispondenza degli estremi di una classe fornisce la frequenza specifica della classe.
Antonio Punzo
Concetti Introduttivi della Statistica
Rappresentazioni grafiche - Caratteri qualitativi 1/3
Partiamo da questa tabella:
Categorie e tipi di Esercizio
Alberghi di 5 stelle e 5 stelle lusso
Alberghi di 4 stelle
Alberghi di 3 stelle
Alberghi di 2 stelle
Alberghi di 1 stella
Residenze turistico alberghiere
Totale Esercizi Alberghieri
Numero (nj )
164
3036
13377
8852
6146
1836
33411
Table: Capacità degli alberghi per categoria nel 2002.
Antonio Punzo
Concetti Introduttivi della Statistica
Rappresentazioni grafiche - Caratteri qualitativi 2/3
Diagramma a torta (o a settori circolari)
a ciascuna modalità xj si associa una fetta, cioé un settore circolare, avente area pari
alla sua frequenza relativa fj o alla frequenza assoluta nj .
Antonio Punzo
Concetti Introduttivi della Statistica
Rappresentazioni grafiche - Caratteri qualitativi 3/3
Diagramma a barre
a ciascuna modalità xj si associa un rettangolo avente base costante ed altezza pari
alla frequenza relativa fj o alla frequanza assoluta nj .
Antonio Punzo
Concetti Introduttivi della Statistica
Rappresentazioni grafiche - Schematizzazione
Natura del carattere
Scala di misurazione
Raggruppamento
in classi
Rappresentazione
grafica
Qualitativo
nominale
-
diagramma a torta
(preferibile)
diagramma a barre
Qualitativo
ordinale
-
diagramma a torta
diagramma a barre
(preferibile)
Quantitativo discreto
ininfluente
No
diagramma a barre
Quantitativo discreto
ininfluente
Si
diagramma a pettine
Quantitativo continuo
ininfluente
Si
istogramma
Osservazione per dati raggruppati in classi
Se il carattere è ripartito in classi, sull’asse delle ordinate vanno considerate le
frequenze specifiche fsj .
Antonio Punzo
Concetti Introduttivi della Statistica
Esempio riassuntivo
Si consideri la seguente matrice dei dati relativa ad un indagine su n = 20 famiglie che
considera p = 6 variabili:
numero
d’ordine
della
famiglia
u1
u2
u3
u4
u5
u6
u7
u8
u9
u10
u11
u12
u13
u14
u15
u16
u17
u18
u19
u20
Settore di attività
economica del
capofamiglia
(da codificare)
Industria
Industria
Agricoltura
Industria
Altra Attività
Industria
Industria
Industria
Agricoltura
Agricoltura
Industria
Altra Attività
Altra Attività
Agricoltura
Altra Attività
Industria
Industria
Altra Attività
Industria
Industria
Titolo di
godimento
dell’abitazione
(da codificare)
Affitto
Affitto
Proprietà
Proprietà
Proprietà
Affitto
Altro titolo
Affitto
Proprietà
Proprietà
Proprietà
Affitto
Altro titolo
Affitto
Proprietà
Proprietà
Affitto
Affitto
Proprietà
Proprietà
Antonio Punzo
Titolo di
studio del
capofamiglia
(da codificare)
Diploma
Laurea
Licenza Media
Diploma
Laurea
Licenza Media
Licenza Media
Diploma
Senza titolo
Licenza Media
Licenza Media
Laurea
Diploma
Laurea
Laurea
Laurea
Laurea
Licenza Elem.
Licenza Media
Diploma
Numero
di figli
Reddito
annuo lordo
(euro)
Età del
capofamiglia
(discretizzato)
3
2
3
1
0
2
3
4
5
1
1
1
2
2
2
0
1
3
5
0
19841
18830
15971
17361
23426
17220
17540
16980
15340
18270
30733
28760
25320
19221
27320
23420
20280
27531
18330
19750
29
29
26
31
60
30
30
45
69
56
50
55
52
57
65
59
48
59
46
48
Concetti Introduttivi della Statistica
Esempio riassuntivo - analisi preliminare
Osservazione
La popolazione di riferimento è costituita da tutte le famiglie di interesse di cui le
n = 20 prese in esame rappresentano il campione osservato. Ciascuna famiglia
rappresenta quindi un’unità statistica.
Carattere
Modalità
Tipo di
Carattere
Scala di
Misurazione
Settore di attività
del capofamiglia
Industria
Agricoltura
Altra Attività
Qualitativo
Nominale
Titolo di godimento
dell’abitazione
Affitto
Proprietà
Altro titolo
Qualitativo
Nominale
Titolo di studio
del capofamiglia
Senza titolo
Licenza elementare
Licenza media
Diploma
Laurea
Qualitativo
Ordinale
Numero di figli
{0, 1, 2, 3, 4, 5}
Quantitativo
discreto
Scala di rapporti
Reddito annuo lordo
(in euro)
[15000, 33000]
Quantitativo
continuo
Scala di rapporti
Età del capofamiglia
(in anni compiuti)
{25, 26, . . . , 70}
Quantitativo
discreto
Scala di rapporti
Antonio Punzo
Concetti Introduttivi della Statistica
Esempio riassuntivo - Quesito 1
Domanda
Predisporre le tabelle delle frequenze assolute, relative, cumulate e retrocumulate (se
possibile) di ogni carattere individuato al punto precedente.
Effettuare la rappresentazione grafica delle frequenze assolute e relative di ogni
carattere.
Antonio Punzo
Concetti Introduttivi della Statistica
Quesito 1 - X =“Settore di attività del capofamiglia”
Settore di attività
del capofamiglia
Agricoltura
Industria
Altra Attività
Totale
nj = freq. assolute
4
11
5
20
fj =
nj
= freq. relative
n
0.2
0.55
0.25
1
Non ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di
misurazione del carattere è nominale.
frequenze assolute
frequenze relative
Antonio Punzo
Diagramma a torta
Concetti Introduttivi della Statistica
Quesito 1 - X =“Titolo di godimento dell’abitazione”
Titolo di godimento
dell’abitazione
Affitto
Proprietà
Altro Titolo
Totale
nj = freq. assolute
8
10
2
20
fj =
nj
= freq. relative
n
0.4
0.5
0.1
1
Non ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di
misurazione del carattere è nominale.
frequenze assolute
frequenze relative
Antonio Punzo
Diagramma a torta
Concetti Introduttivi della Statistica
Quesito 1 - X =“Titolo di studio del capofamiglia”
Titolo di studio
del capofamiglia
Senza Titolo
Licenza elementare
Licenza media
Diploma
Laurea
Totale
nj
1
1
6
5
7
20
nj
n
0.05
0.05
0.3
0.25
0.35
1
fj =
Cj = freq. cumulate
Rj = freq. retrocumulate
1
2
8
13
20
20
19
18
12
7
frequenze assolute
frequenze relative
Antonio Punzo
Concetti Introduttivi della Statistica
Quesito 1 - X =“Numero di figli”
Numero di figli
nj
0
1
2
3
4
5
Totale
3
5
5
4
1
2
20
nj
n
0.15
0.25
0.25
0.20
0.05
0.10
1
fj =
Cj = freq. cumulate
Rj = freq. retrocumulate
3
8
13
17
18
20
20
17
12
7
3
2
frequenze relative
frequenze assolute
Antonio Punzo
Concetti Introduttivi della Statistica
Quesito 1 - X =“Reddito annuo lordo (in Euro)”
Un modo possibile per raggruppare il carattere in classi, cercando di equilibrare le
frequenze delle classi, è il seguente:
Reddito annuo lordo
(in euro)
fino a 17000
17000 a 18500
18500 a 20000
20000 a 26000
oltre 26000
Totale
nj = freq. assolute
3
5
4
4
4
20
nj
= freq. relative
n
0.15
0.25
0.20
0.20
0.20
1
Per rappresentare graficamente il carattere “Reddito annuo lordo” è necessario
calcolare le frequenze specifiche (fsj ) e quindi si ha bisogno dell’ampiezza ∆j di
ciascuna classe: per calcolare tale ampiezza, nella tabella seguente, si è ritenuto
opportuno “chiudere” la prima classe a 15000 e l’ultima a 33000.
Reddito annuo lordo
(in euro)
15000 a 17000
17000 a 18500
18500 a 20000
20000 a 26000
26000 a 33000
∆j = ampiezza della classe
2000
1500
1500
6000
7000
Antonio Punzo
fsj =
nj
= freq. specifiche
∆j
0.0015
0.003̄
0.0026̄
0.0006̄
0.00057
Concetti Introduttivi della Statistica
frequenze assolute
Ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di
misurazione del carattere è una scala di rapporti.
Reddito annuo lordo
(in euro)
15000 a 17000
17000 a 18500
18500 a 20000
20000 a 26000
26000 a 33000
Cj = freq. cumulate
Rj = freq. retrocumulate
3
8
12
16
20
20
17
12
8
4
La seconda frequenza cumulata (8) significa che 8 famiglie, tra le 20 considerate,
hanno un reddito annuo lordo minore o uguale (quindi non superiore) a 18500
euro.
La seconda frequenza retrocumulata (17) significa che 17 famiglie, tra le 20
considerate, hanno un reddito annuo lordo maggiore di 17000 euro.
Antonio Punzo
Concetti Introduttivi della Statistica
Quesito 1 - X =“Età del capofamiglia”
Un modo possibile per raggruppare il carattere in classi è il seguente:
Età del
capofamiglia
fino a 30
31 − 49
50 − 55
56 − 60
61 e oltre
Totale
nj = freq. assolute
5
5
3
5
2
20
nj
= freq. relative
n
0.25
0.25
0.15
0.25
0.1
1
Per rappresentare graficamente il carattere “Età del capofamiglia” è necessario andare
a calcolare le frequenze specifiche (fsj ) e quindi si ha bisogno dell’ampiezza di
ciascuna classe: per calcolare tale ampiezza, nella tabella seguente, si è ritenuto
opportuno “chiudere” la prima classe a 26 e l’ultima a 70.
Età del
capofamiglia
26 − 30
31 − 49
50 − 55
56 − 60
61 − 70
∆j = Ampiezza della classe
5
19
6
5
10
Antonio Punzo
fsj =
nj
= freq. specifiche
∆j
1
0.263
0.5
1
0.2
Concetti Introduttivi della Statistica
frequenze assolute
Ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di
misurazione del carattere è una scala di rapporti.
Età del
capofamiglia
26 − 30
31 − 49
50 − 55
56 − 60
61 − 70
Cj = freq. cumulate
Rj = freq. retrocumulate
5
10
13
18
20
20
15
10
7
2
La quarta frequenza cumulata (18) significa che 18 famiglie, tra le 20 considerate,
hanno un capofamiglia con un’età minore o uguale (quindi non superiore) a 60
anni.
La quarta frequenza retrocumulata (7) significa che 7 famiglie, tra le 20
considerate, hanno un capofamiglia con un’età maggiore o uguale (quindi non
inferiore) a 56 anni.
Antonio Punzo
Concetti Introduttivi della Statistica
Esempio riassuntivo - Quesito 2
Domanda
Con riferimento al carattere “numero dei figli”:
a) predisporre la tabella delle frequenze assolute, relative e specifiche supponendo
di riclassificare il carattere nelle classi ”fino ad 1”, 2 `a 4 e ”5 e oltre” ;
b) per la distribuzione calcolata al punto a) effettuare la rappresentazione grafica
delle frequenze assolute e relative;
c) dedurre la percentuale di famiglie con almeno 3 figli e con al più 3 figli per la
distribuzione originaria e per la distribuzione riclassificata individuata al punto a).
Antonio Punzo
Concetti Introduttivi della Statistica
Quesito 2 - punto a)
Riclassificando il carattere “numero di figli”, come indicato, otteniamo la seguente
tabella:
Numero di figli
nj = freq. assolute
fino a 1
2−4
5 e oltre
Totale
8
10
2
20
nj
= freq. relative
n
0.4
0.5
0.1
1
Si calcolano ora le ampiezze delle classi, le frequenze specifiche assolute e le
frequenze specifiche relative, dopo aver specificato gli estremi della prima e dell’ultima
classe in modo da avere rispettivamente 0 − 1 e 5 − 6.
Numero di figli
Ampiezza della classe
0 − 1 = {0, 1}
2 − 4 = {2, 3, 4}
5 − 6 = {5, 6}
2
3
2
Antonio Punzo
freq. specifiche
assolute
4
3.3̄
1
freq. specifiche
relative
0.2
0.16̄
0.05
Concetti Introduttivi della Statistica
Quesito 2 - punto b)
Nelle figure che seguono sono rappresentate, rispettivamente, le frequenze assolute e
le frequenze relative del carattere in esame.
frequenze assolute
frequenze relative
Antonio Punzo
Concetti Introduttivi della Statistica
Quesito 2 - punto c)
Considerando il carattere raggruppato in classi, per calcolare la % di famiglie con
almeno 3 figli, basta sommare le lunghezze delle aste, nel grafico delle frequenze
relative, in corrispondenza dei valori maggiori o uguali a 3 e poi moltiplicare per 100:
0.16̄ + 0.16̄ + 0.05 + 0.05 = 0.43̄
=⇒
43.3̄%.
Se invece non si considera il raggruppamento in classi, sommando le lunghezze delle
aste in corrispondenza dei valori maggiori o uguali a 3 e moltiplicando per 100,
otteniamo:
0.20 + 0.05 + 0.10 = 0.35 =⇒ 35%.
Per calcolare invece la % di famiglie con al più 3 figli, dovremo sommare le lunghezze
delle aste in corrispondenza dei valori minori o uguali a 3, nel grafico delle frequenze
relative, e poi moltiplicare per 100. Considerando il carattere raggruppato in classi si
ha:
0.2 + 0.2 + 0.16̄ + 0.16̄ = 0.73̄ =⇒ 73.3̄%
mentre, se si considera il carattere non raggruppato in classi, si ha:
0.15 + 0.25 + 0.25 + 0.20 = 0.85
Antonio Punzo
=⇒
85%.
Concetti Introduttivi della Statistica