CONSIDERAZIONI PRELIMINARI SULLA STATISTICA
La Statistica trae i suoi risultati dall’osservazione dei fenomeni che ci circondano. Gli stessi
fenomeni per essere oggetto di “statistica” devono essere adeguatamente numerosi in
modo tale che si possa cogliere una regolarità di comportamento; molto spesso si parla di
fenomeno collettivo o di collettivo statistico.
In linea generale la Statistica può essere scissa in due tronconi fondamentali, la Statistica
descrittiva e la Statistica inferenziale.
La prima, chiamata anche deduttiva, si basa sull’osservazione reale dei fenomeni collettivi
prendendo a riferimento tutti gli elementi del collettivo di origine soggetto ad osservazione,
la cosiddetta POPOLAZIONE e dalla realtà osservata vengono espressi i relativi giudizi .
La seconda, chiamata anche induttiva, si basa sull’osservazione sì reale dei fenomeni
collettivi prendendo a riferimento però solo una parte degli elementi del collettivo di origine
, il cosiddetto CAMPIONE; i risultati ottenuti, attraverso tecniche alquanto sofisticate,
permettono di risalire induttivamente, presuntivamente, in termini ipotetici ai valori reali di
tutto il collettivo.
STATISTICA DESCRITTIVA
Il fenomeno oggetto di osservazione si compone di unità chiamate unità statistiche , unità
elementare di rilevazione; la totalità delle unità statistiche forma la POPOLAZIONE
STATISTICA, che può essere finita o infinita.
Tabella 1
Studenti iscritti al 1° anno del corso di laurea CL EC
carattere
Studenti
provenienti
Frequenza assoluta
dalla
regione Abruzzo
Studenti provenienti da altre
regioni
totale
182
148
330
Nella tabella 1 il collettivo di riferimento è rappresentato dagli iscritti al corso di laurea ,
l’unità statistica è rappresentata dal singolo studente, la popolazione dalla totalità degli
iscritti. L’insieme è finito.
Le diverse manifestazioni delle unità statistiche vengono chiamati CARATTERI. Le
osservazioni possono riguardare un solo carattere, come nell’esempio tabella 1 , oppure
più caratteri ( sesso, età, peso, altezza, reddito, studi superiori, composizione familiare) .
FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33
STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO
LEZIONI DI STATISTICA DESCRITTIVA Pagina 1 di 6
Il carattere oggetto di studio può assumere diversi valori chiamati MODALITA’ ; il carattere
è QUANTITATIVO se le modalità sono espresse da numeri ( età, peso, altezza, reddito ) ,
è QUALITATIVO se le modalità non sono quantificabili ( sesso, titolo di studio, luogo di
provenienza, colore degli occhi , settore economico) .
Solitamente i caratteri quantitativi vengono distinti in :
-
continui , quando fissato un intervallo di valori , con limite inferiore e superiore, le
modalità osservate possono assumere tutti i valori intermedi all’interno dell’intervallo (
peso, statura, reddito, età ) ;
-
discreti , quando fissato un intervallo di valori , con limite inferiore e superiore, le
modalità osservate assumono solo valori interi ( numero componenti familiari, numero
fratelli, numero autoveicoli posseduti ) .
tabella 2 carattere continuo
tabella 3 carattere discreto
Consumo annuo in
Frequenza
Autoveicoli
Frequenza
euro
assoluta
posseduti
assoluta
0-10.000
40
0-1
150
10.000-20.000
120
1-3
170
20.000-30.000
170
4-5
10
Totale frequenze
330
Totale frequenze
330
I caratteri qualitativi vengono distinti secondo modalità:
-
ordinabili, modalità che possono essere ordinate secondo un criterio logico ( studenti
distinti per anni di corso, grado di soddisfazione di un programma televisivo) ;
-
sconnesse, modalità non ordinabili secondo un criterio logico ( sesso, nazionalità,
partito politico ) ;
-
cicliche, modalità ordinabili secondo un criterio logico ma la scelta della prima unità è
arbitraria o frutto di convenzioni ( primo giorno della settimana , nel Regno Unito inizia
con la Domenica, le stagioni, i punti cardinali ) .
DISTRIBUZIONE O TABELLA DI FREQUENZA
Effettuata una rilevazione statistica occorre procedere a riassumere i dati in modo da
renderli facilmente leggibili. Se volessimo conoscere la distribuzione per sesso degli iscritti
al 1° anno del CLEC non sarebbe molto utile una seq uenza di 300 lettere M F , con le
modalità M e F che si ripetono decine o centinaia di volte . Generalmente si fa uso delle
tabelle o distribuzioni di frequenze , dove accanto a ciascuna modalità del carattere
osservato viene riportata la rispettiva frequenza assoluta, numero di volte che si presenta
la data modalità.
FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33
STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO
LEZIONI DI STATISTICA DESCRITTIVA Pagina 2 di 6
Tabella 4
Studenti distinti per sesso iscritti al 1° anno del corso di laurea CLEC
carattere
Frequenza assoluta
MASCHI
142
FEMMINE
188
330
totale
Le distribuzioni di frequenze si distinguono in :
-
semplici, rilevazione secondo un unico carattere;
-
doppie, rilevazione secondo due caratteri;
-
triple, rilevazione secondo tre caratteri e in generale
-
multipla , rilevazione secondo m caratteri.
TABELLA DI FREQUENZA SEMPLICE
Indicato con :
X
il carattere del collettivo oggetto di rilevazione,
n
il numero delle modalità assunte dal carattere X ,
xi
la modalità i − esima del carattere X ,
ni
frequenza semplice assoluta della modalità xi , numero di volte che si presenta la
modalità xi ,
∑
simbolo della somma, dati i valori x1 = 3; x2 = 5; x3 = 6 la somma dei tre valori si può
3
scrivere come
∑x
i
= x1 + x2 + x3 = 3 + 5 + 6 = 14 , somma di i che va da 1 a 3 delle xi
i =1
e generalizzando
n
n
∑ xi la sommatoria degli n valori xi ,
∑x
i =1
i =1
i
= x1 + x2 + ... xi + ... xn −1 + xn
si possono ottenere gli indici delle distribuzioni di frequenze riportati nella tabella n. 5 ; per
conseguire gli indici percentuali bisogna moltiplicare gli stessi per cento:
FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33
STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO
LEZIONI DI STATISTICA DESCRITTIVA Pagina 3 di 6
INDICI DELLE DISTRIBUZIONI DI FREQUENZE
Tabella numero 5
Totale delle frequenze semplici
n
=N
∑n
i
assolute
Totale numero modalità osservate
i =1
Frequenza semplice relativa o
Frazione ( unitaria o percentuale )
ni
fi =
n
di volte che si presenta il carattere
∑n
percentuale
i
i =1
Frequenza cumulata assoluta
con la modalità xi
i
Totale delle frequenze semplici
h =1
assolute fino alla modalità xi
N i = ∑ nh
i
Frequenza cumulata relativa o
percentuale
Fi =
∑n
Frazione ( unitaria o percentuale )
h
h =1
n
Ni
N
=
∑n
assoluta
fino alla modalità xi
i
i =1
Frequenza retrocumulata
di volte che si presenta il carattere
n
Totale delle frequenze semplici
h=i
assolute dalla modalità xi
Ri = ∑ nh
n
Frequenza retrocumulata relativa
o percentuale
RPi =
∑n
Frazione ( unitaria o percentuale )
h
h =i
n
=
∑n
i =1
Ri
N
di volte che si presenta il carattere
dalla modalità xi
i
Esempio: studenti iscritti ai diversi anni del corso di laurea in …
Anno
iscrizione
Numero
studenti
Frequenze
semplici
percentuali
Frequenze
cumulate
assolute
Frequenze
cumulate
percentuali
Frequenze
retrocumulate
assolute
Frequenze
retrocumulate
percentuali
xi
ni
fi
Ni
Fi
Ri
RPi
1°
100
25,0%
100
25,0%
400
100,0%
2°
80
20,0%
180
45,0%
300
75,0%
3°
80
20,0%
260
65,0%
220
55,0%
4°
70
17,5%
330
82,5%
140
35,0%
5°
70
17,5%
400
100,0%
70
17,5%
totale
400
100,0%
n2 = 80
numero di ragazzi iscritti al secondo anno;
f 2 = 20%
percentuale di ragazzi iscritti al secondo anno;
N 2 = 180
numero di ragazzi iscritti fino al secondo anno;
F2 = 45%
percentuale di ragazzi iscritti fino al secondo anno;
R2 = 300
numero di ragazzi iscritti dal secondo anno;
RP2 = 75%
percentuale di ragazzi iscritti dal secondo anno
FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33
STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO
LEZIONI DI STATISTICA DESCRITTIVA Pagina 4 di 6
DISTRIBUZIONE DI FREQUENZA PER CLASSI
A volte può essere necessario e/o conveniente raggruppare i dati osservati per intervalli o
classi xi − xi +1 ; la differenza tra il limite superiore della classe e il limite inferiore della
classe è chiamata AMPIEZZA DELLA CLASSE , A = xi +1 − xi ;
se il carattere è discreto l’estremo inferiore della classe successiva è diverso dall’estremo
superiore della classe precedente;
se il carattere è continuo le classi successive hanno un limite in comune e si considera
che il limite superiore della classe che precede appartenga alla classe successiva.
E’ opportuno scegliere intervalli di classe secondo un criterio logico ( es. classi di reddito o
di statura crescenti ) .
Esempio: supponiamo di aver rilevato la statura ( carattere continuo ) di venti studenti :
170; 168; 169; 170; 165; 180; 181; 173; 176; 177; 182; 168; 165; 180; 172; 172; 168; 169;
173; 181.
La tabella di frequenza è riportata nella tabella numero 6 :
tabella 6
Studenti distinti per statura in cm
Altezza
Frequenza assoluta
165
2
168
3
169
2
170
2
172
2
173
2
176
1
177
1
180
2
181
2
182
1
totale
20
Per raggruppare i dati in classi bisogna scegliere l’ampiezza della classe, partendo dalla
statura più bassa ; con ampiezza pari a 5 cm si ottiene la tabella numero 7:
tabella 7
Studenti distinti per classi di statura in cm
Classi di altezza
Frequenza assoluta
165-170
7
170-175
6
175-180
2
180-185
5
totale
20
FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33
STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO
LEZIONI DI STATISTICA DESCRITTIVA Pagina 5 di 6
VALORE CENTRALE DELLA CLASSE
Ai fini di successive elaborazioni si può sostituire l’intervallo di ciascuna classe con il
valore centrale, semisomma dei valori estremi, ipotizzando, in tal caso, che tutti gli
elementi della classe presentino lo stesso valore uguale al valore centrale. Come vedremo
nelle successive applicazioni l’errore che si commette è trascurabile al crescere delle unità
del collettivo.
Tabella 8
Studenti distinti per classi di statura in cm
Classi di altezza
Valore centrale
Frequenza assoluta
165-170
167,50
7
170-175
172,50
6
175-180
177,50
2
180-185
182,50
5
totale
20
SERIE E SERIAZIONI: una serie è una distribuzione con caratteri qualitativi, la seriazione
è una distribuzione con caratteri quantitativi .
SERIE STORICHE O TEMPORALI: le modalità sono rappresentate da istanti o periodi
tempo ( fatturato nell’ultimo decennio, matrimoni distribuiti per i mesi dell’anno ) ; la
variabile indipendente è il tempo, mentre la variabile dipendente è l’intensità del fenomeno
( fatturato, matrimoni ) .
Bibliografia : Leti, Statistica descrittiva; Girone-Salvemini , Lezioni di Statistica; Maffè, Statistica
FACOLTÀ DI ECONOMIA PESCARA Corso di Laurea Triennale in ECONOMIA E COMMERCIO Classe L-33
STATISTICA Anno Accademico 2010-2011 Prof . Annibale ROCCO
LEZIONI DI STATISTICA DESCRITTIVA Pagina 6 di 6