Le distribuzioni statistiche

annuncio pubblicitario
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Unità – Carattere – Modalità
{
{
{
Unità statistica: unità elementare del
collettivo oggetto di studio
Carattere: è ogni aspetto del fenomeno
oggetto di studio osservabile su un insieme
di unità statistiche
Modalità: è ogni modo diverso di presentarsi
del carattere nelle unità
Caratteri
Se il fenomeno che stiamo analizzando è il
curriculum vitae degli studenti, esempi di
carattere sono:
{
{
{
{
{
{
{
tipo di maturità
voto di maturità
anno di conseguimento di maturità
età (o data di nascita)
sesso
sport praticati
…
1
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Caratteri e Modalità
Nome
Età
Punt.
Anno
Sport
Rossi A.
21
F
Classica
95
2003
Ritmica
Bianchi D.
19
M
Scientifica
88
2005
Calcio
Verdi G.
24
F
Sociale
84
2000
Nuoto
Gialli S.
22
F
Linguistica
96
2002
Atletica
Neri M.
25
M
Scientifica
98
2003
Pallanuoto
{
{
Sesso Maturità
A ogni riga corrisponde un individuo del
quale sono stati rilevati alcuni caratteri
In corrispondenza di ogni individuo, ciascun
carattere assume una determinata modalità
Protocollo elementare
Unità statistiche
Carattere
Protocollo elementare
2
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Protocollo elementare
{
E’ l’insieme dei valori assunti da un
carattere oggetto di indagine nelle
unità statistiche del collettivo in esame
Collettivo in esame: 88 individui iscritti al corso di Statistica
Carattere osservato: Voto conseguito all’esame di Statistica
{29, 29, 24, 20, 22, 28, 19, 19, 21, 26, 20, 24, 21, 19,
28, 22, 29, 26, 23, 28, 30, 20, 27, 22, 27, 20, 24, 25,
29, 23, 23, 24, 22, 25, 27, 26, 23, 18, 19, 26, 22, 25,
24, 20, 22, 21, 29, 30, 19, 24, 24, 26, 26, 29, 30, 29,
22, 27, 27, 29, 26, 26, 22, 27, 24, 29, 30, 20, 24, 24,
28, 23, 21}
25,
18,
20,
25,
21,
25,
26,
26,
28,
18,
23,
29,
22,
26,
22,
Campione di 30 unità - Indagine Banca d’Italia
3
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Concentrazione di PM10 rilevato nelle province
dell’Emilia Romagna nel periodo 4-13 febbraio
2005
04-feb
05-feb
06-feb
07-feb
08-feb
09-feb
10-feb
11-feb
12-feb
13-feb
PIACENZA
64
44
51
75
75
94
112
106
96
26
PARMA
63
51
47
54
66
103
92
73
68
40
REGGIO NELL'EMILIA
60
46
43
53
53
78
76
71
65
50
MODENA
48
38
54
52
51
97
99
82
96
58
BOLOGNA
70
44
37
59
60
82
69
48
86
60
FERRARA
51
33
43
50
55
106
128
123
150
89
RAVENNA
38
35
46
59
68
93
78
46
59
49
FORLI'
54
n.d.
28
n.d.
n.d.
56
76
52
48
44
RIMINI
70
42
41
66
76
86
90
62
41
40
Livelli PM10
Superiore al limite di legge (al 2005)
>50
Entro il limite di legge
0-50
Dato non disponibile
n.d.
Fonte: www.liberiamolaria.it
Caratteri qualitativi
Il carattere è detto qualitativo se non
assume valori numerici, ma ammette
gradi o attributi distinti
Carattere
qualitativo
Mutabile
statistica
4
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Carattere qualitativo
{
Ordinabile : tra i gradi è possibile stabilire
una relazione d’ordine
z
z
{
Ordinabile rettilineare (categoria
alberghiera, titolo di studio)
Ordinabile ciclico (mese, stagione)
Sconnesso : non esiste un ordinamento
degli attributi del carattere
z
(nazione di nascita, laurea conseguita,
colore degli occhi, genere)
Caratteri quantitativi
Un carattere si dice quantitativo se
assume valori numerici
Carattere
quantitativo
Variabile
statistica
5
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Carattere quantitativo
{
Discreto o enumerabile: può assumere
solo valori interi
z
{
(Numero di componenti la famiglia,
numero di dipendenti di un’azienda)
Continuo o misurabile: può assumere
tutti i valori di un intervallo
z
(statura, temperatura, tempo di
percorrenza di una distanza)
Carattere
Carattere oggetto
oggetto di
di studio
studio
Attributi qualitativi
Attributi quantitativi
Mutabile
Mutabile statistica
statistica
Variabile
Variabile statistica
statistica
Gli attributi ammettono
ordine di successione?
I valori assunti possono
appartenere all’insieme
NO
NO
Mutabile
Mutabile
statistica
statistica
sconnessa
sconnessa
SI
SI
Mutabile
Mutabile
statistica
statistica
ordinata
ordinata
Interi
Interi
Variabile
Variabile
statistica
statistica
discreta
discreta
Reali
Reali
Variabile
Variabile
statistica
statistica
continua
continua
6
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Simbologia
{
{
Mutabili : si indicano con le prime lettere
dell’alfabeto (A, B, …)
Variabili : si indicano con le ultime lettere
dell’alfabeto (X, Y, …)
Con le corrispondenti lettere minuscole si
indicano le loro determinazioni in una unità
statistica. L’insieme delle modalità di un
carattere rilevato su n unità è così indicato:
per la mutabile A: {a1, a2, …, aj, …, an}
per la variabile X: {x1, x2, …, xj, …, xn}
Distribuzione di frequenza
{
{
E' la prima forma di sintesi statistica dei dati,
poiché riassume le informazioni contenute
nell’insieme dei valori individuali
Non è altro che una classificazione delle n
unità statistiche in k classi (dove k≤n)
formate sulla base delle modalità del
carattere osservato nel collettivo
7
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Distribuzione di frequenza
{
{
Nella distribuzione di frequenza sono
raggruppate nella medesima classe tutte le
unità che hanno la medesima modalità del
carattere considerato
Ogni classe della distribuzione è definita da
una coppia di elementi
z
z
Modalità del carattere
Corrispondente frequenza
Rappresentazione di distribuzioni
di frequenza mediante tabelle
A
ni
X
ni
a1
n1
x1
n1
a2
n2
x2
n2
xi
ni
xk
nk
…
…
ai
ni
…
…
ak
nk
n
n
8
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Esempio di distribuzione di frequenza per
una variabile statistica
Modalità
Voti
18
19
20
21
22
23
24
25
26
27
28
29
30
Totale
Studenti
3
5
7
5
10
6
10
6
11
6
5
10
4
88
Frequenze
Esempio di distribuzione di frequenza
per una mutabile statistica
{
{
Unità statistiche: residenti nella provincia di
Bologna al 01-01-2005
Carattere osservato: zona altimetrica del
comune di residenza
Zona altimetrica
di residenza
Montagna
Residenti nella provincia
di BOLOGNA
53.274
Collina
577.937
Pianura
313.068
TOTALE
944.279
9
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Requisiti di una distribuzione di
frequenza
{
{
Requisito dell’esaustività: ogni unità
statistica deve appartenere a una delle
classi, cioè deve poter essere classificata
Requisito della disgiuntività: ogni unità
statistica non può appartenere
contemporaneamente a due classi distinte
Distribuzioni per variabili continue
{
{
{
Nelle distribuzioni di frequenza per variabili
continue la formazione di classi presuppone
la divisione in intervalli e il raggruppamento
delle unità entro limiti assunti come valori
estremi di ogni intervallo
Le unità non sono necessariamente
portatrici dello stesso livello del carattere
Devono essere definiti l’ampiezza e un
valore di riferimento per ciascun intervallo,
che in genere è costituito dal valore
centrale
10
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Ampiezza di un intervallo
L’intervallo xi-1|-xi, come l’intervallo xi-1-|xi
ha ampiezza wi uguale alla differenze tra i
suoi estremi
wi = xi - xi-1
Valore centrale di un intervallo
Il valore centrale dell’intervallo di estremi
xi-1,xi è dato dalla semisomma degli estremi
stessi
x̂i =
xi −1 + xi
2
Esempio
Numero di abitanti
0 —| 1000
1000 —| 2000
2000 —| 5000
5000 —| 10000
10000 —| 20000
20000 —| 50000
50000 —| 100000
100000 —| 250000
250000 —| 500000
Oltre 500000
Totale
Numero di comuni
1956
1706
2224
1164
589
324
90
34
6
6
8102
11
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Esempio
Classi di età
Residenti nella provincia
di BOLOGNA
0 - 14 anni
111.317
15 - 39 anni
283.995
40 - 64 anni
325.903
65 anni e oltre
223.064
TOTALE
944.279
Classi di età
0 - 4 anni
Residenti nella provincia
di BOLOGNA
40.775
5 - 9 anni
36.388
10 - 14 anni
34.154
15 - 19 anni
31.768
20 - 24 anni
37.374
25 - 29 anni
56.715
30 - 34 anni
77.364
….
…
65 - 69 anni
59.314
70 - 74 anni
59.314
75 - 79 anni
52.993
80 anni e oltre
46.559
TOTALE
944.279
12
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Esempi di distribuzioni …
… con carattere qualitativo sconnesso:
distribuzione di individui per condizione
professionale, residenza, status
occupazionale
… con carattere qualitativo ordinabile:
distribuzione di individui per livello di
istruzione, di giudizi in scala per attributi, di
occupati di un azienda per livello occupato
nell'organigramma
Esempi di distribuzioni …
… con carattere quantitativo discreto non
raggruppato in classi
distribuzione delle famiglie per numero di
componenti (1, 2,…, 8), degli individui per
numero di incidenti sul lavoro, delle aziende
per numero di clienti, per numero di addetti
… con carattere quantitativo discreto
raggruppato in classi
distribuzione delle famiglie per numero di
componenti (1--2, 3--5,>=6), del numero dei
comuni per ampiezza demografica
13
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Esempi di distribuzioni …
… con carattere quantitativo continuo
raggruppato in classi
distribuzione degli individui per età, reddito,
spesa; delle aziende per fatturato, valore
aggiunto
Distribuzioni di frequenza relativa
{
{
A partire dalla distribuzione di frequenza è
possibile costruire la distribuzione delle
frequenze relative e percentuali
Frequenza relativa di una classe: è il rapporto
tra la frequenza della classe e il numero
complessivo di unità statistiche
fi=ni/n
{
Le frequenze relative descrivono il peso delle
classi sul complesso delle osservazioni,
mentre le frequenze (assolute) indicano la
consistenza numerica delle classi
14
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Distribuzioni di frequenza
C
Frequenze
c1
c2
…
ci
…
ck
n1
n2
…
ni
…
nk
n
Frequenze
relative
Frequenze
percentuali
f1= n1/ n
f 1 ·100
f2= n2/ n
f 2 · 100
…
fi= ni/ n
…
f i · 100
…
fk= nk/ n
…
· 100
1
fk
100
Distribuzioni di frequenza cumulata
{
{
{
A partire dalla distribuzione di frequenza è
possibile costruire la distribuzione delle
frequenze cumulate (crescente e decrescente)
Le classi sono formate raggruppando le unità
che presentano un livello del carattere al più
uguale (distribuzione crescente), o almeno
uguale (distribuzione decrescente), ad una
soglia che varia secondo le modalità del
carattere stesso
Tale distribuzione è definita solo per caratteri
quantitativi e qualitativi ordinabili rettilineari
15
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Distribuzioni di frequenza cumulata
C
Frequenze
c1
c2
…
ci
…
ck
n1
n2
…
ni
…
nk
n
Frequenze
cumulate (crescenti)
Frequenze cumulate relative
N1= n1
F1= f1
N2= n1+ n2
F2= f1+ f2
…
…
N i = n 1 +n 2+... n i
F i = f 1 +f 2+… f i
…
…
n
N k = n 1 +n 2 + … n k =1
F k = f 1 +f 2 + … f k =1
Distribuzioni di frequenza cumulata
C
Frequenze
c1
c2
…
ci
…
ck
n1
n2
…
ni
…
nk
n
Frequenze
cumulate (decrescenti)
Frequenze cumulate relative
N1= n
F 1 =1
N 2 = n k +n k-1 + ...+ n 2
F 2 = f k +f k-1 + … +f 2
…
…
N i = n k +n k-1+... n i
F i = f k +f k-1+… f i
…
…
Nk=nk
Fk= fk
16
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
ESERCIZIO: Nella tavola è riportata la distribuzione del
valore aggiunto per unità di lavoro (UL) dell’industria in
senso stretto nelle 20 regioni italiane, per gli anni 1995 e
2001 (in migliaia di eurolire 1995).
Cosa emerge dal confronto tra le due distribuzioni
relative al valore aggiunto regionale per UL ?
Valore aggiunto
31
35
38
41
44
46
50
35
38
−| 41
−| 44
−| 46
−| 50
−| 58
−|
−|
Totale
Frequenze
1995
2001
3
1
3
2
4
5
6
4
2
4
1
1
1
3
20
20
Elaborazioni da dati di fonte Istat
Nella tabella che segue sono riportate le distribuzioni
delle frequenze relative nei due anni considerati, da cui
si può osservare che nel 2001 il peso delle classi a cui
corrisponde un minor VA per UL è minore rispetto al
1995. Può essere interessante confrontare le due
distribuzioni cumulate
Valore aggiunto
31 −| 35
35 −| 38
38 −| 41
41 −| 44
44 −| 46
46 −| 50
50 −| 58
Totale
Frequenze relative
1995
2001
0,15
0,05
0,15
0,10
0,20
0,25
0,30
0,20
0,10
0,20
0,05
0,05
0,05
0,15
1
1
17
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Nella tabella che segue sono riportate le due distribuzioni
delle frequenze cumulate decrescenti. Dal loro confronto
emerge con chiarezza che si è avuto un miglioramento dal
1995 al 2001. Le frequenze della seconda distribuzione,
infatti, sono più elevate di quelle della prima. Ciò significa
che nel 2001 è sempre maggiore rispetto al 1995 la
frazione di regioni che hanno VA per UL superiore a un dato
valore
Frequenze relative
cumulate
Valore aggiunto
(decrescente)
1995
2001
1,00
1,00
31 −| 35
0,85
0,95
35 −| 38
0,70
0,85
38 −| 41
0,50
0,60
41 −| 44
0,20
0,40
44 −| 46
0,10
0,20
46 −| 50
0,05
0,15
50 −| 58
Distribuzione di intensità (o quantità)
{
{
Si ottiene come risultato congiunto
dell'operazione di classificazione del
collettivo rispetto ad un carattere e di
misurazione di un carattere quantitativo
all'interno di ciascuna classe
Il carattere rispetto al quale si effettua la
classificazione può coincidere o no con quello
che viene misurato all'interno di ogni classe.
18
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Piemonte
Valle d'Aosta
Comuni
Superficie
1.206
2.540.246
74
326.324
1.546
2.386.280
Trentino-Alto Adige
339
1.360.682
Bolzano-Bozen
116
739.992
Trento
223
620.690
Veneto
581
1.839.885
Friuli-Venezia Giulia
219
785.839
Liguria
235
542.155
Emilia-Romagna
341
2.211.734
Toscana
Lombardia
287
2.299.351
Umbria
92
845.604
Marche
246
969.406
Lazio
378
1.723.597
Abruzzo
305
1.076.271
Molise
136
443.768
Campania
551
1.359.024
Puglia
258
1.935.790
Basilicata
131
999.461
Calabria
409
1.508.055
Sicilia
390
2.571.140
Sardegna
377
2.408.989
ITALIA
8.101
30.133.601
Distribuzione
dei Comuni
italiani, e
relativa
superficie
territoriale,
per regione al
31.12. 2004
Esempi di distribuzione di frequenza e
distribuzione di intensità
Distribuzione delle unità locali delle imprese e addetti per classe di
addetti – (Censimento Industria e Servizi 1991)
Numero di addetti
0
1
2
3--5
6--9
10--15
16--19
20--49
50--99
100--199
200--249
250--499
500--999
1000 e piu'
Totale
Unità locali
Addetti
13.810
1.741.455
790.080
667.358
204.101
101.727
31.257
59101
14.807
6.397
1.107
2.003
693
283
3634179
0
1.741.455
1.580.160
2.444.687
1.463.517
1.222.802
541.447
1725115
1.014.309
870.763
246.134
680.322
470.874
572.717
14574302
19
Marilena Pillati - Seminari di Statistica (SVIC)
"Le distribuzioni statistiche"
Serie e seriazione
Se un carattere è qualitativo la distribuzione
è detta SERIE (di frequenze o di intensità).
In particolare se il carattere è costituito da
z
tempo
serie temporale
z
carattere geografico
serie territoriale
Se un carattere è quantitativo la distribuzione
è detta SERIAZIONE (di frequenze o di
intensità)
20
Scarica