Il Concetti generali di Statistica)
Corso “Esperto in Logistica e Trasporti”
Elementi di Statistica applicata
Concetti Generali di Statistica
Elementi di statistica descrittiva I
31 Marzo 2009
F. Caliò
[email protected]
1
Origine e campo di applicazione della statistica
2
Scopo della raccolta e analisi dei dati
Il piano di lavoro della Statistica è la raccolta,
l’organizzazione,l’analisi e la comparazione di dati ed
è essenzialmente motivata dal fatto di dover
prendere delle decisioni.
decisioni.
• Il significato originale della parola Statistica è
“studio delle cose dello Stato”;
• La Statistica nasce dall’esigenza di raccogliere e
gestire informazioni su tutti i cittadini;
Esempi:
• censimento;
• I campi di applicazione della Statistica, più
recentemente, sono oltre che l’Economia e la
Politica anche la Medicina, le Scienze naturali, la
Fisica…
• sondaggio di opinione;
• sperimentazione di un nuovo prodotto;
• registrazione sistematica di disastri naturali o malattie
(previsione);
• ispezione di oggetti prodotti (controllo di qualità).
3
4
Unità statistiche e popolazione (1/2)
Come opera la Statistica
Unità statistica è l’unità elementare su cui vengono
osservati i caratteri oggetto di studio.
Esempi:
•un individuo cui viene posta una domanda;
•un pezzo meccanico su cui si effettua una misura.
Un insieme di unità statistiche, omogenee rispetto ad
una o più caratteristiche, costituisce una popolazione.
La Statistica si può, dunque, definire come l’analisi,
in termini quantitativi, di fenomeni collettivi, ossia
fenomeni il cui studio richiede l’osservazione di un
insieme di manifestazioni individuali.
La statistica dunque si occupa di caratteri variabili,
osservabili su una popolazione.
Terminologia di base:
– unità statistica;
– popolazione;
– carattere statistico.
Una popolazione può essere:
• finita o infinita;
• di stato o di movimento;
• empirica o teorica.
5
Elementi di statistica descrittiva – Parte I
6
1
Caratteri statistici e loro classificazione (1/4)
Unità statistiche e popolazione (2/2)
•Popolazione finita:
Comprende un numero finito di unità statistiche
Esempio: studenti iscritti a un Corso di Laurea.
•Popolazione infinita (caso alternativo)
Esempio: potenziali malati di una certa malattia.
•Popolazione di stato:
Occorre fissare un preciso istante di tempo
Esempio: abitanti di una città.
•Popolazione di movimento (caso alternativo)
Esempio: automobili prodotte in un certo anno.
•Popolazione empirica:
Le unità che costituiscono la popolazione sono
effettivamente osservabili;
•Popolazione teorica (caso alternativo)
Un carattere statistico è la caratteristica
osservabile su una popolazione.
Esso può assumere modalità (valori) diverse in
corrispondenza di differenti unità statistiche della
popolazione.
Le modalità del carattere devono essere esaustive e
non sovrapposte.
Esaustive se rappresentano tutti i possibili modi di
essere del carattere stesso.
Non sovrapposte se a ogni unità si può associare una
sola modalità.
7
Caratteri statistici e loro classificazione (2/4)
I caratteri possono essere:
Quantitativi quando sono espressi da un numero
(spesso una misura).
Esempi:
•età di un individuo;
•numero di componenti di una famiglia;
•altezza di un albero;
Qualitativi quando sono espressi mediante un giudizio
o una qualità.
Esempi:
–Il colore degli occhi di un individuo;
–la serie in cui milita una squadra di calcio
(A,B,C,…).
8
Caratteri statistici e loro classificazione (3/4)
Un carattere quantitativo può essere:
– discreto se i valori che può assumere sono
numeri interi.
Esempi:
– numero dei componenti di una famiglia;
– numero di pezzi prodotti.
– continuo se i valori che può assumere sono
numeri non interi.
Esempi:
– peso;
– lunghezza.
9
10
Caratteri statistici: Esempio di tipologie
Caratteri statistici e loro classificazione (4/4)
Un’azienda in cerca di personale ha effettuato una selezione fra i candidati.
I dati dei primi cinque classificati sono i seguenti:
Un caratteri qualitativo può essere:
– sconnesso se, date due modalità, è possibile solo
affermare se queste sono uguali o diverse.
Nome
Bianchi
Ferro
Rossi
Verdi
Martini
Esempi:
– sesso (M/F);
– tipo di attività (studente/operaio/impiegato).
Graduatoria
1
2
3
4
5
Età Titolo di studio Residenza Punteggio quiz
29
Laurea
Piacenza
155
31
Diploma
Arezzo
159
28
Laurea
Lodi
140
27
Laurea
Ancona
131
33
Diploma
Bergamo
131
Qual è l’unità statistica?
Caratteri significativi:
– ordinato se, date due modalità, è possibile dare
anche un ordine specificando che una precede
l’altra (si può stabilire una graduatoria).
Il candidato
Carattere
Graduatoria
Esempio: Categoria di automobile
1. Utilitaria
2. Media
3. Lusso.
Tipo
sottotipo
quantitativo
intero
Età
quantitativo
intero
Titolo di studio
qualitativo
ordinato
Residenza
qualitativo
sconnesso
Punteggio quiz
quantitativo
intero
11
Elementi di statistica descrittiva – Parte I
12
2
Trasformazioni dei caratteri statistici
Statistica descrittiva e statistica inferenziale
Se il carattere è quantitativo si definisce
suddivisione del carattere in classi l’operazione
consistente nel suddividere l’insieme dei possibili
valori in intervalli tra loro disgiunti.
Scopi della statistica:
• Sintetizzare: predisporre i dati raccolti in una
forma che consenta di comprendere meglio i
fenomeni.
Per esempio se il carattere fosse l’età si potrebbero
considerare classi d’età: fra 0 e 5, fra 6 e 10, …
(STATISTICA DESCRITTIVA)
• Generalizzare: estendere con metodi di induzione
i risultati ottenuti da un gruppo limitato di unità
statistiche (campione) all’intera collettività
(universo, popolazione).
E’ opportuno definire le classi in modo tale che:
– Il loro numero sia abbastanza piccolo per raggiungere un’adeguata
sintesi, ma abbastanza grande per non perdere dettagli;
– Le classi siano disgiunte;
– Le classi comprendano tutte le modalità di carattere osservate;
– Le classi abbiano la stessa ampiezza.
(STATISTICA INFERENZIALE)
13
Come opera la statistica descrittiva
14
Raccolta dei dati (1/2)
Dopo aver stabilito quale sia l’unità
statistica e dunque la popolazione
osservata e la caratteristica osservata, la
statistica descrittiva si occupa di:
Per la rilevazione e l’acquisizione dei dati si può
procedere:
– attraverso un’indagine totale, in cui vengono
rilevate tutte le unità della popolazione, oppure:
– Raccogliere i dati osservati;
– attraverso l’osservazione di un sottoinsieme detto
campione (tecniche di campionamento).
– Rappresentare i dati osservati;
– Sintetizzare i dati osservati;
Le tecniche di campionamento, con il supporto
dell’inferenza statistica, permettono di ottenere
considerazioni affidabili sul fenomeno osservato
anche con un numero limitato di osservazioni.
– Analizzare i dati osservati;
– Comparare i dati osservati.
15
16
Indagine statistica
Raccolta dei dati (2/2)
La raccolta dei dati avviene:
L’indagine statistica è una delle principali tecniche con cui
acquisire informazioni in una situazione di rilevazione
osservazionale.
• registrando le risposte a date sollecitazioni in un
ambiente sperimentale, oppure:
Il suo obiettivo è la conoscenza di una popolazione su cui
si manifesta il fenomeno oggetto di studio.
• osservando ripetutamente un processo nel tempo
(serie storiche).
Piano di lavoro:
– definizione degli obiettivi
– scelta del periodo di riferimento
– individuazione di una lista (elenco in cui determinare le
unità appartenenti alla popolazione). Ovviamente una
buona lista deve essere completa, esatta, aggiornata.
Una situazione di rilevazione sperimentale è caratterizzata
essenzialmente dalla presenza di due elementi:
• le ipotesi di lavoro
• la possibilità di controllare e modificare i fattori
sperimentali e il comportamento delle unità statistiche
durante il fenomeno osservato.
17
Elementi di statistica descrittiva – Parte I
18
3
Intervista e questionario
Raccolta rappresentazione e sintesi
Tra i metodi di acquisizione su popolazione umana
ha particolare rilievo l’intervista.
La raccolta dei dati può avvenire, come visto:
•
attraverso procedure di campionamento, oppure:
Le domande e relative risposte vengono organizzate in un
questionario.
– intervista diretta o indiretta;
– strutturata o non strutturata.
•
registrando le risposte a date sollecitazioni in un ambiente
sperimentale, oppure:
•
osservando ripetutamente un processo nel tempo, (serie
storiche).
Alcuni tipi di indagine:
Tecniche di rappresentazione e sintesi:
– Intervista telefonica
1. Tabulari: Si usano tabelle per descrivere i dati;
– Exit poll
2. Grafiche: Si usano grafici per rappresentare i dati;
3. Numeriche: Si usano certi valori per sintetizzare i dati.
Alcune fonti ufficiali:
Queste tre tecniche sono logicamente consecutive.
– ISTAT (istituto nazionale di statistica)
– Sistan (Sistema statistico nazionale)
19
Raccolta e presentazione di dati)
20
Esempio 1: Definizione del problema - campionamento
L’oggetto del nostro studio è la popolazione:
studenti universitari di Milano;
carattere : numero di film visti in un certo periodo;
campione: un sottoinsieme della popolazione: 40
Raccolta e presentazione dei dati
Esempi operativi
studenti.
“A
un gruppo di 40 studenti universitari si chiede
quante volte sono stati al cinema negli ultimi due
mesi.”
21
22
Esempio 1 – dati grezzi rilevati (distribuzione unitaria)
Rilevazione di modalità di un carattere
u01
u02
u03
• Il campione è costituito da n unità statistiche;
(nell’esempio n = 40)
• u1, u2,. . ., un: modalità (valori) del carattere ottenuti
dal campione;
u01
u02
u03
u04
u05
u06
u07
u08
u09
u10
(nell’esempio 40 risposte: u1, u2,. . ., u40)
Otteniamo una distribuzione unitaria o rappresentazione
grezza dei dati osservati (semplice o multipla a seconda se
si riferisce ad uno o più caratteri) attraverso l’elencazione
delle modalità (o classi di modalità) osservate, unità per
unità, sulla popolazione in esame. Esempio: il rilevamento
fornisce il risultato seguente:
“40 valori rilevati. Di essi
solo 7 risultano distinti”
3
1
5
3
1
5
4
2
3
4
9
3
6
u11
u12
u13
u14
u15
u16
u17
u18
u19
u20
3
2
4
4
2
4
3
6
2
3
u21
u22
u23
u24
u25
u26
u27
u28
u29
u30
5
5
3
4
6
6
2
2
3
5
u31
u32
u33
u34
u35
u36
u37
u38
u39
u40
5
3
4
4
4
4
4
3
5
4
In genere: su n valori solo k sono distinti (k=7).
23
Elementi di statistica descrittiva – Parte I
24
4
Valori distinti e loro frequenza (distribuzione di frequenza)
Tabella delle frequenze (distribuzione di frequenze)
• I k valori distinti osservati vengono ordinati in senso
crescente (x1, x2,. . ., xk)
• Invece di considerare gli n valori osservati (u1, u2,. . .,
un) si considerano i k valori distinti osservati, a ognuno di
essi si associa una frequenza campionaria (distribuzione di
frequenze);
• Frequenza (campionaria) ni: numero di unità statistiche
del campione che hanno l’i-esima modalità del carattere.
Risulta quindi:
– k ≤ n;
Modalità
distinte
Frequenza
Assoluta
Frequenza
Relativa
Frequenza
Cumulativa
x1
x2
…
…
xk
Totale:
n1
n2
…
…
nk
n
p1
p2
…
…
pk
1
F1
F2
…
…
Fk
-
p1=n1/n, p2=n2/n, . . ., pk=nk/n
p1 +p2 +p3 + … +pk = 1
F1 =p1, F2 =F1+p2, F3 =F2+p3, … , Fk =Fk-1+pk = 1
– x1 < x2 <. . . < xk
– n1 + n2 +. . . + nk = n
25
26
Frequenze del valore ii-esimo
Tabella delle frequenze dell’Esempio 1
Frequenza assoluta ni: numero di ripetizione di una
modalità di carattere k
∑n
i
modalità frequenza frequenza frequenza
distinte
assoluta
relativa
cumulativa
valori rilevati
min=
max=
= n
1
9
1
1
0,025
0,025
2
6
0,150
0,175
3
10
0,250
0,425
4
12
0,300
0,725
5
6
0,150
0,875
6
4
0,100
0,975
7
0
0,000
0,975
8
0
0,000
0,975
9
1
0,025
1,000
TOTALE
40
1
i =1
Frequenza relativa pi: rapporto fra la frequenza assoluta e
n, numero totale dei dati osservati (dimensione del
k
campione)
n
pi =
∑p
i
i
n
= 1
i=1
Frequenza cumulativa Fi: somma delle frequenze relative
dei valori ≤xi
i
Fi =
∑p
F1 = p1
j
Fk = 1
j =1
27
Esempio 1 – istogramma (grafico a barre)
Frequenze percentuali dell’Esempio 1
In un sistema di riferimento cartesiano poniamo:
•in ascissa (asse orizzontale) i valori che definiscono le modalità distinte;
•in ordinata (asse verticale) la frequenza assoluta con si presentano le
modalità osservate.
Costruiamo un grafico formato da rettangoli la cui base è
centrata in corrispondenza dei valori che definiscono la modalità
osservata e la cui altezza rappresenta la frequenza:
frequenza
modalità frequenza
distinte assoluta
frequenza
relativa
frequenza
percentuale
28
frequenza cumulativa
cumulativa percentuale
1
1
0,025
2,50
0,025
2,50
2
6
0,150
15,00
0,175
17,50
3
10
0,250
25,00
0,425
42,50
4
12
0,300
30,00
0,725
72,50
14
5
6
0,150
15,00
0,875
87,50
12
6
4
0,100
10,00
0,975
97,50
7
0
0,000
0,00
0,975
97,50
8
0
0,000
0,00
0,975
97,50
9
1
0,025
2,50
1,000
100,00
TOTALE
40
1
100
“La base di tutti i
rettangoli ha
dimensione fissa.
L’area di un
rettangolo è
proporzionale alla
frequenza”
frequenza assoluta
Frequentazione cinema
10
8
6
4
2
0
1
2
3
4
5
6
7
8
9
No spettacoli visti
29
Elementi di statistica descrittiva – Parte I
30
5
Variabili discrete e variabili continue
Grafico a nastro
Scambiando ascissa e ordinata (asse orizzontale con quello
verticale) otteniamo un grafico a nastro, a barre orizzontali.
Il carattere dell’esempio precedente è numerico, discreto
e finito,
finito perché assume un numero finito di valori
numerici interi.
Frequentazione cinema
9
Un carattere continuo può invece assumere valori non
interi (“numeri reali”), in genere limitati entro un
intervallo finito.
In questo caso i valori possibili sono infiniti.
Di conseguenza ogni valore rilevato avrà in genere
frequenza = 1 e i dati distinti tendono a coincidere coi
dati grezzi.
Pertanto le modalità del carattere osservato vengono
aggregate in classi,
classi come si opererà nell’esempio che
segue.
7
No spettacoli
5
visti
3
1
0
Il grafico
qualitativi
Il grafico
qualitativi
2
4
6
8
10
12
14
a barre (verticali) è adatto per caratteri quantitativi o
ordinabili (si evidenzia l’ordine).
a nastro (barre orizzontali) è più adatto per caratteri
sconnessi (si evidenziano solo le differenze).
31
32
Esempio 2: tabella delle frequenze
Esempio 2 – dati grezzi (distribuzione unitaria)
Si sono misurate le lunghezze di un campione di 20 pezzi prodotti
da una macchina.
Le misure sono riportate in tabella:
u01
u02
u03
u04
u05
u06
u07
u08
u09
u10
17,2
17,9
18,0
18,0
18,2
18,4
18,5
18,6
18,6
19,0
u11
u12
u13
u14
u15
u16
u17
u18
u19
u20
valori rilevati
min= 17,2
max= 21,1
19,1
19,2
20,3
20,4
20,4
20,4
20,7
20,8
20,8
21,1
Le modalità del carattere
rilevato sono organizzate in
classi,
classi ponendo in ciascuna
classe le ui i=1,…,20 che
assumono valori appartenenti
a sottointervalli
dell’intervallo (17.0,21.5) di
ampiezza δ=0.5 (δ
δ può
essere scelto
arbitrariamente).
Ogni sottointervallo è aperto
a sinistra.
Si riporta la tabella di
frequenze relative a tali
classi di modalità.
Il carattere è in questo caso numerico e continuo perché assume
valori numerici non interi.
N.B. In tabella sono riportati valori approssimati alla prima cifra
decimale.
classe No
1
2
3
4
5
6
7
8
9
classi di
modalità
frequenza frequenza frequenza
assoluta
relativa
cumulativa
(17.0,17.5]
1
0.05
0.05
(17.5,18.0]
3
0.15
0.20
(18.0,18.5]
3
0.15
0.35
(18.5,19.0]
3
0.15
0.50
(19.0,19.5]
2
0.10
0.60
(19.5,20.0]
0
0.00
0.60
(20.0,20.5]
4
0.20
0.80
(20.5,21.0]
3
0.15
0.95
(21.0,21.5]
1
0.05
1.00
TOTALE
20
1.00
33
34
Esempio 2: istogramma
Esempio 2: torta
La visualizzazione dei dati è molto varia.
Ad esempio si possono utilizzare grafici “a torta” (pie-chart)
In un sistema cartesiano, in cui poniamo in ascissa i valori che
definiscono la classe di modalità e in ordinata la frequenza assoluta
(fa), si costruisce un grafico (istogramma) formato da rettangoli la
cui base è l’intervallo che definisce la classe di modalità e la cui
altezza rappresenta la frequenza assoluta.
classe
(17 . 0 ,17 . 5 ]
fa
1
(17 . 5 ,18 . 0 ]
(18 . 0 ,18 . 5 ]
(18 . 5 ,19 . 0 ]
(19 . 0 ,19 . 5 ]
3
3
4
1
(19 . 5 ,20 . 0 ]
( 20 . 0 ,20 . 5 ]
( 20 . 5 ,21 . 0 ]
( 21 ,21 . 5 ]
tot
0
4
3
1
20
(attenzione si
rappresentano le frequenze percentuali opportunamente raggruppate):
classe
fa
fc
17 − 17 . 5
1
5%
17 . 5 − 18
3
20 %
18 − 18 . 5
3
35 %
18 . 5 − 19
4
55 %
19 − 19 . 5
1
60 %
19 . 5 − 20
0
60 %
20 − 20 . 5
4
80 %
20 . 5 − 21
3
95 %
21 − 21 . 5
1
100 %
tot
20
21-22
5%
17-18
20%
20-21
35%
19-20
5%
18-19
35%
“L’area dello spicchio è proporzionale alla frequenza”
35
Elementi di statistica descrittiva – Parte I
36
6
Grafico della frequenza cumulativa
Esempio 3
Si chiama ogiva la linea che rappresenta la frequenza cumulativa di una variabile
numerica (raggruppata in classi). Graficamente si presenta come una spezzata che
unisce i punti che hanno per ascisse i valori osservati (caso discreto) o gli estremi
degli intervalli (caso continuo) e per ordinate i valori della frequenza cumulativa.
Si sono rilevate le cause del guasto di un’automobile in un
dato periodo
La tipologia di causa del guasto è stato attribuita ad un carattere x,
ottenendo:
Per costruire la curva relativa all’Esempio 2 si congiungono i punti:
P1(17.5,5), P2(18,20), P3(18.5,35), P4(19,55), P5(19.5,60), P6(20,60),
P7(20.5,80), P8(21,95), P9(21.5,100).
x1 = A
x2 = B
x3 = A
x4 = C
x5 = B
x6 = D
X7 = D
x8 = E
x 9 = F x10 = A x11 = D x12 = A x13 = A x14 = C x15 = D x16 = A
A : motore
B : cambio C : elettronic a
D : sospension i E : benzina
F : incidente
Il carattere x è in questo caso qualitativo (non
assume valori numerici) sconnesso.
sconnesso
37
Esempio 3: tabelle di frequenza
Esempio 3: istogramma
Le modalità sono determinate dalle tipologie di guasto.
In un sistema cartesiano, in cui poniamo in ascissa le tipologie di
modalità e in ordinata fa o fr, si costruisce un grafico (istogramma)
formato da rettangoli la cui base (di misura costante) rappresenta la
modalità del carattere-ovvero la categoria di causa guasto- e la cui
altezza rappresenta il numero delle volte di realizzazione di tale causa.
Si costruisce una tabella in cui si affianca a ciascuna modalità il
numero di volte in cui, nel periodo osservato, si realizza tale
modalità (la tipologia di guasto):
mod alità
fa
A
B
C
D
6
2
2
3
E
F
tot
1
2
16
fr
6 / 16 = 0 . 375
2 / 16 = 0 . 125
2 / 16 = 0 . 125
3 / 16 = 0 . 1875
1 / 16 = 0 . 0625
38
fp
37 . 5 %
12 . 5 %
12 . 5 %
18 . 75 %
fa: frequenza assoluta
fr: frequenza relativa
fp:frequenza
frequenza percentuale
Non ha senso la fc
6 . 25 %
2 / 16 = 0 . 125
12 . 5 %
tot 1
tot 100 %
39
Elementi di statistica descrittiva – Parte I
40
7