Corso di Laurea in Economia Aziendale
Università di Bologna
STATISTICA
Monia Lupparelli
[email protected]
http://www2.stat.unibo.it/lupparelli
Statistica, CLEA – p. 1/??
Fasi dell’indagine statistica
1. Definizione degli obiettivi
2. Pianificazione della raccolta dei dati
3. Rilevazione dei dati
4. Elaborazione metodologica
5. Presentazione dei risultati
6. Utilizzazione dei risultati della ricerca.
Statistica, CLEA – p. 2/??
Le fonti e la rilevazione dei dati
I dati raccolti possono provenire da:
esperimenti
sondaggi
studi di settore
fonti pubbliche o private
Definita la fonte, la rilevazione dei dati può avvenire attraverso:
censimento
campione
Statistica, CLEA – p. 3/??
Alcune definizioni preliminari
VARIABILE/CARATTERE X: fenomeno di interesse.
MODALITA’: valori/livelli/categorie diversi che può assumere la variabile di
interesse.
UNITA’ STATISTICA: entità elementare osservabile che presenta la variabile X.
POPOLAZIONE: l’insieme completo delle unità statistiche che esauriscono le
informazioni sulla variabile X. Definiamo con N la dimensione della popolazione.
CAMPIONE: sottoinsieme di unità osservate nella popolazione. Definiamo con n
la dimensione del campione (n ≤ N )
TIPO DI CAMPIONAMENTO: procedimento utilizzato per selezionare un
campione di dimensione n da una popolazione contenente N unità statistiche.
PARAMETRO: caratteristica specifica della popolazione
STATISTICA: caratteristica specifica del campione.
Statistica, CLEA – p. 4/??
Metodologia statistica
Statistica descrittiva: l’insieme delle metodologie statistiche utilizzate per descrivere il
comportamento della popolazione attraverso l’elaborazione e la sintesi dei dati
rappresentazioni grafiche
indicatori sintetici
modello
Calcolo delle probabilità: è lo strumento attraverso il quale si descrive il comportamento
della popolazione in condizioni di incertezza.
Statistica inferenziale: è un processo che studia il comportamento della popolazione in
condizioni di incertezza tramite l’analisi del campione:
stima
verifica di ipotesi
previsione
Statistica, CLEA – p. 5/??
STATISTICA DESCRITTIVA
Nella statistica descrittiva si opera in condizioni di certezza. Per ogni variabile X,
ipotizziamo di conoscere tutte le informazioni relative all’intera popolazione. Gli indicatori
sintetici che utilzzeremo per l’elaborazione dei dati sono dei parametri poiché descrivono
una specifica caratteristica della popolazione. Per ogni parametro, possiamo però
individuare una o più statistiche corrispondenti che individuano la stessa caratterestica
in un campione della popolazione.
Esempio. Data una variabile X, indicheremo con µX la media della popolazione e con x
2 la varianza della popolazione e con s2 la
la media campionaria. Indicheremo con σX
X
varianza campionaria.
Statistica, CLEA – p. 6/??
Classificazione delle variabili
VARIABILI QUALITATIVE (categoriche)
Alla modalità della variabile osservata non si può attribuire un valore numerico; le
modalità possono essere:
sconnesse (sesso, colore dei capelli)
ordinali (titolo di studio, livello di soddisfazione)
VARIABILI QUANTITATIVE (numeriche)
Alla modalità della variabile osservata si attribuisce un valore numerico, pertanto le
modalità osservate sono sempre ordinali:
discrete (numero di esami, numero di dipendenti)
continue (altezza, peso)
Statistica, CLEA – p. 7/??
Distribuzione individuale dei dati
Data una variabile X osservata su N unità statistiche (nella statistica descrittiva
ipotizziamo di osservare tutta la popolazione), la distribuzione individuale dei dati
{a1 , a2 , a3 , . . . , aN }
è l’insieme delle modalità ossservate per ogni unità.
Sesso (M, F ) per N = 12 unità:
{M, M, F, F, F, F, M, F, F, M, F, F }
Titolo di studio (E, M, S, L) per N = 12 unità:
{M, L, S, S, S, E, L, M, L, S, E, S}
Età per N = 12 unità:
{27, 39, 42, 57, 81, 48, 33, 21, 17, 10, 60, 28}
Peso per N = 12 unità:
{72.5, 63.2, 59.1, 74.8, 75.3, 69.6, 58.2, 54.9, 50.4, 33.8, 80.1, 53.9}.
Statistica, CLEA – p. 8/??
Distribuzione di frequenza
X è una variabile qualitativa o quantitativa discreta osservata su N unità
K è il numero modalità che può assumere la variabile X.
xk , (k = 1, . . . , K), è una delle possibili modalità che si possono osservare
nk è la frequenza assoluta: il numero delle unità per cui X assume modalità
P
xk . K
k=1 nk = N
P
fk = nk /N è la frequenza relativa. K
k=1 fk = 1.
P
pk = fk × 100 è la frequenza percentuale. K
k=1 pk = 100.
Variabile
Specializzazione degli iscritti al master
Modalità
nk
fk
pk
Modalità
nk
fk
pk
x1
..
.
n1
..
.
f1
..
.
p1
..
.
Finanza
160
0.40
40%
Marketing
140
0.35
35%
xK
P
nK
fK
pK
100
0.25
25%
N
1.00
100%
Contabilità
P
400
1.00
100%
Statistica, CLEA – p. 9/??
Distribuzioni di frequenza per variabili ordinali
Se X è una variabile qualitativa ordinale o quantitativa discreta
P
Nk = K
k=1 nk è la frequenza cumulata;
N1 = n1 , N2 = (n1 + n2 ), . . . , Nk = (n1 + · · · + nk ), . . . , NK = N .
P
Fk = K
k=1 fk è la frequenza relativa cumulata;
F1 = f1 , F2 = (f1 + f2 ), . . . , Fk = (f1 + · · · + fk ), . . . , FK = 1.
Variabile X
Modalità
freq. ass.
freq. rel.
freq. perc.
freq. cum.
freq. cum. rel
x1
n1
f1
p1
N1
F1
x2
.
.
.
n2
.
.
.
f2
.
.
.
p2
.
.
.
N2
.
.
.
F2
.
.
.
xk
.
.
.
nk
.
.
.
fk
.
.
.
pk
.
.
.
Nk
.
.
.
Fk
.
.
.
nK−1
fK−1
pK−1
NK−1
FK−1
nK
fK
pK
N
1
N
1.00
100
-
-
xK−1
xK
P
Statistica, CLEA – p. 10/??
Tabella di frequenza per variabili ordinali
Livello di soddisfazione
Modalità
freq. ass.
freq. rel.
freq. perc.
freq. cum.
freq. cum. rel
40
0.37
37
40
0.37
6
0.06
6
46
0.43
indifferente
37
0.35
35
83
0.78
abbastanza soddisfatto
17
0.16
16
100
0.94
7
0.06
6
107
1.00
107
1.00
100
-
-
molto insoddisfatto
abbastanza insoddisfatto
molto soddisfatto
P
N.B. La frequenza cumulata e la frequenza relativa cumulata hanno senso solo se le
modalità sono ordinabili, quindi non ha senso calcolarle per variabili qualitative
sconnesse.
Statistica, CLEA – p. 11/??
Distribuzioni di frequenza per variabili continue
Sia X una variabile quantitativa continua
non si può definire il numero K di modalità assunte dalla variabile
è necessario classificare le osservazioni attraverso degli intervalli
l’uso delle classi comporta una sintesi dei dati ma anche una perdita di
informazione
criteri di costruzione delle classi
le classi sono contingue, collettivamente esaustive e mutuamente esclusive
chiusura delle classi (chiuse a destra ⊣ o chiuse a sinistra ⊢)
ampiezza della classe wk e valore centrale mk
Uso del cellulare in minuti
Classi
nk
mk
wk
fk
pk
Nk
Fk
0 ⊢ 250
26
250/2=125
250
0.24
24
26
0.24
250 ⊢ 280
67
(280+250)/2=265
(280-250)=30
0.61
61
93
0.85
280 ⊢ 300
P
17
(280+300)/2=290
(300-280)=20
0.15
15
110
1.00
110
-
-
1.00
100
-
Statistica, CLEA – p. 12/??
Distribuzioni in classi per variabili discrete
Sia X una variabile quantitativa discreta
a volte il numero K di modalità assunte dalla variabile può essere molto alto
classificare le osservazioni attraverso degli intervalli facilita la sintesi dei dati
anche se comporta sempre una perdita di informazione
essendo le classi contingue, è importante definire la chiusura delle classi
Età
Classi
nk
mk
wk
fk
pk
Nk
Fk
0 ⊢ 10
8
5
10
0.16
16
8
0.16
10 ⊢ 20
10
15
10
0.21
21
18
0.37
20 ⊢ 30
13
25
10
0.27
27
31
0.64
30 ⊢ 40
12
35
10
0.24
24
43
0.88
40 ⊢ 50
P
6
45
10
0.12
12
49
1.00
49
-
-
1.00
100
-
-
N.B. Un soggetto che ha 20 anni appartiene alla terza classe.
Statistica, CLEA – p. 13/??
Rappresentazioni grafiche
Variabili qualitative:
tabella di frequenza
grafico a barre
grafico a torta
Variabili quantitative:
tabella di frequenza
funzione di ripartizione
grafico a aste (discrete)
istogramma (continue)
Statistica, CLEA – p. 14/??
Grafici per variabili qualitative
Specializzazione degli iscritti al master
180
160
140
120
25%
Contabilit
100
40%
80
Finanza
60
40
20
0
Marketing
Finanza
Modalità
freq. ass.
Marketing
Contabilit
35%
Finanza
Marketing
Contabilità
160
140
100
Statistica, CLEA – p. 15/??
Grafici per variabili qualitative
Tasso alcolemico nel sangue in relazione al luogo di consumo
90
Casa di amici
24%
80
32%
70
frequenze assolute
Bar
60
50
40
30
20
10
0
10%
Ristorante
Bar
Ristorante
Casa propria
34%
Casa propria
Casa di amici
Modalità
Bar
Ristorante
Casa propria
Casa di amici
freq. ass.
78
24
82
58
Statistica, CLEA – p. 16/??
Grafico a aste per variabili discrete
Grafico a aste
25
frequenze assolute
20
15
10
5
0
-1
0
Modalità
0
1
2
3
4
freq. ass.
12
24
9
4
2
1
2
numero di figli
3
4
5
Statistica, CLEA – p. 17/??
Funzione di ripartizione per variabili discrete
Funzione di ripartizione
1
0.9
frequenze rel. cumulate
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-1
0
1
2
numero di figli
3
Modalità
0
1
2
3
4
freq. ass.
12
24
9
4
2
freq. rel.
0.24
0.46
0.18
0.08
0.04
freq. rel. cum.
0.24
0.70
0.88
0.96
1.00
4
5
Statistica, CLEA – p. 18/??
Funzione di ripartizione per variabili continue
Funzione di ripartizione
1
0.9
frequenze rel. cumulate
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
50
100
150
200
250
minuti al cellulare
0 ⊢ 250
250 ⊢ 280
280 ⊢ 300
26
67
17
freq. rel.
0.24
0.61
0.15
freq. rel. cum.
0.24
0.85
1.00
Modalità
freq. ass.
300
350
400
Statistica, CLEA – p. 19/??
Funzione di ripartizione per variabili discrete in classi
Funzione di ripartizione
1
0.9
0.8
Freq. realtive cumulate
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
5
10
15
20
25
et
30
35
40
45
50
0 ⊢ 10
10 ⊢ 20
20 ⊢ 30
30 ⊢ 40
40 ⊢ 50
8
10
13
12
6
freq. rel.
0.16
0.21
0.27
0.24
0.12
freq. rel. cum.
0.16
0.37
0.64
0.88
1.00
Modalità
freq. ass.
Statistica, CLEA – p. 20/??
Densità per distribuzioni in classi
Data una distribuzione in classi per una variabile X, la densità è dk = fk /wk .
Uso del cellulare in minuti
Classi
nk
wk
fk
dk
0 ⊢ 250
26
250
0.24
0.24/250=0.001
250 ⊢ 280
67
(280-250)=30
0.61
0.61/30=0.20
280 ⊢ 300
P
17
(300-280)=20
0.15
0.15/20= 0.008
110
-
1.00
Età
Classi
nk
wk
fk
dk
0 ⊢ 10
8
10
0.16
0.016
10 ⊢ 20
10
10
0.21
0.021
20 ⊢ 30
13
10
0.27
0.027
30 ⊢ 40
12
10
0.24
0.024
40 ⊢ 50
P
6
10
0.12
0.012
49
-
1.00
Statistica, CLEA – p. 21/??
Istogramma per distribuzioni in classi
L’area di ogni rettangolo corrisponde alla freq. rel. della classe
La densità consente di confrontare classi di diversa ampiezza.
Istogramma
0.025
densit relativa
0.02
0.015
0.01
0.005
Uso del cellulare in minuti
0
-50
Classi
0
50
100
150
200
minuti al cellulare
250
300
0 ⊢ 250 250 ⊢ 280 280 ⊢ 300
350
freq. rel.
0.24
0.61
0.15
ampiezza
250
30
20
0.001
0.02
0.008
densità rel.
Statistica, CLEA – p. 22/??
Istogramma per distribuzioni in classi
Istogramma
0.03
0.025
densit relativa
0.02
0.015
0.01
0.005
0
-10
0
10
20
30
40
50
60
et
Età
Classi
fre. rel.
densità rel.
0 ⊢ 10
10 ⊢ 20
20 ⊢ 30
30 ⊢ 40
40 ⊢ 50
0.16
0.21
0.27
0.24
0.12
0.016
0.021
0.027
0.024
0.012
Statistica, CLEA – p. 23/??
Ipotesi di uniforme distribuzione nelle classi
Ipotesi: le singole osservazioni si distribuiscono in modo uniforme nella classe
la densità = freq. rel. in un intervallo di ampiezza unitaria
valore centrale della classe = media delle osservazioni appartenenti alla
classe.
Istogramma
Funzione di ripartizione
0.025
1
0.9
0.8
frequenze rel. cumulate
densit relativa
0.02
0.015
0.01
0.7
0.6
0.5
0.4
0.3
0.005
0.2
0.1
0
-50
0
50
100
150
200
minuti al cellulare
250
300
350
0
0
50
100
150
200
250
minuti al cellulare
300
350
400
Statistica, CLEA – p. 24/??
Rappresentazione grafica per due variabili
Si considerino 100 osservazioni relative alla variabile X età del consumatore e Y costo
dei fiori:
80
70
costo dei fiori
60
50
40
30
20
10
20
30
40
50
et del consumatore
60
70
80
Statistica, CLEA – p. 25/??
Rappresentazione grafica per due variabili
4
votazione media alla laurea
3.8
3.6
3.4
3.2
3
2.8
2.6
450
500
550
600
650
700
punteggi dei test di matematica per l’ammissione all’universit del Midwest
X
450
480
500
520
560
580
590
600
620
650
700
Y
3.25
2.60
2.88
2.85
3.30
3.10
3.35
3.20
3.50
3.59
3.95
Statistica, CLEA – p. 26/??
Descrizione numerica dei dati
Misure di tendenza centrale
moda
media (variabili quantitative)
mediana (variabili qualitative ordinali e quantitative)
Misure di variabilità (variabili quantitative)
campo di variazione e coefficiente interquartile
varianza e scarto quadratico medio
coefficiente di variazione
Misure di asimmetria
Misure di relazioni fra le variabili
Relazioni lineari: modello di regressione
Statistica, CLEA – p. 27/??
Moda e classe modale
La moda è la modalità della X che si presenta il maggior numero di volte.
sesso: {M, M, F, M, F, F, F }, la moda è la modalità F
voti: {21, 30, 24, 18, 21, 29}, la moda è la modalità 21
La moda può non esistere. Es. sesso: {M, M, F, M, F, F, F, M }
La moda, se esite, corrisponde alla modalità con la maggiore frequenza
Nel caso di distribuzioni in classi, non si può definire la moda ma la
classe modale, cioè la classe con maggiore frequenza.
Livello di soddisfazione
Età
freq. ass.
Classi
nk
40
0 ⊢ 10
8
6
10 ⊢ 20
10
indifferente
37
20 ⊢ 30
13
abbastanza soddisfatto
17
30 ⊢ 40
12
7
40 ⊢ 50
P
6
Modalità
molto insoddisfatto
abbastanza insoddisfatto
molto soddisfatto
P
107
49
Statistica, CLEA – p. 28/??
Media aritmetica e sue proprietà
Data una variabile quantitativa X, la media aritmetica µ per distribuzioni individuali
{a1 , . . . , aN } si calcola:
N
1 X
µ=
ai
N i=1
Proprietà della media aritmetica:
P
la somma degli scarti dalla media è zero: N
i=1 (ai − µ) = 0
P
2
la somma degli scarti al quadrato N
i=1 (ai − c) è minima quando c = µ
PN
i=1 ai = N µ
la media è compresa sempre fra il valore minimo e massino della X
aggiungendo o sottraendo a tutti i valori ai una costante c 6= 0, la media risulta
aumetata o diminuita di c
moltiplicando o dividendo tutti i valori ai per una stessa costante c la media
risulta moltiplicata per c
N.B. Dato un campione di n < N osservazioni, la media campionaria è x =
1
n
Pn
i=1
ai
Statistica, CLEA – p. 29/??
Media aritmetica per distribuzioni di frequenza
distrib. frequenza:
K
k
X
1 X
xk nk =
xk fk
N k=1
k=1
distrib. frequenza in classi
media esatta
K
K
X
1 X
µk nk =
µk fk
N k=1
k=1
dove µk è la media delle osservazioni in ogni classe
media approssimata
K
K
X
1 X
mk nk =
mk fk
N k=1
k=1
dove mk è il valore centrale della classe (∗)
N.B. (*) Sotto l’ipotesi di uniforme distribuzione nelle classi, µk = mk .
Statistica, CLEA – p. 30/??
Media aritmetica per distribuzioni di frequenza
Voto all’esame di 10 studenti = {18, 23, 18, 25, 30, 30, 27, 25, 29, 20}.
distrib. individuale
µ=
1
(18 + 23 + 18 + 25 + 30 + 30 + 27 + 25 + 29 + 20) = 24.5
10
distrib. frequenza:
Voto
xk
18
20
23
25
27
29
30
nk
2
1
1
2
1
1
2
36
20
23
50
27
29
60
xk nk
µ=
P
10
245
1
[(18 × 2) + 20 + 23 + (25 × 2) + 27 + 29 + (30 × 2)] = 24.5
10
Statistica, CLEA – p. 31/??
Media per distribuzioni in classi
Voto
nk
Classi
µk µk nk mk mk nk
Classi
nk
µk mk mk nk
18 ⊢ 24
4 (18+18+20+23)/4= 19.75
79
21
84 18 ⊢ 26
6
21.5
22
132
24 ⊢ 28
3
(25+25+27)/3= 25.67
77
26
78 26 ⊢ 28
1
27
27
27
28 ⊢⊣ 30
P
3
(29+30+30)/3= 29.67
89
29
87 28 ⊢⊣ 30 3 29.67
P
249
10
29
87
10
media aritmetica:
1 PK
µ = 10
k=1 µk nk =
245
245
10
246
= 24.5
media approssimata con classi (18 ⊢ 24), (24 ⊢ 28), (28 ⊢ 30):
1 PK
249
µ = 10
k=1 mk nk = 10 = 24.9
media approssimata con classi (18 ⊢ 26), (26 ⊢ 28), (28 ⊢ 30):
246
1 PK
µ = 10
k=1 mk nk = 10 = 24.6
N.B. L’approssimazione migliora quanto più i valori centrali mk sono vicini alle medie di
classe µk
Statistica, CLEA – p. 32/??
Media di potenza: Mr =
q P
K
r 1
rn
x
k
k
k=1
N
r = 1: la media aritmetica M1 = µ
r = 0: media geometrica (se e solo se xk ≥ 0 )
v
u K
K
uY
Y
t
xk nk =
xk fk
M0 = N
k=1
k=1
r = −1: media armonica
M−1 = PK
N
1
k=1 xk nk
= PK
1
1
k=1 xk fk
r = 2: media quadratica
v
v
u
u K
K
u1 X
uX
t
2
M2 =
xk nk = t
xk 2 fk
N k=1
k=1
Statistica, CLEA – p. 33/??
Mediana
La mediana M e:
per calcolarla è necessario ordinare le osservazioni in modo crecsente
è un indice di posizione
indica il valore che divide essattamente i dati osservati in due gruppi della stessa
numerosità
Nel caso di distribuzione unitaria:
N dispari:
M e = a N +1
2
N pari:
Me =
aN/2 + aN/2+1
2
Esempio:
{10, 25, 2, 17, 24, 9, 12} ⇒ {2, 9, 10, 12, 17, 24, 25}; (N + 1)/2 = 4, perciò
M e = a4 = 12.
{10, 25, 2, 24, 9, 12} ⇒ {2, 9, 10, 12, 24, 25}; N/2 = 3, perciò
M e = (a3 + a4 )/2 = (10 + 12)/2 = 11.
Statistica, CLEA – p. 34/??
Mediana per distribuzioni di frequenza
La mediana M e in una distrib. frequenza è la modalità xk , tale che Fk > 0.5
Funzione di ripartizione
1
F(4) = 1
F(3) = 0.96
F(2) = 0.88
0.9
0.8
frequenze rel. cumulate
Me = 1; F(1) = 0.7 >0.5
0.7
0.6
0.5
non esite x, tale che F(x) = 0.5
perchØ la funzione non Ł continua
0.4
0.3
F(0) = 0.24 < 0.5
0.2
0.1
0
-1
0
1
2
numero di figli
3
4
5
Modalità
0
1
2
3
4
freq. ass.
12
24
9
4
2
freq. rel.
0.24
0.46
0.18
0.08
0.04
freq. rel. cum.
0.24
0.70
0.88
0.96
1.00
Me = 1
Statistica, CLEA – p. 35/??
Mediana per distribuzioni in classi
La mediana M e in una distrib. in classi è la modalità xk , tale che F (xk ) = 0.5
Funzione di ripartizione
1
0.9
0.8
Freq. realtive cumulate
0.7
0.6
F(24.8) = 0.5
0.5
esiste x tale che F(x)=0.5
perchØ la funzione Ł continua
0.4
0.3
0.2
0.1
Me = 24.8
0
0
5
10
15
20
25
30
35
40
45
50
M e = 20 +
et
0.5−0.37
10
0.27
= 24.8
Età
0 ⊢ 10
10 ⊢ 20
20 ⊢ 30
30 ⊢ 40
40 ⊢ 50
fre. rel.
0.16
0.21
0.27
0.24
0.12
freq rel. cum
0.16
0.37
0.64
0.88
1.00
Classi
Statistica, CLEA – p. 36/??
Quantili
Un quantile Q:
per calcolarlo è necessario ordinare le osservazioni in modo crecsente
è un indice di posizione
indica il valore che divide essattamente i dati osservati secondo una certa
proporzione
la mediana è un quantile particolare
i quantili più usati sono
Q1 : primo quartile che o 25-esimo percentile
Q2 : secondo quartile che coincide con la M e
Q3 : terzo quartile o 75-esimo percentile
Nel caso di distribuzione unitaria:
N dispari:
Q1 = a N +1 ,
4
Q3 = a 3(N +1)
4
N pari:
Q1 =
aN/4 + aN/4+1
2
,
Q3 =
a3N/4 + a3N/4+1
2
Statistica, CLEA – p. 37/??
Quartili per distribuzioni di frequenza
Q1 e Q3 in una distrib. freq. sono la modalità xk , tale che F (xk ) > 0.25 e F (xk ) > 0.75
Funzione di ripartizione
1
0.9
Q3 = 2 ; F(2)=0.88
0.8
0.75
frequenze rel. cumulate
0.7
Q1 = Me = 1; F(1) = 0.7
0.6
0.5
0.4
0.3
0.25
0.2
0.1
0
-1
0
1
2
numero di figli
3
4
Modalità
0
1
2
3
4
freq. ass.
12
24
9
4
2
freq. rel.
0.24
0.46
0.18
0.08
0.04
freq. rel. cum.
0.24
0.70
0.88
0.96
1.00
5
Q1 = M e = 1, Q3 = 2
Statistica, CLEA – p. 38/??
Quartili per distribuzioni in classi
Q1 e Q3 in una distrib. in classi è la modalità xk , tale che F (xk ) = 0.25 e F (xk ) = 0.75
Funzione di ripartizione
1
0.9
0.8
F(34.6)=0.75
Freq. realtive cumulate
0.7
0.6
0.5
0.4
0.3
F(14.3)=0.25
0.2
0.1
Q3 = 34.6
Q1 = 14.3
0
0
5
10
15
20
25
30
35
40
45
50
et
Età
0 ⊢ 10
10 ⊢ 20
20 ⊢ 30
30 ⊢ 40
40 ⊢ 50
fre. rel.
0.16
0.21
0.27
0.24
0.12
freq rel. cum
0.16
0.37
0.64
0.88
1.00
Classi
Statistica, CLEA – p. 39/??
Proprietà della mediana e dei quartili
Sono medie di posizione che si possono calcolare per variabili quantitative o
qualitative ordinali
una volta ordinati i dati, corrispondono alla modalità della X che occupa una
certa posizione
Q1 ≤ M e ≤ Q3
PN
i=1 |ai − c| è minimo se c = M e
Differenza fra media e mediana:
la media è un indice analitico che risente dei valori estremi, la mediana no perché
è un indice di posizione
confrontando media e mediana si può verificare la simmetria/asimmetria della
distribuzione
Dist. simmetrica:
{4, 8, 12, 10, 2, 6, 14} ⇒ {2, 4, 6, 8, 10, 12, 14} : µ = 8 = M e = 8
Dist. asimmetrica positiva:
{3, 4, 20, 3, 2, 25, 2} ⇒ {2, 2, 3, 3, 4, 20, 25} : µ = 8.4 > M e = 3
Dist. asimmetrica negativa:
{16, 1, 15, 15, 2, 16, 2} ⇒ {1, 2, 2, 15, 15, 16, 16} : µ = 9.6 < M e = 15
Statistica, CLEA – p. 40/??
Simmetria
La simmetria di una distribuzione si può capire anche dall’istogramma:
Istogramma
4
3.5
x 10
3
Media = -0.005
Mediana = -0.005
2.5
2
1.5
1
0.5
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
Distrib. simmetrica: media = moda = mediana
Statistica, CLEA – p. 41/??
Asimmetria
L’asimmetria di una distribuzione si può capire anche dall’istogramma:
Istogramma
Istogramma
4000
4000
Media = 5.03
Mediana = 4.39
3500
3500
3000
3000
2500
2500
2000
2000
1500
1500
1000
1000
500
500
0
0
5
10
15
20
25
Distrib. asimmetrica positiva: moda < mediana < media
30
35
0
-25
Media = -3.99
Mediana = -3.39
-20
-15
-10
-5
0
5
Distrib. asimmetrica negativa: media < mediana < moda
Statistica, CLEA – p. 42/??
Variabilità
La variabilità è un ulteriore indicatore sintetico dei dati che ci dice quanto le osservazioni
si discostano dalla media. E’ un indicatore di dispersione.
Esempio banale:
nella distribuzione {10, 10, 10, 10, 10, 10, 10, 10} la media è 10 e la variabilità è 0
in quanto assente.
nella distribuzione {10, 15, 5, 18, 2, 19, 1, 10} la media è sempre 10 ma non c’è
assenza di variabilità.
Indici di variabilità (solo per variabili quantitative):
scarto quadratico medio
varianza
coefficiente di variazione
campo di variazione
differenza interquartile
Statistica, CLEA – p. 43/??
Scarto quadratico medio
distr. semplici
v
u
N
u1 X
(ai − µ)2
σ=t
N i=1
distr. frequenza
v
v
u
u K
K
u1 X
uX
t
2
σ=
(xk − µ) nk = t
(xk − µ)2 fk
N k=1
k=1
distr. in classi
v
v
u K
u
K
uX
u1 X
t
2
(mk − µ) nk = t
(mk − µ)2 fk
σ=
N k=1
k=1
N.B.q
Dato un campione di n < N osservazioni,
la dev. standard campionaria è
q
1 Pn
1 Pn
2, s =
2
s=
(a
−
µ)
i
i=1
i=1 (xi − µ) ni , . . .
n−1
n−1
Statistica, CLEA – p. 44/??
Varianza
La varianza è lo scarto quadratico medio al quadrato:
K
X
1
V AR(X) = σ 2 =
(xk − µ)2 nk
N k=1
Esempio banale:
nella distribuzione {10, 10, 10, 10, 10, 10, 10, 10}: µ = 10, σ = σ 2 = 0
nella distribuzione {10, 15, 5, 18, 2, 19, 1, 10}: µ = 10, σ = 6.5192, σ 2 = 42.5
Entrambi gli indici di variabilità dipendono dall’unità di misura: date due distribuzioni X e
Y , la loro variabilità non si può confrontare se si utilizzano unità di misura diverse. N.B.
Dato un campione di n < N osservazioni, la varianza campionaria è
n
1 X
(xi − µ)2 ni .
s =
n − 1 i=1
2
Statistica, CLEA – p. 45/??
Altri indici di variabilità
Coefficiente di variazione (non risente dell’unità di misura)
CV =
σ
µ
campo di variazione
xmax − xmin
differenza interquartilica:
Q3 − Q1
Statistica, CLEA – p. 46/??
Indice di asimmetria
distr. individuali
N
1 X
α= 3
(ai − µ)3
σ i=1
distr. frequenza
K
1 X
(xk − µ)3 fk
α= 3
σ k=1
distr. in classi
K
1 X
α= 3
(mk − µ)3 fk
σ k=1
Interpretazione dell’indice:
α = 0: simmetria
α > 0: asimmetria positiva
α < 0: asimmetria negativa
Statistica, CLEA – p. 47/??
Simmetria
Istogramma
4
3.5
x 10
3
Media = -0.005
Mediana = -0.005
Stand. Deviation = 1.2
Ind. Asimm. = 0
2.5
2
1.5
1
0.5
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
Distrib. simmetrica: media = moda = mediana
Statistica, CLEA – p. 48/??
Asimmetria
Istogramma
Istogramma
4000
4000
Media = 5.03
Mediana = 4.39
Dev. standard = 3.15
Ind. asimm. = 1.27
3500
3500
3000
3000
2500
2500
2000
2000
1500
1500
1000
1000
500
500
0
0
5
10
15
20
25
Distrib. asimmetrica positiva: moda < mediana < media
30
35
0
-25
Media = -3.99
Mediana = -3.39
Dev. standard = 3.19
Ind. Asimm. = -1.31
-20
-15
-10
-5
0
5
Distrib. asimmetrica negativa: media < mediana < moda
Statistica, CLEA – p. 49/??
Analisi congiunta di due variabili
Fino ad ora abbiamo analizzato singolarmente ogni variabile attraverso
indicatori di posizione (indicatori dell’andamento medio)
indicatori di scala (indicatori di variabilità)
Date due variabili X e Y vogliamo effettuare un’analisi congiunta per valutare se
esiste una relazione lineare fra le due variabili. Lo faremo attraverso
degli indicatori sintetici
covarianza
coefficiente di correlazione
modello di regressione
Statistica, CLEA – p. 50/??
Covarianza
Date N osservazioni su due variabili quantitative X = {x1 , . . . , xN } e
Y = {y1 , . . . , yN }, la covarianza è un indice che ci dice come la Y varia in media
linearmente rispetto alla X e viceversa:
COV (X, Y ) = σXY
N
1 X
=
(xi − µX )(yi − µY )
N i=1
il segno di σXY indica la direzione della relazione:
σXY (+): quando X ↑↓, in media Y ↑↓ e viceversa
σXY (−): quando X ↑↓, in media Y ↓↑ e viceversa
il valore assoluto |σXY | indica la forza della relazione, ma dipende dall’unità di
misura delle due variabili, perciò non è confrontabile con σV Z di altre due
variabili V e Z. Non ha nè un massimo nè un minimo.
N.B. Dato un campione di n < N osservazioni, la covarianza campionaria è
sXY
n
1 X
(xi − x)(yi − y)
=
n − 1 i=1
Statistica, CLEA – p. 51/??
Coefficiente di correlazione
Il coefficiente di correlazione è un indice relativo che varia fra −1 e 1 misura la relazione
lineare fra due variabili X e Y . Quindi è confrontabile fra diverse ditribuzioni:
PN
− µX )(yi − µY )
σXY
qP
=
σX σY
N
2
2
i=1 (xi − µX )
i=1 (yi − µY )
CORR(X, Y ) = ρXY = qP
N
i=1 (xi
il segno di ρXY indica la direzione della relazione:
ρXY (+): quando X ↑↓, in media Y ↑↓ e viceversa
ρXY (−): quando X ↑↓, in media Y ↓↑ e viceversa
il segno di ρXY dipende solo dalla covarianza σXY
−1 ≤ ρXY ≤ 1
ρXY = 1: perfetta dipendenza lineare positiva
ρXY = −1: perfetta dipendenza lineare negativa
N.B. Dato un campione di n < N osservazioni, il coeff. di corr. campionario è
rXY =
sxy
sx sy
Statistica, CLEA – p. 52/??
Covarianza e coefficiente di correlaione
Misurano la relazione lineare fra due variabili:
4
80
3.8
votazione media alla laurea
70
VAR(X) = 108.618
VAR(Y) = 128.511
COV (X,Y) = -2.097
CORR(X,Y)= -0.017
costo dei fiori
60
50
40
30
20
0
VAR(X) = 5716.4
VAR(Y) = 0.142
COV(X,Y)= 23.327
CORR(X,Y)= 0.818
3.6
3.4
3.2
3
2.8
10
20
30
40
50
et del consumatore
60
70
80
2.6
450
500
550
600
650
700
punteggi dei test di matematica per l’ammissione all’universit del Midwest
Statistica, CLEA – p. 53/??
Perfetta dipendenza lineare
Perfetta dipendenza lineare perché i punti sono allineati su una retta:
Perfetta dipendenza lineare positiva
Perfetta dipendenza lineare negativa
15
50
45
10
VAR(X) = 224.5
VAR(Y) = 110
COV(X,Y) = 157.15
CORR(X,Y) = 1
40
35
VAR(X) = 224.5
VAR(Y) = 110
COV(X,Y) = -157.15
CORR(X,Y) = -1
5
0
30
Y
Y
-5
25
-10
20
-15
15
10
-20
5
-25
0
0
5
10
15
20
25
X
30
35
40
45
50
-30
0
5
10
15
20
25
30
35
40
45
50
X
Statistica, CLEA – p. 54/??
Assenza di dipendenza lineare
I punti sono allineati su una parabola. Questo indica la presenza di un legame
funzionale che non è di tipo lineare:
Assenza di dipendenza lineare
5000
4500
VAR(X) = 627.793
VAR(Y) = 2134749.84
COV(X,Y) = -941.680
CORR(X,Y) = 0
4000
3500
Y
3000
2500
2000
1500
1000
500
0
-50
-40
-30
-20
-10
0
10
20
30
40
50
X
Statistica, CLEA – p. 55/??
Un modello per l’analisi bivariata
Si cerca un modello in grado di spiegare al meglio la relazione fra due variabili Y e X, in
particolare l’effetto che la X ha sulla Y
Y : variabile dipendente, variabile risposta
X: variabile indipendente, variabile esplicativa
4
80
3.8
votazione media alla laurea
70
costo dei fiori
60
50
40
30
20
10
3.6
3.4
3.2
3
2.8
20
30
40
50
et del consumatore
60
70
80
2.6
450
500
550
600
650
700
punteggi dei test di matematica per l’ammissione all’universit del Midwest
Statistica, CLEA – p. 56/??
Regressione lineare semplice
Si ipotizza che la relazione fra due variabili X e Y si può descrivere
Y = f (X) + errore
f (X) indica il comportamento della variabile Y spiegato dalla X
l’errore indica la parte residuale di Y che non può essere spiegata dalla X
se f (X) è lineare
Y = α + βX + errore
il problema statistico consiste nel trovare i valori dei coefficienti di regressione
(a, b) tali che, data la X, la retta
Ŷ = a + bX
approssima al meglio i dati Y ,
(a, b) : e = Y − Yb
l’errore è molto piccolo
Statistica, CLEA – p. 57/??
Alcuni esempi
19
-2
18
-4
60
CORR(X,Y) = -0.11
CORR(X,Y) = -0.92
40
CORR(X,Y) = 0.96
17
-6
16
-8
15
-10
14
-12
13
-14
12
-16
11
-18
20
0
-20
-40
-60
10
-2
0
2
4
6
8
10
12
14
-20
-10
-5
0
5
10
15
20
-80
-50
6
60
4.5
1
4
40
-30
-20
-10
0
10
20
30
40
-20
-10
0
10
20
30
40
x 10
0
CORR(X,Y) = -0.26
CORR(X,Y) = 0.01
20
-40
6
x 10
3.5
-1
3
-2
2.5
-3
2
-4
1.5
-5
1
-6
0.5
-7
CORR(X,Y) = 0.30
0
-20
-40
-60
-30
-20
-10
0
10
20
30
40
50
60
0
-40
-30
-20
-10
0
10
20
30
40
-8
-50
-40
-30
Statistica, CLEA – p. 58/??
Problema statistico
Dato un insieme di osservazioni X = {x1 , . . . , xN }, Y = {y1 , . . . , yN }, si devono
trovare i valori dei coefficienti di regressione (a, b) tali che, per ogni xi , la retta
ŷi = a + bxi approssima al meglio yi (minimizza la componente di errore ei = yi − ŷi )
Y
Rette di regressione, qual Ł la migliore?
18
Y=a+bX
14
10
6
Y=a+b X
22
e
18
e
14
10
6
-2
2
6
10
-2
2
6
10
X
Statistica, CLEA – p. 59/??
Metodo dei minimi quadrati
Dato un insieme di osservazioni X = {x1 , . . . , xN }, Y = {y1 , . . . , yN }, si scelgono i
valori dei coefficienti di regressione (a, b) tali che R(a, b) è minimo
R(a, b) =
N
X
i=1
N
N
X
X
e2i =
(yi − ŷi )2 =
(yi − a − bxi )2
i=1
i=1
per ogni valore xi , il valore stimato della yi è
ybi = a + bxi
e l’errore è la differenza fra il valore osservato e stimato
ei = yi − ybi
per ogni valore xi e la corrispondente stima ybi , il valore osservato è
yi = ŷi + ei
Statistica, CLEA – p. 60/??
Stime dei minimi quadrati
Dato un insieme di osservazioni X = {x1 , . . . , xN }, Y = {y1 , . . . , yN }, le stime dei
coefficienti di regressione sono
b=
COV (X, Y )
σXY
σY
= 2 = ρXY
,
V AR(X)
σX
σX
a = µy − bµx
Il segno del coeff. angolare b della retta dipende dal segno della COV (X, Y ) e
quindi della CORR(X, Y )
P
2
questi sono i valori (a, b) tali che R(a, b) = N
i=1 ei è minimo
Statistica, CLEA – p. 61/??
Due esempi
19
16
18
17
16
Media(X) = 5.02
Media(Y) = 14.50
COV(X,Y) = 7.78
VAR(X) = 15.38
VAR(Y) = 4.24
CORR(X,Y) = 0.96
Media(X) = 4.62
Media(Y) = 9.75
VAR(X) = 14.11
VAR(Y) = 4.01
COV(X,Y) = -7.30
CORR(X,Y) = -0.97
14
12
15
14
10
13
8
b = -7.30/14.11 = -0.52
a = 9.75 - 4.62*(-0.52) = 12.15
12
b = (7.78/15.38) = 0.51
a = 14.50 - 0.51*5.02 = 11.97
11
6
10
9
-6
-4
-2
0
2
4
6
8
10
12
14
4
-10
-5
0
5
10
15
Statistica, CLEA – p. 62/??
Bontà di adattamento
La qualità della regressione è tanto migliore quanto più la variabilità della Y è spiegata
dal modello piuttosto che dall’errore
N
N
N
1 X
1 X
1 X
2
2
V AR(Y ) =
(yi − µy ) =
(ŷi − µy ) +
(yi − ŷi )2
N i=1
N i=1
N i=1
dove
SSR =
1
N
1
N
PN
i=1 (ŷi
− µy )2 è la variabilità della Y spiegata dal modello
PN
− ŷi )2 è la variabilità non spiegata dal modello. In
P
2
particolare, SSE = R(a, b) = N
i=1 ei che viene minimizzata col metodo dei
minimi quadrati
SSE =
i=1 (yi
Statistica, CLEA – p. 63/??
Indice di bontà di adattamento
Dato che V AR(Y ) = SSR + SSE, si ottiene un indice della bontà di adattamento del
modello di regressione:
R2 =
SSR
SSE
=1−
= ρ2XY
V AR(Y )
V AR(Y )
0 ≤ R2 ≤ 1, è un indice relativo
R2 = 0: pessima regressione poiché V AR(Y ) = SSE e la retta di regressione è
costante ŷ = µy con b = 0 e ρXY = 0
R2 = 1: regressione perfetta poiché V AR(Y ) = SSR e i punti sono già allineati
su una retta (ρXY = ±1)
Statistica, CLEA – p. 64/??
0 < R2 < 1
0
7000
-2
6000
Bont di adattamentoBonBBont di attamento = 0.78
CORR(X,Y) = -0.89
a = -6.42
b = -0.90
-4
5000
-6
4000
-8
3000
-10
2000
-12
1000
-14
0
-16
-1000
-18
-4
-2
0
2
4
6
8
Bont di adattamento = 0.64
CORR(X,Y)= -0.80
a = -269.41
b = -73.89
10
12
-2000
-60
-50
-40
-30
-20
-10
0
10
20
30
Statistica, CLEA – p. 65/??
R2 = 0, R2 = 1
5000
4
4500
3.5
Bont di adattamento = 0
CORR(X,Y) = 0
a = media(Y) = 1218.73
b=0
4000
3
Bont di adattamento = 1
CORR(X,Y) = 1
a= 2
b = 0.7
3500
2.5
3000
2
2500
1.5
2000
1
1500
0.5
1000
0
500
0
-50
-40
-30
-20
-10
0
10
20
30
40
50
-0.5
-4
-3
-2
-1
0
1
2
3
Statistica, CLEA – p. 66/??