Statistica
Capitolo 3
Descrizione Numerica dei Dati
Cap. 3-1
Obiettivi del Capitolo
Dopo aver completato il capitolo, sarete in grado di:
Calcolare ed interpretare la media, la mediana e la moda di
un sett di d
datiti
Trovare il campo di variazione, varianza, scarto quadratico
medio e coefficiente di variazione e conoscere il loro
medio,
significato
Applicare
pp
la regola
g
empirica
p
per descrivere la variazione
p
dei valori della popolazione attorno alla media
Spiegare la media pesata e quando usarla
Spiegare come una retta di regressione ottenuta con il
metodo dei minimi quadrati stima la relazione lineare fra
due variabili
Cap. 3-2
Argomenti Trattati nel Capitolo
Misure di tendenza centrale, variabilità, e forma
Media, mediana, moda, media geometrica
g
Quartili
Campo
p di variazione,, differenza interquartile,
q
,
varianza e scarto quadratico medio, coefficiente di
variazione
Distribuzioni simmetriche e asimmetriche
Misure di sintesi p
per la p
popolazione
p
Media, varianza, e scarto quadratico medio
La regola empirica e la disuguaglianza di Chebyshev
Cap. 3-3
Argomenti Trattati nel Capitolo
(continuazione)
Cinque numeri di sintesi e Box Plot
C
Covarianza
i
e coefficiente
ffi i t di correlazione
l i
Problemi con le misure usate p
per descrivere i
dati numericamente e considerazioni etiche
Cap. 3-4
Descrizione Numerica dei Dati
Descrizione numerica dei dati
Tendenza Centrale
Variabilità
Media Aritmetica
Campo di Variazione
Mediana
Differenza Interquartile
Moda
Varianza
Scarto Quadratico Medio
Coefficiente di Variazione
Cap. 3-5
Misure di Tendenza Centrale
Panoramica
a o a ca
Tendenza Centrale
M di
Media
n
x
M di
Mediana
M d
Moda
xi
i 1
n
Media
Aritmetica
Valore centrale delle
osservazioni ordinate
Valore più
frequente
Cap. 3-6
Media Aritmetica
La media
L
di aritmetica
it ti ((media)
di ) è la
l misura
i
di
tendenza centrale più comune
Per una popolazione di N valori:
N
xi
i 1
x1 x 2
N
xN
N
Per un campione
p
di dimensione n:
n
x
xi
i 1
n
x1 x 2
xn
n
Valori della
popolazione
Dimensione della
popolazione
Valori osservati
Dimensione del campione
Cap. 3-7
Media Aritmetica
(continuazione)
La misura di tendenza centrale più comune
Media = somma dei valori diviso il numero di valori
Influenzata da valori estremi (outlier)
0 1 2 3 4 5 6 7 8 9 10
Media
ed a = 3
1 2 3 4 5
5
0 1 2 3 4 5 6 7 8 9 10
Media
ed a = 4
15
5
3
1 2 3 4 10
5
20
5
4
Cap. 3-8
Mediana
In una lista ordinata, la mediana è il valore
“centrale” (50% prima, 50% dopo)
0 1 2 3 4 5 6 7 8 9 10
Mediana = 3
0 1 2 3 4 5 6 7 8 9 10
Mediana = 3
Non influenzata da valori estremi
Cap. 3-9
Trovare la Mediana
La posizione della mediana:
Posizione Mediana
n 1
posizione nella sequenza ordinata
2
Se il numero di valori è dispari, la mediana è il valore centrale
Se il numero di valori è p
pari,, la mediana è la media dei due
valori centrali
n 1
non è il valore della mediana, ma la
2
posizione della mediana nella sequenza ordinata
Nota che
Cap. 3-10
Moda
Una misura
U
i
di ttendenza
d
centrale
t l
Valore che ricorre più frequentemente
Non influenzata da valori estremi
Usata sia per dati numerici che categorici
Può non esserci una moda
Ci p
può
ò essere più di una
na moda
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Moda = 9
0 1 2 3 4 5 6
No Moda
Cap. 3-11
Esempio Riepilogativo
Cinque case su una collina presso una spiaggia
$2 000 K
$2,000
Prezzi delle case:
$2,000,000
500,000
300,000
,
100,000
100,000
$500 K
$300 K
$100 K
$100 K
Cap. 3-12
Esempio Riepilogativo:
Mi
Misure
di Si
Sintesi
t i
Prezzi delle case:
$2,000,000
500,000
300 000
300,000
100,000
100,000
Somma 3,000,000
Media:
($3,000,000/5)
= $600,000
Mediana: valore centrale dei dati
ordinati
= $300,000
Moda: valore più frequente
=$
$100,000
,
Cap. 3-13
Quale misura di tendenza
centrale
t l è la
l ““migliore”?
i li ”?
La media è usata in generale, a
meno che ci siano valori estremi
(outlier)
La mediana è usata spesso siccome
non è influenzata da valori estremi.
Esempio: Il prezzo mediano delle case
può essere riportato per una regione –
meno sensibile
ibil aglili outlier
tli
Cap. 3-14
Forma della Distribuzione
Descrive come i dati sono distribuiti
Mi
Misure
d
della
ll forma
f
Simmetrica o asimmetrica
Obliqua a sinistra
Media < Mediana
Simmetrica
Media = Mediana
Obliqua a destra
Media > Mediana
Cap. 3-15
Misure di Variabilità
Variabilità
Campo di
Variazione
Differenza
Interquartile
Varianza
Scarto
Quadratico
M di
Medio
Coefficiente
di Variazione
Le misure
L
i
di variabilità
i bilità
forniscono informazioni
sulla dispersione o
variabilità dei valori.
Stesso centro,
diversa variabilità
Cap. 3-16
Campo di Variazione
La più semplice misura di variabilità
Differenza tra il massimo e il minimo dei valori
osservati:
Campo di variazione = Xmassimo – Xminimo
Esempio:
0 1 2 3 4 5 6 7 8 9 10 11 12
13 14
Campo di Variazione = 14 - 1 = 13
Cap. 3-17
Svantaggi del Campo di Variazione
I
Ignora
il modo
d in
i cuii i d
dati
ti sono di
distribuiti
t ib iti
7
8
9
10
11
12
Campo di Var. = 12 - 7 = 5
7
8
9
10
11
12
Campo di Var. = 12 - 7 = 5
Sensibile agli outlier
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Campo di Var. = 5 - 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
C
Campo
di V
Var = 120 - 1 = 119
Cap. 3-18
Differenza Interquartile
Possiamo eliminare il problema degli outlier usando la
differenza interquartile
Elimina i valori osservati più alti e più bassi e calcola il
campo
p di variazione del 50% centrale dei dati
Differenza Interquartile = 3zo quartile – 1mo quartile
Si noti come il primo quartile è l’osservazione di
posizione 0.25(n+1) nella serie ordinata, mentre il terzo
quartile occupa la posizione 0.75(n+1)
IQR = Q3 – Q1
Cap. 3-19
Differenza Interquartile
Esempio:
X
minimo
Q1
25%
12
Mediana
Q3
(Q2)
25%
30
25%
45
X
massimo
25%
57
70
Differenza Interquartile
= 57 – 30 = 27
Cap. 3-20
Quartili
I Quartili dividono la sequenza ordinata dei dati in 4
segmenti contenenti lo stesso numero di valori
25%
Q1
25%
25%
Q2
25%
Q3
Il primo quartile
quartile, Q1, è il valore per il quale 25% delle
osservazioni sono minori e 75% sono maggiori di esso
Q2 coincide con la mediana (50% sono minori, 50% sono
maggiori)
Solo 25% delle osservazioni sono maggiori del terzo
quartile
Cap. 3-21
Formule per i Quartili
Un quartile si trova determinando il valore della
sua posizione nella sequenza ordinata dei dati
dati,
dove
Posizione primo quartile:
Q1 = 0.25(n+1)
Posizione secondo quartile:
(la posizione della mediana)
Q2 = 0.50(n+1)
Posizione terzo quartile:
Q3 = 0.75(n+1)
dove n è il numero di valori osservati
Cap. 3-22
Quartili
Esempio: Trova il primo quartile
Dati Campionari Ordinati: 11 12 13 16 16 17 18 21 22
(n = 9)
Q1 = è nella 0.25(9+1)=2.5 posizione nella sequenza
d e il 3zo
ordinata
di t dei
d i dati,
d ti usiamo
i
quindi
i di la
l media
di fra
f il 2do
valore,
per cui Q1 = 12.5
Cap. 3-23
Varianza della Popolazione
Media dei quadrati delle differenze fra ciascuna
osservazione e la media
N
Varianza della Popolazione:
2
( i
(x
)
2
i 1
N
dove
= media della popolazione
N = dimensione della popolazione
xi = iimo valore della variabile X
Cap. 3-24
Varianza Campionaria
Media (approssimativamente) dei quadrati delle
differenze fra ciascuna osservazione e la media
n
Varianza campionaria:
s
dove
2
(x i x)
2
i 1
n -1
X = media aritmetica
n = dimensione del campione
Xi = imo valore della variabile X
Cap. 3-25
S t Q
Scarto
Quadratico
d ti Medio
M di della
d ll P
Popolazione
l i
Misura di variabilità comunemente usata
Mostra la variabilità rispetto alla media
Ha la stessa unità di misura dei dati originali
Scarto Quadratico Medio della Popolazione:
N
((x i
)
2
i 1
N
Cap. 3-26
Scarto Quadratico Medio Campionario
Misura di variabilità comunemente usata
Mostra la variabilità rispetto alla media
Ha la stessa unità di misura dei dati originali
Scarto Quadratico Medio Campionario:
n
S
(x i x)
2
i 1
n -1
Cap. 3-27
Esempio di Calcolo:
Scarto Quadratico Medio Campionario
Dati
Campionari (xi) :
10
12
14
15
n=8
s
(10
(10
130
7
X )2
(12
2
(12
16)
4.3095
17
18
18
24
Media = x = 16
x)2
16)
2
(14
n 1
(14
8 1
x)2
16)
(24
2
(24
x)2
16)
2
Una misura della
dispersione “media” attorno
alla media
Cap. 3-28
Misurando la Variabilità
Scarto quadratico medio piccolo
Scarto quadratico medio grande
Cap. 3-29
Confrontando lo Scarto Quadratico
Medio
Dati A
11
12
13
14
15
16
17
18
19
20 21
Media = 15.5
s = 3.338
20 21
Media = 15.5
s = 0.926
0 926
20 21
Media = 15.5
s = 4.570
Dati B
11
12
13
14
15
16
17
18
19
Dati
at C
11
12
13
14
15
16
17
18
19
Cap. 3-30
Vantaggi della Varianza e
d ll S
dello
Scarto
t Q
Quadratico
d ti M
Medio
di
Sono calcolati usando tutti i valori nel set di
dati
Valori lontani dalla media hanno più peso
((poichè
i hè sii usa il quadrato
d t d
delle
ll d
deviazioni
i i id
dalla
ll
media)
Cap. 3-31
Teorema di Chebyshev
Per ogni popolazione con media , scarto
quadratico
quad
a co medio
ed o , e k > 1,, la
a pe
percentuale
ce ua e
di osservazioni che appartengono
all’intervallo
[ -k ; +k ]
è almeno
2
100[1 (1/k )]%
Cap. 3-32
Teorema di Chebyshev
(continuazione)
Indipendentemente da come i dati sono
distribuiti, almeno (1 - 1/k2) dei valori
cadranno entro k scarti quadratici medi
dalla media (per k > 1)
Esempi:
Almeno
entro
(1 - 1/12) = 0% ……..... k=1 ( ± 1 )
(1 - 1/22) = 75% …........ k=2 ( ± 2 )
(1 - 1/32) = 89% ………. k=3 ( ± 3 )
Cap. 3-33
La Regola Empirica
Se la distribuzione dei dati ha una forma
simmetrica e campanulare, allora
l’intervallo:
i
circa
i
68% dei
d i valori
l id
della
ll
1 contiene
popolazione o del campione
68%
1
Cap. 3-34
La Regola Empirica
2
3
contiene
ti
circa
i
95% dei
d i valori
l id
della
ll
popolazione o del campione
contiene circa 99.7% dei valori della
popolazione
p
p
o del campione
p
95%
2
99.7%
3
Cap. 3-35
Coefficiente di Variazione
Misura la variabilità relativa
S
Sempre
in
i percentuale
t l (%)
Mostra la variabilità relativa rispetto
p
alla media
Può essere usato per confrontare due o più set
di dati misurati con unità di misura diversa
CV
|
|
100%
CV
s
|x |
100%
Cap. 3-36
Confronto fra
C ffi i ti di Variazione
Coefficienti
V i i
Azione A:
Prezzo medio scorso anno = $50
Scarto quadratico medio = $5
CVA
s
$5
100%
100% 10%
| x|
$50
Azione B:
Prezzo medio scorso anno = $100
Scarto quadratico medio = $5
CVB
s
$5
100% 5%
100%
| x|
$100
Entrambe le
azioni hanno lo
stesso scarto
quadratico
medio, ma
l’azione B è
meno variabile
rispetto al suo
prezzo medio
Cap. 3-37
Usando Microsoft Excel
Statistica Descrittiva può essere
condotta
d tt usando
d Mi
Microsoft
ft® Excel
E
l
Seleziona il menu:
strumenti / analisi dati / statistica descrittiva
Inserire i dettagli nella finestra di dialogo
Cap. 3-38
Usando Excel
Seleziona il menu:
strumenti / analisi dati /
statistica descrittiva
Cap. 3-39
Using Excel
(continuazione)
Inserire
se e de
dettagli
ag
nella finestra di
dialogo
Seleziona l’opzione
Riepilogo statistiche
Cliccare su OK
Cap. 3-40
Output di Excel
Output di Microsoft Excel
di statistica descrittiva
usando i dati sul prezzo
delle case:
Prezzi delle case:
$2,000,000
$2
000 000
500,000
300,000
100 000
100,000
100,000
Cap. 3-41
Media Pesata
La media pesata di un set di dati è
n
x
wixi
i 1
n
wi
w 1x1 w 2 x 2
w1 w 2
wnxn
wn
i 1
Dove wi è il peso assegnato alla ima osservazione
Usata quando i dati sono già raggruppati in n classi,
con wi valori nella ima classe
Cap. 3-42
Approssimazioni per Dati
Raggruppati
Supponiamo un set di dati contiene i valori m1, m2, . . ., mk,
che occorrono con frequenze f1, f2, . . . fK
Per una popolazione di N osservazioni la media è
K
fimi
i 1
dove N
K
fi
i 1
N
Per un campione
p
di n osservazioni,, la media è
K
x
fimi
i 1
n
dove n
K
fi
i 1
Cap. 3-43
Approssimazioni per Dati
Raggruppati
Supponiamo un set di dati contenga i valori m1, m2, . . ., k,
che occorrono con frequenze f1, f2, . . . fK
Per una popolazione di N osservazioni la varianza è
K
2
fi (mi
)2
i 1
N
Per un campione di n osservazioni, la varianza è
K
s2
fi (mi x)2
i 1
n 1
Cap. 3-44
La Covarianza Campionaria
La covarianza misura la forza della relazione lineare tra due
variabili
La covarianza della popolazione:
p p
N
Cov (x , y)
xy
(x i
x
)(y i
y
)
i 1
N
La covarianza campionaria:
n
Cov (x , y) s xy
(x i x)(y i y)
i 1
n 1
Riguarda solo la forza della relazione
Non implica un effetto casuale
Cap. 3-45
Interpretazione della Covarianza
Covarianza tra due variabili:
Cov(x,y) > 0
x e y tendono a muoversi nella stessa direzione
Cov(x,y) < 0
x e y tendono a muoversi in direzioni opposte
Cov(x,y) = 0
x e y non mostrano una relazione lineare
Cap. 3-46
Coefficiente di Correlazione
Misura la forza relativa della relazione lineare tra due
variabili
Coefficiente di correlazione della popolazione:
Cov (x , y)
X
Y
Coefficiente di correlazione campionario:
r
Cov (x
C
( , y))
sX sY
Cap. 3-47
Caratteristiche del Coefficiente
di Correlazione,
C
l i
r
Senza unità di misura
Campo di variazione fra –1
1e1
Quanto più è vicino a –1, tanto più è forte la relazione
lineare negati
negativa
a
Quanto più è vicino a 1, tanto più è forte la relazione
lineare positiva
Quanto più è vicino a 0, tanto più è debole la relazione
lineare
Cap. 3-48
Diagrammi di Dispersione con
V iC
Vari
Coefficienti
ffi i ti di C
Correlazione
l i
Y
Y
r = -1
X
Y
Y
r = -.6
X
Y
Y
r = +1
X
r=0
X
r = +.3
X
r=0
X
Cap. 3-49
Usando Excel per Calcolare
il C
Coefficiente
ffi i t di C
Correlazione
l i
Selezionare
Strumenti/Analisi Dati
Scegliere Correlazione
dal menu a scorrimento
Cliccare su OK . . .
Cap. 3-50
Usando Excel per Calcolare
il C
Coefficiente
ffi i
di Correlazione
C
l i
(continuazione)
Inserire le celle contenenti i
d ti e selezionare
dati
l i
lle opzioni
i i
appropriate
Cliccare su OK per ottenere
l’output
Cap. 3-51
Interpretazione dei Risultati
Diagramma a dispersione dei voti negli esami
r = .733
100
Esiste una relazione
lineare positiva
relativamente forte
tra i voti in esame #1
e i voti in esame #2
Voto esame #2
95
90
85
80
75
70
70
75
80
85
90
95
100
Voto esame #1
Studenti con voti alti nel primo
esame tendono ad avere voti
alti
lti nell secondo
d esame
Cap. 3-52
Ottenere Relazioni Lineari
Un’equazione può essere usata per
rappresentare la migliore relazione lineare tra
due variabili:
Y=
0
+
1X
Dove Y è la variabile dipendente e X è la variabile
esplicativa
Cap. 3-53
Regressione con il
Metodo dei Minimi Quadrati
Le stime dei coefficienti 0 e 1 vengono calcolate
minimizzando la somma dei quadrati dei residui
La regressione lineare con il metodo dei minimi quadrati,
basata sui valori campionati
campionati, è
yˆ
b0 b1 x
Dove b1 è la pendenza della retta e b0 è l’ordinata
all origine:
all’origine:
b1
sy
Cov(x, y)
r
2
sx
sx
b0
y b1x
Cap. 3-54
Riepilogo del Capitolo
Si sono descritte le misure di tendenza centrale
Media, mediana, moda
Illustrate la forma della distribuzione
Simmetrica, asimmetrica
Descritte le misure di variabilità
Campo di variazione, differenza interquartile, varianza e scarto
quadratico
d ti medio,
di coefficiente
ffi i t di variazione
i i
Discusse le misure per dati raggruppati
Calcolate le misure delle relazioni tra variabili
Covarianza e coefficiente di correlazione
Cap. 3-55