Dipartimento di Matematica, Informatica ed Economia (DiMIE)
Statistica
Antonio Azzollini
[email protected]
Anno accademico 2016/2017
Le medie
Le medie si applicano ai caratteri quantitativi, sia intervallari che razionali.
Esse sono misure sintetiche che consentono il passaggio da una pluralità di
informazioni ad una sola modalità.
Fra tutti i tipi di medie si distinguono:
•
•
medie lasche o di posizione determinate in base alla frequenza o alla
posizione occupata nella graduatoria delle osservazioni individuali.
(Esempi: Mediana, Quartili, Moda)
medie analitiche calcolate con operazioni algebriche sui valori del
carattere (Esempi: Media aritmetica, media geometrica, media
armonica).
Le medie
La media aritmetica
Essa si applica solo ai caratteri quantitativi. Stabilisce l’indice centrale dei
dati: si calcola dalla somma di valori numerici presi in considerazione diviso
la loro numerosità.
X = { x1 , x2 ,…, xNn }
La media aritmetica insieme di una distribuzione statistica
di un carattere quantitativo considerato su una popolazione è data dalla
seguente formula
Nn
1
1
µ = ( x1 + x2 +!+ xn ) = ∑ xi
Nn i=1
Nn
N
Per la media aritmetica si usa la notazione X quando è riferita ad un campione
della popolazione.
Le medie
La media aritmetica
Osserviamo che:
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta
traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta
traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta
traslata di quella costante.
Le medie
La media aritmetica
👉
X = {1,2, 3, 4,100}
👉
X = {1,2, 3, 4,5}
µ=3
µ = 22
👉
X = {1,2, 3, 4,1000}
👉
X = {1,2, 3, 4,15}
15
µµ==15
µ = 202
La media aritmetica non è una statistica robusta!
Le medie
La media aritmetica
Osserviamo che:
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta
traslata di quella costante.
Le medie
La media aritmetica
Esempio: per i dati (3,4,8) la media è 5
Esempio: aggiungendo il valore 2, i dati
diventano (5,6,10) e la media è 5+2=7
Esempio: calcolando la somma delle differenze
fra ciascun valore e la media si ha
(3-5)+(4-5)+(8-5)=0
Le medie
La media aritmetica
Osserviamo che:
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta
traslata di quella costante.
•
La somma delle differenze fra ciascun valore osservato
e la media è nulla (ossia la somma degli scarti è nulla)
1 Nn
1
1 n
x2 +!+ xn ) = ∑(xi - µ )=0
= ( x1 + x2 +!+ xn ) = ∑ xi
n i=1
n
n i=1
Le medie
La media aritmetica
Esempio: per i dati (3,4,8) la media è 5
Esempio: calcolando la somma delle differenze
fra ciascun valore e la media si ha
(3-5)+(4-5)+(8-5)=0
Le medie
La media aritmetica
In riferimento ad un carattere trasferibile, si dice ammontare del
carattere la somma dei valori individuali (che quindi non varia al
trasferirsi di una modalità da una unità individuale all'altra).
La media aritmetica è quella costante che, sostituita a ciascun valore
X = { x1 , x2 ,…, xn ,}, lascia invariato l’ammontare
individuale della distribuzione
N
del carattere. Infatti
Nn
1
µ = ∑ xi
N
n i=1
👉
N
n
∑x
i
= Nnµ
1=1
Ammontare della
distribuzione originale
Ammontare della
distribuzione di sole µ =
1
n
Le medie
La media aritmetica
Supponendo che un dato
xi si ripeta con frequenza Nni
k
Nn j = N
x,…,
x
,
1
≤
k
≤
n,
n
}
∑
1, x
2x,…,
k
N
XX=={{xX1x,1=x, x2{,…,
x
,
,
1
1
≤
≤
k
k
≤
≤
n,
n,
n
n
=
=
n
n
}
}
,∑
∑jj
2
kk ,
kk
j=1
j=1
j=1
La media aritmetica si ottiene attraverso la formula
1 k
µ = ∑Nni xi
Nn i=1
Le medie
La media aritmetica
Popolazione in esame: 88 studenti iscritti al corso di Economia
Carattere osservato: voto conseguito all’esame di statistica
⎧29,29,24,20,22,28,19,19,21,26,20,24,21,19,25, ⎫
⎪25,23,28,22,29,26,23,28,30,20,27,22,27,20,24, ⎪
⎪
⎪
⎪25,18,26,29,29,23,23,24,22,25,27,26,23,18,19, ⎪
X=⎨
⎬
⎪26,22,25,20,26,22,24,20,22,21,29,30,19,24,24, ⎪
⎪26,26,29,30,29,25,28,26,22,27,27,29,26,26,22, ⎪
⎪
⎪
⎩27,24,29,30,20,24,24,21,18,22,28,23,21
⎭
29 + 29 + 24 +!+ 28 + 23 + 21
µ=
= 24, 32
88
Le medie
La media aritmetica
Media aritmetica per una distribuzione di frequenze
xi
ni
ni xi
X = { xi 1 ≤ i ≤ Nn} con nN=88
= 88
1
18
3
54
(con gli elementi ripetuti)
2
19
5
95
3
20
7
140
4
21
5
105
5
22
10
220
6
23
6
138
7
24
10
240
8
25
6
150
9
26
11
286
10
27
6
162
11
28
5
140
12
29
10
290
13
30
Totale
k
⎧
⎫
X = ⎨ x j Nn j ≤ Nn volte, ∑ n j =Nn ⎬
⎪⎩
⎪⎭
j=i
(con
k elementi distinti)
Nn
T = ∑ xi
i=1
k88
88
⎧
⎫2.140
4
120
T 11
T
2.140
= ⎨ x j n j µ≤µ=n=volte,
nnj xjj xj=j==
n⎬
24,32
32
88 X 2,140
== ∑
nN
==24,
∑
∑
nn Nnnj=1j=i
⎪⎩
⎪⎭8888
j=1
N
Le medie
La media aritmetica per classi di modalità
Ricordate la distribuzione statistica relativa al numero di ore settimanali
trascorse a studiare?
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Le medie
La media aritmetica per classi di modalità
Ricordate la distribuzione statistica relativa al numero di ore settimanali
trascorse a studiare?
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
La media è
88
T 1
2.140
µ = (15,0+23,7+19,7+...+27,1+16,6)/30=19
= ∑ nj xj =
= 24, 32
n n j=1
88
Le medie
La media aritmetica per classi di modalità
Ricordate la distribuzione statistica relativa al numero di ore settimanali
trascorse a studiare?
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
La media è
88
T 1
2.140
µ = (15,0+23,7+19,7+...+27,1+16,6)/30=19
= ∑ nj xj =
= 24, 32
n n j=1
88
Come calcoleremmo la media se i dati ci fossero forniti
attraverso una distribuzione per classi di frequenza?
Le medie
La media aritmetica per classi di modalità
centri delle classi × frequenze assolute
∑
µ=
taglia
Prima scuola
Classi [10;14)
Centri
Classi
Frequ
enze
[14;18)
[18;22) [22;26) [26;30) [30;34]
12
16
20
24
28
32
5
9
9
3
3
1
(12x5)+(16x9)+(20x9)+...+(32x1)
12,5 × 5 ) + (16,5 × 9 ) +!+ 32,5
(
µ=
= 19,6
30
19,1
Le medie
La media aritmetica per classi di modalità
centri delle classi × frequenze assolute
∑
µ=
taglia
Prima scuola
Classi [10;14)
Centri
Classi
Frequ
enze
[14;18)
[18;22) [22;26) [26;30) [30;34]
12
16
20
24
28
32
5
9
9
3
3
1
(12x5)+(16x9)+(20x9)+...+(32x1)
12,5 × 5 ) + (16,5 × 9 ) +!+ 32,5
(
µ=
= 19,6
30
19,1
Osserviamo che la media è pressappoco la stessa: è un caso?
Le medie
La media pesata
La media pesata (o ponderata) di un insieme di numeri a ciascuno dei quali sia
assegnato un coefficiente (peso) è data dalla seguente formula:
numeri × pesi
∑
π=
∑ pesi
Voto medio di uno studente alla fine del primo anno del corso di economia
Materia
CFU
Voto
Materia
CFU
Voto
Materia
CFU
voto
Matematica
generale
6
21
Diritto
privato
10
26
Economia
aziendale
10
27
Economia
politica
10
25
10
23
Geografia
economica
6
27
Economia e
Gestione
delle
imprese
1
π = ( 6 × 21+ 10 × 25 + 10 × 26 + 10 × 23 + 10 × 27 + 6 × 27 ) = 24,96
52
1
µ = ( 21+ 25 + 26 + 23 + 27 + 27 ) = 24,83
6
Le medie
La media pesata
Rientra nel caso della media pesata la media di
una distribuzione di frequenze del tipo:
#Stanze
1
2
3
4
5
6
7
#Appartamenti
300
500
2,000
3,000
150
100
300
La frequenza
assoluta con la
quale si presenta
ciascuna modalità
può
essere
interpretata come
peso.
1
π=
(1× 300 + 2 × 500 +!+ 7 × 300 ) = 3,58
6350
1
µ = (1+ 2 + 3 + 4 + 5 + 6 + 7 ) = 4
7
Le medie
La media geometrica
La media geometrica di un insieme di numeri è la radice
prodotto:
n -esima del loro
σ = n x1 x2 !xn
Viene utilizzata quando si vuole analizzare il variare di un fenomeno
nel tempo, come ad esempio il tasso di variazione dei prezzi o i tassi
di rendimento di capitali.
La media geometrica è tale che
σ × σ ×!× σ = x1 × x2 ×!× xn
n volte
Le medie
La media geometrica
Esempio. Un impiegato ha ricevuto un 5% di aumento di stipendio nel 2014 e un
15% di aumento nell’anno successivo. Quant’è la percentuale di crescita media?
5% di aumento ⇒ da 100 a 105
15% di aumento ⇒ da 100 a 115
👉
σ = 2 1,15 × 1,05 = 1,09886
👉
parametri: 1,05 e 1,15
L’aumento medio è del 9,89%
L’impiegato che all’inizio del 2014 aveva 1€, alla fine del 2014 ha 1,05€ ed alla
fine del 2015 ha 1,05 × 1,15 = 1,21€
σ × σ = 1,05 × 1,15
Le medie
La media armonica
La media armonica di un insieme di numeri è l’inverso della media aritmetica degli
inversi. Serve per esempio a ricavare un valore centrale sulla velocità per dati che
si riferiscono ad intervalli temporali diversi.
δ=
n
n
1
∑x
i=1 i
.
La media armonica è tale che
1 1
1 1 1
1
+ +!+ = + +!+
δ δ
δ x1 x2
xn
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100
sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100
sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media
armonica, si osservi che
VM = spazio totale/tempo totale.
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100
sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media
armonica, si osservi che
VM = spazio totale/tempo totale.
Lo spazio totale è 4x100=400, mentre i tempi sono
T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100
sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media
armonica, si osservi che
VM = spazio totale/tempo totale.
Lo spazio totale è 4x100=400, mentre i tempi sono
T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4
Dunque
numeri
× pesi
4x100
∑
πV= =
T∑
+Tpesi
+T +T
M
1
2
3
4
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100
sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media
armonica, si osservi che
VM = spazio totale/tempo totale.
Lo spazio totale è 4x100=400, mentre i tempi sono
T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4
Dunque
4 × pesi
numeri
× pesi ∑ numeri
numeri
× pesi× pesi
numeri
4x100
4x100
∑
∑
∑
πV= =
π = =π =
π==
T
+T1pesi
+T 1+T1 1 T
+Tpesi
+T
100
100
100
1∑
1∑
1+T
1 pesi
11 1 1 1 1 ∑11pesi1 11
1r∑
11 100
M
1
+ +!+ + =+!+
+ +!+
+ =+!+
+ +!+
= + +!+
=+ ++!+
+!+
δ δ
x11 V
xδ22δ V
xn11 V
xδ22 V
x13 xV
xn24
xn
δ δδ V
xδ13 xV
xn24δ δ δ V
1
2
3
4
1
2
3
4
Le medie
La mediana
La mediana
M
di un insieme di dati (ordinato) è il suo valore centrale
È una statistica robusta perché non risente di eventuali valori anomali.
Esempio. L’età di un campione di 5 studenti è: 21,25 19, 20, 22.
👇
Campione ordinato: 19, 20, 21, 22, 25.
👇
La mediana è
M = 21
Le medie
La mediana
Esempio. L’altezza in centimetri di 4 giocatori di basket è: 186, 189, 190, 185.
👇
La mediana è… 185, 186, ?, 189, 190.
Una possibile scelta è porre
186 + 189
M=
= 187,5
2
Più in generale…
Le medie
La mediana
x1 , x2 ,…, xn rappresenta l’insieme di dati, il campione casuale deve
essere ordinato:
x(1) ≤ x( 2 ) ≤ ! ≤ x( n ) .
Il rango ( j ) di un elemento xi appartenente ad un campione indica che
questo occupa la j -esima posizione quando il campione è ordinato.
Poi si determina il rango per la mediana: .r = ( n + 1) × 0,5
.
.
.
Le medie
La mediana
x1 , x2 ,…, xn rappresenta l’insieme di dati, il campione casuale deve
essere ordinato:
x(1) ≤ x( 2 ) ≤ ! ≤ x( n ) .
Il rango ( j ) di un elemento xi appartenente ad un campione indica che
questo occupa la j -esima posizione quando il campione è ordinato.
Poi si determina il rango per la mediana: .r = ( n + 1) × 0,5
Se
n è dispari il rango sarà un numero intero e si pone M = x(r )
.
.
.
Le medie
La mediana
x1 , x2 ,…, xn rappresenta l’insieme di dati, il campione casuale deve
essere ordinato:
x(1) ≤ x( 2 ) ≤ ! ≤ x( n ) .
Il rango ( j ) di un elemento xi appartenente ad un campione indica che
questo occupa la j -esima posizione quando il campione è ordinato.
Poi si determina il rango per la mediana: .r = ( n + 1) × 0,5
n è dispari il rango sarà un numero intero e si pone M = x(r )
n
Se n è pari il rango è + 0,5 e si pone
Se
2
.
Le medie
La mediana
x1 , x2 ,…, xn rappresenta l’insieme di dati, il campione casuale deve
essere ordinato:
x(1) ≤ x( 2 ) ≤ ! ≤ x( n ) .
Il rango ( j ) di un elemento xi appartenente ad un campione indica che
questo occupa la j -esima posizione quando il campione è ordinato.
Poi si determina il rango per la mediana: .r = ( n + 1) × 0,5
n è dispari il rango sarà un numero intero e si pone M = x(r )
n
Se n è pari il rango è + 0,5 e si pone
Se
.
2
⎛
⎛ ⎛ ⎞
⎞ ⎞ .
M = xM⎛ n ⎞=M
+x⎜⎛ =nx⎞⎛x+
−⎛ nx⎜ ⎛x⎞n⎛⎞−n⎟ x×⎞⎛ −
0,5
x × 0,5
× 0,5
n⎛ n⎜⎞⎞ x+
n⎞ ⎟⎛ n⎞ ⎟
⎜⎝ ⎟⎠
⎝⎜⎝ 2 ⎟⎠⎜⎝ 2⎜⎝+12⎝⎟⎠⎟⎠ ⎜⎝ 2⎝+1⎜⎝ ⎟⎠2⎜⎝⎟⎠2⎠+1⎟⎠⎜⎝ 2 ⎟⎠ ⎠ ⎜⎝ 2 ⎟⎠ ⎠
2
Così facendo ritroviamo il secondo esempio: 185;186;187,5;189;190
.
Le medie
La mediana per distribuzioni di frequenze
#Stanze #Appartamenti Frequenze cumulate
1
300
300
2
500
800
3
2,000
2,800
4
3,000
5,800
5
150
5,950
6
100
6,050
7
300
6,350
6.351
= 3.175,5
Il rango è r = ( n + 1) × 0,5 =
2
Le medie
La mediana per distribuzioni di frequenze
#Stanze #Appartamenti Frequenze cumulate
1
300
300
2
500
800
3
2,000
2,800
4
3,000
5,800
5
150
5,950
6
100
6,050
7
300
6,350
6.351
= 3.175,5 .
Il rango è r = ( n + 1) × 0,5 =
2
300
800
2800
5800
1,1,...,1 2,2,...,2 3,3,...,3 4,4,...,4
300 volte 500 volte 2000 volte 3000 volte
L’elemento di posizione 3.175 è 4, come pure l’elemento di posizione
3.176. Pertanto possiamo porre M = 4 .
Le medie
La moda
È l’elemento che compare più spesso nel campione.
Colore dei
N° di persone
capelli
Neri
10
Castani
6
Rossi
1
👈 Moda
Moda
Biondi
5
Totale
22
👉
#Stanze #Appartamenti
1
300
2
500
3
2,000
4
3,000
5
150
6
100
7
300
Le medie
La moda
Una distribuzione si dice unimodale se ammette un solo valore modale, bimodale
se ne ammette due (ossia se esistono due valori che compaiono entrambi con la
frequenza massima), trimodale se ne ammette tre e multimodale se ne ammette
più di tre.
12
10
9
7.5
6
5
3
2.5
0
0
A
B
C
Unimodale
D
E
A
B
C
Bimodale
D
E
Le medie
La moda
Quando si ha a che fare con classi di modalità, la moda è il punto medio della
classe con frequenza più elevata.
Peso in grammi Neonati
1.800-2.200
10
2.200-2.600
32
2.600-3.000
120
3.000-3.400
254
3.400-3.800
134
3.800-4.200
40
4.200-4.600
10
👈
In questo caso il valore
della moda è 3.200.
Poligono di frequenza
L’area sottesa dall’istogramma delle frequenze relative (e dal poligono delle
frequenze) è uguale a 1.
0.35
0.263
0.175
0.088
0
A
B
C
D
E
F
Simmetria
Un poligono di frequenza simmetrico ha questa forma:
moda = media = mediana
coda sinistra
coda destra
Simmetria
Un poligono di frequenza simmetrico ha questa forma:
moda = media = mediana
coda sinistra
coda destra
Un poligono di frequenza è asimmetrico quando ha una di queste forme:
moda
mediana
media
coda destra
coda sinistra
Simmetria
Possibile indice: media − mediana ?
Modalità Frequenza
1
1
7
2
2
3
3
Moda = 7
5
4
4
Media = 5
5
5
6
6
7
7
4
2
0
1
2
3
4
5
6
7
Modalità Frequenza
7
1
7
5
2
6
3
5
4
4
5
3
6
2
7
1
Moda = 1
4
Media = 3
2
0
1
2
3
4
5
6
7
Simmetria
29
r = ( n + 1) × 0,5 =
= 14,5
2
La mediana si trova fra l’elemento di
posizione 14 e quello di posizione 15
Simmetria
1
1
1
2
2
3
29
r = ( n + 1) × 0,5 =
= 14,5
2
La mediana si trova fra l’elemento di
posizione 14 e quello di posizione 15
3
3
6
x14 = x15 = 5 ⇒ M = 5
4
4
10
5
5
15
6
6
21
7
7
28
Frequenza
Modalità Frequenza
cumulata
👈 mediana
Simmetria
1
1
1
2
2
3
29
r = ( n + 1) × 0,5 =
= 14,5
2
La mediana si trova fra l’elemento di
posizione 14 e quello di posizione 15
3
3
6
x14 = x15 = 5 ⇒ M = 5
4
4
10
5
5
15
6
6
21
7
7
28
Frequenza
Modalità Frequenza
cumulata
👈 mediana
29
r = ( n + 1) × 0,5 =
= 14,5
2
La mediana si trova fra l’elemento di
posizione 14 e quello di posizione 15
Simmetria
1
1
1
2
2
3
29
r = ( n + 1) × 0,5 =
= 14,5
2
La mediana si trova fra l’elemento di
posizione 14 e quello di posizione 15
3
3
6
x14 = x15 = 5 ⇒ M = 5
4
4
10
5
5
15
6
6
21
7
7
28
Frequenza
Modalità Frequenza
cumulata
29
r = ( n + 1) × 0,5 =
= 14,5
2
👈 mediana
mediana
La mediana si trova fra l’elemento di
posizione 14 e quello di posizione 15
x14 = x15 = 3 ⇒
M =3
👉
Modalità Frequenza
Frequenza
cumulata
1
7
7
2
6
13
3
5
18
4
4
22
5
3
25
6
2
27
7
1
28
Simmetria
1
1
1
2
2
3
29
r = ( n + 1) × 0,5 =
= 14,5
2
La mediana si trova fra l’elemento di
posizione 14 e quello di posizione 15
3
3
6
x14 = x15 = 5 ⇒ M = 5
4
4
10
5
5
15
6
6
21
7
7
28
Frequenza
Modalità Frequenza
cumulata
29
r = ( n + 1) × 0,5 =
= 14,5
2
👈 mediana
mediana
La mediana si trova fra l’elemento di
posizione 14 e quello di posizione 15
x14 = x15 = 3 ⇒
M =3
👉
Modalità Frequenza
Frequenza
cumulata
1
7
7
2
6
13
3
5
18
4
4
22
5
3
25
6
2
27
7
1
28
In entrambi i casi: media - mediana =0!
Simmetria
Introduciamo come indice di asimmetria la quantità A così definita
Asimmetria: A = ( max− M ) − ( M − min )
Dove max individua il valore massimo della modalità e min quello minimo
Simmetria
Introduciamo come indice di asimmetria la quantità A così definita
Asimmetria: A = ( max− M ) − ( M − min )
Dove max individua il valore massimo della modalità e min quello minimo
Modalità Frequenza
Frequenza
cumulata
1
1
1
2
2
3
3
3
6
4
4
10
5
5
15
6
6
21
7
7
28
A = ( 7 − 5 ) − ( 5 − 1) = −2
asimmetria negativa
Simmetria
Introduciamo come indice di asimmetria la quantità A così definita
Asimmetria: A = ( max− M ) − ( M − min )
Dove max individua il valore massimo della modalità e min quello minimo
Modalità Frequenza
Frequenza
cumulata
1
1
1
2
2
3
3
3
6
4
4
10
5
5
15
6
6
21
7
7
28
A = ( 7 − 5 ) − ( 5 − 1) = −2
asimmetria negativa
A = ( 7 − 3) − ( 3 − 1) = 2
asimmetria positiva
Frequenza
Modalità Frequenza
cumulata
1
7
7
2
6
13
3
5
18
4
4
22
5
3
25
6
2
27
7
1
28
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Mostriamo con un esempio come si determina
Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22
1° passo: Il campione va ordinato: 19,20,21,22,25
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Mostriamo con un esempio come si determina
Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22
1° passo: Il campione va ordinato: 19,20,21,22,25
2° passo: Determinare il rango (la posizione) per il primo quartile:
(n + 1) × 0,25 = 1,5.
Dunque il primo quartile Q1 si colloca fra l’elemento di posizione 1 e quello
posizione 2.
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Mostriamo con un esempio come si determina
Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22
1° passo: Il campione va ordinato: 19,20,21,22,25
2° passo: Determinare il rango (la posizione) per il primo quartile:
(n + 1) × 0,25 = 1,5.
Dunque il primo quartile Q1 si colloca fra l’elemento di posizione 1 e quello
posizione 2.
I decimali nel numero trovato mi servono per stabilire l'esatto valore del primo
quartile come stabilito nel...
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Mostriamo con un esempio come si determina
Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22
1° passo: Il campione va ordinato: 19,20,21,22,25
2° passo: Determinare il rango (la posizione) per il primo quartile:
(n + 1) × 0,25 = 1,5.
Dunque il primo quartile Q1 si colloca fra l’elemento di posizione 1 e quello
posizione 2.
I decimali nel numero trovato mi servono per stabilire l'esatto valore del primo
quartile come stabilito nel...
1,5 - 1
3° passo:
19,Q1,20,21,22,25
👉
. − 19 ) × 0,5 = 19,5
Q1 = 19 + ( 20
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Vediamo un altro esempio.
.
.
.
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Vediamo un altro esempio.
.
Esempio. L’altezza di 4 giocatori di basket è 186,189,190,185
Determinare il rango per il primo quartile: ( n + 1) × 0,25 = 1,25
In questo caso il primo quartile è 185,Q1,186,189,190
(
.
)
Q1
Q1==185,Q1,186,189,190
185
185
186
−185
185))×=
×0,25
0,25
185,25
n +××(1(186
× −0,25
1,25==185,25
.
.
Quartili
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati.
Il terzo quartile può appartenere al campione casuale oppure no.
.
Quartili
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati.
Il terzo quartile può appartenere al campione casuale oppure no.
Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22
.
Il campione va ordinato: 19,20,21,22,25
Determinare il rango per il terzo quartile: ( n + 1) × 0, 75 = 4,5
Il terzo quartile Q3 si colloca fra l’elemento di posizione 4 e quello di
. − 22 ) × 0,5 = 23,5.
Q3 = 22 + ( 25
19,20,21,22,Q3,25
posizione 5
👉
👉
Quartili
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati.
Il terzo quartile può appartenere al campione casuale oppure no.
Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22
.
Il campione va ordinato: 19,20,21,22,25
Determinare il rango per il terzo quartile: ( n + 1) × 0, 75 = 4,5
Il terzo quartile Q3 si colloca fra l’elemento di posizione 4 e quello di
. − 22 ) × 0,5 = 23,5.
Q3 = 22 + ( 25
19,20,21,22,Q3,25
posizione 5
👉
👉
Esempio. L’altezza di 4 giocatori di basket è 186,189,190,185.
Determinare il rango per il terzo quartile: ( n + 1) × 0, 75 = 3, 75
In questo caso il terzo quartile è 185,186,189,Q3,190
Q3 = 189 + (190 − 189 ) × 0, 75 = 189, 75.
Box-plot
Box-plot
Il Box-plot (o diagramma a scatola e baffi) è un diagramma che
fornisce una rappresentazione grafica della distribuzione dei dati,
evidenziando dove cade la maggioranza dei valori, e di quei valori che
differiscono di parecchio dalla norma, cosiddetti dati anomali.
Box-plot
Il Box-plot (o diagramma a scatola e baffi) è un diagramma che
fornisce una rappresentazione grafica della distribuzione dei dati,
evidenziando dove cade la maggioranza dei valori, e di quei valori che
differiscono di parecchio dalla norma, cosiddetti dati anomali.
I capisaldi nella rappresentazione di un box-plot sono
Box-plot
Il Box-plot (o diagramma a scatola e baffi) è un diagramma che
fornisce una rappresentazione grafica della distribuzione dei dati,
evidenziando dove cade la maggioranza dei valori, e di quei valori che
differiscono di parecchio dalla norma, cosiddetti dati anomali.
I capisaldi nella rappresentazione di un box-plot sono
Q0 = min( x1 , x2 ,…, xn)
• Q1 = 1° quartile
• Q2 = mediana o 2° quartile
• Q3 = 3° quartile;
• Q4 = max( x1 , x2 ,…, xn)
IQR = Q3 - Q1 = campo di variazione interquartile
•
Box-plot
Il Box-plot (o diagramma a scatola e baffi) è un diagramma che
fornisce una rappresentazione grafica della distribuzione dei dati,
evidenziando dove cade la maggioranza dei valori, e di quei valori che
differiscono di parecchio dalla norma, cosiddetti dati anomali.
I capisaldi nella rappresentazione di un box-plot sono
Q0 = min( x1 , x2 ,…, xn)
• Q1 = 1° quartile
• Q2 = mediana o 2° quartile
• Q3 = 3° quartile;
• Q4 = max( x1 , x2 ,…, xn)
IQR = Q3 - Q1 = campo di variazione interquartile
•
Introduciamo infine il numero
IQR = Q3 - Q1 = campo di variazione interquartile
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Primo quartile: ( 30 + 1) × 0,25 = 7, 75
Si colloca fra le posizioni 7 e 8
Il suo valore è fra14,2e 15 ed è pari a
14,2 + (15 − 14,2 ) × 0, 75 = 14,8.
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Primo quartile: ( 30 + 1) × 0,25 = 7, 75
Si colloca fra le posizioni 7 e 8
Il suo valore è fra14,2e 15 ed è pari a
14,2 + (15 − 14,2 ) × 0, 75 = 14,8.
Mediana: ( 30 + 1) × 0,5 = 15,5
Si colloca fra le posizioni 15 e 16
Punto medio fra 18, 3 e 18, 3
ossia 18, 3.
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Primo quartile: ( 30 + 1) × 0,25 = 7, 75
Si colloca fra le posizioni 7 e 8
Il suo valore è fra14,2e 15 ed è pari a
14,2 + (15 − 14,2 ) × 0, 75 = 14,8.
Mediana: ( 30 + 1) × 0,5 = 15,5
Si colloca fra le posizioni 15 e 16
Punto medio fra 18, 3 e 18, 3
ossia 18, 3.
Terzo quartile: ( 30 + 1) × 0, 75 = 23,25
Si colloca fra le posizioni 23 e 24
Il suo valore è fra 21, 4 e 23 ed è pari a
21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8.
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Primo quartile: ( 30 + 1) × 0,25 = 7, 75
Si colloca fra le posizioni 7 e 8
Il suo valore è fra14,2e 15 ed è pari a
14,2 + (15 − 14,2 ) × 0, 75 = 14,8.
Mediana: ( 30 + 1) × 0,5 = 15,5
Si colloca fra le posizioni 15 e 16
Punto medio fra 18, 3 e 18, 3
ossia 18, 3.
Terzo quartile: ( 30 + 1) × 0, 75 = 23,25
Si colloca fra le posizioni 23 e 24
Il suo valore è fra 21, 4 e 23 ed è pari a
21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8.
Box plot ore di studio
30
25
20
15
10
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Primo quartile: ( 30 + 1) × 0,25 = 7, 75
Si colloca fra le posizioni 7 e 8
Il suo valore è fra14,2e 15 ed è pari a
14,2 + (15 − 14,2 ) × 0, 75 = 14,8.
Mediana: ( 30 + 1) × 0,5 = 15,5
Si colloca fra le posizioni 15 e 16
Punto medio fra 18, 3 e 18, 3
ossia 18, 3.
Terzo quartile: ( 30 + 1) × 0, 75 = 23,25
Si colloca fra le posizioni 23 e 24
Il suo valore è fra 21, 4 e 23 ed è pari a
21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8.
Box plot ore di studio
30
25
20
15
10
•
Q1
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Primo quartile: ( 30 + 1) × 0,25 = 7, 75
Si colloca fra le posizioni 7 e 8
Il suo valore è fra14,2e 15 ed è pari a
14,2 + (15 − 14,2 ) × 0, 75 = 14,8.
Mediana: ( 30 + 1) × 0,5 = 15,5
Si colloca fra le posizioni 15 e 16
Punto medio fra 18, 3 e 18, 3
ossia 18, 3.
Terzo quartile: ( 30 + 1) × 0, 75 = 23,25
Si colloca fra le posizioni 23 e 24
Il suo valore è fra 21, 4 e 23 ed è pari a
21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8.
Box plot ore di studio
30
25
20
15
10
•
Q2
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Primo quartile: ( 30 + 1) × 0,25 = 7, 75
Si colloca fra le posizioni 7 e 8
Il suo valore è fra14,2e 15 ed è pari a
14,2 + (15 − 14,2 ) × 0, 75 = 14,8.
Mediana: ( 30 + 1) × 0,5 = 15,5
Si colloca fra le posizioni 15 e 16
Punto medio fra 18, 3 e 18, 3
ossia 18, 3.
Terzo quartile: ( 30 + 1) × 0, 75 = 23,25
Si colloca fra le posizioni 23 e 24
Il suo valore è fra 21, 4 e 23 ed è pari a
21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8.
Box plot ore di studio
30
25
•
20
15
10
Q3
Box-plot
Dopo aver disegnato la "scatola" ora disegnamo i "baffi"
La lunghezza di ciascun baffo "non supera" il valore convenzionale
1,5 × (Q3 − Q1)
Q3 − Q1 = 7 quindi 1,5 × 7 = 10,5
Si confronta il valore del
minimo con il valore
Q1− 10,5 = 14,6 − 10,5 = 4,1
e se ne prende il più grande.
Poiché min = 10, 3 > 4,1 allora
il baffo inferiore è collocato
in corrispondenza del minimo.
30
25
20
15
10
Box plot ore di studio
Box-plot
Dopo aver disegnato la "scatola" ora disegnamo i "baffi"
La lunghezza di ciascun baffo "non supera" il valore convenzionale
1,5 × (Q3 − Q1)
Q3 − Q1 = 7 quindi 1,5 × 7 = 10,5
Box plot ore di studio
30
25
20
Si confronta il valore del
massimo con il valore
15
Q3 + 10,5 = 22,6 + 10,5 = 33,1
e se ne prende il più piccolo.
10
Poiché max = 33,8 > 33,1 allora
il baffo superiore è collocato in corrispondenza di 33,1 .
Box-plot
Un valore del campione casuale “troppo distante” dal resto del campione
casuale si dice outlier o valore anomalo. Più precisamente un outlier è un
dato che si trova al di sopra del baffo superiore o al di sotto del baffo inferiore
del box-plot
Box plot ore di studio
30
Poiché
max = 33,8 > 33,1
allora 33,8 è un outlier. Esso si
disegna con un punto.
25
20
15
10
Box-plot
Dataset ore di studio
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Box plot ore di studio
30
25
20
15
10