Statistica descrittiva - Università degli studi di Trieste

annuncio pubblicitario
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Statistica descrittiva
Impianti industriali
Elementi di statistica 3
1
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Generalità
• Un indice sintetico (o misura statistica) è un
valore, ottenuto attraverso una procedura
esplicita, che si usa in luogo di una serie di altri
valori per darne un’informazione sintetica.
• Un indice statistico descrittivo è un valore che
serve a descrivere in modo sufficiente (utile)
come si manifesta un carattere osservato in un
campione.
Elementi di statistica 3
2
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Si impiegano due tipi di indici:
– indici di tendenza centrale (o posizione) della
distribuzione.
Essi indicano una modalità attorno a cui si
“addensano” le altre;
– indici di distribuzione o dispersione.
Essi indicano come le modalità, nel campione, si
dispongano tra loro e rispetto all’indice di tendenza
centrale, ossia informano sulla dispersione dei dati
rispetto ad esso.
Elementi di statistica 3
3
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Moda
• Il valore (o i valori) di un carattere che si verifica
più spesso in un insieme di osservazioni è
definito valore modale o moda.
• Nelle distribuzioni sperimentali discrete la moda è il
valore xi a cui corrisponde il valore di frequenza
massimo.
Non necessariamente è unica.
• Nel caso di distribuzioni continue, se si dispone del
grafico della distribuzione, la moda può essere
identificata visivamente.
Elementi di statistica 3
4
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Nelle distribuzioni sperimentali discrete la moda è il
valore xi a cui corrisponde il valore di frequenza
massimo.
• Se invece si dispone dell’equazione descrittiva f(x), la
moda si determina con
df ( x )
=0
dx
• La moda è l’unica misura statistica di tendenza centrale
impiegabile nel caso di caratteri qualitativi.
• La presenza di più di una moda è spesso indice del fatto
che il campione comprende individui di più popolazioni.
Elementi di statistica 3
5
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Mediana
• Se gli n valori di un carattere quantitativo di un
campione sono posti in ordine crescente, si
definisce mediana xme quel valore che è
preceduto e seguito dallo stesso numero di dati.
• Valori discreti in numero dispari
Si possono dividere gli n dati in (n = n’ + 1 + n’) e quindi
la mediana è il dato (n’+1).
• Valori discreti in numero pari
Sono presenti due valori centrali (xi e xi+1), per
convenzione:
xi + xi +1
xme =
2
Elementi di statistica 3
6
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Quindi:
– se n è dispari, la mediana è il valore presente alla
posizione (n+1)/2;
– se n è pari, la mediana è data dalla media del valore
n/2 e n/2+1.
• Nel caso di valori continui si ricorre alla curva
cumulata.
• Se si hanno n casi con n grande a piacere si traccia la
curva cumulata.
Si rileva il valore delle frequenze cumulate pari a n/2 in
corrispondenza del quale si trova la mediana.
Elementi di statistica 3
7
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Dividendo per n si rileva il valore di P(x)=0,5.
Ciò consente di estendere la definizione di mediana
anche nel caso di n→∞.
• Se si hanno classi di valori la mediana corrisponde al
valore dell’intervallo (valore centrale) per il quale la
distribuzione cumulata delle frequenze relative
raggiunge il 50% del valore.
• Esempio
Alla fine di un lancio di produzione una macchina ha
prodotto dei pezzi di cui si conta il numero di difetti:
il 10% ha 4 difetti, il 20% ha 3 difetti, il 25% ha 2 difetti, il
20% ha 1 difetto e il 25% non ha difetti; si può
determinare la mediana senza conoscere n?
Elementi di statistica 3
8
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Proprietà della mediana
• Si consideri la somma dei valori assoluti delle differenze
tra i valori della variabile e uno di essi.
Tale somma è minima quando il valore fissato è la
mediana:
n
∑ xi − xme = min
i =1
• In una serie di dati ogni valore estratto in modo casuale
ha la stessa probabilità di essere inferiore o superiore
alla mediana.
Elementi di statistica 3
9
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• La mediana è insensibile ai valori estremi di una
distribuzione
essa non è infatti calcolata tenendo conto dei
valori della variabile.
• La mediana è la misura di tendenza centrale
utilizzata nella quasi totalità dei test non
parametrici (ad es., per variabili ordinali).
Elementi di statistica 3
10
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Esempio: 9 valori di altezza (cm)
162 172 178 181 168 172 179 184 177
165
170
175
180
altezza
Elementi di statistica 3
11
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
162 168 172 172 177 178 179 181 184
Consuntivi descrittivi:
Min.
162.0
Mediana
177.0
Max.
184.0
• Se si fossero campionati altri due valori:
164 201
cosa si sarebbe ottenuto?
Elementi di statistica 3
12
Università degli Studi di Trieste – a.a. 2009-2010
170
Impianti industriali
180
190
200
altezza
Elementi di statistica 3
13
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
162 164 168 172 172 177 178 179 181 184 201
Min.
162.0
Mediana
177.0
Max.
201.0
• Se si fosse campionato solo il valore 201:
Min.
162.0
Mediana
177.5
Max.
201.0
• La mediana non è molto sensibile ai valori
estremi.
Elementi di statistica 3
14
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Quantili o frattili
• L’idea di ripartire l’intervallo di variabilità delle x in parti
ordinate, nato dalla definizione di mediana, si può
sviluppare introducendo il concetto di quantile o frattile.
• Suddividendo l’insieme di variazione di x in k parti, in
modo che ciascuna contenga 1/k del totale dei dati, si
raggiunge lo scopo.
• Si costruisce la funzione cumulata in modo che al frattile
h corrisponda una frequenza cumulata uguale ad h%
della popolazione totale.
Elementi di statistica 3
15
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Molto usati sono i percentili.
Si suddivide l’intervallo delle probabilità cumulate in 100
parti e in corrispondenza dell’i-esimo valore percentuale
(ad es. 10%) si individua il valore della variabile (il
decimo percentile).
100%
50%
10%
Elementi di statistica 3
x
16
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Allo stesso modo sono definiti i quartili, decili ecc.
Esempio
La mediana è il 50°percentile, il 5°decile, il 2°quar tile.
• Se si opera nel caso discreto il calcolo dei quantili si può
fare solo se il numero dei dati soddisfa a certe condizioni
(cfr. la mediana).
• Negli altri casi si fa l’ipotesi di uniforme ripartizione che
consente di ottenere un valore calcolato ma non
effettivamente presente tra i dati.
• Nel caso della ripartizione in classi, si assume per
convenzione come frattile il valore della classe più vicino
al valore calcolato.
Elementi di statistica 3
17
Università degli Studi di Trieste – a.a. 2009-2010
•
Impianti industriali
Regola di calcolo (valori discreti)
1. si ordinano gli n valori in ordine crescente;
2. si calcola il prodotto k = (n+1)·p, dove p = 0,25 per il
primo quartile ecc.
3. se k è intero, il quartile è pari al valore che nel
campione ordinato occupa la k-esima posizione;
4. se k non è intero, il quartile si trova calcolando la
media del valore k-esimo e (k+1)-esimo.
Elementi di statistica 3
18
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Media
Definizione generale
• Un qualunque valore compreso tra il minimo e
massimo di un insieme di dati è detto valore
medio.
• Sono possibili diversi valori medi: la scelta di
uno specifico dipende dalle sue proprietà e dagli
obiettivi dell’analisi.
• Gli indici di posizione sono valori medi.
Elementi di statistica 3
19
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Media aritmetica
Valori discreti
• Sia data una successione di numeri x1, x2, …, xn che
rappresenti i valori di un certo carattere X in n
osservazioni.
• Se X ha carattere additivo, si ha
Xtot = x1 + x2 + … + xn
Xtot è il “carattere totale”, somma dei “caratteri parziali”.
Elementi di statistica 3
20
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Nell’ipotesi vista si possono sostituire gli n valori variabili
con n valori costanti in modo che la somma sia pari a
n
Xtot:
M
+4
M2
+4
... 4
+3
M = X tot = ∑ xi
14
n _ volte
i=
=1
1
n
(1)
xi
M =∑ =x
i =1 n
(arithmetic mean)
Esempio
• Si svolge un’indagine sui difetti riscontrati in una linea
prelevando 30 campioni di 100 unità di prodotto.
• I risultati sono riportati sulla tabella seguente:
Elementi di statistica 3
21
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
n°difetti
n°di campioni
0
5
1
6
2
7
3
4
4
0
5
5
6
3
• Indicato con N il numero di campioni e con Nv il numero
di classi di valori, la media può essere ricavata come:
Nv
1 Nv
fi
x = ∑ xi ⋅ f i = ∑ xi ⋅
N i =1
N
i =1
Elementi di statistica 3
22
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Quindi:
5
6
7
4
0
5
3
x = 0 × + 1× + 2 × + 3 × + 4 × + 5 × + 6 ×
= 2,5
30
30
30
30
30
30
30
Media aritmetica e mediana
• La mediana è un indice di posizione più adeguato della
media aritmetica per dati con asimmetrie rilevanti.
Elementi di statistica 3
23
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Esempio delle altezze
162 168 172 172 177 178 179 181 184
Consuntivi descrittivi:
Min.
162.0
Mediana
177.0
Media
174.8
Max.
184.0
• Nel caso del campionamento degli altri due
valori (164 201) o del solo valore estremo (201)
si otterranno i risultati seguenti.
Elementi di statistica 3
24
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
162 164 168 172 172 177 178 179 181 184 201
Min.
162.0
Mediana
177.0
Media
176.2
Max.
201.0
• Se si fosse campionato solo il valore 201:
Min.
162.0
Mediana
177.5
Media
177.4
Max.
201.0
• La media è sensibile ai valori estremi.
Elementi di statistica 3
25
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• A differenza di moda e mediana, la media prende
in considerazione le informazioni contenute in ogni
dato; prelevando campioni della stessa
dimensione da una popolazione, la media subisce
oscillazioni di valore più contenute.
• La mediana non è sensibile ai valori delle
variabili purché non muti l’ordinamento dei valori
delle stesse.
Dunque nel caso di variabili di tipo ordinale si
può utilizzare solo la mediana.
Elementi di statistica 3
26
Università degli Studi di Trieste – a.a. 2009-2010
Esempio
Elementi di statistica 3
Impianti industriali
(Studio di Pedersen et al., 2002)
0
5
1
49
2
4
3
5
4
9
media =
5
4
mediana =
6
4
7
1
8
1
9
2
10
3
11
2
12
3
13
1
15
2
18
1
19
2
30
2
40
1
45
1
150
2
6000
1
64,9
1
27
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Valori in classi
• Nel caso di valori nel continuo si considera il
valore centrale della classe come riferimento.
• Si ipotizzi che i valori all’interno di ciascuna
classe si distribuiscano uniformemente.
• In tal caso il valore centrale di ognuna delle Nc
classi, xi, rappresenta la media degli ni valori
dell’intervallo.
Elementi di statistica 3
28
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Si può quindi scrivere:
n
xi
x=∑
i =1 n
ni ⋅ xi N c
x=∑
= ∑ν i ⋅ xi
n
i =1
i =1
Nc
(2)
media aritmetica ponderata con le probabilità νi.
• Si noti che in generale, in assenza dell’ipotesi
vista, il valore ottenuto con le relazioni
precedenti costituisce una stima della media dei
valori.
Elementi di statistica 3
29
Università degli Studi di Trieste – a.a. 2009-2010
Si ottiene ~
x = 6,730
Elementi di statistica 3
Impianti industriali
invece di x = 6,596
30
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Media ponderata
• Si associno dei pesi wi ai valori xi secondo l’importanza
dei valori stessi.
• In questo caso si deve compensare il diverso “peso” dei
valori; la media ponderata sarà
n
(3)
x=∑
i =1
wi ⋅ xi
n
∑w
i =1
Elementi di statistica 3
i
31
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Valori continui
• Nel caso si abbia la f(x) su x continua tra due valori xmin
e xmax, la media si ricava intuitivamente dalla definizione
utilizzata per le classi;
per Nc → ∞ si sostituisce a
∑
xmax
∫
xmin
alla probabilità ν i si sostituisce f(x)dx
quindi :
(4)
x = E{x} =
xmax
∫ x ⋅ f ( x)dx
xmin
Elementi di statistica 3
32
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Proprietà della media aritmetica
1. La somma algebrica delle differenze tra ogni termine e
la media è nulla.
2. Data una successione di dati, la somma dei quadrati
delle differenze tra ogni termine ed un numero M è
minima quando M = x
3. Gode della proprietà associativa
Se una variabile statistica è divisa in k gruppi di cui si
conoscono le relative medie x1 , x2 ,..., xk
e frequenze p1 , p2 ,..., pk
Elementi di statistica 3
33
Università degli Studi di Trieste – a.a. 2009-2010
Si ottiene:
Impianti industriali
k
x=∑
i =1
pi ⋅ xi
k
∑p
i =1
i
4. Proprietà aritmetiche
• Sommando una costante c a ogni valore xi di un
insieme di valori si ottiene:
M ( xi + c) = M ( xi ) + c
•
Sottraendo una costante c a ogni valore xi di un
insieme di valori si ottiene:
M ( xi − c) = M ( xi ) − c
Elementi di statistica 3
34
Università degli Studi di Trieste – a.a. 2009-2010
•
Impianti industriali
Moltiplicando ogni valore xi di un insieme di valori per
una costante c ottiene:
M (c ⋅ xi ) = c ⋅ M ( xi )
•
Dividendo ogni valore xi di un insieme per una costante
c ottiene:
 xi  M ( xi )
M  =
c
c
•
In generale:
M (c ⋅ xi + b) = c ⋅ M ( xi ) + b
Elementi di statistica 3
35
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Misure di dispersione
• Si possono presentare campioni che hanno lo
stesso valore di tendenza centrale, ma la cui
distribuzione è nettamente diversa.
• La misura di tendenza centrale non è quindi
sufficiente per descrivere le caratteristiche di un
campione.
• Si dovranno introdurre degli indici che tengano
conto di quanto i valori delle osservazioni
differiscano tra loro.
Elementi di statistica 3
36
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Definizioni
Scarto
Dato un insieme di valori x1, x2, …, xn, si definiscono
scarti semplici (deviazioni) da un valore qualunque a, le
quantità:
Li = xi − a
Devianza
Dato un insieme di valori x1, x2, …, xn, si definisce
devianza D la somma dei quadrati degli scarti fra i valori
e la loro media aritmetica:
n
D = ∑ ( xi − x ) 2
i =1
Elementi di statistica 3
37
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Campo di variazione
• Si abbia un insieme di dati x1, x2, …, xn.
La misura di dispersione più semplice è il campo o
intervallo di variazione (range) dei valori:
R = xmax − xmin
• Questa misura è insensibile alla distribuzione “interna”
dei dati in un insieme: tiene infatti conto solo dei valori
estremi.
• Si identificano, però, immediatamente i valori oltre i quali
non sono presenti osservazioni.
Elementi di statistica 3
38
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Sintesi di una distribuzione
• Si può pensare di dividere la distribuzione
campionaria in quattro parti uguali delimitate da
primo quartile, mediana e terzo quartile.
• Una sintesi è quella a 5 punti:
–
–
–
–
–
Q0 = minimo
Q1 = primo quartile
Q2 = mediana
Q3 = terzo quartile
Q4 = massimo
Elementi di statistica 3
39
Università degli Studi di Trieste – a.a. 2009-2010
•
Impianti industriali
Seguendo questa logica si costruisce il
diagramma a scatola (box-and-whiskers plot o
boxplot):
1. si determinano i cinque punti;
2. si disegna una scatola estesa da Q1 (primo quartile)
a Q3 (terzo quartile);
3. nella scatola si disegna una linea che indica la
mediana;
4. si calcola il campo di variazione (o differenza)
interquartile (interquartile range – IQR = Q3 – Q1);
Elementi di statistica 3
40
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
5. si calcolano i limiti (fences) inferiore e superiore
FL = Q1 – (1,5 · IQR)
FU = Q3 + (1,5 · IQR)
6. i valori inferiori a FL o superiori a FU sono disegnati
come punti singoli sul grafico;
7. il valore più alto ma inferiore a FU è detto valore
superiore interno, quello più piccolo e superiore a FL
è detto valore inferiore interno: si traccia un
segmento da Q3 al valore superiore interno e uno
da Q1 al valore inferiore interno.
Elementi di statistica 3
41
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• I diagrammi a scatola forniscono informazioni
visive sulla tendenza centrale, la dispersione e
la forma della distribuzione dei dati.
6.5
valore estremo
6
5.5
Values
5
4.5
4
terzo quartile
Qui è contenuto il 50%
dei valori.
mediana
3.5
primo quartile
3
2.5
2
1
Column Number
Elementi di statistica 3
42
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
freq. rel.
0,194
0,177
0,290
0,145
0,081
0,016
0,032
0,000
0,032
0,016
0,000
0,016
densità
0,0968
0,0887
0,1452
0,0726
0,0403
0,0081
0,0161
0,0000
0,0161
0,0081
0,0000
0,0081
15
12
10
0
2
5
4
6
10
8
Frequency
14
16
20
18
20
interv. classe freq. assol.
1-<2
12
3-<5
11
5-<7
18
7-<9
9
9-<11
5
11-<13
1
13-<15
2
15-<17
0
17-<19
2
19-<21
1
21-<23
0
23-<25
1
1
3
5
7
9
11
13
15
17
19
21
23
25
PM (g gallone)
Elementi di statistica 3
43
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Scarto medio assoluto
• Maggiore la dispersione dei dati di un campione,
maggiori saranno gli scarti rispetto alla media.
• Una misura della dispersione potrebbe essere quindi la
somma di tutti questi scarti.
• Problema: la somma degli scarti rispetto alla media di un
campione di dati è nulla.
• Si potrebbe ricorrere agli scarti rispetto ad un’altra
misura di posizione.
• Considerando la mediana si può sfruttare la proprietà
che la somma dei valori assoluti degli scarti sarà minima.
Elementi di statistica 3
44
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Più spesso si ricorre ai valori assoluti degli scarti rispetto
alla media: in tal modo si supera il problema.
• Si abbia un insieme di dati x1, x2, …, xn.
Lo scarto medio assoluto (mean absolute deviation) è
| xi − x |
SM = ∑
n
i =1
n
(5)
• Questo indice è comunque poco usato poiché i valori
assoluti sono difficili da trattare algebricamente.
• Inoltre questa misura non è facilmente “apprezzabile”
intuitivamente.
Elementi di statistica 3
45
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Nella statistica non parametrica si utilizza come
misura di dispersione lo scarto medio assoluto
dalla mediana:
| xi − xme |
=∑
n
i =1
n
S me
• In base alle proprietà della mediana, Sme è il
minimo tra tutti gli scarti medi assoluti.
• Solo per distribuzioni di dati simmetriche si ha
che SM=Sme
Elementi di statistica 3
46
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Varianza
• Anziché impiegare i valori assoluti, un modo per rendere
positivi i valori degli scarti è quello di elevarli al quadrato.
• La media aritmetica dei valori così ricavati può quindi
essere determinata.
• Nel caso dei dati di una popolazione di N osservazioni
con media µ la varianza è:
N
(6)
Elementi di statistica 3
σ2 =
2
(
x
−
µ
)
∑ i
i =1
N
47
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Nel caso si abbia un campione di n casi, la
n
(6’)
s2 =
2
(
x
−
x
)
∑ i
i =1
i=
n
consente di calcolare la varianza del campione come
fosse la popolazione di interesse.
• Se però si intende stimare la varianza della popolazione
da cui il campione deriva, è necessario utilizzare la
seguente relazione:
n
2
(
x
−
x
)
∑
i
(7)
s 2 = i =1
n −1
Elementi di statistica 3
48
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Si dimostra infatti che la stima della varianza della
popolazione fatta con la (6’) è una stima distorta.
• Prelevati diversi campioni dalla popolazione e calcolata
la varianza per ciascuno, si verifica che i valori ottenuti
sistematicamente sottostimano il valore della varianza
della popolazione.
• La stima attraverso la (7) non è distorta, purché la
numerosità della popolazione sia almeno 50 volte
superiore alla numerosità dei campioni estratti.
Osservazione
La media di un campione calcolata con la (1) è una
stima non distorta della media della popolazione (µ).
Elementi di statistica 3
49
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Deviazione standard
• La varianza è espressa nell’unità di misura di x al
quadrato.
• Per ricavare una misura espressa nelle stesse unità si
impiega la deviazione standard o scarto quadratico
medio.
• Nel caso dei dati di una popolazione di N osservazioni
con media µ la dev. std. è:
N
(8)
Elementi di statistica 3
σ=
2
(
x
−
µ
)
∑ i
i =1
N
50
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Per le stesse ragioni esposte precedentemente, la stima
non distorta della dev. std. di una popolazione attraverso
un campione di numerosità n è
n
s=
(9)
2
(
x
−
x
)
∑ i
i =1
n −1
• Nel caso i dati di una popolazione o di un campione
siano raggruppati in classi, la dev. std. è approssimabile
dalle (cfr. (2)):
Nc
(10)
σ=
Elementi di statistica 3
2
p
(
x
−
µ
)
∑ i i
i =1
N
Nc
(10’) s =
2
p
(
x
−
x
)
∑ i i
i =1
n −1
51
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Distribuzione normale
• Tra le distribuzioni di
frequenze, la
distribuzione normale
riveste un’importanza
centrale.
• Essa ha una forma “a
campana” ed è
simmetrica rispetto
all’asse verticale che
passa per il vertice
(moda).
Elementi di statistica 3
f(x)
x
µ
52
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• La distribuzione normale è una distribuzione teorica che
può assumere infiniti valori x (per un infinito numero di
osservazioni).
• Come avviene per tutte le curve di densità di
distribuzione delle frequenze:
– l’area compresa tra la curva e l’asse delle ascisse
racchiude il 100% delle osservazioni;
– la frequenza dei valori compresi tra due valori di ascissa x1
e x2 è pari all’area racchiusa dalla curva e dall’intervallo
(x2-x1).
• Dalla simmetria della distribuzione deriva che:
la media e la mediana coincidono con la moda.
Elementi di statistica 3
53
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Proprietà notevole
si può determinare la percentuale di valori che cadono
tra la media e un valore x generico quando tale distanza
è misurata in deviazioni standard.
• In particolare, tra la media e 1 deviazione standard sono
compresi il 34% circa dei valori della distribuzione.
Esempio
Una distribuzione normale con media 25 e σ = 3,
presenterà il 68% circa delle osservazioni tra i valori 22 e
28.
• Anche se i valori x sono infiniti, solo lo 0,27% delle
osservazioni assume valori maggiori alla media più 3σ e
valori inferiori alla media meno 3σ.
Elementi di statistica 3
54
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Variabili standardizzate
• Quando si debbano confrontare indici, distribuzioni di
eventi, campioni e popolazioni che hanno caratteri
diversi o differenti unità di misura, è opportuno utilizzare
grandezze omogenee o adimensionali.
Coefficiente di variazione
• Nel caso di dati disomogenei può risultare utile
confrontare i valori di indici che relativizzino la
dispersione dei dati rispetto al valore più rappresentativo
dell’insieme di dati.
Elementi di statistica 3
55
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Poiché lo s.q.m. ha le stesse dimensioni della media, si
può introdurre il coefficiente di variazione
(adimensionale):
s
CV (%) = × 100
(11)
x
• Esso è una misura della variabilità relativa:
a parità di s un insieme di dati che presenta una media
più bassa avrà un CV maggiore.
Elementi di statistica 3
56
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Variabile standardizzata
• Nelle analisi di dati, è importante valutare come il valore
che un carattere assume in un’osservazione si posiziona
rispetto ai valori nelle altre osservazioni.
Esempio
Sapere che un individuo oi è alto 185 cm non ha un grande
significato in termini assoluti.
Anche conoscendo la media delle altezze (ad es. 175 cm)
l’informazione non migliora di molto.
Per valutare di quanto l’altezza di oi è superiore alla media,
rispetto agli altri individui, è necessario conoscere la
deviazione standard.
Elementi di statistica 3
57
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
La “posizione” di oi nel campione è ben diversa se nel
campione stesso s = 5 cm o se s = 10 cm.
Nel primo caso l’altezza di oi è di 2 dev. std. superiore alla
media, nel secondo è superiore solo di 1 dev. std.
• Se la distribuzione delle frequenze che descrive la
popolazione è normale, è possibile esprimere tali
“distanze” in termini di quale percentuale delle
osservazioni cade al di sotto o al di sopra di un certo
valore.
Esempio
Nel caso visto se σ = 5cm, l’altezza di oi si pone nel 2,3%
circa della popolazione.
Elementi di statistica 3
58
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Si rende opportuno sintetizzare in un unico dato sia la
deviazione di un valore dalla media dei valori, sia la
misura di tale deviazione in deviazioni standard.
• Per ottenere questo si impiega la seguente espressione
che dà luogo alla variabile standard z:
(12)
z=
xi − µ
σ
• Si noti che, indipendentemente dal valore della media e
della dev. std. della variabile di origine:
– la media di z è 0;
– la deviazione standard di z è 1.
Elementi di statistica 3
59
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
15,87%
-3
Elementi di statistica 3
-2
-1
0
1
2
3
60
Università degli Studi di Trieste – a.a. 2009-2010
Esempio
Nel caso precedente:
Impianti industriali
185 − 175
=2
z=
5
• Si noti come il dato z=2 contenga più informazioni del
dato di origine x=185: il primo riassume sia la media che
la dev. std della distribuzione.
• La trasformazione nella variabile std. rende possibile
valutare la posizione dell’osservazione nel campione.
• Quando la distribuzione di origine è normale si ha una
informazione più “ricca”: la posizione dell’osservazione
nei confronti degli individui della popolazione.
• Spesso le popolazioni reali sono con buona
approssimazione normali.
Elementi di statistica 3
61
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Momenti
• Dato un insieme di valori x1, x2, …, xn e un’origine
qualsiasi A, il momento di ordine R è definito come:
( xi − A) R
mR = ∑
n
i =1
n
(13)
• Si tratta quindi di calcolare la media delle R-esime
potenze degli scarti rispetto ad A.
• L’origine può essere arbitraria, ma di particolare
interesse sono lo 0 e la media.
Elementi di statistica 3
62
Università degli Studi di Trieste – a.a. 2009-2010
n
• origine 0
mR 0
Impianti industriali
R
xi
=∑
i =1 n
• origine x
n
n
• se R=0
1
m00 = ∑ = 1
i =1 n
• se R=0
1
m0 x = ∑ = 1
i =1 n
• se R=1
xi − x
m1 x = ∑
=0
n
i =1
n
n
• se R=1
xi
m10 = ∑ = x
i =1 n
n
• se R=2
Elementi di statistica 3
2
xi
m20 = ∑
= x2
i =1 n
( xi − x ) R
mRx = ∑
n
i =1
n
( xi − x ) 2
2
m
=
=
σ
• se R=2 2 x ∑
n
i =1
n
63
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Si nota che il momento di ordine 0 è sempre 1,
qualunque sia l’origine.
• Il riferimento è scelto sulla base degli obiettivi dell’analisi.
Caso continuo
• Se la funzione di densità di probabilità è continua, il
momento di ordine R calcolato rispetto ad un’origine
arbitraria A è:
+∞
(14)
Elementi di statistica 3
mR = ∫ ( x − A) f ( x )dx
R
−∞
64
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Indici di forma
• Le funzioni di distribuzione presentano
caratteristiche di forma che le differenziano in
misura minore o maggiore dalla normale.
• Si possono ricavare degli indici di forma a partire
dai momenti precedentemente descritti.
• Gli indici più usati sono:
– indici di asimmetria;
– indici di appiattimento.
Elementi di statistica 3
65
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Indici di asimmetria
• Una distribuzione si dice simmetrica rispetto ad
un asse verticale di ascissa x = x0
se ∀α si ottiene f(x0 + α ) = f ( x0 − α )
• In una distribuzione simmetrica:
x0 = moda = mediana = media aritmetica
• In una distribuzione simmetrica tutti i momenti di ordine
dispari, calcolati rispetto alla media, sono nulli.
Elementi di statistica 3
66
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Indice di Pearson (skewness)
• Nelle distribuzioni asimmetriche la media aritmetica si
sposta, rispetto alla mediana, verso la “coda” più lunga.
Mo
x
Md
Elementi di statistica 3
x
Md
Mo
67
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Si può quindi ricavare un primo indicatore di asimmetria
considerando:
A = x − xme
se A=0 simmetrica, A>0 asimm. a dx, A<0 asimm. a sin.
o meglio
Sk ' =
x − xme
σ
• Una misura più sensibile è però ottenibile attraverso i
momenti del 3°ordine calcolati rispetto alla media.
• L’indice, adimensionale, è denominato indice di
skewness:
Sk =
Elementi di statistica 3
m3 x
σ
3
68
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
Indice di appiattimento (curtosi)
• Le distribuzioni possono essere più o meno appiattite.
• Il coefficiente di curtosi (kurtosis) è espresso attraverso i
momenti del 4°ordine rispetto alla media:
k=
m4 x
σ4
• La distribuzione normale ha k=3.
• Curtosi maggiori di 3 indicano distribuzioni più
“appuntite”.
• Curtosi minori di 3 indicano distribuzioni più appiattite.
Elementi di statistica 3
69
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Esempio
Si sono campionati 62 valori di emissione di particolato;
utilizzando la funzione “Analisi dati” di Excel, si ottiene:
PM
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Elementi di statistica 3
6,596
0,574
5,750
6,320
4,519
20,421
3,604
1,748
22,270
1,110
23,380
408,980
62
70
Università degli Studi di Trieste – a.a. 2009-2010
Impianti industriali
• Nel caso di R(*), con il comando
> summary(nomevariabile)
si ottiene:
(*)
Min.
1st Qu.
Median
Mean
3rd Qu.
Max.
1.110
3.487
5.750
6.596
7.755
23.380
Gli interessati possono fare riferimento a diversi documenti
introduttivi, disponibili on-line; si consulti la pagina:
http://cran.r-project.org/other-docs.html
Elementi di statistica 3
71
Università degli Studi di Trieste – a.a. 2009-2010
Elementi di statistica 3
Impianti industriali
72
Impianti industriali
60
40
20
20
18
0
16
civ. amb.
informazione
ind. TS
ind. PN
navale
frequenza assoluta
studenti
80
100
120
Università degli Studi di Trieste – a.a. 2009-2010
14
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
8
9
giorni
Elementi di statistica 3
73
Università degli Studi di Trieste – a.a. 2009-2010
classi
val
cent
freq
freq
cum
2,1-2,5
2,3
5
5
2,6-3,0
2,8
6
11
3,1-3,5
3,3
7
18
3,6-4,0
3,8
8
26
4,1-4,5
4,3
10
36
4,6-5,0
4,8
5
41
5,1-5,5
5,3
5
46
5,6-6,0
5,8
4
50
Impianti industriali
12
10
8
6
50
4
2
0
2,3
Elementi di statistica 3
2,8
3,3
3,8
4,3
4,8
5,3
5,8
74
Scarica