Elaborazione
statistica di dati
1
CONCETTI DI BASE DI
STATISTICA ELEMENTARE
2
Taratura strumenti di misura
IPOTESI: grandezza da misurare identica da misura a
misura
Per la presenza di errori
casuali, ripetendo più volte la
misura di una stessa
grandezza, si può ottenere una
serie di valori diversi.
3
Collaudo sistemi di produzione
IPOTESI: accuratezza strumento di misura migliore della
variabilità dei manufatti
Una serie di valori di misure
casualmente diverse può essere
ottenuta anche misurando diversi
elementi, nominalmente uguali, di
una produzione industriale.
4
Esempio di serie di dati:
Lo spessore di 110 dadi estratti
dalla produzione di una macchina
5
Ogni serie di valori estratta dalla
totalità dei valori possibili può essere
considerato un campione.
Esistono vari metodi per estrarre un
campione che sia rappresentativo
dell'universo.
Qui si considerano 11 campioni
estratti casualmente. Ciascun
campione contiene 10 misure di
spessore
6
7
8
Al sottoinsieme di “n” valori
estratti dall’insieme dei valori
possibili viene dato il nome di
campione;
l’intero insieme di dati “N” viene
definito popolazione (o universo).
9
CAMPIONE
1 n
media m= x   x i
n i1
varianza
s2 
n
1
2
 (xi -x)
n-1 i  1
10
La media gode della proprietà
di rendere minima la somma
dei quadrati degli scarti.
Inoltre la somma algebrica
degli scarti rispetto al valore
medio è nulla.
11
La radice quadrata della
varianza s, costituisce una
stima della dispersione delle
misure intorno al valore
medio, al pari di s2, ma ha il
pregio di avere le stesse
dimensioni delle misure x.
12
I due parametri precedenti nel caso
della popolazione, o universo composto
di N elementi, si indicano con i simboli:
N
1
xi

N i 1
N
1
2
2
  i 1 ( x i   )
N
13
I dati possono essere
raggruppati in diversi modi. Una
prima forma di raggruppamento
si può osservare nella tabella.
14
15
Una forma di raggruppamento
molto più usata e significativa
è quella delle classi di
intervalli di appartenenza, che
non è necessario abbiano
tutti la stessa ampiezza.
16
Raggruppando per intervalli:
Limiti delle
classi
> di
mm
< di
mm
6,160
6,170
6,180
6,190
6,200
6,210
6,220
6,230
6,240
6,170
6,180
6,190
6,200
6,210
6,220
6,230
6,240
6,250
Valore
centrale
della
classe
Frequenza Frequenza Densità di
assoluta percentuale frequenza
xj (mm)
fj
fj
fp =
100
n
(%)
6,165
6,175
6,185
6,195
6,205
6,215
6,225
6,235
6,245
3
6
12
23
26
21
11
6
2
2,73
5,45
10,91
20,91
23,64
19,09
10,00
5,45
1,82
fp
x
0,273
0,545
1,091
2,091
2,364
1,909
1,000
0,545
0,182
Frequenza
cumulata
percentuale
j fk
 n 100 (%)
k=1
2,73
8,18
19,09
40,00
63,64
82,73
92,73
98,18
100,00
17
Il numero dei dati che
appartengono a una
determinata classe j si
chiama frequenza della classe
e viene indicato con fj.
18
Il raggruppamento in k classi o
sottogruppi, G1...Gj...Gk, avviene
secondo il valore, ad esempio se a è il
minimo degli xi e b il massimo:
b- a
x =
k
se
xi  G j
a + ( j - 1) x  xi < a + jx
19
Ad ogni classe Gi è associato il numero
di elementi che vi appartengono, fi .
Si definisce frequenza relativa
percentuale della classe il parametro:
f p ,i
fi
 100
n
fp,i è compreso nell'intervallo [0-100]%
20
Raggruppando per intervalli:
Limiti delle
classi
> di
mm
< di
mm
6,160
6,170
6,180
6,190
6,200
6,210
6,220
6,230
6,240
6,170
6,180
6,190
6,200
6,210
6,220
6,230
6,240
6,250
Valore
centrale
della
classe
Frequenza Frequenza Densità di
assoluta percentuale frequenza
xj (mm)
fj
fj
fp =
100
n
(%)
6,165
6,175
6,185
6,195
6,205
6,215
6,225
6,235
6,245
3
6
12
23
26
21
11
6
2
2,73
5,45
10,91
20,91
23,64
19,09
10,00
5,45
1,82
fp
x
0,273
0,545
1,091
2,091
2,364
1,909
1,000
0,545
0,182
Frequenza
cumulata
percentuale
j fk
 n 100 (%)
k=1
2,73
8,18
19,09
40,00
63,64
82,73
92,73
98,18
100,00
21
Rappresentazione della
DENSITA’ DI
PROBABILITA’
22
Nell’esempio precedente per
ognuna delle classi Gi è possibile
definire la probabilità pi che una
misura qualsiasi ricada nell’intervallo
della classe i-esima vale:
fi
p i  lim
n n
NOTA: il limite può andare ad infinito oppure N
nel caso di popolazioni con numero limitato di
possibili elementi
23
La densità di probabilità viene
espressa con l’andamento delle
probabilità pi in funzione delle k classi.
La rappresentazione della densità di
probabilità può essere fatta o con
l’istogramma delle frequenze o con il
poligono delle frequenze, cioè mediante
k punti discreti.
24
Per variabili discrete valgono le seguenti
relazioni:
K
t
 p i  1;
p s,t
i1
k
   pi xi
i1

 pi
i s
k
   pi (xi   )
2
2
i1
ps,t rappresenta la probabilità cumulata delle
classi da s a t ovvero del verificarsi che :
xs  x  xt
25
Frequenza_relativa [%]
10% = Percentuale di dati con valore
compreso in questa classe
24
22
20
18
16
14
12
10
8
6
4
2
0
6.165
6.245
valore centrale della classe
26
Poligono delle frequenze
Frequenza relativa [%]
G1
24
22
20
18
16
14
12
10
8
6
4
2
0
6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25
x [mm]
27
Un diagramma di tipo diverso si
ottiene rappresentando le frequenze
cumulate.
In corrispondenza al limite superiore di
ogni classe si riporta la frequenza
relativa percentuale dei dati che hanno
una misura inferiore a quel limite.
28
Frequenze cumulate percentuali
100
90
80
N
å (f ) = 100
i =1
p i
70
60
50
k=4
40
k
dati che assumono valori
å (f ) = %minori
di x
30
20
i =1
p i
k
10
0
6.17
6.18
6.19
6.20
6.21
6.22
6.23
6.24
6.25
limite superiore della classe mm
29
distribuzione di Gauss
Frequenza relativa
24
frequenza relativa
22
20
18
16
14
12
10
8
6
4
2
0
6.16
6.17
6.18
6.19 6.20
6.21 6.22
6.23
6.24
6.25
x (mm)
30
LE DISTRIBUZIONI
DI PROBABILITA’
31
Variabili continue
32
Nell’esempio precedente se si
considera lo spessore del dado che
quindi è una variabile continua.
Ogni valore dell’altezza è possibile e
la distribuzione di probabilità è
rappresentata da una funzione continua.
33
LA DISTRIBUZIOINE GAUSSIANA
NORMALE
E
TEOREMA DEL LIMITE CENTRALE
34
PDF (Probability Density Function) gaussiana (o normale)
1
f(x) 
e
 2
2
x





2
2
f (x)
1
s 2p


Quanto più è
ampio sigma
tanto più è
distribuita e
bassa la PDF
35
Perché il modello gaussiano di
probabilità è sovente impiegato
nell’ingegneria?
36
Il teorema del limite centrale afferma che la
distribuzione delle medie tende ad essere
normale anche se la distribuzione di origine
non lo è.
37
Inoltre, come è evidente dall’animazione la
distribuzione della media gode delle seguenti
due proprietà:
1. Ha la stessa media (la distribuzione non si
‘sposta’)
2. Ha una deviazione standard minore (la
distribuzione si ‘stringe’) pari a: / √n
38
Esempio: distribuzione della variabile somma
probabilità di aB = aA = bB = bA = 50%
probabilità di aB + bB = 25%
probabilità di aB + bA = 25%
probabilità valore basso = 25%
probabilità valore medio = 50%
probabilità di aA + bB = 25%
probabilità di aA + bA = 25%
probabilità valore alto = 25%
Distribuzione di ‘a’
Distribuzione di ‘a+b’
aB
aA
Distribuzione di ‘b’
bB
bA
39
Il teorema limite centrale afferma che la
distribuzione gaussiana permette di
descrivere in maniera soddisfacente tutti
quei fenomeni fisici caratterizzati dalla
sovrapposizione di un elevato numero di
effetti deboli indipendenti aventi loro
natura statistica a media nulla.
40
Conseguenza di tale teorema è che nel caso in cui si
abbia un fenomeno dato dalla sovrapposizione di
numerosi effetti, nonostante singolarmente siano dotati
di distribuzione non gaussiana, il fenomeno
complessivo sarà normalmente distribuito, purché essi
siano indipendenti e nessuno degli effetti sia prevalente
Dal momento che i fenomeni del mondo reale sono
spesso il risultato del contributo di molti eventi casuali
non osservabili, questo teorema fornisce una
spiegazione per la prevalenza ‘in natura’ della
distribuzione di probabilità normale.
41
Data una distribuzione qualsiasi di risultati di
un processo di misurazione che abbia media
 e scarto quadratico 
Anche ipotizzando PDF non gaussiana, se si
estraggono non singole misure ma campioni
sufficientemente numerosi, n > 5 - 6 , la
distribuzione delle medie delle misure segue
quasi fedelmente la legge di distribuzione
normale (di Gauss)
… QUINDI SI CONOSCE LA VARIABILITA’ ED
E’ POSSIBILE QUANTIFICARE GLI
INTERVALLI DI CONFIDENZA !!!
42
Inoltre la media di tali medie è
ancora m e lo scarto quadratico si
riduce a:
s( x ) =
s( x )
n
E QUINDI MIGLIORA L’ACCURATEZZA !!!
… per questo motivo è sempre opportuno
ripetere più volte una misura e prendere come
migliore stima il valore medio !!!
43
DISTRIBUZIONE CUMULATA
E
DISTRIBUZIONE NORMALE STANDARD
44
Distribuzione normale standard
Il valor
medio è
nullo e la
varianza è
pari ad 1
2
 f (z)
x -
1
z=
e
 f(z) 

 2
z

2
0
5
45
Frequenze cumulate
F(z) = p(zi z)
1
0.9
0.8
0.7
Grafico delle
Frequenze cumulate
0.6
0.5
0.4
0.3
0.2
0.1
0
-3
-2
-1
0
1
2
z
3
Il valor medio è in
corrispondenza del
50% di probabilità
cumulata
46
Utilità della funzione cumulata:
1
F(z2)
0.9
0.8
F(z) = p(zi z)
0.7
0.6
0.5
0.4
0.3
F(z1)
0.2
0.1
0
-3
-2
-1
0
z1
1
2
z2
z
3
p(zi [z1,z2]) = p(zi < z2) - p(zi < z1)
p(zi [z1,z2]) = F(z2) - F(z1)
47
Nota sulla relazione di prima:
Si può dire in due modi diversi lo stesso concetto:
- la probabilità che il valore appartenga
all’intervallo è pari alla probabilità che sia inferiore
all’estremo superiore e superiore all’estremo
inferiore
- la probabilità che il valore appartenga
all’intervallo è pari alla probabilità che sia inferiore
all’estremo superiore ma non inferiore
all’estremo inferiore
p(zi [z1,z2]) = p(zi < z2) - p(zi < z1)
48
1
p(zi >z)
0.9
p(zi [z1,z2]) = F(z2) - F(z1)
Usando la
variabile non
normalizzata
0.8
0.7
0.6
0.5
0.4
p(zi<z) = F(z)
0.3
p(xi [, ]) = F() F() = F(z=1) - F(z=-1)
0.2
0.1
0
-3
z
-2
-1
0
1
2
3
p( x     )  0.680
p( x    2 )  0.950
p( x    3 )  0.997
z
49
5
1
Oppure, ad esempio:
p( z i < z ) + p( z i > z ) = 1 Þ
p( z i < z ) = 1- p( z i > z )
p( z i > z ) = 1- p( z i < z )
p(zi >z)
0.9
0.8
0.7
0.6
0.5
0.4
p(zi<z) = F(z)
0.3
0.2
F ( z ) = p( z i < z ) Þ
0.1
F ( z ) = 1- p( z i > z ) Þ
0
-3
z
-2
-1
0
1
2
3
p( z i > z ) = 1- F ( z )
La
distribuzione
normale è
simmetrica:
p( z i > z) = 2 * p( z i > z) = 2 * (1- F ( z))
z
50
5
Esempio:
- supponiamo di voler misurare la temperatura
- al fine di associare l’intervallo di confidenza alla
misura ottenuta si opera come segue:
-1: si effettuano un numero N, limitato, di ripetizioni
(circa 20 ad esempio)
-2: si calcola da tale campione statistico media Tm
e deviazione standard Sm
-3: il risultato sarà pari a Tm ± 2Sm/√N (95% lc)
NOTA: tale risultato vale anche se il fenomeno
aleatorio associato alla misura non è gaussiano
51