La probabilità composta

La Probabilità
Il concetto e la definizione
In natura esistono diversi fenomeni cui è possibile attribuire un valore non determinato, potremmo
addirittura dire che per qualunque evento esiste sempre un’alea d’incertezza che ci consiglia di
esprimerci più opportunamente in termini di priorità.
Tanto per fissare una realtà riferiamoci a due tipi di evento:
1) Lancio di una moneta
2) Misura di un tratto di retta con doppio decimetro
Consideriamo l’evento (1) e cominciamo con il dire che se il lancio fosse eseguito in maniera
meccanica e sotto vuoto, potremmo tarare la macchina in modo da avere sempre testa o sempre
croce.
Viceversa se il lancio avviene “a mano” il risultato sarà la somma di fattori diversi (spinta della
mano, posizione alla partenza, temperatura e densità dell’aria) che tramutano l’evento in un fatto
aleatorio.
Analogamente se dovessimo passare all’evento (2) e dovessimo misurare 20 volte un tratto di circa
1.00 m con un doppio decimetro e con la precisione di un millimetro avremmo certamente risultati
dispersi e comunque non identici.
In questo contesto si pone il concetto di Probabilità che la nostra mente utilizza in maniera istintiva
applicandolo a quei fenomeni per i quali una risposta determinata è impossibile mentre è
ipotizzabile un ordine di priorità; questo ordine di priorità, esprimibile con numero da  a 1, prende
proprio il nome di probabilità.
Definizioni
I tentativi per definire questo ente sono stati numerosi e tra questi vale la pena di ricordare quello di:
a) Laplace
Si individuano le classi di simmetria dell’evento, ad esempio:
Evento
Lancio di due monete uguali
Simmetrie
cc, tt, ct, tc
Le classi sono distinguibili a priori e ad ognuna di esse si assegna il valore 0.25.
1
b) Von Mises
NA
Probabilità evento A =
lim
N
dove

N
N sono i casi possibili, ed NA i casi che manifestano la proprietà A.
Ad esempio:
Evento
uscita del n.2 nel lancio di un dado
Probabilità evento
lim
N

NA
= 1/6
N
Entrambe queste definizioni presentano dei limiti; infatti la prima cade in difetto perché non è
sempre possibile conoscere le classi di simmetria, la seconda perché non è detto che se si effettuano
1000 lanci non esca mai il 2.
Definizione Assiomatica della Probabilità
La definizione si basa sul soddisfacimento degli assioni che la probabilità deve rispettare e,
considerato che essa è la misura della priorità con cui si può verificare un evento aleatorio
attraverso l’attribuzione di un numero tra  e 1, avremo:
-
Non esistono valori negativi perché sarà sempre
P(A) 
-
Se un evento è impossibile sarà
P(A) =  (misura insieme vuoto)
-
Per due eventi mutuamente esclusivi, sarà
P(A  B) = P(A) + P(B)
Ai primi tre assioni che sono assioni di misura si aggiunge il quarto
-
Certezza dell’evento
P(A) = 1
2
Applichiamo la definizione assiomatica nell’evento “Lancio di una moneta”:
-
L’insieme è definito da:
S = T C
T(testa)
C(croce)
i sottoinsiemi sono:


non c' è lancio
T

risultato " testa"
C

risultato " croce"
[T , C ]  o si verifica testa o si verifica croce
P() = 
P(T) = 0.5
P(C) = 0.5
P(T,C) = 1
Se volessimo rappresentare graficamente quello che abbiamo detto, avremo:
½
½
T(testa)
C(croce)
In coerenza con la definizione assiomatica della Probabilità è possibile associare ad essa altri due
concetti importanti :
-
La densità di probabilità
-
La funzione di distribuzione
Con riferimento alla fig. n. 1 in cui è rappresentata una funzione y=x (a < x < b), se l’area
contenuta tra la curva e l’intervallo è pari ad 1 la y=x sarà una curva di densità, infatti:
P
f
3
x
 dx
-
non esiste possibilità che si verifichi un evento al di fuori di a,b:
P() =
-
è certo che si possa verificare un evento in (a,b)
P(S) = 1
-
i valori di dP = fx  dx sono positivi sempre:
fx  
-
eventi mutuamente esclusivi determinano
dP(x1+x2) = dP(x1) +d P(x2) = f1dx1 + f2dx2
Fig. 2

Se integro la y= fx in un intervallo (a,)
ottengo
F=

a f x d x
La F prende il nome di distribuzione di probabilità e risponde alla domanda “Qual è la probabilità
che si verifichi un evento tra a ed ” (fig. n.2)
Questa probabilità è rappresentata dall’area tratteggiata
E’ evidente che
fd
b
F(x) =
x
x
1
a
fuori dall’intervallo sarà
F(x) = 
Pertanto, mentre la densità di probabilità è riferita ad un punto sull’asse reale x, la funzione
distribuzione presume un intervallo.
4
Teoremi sulla probabilità
Teorema della probabilità totale:
1) Dati due eventi A e B (Sottoinsiemi di S) disgiunti avremo che:
P(A  B) = P(A) + P(B)
2) Per insiemi connessi avremo:
P(A  B) = P(A) + P(B)- P(A  B) infatti
P(A  B) = P(A-B) + P(B)
A = (A-B) + (A  B)  P(A) = P(A-B)+ P(A  B)
 P(A-B) = P(A)-P(A  B)
e quindi
P(A  B) = P(A)+P(B) -P(A  B)
Esempio: Si vuole calcolare la probabilità di estrarre da un mazzo di 40 carte o una carta di cuori o
una figura.
A = carte di cuori (1 10)  P(A) =
10
=0.25
40
5
(3 x 4)  P(B) =
B = figure
12
=0.3
40
(A  B) = figure di cuori  P(A  B) =
3
=0.075
40
P(A  B) = 0.25 + 0.3 – 0.075 = 0.475
La probabilità condizionata
In alcuni casi i valori argomentali possono essere classificati con due distribuzioni di probabilità
diverse ed in questi casi è importante vedere se tra le due distribuzioni c’è o meno una correlazione.
Vediamo di spiegarci con un esempio.
Supponiamo di aver tenuto sotto osservazione 100 punti di un fabbricato che si è instabilizzato nella
tabella seguente sono riportati i segni di spostamenti  e rotazioni  :

+
-
P()
20
10
0.3
-
40
30
0.7
P()
0.6
0.4
1

+
Analizzando il set di misure si può osservare:
1) La priorità con cui si presenta
P(+ +) = 0.20
P(+) = 0.3
P(+ -) = 0.10
P(-) = 0.7
P(- +) = 0.4
P(+) = 0.6
P(- -) = 0.3
P(-) = 0.4
e si può anche affermare che se si è verificata una + , la priorità con cui si presenta
+ = 20/60 = 1/3 = 0.333
- = 40/60= 2/3 = 0.666
6
Queste due valutazioni sono condizionate dal fatto che si è ristretta la priorità di  a quella di ,
già verificatasi come positiva.
In coerenza all’esempio potremo scrivere
P (+ . +)
P ( /  ) = -----------P(+ )
+
+
vale a dire
“La priorità con cui si può verificare uno spostamento (+) una volta che si è verificata una
rotazione (+) è data dalla priorità dell’insieme intersezione (+ , +) divisa per la priorità che si
verifichi una + nell’intera popolazione”. Infatti:
20/100
P ( /  ) = ------------ = 20/60 = 1/3
60/100
+
+
Domandiamoci ora se tra gli eventi riportati in tabella vi sia un legame. Notiamo infatti che
correlando la qualità di uno spostamento alla qualità di una rotazione il valore cambia rispetto a
quelli presi in assoluto.
Se però
P (A/B) = P (A), vale a dire se la probabilità condizionata di A rispetto a B fosse sempre uguale
a P (A), gli eventi A e B sarebbero indipendenti.
Supponiamo che la tabella precedente assuma i valori seguenti:

+
-
P()

+
20
20
0.4
-
30
30
0.6
P()
0.5
0.5
1
Avremo che P(+ ) = 40/100 = 0.4
7
P(+ / +)
ma anche P (+ / +) = ------------ = 0.2/0.5 = 0.4
P(+)
quindi il fatto che si sia verificata una + non condiziona il risultato di +
il che significa che + è indipendente da +
La probabilità composta
Si definisce probabilità composta quella dell’evento che contemporaneamente appartiene a due
insiemi:
+
+
probabilità composta P(+ +)
Nel caso in cui gli eventi sono indipendenti
Sarà P(+ +) = P(+) x P(+)
Come è facile dimostrare, infatti se:
P(+ +)
P(+ / +) = --------------- = P(+)
P(+)
P (+ +) = P(+) x P(+)
8
La variabile casuale e la variabile statistica
Il concetto
Le due entità matematiche che stiamo per introdurre sono aspetti diversi della stessa realtà
operativa, nel senso che mentre la prima (v.c.) propone una ipotesi di realtà, la seconda (v.s.)
registra gli effetti accaduti.
Riferendoci alle misure, potremo dire che con la (v.c.) è possibile eseguire un progetto della misura
stessa, mentre con la (v.s.) ne collauderemo il risultato.
La prima propone un modello, la seconda ne verifica la bontà ed il nesso che le unisce non potrà che
essere di tipo stocastico.
Data la diversa natura sul piano operativo, diversa sarà anche la definizione matematica; infatti,
mentre la v.c. altro non è che una funzione di distribuzione di probabilità, la v.s. è invece il rapporto
tra gli eventi verificatisi e quelli possibili.
Sia la v.c. che le v.s. possono essere n dimensionali, le definizioni che seguono si riferiscono a
variabili monodimensionali, ma questo non ne limita la generalità.
La definizione matematica
Riferendoci al caso monodimensionale diremo che la v.c. è una distribuzione di probabilità sulla
retta reale, e pertanto si definisce con
F( x
o
)
 P[ x  I ( x ) ]
o
(a)
x2
xo
Ixo
La funzione distribuzione gode delle seguenti proprietà:
1) F(xo) è definita per ogni xo reale 0  F(xo)  1
2)
Lim F(xo) = 
xo
-
3) Lim F(xo) = 1
9
x1 1
xo
+
4) F(x2)  F(x1)
x2  x1
Una v.c. può essere discreta:
1
2
3
4
può essere continua
la v.s. è invece definita da una tabella a due righe di valori numerici
x1
x2……………….xn
N1
N2……………….Nn
Nella prima riga si riportano i valori argomentali, mentre nella seconda si scrivono i numeri che
rappresentano il verificarsi di un certo valore argomentale.

n
Il numero
Ni
rappresenta la numerosità della popolazione
i 1
Si definisce frequenza i il termine
i = Ni / N
e rappresenta
il numero di volte che si presenta il valore argomentale xi.
10
Confronto tra v.s. e v.c.
Il confronto tra v.c. e v.s. costituisce la base del trattamento dei dati. Questo confronto potrebbe
avvenire attraverso una sovrapposizione degli istogrammi che descrivono la v.s. con le curve che
definiscono la v.c. (vedi fig.)
In effetti si preferisce ricorrere però al confronto attraverso i parametri statistici, che nel caso delle
misure si limitano ad essere la media e la varianza. Infatti per le nostre applicazioni quello che conta
sapere è dove si concentra la distribuzione e quale sia la dispersione attorno al punto di massima
concentrazione.
Variabile casuale funzione di un’altra
Supponiamo che tra due v.c. esista il seguente legame funzionale
y
y=g(x)
x
e che si conosca la funzione densità della x
x
x
11
si vuole determinare la funzione densità y
Si pone per definizione che
P( y  Ay)  P( x  Ax)
Vale a dire che
P(c < y < d) = P (a < x < b, e < x < f, g < x < h)
e passando ai differenziali
P( y  dy)   P( x  dxi )
i
ricordando che
P( y  dy)  fy dy e P( x  dx)  fx dx
passando alle funzioni densità avremo
fy 
P( x  dx i )  P( x  dx i ) 1
P( y  dy)
 i


dy
dy
dyi
dx i
dxi
pertanto
fy 

i

i fx
fx

g ' ( xi )
dy
dxi
12
Esempio n.1:
x2
Sia f x 

1
e 2
2
e sia y  ax  b
fy 
fx
g ' ( x)
dove
x è la distribuzione della x = g-1 (y) pertanto si ha:
fy 
1
 exp
2 a
 ( y b ) 2 


2a2 

Esempio n.2:
 x2 
 
1
2
 exp  
2
fx 
il legame funzionale sia y = x2
x1   y
x2 
y
g ' ( x1 )  2 x1  2 y
g ' ( x2 )  2 x2  2 y
fy
i f x

i
g ( xi )

f x ( y )
2 y

fx ( y)
2 y

f x ( y )  f x ( y )
2 y
13

1
1
y
y
e 2 
e 2
2
2

2 y
-y
e 2
2  y
La Media
Questo parametro fornisce il valore attorno a cui si concentra la distribuzione della popolazione.
Traslando il concetto in termini meccanici potremo dire che la media è il baricentro della
popolazione e conseguentemente la sua espressione è data da:
M[x] =

x (x) dx (caso continuo)
M[x] = 1/n  xi
(caso discreto)
Volendo differenziare il simbolo nel caso in cui si tratta di v.c. o v.s., scriveremo
-  (x)
che indica una media per v.c.
- m (x)
che indica una media per v.s.
- M[.]
è l’operatore di media.
Esempio n.1
Sia data la distribuzione in fig.
fx
c
1
x
1
2
1
fx 
2
x

o x2
altrimenti
a) Vogliamo verificare se x è una distribuzione probabilità, se è vero, dovrà essere
2
f
x
dx  1
0
sostituendo il valore di x avremo
2

1
2
x dx  [ 1 4 x 2 ]02  1
0
14
quindi x è una funzione densità di probabilità
b) Calcoliamo la media
2
2


x  x f x dx  x 1 2 x dx 
0
0

1
2
x 2 dx  [x 3 / 6]02  4 / 3
In effetti se ci riferiamo alla media come valore baricentrico di un triangolo si ha che su x risulterà
x = 2/3  2 = 4/3
Possiamo fare ancora un’altra verifica, considerando la mediana C1 che ha equazione
x–1
y-
-------- = ---------2–1
1-
y=x-1
Se intersechiamo la C1 con la retta x =4/3 avremo:
y = 4/3 – 1 = 1/3
che è proprio l’ordinata del baricentro, del triangolo.
Proprietà della media
Cosa ci interessa sapere sulla media?
1) Se la distribuzione è simmetrica attorno ad un valore c la media vale proprio c, infatti essendo
f ( c  h )  f ( c h )
si ha
15
sarà




-

 x   (c  h)  f ch  dh   c  f ch  dh   h  f ch  dh  c
2) Se tra le due v.c. y ed x esiste un legame lineare, la media lo rispetta infatti
y = a x + b
M[y] = a M[x] + M[b] = a M[x] + b = a  x  b
Consideriamo la variabile scarto definita da
 = x - x
la media sarà
M[] = M[x] – M[x] = x - x = 
Esempio n.1
fx
La distribuzione della x è quella in figura con
x=1/2 e x = 1
1/2
0
2
x
Tra y e x esiste la seguente relazione
y=x+5
(5  y  7)
16
pertanto, applicando la relazione precedente,
1
f
f y  x  2  1/ 2
g '( x) 1
Avremo così
fy
1/2
5
7
y
y
y 2 49  25
 y    dy  
6
4
4
5 2
7
come del resto era prevedibile essendo la media un operatore lineare
y = x + b = 1 + 5 = 6
Esempio n.2
fx
1
2
x
y=x+5
fx 1

x 2
x
fx 
2
fy 
2
x 2  x3 
4
 x        1,33
 6 0 3
0 2
2
fx
x y 5
 
;
g ' ( x) 2
2
(5  y  7)
7
y 5
y2 5y
y   y 
 dy   (  )  dy  6,33
2
2
2
5
5
7
Esempio n.3
17
fx
2/
/2
0
x
y = sen x
y’ = cos x
cos x  1  sen 2 x 
1- y2
fx = 2/
x = /4
2

fx

| g' x |
fy 
(0  y  1)
1 - y2
fy
2/
0
(y)
1
Vediamo intanto se y è una funzione densità:
1

1
f y dy 
0

2

0
2
2 
1

[

arc
seny
]


 [  0]  1
0

 2
1  y2
1
Calcoliamo la media di y:
1
y 

2
 y
0
y 
2

1
1  y2

 [  1] 
Se calcoliamo la media di y come
18
2

2

 [ 1  y 2 ]10 
 0.636
y = g (x)
avremo
y = sen(/4) = 0.707
che è diversa da quella corretta precedentemente calcolata.
La diversità dei valori dipende dal fatto che la Variabile x non è concentrata in un intervallo in cui
g(x) è regolare.
Se supponiamo di stringere l’intervallo e cambiare densità per la x, avremo:
fx
4/
/4
0
x
fy 
4
(0  y  0.707)
  1 - y2
x =

8
 22,5
0.707
y 
4



0
y
1 y

2
4

 [ 1  y 2 ]00.707 
4

 (0.707  1) 0.373
y = g(x) = sen (22°,5) = 0.382
y  x
Esempio n.4
fx
4/
y = sen x
y’ = cos x
fx
0
x
/2
x =2/3  /2 = 60°
x
4
fx 

x 
2
fx 
19
8
2
x
8
2
fy  
x
g ' ( x)
8
2

 arc seny
1  y2
Vediamo se la y è una funzione di densità:
1

1
f y dy 
0

in quanto
arc seny
1- y2

8
2

arc seny
1 - y2
0
 dy
 dy
 u dv  u  v -  v du
è del tipo
1
è il differenziale di arc sen y, si ha così
1 y2

arc seny
1- y
2
 dy  arc seny  arc seny -

arc seny
1- y2
 dy
da cui si ottiene che
2

arc seny
1- y
2
 (arc seny) 2


arc seny
1- y
2

1
(arc seny) 2
2
Pertanto
1

f x  dy 
0
8
2

1
4 2
 [( arcseny) 2 ]10  2  [
 ] 1
2

4
La y è una funzione densità.
Calcoliamo la media di y:
1
y 
essendo
y
1 y2
8

2

 y
0
 d ( 1  y 2 ) avremo
20
arcseny
1  y2
 dy
 u dv  u  v -  v  du
pertanto
1

0
1
y
arcseny
1 y2
 dy  [arcseny  ( 1  y )] 
2
1
0

( 1  y 2 )
0
y 
8

2
8

2
1 y2
 dy
 [ 1  y 2  arcseny  y ]10 
 [  1  1     ] 
8
2
 0.811
Dimostriamo ora l’importante teorema della media:
Se due variabili casuali x e y sono legate dalla relazione y =g(x) e la v.c. x è molto concentrata ed
in un intorno è possibile che
g(x) = g(x) + (x - x)  g’(x)
potremo scrivere
y =

[g(x) + (x - x)  g’(x)]  x dx
y =

g(x)  x dx +
= g(x)


(x - x)  g’(x) x  dx =
x dx + g’(x)

(x - x)  x  dx = g(x)
in quanto il secondo termine è una media di scarti.
L’ipotesi di concentrazione della variabile è fondamentale, in quanto diversamente
y  g (x)
21
Facciamo un esempio semplice, considerando che sull’asse x la variabile possa assumere i valori
riportati in figura
1
2
3
4
5
6
7
8
9
10
e che sia y = x2 il legame funzionale;
la media dei valori sull’asse x vale
x = 5.5 e se fosse vero che
 (y) = g(x)
avremo
(y) = 5.52 = 30.25
Se facciamo la media dei quadrati riportati sull’asse otterremo
 (y) = 38.5 che è diversa da g(x)
proprio perché la distribuzione non è concentrata
Viceversa consideriamo la distribuzione
1
1.1
1.2
1.3
1.4
1.5
che è una distribuzione abbastanza concentrata la cui media vale x = 1.25
Se il legame è sempre del tipo y = x 2 avremo:
1
1.21
1.44
1.69
la cui media vale y = 1.59;
1.96
2.25

M[2x] = M[1.252] = 1.56
Esempio n.5
fx 
2 /

  x  /2
x 
x  /2
Abbiamo già visto che se y= senx la y = 2/.
22
Calcoliamo questa media utilizzando il teorema della media
 /2
 y   x  M [ gx] 
 g ( x) f
 /2
x
 senx    dx 
2
dx 


2

 [ cos x] / 2 
2

La Varianza
Se consideriamo le due popolazioni in figura, ci rendiamo conto che pur avendo la stessa media x,
sono distribuite in maniera diversa ed in particolare la distribuzione (1) è molto più concentrata
della (2).
Come la variabile si concentri attorno alla media è un dato importante ed in particolare, nel caso
della distribuzione di misure, segnala maggiore o minore incertezza. Il parametro statistico con cui
si caratterizza la concentrazione dei valori attorno alla media è definito da
 x2  M ( x   x ) 2 
e prevede in nome di Varianza
Nel caso di una distribuzione continua scriveremo

 x2  ( x   x ) 2  f x  dx
che per una distribuzione discreta diventa
1
 
n
2
x
( x   )
n
i
i 1
23
x
2
La radice quadrata della Varianza
 x
si chiama scarto quadratico medio (s.q.m.) e, come abbiamo già detto, nel caso di distribuzione di
misure prende il nome di incertezza.
Dalla espressione
 x2  M ( x   x ) 2 
discende
 x2  M ( x 2  2 x   x   x2 )  M [ x 2 ]  2M [ x]   x   x2
e quindi
 x2  M x 2    x2
espressione con cui si può calcolare la varianza se non si vogliono eseguire i quadrati degli scarti.
Se tra la v.c. x ed y esiste la relazione y = g(x) avremo:
 y2  M ( y   y ) 2   M [ y 2 ]   x2  M [ g 2 ( x)]  M 2 [ g ( x)]
espressione certamente non agevole da calcolare.
Pertanto se la y = g(x) è una funzione regolare e la x è ben concentrata attorno alla media in modo
che è possibile scrivere
g ( x)  g (  x )  ( x   x )  g ' (  x )
avremo
 y2  M ( y   y ) 2   M [( g ( x)   y ) 2 ] 
M [( g (  x )  ( x   x )  g ' (  x )   y ) 2 ] 
M [ g ' ( x ) 2  ( x   x ) 2 ]
e quindi
 y2  g ' ( x ) 2   x2
In generale potremo dire se tra la v.c. y ed n v.c., tra esse non correlate, esiste la relazione
24
y =  (a1…….a2………an)
sarà
 f  2
 f  2  f  2
   n
   1  
   2 ........
 y2  

a

a

a
 1
 2
 n
in cui le derivate sono calcolate nelle medie di a1, a2, an
Errore medio della media
Con   si è definito lo scarto mediamente attribuibile ad ogni misura, vogliamo ora calcolare lo
scarto mediante attribuibile alla media aritmetica
Considerando che la media è
1
mx  
n

n
i 1
mx 
applicando la
 y2  g ' ( x) 2   x2
xi 
1
 ( x1  x2 ......  xn )
n
1
1
1
 x1  x2  xn
n
n
n
avremo
2

ed essendo
2
(m)
1
1
1
     x2      x2  ........    x2
n
n
n
1
2
n
 x2   x2  .........  x2   x2 , in quanto provenienti dalla stessa distribuzione,
1
2
n
avremo
 m2 
1
1 2
2

n



 x
x
n2
n
da cui
m  
25
x
n
Definizione di una variabile standardizzata
Si definisce standardizzata una variabile del tipo
z
x  x

e per essa sarà
 z2 = 1
M (z) = 
Infatti
(x   x )  M [x   x ]
M [ z]  M  







(x   x )2   2
 M
   2 1
2
 

2
z
Media Ponderata
Supponiamo di aver misurato la grandezza A con n diversi sistemi di misura, caratterizzati ognuno
da una varianza i2:
Misura di A
X1
X2
X3
…
Xn
12
22
32
……
n2
Potremo pensare che ciascun sistema sia un’estrazione di misure da popolazioni diverse la cui
media è  e che questa tende ad A che è il valore vero.
La tendenza ad A si esplica con varianze i2 diverse.
Se scrivessimo
x
= 1/n  Xi
26
troveremmo un valore medio che non tiene conto di i2, dobbiamo quindi trovare un indice i tale
che
x =  i Xi
tenuto conto
che x =  e 2 = min
ciò comporta intanto che

i = 1
infatti
 (x) = M [ i xi] = i  M[xi] = x  i
i = 1
deve essere inoltre 2 =  (i2 i2 )= min
Quindi si deve cercare il minimo di i2 i2 con la condizione i = 1 utilizzando la funzione
 = i2 i2 -  (  i - 1)
avremo

------ = 2 i i2 -  = 
i
Posto 1/i2 = Pi
sarà
 Pi
i = -----2

i = ----2i2
dove Pi è il peso dell’osservazione iesima
dovendo essere
i =  /2 Pi = 1
/2 = 1 /  Pi
i = Pi /  Pi
pertanto avremo
x 
 Pi xi
 Pi
la cui varianza sarà
27

2
x

 Pi2  i2
( Pi) 2
Esempio
Si è misurato un angolo con due strumenti diversi
1) 1 = 37°,2711  3”
i2 = 9
2) 2 = 37°,2725  5”
i2 = 25
P1 = 1/9
P2 = 1/25
Posto P1 = 1 e ragguagliando i pesi si ha P2 = 0.36
0.2711 x 1 + 0.2725 x 0.36
 = 37° + -------------------------------- = 37°,2715
1.36
9 + 25 x 0.13
2 () =------------------- = 5.86
1.84
 () =  2.42
Teorema di Tchebycheff
Quale che sia la forma di una distribuzione di una v.c., la quasi totalità dei suoi valori argomentali
cade tra
- 3 x  x  3 x
consideriamo l’espressione della varianza
 2   ( xi   x ) 2  fi  i2  f i
 2  12  f1   22  f 2   32  f 3 ....... n2  f n
in cui
i
è lo scarto iesimo e supponiamo di fissare un valore
quale gli scarti siano nulli e al di sopra siano tutti uguali a m.
28
m dello scarto, al di sotto del
1
2


3
m
........

m
n
m
m
sarà
 2   i2  f i   m2  ( f m  f m1 ..... f n

 è la somma delle frequenze degli scarti superiori a m, pertanto la somma delle frequenze *
degli scarti inferiori a m sarà:
* = 1 - 
 = 1 - *
       (1  f *)
2
2
m
2
m
2
 1- f *  2
m
e quindi
f * 1
2
 m2

il che significa che la frequenza degli scarti inferiori a m è maggiore di 1 

Poniamo ora
m =   
avremo
2
1
f  1 2 2  1 2
 

che è la disuguaglianza di Tchebycheff (valida per  >1)
29
2

 m2 
se poniamo
m = 2 
avremo
f  1
e per
1
 0.75
4
m = 3 x
avremo
f  1
1
 90%
9
c.v.d.
30