La Probabilità

La Probabilità
2. Il concetto e la definizione
Il concetto di probabilità è un concetto istintivo della nostra mente e può essere applicato in tutti
quei fenomeni in cui fornire una risposta deterministica risulta impossibile, mentre si può ipotizzare
per ogni valore solo un ordine di priorità.
La probabilità definisce questa scala di priorità attribuendo ad ogni singolo evento un numero
compreso tra φ ed 1.
Il riscontro nella realtà fisica di innumerevoli fenomeni che se pur aleatori manifestano un grado di
priorità, consente di comprendere in pieno il concetto di probabilità.
Diversa è la situazione per la definizione di questo ente che in termini matematici può essere fornita
compiutamente solo in termini assiomatici.
2.1 Definizioni
I tentativi per definire questo ente sono stati numerosi e tra questi vale la pena di ricordare quello di:
a) Laplace
Si individuano le classi di simmetria dell’evento ad esempio:
Evento
Lancio di due monete uguali
Simmetrie
cc, tt, ct, tc
Le classi non sono distinguibili e ad ognuna di esse si assegna il valore 0.25.
b) Von Mises
Probabilità evento A = lim
N
∞
NA
dove
N
N sono i casi possibili, ed NA i casi che manifestano la proprietà A.
1
Ad esempio:
Evento A
uscita del n.2 nel lancio di un dado
Probabilità evento
lim
N
∞
NA
= 1/6
N
Entrambe queste definizioni presentano dei limiti, infatti la prima cade in difetto perché non è
sempre possibile conoscere le classi di simmetria, la seconda perché non è detto che se faccio 1000
lanci non esca mai il 2.
Definizione Assiomatica della Probabilità
La definizione si basa sul soddisfacimento degli assioni cui la probabilità deve obbedire.
Sia S un insieme di eventi (discreto o continuo) e ad ognuno di essi è possibile associare un numero
P, tra φ ed 1, nel rispetto dei seguenti assiomi.
-
Non esistono valori negativi perché sarà sempre
P(A) ≥φ
-
Se un evento è certo sarà
P(A) = 1
-
Se un evento è impossibile sarà
P(A) = φ
-
Se due o più eventi sono mutuamente esclusivi, sarà
P(AUB) = P(A) + P(B)
In coerenza con la definizione assiomatica della Probabilità è possibile associare ad essa altri due
concetti importanti :
-
La densità di probabilità
-
La funzione di distribuzione
Infatti con riferimento alla fig. n. 1 in cui è rappresentata una funzione y=ƒ(x) nell’intervallo a, b, se
l’area contenuta tra la curva e l’intervallo è pari ad 1 la y=ƒ(x) sarà una curva di densità, infatti:
2
P = ∫ f ( x) ⋅ dx
fig.1
-
non esiste possibilità che si verifichi un evento al di fuori di a,b:
P(φ) =φ
-
è certo che si possa verificare un evento in (a,b)
P(S) = 1
-
i valori di dP = f(x) ⋅ dx sono positivi sempre:
f(x) ≥ φ
-
eventi mutuamente esclusivi determinano
P(x1+x2) = P(x1) + P(x2) = f1(dx1) + f2(dx2)
Pertanto la y= f(x) è una curva di densità di probabilità.
Se integro la y= f(x) in un intervallo (a,∈)
ε
ottengo
F=
∫
a
f ( x)dx
La F prende il nome di distribuzione di probabilità e risponde alla domanda “Qual è la probabilità
che si verifichi un evento tra a ed ∈” (fig. n.2)
3
Fig.2
Questa probabilità è rappresentata dall’area tratteggiata
E’ evidente che
F(x) =
∫
b
a
f ( x)dx = 1
fuori dall’intervallo sarà
F(x) = φ
Pertanto mentre la densità di probabilità è riferita ad un punto sull’asse reale x, la funzione
distribuzione presume un intervallo.
2.2 Teoremi sulla probabilità
Vedremo meglio nel seguito che la v.c. “misura” si distribuisce secondo la legge di Gauss
rappresentata in figura
4
Per ora diremo soltanto che la curva è simmetrica rispetto ad un valore centrale µ che è la media
delle misure e che, in un buon sistema di misure, la probabilità che si presentino valori molto
discosti dalla µ è piccola, mentre la probabilità che si presentino valori prossimi alla µ è più alta,
infatti ƒ1 << ƒ2
La densità di probabilità ƒ è espressa dalla
f =
1
2π ⋅ σ
⋅e
−
( x−µ )2
2⋅σ 2
Pertanto se di una popolazione conoscessi a priori la media µ e la varianza σ2 potrei tracciare la
curva ƒ.
Supponiamo che la curva sia quella in fig.
Se volessi conoscere la probabilità che si presenti una misura tra i valori a e b, basterà conoscere
l’area compresa tra la curva e l’intervallo a,b.
5
2.3 Teorema della probabilità totale
Continuando ad utilizzare la curva di Gauss supponiamo di aver misurato l’angolo AôB con la
precisione del 1”
e che la curva teorica di distribuzione degli scarti (errori) sia quella in figura.
Se vogliamo conoscere la probabilità che si presenti un errore tra 2” e 3” (negativo), basta che
determini l’area A compresa tra la curva e l’intervallo richiesto.
Analogamente se voglio conoscere la probabilità tra 5” e 6” (positivo).
E’ chiaro che la probabilità che si presenti un errore tra 2” e 3” (negativo) o tra 5” e 6” sarà
P=A+B
Questa è l’espressione della probabilità totale nel caso che i sottoinsiemi di misure siano disgiunti:
6
Vediamo il caso in cui i due sottoinsiemi presentano un’intersezione:
A∨B
= (A-B) ∨ B
P(A∨B) = P(A-B) + P(B)
P(A-B) = P(A) – P (A∧B)
P(A∨B) = P(A) + P(B) – P(A∧B)
P (0” ÷ 2”) = a + b
P(1” ÷3”) = b + c
P (1” ÷ 2”) = b
P (0” ÷ 3”) = (a + b) + (b + c) – b = a + b + c
2.3.1 La probabilità condizionata
In alcuni casi i valori argomentali possono essere classificati con due distribuzioni di probabilità
diverse, ed in questi casi è importante vedere se tra le due distribuzioni c’è o meno una
correlazione.
7
Vediamo di spiegarci con un esempio.
Supponiamo che di un fabbricato che si è instabilizzato sono stati tenuti in osservazione 100 punti,
nei quali si sono misurati al tempo t1 gli spostamenti δ e rotazioni ϕ, riassunti nella tabella
seguente:
ϕ
+
-
ƒ(δ)
+
20
10
0.3
-
40
30
0.7
ƒ(ϕ)
0.6
0.4
1
δ
Da questo set di misure posso dire che:
1) La priorità con cui si presenta
P(δ+ ϕ+) = 0.20
P(δ+) = 0.3
P(δ+ ϕ-) = 0.10
P(δ-) = 0.7
P(δ- ϕ+) = 0.4
P(ϕ+) = 0.6
P(δ- ϕ-) = 0.3
P(ϕ-) = 0.4
e posso anche affermare che se si è verificata una ϕ+ , la priorità con cui si presenta
δ+ = 20/60 = 1/3 = 0.333
δ- = 40/60= 2/3 = 0.666
Queste due valutazioni sono condizionate dal fatto che ho ristretto le priorità di δ a quella di ϕ
già verificatasi come positiva.
8
In coerenza all’esempio potremo scrivere
P (δ+ . ϕ+)
P (δ+ / ϕ+) = ------------
vale a dire
P(ϕ+ )
“La priorità con cui si può verificare uno spostamento (+) una volta che si è verificata una
rotazione (+) è data dalla priorità dell’insieme intersezione (δ+ , ϕ+) divisa per la priorità che si
verifichi una ϕ+ nell’intera popolazione infatti:
20/100
P (δ+ / ϕ+) = ------------ = 20/60 = 1/3
60/100
Domandiamoci ora se tra gli eventi riportati in tabella vi sia un legame, notiamo infatti che
correlando la qualità di uno spostamento alla qualità di una rotazione il valore cambia rispetto a
quelli presi in assoluto.
Se però
P (A/B) = P (A)
vale a dire se la probabilità condizionata di A rispetto a B fosse sempre
uguale ad P (A), gli eventi A e B sarebbero indipendenti.
Supponiamo che la tabella precedente assumesse i valori seguenti:
ϕ
δ
+
-
ƒδ
+
20
20
0.4
-
30
30
0.6
ƒϕ
0.5
0.5
1
Avremo che P(δ+ ) = 40/100 = 0.4
P(δ+ / ϕ+)
ma anche P (δ+ / ϕ+) = ------------ = 0.2/0.5 = 0.4
P(ϕ+)
9
quindi il fatto che si sia verificata una ϕ+ non condiziona il risultato di δ+
il che significa che δ+ è indipendente da ϕ+
2.3.2 La probabilità composta
Si definisce probabilità composta quella dell’evento che contemporaneamente appartiene a due
insiemi:
δ+ ϕ+
probabilità composta P(δ+ ϕ+)
Nel caso in cui gli eventi sono indipendenti
Sarà P(δ+ ϕ+) = P(δ+) x P(ϕ+)
Come è facile dimostrare, infatti se:
P(δ+ ϕ+)
P(δ+ / ϕ+) = --------------- = P(δ+)
P(ϕ+)
P (δ+ ϕ+) = P(δ+) x P(ϕ+)
10
3 La variabile casuale e la variabile statistica
3.1 Il concetto
Le due entità matematiche che stiamo per introdurre sono aspetti diversi della stessa realtà
operativa, nel senso che mentre la prima (v.c.) propone una ipotesi di realtà, la seconda (v.s.)
registra gli effetti accaduti.
Riferendoci alle misure potremo dire che con la (v.c.) è possibile eseguire un progetto della misura
stessa, mentre con la (v.s.) ne collauderemo il risultato.
La prima propone un modello, la seconda ne verifica la bontà ed il nesso che le unisce non potrà che
essere di tipo stocastico.
Data la diversa natura sul piano operativo, diversa sarà anche la definizione matematica, infatti
mentre la v.c. altro non è che una funzione di distribuzione di probabilità, la v.s. è invece il rapporto
tra gli eventi verificatisi e quelli possibili.
Sia la v.c. che le v.s. possono essere n dimensionali, le definizioni che seguono si riferiscono a
variabili monodimensionali, ma questo non ne limita la generalità.
3.2 La definizione matematica
Riferendoci al caso monodimensionale diremo che la v.c. è una distribuzione di probabilità sulla
retta reale.
La v.c. è definita da
F(xo) = P(x ε Ixo)
(a)
x2
x
Ixo
La funzione distribuzione gode delle seguenti proprietà:
1) F(xo) è definita per ogni xo reale 0 ≤ F(xo) ≤ 1
2) Lim F(xo) = φ
xo
-∞
11
x1 1
3) Lim F(xo) = 1
xo
4) F(x2) ≥ F(x1)
x2 ≥ x1
∞
Una v.c. può essere discreta:
1
2
3
4
può essere continua
la v.s. è invece definita da una tabella a due righe di valori numerici
x1
x2……………….xn
N1
N2……………….Nn
Nella prima riga si riportano i valori argomentali, mentre nella seconda si scrivono i numeri che
rappresentano le frequenze assolute
Il numero ∑ni=1 Ni rappresenta la numerosità della popolazione
Si definisce frequenza ƒi il termine
ƒi = Ni / N
e rappresenta
il numero di volte che si presenta il valore argomentale xi.
3.3 Confronto tra v.s. e v.c.
Il confronto tra v.c. e v.s. costituisce la base del trattamento dei dati, questo confronto potrebbe
avvenire attraverso una sovrapposizione degli istogrammi che descrivono la v.s. con le curve che
definiscono la v.c.
12
Ma in effetti si preferisce ricorrere al confronto attraverso i parametri statistici, che nel caso delle
misure si limitano ad essere la media e la varianza. Infatti per le nostre applicazioni quello che conta
sapere è dove si concentra la distribuzione e quale sia la dispersione attorno al punto di massima
concentrazione.
3.4 La Media
Questo parametro fornisce il valore attorno a cui si concentra la distribuzione della popolazione,
traslando il concetto in termini meccanici potremo dire che la media è il baricentro della
popolazione, conseguentemente la sua espressione è data da:
M(x) =
∫
x ƒ(x) dx (caso continuo)
M(x) = 1/n ⋅ ∑xi
(caso discreto)
Volendo differenziare il caso in cui si tratta di v.c. o v.s., scriveremo
- µ(x)
che indica una media per v.c.
- m(x)
che indica una media per v.s.
- M[.]
è l’operatore di media.
Esempio n.1
Sia data la funzione densità in figura
f
c
1
x
1
2
13
ƒx =
o≤ x ≥ 2
altrimenti
½x
φ
a) Vogliamo verificare se ƒx è una funzione densità di probabilità, se è vero, dovrà essere
2
∫f
( x)
dx = 1
0
sostituendo il valore di ƒx avremo
2
∫
1
2
x dx = [ 1 4 x 2 ]02 = 1
0
quindi ƒ(x) è una funzione densità di probabilità
b) Calcoliamo la media
2
2
0
0
µx = ∫ x f (x) dx = ∫ x 1 2 x dx = ∫ 1 2 x 2 dx = [x 3 / 6]02 = 4 / 3
In effetti se ci riferiamo alla media come valore baricentrico si ha che su x risulterà
x = 2/3 ⋅ 2 = 4/3
Possiamo fare ancora un’altra verifica, considerando la mediana C1 che ha equazione
x–1
y-φ
-------- = ---------2–1
1-φ
Se intersechiamo la C1 con la retta x =4/3 avremo:
y = 4/3 – 1 = 1/3
che è proprio l’ordinata del baricentro.
14
y=x-1
3.4.1 Proprietà della media
Cosa ci interessa sapere sulla media?
1) Se la distribuzione è simmetrica qual è il valore della media ?
ƒ(c+h) = ƒ(c-h)
∞
∞
∞
∞
∞
-∞
−∞
-∞
µx = ∫ (c + h) ⋅ f (c + h) = ∫ c ⋅ f (c + h) + ∫ h ⋅ f (c + h) = c ∫ f (c + h) + φ = c
2) Se tra le due v.c. y ed x esiste un legame lineare, la media lo rispetta infatti
y = ax + b
M[y] = a M[x] + M[b] = a M[x] + b
Consideriamo la particolare variabile scarto definita da
ν = x - µx
la media sarà
M[ν] = M[x] – M[µx] = µx - µx = φ
15
Variabile casuale funzione di un’altra
Tra le variabili casuali x e y esiste il seguente legame funzionale
Y = g (x)
Si vuole calcolare la ƒy conoscendo la ƒx
La funzione g(x) è definita nell’insieme Sx e trasforma δx nella corrispondente immagine Sy.
Se Ay è un sottoinsieme (intervallo) di δy, esisterà un sottoinsieme Ax tale che
g(Ax) = Ay
Si pone per definizione che
P(y ∈ Ay) = P(x ∈ Ax)
Ad esempio se
Ay = c ≤ y ≤ d
⇒ Ax = x 1 ≤ x ≤ x 2
e x3 ≤ x ≤ x4
Se passiamo ad intervalli infinitesimi avremo che all’intervallo ay = dy (yo)
ax = ki dx (xi)
È sarà
P(y ∈ dyo) = ∑P (x ∈ dxi)
16
corrisponderanno
i = 1, 2, 3…….
Sappiamo che per una variabile casuale i valori di P (probabilità) ed f (densità) sono numeri
positivi al più nulli, pertanto si avrà:
P( x ∈ dx) = fx dx
dove con | dx | si indica il valore assoluto dell’intervallo dx.
Avremo così:
P( y ∈ dy)
P( x ∈ dxi)
P (x ∈ dxi) 1
=∑
=∑
⋅
dy
| dy |
| dy |
| dx |
dx
sarà così
fy = ∑
fx
ove f x = f [ g −1 ( y )]
g '⋅( x)
Esempio n.1
fx
La distribuzione della x è quella in figura con
ƒx=1/2 e µx = 1
1/2
0
2
x
Tra y e x esiste la seguente relazione
y=x+5
(5 ≤ y ≤ 7)
pertanto, applicando la relazione precedente,
1
fx
fy =
= 2 = 1/ 2
g '⋅( x) 1
17
Avremo così
fy
1/2
5
7
y
7
y
2
µy = ∫ ⋅ dy =
5
y 2 49 − 25
=
=6
4
4
come del resto era prevedibile essendo la media un operatore lineare
µy = µx + b = 1 + 5 = 6
Esempio n.2
fx
1
2
x
y=x+5
fx 1
=
x 2
fx =
x
2
2
µx = ∫
0
x
y−5
fy = 2 =
;
1
2
7
y −5
µy = ∫ y ⋅
⋅ dy =
2
5
7
∫(
5
18
x2 x3 4
=
= = 1,33
2
6 3
(5 ≤ y ≤ 7)
y2 5y
− ) ⋅ dy = 6,33
2
2
Esempio n.3
fx
2/π
π/2
0
x
y = sen x
y’ = cos x
cos x = 1 − sen 2 x =
1- y2
fx = 2/π
µx = π/4
2
fx
fy =
=
| g' x |
π
(0 ≤ y ≤ 1)
1- y2
fy
2/π
µ(y)
0
1
Vediamo intanto se ƒy è una funzione densità:
1
∫
1
fy dy =
0
2
2 π
= [ ⋅ arc sen y ]10 = = ⋅ [ − 0] = 1
π
π 2
1− y2
2
1
∫π ⋅
0
Calcoliamo la media di y:
1
µy = ∫
0
2
π
⋅ y⋅
µy =
2
π
1
1− y
2
=
⋅ [φ + 1] =
19
2
π
2
π
⋅ [− 1 − y 2 ]10 =
= 0.636
Se calcoliamo la media di y come
µy = g (µx)
avremo
µy = sen(π/4) = 0.707
che è diversa da quella corretta precedentemente calcolata.
La diversità dei valori dipende dal fatto che la Variabile x non è concentrata in un intervallo in cui
g(x) è regolare.
Se supponiamo di stringere l’intervallo e cambiare densità per la x, avremo:
fx
4/π
π/4
0
x
fy =
4
(0 ≤ y ≤ 0.707)
π ⋅ 1- y2
µx = π/8
µy =
4
π
0.707
⋅
∫
0
y
1− y
2
=
4
π
⋅ [− 1 − y 2 ]00.707 =
4
π
⋅ (−0.707 + 1) =0.373
µy = g(µx) = sen (22°,5) = 0.382
µy ≈ µx
Esempio n.4
fx
4/π
y = sen x
fx
0
x
y’ = cos x
π/2
µx =2/3 ⋅ π/2 = 60°
x
20
4
fx π
=
x π
2
fx =
8
8
2
⋅x
π2
fy = π
=
g ' ( x)
8
⋅x
π2
⋅ arc seny
1− y2
Vediamo se la ƒy è una funzione di densità:
1
∫
∫
in quanto
arc seny
1- y2
1
8
arc seny
0
∫π
⋅ dy
è del tipo
fy dy =
2
⋅
1- y2
0
⋅ dy
∫ u dv = u ⋅ v - ∫ v du
1
è il differenziale di arc sen y, si ha così
1− y2
∫
arc seny
1- y2
⋅ dy = arc seny ⋅ arc seny - ∫
arc seny
1- y2
⋅ dy
da cui si ottiene che
2∫
arc seny
1- y2
= (arc seny) 2 ⇒ ∫
arc seny
1- y2
=
1
(arc seny) 2
2
Pertanto
1
∫
fy ⋅ dy =
0
1
4 π2
2 1
⋅
⋅
[(
)
]
=
⋅[
−φ] = 1
arcseny
0
π2 2
π2 4
8
La ƒy è una funzione densità.
Calcoliamo la media di y:
µy =
8
π
2
1
⋅∫ y⋅
0
21
arcsen y
1− y2
⋅ dy
essendo
y
1− y
2
∫ u dv = u ⋅ v - ∫ r ⋅ du
1
∫ y⋅
0
= d (− 1 − y 2 )
avremo
pertanto
arcsen y
1− y2
1
⋅ dy = [arcsen y ⋅ (− 1 − y )] − ∫
2
1
0
(− 1 − y 2 )
0
µy =
8
π
2
8
π2
1− y2
⋅ [− 1 − y 2 ⋅ arcsen y + y ]10 =
⋅ [φ + 1 + 1 ⋅ φ + φ ] =
8
π2
= 0.811
Dimostriamo ora l’importante teorema della media:
Se due variabili casuali x e y sono legate dalla relazione y =g(x) avremo:
µy = M [ y ] = M[g(x)]
Infatti se y = g(x) è funzione monotona crescente avremo g’(x) > φ e
fy =
fx
g ' ( x)
M [ y] =
con x = g-1(y)
∞
∞
−∞
-∞
∫ y f(y) dy = ∫ y ⋅
∞
= ∫ g(x) f x dx
-∞
= M[g(x)]
22
fx
dy =
dy
dx
⋅ dy
Esempio:
fx =
2 /π
φ ≤ x ≤π /2
x < φ x > π /2
φ
Abbiamo già visto che se y= senx la µy = 2/π.
Calcoliamo questa media utilizzando il teorema della media
π /2
µ y = µ x = M [ gx] =
∫ g ( x) fx dx =
φ
π /2
2
∫ senx ⋅ π ⋅ dx =
φ
2
π
⋅ [− cos x]πφ / 2 =
Se la v.c. x è molto concentrata ed in un intorno è possibile che
g(x) = g(µx) + (x - µx) ⋅ g’(µx)
potremo scrivere
µy =
∫
[g(µx) + (x - µx) ⋅ g’(µx)] ⋅ ƒx dx
µy =
∫
g(µx) ⋅ ƒx dx +
= g(µx)
∫
∫
(x - µx) ⋅ g’(µx)⋅ ƒx ⋅ dx =
ƒx dx + g’(µx)
∫
(x - µx) ⋅ ƒx ⋅ dx = g(µx)
In quanto il secondo termine è una media di scarti.
L’ipotesi di concentrazione della variabile è fondamentale, in quanto diversamente
µ(y) ≠ g (µx)
23
2
π
Facciamo un esempio semplice, considerando che sull’asse x la variabile possa assumere i valori
riportati in figura
1
2
3
4
5
6
7
8
9 10
e che sia y = x2 il legame funzionale;
la media dei valori sull’asse x vale
µx = 5.5 e se fosse vero che
µ(y) = g(µx)
avremo
µ(y) = 5.52 = 30.25
Se facciamo la media dei quadrati riportati sull’asse otterremo
µ(y) = 38.5 che è diversa da g(Mx)
proprio perché la distribuzione non è concentrata
Viceversa consideriamo la distribuzione
1
1.1
1.2
1.3
1.4
1.5
che è una distribuzione abbastanza concentrata la cui media vale µx = 1.25
Se il legame è sempre del tipo y=x 2 avremo:
1
1.21
1.44 1.69
la cui media vale µy = 1.59;
1.96
2.25
M[µx2] = M[1.252] = 1.56
1.5.2 La Varianza
Se consideriamo le due popolazioni in figura, ci rendiamo conto che pur avendo la stessa media µx,
sono distribuite in maniera diversa, ed in particolare la distribuzione (1) è molto più concentrata
della (2).
24
La concentrazione attorno al valore medio è un parametro statisticamente importante in quanto
segnala, nel caso di una popolazione di misure, maggiore o minore incertezza.
Questo parametro prende il nome di Varianza ed è definita da:
σ2 =
∫
(x - µx)2 ƒ(x)dx
(caso continuo)
σ2 = 1/n ∑ni=1 (x-µx)2
(caso discreto)
Nel caso in cui tra due v.c. y ed x esiste una relazione del tipo
y = g(x)
con g(x) funzione qualunque avremo:
σ2 (y)= [g’(x)]2 σ2x
σ2 (y) =
∫
(y-µy)2 ƒ(y)dy =
infatti
∫
[g(x) – µy]2 ƒ(x)dx
ma nell’ipotesi che la v.c. x sia concentrata attorno alla media µx e che g(x) sia regolare in questo
intorno, sarà:
g(x) = g(µx) + g’(µx) (x- µx)
σ2 (y) =
ma essendo g(µx) = µy
∫
quindi
[g(µx) + g’(µx) (x-µy) - µy]2 ƒ(x) dx
avremo
25
σ2 (y) =
∫
[g’(µx)]2 ⋅ (x-µx)2 ƒx dx = g’(µx)2 σ2x
il Valore ± √σ2 prende il nome di scarto quadratico medio (s.q.m.) ed ha il significato dello scarto
mediamente attribuibile ad ogni valore della popolazione.
Il termine Error medio della media (E.m.m.) è invece lo scarto attribuibile a µx e vale
σm = σ2 / √n
infatti
mx =
x
x1 x 2
+
+ ....... n
n
n
n
pertanto
2
2
σ 
σ1  σ 2 
 +   ....... n 
 n   n 
 n 
2
σ 2 ( m) = 
Le σi provenendo dalla stessa popolazione saranno tutte uguali, sarà così
σ 2 ( m) =
n
σ2
2
⋅
=
σ
n
n2
c.v.d.
Definizione di una variabile standardizzata
Si definisce standardizzata una variabile del tipo z = [x – µ(x)] / σ
Questa variabile ha le seguenti proprietà:
σ2 (z) = 1
M (z) = φ
Infatti
x – µ(x)
M(z) = M ------------------ =
σ
(x – µx)2
σ (z) = M [---------------]
σ2
2
26
M(x – µx)
-------------- = φ
σ
=
σ2 / σ2 = 1
Media Ponderata
Supponiamo di aver misurato la grandezza A con n diversi sistemi di misura, caratterizzati ognuno
da una varianza σi2:
Misura di A
σ12
σ22
σ32
……
σn2
X1
X2
X3
…
Xn
Potremo pensare che ciascun sistema sia un’estrazione di misure da popolazioni diverse la cui
media è M e che questa tende ad A che è il valore vero.
La tendenza ad A si esplica con varianze σi2 diverse.
Se scrivessimo
µx
= 1/n ∑ Xi
troveremmo un valore medio che non tiene conto di σi2, dobbiamo quindi trovare un indice αi tale
che
µ(x)
= ∑ αi Xi
1) µx = µ
tenuto conto
; 2) σi2 = min
questo significa che
µ (x) = M [∑ αi xi] = ∑αi ⋅ M[xi] = µx ⋅ ∑αi
∑αi = 1
deve essere inoltre σ2 (x) = ∑ αi2 σi2 = min
Quindi si deve cercare il minimo di ∑αi2 σi2 con la condizione ∑αi = 1
ƒ = ∑αi2 σi2 - λ ( ∑ αi - 1)
27
ϑƒ
------ = 2 αi σi2 - λ = φ
ϑαi
Posto 1/σi2 = Pi
sarà
λ
αi = ----2σi2
λ Pi
αi = -----2
E dovendo essere ∑αi = ∑ λ/2 Pi = 1
λ/2 = 1 / ∑ Pi
αi = Pi / ∑ Pi
pertanto avremo
∑ Pi xi
µx = ---------∑ Pi
e la varianza
∑ Pi2 σi2
σ2(x) = --------------(∑ Pi)2
Esempio
Si è misurato un angolo con due strumenti diversi
1) α1 = 37°,2711 ± 3”
σ1 =± 3”= ± 1,45x10-5 rad
2) α2 = 37°,2725 ± 5”
σ2 =± 5”=± 2,42x10-5
σ12 = 2,11x10-10
σ22 = 5,88x10-10
Posto P1 = 1 e ragguagliando i pesi si ha P2 = 0.36
0.2711 x 1 + 0.2725 x 0.36
α = 37° + -------------------------------- = 37°,2715
1.36
Calcolo della varianza pesata:
∑ P ⋅σ
(α ) =
(∑ P )
2
σ
2
i
2
i
2
i
=
12 ⋅ (1.45 ⋅ 10 −5 ) 2 + 0.36 2 ⋅ (2.42 ⋅ 10 −5 ) 2
= 1.55 ⋅ 10 −5
(1 + 0.36) 2
28
Teorema di Tchebycheff
Quale che sia la forma di una distribuzione di una v.c., la quasi totalità dei suoi valori argomentali
cade tra
- 3 σx ≤ x ≤ 3 σx
Infatti se consideriamo l’espressione della varianza
σ 2 = ∑ ( xi − µx ) 2 ⋅ fi = ∑υ i2 ⋅ fi
σ 2 = υ12 ⋅ f1 + υ 22 ⋅ f 2 + υ 32 ⋅ f 3 .......υ n2 ⋅ f n
in cui
νi
è lo scarto iesimo.
Supponiamo di fissare un valore νm dello scarto, al disotto del quale gli scarti siano nulli e al di
sopra siano tutti ugauli a νm.
ν1
ν2
φ
φ
ν3
νn
........
φ
νm
νm
νm
σ 2 = ∑υ i2 ⋅ f i > υ m2 ⋅ ( f m + f m +1 ..... ⋅ f n
ψ
ψ è la somma delle frequenze degli scarti superiori a νm, pertanto la somma delle frequenze ƒ
degli scarti inferiori a νm sarà:
ƒ=1-ψ
ψ=1-ƒ
σ 2 ≥ υ m2 ⋅ψ = υ m2 ⋅ (1 − f )
29
⇒ 1- f ≤
σ2
υ m2
e quindi
f > 1−
σ2
υ m2
il che significa che la frequenza degli scarti inferiori a νm è maggiore di 1 −
Poniamo ora
νm = λ ⋅ σ
avremo
f > 1−
σ2
1
= 1− 2
2
2
λ ⋅σ
λ
che è la disuguaglianza di Tchebycheff
(λ>1)
se poniamo
Vm = 2 σx
avremo
f > 1−
se poniamo
1
= 0.75
4
Vm = 3 σx
avremo
f > 1−
1
≅ 90%
9
30
σ2
υ m2