CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
VARIABILI ALEATORIE
VARIABILE ALEATORIA DISCRETA E SUA LEGGE DI PROBABILITA’
Nella teoria classica della probabilità si aveva a che fare con gli eventi, quella moderna
preferisce , dove è possibile, operare con variabili aleatorie.
Nei diversi campi della scienza e della tecnica intervengono grandezze che descrivono i
fenomeni in esame. Ognuna di queste grandezze può assumere valori diversi, e non si può
stabilire a priori quale valore la grandezza assumerà, perché essa varia in modo casuale da
prova in prova; sarà possibile solo, a volte, conoscere con che probabilità essa assume
ciascuno dei valori possibili.
Consideriamo ad esempio un’urna contenente tre palline numerate da 1 a 3. Estraiamo
successivamente due palline, rimettendo ogni volta la pallina estratta nell’urna: registriamo i
numeri che appaiono sulle due palline; l’insieme dei risultati sarà rappresentato da uno spazio
contenente 9 elementi.
Quindi l’intero spazio Ω dei risultati del lancio è rappresentato dalle coppie ordinate
(1,1)
somma punti 2
(1,2) (2,1)
3
(1,3) (3,1) (2,2)
4
(2,3) (3,2)
5
(3,3)
6
Supponiamo di considerare una legge che ad ogni coppia associ la somma dei punti realizzati:
questa legge associa ad ogni elemento di Ω un e un solo elemento dell’insieme numerico
X = {2,3,4,5,6)
Ovvero tale legge è una funzione di Ω in X, X : Ω → R
La legge definita è detta variabile aleatoria o casuale
Le variabili aleatorie più usate sono di due tipi: discrete e continue
Una variabile aleatoria si dice discreta se può assumere un numero finito o una infinità
numerabile di valori, si dice invece continua se può assumere tutti i valori di un intervallo (o
più intervalli)
Le variabili aleatorie si indicano spesso con le ultime lettere maiuscole dell’alfabeto latino X,
Y, Z: i valori assunti dalle variabili casuali si indicano con le corrispondenti lettere minuscole
x, y, z.
Probabilità_Appunti_2
1/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
In generale dunque si può dare la
DEFINIZIONE
Variabile casuale (o aleatoria) discreta
Una variabile aleatoria (o casuale) discreta X è una variabile che può assumere i valori
x1 , x 2, ...x n corrispondenti a eventi aleatori E1 , E 2, ...E n non impossibili, che si escludono a
vicenda e tali che sicuramente uno di essi si verifichi.
Ad ogni valore xi che una variabile casuale può assumere si può associare la probabilità
p i dell’evento corrispondente E i . Diciamo quindi che p i è la probabilità che la variabile X
assuma il valore xi e la indichiamo con P ( X = xi )
U
E1
E2
….
En
X
x1
x2
….
xn
P(X)
p1
p2
….
pn
Nell’esempio considerato P( X = 2 ) è la probabilità che la somma dei numeri risulti
1
,
9
poiché solo la coppia (1,1) fornisce tale risultato, P( X = 3) è la probabilità che la somma
2
risulti 3 che vale , in quanto la somma 3 si ottiene con le due coppie (1,2) e (2,1); ….; ecc.
9
In generale si ha la
DEFINIZIONE
Distribuzione di Probabilità
Sia X una variabile aleatoria discreta che assume i valori x1 , x 2 ,...x n rispettivamente con
probabilità p1 , p 2 ,... p n , Chiamiamo legge di distribuzione di probabilità o semplicemente
legge di probabilità la funzione f che associa a ciascun valore xi la rispettiva probabilità p i .
La legge di probabilità può anche essere data sotto forma analitica con una espressione
del tipo pi = f ( xi ) i = 1,2,3,....
oppure del tipo
P ( X = xi )
i = 1,2,3,....
La funzione di probabilità f soddisfa le condizioni:
f ( xi ) ≥ 0 e
n
n
∑ f (x ) = ∑ p
i
1
i
=1
1
Probabilità_Appunti_2
2/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Con riferimento all’esempio precedente dell’estrazione delle due palline dall’urna, la funzione
distribuzione di probabilità della variabile aleatoria “somma dei numeri estratti” è
rappresentata dalla tabella
X
P(X)
2
1
9
3
2
9
4
1
3
5
2
9
6
1
9
La funzione distribuzione di probabilità si può rappresentare tramite un diagramma cartesiano
o un istogramma
Probabilità_Appunti_2
3/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
FUNZIONE DI RIPARTIZIONE
Spesso nello studio di un fenomeno si è interessati alla ricerca della probabilità in un dato
intervallo di valori che può assumere la variabile casuale.
Dato un numero reale x, indichiamo con P( X ≤ x ) la probabilità che la variabile casuale X
assuma un valore minore o uguale a x
Fissato il valore di x, siano x1 , x 2 ,..., x h in ordine crescente i valori assunti da X minori o
uguali a x, e p1 , p 2 ,..., p h le rispettive probabilità.
La probabilità P( X ≤ x ) è la somma delle probabilità che X assuma i valori x1 , x 2 ,..., x h , cioè
P ( X ≤ x ) = p1 + p 2 + .... + p h
Si giunge così alla
DEFINIZIONE
Funzione di ripartizione
Sia x ∈ R e X una variabile casuale discreta. La funzione F ( x ) = P( X ≤ x ) si dice funzione di
ripartizione della variabile casuale X o funzione cumulativa delle frequenze.
Raccogliamo in una tabella le grandezze definite
X
P(X)
F(X)
x1
p1
p1
x1
p2
p1 + p2
x…
p…
p1 + p2 + ….
xn
pn
p1 + p2 + ….+pn
Il dominio di F è l’intero asse reale, il codominio è l’intervallo [0,1]
Si ha
x < x1
0


x1 ≤ x < x 2
p1

 p1 + p 2
x 2 ≤ x < x3

F (x ) = 
per
...
...
 p + p + ... p
x h ≤ x < x h+1
2
h
 1
...
...


x ≥ xn
1

Probabilità_Appunti_2
4/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Pertanto la funzione di ripartizione ha un grafico “a gradini”, del tipo di quello in figura
In diverse applicazioni è necessario calcolare la probabilità che X assuma valori compreso in
un dato intervallo , cioè P(a < X ≤ b ) , in cui, per comodità è stato incluso l’estremo superiore
b. La probabilità P(a < X ≤ b ) si esprime in modo agevole per mezzo della funzione di
ripartizione
P(a < X ≤ b ) = P( x ≤ b) − P( X ≤ a ) = F (b ) − F (a )
La formula afferma che P(a < X < b ) è uguale all’incremento della funzione di ripartizione
nell’intervallo [a, b] .
Riferendoci all’esempio precedente, otteniamo la tabella della distribuzione di probabilità
X
P(X)
F(X)
2
3
4
5
6
1
9
1
9
2
9
1
3
1
3
2
3
2
9
8
9
1
9
1
Probabilità_Appunti_2
5/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
La funzione di ripartizione è definita
0


1
9

1
F(x) = 
3

2
3


8
9


1
x<2
2≤ x<3
per
3≤ x < 4
4≤ x<5
5≤ x<6
x≥6
ed ha l’andamento “a gradini”
F(x)
1
8
9
2
3
1
3
1
9
0
2
3
4
5
6
x
Probabilità_Appunti_2
6/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
CARATTERISTICHE NUMERICHE DELLE VARIABILI ALEATORIE
Spesso è sufficiente (o non è possibile altro che) indicare soltanto alcuni parametri numerici
che caratterizzano, in una certa misura, i tratti essenziali di una variabile aleatoria.
Sono valori caratteristici della distribuzione che ne forniscono un’immagine riassuntiva,
sufficiente per gli scopi prefissi.
Due di queste caratteristiche sono quelle di speranza matematica (o valor medio) e di
varianza di una variabile aleatoria.
VALORE MEDIO
DEFINIZIONE
Sia X una variabile aleatoria che assume un numero finito di valori x1 , x 2 ,..., x n con le
probabilità p1 , p 2 ,..., p n .
Si dice valor medio o speranza matematica M ( X ) la somma dei prodotti dei valori di X per
le rispettive probabilità
n
M ( X ) = p1 ⋅ x1 + p 2 ⋅ x 2 + ... + p n ⋅ x n = ∑ pi ⋅ xi
i =1
Se i valori x1 , x 2 ,..., x n sono equiprobabili, cioè se p1 = p 2 = ... = p n =
1
, il valor medio si
n
scrive
x1 + x 2 + ... + x n
n
non è altro che la media aritmetica dei valori assunti da X.
Se invece le probabilità sono differenti, ogni valore xi va pesato con la propria probabilità
M (X ) =
p i . Infatti ricordando che p1 + p 2 + ... + p n = 1 è possibile esprimere M ( X ) come
p1 ⋅ x1 + x 2 ⋅ p 2 + ... + x n ⋅ p n
p1 + p 2 + ... + p n
Dalla quale risulta che M ( X ) è la media pesata dei valori x1 , x 2 ,..., x n .
Calcoliamo il valor medio della variabile aleatoria dell’esempio precedente la cui
distribuzione di probabilità era espressa dalla tabella
M (X ) =
X
P(X)
2
1
9
3
2
9
4
1
3
5
2
9
6
1
9
Otteniamo
1
2
1
2
1
36
M (X ) = ⋅ 2 + ⋅ 3 + ⋅ 4 + ⋅ 5 + ⋅ 6 =
=4
9
9
3
9
9
9
Probabilità_Appunti_2
7/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
VARIANZA E SCARTO QUADRATICO MEDIO
Due variabili casuali che hanno lo stesso valor medio possono avere distribuzioni di
probabilità molto differenti.
Ad esempio, i voti di matematica in due classi possono avere lo stesso valore medio, diciamo
6 , ma una distribuzione molto differente all’interno delle classi. In una gli studenti
potrebbero avere tutti l media del 6 mentre nell’altra potrebbero esserci diversi 9 e 3 .
Diventa allora necessario definire altri valori caratteristici della distribuzione che tengano
conto di queste situazioni
DEFINIZIONE
Varianza
Sia X una variabile aleatoria che assume un numero finito di valori x1 , x 2 ,..., x n con le
probabilità p1 , p 2 ,..., p n .
Si dice varianza della variabile casuale X, e si indica con V ( X ) , la somma dei prodotti dei
delle probabilità p i per i quadrati delle differenze tra x i e il valor medio
n
V ( X ) = ∑ pi ⋅ ( xi − M ) 2
i =1
dove M è il valor medio di X.
Sia X 2 la variabile casuale che assume i valori x12 , x 22 ,..., x n2 con le probabilità p1 , p 2 ,..., p n .
La varianza di una variabile casuale si calcola più facilmente utilizzando la seguente formula
notevole
2
V (X ) = M X 2 − M (X )
( )
in cui M (X ) è il valor medio della variabile
2
X 2 e M ( X ) è il quadrato del valor medio di X
2
La varianza misura la deviazione dei valori di X rispetto al valor medio. Se la varianza è
piccola , i valore di X non sono molto lontani dal valor medio, se è grande la deviazione è
importante.
Nei calcoli la varianza non si può confrontare con il valor medio poiché sono fra loro
grandezze non omogenee. Per renderle tali è stato introdotto un nuovo parametro strettamente
legato alla varianza.
DEFINIZIONE
Scarto quadratico medio
Si dice scarto quadratico medio o deviazione standard σ ( X ) della variabile casuale X la
radice quadrata della varianza
σ (X ) = V (X )
Lo scarto quadratico medio σ permette di stimare la probabilità che la variabile aleatoria X
assuma valori in un intervallo centrato nel valor medio M.
Probabilità_Appunti_2
8/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Consideriamo la variabile casuale definita dalla tabella dell’esempio precedente
X
P(X)
2
1
9
3
2
9
4
1
3
5
2
9
6
1
9
Il valor medio era risultato
1
2
1
2
1
36
M (X ) = ⋅ 2 + ⋅ 3 + ⋅ 4 + ⋅ 5 + ⋅ 6 =
=4
9
9
3
9
9
9
Calcoliamo la varianza con la formula della definizione
1
2
1
2
1
12 4
2
2
2
2
2
V ( X ) = ⋅ (4 − 2 ) + ⋅ (4 − 3) + (4 − 4 ) + ⋅ (4 − 5) + ⋅ (4 − 6 ) =
=
9
9
3
9
9
9 3
Allo stesso risultato si perviene applicando la formula notevole
2
V (X ) = M X 2 − M (X )
Infatti poiché
1
2
1
2
1
156 52
M X 2 = ⋅ 2 2 + ⋅ 32 + ⋅ 4 2 + ⋅ 52 + ⋅ 6 2 =
=
e
9
9
3
9
9
9
3
2
M ( X ) = 4 2 = 16 otteniamo
52
4
2
V (X ) = M X 2 − M (X ) =
− 16 =
3
3
Lo scarto quadratico medio risulta
4
σ (X ) = V (X ) =
3
( )
( )
( )
VARIABILE ALEATORIA STANDARDIZZATA
DEFINIZIONE
Data una variabile casuale X avente valor medio M e scarto quadratico medio σ , la variabile
x −M
x − M x2 − M
X −M
X* =
che assume i valori 1
,
,…, n
si dice
σ
σ
σ
σ
variabile aleatoria standardizzata
La variabile definita gode delle proprietà:
- è adimensionale in quanto quoziente di X − M e σ che hanno le stesse dimensioni;
pertanto la variabile standardizzata è utile per il confronto di variabili casuali differenti per
dimensioni, valor medio e scarto quadratico medio
- qualunque sia X il valor medio di X* è 0: Infatti
n
n
x −M 1  n
 1
M ( X *) = ∑ pi ⋅ i
= ⋅ ∑ p i ⋅ xi − M ∑ p i  = (M − M ) = 0
σ
σ  i =1
i =1
i =1
 σ
- si dimostra inoltre che
V (X ) = 1
Probabilità_Appunti_2
9/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
OPERAZIONI SULLE VARIABILI CASUALI
Per poter operare con le variabili casuali è necessario introdurre il concetto di variabili
indipendenti
DEFINIZIONE
Variabili indipendenti
Siano X e Y due variabili casuali definite dalle tabelle
X
x1
x2
…
xn
P
p1
p2
…
pn
Y
y1
y2
…
yn
P
p1
p2
…
pn
X e Y si dicono indipendenti se, per ogni valore di i e k, sono indipendenti gli eventi “X
assume il valore di xi ” e “Y assume il valore di y k ”.
DEFINIZIONE
Addizione e sottrazione
Chiamiamo somma di X e Y la variabile casuale X + Y che assume i valori xi + y k ;
differenza di X e Y la variabile casuale X − Y che assume i valori xi − y k .
Se X e Y assumono rispettivamente n e m valori, la somma X + Y e la differenza X − Y
assumono tutti gli n ⋅ m valori che si possono costruire addizionando o sottraendo xi e y k .
Se X e Y sono variabili indipendenti la somma X + Y e la differenza X − Y assumono
rispettivamente i valori xi + y k e xi − y k con probabilità pi ⋅ p k .
Valgono le proprietà:
• M ( X ± Y ) = M ( X ) ± M (Y )
• Se X e Y sono variabili indipendenti
V ( X ± Y ) = V ( X ) + V (Y )
DEFINIZIONE
Moltiplicazione
Chiamiamo prodotto di X e Y la variabile casuale XY che assume i valori xi ⋅ y k
Se X e Y assumono rispettivamente n e m valori, il loro prodotto assume tutti gli n ⋅ m valori
che si possono costruire moltiplicando xi e y k .
Se X e Y sono variabili indipendenti, il prodotto XY assume i valori xi ⋅ y k con probabilità
pi ⋅ p k .
Probabilità_Appunti_2
10/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Valgono le proprietà:
• Se X e Y son sue variabili indipendenti
M ( XY ) = M ( X ) ⋅ M (Y )
• Per calcolare la varianza del prodotto XY conviene utilizzare la formula
2
2
2
V ( XY ) = M ( XY ) − [M ( XY )] , dove M ( XY ) è il valor medio della variabile casuale
( XY )
[
2
]
[
]
, che assume i valori ( xi ⋅ y k ) con probabilità pi ⋅ p k , se X e Y sono indipendenti.
2
Probabilità_Appunti_2
11/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
DISTRIBUZIONI DI PROBABILITA’ CLASSICHE
Si è visto che le probabilità associate ai valori che può assumere una variabile aleatoria X
costituiscono la distribuzione di probabilità di X.
Nel caso di variabile aleatoria discreta si possono elencare in una tabella i valori della
variabile e le relative probabilità, ma a volte è anche possibile formulare una legge
matematica che, al variare di dei valori della X, determini i relativi valori di probabilità.
Nel caso di una variabile aleatoria continua invece, non essendo possibile l’elencazione dei
valori, risulta necessario descriverne la distribuzione attraverso modelli matematici
Analizzeremo le principali distribuzioni teoriche di probabilità.
LA DISTRIBUZIONE BINOMIALE O DI BERNOULLI
Sia p la probabilità che in una prova si verifichi un certo evento, che chiamiamo successo, e
q = 1 − p la probabilità che si realizzi l’evento contrario, che chiamiamo insuccesso. Una
prova di tale tipo si dice bernoulliana.
Ripetiamo la prova n volte, nelle stesse condizioni, ciascuna delle quali (indipendentemente
dalle altre) può condurre all’evento successo oppure all’evento contrario insuccesso e sia X la
variabile casuale “numero di successi che si presentano in n prove”. I valori assunti da X sono
0,1,2,3,…., poiché in n prove si possono ottenere da 0 a n. Pertanto X è una variabile aleatoria
discreta che assume un numero finito di valori.
Si perviene alla
DEFINIZIONE
Distribuzione binomiale (o di Bernoulli)
Si dice che una variabile casuale discreta X, con valori x = 0,1,2,…n, ha una distribuzione di
probabilità binomiale di parametri n e p se:
n
P ( X = x ) =   p x q n − x
 x
Una variabile casuale con distribuzione binomiale descrive il numero di volte che si può
verificare un evento aleatorio di probabilità p un n prove.
La tabella di distribuzione binomiale è:
X
0
1
2
…
x
…
P(X=x)
p0q n
 n  n −1
  pq
1
 n  2 n−2
  p q
 2
…
 n  x n−1
  p q
 x
…
n-1
 n  n−1

 p q
 n − 1
n
n n 0
  p q
n
Probabilità_Appunti_2
12/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Il seguente teorema fornisce il valore medio e lo scarto quadratico medio della variabile X
TEOREMA
Se X è una variabile aleatoria bernoulliana di ordine n e parametro p:
- il suo valor medio è dato da M ( X ) = np ;
- la sua varianza è data da V ( X ) = npq ;
-
il suo scarto quadratico medio è dato da σ = npq = np(1 − p )
Vediamo un esempio.
Si lancia un dado 5 volte e si considera un successo il verificarsi dell’evento “esce il numero
1
5
2“ che ha probabilità di verificarsi e di non verificarsi. Consideriamo la variabile casuale
6
6
X: “numero di successi in 5 prove”.
Per quanto detto X è una variabile bernoulliana.
La sua tabella di distribuzione di probabilità è
X
0
1
0
P(X=x)
1 5
   
6 6
2
1
6
1 5
   
6 6
5
2
3
1 5
   
6 6
4
3
1 5
   
6 6
4
3
4
1 5
   
6 6
5
2
5
1 5
   
6 6
6
1
1 5
   
6 6
Calcoliamo il valor medio, la varianza e lo scarto quadratico medio della variabile X:
1 5
M (X ) = 5 ⋅ =
6 6
1 5 25
V (X ) = 5 ⋅ ⋅ =
6 6 36
25 5
σ (X ) =
=
36 6
Se k è il numero dei successi, determiniamo la probabilità che
a) k ≤ 2
significa che si possono avere 0, 1, 2 successi: la probabilità è quindi
1
5
2
4
1 5
1
5
P(k ≤ 2) =  1   5  +     +    
6 6 6 6 6 6
b) k ≥ 3
significa che si possono avere 3, 4, 5, 6 successi la probabilità è quindi
3
3
5
1
5
1
4
2
1
5
1
5
1
5
1
5
P(k ≥ 3) =     +     +     +    
6 6 6 6 6 6 6 6
c) 2 ≤ x ≤ 4
significa che si possono avere 2, 3, 4 successi: la probabilità è quindi
3
3
2
4
4
2
1
5
1
5
1
5
P(2 ≤ k ≥ 4) =     +     +    
6 6 6 6 6 6
0
6
5
Probabilità_Appunti_2
13/28
1
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
LA DISTRIBUZIONE DI POISSON
Si ha la
DEFINIZIONE
Sia X una variabile aleatoria discreta che può assumere i valori 0, 1, 2, …, n in modo tale che
la funzione di probabilità di X sia:
λ x e −λ
P( X = x) =
x!
In cui λ è una costante positiva assegnata.
La distribuzione determinata dalla probabilità di cui sopra è detta distribuzione di Poisson di
parametro λ e la variabile aleatoria, rappresentata nella tabella
X
P( X = x)
0
e −λ
1
λ
1!
e −λ
2
λ
2
2!
e −λ
…
…
λ
x
x!
x
…
e −λ
…
Si chiama variabile aleatoria di Poisson di parametro λ .
Si dimostra che:
• M (X ) = λ
• V (X ) = λ
•
σ (X ) = λ
La distribuzione di Poisson può essere considerata come limite della distribuzione di
Bernoulli
n
P ( X = x ) =   p x q n − x
 x
quando il numero delle prove tende all’infinito.
Infatti si ha il
TEOREMA.
Il limite per x → ∞ di una distribuzione bernoulliana , di parametro p è una distribuzione di
Poisson di parametro λ = np
Possiamo quindi affermare che è approssimativamente vero, per valori elevati di n, che:
 n  x n− x λx e −λ
  p q =
x!
 x
L’approssimazione in pratica si usa per p ≤ 0,1
Per esempio se il numero delle prove supera 50 ed np è minore di 5.
Probabilità_Appunti_2
14/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Ad esempio
per n = 10 se p = 0,1 e q = 1 − p = 0,9
la distribuzione di Bernoulli ha probabilità, per x = 2
10 
2
8
P ( X = 2 ) =   ⋅ (0,1) ⋅ (0,9 ) ≅ 0,19
2
Essendo λ = np = 10 ⋅ (0,1) = 1 , la formula di Poisson da:
12 −1
P ( X = 2 ) = e ≅ 0,18
2!
Probabilità_Appunti_2
15/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
VARIABILI ALEATORIE CONTINUE
Si presentano delle questioni in cui i casi possibili si susseguono con continuità; sorge
spontanea la necessità di estendere a questi casi il significato del termine probabilità.
Per esempio consideriamo un cronometro che possiamo fermare premendo un pulsante.
Vogliamo determinare la probabilità che si fermi, per esempio, esattamente dopo 8 secondi.
La grandezza legata al fenomeno aleatorio è il tempo, che varia con continuità a seconda della
sensibilità del cronometro
DEFINIZIONE
Una variabile aleatoria X si dice continua se i valori che può assumere occupano
interamente un intervallo, limitato o illimitato, (a, b ) dell’asse numerico reale x.
Come a ciascun valore x n di una variabile casuale discreta corrisponde una determinata
probabilità p n , così a ciascun intervallo (a, b ) appartenente al dominio dei valori di una
variabile continua, corrisponde una determinata probabilità, che si indica
P(a < x < b )
caratterizzante il fatto che il valore assunto dalla variabile casuale cada in questo intervallo.
Per il calcolo della probabilità definita si utilizza una funzione f ( x ) ≥ 0 , definita in R,
chiamata funzione densità di probabilità di X e il valore della probabilità P( x1 ≤ x ≤ x 2 )
è uguale all’area compresa fra il grafico di f ( x ) e l’asse delle ascisse nell’intervallo
[x1 , x2 ]
DEFINIZIONE
Si chiama funzione densità di probabilità di una variabile casuale continua X la funzione f ( x )
tale che
f ( x ) ≥ 0 ∀x ∈ R e
+∞
∫ f (x )dx = 1
−∞
Dalla definizione osserviamo che quando l’intervallo I in cui varia la X ha estremi finiti a e b,
la funzione densità ha valore
f ( x ) = 0 per x < a e per x > b
Probabilità_Appunti_2
16/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Vediamo la giustificazione dell’introduzione della funzione densità per la variabile continua
con un esempio.
Esempio.
In un controllo della qualità vengono rilevate le durate di 5400 componenti elettrici; i dati
raccolti nella tabella
Dai dati elaborati si ottiene la seguente tabella
classi
t ≤ 500
500 − 700
700 − 1000
1000 − 1200
1200 − 1500
1500 − 1700
1700 − 2000
totale
densità =
ampiezza frequenza frequenza
classi
classi
relativa frequenza relativa
ampiezza classi
500
0 0,0000%
0,0000%
200
1200 2,2018%
0,0110%
300
12000 22,0183%
0,0734%
200
16000 29,3578%
0,1468%
300
21500 39,4496%
0,1315%
200
3000 5,5046%
0,0275%
300
800 1,4679%
0,0049%
54500
100
In analogia a quanto fatto in Statistica per la rappresentazione dei dati rilevati per classi di
ampiezza diversa tramite gli istogrammi,
poiché le classi non hanno uguale ampiezza, sull’asse delle ordinate si riporta la densità di
frequenza, cioè il rapporto fra la frequenza relativa e l’ampiezza della classe
di =
fi
Λx i
0,1468
fi = Λxi ⋅ di =
29,3578
Λx i
Probabilità_Appunti_2
17/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Aumentando il numero n delle classi diminuisce la base dei rettangoli, ossia l’ampiezza delle
classi, ma l’area totale dell’istogramma si mantiene pari a 1 che è la somma di tutte le
frequenze relative.
Passando al limite per n che tende all’infinito, la spezzata si riduce ad una curva continua che
chiamiamo f ( x ) : densità di probabilità
F (x ) =
x2
∫ f (x )dx
x1
F (x )
La probabilità P(a < x < b ) è dunque l’area sottesa dalla curva densità di probabilità f ( x ) .
Il modello matematico che serve per descrivere le probabilità associate a una variabile casuale
continua X che varia entro un intervallo I = [a, b] , dove I ⊂ R , non si basa quindi sulle
probabilità di singoli valori di X, bensì sulla probabilità che X assuma valori compresi fra due
estremi x1 , x 2 ∈ I
Probabilità_Appunti_2
18/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Analogamente al caso delle variabili aleatorie discrete, possiamo introdurre il concetto di
funzione di ripartizione
DEFINIZIONE
Funzione di ripartizione
Si chiama funzione di ripartizione di una variabile casuale continua X la funzione F ( x ) che
fornisce la probabilità che la variabile X non superi un determinato valore x:
F (x ) = P( X ≤ x ) =
x
∫ f (t )dt
−∞
Ad esempio
F (c ) rappresenta la probabilità che la variabile aleatoria X assuma valori minori o uguali a c
Valgono per la funzione di ripartizione proprietà molto simili a quelle viste nel caso delle
variabili discrete.
• il dominio della F è l’intero asse reale, il codominio [0,1]
• F è una funzione monotona non decrescente
• come nel caso delle funzioni discrete, la probabilità che X sia compresa nell’intervallo
[x1 , x2 ] , P(x1 < x < x 2 ) , è data, in termini di ripartizione dalla relazione:
P( x1 < x ≤ x 2 ) = P( X ≤ x 2 ) − P( X ≤ x1 ) = F ( x 2 ) − F ( x1 )
dF ( x )
• F ( x ) è primitiva della funzione densità f ( x ) ; infatti F ' ( x ) =
= f (x )
dx
I grafici che seguono illustrano rispettivamente l’andamento della funzione densità di
probabilità f ( x ) e della funzione di ripartizione F ( x )
+∞
∫ f (x )dx
−∞
Probabilità_Appunti_2
19/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Anche per le variabili aleatorie continue si parla di valor medio,varianza e scarto quadratico
medio, Le formule sono l’estensione nel continuo di quelle delle variabili aleatorie discrete:
l’integrale sostituisce la somma dei prodotti
M (X ) =
valor medio
+∞
∫ x ⋅ f (x )dx
−∞
+∞
var( X ) =
varianza
∫ (x − M (x )) f (x )dx
2
−∞
σ ( X ) = var( x )
scarto quadratico medio
Per il calcolo della varianza vale formula, vista in Statistica:
var( X ) = M (X 2 ) − [M ( X )]
2
Probabilità_Appunti_2
20/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
LA DISTRIBUZIONE NORMALE O GAUSSIANA
Nella teoria della probabilità fra le leggi di distribuzione di importanza fondamentale vi è la
legge di distribuzione (detta spesso di Gauss).
La particolarità fondamentale della legge normale sta nel fatto che è una legge limite a cui
tendono altre leggi di distribuzione sotto condizioni frequenti nella pratica e del tutto generali.
Storicamente ha avuto origine come approssimazione della distribuzione binomiale.
Successivamente è stata individuata come modo con il quale si distribuiscono le misure
ripetute, che differiscono fra loro per motivi accidentali (casuali), di una stessa grandezza.
Si dimostra che la somma di un numero sufficientemente grande di variabili aleatorie
indipendenti (o debolmente dipendenti) che obbediscono a leggi di distribuzione diverse,
approssima la distribuzione effettiva con una legge normale, tanto più precisa quanto
maggiore è il numero di variabili.
DEFINIZIONE
Distribuzione normale (o di Gauss)
Una funzione densità di probabilità f ( x ) si dice normale se è definita in R ed ha espressione
( x−µ )
−
f (x ) =
1
σ 2π
e
2σ 2
dove i parametri µ (m) e σ sono costanti reali positive.
(
)
Si indica con N µ , σ
la variabile casuale continua con una funzione densità di
probabilità normale e si chiama variabile casuale normale.
I parametri µ e σ coincidono rispettivamente con il valor medio e lo scarto quadratico
medio della variabile casuale.
2
La curva che rappresenta la funzione gaussiana
è detta curva degli errori accidentali o, dalla sua
forma dovuta alla simmetria, curva a campana.
Notiamo alcune caratteristiche della curva:
- è simmetrica rispetto all’asse x = µ

1 
- ha un massimo in  µ ,

 σ 2π 
- è simmetrica rispetto l’asse delle ascisse
- presenta dei punti di flesso in µ − σ e µ + σ
Se consideriamo più variabili casuali normali con
uguale valor medio µ ma diverso valore di σ
la curva si appiattisce all’aumentare dello scarto
quadratico medio.
.
Probabilità_Appunti_2
21/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Soffermiamoci sul significato fisico dei parametri µ (m) e σ .
Dalla formula della definizione
−
1
f (x ) =
e
σ 2π
( x − m )2
2σ 2
si osserva che facendo cambiare
il centro di dispersione µ , centro
di simmetria della distribuzione,
la curva si sposta lungo l’asse
delle ascisse, senza cambiare forma.
Il centro di dispersione caratterizza
la posizione di distribuzione sull’asse
delle ascisse.
La dimensione di m è quella della
variabile aleatoria.
Si dimostra che
TEOREMA
L’area della regione piana limitata dalla curva e dall’asse x è uguale a 1.
Se si pone nella formula µ = 0 si ottiene
x2
− 2
1
f (x ) =
e 2σ
σ 2π
la curva corrispondente è simmetrica rispetto l’asse y
Si osservato che più piccolo è il valore di σ , più
grande è il massimo della f ( x ) e più ripida è la
pendenza.
Questo implica innanzitutto che la probabilità con
la quale si cade nell’intervallo (− a, a ) è maggiore
per la variabile aleatoria distribuita normalmente,
(con µ = 0 ), per la quale la grandezza σ
è più piccola.
Inoltre per m ≠ 0 le curve densità hanno lo stesso
andamento, ma sono spostate a destra (se m > 0)
o a sinistra (se m < 0) .
Per questo motivo considereremo in seguito le funzioni
densità di probabilità con µ = 0 .
Probabilità_Appunti_2
22/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
DISTRIBUZIONE NORMALE STANDARDIZZATA
Risulta utile nell’eseguire i calcoli introdurre la variabile normale standardizzata.
Allo scopo trasformiamo la variabile X nella variabile T (o Z) ponendo
x−m
T=
σ
allora il valore medio di T è 0 e la varianza è 1.
In questo caso la funzione densità di densità T può essere ottenuta dalla
−
1
f (x ) =
e
σ 2π
( x − m )2
2σ 2
ponendo m = 0 e σ = 1 ;
si ha
t2
1 −2
f (x ) =
e
2π
Introdurre la variabile standardizzata significa assumere come centro di dispersione l’origine
degli assi, e come unità di misura lo scarto quadratico medio σ .
Quindi la variabile casuale standardizzata di una variabile casuale normale è N (0,1)
Esempio.
Calcoliamo la probabilità che la variabile casuale normale X = N (9,4) assuma valori
compresi nell’intervallo [10,12] .
Il calcolo si effettua più semplicemente standardizzando la funzione densità.
Il calcolo della probabilità che la variabile N (9,4) assuma un valore compreso fra [10,12] si
riconduce calcolo della probabilità che la variabile casuale standardizzata Z = N (0,1) assuma
un valore compreso tra 0,5 e 1,5 essendo questi i due valori di Z corrispondenti ai precedenti.
Infatti applicando la relazione
Z=
x−m
σ
si ha
10 − 9
= 0,5
2
12 − 9
x 2 = 12 da cui z 2 =
= 1,5
2
x1 = 10 da cui z1 =
Probabilità_Appunti_2
23/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Si dimostra il
TEOREMA
La probabilità che la variabile T assuma un valore appartenente all’intervallo (a, b ) è l’area A
della regione di piano racchiusa dalla curva normale, dall’asse x e dalle rette t = a e t = b
Cioè
P(a < T < b ) = A
Il calcolo di queste aree di probabilità per la variabile normale standardizzata è stato fatto e
riportate sulla tavola (tavola di Sheppard) come quella riportata in appendice.
Tale tabella fornisce l’area al di sotto della curva normale standardizzata f ( z ) tra le ordinate
di t = 0 e qualunque valore positivo di t e cioè
F ( z ) = (0 < Z < z )
Da questa tavola si possono ricavare mediante l’uso della simmetria attorno alla retta t = 0 le
aree di due ordinate qualunque.
In questa tavola le righe sono in corrispondenza alla parte decimale del valore di z e le
colonne corrispondono ai centesimi.
Per esempio per trovare il valore di F (1,35) occorre individuare la riga in cui compare il
numero 1,3 e scorrerla fino alla colonna corrispondente al numero 0,05; la casella individuata
contiene il valore cercato.
Applichiamo la tavola per risolvere il problema dell’esempio precedente
P(0,5 < Z < 1,5)
P(0 < Z < 1,5) = F (1,5) = 0,4332
e P(0 < Z < 0,5) = F (0,5) = 0,1915
Quindi
P(0,5 < Z < 1,5) = P(0 < Z < 1,5) − P(0 < Z < 0,5) =
= 0,4332 − 0,1915 = 0,2417
La simmetria della curva gaussiana rispetto l’asse della y comporta che la stessa tavola possa
essere utilizzata anche per valori negativi della variabile Z:
P(− z < Z < 0 ) = P(0 < Z < z ) ,
P(− ∞ < Z < − z ) = P( z < Z < +∞ ) =
= P(0 < Z < +∞ ) − P(0 < Z < z ) = 0,5 − P(0 < Z < z )
Probabilità_Appunti_2
24/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
LA LEGGE DEI TRE SIGMA
Riportiamo alcune uguaglianze di notevole utilità nei calcoli.
1) P(− 1 < T < 1) = 0,6826 = 68,28%
Cioè: nella distribuzione normale c’è la probabilità del 68,28% che la variabile normale
standardizzata abbia uno scarto dal valore medio (che vale 0) inferiore a 1 (che l’ascissa del
punto di flesso). Ossia il 68,28% dei valori della distribuzione sono compresi tra -1 e 1
2) P(− 2 < T < 2) = 0,95,44 = 95,44%
Ossia il 98,44% dei valori della distribuzione sono compresi tra -2 e 2.
3) P(− 3 < T < 3) = 0,99,73 = 99,73%
Poiché il valore T = 3 è il valore standardizzato
di X = 3σ , quest’ultima relazione si chiama
legge dei tre sigma e afferma che il 99,73%
dei valori della distribuzione è contenuta
nell’intervallo di estremi -3 e 3 (oppure - − 3σ e
3σ ) e solo lo 0,27% è distribuita nelle code della
distribuzione.
In generale quindi risulta inutile spingere l’esame
della distribuzione della variabile T al di fuori
di tale intervallo.
In generale dunque vi sono aree di probabilità che rivestono importanza in quanto sono
frequentemente usate. Sono quelle che in una distribuzione normale corrispondo ai seguenti
intervalli
µ −σ < X < µ +σ
µ − 2σ < X < µ + 2σ
µ − 3σ < X < µ + 3σ
…
µ − nσ < X < µ + nσ
Le relative probabilità si determinano considerando i corrispondenti intervalli della variabile
standardizzata Z e poi applicando la tavola dei valori di P( z ) :
P(− 1 < Z < 1) = P(− 1 < Z < 0) + P(0 < Z < 1) = 2 ⋅ F (1) = 0,6826
P(− 2 < Z < 2) = P(− 2 < Z < 0) + P(0 < Z < 2) = 2 ⋅ F (2) = 0,9544
P(− 3 < Z < 3) = P(− 3 < Z < 0) + P(0 < Z < 3) = 2 ⋅ F (3) = 0,9974
…
P(− n < Z < n ) = P(− n < Z < 0) + P(0 < Z < n ) = 2 ⋅ F (n )
Probabilità_Appunti_2
25/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
DISTRIBUZIONE NORMALE COME APPROSSIMAZIONE DELLA BINOMIALE
Se si effettuano n prove e se in ciascuna di queste prove la probabilità di realizzazione di un
evento A è p, allora il numero x dei successi di questo evento rappresenta una variabile
aleatoria X, fornita dalla nota legge
n
Px = P ( X = x ) =   p x q n − x
 x
con p + q = 1 , x ≤ n e con valore medio np, scarto quadratico medio
npq .
Per il calcolo della Px nella pratica si presentano due problemi.
1) Quando n e x sono numeri abbastanza grandi, il calcolo di P x può risultare laborioso.
Ad esempio se si deve calcolare la probabilità di 135 successi su 300 prove di un evento di
probabilità p = 0,4 si deve far fronte al difficoltoso calcolo
 300 
 ⋅ (0,4 )135 ⋅ (0,6 )165
P135 = 
 135 
2) Inoltre , sempre nell’ipotesi di n e x abbastanza grandi, ancor più complicato risulta il
calcolo della probabilità (totale) che la frequenza dei successi sia compresa fra due valori
determinati.
Come esempio pensiamo alla probabilità che nelle 300 prove, con p = 0,4 , l’evento abbia
non meno di 100 e non più di 140 successi.
La probabilità totale (teorema della somma), indicata con P(100 ≤ X ≤ 140) , è
140
 300 
x
300 − x
 ⋅ (0,4 ) ⋅ (0,6 )
P (100 ≤ x ≤ 140 ) = ∑ 
x =100  x 
Il cui calcolo comporta la somma di ben 41 addendi tutti complicati quanto P135 sopra
riportato.
Per risolvere, sia pure in via approssimativa, questi due problemi di calcolo effettivo di
probabilità relative alla distribuzione binomiale si fa ricorso alla curva normale ad essa legata.
Sussiste infatti il
TEOREMA
Se il numero n delle prove diviene abbastanza grande e se nessuno dei due valori di p e q è
troppo vicino allo zero, la distribuzione binomiale che regge la variabile X (che indica il
numero dei successi in n prove) può essere approssimata da una distribuzione normale con
x−m
variabile aleatoria standardizzata T =
e risulta
σ
Px ≅
1
σ
f (t ) =
1
σ 2π
e
−
2
t
2
Probabilità_Appunti_2
26/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
Vediamo di dare una giustificazione intuitiva al teorema, peraltro di dimostrazione
impegnativa.
Esso è suggerito dal fatto che se rappresentiamo graficamente delle distribuzioni binomiali
caratterizzate da uno stesso valore di p, si vede che al crescere di n, esse tendono ad assumere
una forma molto simile a quella della distribuzione normale.
Sotto sono riportate tre rappresentazioni della
distribuzione binomiale calcolate per p = 0,2
e q = 0,8 con tre valori di n: 10, 20, 40.
In pratica si osserva che approssimazione è molto buona se entrambi i numeri np e nq sono
maggiori di 5.
Inoltre la formula
Px ≅
1
σ
f (t ) =
1
σ 2π
e
−
t2
2
consente di calcolare, sia pure approssimativamente, la probabilità Px avendo a disposizione
una tavola dei valori di e − x
2
Probabilità_Appunti_2
27/28
CENTRO SALESIANO DON BOSCO – TREVIGLIO
Corso di Informatica
APPENDICE
z
z2
1 −2
(
)
F
z
=
e dz
Tavola dei valori della funzione
2π ∫0
Probabilità_Appunti_2
28/28