Calcolo delle probabilità

ELEMENTI DI CALCOLO
DELLE PROBABILITA’
Premessa importante: il comportamento della popolazione rispetto una variabile casuale
X viene descritto attraverso una funzione parametrica di probabilità p X (x | θ) dove θ è
l’insieme dei parametri che caratterizza la popolazione. In questo contesto, i dati
osservati o raccolti rappresentano possibili realizzazioni della variabile casuale avvenute
attraverso esperimenti casuali. Data la legge p X (x | θ), possiamo calcolare la
probabilità/densità di probabilità per ogni realizzazione X = x o insieme di realizzazioni
X1 = x 1 , . . . , X n = x n .
Statistica, CLEA – p. 1/55
Esperimento casuale
L’esperimento casuale è un esperimento il cui risultato non si può determinare con
certezza. Ad esempio:
risultato del lancio di una moneta
colore di una pallina estratta da un’urna contente palline di vario colore
numeri estratti per il gioco del lotto
Ciò che si può fare è calcolare la probabilità di ogni relizzazione dell’esperimento. Si
necessita:
spazio di tutti i possibili eventi Ω
variabile aleatoria X
distribuzione di probabilità pX (x | θ)
Statistica, CLEA – p. 2/55
Spazio degli eventi Ω
Definiamo con Ω, l’insieme di tutti i possibili eventi elementari ω che si possono
realizzare da un esperimento casuale. Consideriamo gli esperimenti
k lanci consecutivi di una moneta
k estrazioni da un’urna contenente palline bianche e nere
Spazio degli eventi Ω
Spazio degli eventi Ω
k=1
k=2
k=3
k=1
k=2
k=3
T
TT
TTT
B
BB
BBB
C
TC
TTC
N
BN
BBN
CT
T CT
NB
BN B
CC
CT T
NN
N BB
T CC
BN N
CCT
NNB
CT C
N BN
CCC
NNN
Statistica, CLEA – p. 3/55
Insiemi di eventi
Consideriamo 3 lanci consecutivi di una moneta. L’insieme degli eventi elemenatari ω:
Ω = {T T T, T T C, T CT, CT T, T CC, CCT, CT C, CCC}
Altri eventi
almeno una volta testa: A = {T T T, T T C, T CT, CT T, T CC, CCT, CT C}
due volte croce: B = {T CC, CCT, CT C}
al massimo una volta testa: C = {T CC, CCT, CT C, CCC}
tre volte croce, coincide con un evento elementare: ω = CCC
Statistica, CLEA – p. 4/55
Operazione fra insiemi di eventi
Consideriamo 2 eventi in Ω = {T T T, T T C, T CT, CT T, T CC, CCT, CT C, CCC}:
A = {T CC, CCT, CT C}, B = {T T T, T CC, CT C, CCC}
UNIONE di eventi A ∪ B: insieme di eventi in A o in B
A ∪ B = {T CC, CCT, CT C, T T T, CCC}
INTERSEZIONI di eventi A ∩ B: insieme di eventi in A e in B
A ∩ B = {T CC, CT C}
NEGAZIONE di eventi A: insieme di eventi che non sono in A
Ω \ A = {T T T, T T C, T CT, CT T, CCC}
Statistica, CLEA – p. 5/55
Alcune proprietà
Dato Ω lo spazio di tutti gli eventi e A, B ⊆ Ω, con A, B 6= ∅
A ∪ B non è mai un insieme vuoto ∅
A ∩ B può essere un insieme vuoto, allora A e B sono due eventi incompatibili,
non si possono verificare contemporaneamente
dati k eventi H1 , . . . , Hk fra loro incompatibili, Hi ∩ Hj = ∅, i, j = 1, . . . , k, sono
anche esaustivi se
Ω = H 1 ∪ H2 ∪ · · · ∪ H k
A = ∅, se e solo se A ≡ Ω
A è un evento impossibile se non può mai verificarsi, quindi A * Ω
A è un evento certo se si verifica sempre, ad esempio: A ≡ Ω
dato A, l’evento complementare è l’evento negato A = Ω \ A
Statistica, CLEA – p. 6/55
Eventi condizionati
Condizionare significa ridurre lo spazio Ω poiché si è verificato l’evento B ⊆ Ω, per cui
B diventa un evento certo
B = Ω \ B è un evento impossibile
Consideriamo nello spazio Ω = {T T T, T T C, T CT, CT T, T CC, CCT, CT C, CCC}
A = {T T T, T T C, T CT, CT T }: almeno due volte testa
C = {T T C, T CT, CT T, T CC, CCT, CT C, CCC}: almeno 1 volta croce
D = {CCT, CCC}: i primi due lanci croce
Supponiamo di conoscere l’esito del primo lancio che è T : evento certo B= testa al
primo lancio e evento impossibile B= non testa al primo lancio. Lo spazio degli eventi
possibili diventa
Ω | B = {T T T, T T C, T CT, T CC}
da cui gli eventi condiziontati sono relativi non a Ω, ma a Ω | B
A | B = {T T T, T T C, T CT }
C | B = {T T C, T CT, T CC}
D | B = ∅ è un evento impossibile perché D e B sono incompatibili
Statistica, CLEA – p. 7/55
Probabilità: approccio classico
Approccio classico:
se tutti i casi sono equiprobabili, la probabilità di ogni evento A è il rapporto
P (A) =
numero dei casi favorevoli all’evento
numero di tutti i casi possibili
Esempi di esperimenti casuali con risultati equiprobabili:
lancio di un dado
P (1) = P (2) = P (3) = P (4) = P (5) = P (6) = 1/6
lancio di una moneta non truccata
P (T ) = P (C) = 1/2 = 0.5
estrazione di un numero da 1 a 90
P (1) = P (2) = · · · = P (90) = 1/90
Statistica, CLEA – p. 8/55
Esempio
Consideriamo lo spazio Ω = {T T T, T T C, T CT, CT T, T CC, CCT, CT C, CCC}
A = {T T T, T T C, T CT, CT T }: due volte testa
P (A) = 4/8 = 0.5
C = {T T C, T CT, CT T, T CC, CCT, CT C, CCC}: almeno 1 volta croce
P (C) = 7/8 = 0.875
D = {CCT, CCC}: i primi due lanci croce
P (D) = 2/8 = 0.25
Statistica, CLEA – p. 9/55
Probabilità condizionata
Supponiamo di conoscere l’esito del primo lancio che è T . Lo spazio degli eventi
possibili diventa
Ω | B = {T T T, T T C, T CT, T CC}
A | B = {T T T, T T C, T CT }
P (A | B) = 3/4 = 0.75
C | B = {T T C, T CT, T CC}
P (C | B) = 3/4 = 0.75
D|B=∅
P (D | B) = 0
Statistica, CLEA – p. 10/55
Assiomi e proprietà
La probabilità è una funzione definita sullo spazio degli eventi Ω che associa ad ogni
evento A ⊆ Ω un numero reale P (A)
0 ≤ P (A) ≤ 1
la prob. di un evento certo è 1: P (Ω) = 1
la prob. di un evento impossibile è 0, ma viceversa non è vero
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P (A ∪ B) = P (A) + P (B) se A ∩ B = ∅
P (A) = 1 − P (A)
P (A ∩ B) = P (A | B)P (B) = P (B | A)P (A), da cui
P (A | B) = P (A ∩ B)/P (B)
P (A ∩ B) = P (A)P (B) se e solo se A e B sono indipendenti, da cui
P (A | B) = P (A) e P (B | A) = P (B)
Statistica, CLEA – p. 11/55
Indipendenza
Due eventi A e B sono indipendenti, A⊥⊥B se e solo se
P (A ∩ B) = P (A)P (B)
Questo vuol dire che il verificarsi di B non influisce sulla probabilità di A e viceversa
P (A | B) =
P (A ∩ B)
P (A)P (B)
=
= P (A)
P (B)
P (B)
P (B | A) =
P (A ∩ B)
P (A)P (B)
=
= P (B)
P (A)
P (A)
N.B. Se due eventi A e B con probabilità positive sono incompatibili, sicuramente
non sono indipendenti, poiché se A e B sono incompatibili, A | B = ∅, quindi
P (A | B) = 0
6=
P (A).
Analogamente, se due eventi sono indipendenti sono necessariamente compatibili.
Statistica, CLEA – p. 12/55
Teorema delle probabilità totali
Siano E1 , . . . , Ek k eventi esaustivi ed incompatibili
Ω = E1 ∪ · · · ∪ E k
Ej ∩ Ei = ∅,
i, j = 1, . . . , k
Dato un qualunque evento B ⊆ Ω
P (B) = P (B ∩ E1 ) + · · · + P (B ∩ Ek )
P (B) = P (B | E1 )P (E1 ) + · · · + P (B | Ek )P (Ek )
Esempio. Ci sono k urne E1 , . . . , Ek contenenti palline bianche e nere. La probabilità di
estrarre una pallina bianca considerando che la scelta delle urne è equiprobabile
P (Ei ) =
P (B) =
1
,
k
P (B | Ei ) =
numero palline bianche in Ei
numero palline in Ei
numero palline bianche in E1 1
numero palline bianche in Ek 1
+ ··· +
numero palline in E1
k
numero palline in Ek
k
Statistica, CLEA – p. 13/55
Teorema di Bayes
Consideriamo un modo alternativo di calcolare la probabilità condizionata
P (A | B) =
P (B | A)P (A)
P (B ∩ A)
=
P (B)
P (B | A)P (A) + P (B | A)P (A)
dove il denominatore si può calcolare col teorema delle probabilità totali
Interpretazione: supponiamo che l’evento B sia l’EFFETTO che può essere causato da
tanti eventi E1 , . . . , Ek che sono CAUSE esaustive e disgiunte
P (CAU SAi | EF F ET T O) =
P (Ei | B) =
P (EF F ET T O | CAU SAi )P (CAU SAi )
P (EF F ET T O)
P (B | Ei )P (Ei )
P (B | Ei )P (Ei )
=
P (B)
P (B | E1 )P (E1 ) + · · · + P (B | Ek )P (Ek )
P (Ei ): probabilità a priori della CAUSA (scegliere l’urna E i )
P (Ei | B): probabilità a posteriori della CAUSA Ei dato l’EFFETTO B (estratta
pallina bianca)
Statistica, CLEA – p. 14/55
Variabile aleatoria X
Una variabile aleatoria X è una funzione definita sullo spazio Ω che associa un numero
reale X(ω) = x ad ogni elemento elementare ω ∈ Ω.
X: numero di volte testa
X: numero di palline nere
Spazio degli eventi Ω e var. aleatoria X
Spazio degli eventi Ω e var. aleatoria X
k=1
X
k=2
X
k=3
X
k=1
X
k=2
X
k=3
X
T
1
TT
2
TTT
3
B
0
BB
0
BBB
0
C
0
TC
1
TTC
2
N
1
BN
1
BBN
1
CT
1
T CT
2
NB
1
BN B
1
CC
0
CT T
2
NN
2
N BB
1
T CC
1
BN N
2
CCT
1
NNB
2
CT C
1
N BN
2
CCC
0
NNN
3
N.B. Con X indichiamo una var. aleatoria, con x una possibile realizzazione.
Statistica, CLEA – p. 15/55
Variabile aleatoria discreta
Una variabile aleatoria X descrive il comportamento di un fenomeno a
prescindere della realizzazione del singolo esperimento casuale
dopo la realizzazione dell’esperimento casuale, la variabile aleatoria assume un
valore certo X = x
la variabile aleatoria è DISCRETA se X assume un’infinità numerabile di valori
numero di volte testa in 3 lanci de una moneta
numero di palline bianche estratte da un’urna
numero di prodotti difettosi al giorno
numero di auto al casello ogni giorno etc...
Statistica, CLEA – p. 16/55
Distribuzione di probabilità pX (x)
Data una var. aleatoria X discreta, la distribuzione di probabilità p X (x) è una funzione
che associa ad ogni x la probabilità di verificarsi
p(x) = P (X = x)
p(x) ≥ 0
P
i p(xi ) = 1
0.5
0.45
0.4
probabilità
0.35
0.3
0.25
0.2
0.15
0.1
N.figli
0.05
0
−1
0
1
2
numero di figli
3
4
5
X
p(x)
0
1
2
3
4
tot
0.24
0.47
0.17
0.08
0.04
1.00
Statistica, CLEA – p. 17/55
Funzione di ripartizione
F (x) = P (X ≤ x) =
X
p(xi )
xi ≤x
è non decrescente, continua a destra, limx→−∞ F (x) = 0,limx→∞ F (x) = 1
Funzione di ripartizione
1
0.9
frequenze rel. cumulate
0.8
0.7
0.6
0.5
0.4
0.3
0.2
N.figli
0.1
0
−1
0
1
2
numero di figli
3
4
5
X
0
1
2
3
4
p(x)
0.24
0.47
0.17
0.08
0.04
F (x)
0.24
0.71
0.88
0.96
1.00
Statistica, CLEA – p. 18/55
Valore atteso e varianza
Il valore atteso di una variabile casuale X discreta è
E(X) = µX =
X
xi p(xi )
i
E(X) = µX = 0 × 0.24 + 1 × 0.47 + 2 × 0.17 + 3 × 0.08 + 4 × 0.04 = 1.21
La varianza di una variabile casuale X discreta è
2
V(X) = E(X − µX ) =
X
i
(xi − µX )2 p(xi )
V(X) = 1.46 × 0.24 + 0.04 × 0.47 + 0.62 × 0.17 + 3.20 × 0.08 + 7.78 × 0.04 = 1.04
N.figli
X
0
1
2
3
4
p(x)
0.24
0.47
0.17
0.08
0.04
(xi − µX )2
1.46
0.04
0.62
3.20
7.78
Statistica, CLEA – p. 19/55
Varianza e deviazione standard
La varianza si può calcolare anche
2
V(X) = E(X ) −
µ2x
=
X
i
x2i p(xi ) − µ2X
V(X) = 0 × 0.24 + 1 × 0.47 + 4 × 0.17 + 9 × 0.08 + 16 × 0.04 − 1.21 2 = 1.04
la deviazione standard è
p
√
SD(X) = V(X) = 1.04 = 1.01
N.figli
X
p(x)
x2i
0
1
2
3
4
0.24
0.47
0.17
0.08
0.04
0
1
4
9
16
Statistica, CLEA – p. 20/55
Indipendenza fra var. casuali
Date 2 variabili casuali X e Y rispettivamente con legge di probabilità p X (x) e pY (x), la
distribuzione della variabile congiunta (X, Y ) è
pXY (x, y) = pX (x) × pY (y) ⇐⇒ X⊥⊥Y
Esempio. Consideriamo il lancio di una moneta per cui P (1) = 0.2 e P (0) = 0.8 dove 1
indica il successo T e 0 l’insuccesso C. Consideriamo le variabili
X= risultato del primo lancio
Y = risultato del secondo lancio
Dato che i due lanci sono indipendenti, possiamo calcolare p XY (x, y)
pXY (X = 1, Y = 0) = pX (1) × pY (0) = 0.2 × 0.8
pXY (X = 0, Y = 1) = pX (0) × pY (1) = 0.8 × 0.2
pXY (X = 1, Y = 1) = pX (1) × pY (0) = 0.2 × 0.2
pXY (X = 0, Y = 0) = pX (1) × pY (0) = 0.8 × 0.8
Statistica, CLEA – p. 21/55
Combinazioni lineari di var. casuali
Date n variabili casuali Xi ognuna distribuita con una legge di probabilità p Xi (xi ) con
un certo valore atteso E(Xi ) e una certa varianza V(Xi ), consideriamo la variabile
casuale Y ottenuta come combinazione lineare
Y =
n
X
a i Xi + b i ,
dove ai , bi sono costanti
i=1
Se le Xi sono tutte indipendenti fra loro
E(Y ) =
n
X
ai E(Xi ) + bi ,
V(Y ) =
i=1
n
X
a2i V(Xi )
i=1
Esempio. Siano due variabili casuali indipendenti X e Z con E(X) = 8, V(X) = 0.5 e
con E(Z) = 0.4, V(Z) = 0.01. Consideriamo
Y = 3X − 4Z + 5
E(Y ) = 3 × 8 − 4 × 0.4 + 5,
V(Y ) = 9 × 0.5 + 16 × 0.01
Statistica, CLEA – p. 22/55
Alcune variabiabili casuali discrete
X ∼ U (a, b) Uniforme, a ≤ x ≤ b
X ∼ Be(π) Bernoulli, x = 0, 1
X ∼ Bin(n, π), Binomiale, 0 ≤ x ≤ n
X ∼ P o(λ), Poisson, x ≥ 0
N.B. I valori a, b, n, π e λ sono i parametri che caratterizzano la distribuzione di
probabilità che descrive il comportamento della variabile casuale X nella popolazione.
Statistica, CLEA – p. 23/55
Distribuione discreta Uniforme
La variabile casuale discreta X assume un numero finito di valori x 1 , . . . , xK ed assume
probabilità costante per ogni xi
p(xi ) =
1
,
K
F (x) =
num. di xi ≤ x
,
K
i = 1...,K
Esempio: X = lancio di un dado {1, 2, 3, 4, 5, 6} ha una distribuzione uniforme discreta
Distribuzione uniforme discreta
1.5
Distribuzione uniforme discreta
1
0.9
1
0.8
Funz. ripartizione
probabilità
0.7
0.5
0
0.6
0.5
0.4
0.3
−0.5
0.2
0.1
−1
0
1
2
3
X
4
5
6
7
0
0
1
2
3
X
4
5
6
7
Statistica, CLEA – p. 24/55
Distribuzione di Bernoulli (1)
La variabile casuale discreta X ∼ Be(x | π), dove π è la probabilità di successo,
assume due valori
x = 1: successo
x = 0: insuccesso
p(x) = π x (1 − π)1−x ,
0≤π≤1
x = 1, p(x) = π, prob. successo
x = 0, p(x) = 1 − π, prob. insuccesso
E(X) = µx = 1 × π + 0 × (1 − π) = π
V(X) = E(X 2 ) − µ2X = 1 × π + 0 × (1 − π) − π 2 = π(1 − π)
Esempio: consideriamo una moneta truccata per cui la probabilità di successo (T ) è
π = 0.7
P (X = 1) = 0.71 × 0.31−1 = 0.7
P (X = 0) = 0.70 × 0.31−0 = 0.3
Statistica, CLEA – p. 25/55
Distribuione di Bernoulli (2) (nei grafici p si legga π)
Distribuzione di Bernoulli
1
Distribuzione di Bernoulli
1
Distribuzione di Bernoulli
1
0.9
0.8
p = 0.8
0.8
p = 0.3
0.8
p = 0.5
0.4
0.6
probabilità
0.6
probabilità
probabilità
0.7
0.4
0.6
0.5
0.4
0.3
0.2
0.2
0.2
0.1
0
−1
−0.5
0
0.5
X
1
1.5
0
−1
2
Distribuzione di Bernoulli
1
−0.5
0
0.5
X
1
1.5
2
0
−1
Distribuzione di Bernoulli
1
−0.5
0
0.5
X
1
1.5
2
1.5
2
Distribuzione di Bernoulli
1
0.9
0.8
0.6
0.4
0.2
0.8
p = 0.5
0.7
Funz. ripartizione
p = 0.8
Funz. ripartizione
Funz. ripartizione
0.8
p = 0.3
0.6
0.4
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0
−1
−0.5
0
0.5
X
1
1.5
2
0
−1
−0.5
0
0.5
X
1
1.5
2
0
−1
−0.5
0
0.5
X
1
Statistica, CLEA – p. 26/55
Distribuzione Binomiale (1)
La variabile casuale discreta X ∼ Bin(x | n, π), dove π è la probabilità di successo e n
è la dimensione del campione assume valori 0 ≤ x ≤ n
p(x) =
n
x
π x (1 − π)n−x ,
0≤π≤1
dove x indica il numero di successi in n prove indipendenti.
E(X) = µx = nπ,
V(X) = nπ(1 − π)
Esempio: consideriamo un’urna contenente 10 palline bianche e 15 palline nere. Il
successo è l’estrazione di pallina bianca (B) la cui probabilità è π = 10/25 = 0.4. La
probabilità di ottenere x = 3 successi in n = 5 prove è
P (X = 3) =
P (X = 0) =
5 0
0
5
3
0.43 × 0.65−3 =
5
0.4 × 0.6 = 0.08,
5!
0.43 × 0.62 = 0.23
3!2!
P (X = 5) =
5 5
0.45 × 0.60 = 0.01
Statistica, CLEA – p. 27/55
Distribuione Binomiale (2) (nei grafici p si legga π)
Distribuzione binomiale
0.45
0.4
0.3
0.3
p = 0.5
p = 0.7
0.25
0.25
0.2
probabilità
0.25
probabilità
probabilità
0.3
Distribuzione binomiale
0.35
0.35
p = 0.2
0.35
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
0
−1
Distribuzione binomiale
0.4
0
1
2
X
3
4
5
6
0
−1
0
1
2
X
3
4
5
6
0
−1
0
1
2
X
3
4
5
6
Prob. di più di 3 successi:
P (X > 3) = P (X = 4) + P (X = 5)
Prob, di al massimo 2 successi:
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
Prob. di almeno 1 successo:
P (X ≥ 1) = P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) + P (X = 5) =
1 − P (X = 0)
Statistica, CLEA – p. 28/55
Binomiale come somma di Bernoulli (1)
La variabile casuale X Binomiale può essere vista come somma di n variabili Y
Bernoulli indipendenti e identicamente distribuite (con lo stesso parametro p)
X=
n
X
Yi
i=1
Per l’indipendenza
E(X) =
n
X
i=1
E(Yi ) =
n
X
i=1
π = nπ,
V(X) =
n
X
i=1
V(Yi ) =
n
X
i=1
π(1 − π) = nπ(1 − π)
Per ogni var. Yi Bernoulli si può calcolare la prob. di successo P (Y i = T ) in un singolo
lancio di una moneta secondo una prob. di successo π. La var. X binomiale calcola la
prob. di x volte testa (successi) in n lanci indipendenti ognuno dei quali ha la stessa
prob. di successo π.
Statistica, CLEA – p. 29/55
Binomiale come somma di Bernoulli (2)
Esempio. Dati n = 3 lanci indipendenti di una moneta in cui la probabilità di successo
(T ) è π = 0.3, calcolare la probabilità di una volta testa, P (X = 1), X ∼ Bin(x | n, π).
Ad esempio calcoliamo la prob. di questo risultato, che, data l’indipendenza delle prove,
P (T ∩ C ∩ C) = P (T ) × P (C) × P (C) = 0.3 × 0.7 × 0.7 = 0.31 × 0.72
Quanti sono i possibili risultati per cui si ha un solo successo?
n
x
=
3 1
= 3 : (T CC), (CT C), (CCT ).
Da cui, se X è Binomaile con n = 3 e π = 0.3,
P (X = 1) =
3 1
0.3 × 0.72 .
Statistica, CLEA – p. 30/55
Variabile aleatoria continua
Una variabile aleatoria X è CONTINUA se X assume un’infinità non numerabile di valori
altezza
peso
distanza
tempo di percorrenza etc...
Alcuni aspetti delle variabili continue:
Se ogni possibile realizzaione della X è equiprobabile, allora P (X = x) = 0, per
ogni x ∈ R.
La funzione di probabilità non si può usare, come nel caso discreto per
descrivere il comportamento di una var. casuale continua.
Con la funzione di ripartizione possiamo calcolare la prob. di un intervallo
F (x) = P (X ≤ x)
Per descrivere la X si utilizza la funzione di densità f X (x) =
d
F (x)
dx
Statistica, CLEA – p. 31/55
La funzione di densità fX (x)
Data una variabile aleatoria continua X, la funzione di densità
f (x) =
d
F (x)
dx
è una curva per ogni valore x attribuisce la densità di probabilità 6= probabilità. La
probabilità è l’area al di sotto della curva
P (a ≤ X ≤ b) =
Z
b
a
fX (x)dx = F (b) − F (a)
Proprietà:
f (x) ≥ 0, per ogni x ∈ R, ma non necessariamente f (x) ≤ 1
R +∞
−∞ fX (x)dx = 1
Statistica, CLEA – p. 32/55
Funzione di ripartizione
F (x) = P (X ≤ x) =
Z
x
f (x)dx
−∞
è non decrescente, continua, limx→−∞ F (x) = 0,limx→∞ F (x) = 1
Funzione di ripartizione
1
0.9
0.8
Funzione di densità
4
3.5
media = 1.60
varianza = 0.1
media = 1.60
varianza = 0.1
3
0.7
2.5
f(x)
F(x)
0.6
0.5
0.4
2
1.5
0.3
1
0.2
0.5
0.1
0
1
1.2
1.4
altezza
1.6
1.8
2
0
1
1.2
1.4
1.6
altezza
1.8
2
2.2
Statistica, CLEA – p. 33/55
Valore atteso e varianza
Il valore atteso di una variabile casuale X continua è
E(X) = µX =
Z
+∞
xf (x)dx
−∞
La varianza di una variabile casuale X continua è
2
V(X) = E(X − µX ) =
Z
+∞
−∞
(x − µX )2 f (x)dx
oppure
2
V(X) = E(X ) −
µ2x
=
Z
+∞
−∞
x2 f (x)dx − µ2X
la deviazione standard è
p
SD(X) = V(X)
Statistica, CLEA – p. 34/55
Variabili standardizzate
Una variabile Z è standardizzata quando
E(X) = 0
V(X) = 1
Una variabile X con valore atteso E(X) e varianza V(X) si può standardizzare
Z=
X − E(X)
p
,
V(X)
E(Z) =
E(X) − E(X)
p
= 0,
V(X)
V(Z) =
V(X)
=1
V(X)
5
4.5
Media = 1.60
Varianza = 0.1
4
0.5
3.5
Variabile standardizzata
Media = 1.60
Varianza = 0.1
0.4
densità
densità
3
2.5
2
0.3
0.2
1.5
1
0.1
0.5
0
1.2
1.3
1.4
1.5
1.6
altezza
1.7
1.8
1.9
2
0
−3
−2
−1
0
1
2
3
altezza standardizzata
Statistica, CLEA – p. 35/55
Indipendenza e combinazioni lineari
Date 2 variabili casuali X e Y rispettivamente con funzione di densità f X (x) e
fY (x), la distribuzione della variabile congiunta (X, Y ) è
fXY (x, y) = fX (x) × fY (y) ⇐⇒ X⊥⊥Y
Date n variabili casuali Xi ognuna con funzione di densità fXi (xi ) con un certo
valore atteso E(Xi ) e una certa varianza V(Xi ), consideriamo la variabile
casuale Y ottenuta come combinazione lineare
Y =
n
X
a i Xi + b i ,
dove ai , bi sono costanti
i=1
Se le Xi sono tutte indipendenti fra loro
E(Y ) =
n
X
i=1
ai E(Xi ) + bi ,
V(Y ) =
n
X
a2i V(Xi )
i=1
Statistica, CLEA – p. 36/55
Alcune variabili aleatorie continue
X ∼ N (µ, σ 2 ) Normale, −∞ < x < +∞
X ∼ t(r) t-Student, −∞ < x < +∞
X ∼ χ2 (r) chi-quadrato, x ≥ 0
X ∼ F (r1 , r2 ) Fisher x ≥ 0
N.B. I valori µ, σ 2 , r, r1 e r2 sono i parametri che caratterizzano la distribuzione di
probabilità che descrive il comportamento della variabile casuale X nella popolazione.
Statistica, CLEA – p. 37/55
Distribuzione Normale
La variabile casuale X Normale o Gaussiana ha una forma campanulare ed è
simmetrica. E’ caratterizzata da due parametri
E(X) = µ la media
V(X) = σ 2 la varianza
(x − µ)2
fX (x | µ, σ ) = √
exp[
],
2
2
2σ
2πσ
1
2
−∞ ≤ x ≤ +∞
La probabilità si calcola attraverso l’integrale
P (a ≤ X ≤ b) =
P (X ≤ a) =
Z
a
−∞
2
Z
b
a
fX (x | µ, σ 2 )dx = F (b) − F (a)
fX (x | µ, σ )dx = F (a),
P (X ≥ a) =
Z
+∞
a
fX (x | µ, σ 2 )dx = 1−F (a)
R
N.B. Si dimostra che fX (x | µ, σ 2 )dx = 1, ma questi integrali non si possono calcolare
in forma analitica, ma numerica (uso delle tavole).
Statistica, CLEA – p. 38/55
Distribuzione Normale (2)
0.9
4
Funzione di ripartizione
1
P(a < X < b) = F(b)−F(a) =
= 0.8 − 0.4 = 0.4
3.5
0.8
F(b)
media = 1.60
varianza = 0.1
P(a < X < b) = 0.4
3
0.7
2.5
0.6
media = 1.60
varianza = 0.1
0.5
2
0.4
0.4
1.5
F(a) 0.3
1
0.2
0.5
0.1
0
1
b
a
1.2
1.4
altezza
1.6
1.8
2
0
1
b
a
1.2
1.4
1.6
1.8
2
altezza
Statistica, CLEA – p. 39/55
La media: parametro di posizione
3
3
2.5
Media = 1.60
Varianza = 0.2
2
2
1.5
1.5
densità
densità
2.5
1
0.5
0
1
media = 1.40
varianza = 0.2
1
0.5
1.2
1.4
1.6
1.8
2
0
0.8
2.2
1
1.2
1.8
2
0.9
media = 1.60
varianza = 0.2
0.9
0.8
0.8
0.7
0.7
Funz. ripartizione
Funz. ripartizione
1.6
1
1
0.6
0.5
0.4
0.5
0.4
0.3
0.2
0.2
0.1
0.1
1.5
altezza
2
2.5
media = 1.40
varianza = 0.2
0.6
0.3
0
1
1.4
altezza
altezza
0
0.8
1
1.2
1.4
1.6
1.8
2
altezza
Statistica, CLEA – p. 40/55
La varianza: parametro di dispersione
3
9
8
2.5
Media = 1.60
Varianza = 0.2
2
6
5
densità
densità
Media = 1.60
Varianza = 0.05
7
1.5
4
1
3
2
0.5
1
0
1
1.2
1.4
1.6
1.8
2
0
1.2
2.2
1.3
altezza
1.6
1.7
1.8
1.9
2
1
media = 1.60
varianza = 0.2
0.9
0.8
0.8
0.7
0.7
0.6
0.5
0.4
0.6
0.5
0.4
0.3
0.3
0.2
0.2
0.1
0.1
1.5
altezza
2
media = 1.60
varianza = 0.05
0.9
Funz. ripartizione
Funz. ripartizione
1.5
altezza
1
0
1
1.4
2.5
0
1
1.2
1.4
altezza
1.6
1.8
2
Statistica, CLEA – p. 41/55
Combinazioni lineari di Normali
Se X1 , . . . , Xn sono var. casuali N (µi , σi2 ) indipendenti, la combinazione lineare
Y =
n
X
a i Xi
i=1
Y ∼ N(
X
i
ai µ i ,
X
a2i σi2 )
i
Se X1 , . . . , Xn sono i.i.d. N (µ, σ 2 ),
Y ∼ N (nµ, nσ 2 )
Statistica, CLEA – p. 42/55
Z: la Normale standard
La variabile casuale Z normale standardizzata ha la caratteristica di avere
µ=0
σ2 = 1
1
z2
fZ (z | 0, 1) = √
exp[ ]
2
2π
0.4
1
0.9
0.35
media = 0
varianza = 1
0.3
Funz. ripartizione
0.7
densità
0.25
0.2
0.15
0.6
0.5
0.4
0.3
0.1
0.2
0.05
0
−3
media = 0
varianza = 1
0.8
0.1
−2
−1
0
Z
1
2
3
0
−3
−2
−1
0
Z
1
2
3
Statistica, CLEA – p. 43/55
Z: esempio (1)
Attraverso le tavole della Normale standard si può calcolare la probabilità
P (Z ≤ 0) = 0.5,
Normale standard
0.5
0.45
P (Z ≥ 0) = 0.5
P(Z < 0.31) = 0.62
P(Z > 0.31) = 1 − P(Z < 0.31) = 1 − 0.62 = 0.38
0.4
0.35
0.3
0.25
0.2
0.15
0.62
0.38
0.1
0.05
0
−3
−2
−1
0 0.31
1
2
3
P (Z ≤ 0.31) = 0.62 > 0.5, P (Z ≥ 0.31) = 0.38 < 0.5
Statistica, CLEA – p. 44/55
Z: esempio (2)
Normale standard
0.5
P(Z < −0.45) = P(Z > 0.45) = 1 − P(Z < 0.45) =
0.45 = 1 − 0.67 = 0.33
P(Z > −0.45) = P(Z < 0.45) = 0.67
0.4
0.35
0.3
0.25
0.2
0.33
0.67
0.15
0.1
0.05
0
−3
0.67
0.33
−2
−1
−0.45
0
0.45
1
2
3
P (Z ≥ 0.45) = 1 − P (Z ≤ 0.45) = 1 − 0.67 = 0.33
P (Z ≤ −0.45) = P (Z ≥ 0.45) = 1 − P (Z ≤ 0.45) = 1 − 0.67 = 0.33
Statistica, CLEA – p. 45/55
Distribuzione t-Student
La variabile casuale X ∼ t(r) ha una forma campanulare ed è simmetrica rispetto allo 0.
Rispetto alla Normale standard ha le code più pesanti. E’ caratterizzata dal parametro r:
gradi di libertà
Γ[(r + 1)/2]
,
fX (x | r) = √
πrΓ(r/2)
−∞ ≤ x ≤ +∞, r ∈ N +
La probabilità si calcola attraverso l’integrale
P (a ≤ X ≤ b) =
Z
b
a
fX (x | r)dx = F (b) − F (a)
R
N.B. Si dimostra che fX (x | r)dx = 1, ma questi integrali non si possono calcolare in
forma analitica, ma numerica (uso delle tavole).
E(X) = 0,
V(X) =
r
r−2
Statistica, CLEA – p. 46/55
I gradi di libertà
t − Student
0.4
r = 30
densità
0.3
0.9
r=5
0.8
r=1
r = 30
r=5
r=1
0.7
Funz. ripartizione
0.35
t − Student
1
0.25
0.2
0.6
0.5
0.4
0.3
0.15
0.2
0.1
0.05
−2
0.1
−1.5
−1
−0.5
0
X
0.5
1
1.5
2
0
−2
−1.5
−1
−0.5
0
X
0.5
1
1.5
2
Quando aumentano i gradi di libertà diminuisce la varianza e quindi la dispersione
Statistica, CLEA – p. 47/55
t-Student: esempio
Attraverso le tavole si può calcolare la probabilità
P (X ≤ 0) = 0.5,
P (X ≥ 0) = 0.5
0.4
0.35
0.3
r=1
P(X > 3.08) = 0.10
r=5
P(X > 1.48) = 0.10
r = 30
P(X > 1.31) = 0.10
0.25
0.2
0.15
0.1
0.05
0
−4
1.31
−3
−2
−1
0
1
1.48
2
3
3.08
4
Statistica, CLEA – p. 48/55
t-Student → Normale standard
Quando i gradi di libertà aumentano, la t-Student tende ad una Normale standard
0.4
0.35
0.3
densità
0.25
Normale Standard
r = 30
r=5
r=1
0.2
0.15
0.1
0.05
0
−4
−3
−2
−1
0
X
1
2
3
4
Statistica, CLEA – p. 49/55
Distribuzione chi-quadrato
La variabile casuale X ∼ χ2(r) mostra un’asimmetria positiva. E’ caratterizzata dal
parametro r: gradi di libertà
fX (x | r) =
1
r/2−1 −x/2
x
e
,
2r/2 Γ(r/2)
x ≥ 0, r ∈ N +
La probabilità si calcola attraverso l’integrale
P (a ≤ X ≤ b) =
Z
b
a
fX (x | r)dx = F (b) − F (a)
N.B. Si dimostra che fX (x | r)dx = 1, ma questi integrali non si possono calcolare in
forma analitica, ma numerica (uso delle tavole).
R
E(X) = r,
V(X) = 2r
Statistica, CLEA – p. 50/55
I gradi di libertà
0.25
1
r = 15
0.9
r = 10
0.2
0.8
r=3
r = 15
Funz. ripartizione
0.7
densità
0.15
0.1
r = 10
0.6
r=3
0.5
0.4
0.3
0.05
0.2
0.1
0
0
5
10
15
X
20
25
30
0
0
5
10
15
X
20
25
30
Quando aumentano i gradi di libertà diminuisce l’asimmetria
Statistica, CLEA – p. 51/55
χ2(r) : esempio
Attraverso le tavole si può calcolare la probabilità
0.25
0.2
r=3
P(X > 6.25) = 0.10
r = 10
P(X > 15.99) = 0.10
r = 15
P(X > 22.31) = 0.10
densità
0.15
0.1
0.05
0
0
5
6.25
10
15
15.99
20
25
30
22.31
Statistica, CLEA – p. 52/55
Teorema del limite centrale
Se X1 , . . . , Xn sono i.i.d.
E(Xi ) = µ,
allora la loro somma Y =
Pn
i=1
V(Xi ) = σ 2
Xi ,
Y ≈ N (nµ, nσ 2 )
L’approssimazione è tanto migliore quanto maggiore è n. Inoltre, la bontà
dell’approssimazione dipende molto dalla forma della distribuzione di partenza.
Esempio. Consideriamo n variabili χ2(1) : X1 , . . . , Xn , con E(Xi ) = 1 e V(Xi ) = 2
Y =
n
X
Xi
i=1
Per le proprietà della distribuzione χ2 , Y ∼ χ2(n) . Per il teorema del limite centrale,
quando n è molto grande
Y ≈ N (n, 2n)
Statistica, CLEA – p. 53/55
TLC: esempio (1)
Chi−quadro 5 d.f. e N(5, 10)
0.16
0.14
0.09
chi − quadro (5)
chi − quadro (10)
0.08
N(5,10)
0.12
Chi−quadro 10 d.f. e N(10, 20)
0.1
N(10,20)
0.07
0.06
densità
densità
0.1
0.08
0.05
0.04
0.06
0.03
0.04
0.02
0.02
0
0
0.01
5
10
15
20
25
30
0
0
5
10
15
20
25
30
Statistica, CLEA – p. 54/55
TLC: esempio (2)
Chi−quadro 15 d.f. e N(15, 30)
0.08
Chi−quadro 30 d.f. e N(30, 60)
0.06
chi − quadro (15)
0.07
chi − quadro (30)
N(15,30)
N(30,60)
0.05
0.06
0.04
densità
densità
0.05
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
0
5
10
15
20
25
30
0
0
10
20
30
40
50
60
Statistica, CLEA – p. 55/55