CAPITOLO 10 Funzione Caratteristica, Normale multivariata, convergenze 152 10.1 Funzione caratteristica 153 10.1. Funzione caratteristica La funzione caratteristica è uno strumento teorico utile sotto diversi aspetti per studiare la distribuzione di probabilità di numeri aleatori discreti e continui. Dato un numero aleatorio X, discreto o continuo, sia Y = eitX = cos(tX) + isen(tX), dove i è l’unità immaginaria e t è un fissato valore reale, e indichiamo con φX (t) la previsione di Y , che risulta essere una funzione di t. La funzione φX (t) si chiama funzione caratteristica di X. Nel caso discreto, posto P (X = xh ) = ph , si ha X φX (t) = ph eitxh , h mentre nel caso continuo, indicando con f (x) la densità di X, si ha Z +∞ φX (t) = eitx f (x)dx −∞ ovvero Z +∞ Z +∞ sin(tx)f (x)dx . cos(tx)f (x)dx + i φX (t) = −∞ −∞ Alcune proprietà: R +∞ P (1) φX (0) = 1 , ( h ph = 1 , −∞ f (x)dx = 1); (2) |φX (t)| ≤ φX (0) = 1 , ∀ t ; Consideriamo il caso in cui X è un numero aleatorio continuo. Z |φX (t)| = +∞ −∞ Z +∞ = −∞ √ = |eitx | | {z } itx e Z +∞ f (x)dx ≤ |eitx f (x)|dx −∞ Z +∞ f (x)dx = f (x)dx = 1 −∞ cos2 (tX)+sin2 (tX)=1 (3) Se Y = aX + b, si ha φY (t) = P(eitY ) = P(eit(aX+b) ) = eibt P(eiatX ) = eibt φX (at); (4) In particolare, se Y = −X, si ha: φY (t) = φ−X (t) = P(e−itX ) = φX (−t) = φX (t), dove il numero complesso α + iβ = α − iβ, ovvero il coniugato di α + iβ. Infatti φX (t) = P(cos(tX) + i sin(tX)) = P(cos(tX)) + iP(sin(tX)) = P(cos(tX)) − iP(sin(tX)) = φX (−t) G.Sanfilippo 10.1 Funzione caratteristica 154 (5) Se φX (t) è una funzione reale, si ha φX (−t) = φX (t). Se φX (t) è una funzione reale, si ha φX (t) = φX (t). Allora φ−X (t) = φX (−t) = φX (t) e quindi φX (t) è una funzione reale pari. (6) Se X ha una densità simmetrica rispetto all’asse delle y, cioè f (x) = f (−x), ∀x ∈ R, allora X e −X hanno la stessa densità e pertanto si ha φ−X (t) = φX (t), ovvero φX (t) è reale. Esempi. a) Dato un evento E di probabilità p, sia X = |E|. Si ha φX (t) = φ|E| (t) = peit·1 + qeit·0 = peit + q . b) Dati n eventi E1 , . . . , En , indipendenti ed equiprobabili di probabilità p, consideriamo il n.a. X = |E1 | + · · · + |En |. Si ha X ∼ B(n, p); inoltre φX (t) = n X n X n h n−h ith p q e = h ith P (X = h)e h=0 h=0 · · · = (peit + q)n . c) Sia dato un numero aleatorio X con distribuzione di Poisson di parametro λ. Indicando con pn = P (X = n), si ha φX (t) = +∞ X pn e itn = n=0 +∞ n X λ n=0 n! −λ itn e e =e −λ +∞ X (λeit )n n! n=0 = e−λ e λeit λ(eit −1) =e . d) Sia dato un numero aleatorio X con distribuzione geometrica di parametro p, ovvero ph = pq h−1 per h ∈ N. Ricordando che per un numero complesso |x| < 1 si ha (serie geometrica di ragione x) ∞ X xh−1 = h=1 1 , 1−x otteniamo φX (t) = +∞ X ith ph e h=1 = peit pq h−1 eith = h=1 +∞ X h=1 G.Sanfilippo = +∞ X (qeit )h−1 = peit . 1 − qeit 10.1 Funzione caratteristica 155 e) Se X ha una distribuzione normale standard, X ∼ N0,1 , si ha Z +∞ x2 1 φX (t) = eitx √ e− 2 dx . 2π −∞ Poichè X ha una densità simmetrica rispetto all’asse y, per la proprietà (6), si ha che φX (t) è una funzione reale, cioè Z +∞ x2 1 cos(tx) √ e− 2 dx . φX (t) = 2π −∞ Consideriamo la derivata prima di φX (t) (come funzione in t). Si può dimostrare che 2 − x2 R +∞ φ0X (t) = dtd −∞ cos(tX) √12π e R +∞ x2 √1 e− 2 dx . −x sin(tx) −∞ 2π dx = R +∞ d[cos(tX) √1 e− 2π −∞ x2 2 dt ] dx = Risolviamo il precedente integrale (nella variabile x) mediante integrazione per parti. Poniamo h(x) = sin(tx) → d(g(x)) dx d(h(x)) dx = t cos(tx) x2 = −x √12π e− 2 → g(x) = R x2 x √12π − e− 2 dx |{z} = R − √12π e−y dy = 2 y= x2 Si ha φ0X (t) = − R +∞ −∞ x2 x sin(tx) √12π e− 2 dx = x2 = [sin(tx) √12π e− 2 ]+∞ −∞ − t R +∞ −∞ x2 cos(tx) √12π e− 2 dx = = 0 − tφX (t) = −tφX (t) . Quindi φ0X (t) d = log φX (t) = −t , φX (t) dt da cui segue t2 log φX (t) = − + c , 2 ed essendo φX (0) = 1, risulta c = 0. t2 Quindi: φX (t) = e− 2 (funzione reale e pari). f) Se X ha una distribuzione normale di parametri m, σ, il n.a. Y = 2 − t2 X−m σ ha una distribuzione normale standard e si ha φY (t) = e . Allora, osservando che X = σY + m, applicando la proprietà 3), con a = σ, b = m, si G.Sanfilippo 2 x √1 e− 2 2π 10.1 Funzione caratteristica 156 ottiene σ 2 t2 φX (t) = eimt− 2 . g) Se X ha una distribuzione esponenziale di parametro λ, si ha +∞ Z φX (t) = eitx λe−λx dx = 0 Z +∞ λ e−(λ−it)x dx = =λ · λ − it 0 h) X ∼ Gc,λ . Si ha φX (t) = = R +∞ 0 c λ λ−it c λ xc−1 e−λx dx = eitx Γ(c) = [φY (t)]c , (Y ∼ G1,λ = Exp(λ)) . Calcolo dei momenti. Per ogni fissato intero k = 1, 2, . . ., la previsione di X k , che indichiamo con m(k) , si chiama momento di ordine k di X. T EOREMA 10.1. Se, per un intero positivo k è P(|X|k ) < ∞, allora la derivata k − esima di φX (t) esiste per ogni t, è continua, e si ha Z +∞ (k) (ix)k eitx f (x)dx . φX (t) = −∞ Cenno sulla dimostrazione. Ricordiamo che, dato un numero aleatorio continuo X, con densità f (x), si ha Z +∞ φX (t) = eitx f (x)dx . −∞ Nelle ipotesi del Teorema 10.1 derivando rispetto alla variabile t, si ha Z +∞ 0 φX (t) = ixeitx f (x)dx , Z −∞ +∞ φ00X (t) = (ix)2 eitx f (x)dx , −∞ ........................................ Z +∞ (k) φX (t) = (ix)k eitx f (x)dx . −∞ ........................................ Allora, se esistono i vari momenti di X, si ha Z +∞ 0 φX (0) = i xf (x)dx = im(1) , Z −∞ +∞ φ00X (0) = i2 x2 f (x)dx = i2 m(2) , −∞ ........................................ Z (k) +∞ φX (0) = ik xk f (x)dx = ik m(k) . −∞ G.Sanfilippo 10.2 Somma di numeri aleatori stocasticamente indipendenti 157 ........................................ φ (k) (0) Pertanto, si ha m(k) = Xik . Un ragionamento analogo si può fare se X è un n.a. discreto. In molti casi, dovendo calcolare m(k) , conviene sfruttare tale formula anzichè applicare la definizione Z +∞ (k) m = xk f (x)dx , −∞ nel caso continuo, oppure m(k) = X pn xkn , n nel caso discreto. E SEMPIO 10.1. Sia X ∼ N0,1 , si ha P(X r ) = 0, r dispari (2k)! , 2k k! r = 2k, k ∈ N. P(X r ) = P(X 2k ) = E SERCIZIO 10.1. Sia X un numero aleatorio con distribuzione uniforme in [a, b], con a < b, verificare che eitb −eita , t 6= 0 it(b−a) φX (t) = 1, t=0 Sia Y = cX + d, con c > 0, verificare che Y ha distribuzione uniforme in [ac + d, bc + d]. E SERCIZIO 10.2. Sia X un numero aleatorio con distribuzione uniforme in [0, 1], verificare che i lim φ0X (t) = . t→0 2 ( Sfruttare il fatto che limt→0 φX (t) = 1 ). E SERCIZIO 10.3. Sia X un numero aleatorio con distribuzione esponenziale di parametro λ > 0 e sia Y = aX, con a > 0, verificare che Y ha distribuzione esponenziale di parametro λ/a. 10.2. Somma di numeri aleatori stocasticamente indipendenti La proprietà più importante delle funzioni caratteristiche è la seguente: dati n numeri aleatori X1 , . . . , Xn stocasticamente indipendenti e posto Y = X1 + · · · + Xn , si ha φY (t) = φX1 (t) · φX2 (t) · · · · φXn (t) . G.Sanfilippo 10.2 Somma di numeri aleatori stocasticamente indipendenti 158 Consideriamo il caso n = 2. Si ha φX1 +X2 (t) = P(eit(X1 +X2 ) ) = P(eitX1 eitX2 ) = P(eitX1 )P(eitX2 ) = φX1 (t)φX2 (t). | {z } X1 ⊥X2 Ad esempio, dati n eventi E1 , . . . , En , indipendenti ed equiprobabili di probabilità p, e posto X1 = |E1 | , . . . , Xn = |En | , si ha φX1 (t) = · · · = φXn (t) = peit + q . Quindi φX1 +···+Xn (t) = φX1 (t) · · · · · φXn (t) = (peit + q)n . Ritroviamo in questo modo la funzione caratteristica del numero aleatorio |E1 | + · · · + |En |, che ha distribuzione binomiale di parametri n, p. Altri due aspetti teorici importanti relativi alle funzioni caratteristiche sono: 1. La corrispondenza tra funzioni caratteristiche e distribuzioni di probabilità è biunivoca; quindi la funzione caratteristica φX (t) determina univocamente la distribuzione di probabilità di X. E SEMPIO 10.2. Ricordando che ad una distribuzione normale di parameσ 2 t2 tri m, σ corrisponde la funzione caratteristica eimt− 2 e quindi, se X ∼ t2 N (x), si ha φX (t) = e− 2 . Allora, se Y = 2X + 3, si ha 2 φY (t) = · · · = e3it−2t , e quindi Y ∼ N3,2 . Altro esempio: se X ∼ Nm1 ,σ1 e Y ∼ Nm2 ,σ2 , con X, Y stocasticamente indipendenti, si ha φX (t) = eim1 t− 2 t2 σ1 2 φY (t) = eim2 t− , 2 t2 σ2 2 . Inoltre, per il n.a. Z = aX + bY si ha φZ (t) = · · · = eim3 t− 2 t2 σ3 2 , con m3 = am1 + bm2 , σ3 = q a2 σ12 + b2 σ22 . Pertanto Z ∼ Nm3 ,σ3 . Si noti che, volendo evitare l’uso della funzione caratteristica, il calcolo della di- stribuzione di Z richiederebbe un ragionamento pro- babilistico molto più complicato. G.Sanfilippo 10.2 Somma di numeri aleatori stocasticamente indipendenti 159 E SEMPIO 10.3. Siano X1 ∼ P(λ1 ) e X2 ∼ P(λ2 ) si ha φX1 +2 (t) = φX1 (t)φX2 (t) = eλ1 (e it −1) it −1) eλ2 (e = (λ1 +λ2 )(eit −1) e . Pertanto X1 + X2 ∼ P(λ1 + λ2 ) E SEMPIO 10.4. La funzione caratteristica di un n.a. X con distribuzione Gα,λ , cioè con densità, Gα,λ (x) = λα α−1 λx x e , x > 0. Γ(α) è data da φX (t) = λ λ − it α . Pertanto dati 2 numeri aleatori X1 , X2 , rispettivamente, con distribuzione Gα1 ,λ e Gα2 ,λ , si ha X1 + X2 ∼ Gα1 +α2 ,λ . E SERCIZIO 10.4. funzione caratteristica di un numero aleatorio discreto P5 Laeikt X è φX (t) = k=1 5 . Calcolare la previsione di X. P(X) = Soluzione. Si ha φ0X (t) = 5 X ikeikt k=1 5 , da cui segue φ0X (o) = 5 X ik k=1 5 = i(1 + 2 + 3 + 4 + 5) = 3i = iP(X) . 5 Pertanto: P(X) = 3 . E SERCIZIO 10.5. 2La funzione caratteristica di un numero aleatorio X è data t da φX (t) = e2it− 2 . Posto Y = X − 2, calcolare la probabilità p dell’evento (|Y | ≤ 2). Risp.: p = Soluzione. t2 φX (t) = e2it− 2 è la funzione caratteristica di una distribuzione normale di parametri m = 2, σ = 1. Pertanto Y = X − 2 ha una distribuzione normale standard. Allora: p = P (|Y | ≤ 2) = 2Φ(2) − 1 ' 0.9545 . E SERCIZIO 10.6. Le funzioni caratteristiche di due numeri aleatori X, Y it it indipendenti sono rispettivamente φX (t) = e2(e −1) e φY (t) = e3(e −1) . G.Sanfilippo 10.2 Somma di numeri aleatori stocasticamente indipendenti 160 Posto Z = X + Y , calcolare la previsione m di Z. Risp.: m = Si ha: it −1) φZ (t) = φX (t)φY (t) = e2(e da cui ricordando che φ0Z (0) e3(e it −1) it −1) = e5(e , = imZ e osservando che it −1) φ0Z (t) = e5(e it 5eit i, φ0Z (0) = 5i, segue: mZ = 5. In effetti, e5(e −1) è la funzione caratteristica di una distribuzione di Poisson di parametro λ = 5. G.Sanfilippo 10.3 Distribuzione normale multidimensionale - versione provvisoria 161 10.3. Distribuzione normale multidimensionale - versione provvisoria Un vettore aleatorio continuo (X, Y ) ha una distribuzione normale bidimensionale (o doppia) se ha la seguente densità di probabilità f (x, y) = 1√ 2πσ1 σ2 1−ρ2 ·e − 1 2(1−ρ2 ) x−µ1 σ1 2 −2ρ x−µ1 σ1 y−µ2 σ2 2 y−µ + σ 2 2 , per ogni (x, y) ∈ R2 , dove µ1 , µ2 , σ1 , σ2 , ρ, sono valori reali con σ1 > 0, σ2 > 0, |ρ| < 1. http://www.unipa.it/sanfilippo/pub/sigad/approfondimenti/ Tale distribuzione gode delle seguenti proprietà: • f1 (x) = Nµ1 ,σ1 (x) , f2 (y) = Nµ2 ,σ2 (y) , pertanto le previsioni e gli scarti quadratici medi di X e Y sono rispettivamente µ1 , µ2 e σ1 , σ2 ; • f1 (x|y) = Nµ∗1 ,σ1∗ (x) , con µ∗1 = µ1 + ρ σ1 (y − µ2 ) , σ2 σ1∗ = σ1 p 1 − ρ2 ; • f2 (y|x) = Nµ∗2 ,σ2∗ (y) , con p σ2 (x − µ1 ) , σ2∗ = σ2 1 − ρ2 ; σ1 R +∞ R +∞ • P(XY ) = −∞ −∞ xyf (x, y)dxdy = · · · = µ1 µ2 + ρσ1 σ2 , pertanto ρ rappresenta il coefficiente di correlazione di X e Y ; • se ρ = 0 risulta f (x, y) = f1 (x)f2 (y), pertanto se X e Y sono incorrelati, segue che sono indipendenti; • infine, se i parametri µ1 , µ2 , σ1 , σ2 sono fissati, al variare di ρ si ottengono infinite distribuzioni normali bidimensionali con le stesse marginali Nµ1 ,σ1 (x), Nµ2 ,σ2 (y); il che significa che date le distribuzioni marginali non è possibile determinare la distribuzione congiunta. µ∗2 = µ2 + ρ 10.3.1. Distribuzioni marginali. Si ha X ∼ Nµ1 ,σ1 e Y ∼ Nµ2 ,σ2. 1 Dimostriamo che X ∼ Nµ1 ,σ1 . Con la trasformazione lineare u = x−µ σ1 2 e v = y−µ , si ha dy = σ2 dv e limy→±∞ v = ±∞. Pertanto si ha, σ2 Z σ2 p f1 (x) = f (x, y)dy = 2πσ1 σ2 1 − ρ2 R Z e − 1 [u2 −2ρuv+v 2 ] 2(1−ρ2 ) dv. R Osservando che u2 − 2ρuv + v 2 = u2 − ρ2 u2 + (v − ρu)2 = u2 (1 − ρ2 ) + (v − ρu)2 G.Sanfilippo 10.3 Distribuzione normale multidimensionale - versione provvisoria 162 f1 (x) si può scrivere come segue Z 1 1 − [u2 (1−ρ2 )+(v−ρu)2 ] p f1 (x) = e 2(1−ρ2 ) dv. 2πσ1 1 − ρ2 R 2 1 2 Z − 12 √v−ρu2 1 e− 2 [u ] 1−ρ dv . =√ e √ p 2πσ1 R 2π 1 − ρ2 | {z } =1 =√ 1 e 2πσ1 − 12 x−µ1 σ1 2 . Pertanto X ∼ Nµ1 ,σ1 . Procedendo in maniera analoga, ma scambiando x con y, si ricava che Z y−µ2 2 1 − 12 σ 2 f2 (y) = f (x, y)dy = √ e 2πσ2 R ovvero Y ∼ Nµ2 ,σ2 . Quindi si ha che µ1 = P(X), µ2 = P(Y ), σ12 = var(X), σ22 = var(Y ). 10.3.2. Distribuzioni marginali condizionate. Calcoliamo la densità di probabilità di Y dato X = x. f (x, y) = f2 (y|x) = f1 (x) √ = 1 √ 2πσ2 =√ − 1√ 2πσ1 σ2 1−ρ2 − 1−ρ2 ·e 1 2(1−ρ2 ) ·e x−µ1 σ1 2 2 h i2 x−µ y−µ2 x−µ − σ 1 ρ2 + − σ 1 ρ σ 1 1 2 x−µ1 2 − 12 σ1 e h i2 y−µ2 x−µ1 − ρ 2 σ σ 1 − 1 p e 2(1−ρ 2πσ2 1 − ρ2 − 12 1 p e 2πσ2 1 − ρ2 2 ) 2 1 σ2 2 −ρ σ1 (x−µ1 ) σ2 (1−ρ2 ) #2 . Se poniamo µ∗2 = µ2 + ρ σσ12 (x − µ1 ) e σ2∗ = σ2 − 12 1 f2 (y|x) = √ e 2πσ2∗ y−µ∗ 2 ∗ σ2 1 = = p (1 − ρ2 ) si ha 2 , ∀y ∈ R. Pertanto, per ogni fissato x ∈ R, si ha f2 (y|x) = Nµ∗2 ,σ2∗ (y) , con p σ2 µ∗2 = µ2 + ρ (x − µ1 ) , σ2∗ = σ2 1 − ρ2 . σ1 G.Sanfilippo 1 = x−µ1 2 −1 σ1 √ 1 e 2 2πσ1 h i2 x−µ1 2 y−µ2 x−µ1 2 (1−ρ )+ − ρ σ σ σ " y−µ =√ 1 2(1−ρ2 ) 10.3 Distribuzione normale multidimensionale - versione provvisoria 163 In maniera analoga si dimostra che, per ogni fissato x ∈ R, si ha f1 (x|y) = Nµ∗1 ,σ1∗ (x) , con p σ1 µ∗1 = µ1 + ρ (y − µ2 ) , σ1∗ = σ1 1 − ρ2 . σ2 Concludendo si ha µ∗1 = P(Y |x) = µy (x), µ∗2 = P(X|y) = µx (y) cioè µ∗1 = µy (x) è proprio la funzione di regressione di X su Y e µ∗2 = µx (y) è proprio la funzione di regressione di Y su X. Poichè la curva di regressione di Y su X è una retta essa coincide con la retta di regressione. Pertanto ρ coincide con il coefficiente di correlazione lineare di X e Y (per la dimostrazione analitica vedi dall’Aglio pag 144). In particolare, osserviamo che se ρ = 0 si ha f2 (y|x) ≡ f2 (y), f1 (y|x) ≡ f1 (y). Quindi, dato un vettore aleatorio (X, Y ) con distribuzione normale bidimensionale si ha X, Y stocasticamente indipendenti ⇔ X, Y sono incorrelati 10.3.3. Matrice delle varianze e covarianze. Osserviamo che la matrice delle varianze-covarianze del vettore (X, Y ) è data da 2 ρσ1 σ2 σ11 σ12 σ1 Σ2 = = , σ21 σ22 ρσ1 σ2 σ22 e si ha detΣ2 = |Σ2 | = · · · = σ12 σ22 (1 − ρ2 ) , 2 1 −ρσ1 σ2 σ2 −1 Σ2 = . detΣ2 −ρσ1 σ2 σ12 Allora, com’è possibile verificare, la densità congiunta si può rappresentare nella forma matriciale seguente f (x, y) = 1 1 p e− 2 A(x−µ1 ,y−µ2 ) , 2π |Σ2 | dove A(x − µ1 , y − µ2 ) = (x − µ1 , y − µ2 ) · Σ−1 2 · x − µ1 y − µ2 . In generale, dato un vettore aleatorio continuo X = (X1 , . . . , Xn ), sia Σn la matrice delle varianze-covarianze di X. Si dice che X ha una distribuzione normale n−dimensionale se la densità congiunta è data da f (x1 , . . . , xn ) = G.Sanfilippo 1 1 √ e− 2 A(x1 −µ1 ,...,xn −µn ) , (2π) detΣn n 2 10.3 Distribuzione normale multidimensionale - versione provvisoria 164 dove A(x1 − µ1 , . . . , xn − µn ) = x1 − µ1 ··· . = (x1 − µ1 , . . . , xn − µn ) · Σ−1 n · xn − µn In forma matriciale e vettoriale si ha 1 |Σn |− 2 − 1 (x−µ)·Σ−1 t n ·(x−µ) 2 f (x1 , . . . , xn ) = , n e 2 (2π) dove x = (x1 , x2 . . . , xn ), µ = (µ1 , µ2 . . . , µn ). La distribuzione normale n−dimensionale gode di proprietà simili a quella bidimensionale; in particolare Xi ∼ Nµi ,σi , i = 1, . . . , n . Inoltre, se per ogni i 6= j si ha σij = 0, la matrice delle varianze-covarianze diventa diagonale e la densità congiunta coincide con il prodotto delle densità marginali, ovvero i numeri aleatori X1 , . . . , Xn sono stocasticamente indipendenti. Costruzione di una variabile aleatoria normale multidimensionale.* Dati n numeri aleatori X1 , X2 , . . . , Xn indipendenti e identicamente distribuiti con distribuzione normale standard (Xi ∼ N0,1 ) sia X = (X1 , X2 , . . . , Xn ) il vettore aleatorio congiunto. Ovviamente la densità di X è data da fX (x1 , . . . , xn ) = 1 − 12 x·xt . n e (2π) 2 In tal caso X ha una distribuzione normale multidimensionale con matrice delle varianze e covarianze la matrice Identità n × n . Consideriamo una trasformazione lineare di X. Sia n×1 n×n n×1 n×1 z}|{ z}|{ z}|{ z}|{ Y = A · X + µ con A una matrice n × n con |A| = 6 0 e µ un vettore (colonna?). Si ha che le componenti di Y sono Y1 = a11 X1 + a12 X2 + . . . + a1n Xn + µ1 ; .. . Yi = ai1 X1 + ai2 X2 + . . . + ain Xn + µi ; .. . Yn = an1 X1 + an2 X2 + . . . + ann Xn + µn . Inoltre, essendo A invertibile, si ha X = (Y − µ)A−1 . G.Sanfilippo 10.3 Distribuzione normale multidimensionale - versione provvisoria 165 Poichè Cov(Yi , Yj ) = Cov(a i1 X1 + ai2 X2 + . . . + ain Xn , aj1 X1 + aj2 X2 + . . . + ajn Xn ) = Pn P n = h=1 k=1 aih ajk cov(Xh , Xk ) = = ai1 aj1 + ai2 aj2 + . . . + ain ajn = = ai · aj t si ha che la matrice varianze-covarianze di Y è ΣY = A · At . Si dimostra che Y ha una distribuzione normale multivariata con densità 1 |ΣY |− 2 − 1 (y−µ)·Σ−1 t t Y ·(y−µ) ) . 2 f (y1 , . . . , yn ) = n e (2π) 2 E SERCIZIO 10.7. Dati 2 numeri aleatori X1 , X2 indipendenti e identicamente distribuiti con distribuzione normale standard e definiti Y1 = X1 + X2 + 1; Y2 = X1 − X2 − 1 determinare la densità Y1 e la densità di Y2 . Poichè X1 , X2 sono stocasticamente indipendenti si ha 1 0 ΣX = 0 1 Inoltre sappiamo che (Y1 , Y2 ) ha una distribuzione normale bidimensionale. Determiniamone la densità. Poichè 1 1 A= 1 −1 e |A| = −2 segue che la matrice varianze-covarianze di Y è 2 0 t ΣY = A · A = 0 2 Quindi, Y1 , Y2 sono stocasticamente indipendenti con distribuzione, rispettivamente, Y1 ∼ N1,√2 e Y2 ∼ N−1,√2 . G.Sanfilippo 10.4 Convergenze 166 10.4. Convergenze 10.4.1. Convergenza in legge o in distribuzione. D EFINIZIONE 10.1 (Convergenza in legge o in distribuzione). Una successione di distribuzioni con funzioni di ripartizione F1 (x), F2 (x), . . . converge ad una distribuzione se esiste una funzione di ripartizione, F (x), tale che lim Fn (x) = F (x), in ogni punto di continuità di F (x) n→∞ Se indichiamo con X1 , X2 , . . . la successione dei numeri aleatori con funzione di ripartizione F1 (x), F2 (x), . . . e con X un numero aleatorio con funzione di ripartizione F (X), se Fn converge in distribuzione a F scriveremo L d Xn → X, (Xn → X) e diremo che Xn converge in legge (o debolmente) a X. Tale tipo di convergenza si suole dire convergenza debole. Notare che viene richiesta la convergenza delle funzioni distribuzioni soltanto nei punti di continuità per F . E SEMPIO 10.1. Consideriamo una successione di numeri aleatori X1 , X2 , . . . , Xn , . . . con funzione di ripartizione del generico Xn definita da (−1)n 0 x< n , Fn (x) = n 1 x ≥ (−1) . n Sia X un numero aleatorio con funzione di ripartizione data da 0 x < 0, F (x) = 1 x ≥ 0. L Verificare se Xn → X. Distinguiamo tre casi. n (1) Sia x < 0. Si ha F (x) = 0. Poichè limn→∞ (−1) = 0 esiste un nx tale n che (−1)n x< , ∀n > nx . n Allora si ha Fn (x) = 0 = F (x) per n > nx , cioè Fn (x) → F (x). n (2) Sia x > 0. Poichè limn→∞ (−1) = 0 esiste un nx tale che n (−1)n , ∀n > nx . n Allora si ha Fn (x) = 1 = F (x) per n > nx , cioè Fn (x) → F (x). (3) Sia x = 0. In tal caso F2k (0) = 0, F2k+1 (0) = 1 pertanto Fn (0) non ha limite. Osserviamo che però il punto x = 0 non è di continuità per F (x). L Quindi Fn (x) → F (x) in ogni punto di continuità per F (X), cioè Xn → X. x> G.Sanfilippo 10.4 Convergenze 167 T EOREMA 10.2. Indicando con ψ la funzione caratteristica corrispondente ad F , la successione F1 , . . . , Fn , . . . converge in distribuzione ad F se e solo se la corrispondente successione di funzioni caratteristiche ψ1 , . . . , ψn , . . . converge a ψ. In breve Fn (x) → F (x) ⇐⇒ ψn (t) → ψ(t) Tale risultato teorico permette di dimostrare il Teorema centrale del limite. 10.4.2. Teorema centrale del limite. Data una successione di numeri aleatori X1 , . . . , Xn , . . ., indipendenti ed ugualmente distribuiti, con P(Xi ) = m, Var(Xi ) = σ 2 , si consideri la successione delle medie aritmetiche X1 + X 2 X1 + · · · + Xn Y1 = X1 , Y2 = , Yn = , ... , 2 n e quella delle medie aritmetiche ridotte Z1 , . . . , Zn . Ovviamente P(Yn ) = 2 √ . Indicando con Fi la funzione di m, Var(Yn ) = σn e quindi Zn = Yσ/n −m n ripartizione di Zi , la successione F1 , . . . , Fn , . . . converge alla funzione di ripartizione (di una distribuzione normale standard) Φ0,1 , ovvero si ha lim Fn (z) = lim P (Zn ≤ z) = Φ(z) , ∀ z ∈ R . n→+∞ n→+∞ Il risultato precedente si ottiene dimostrando che la successione ψ1 , . . . , ψn , . . . (di funzioni caratteristiche dei numeri aleatori Z1 , . . . , Zn , . . .) converge alla t2 funzione caratteristica (della distribuzione normale standard) ψ(t) = e− 2 . T EOREMA 10.3 (Teorema centrale del limite). Data una successione di n. a. X1 , . . . , Xn , . . ., indipendenti ed ugualmente distribuiti, con P(Xi ) = m, Var(Xi ) = σ 2 < +∞, e posto Y1 = X1 , Y 2 = Z1 = Y1 −m σ X1 +X2 2 , Z2 = , . . . , Yn = Y2 −m √ σ/ 2 X1 +···+Xn n , . . . , Zn = si ha Z ,... , z lim P (Zn ≤ z) = Φ(z) = n→+∞ Yn −m √ σ/ n , ... , N (t)dt , ∀ z ∈ R ; −∞ ovvero, la successione Z1 , . . . , Zn , . . . converge in legge ad un n. a. Z con distribuzione normale standard. D IMOSTRAZIONE . Dim.: si ha X n n Yn − m 1 X Xh − m U √ =√ √h , Zn = = σ σ/ n n h=1 n h=1 con P(Un ) = 0 , V ar(Un ) = 1 , ∀ n. I n. a. standardizzati U1 , . . . , Un , . . . sono indipendenti ed ugualmente distribuiti; indicando con ψ(t) la loro funzione caratteristica, si ha ψ(t) = ψ(0) + ψ 0 (0) t + G.Sanfilippo ψ 00 (0) 2 t2 t + ··· = 1 − + ··· ; 2! 2 10.4 Convergenze 168 Uh it √ inoltre: ψ √Uh (t) = P e n = ψ √tn = n t2 t2 =1− + ··· = 1 − +o 2n 2n ψZn (t) = ψP h U √h n 1 , n (t) = Πnh=1 ψ √Uh (t) = n n n t t = 1+ψ √ −1 ; = ψ √ n n P n+1 z n ricordiamo che: log(1 + z) = ∞ = n=1 (−1) n z2 + · · · = z + o(z) ' z (z ' 0) ; 2 h in t √ quindi: log ψZn (t) = log 1 + ψ n − 1 = t t = n log 1 + ψ √ −1 'n ψ √ −1 = n n 1 t2 t2 =− +no −→ − ; 2 n 2 allora: =z− t2 lim ψZn (t) = elimn→∞ log ψZn (t) = e− 2 . n→∞ Osservazione. La variabile aleatoria Zn , cioè la media aritmetica di X1 , X2 , . . . , Xn standardizzata, coincide con la somma Sn = X1 + X2 + . . . + Xn standardizzata, ovvero Zn = X1 +X2 +...+Xn −m n √σ n = X1 +X2 +...+X n −nm √ σ n Sn −P(Sn ) =√ . V ar(Sn ) Pertanto, possiamo dire che la successione delle somme aleatorie standarSn −P(Sn ) dizzate √ converge in distribuzione ad una variabile aleatoria con V ar(Sn ) distribuzione normale standard. In sintesi Sn −P(Sn ) ≤ z) −→ P (Zn ≤ z) = P ( √ V ar(Sn ) n→∞ Rz −∞ 1 2 √1 e− 2 x dx 2π E SEMPIO 10.5 (Processo Bernoulliano). Consideriamo una successione di eventi E1 , E2 , . . . , En , . . . indipendenti ed equiprobabili, con probabilità P (En ) = p. Sia Xi = |Ei |, i ∈ N . Si ha P(Xi ) = p, σ 2 (Xi ) = p(q − p). Per ogni n ∈ N poniamo Sn = X1 + X2 + · · · Xn = |E1 | + |E2 | + · · · |En | . G.Sanfilippo 10.4 Convergenze 169 Si ha che Sn ∼ Bin(n, p) e quindi P(Sn ) = np e σ 2 (Sn ) = np(1 − p). Per il teorema centrale del limite possiamo concludere ! Sn − np P p < x → Φ0,1 (x). n→∞ np(1 − p) Quindi, per n grande, la distribuzione del numero aleatorio (delle frequenze ridotte) S − np p n np(1 − p) si può approssimare con una normale standard. E SERCIZIO 10.8. Da un’urna contenente 1 pallina bianca e 19 nere si effettuano 200 estrazioni con restituzione. Sia Ei l’evento ”la i − esima pallina estratta è bianca”, i ∈ {1, 2, . . . , 200}. Sia S200 il numero aleatorio di palline bianche estratte. Calcolare mediante un’opportuna approssimazione P (5 ≤ S200 ≤ 15). E SEMPIO 10.2. Sia X sin Bin(n, p), con n = 40, p = 21 . Calcolare, mediante un’opportuna approssimazione, P (X = 20). Si ha P (X = 20) = P (19.5 < X < 20.5) = = P (−0.16 < Z < 0.16) ' 2Φ0,1 (0.16) − 1 = 0.1272 . Osserviamo che 40 1 = 0.1253 . P (X = 20) = 20 240 E SEMPIO 10.3. Siano X1 , X2 , . . . , Xn , . . . una successione di variabili aleatoriP indipendenti e identicamente distribuiti con Xi ∼ U ([0, 1]). Calcolare P ( 10 i=1 Xi > 7) mediante un’opportuna approssimazione. 1 Ricordiamo che P(Xi ) = 12 e V ar(Xi ) = 12 . Utilizzando il Teorema centrale del limite si ha P 10 P10 Xi −5 7−5 i=1 √ 10 > √ 10 ' 1 − Φ0,1 (2.19) P ( i=1 Xi > 7) = P 12 G.Sanfilippo 12 10.4 Convergenze 170 10.4.3. Convergenza in Probabilità. D EFINIZIONE 10.2. Data una successione X1 , X2 , . . . , Xn , . . . di numeri aleatori e un numero aleatorio X diremo che Xn tende in probabilità a X e scriveremo P Xn → X (100) se fissati comunque due numeri positivi , θ è possibile determinare un intero n,θ , tale che per ogni n > n,θ risulti P (|Xn − X| ≥ ) < θ (101) o, in altri termini, se ∀ > 0 lim P (|Xn − X| ≥ ) = 0 (102) n→∞ Nel caso di vettori aleatori con dimensioni k maggiori di 1 la disuguaglianza |Xn − X| vale componente per componente. P Significato geometrico per k = 1. Dire che Xn → X equivale a dire che la probabilità della striscia |Xn − X| < qualunque sia l’ampiezza (2) tende a 1 o equivalentemente che la probabilità della parte di piano |Xn − X| ≥ tende a 0. 10.4.4. Convergenza Quasi certa. Una successione di variabili aleatorie {Xn (ω)} rappresenta una successione di funzioni misurabili da (Ω, F) in (R, B1 ). Per tale successione un’usuale convergenza matematica è quella puntuale, cioè Xn (ω) → X, ∀ω ∈ Ω ovvero (se come distanza consideriamo quella euclidea) ∀ > 0, ∃m : |Xn (ω) − X(ω)| < per n > m. Una convergenza del genere però è troppo forte per le variabili aleatorie, visto che siamo interessati allo studio delle probabilità. Pertanto la convergenza sarà sufficiente anche se non si realizza in alcuni punti, purchè questi formino un insieme di misura trascurabile. D EFINIZIONE 10.3 (Convergenza quasi certa.). Data una successione di v.a. {Xn } e una v.a. X, diremo che Xn converge quasi certamente a X se l’evento Xn (ω) → X(ω) è quasi certo, ovvero se P (Xn → X) = P ({ω ∈ Ω : Xn (ω) → X(ω)}) = 1 q.c. In tal caso si scrive Xn → X, oppure che Xn tende a X con probabilità 1. La convergenza q.c. di Xn ad una v.a. X significa prendere in considerazione in una “prova” (ipotetica) i valori assunti dalle infinite v.a. Xn e vedere se questi convergono al valore assunto dalla v.a. X: tale evento deve avere probabilità 1. Caratterizzazione della convergenza quasi certa , G.Sanfilippo 10.4 Convergenze 171 q.c. T EOREMA 10.1. Xn → X se e solo se ∞ \ ∀ > 0, lim P ( |Xr − X| < ) = 1 n→∞ r=n Pertanto una definizione alternativa di convergenza quasi certa potrebbe essere la seguente . D EFINIZIONE 10.4. Data una successione di v.a. {Xn } e una v.a. X, diremo che Xn converge quasi certamente a X se, fissati due numeri positivi , θ, è possibile determinare un intero n,θ , tale che per ogni n > n,θ risulti +∞ [ P |Xr − X| ≥ < θ. r=n Fissati, in altri termini, arbitrariamente e θ debbonorisultare minori di θ, per n > n,θ , non solo le probabilità, P |Xn −X| ≥ , che ciascuno singolarmente degli scarti sia non inferiore a (come richiesto dalla convergenza in probabilità), ma anche le probabilità che anche uno solo su tutti gli scarti |Xn − X| da n,θ in poi sia non inferiore a . Si dimostra il seguente q.c. P T EOREMA 10.2. Se Xn → X allora Xn → X. Il viceversa non vale. Si possono costruire alcuni controesempi. In definitiva la relazione che sussiste, solo in un verso, tra le verie convergenze, è la seguente. q.c. P L X n → X ⇒ Xn → X ⇒ Xn → X 10.4.5. Applicazione - Legge dei grandi numeri. Sia X1 , X2 , . . . , Xn , . . . una successione di variabili aleatorie i.i.d, con P(Xn ) = µ e var(Xn ) = σ 2 finite. Consideriamo la successione delle medie aritmetiche n X Xn = Xi /n. i=1 2 Si ha P(X n ) = µ e var(X n ) = σ /n. Pertanto la media aritmetica avrà una distribuzione centrata su µ che al tendere di n all’infinito avrà una varianza infinitesima var(X n ) = σ 2 /n → 0, ovvero sempre più concentrata su µ. Osserviamo che per trovare la distribuzione di X n bisognerebbe fare n − 1 convoluzioni. Proviamo che P Xn → X ⇒ la successione X n converge in probabilità al numero aleatorio X = µ. Per la disuguaglianza di Cebicev si ha P (|X n − µ| > ) ≤ G.Sanfilippo var(X n ) 2 10.4 Convergenze 172 ma var(X n ) = σ 2 /n → 0 pertanto si ha ∀ > 0 lim P (|X n − µ| > ) = 0. n→∞ Tale risultato prende il nome di Legge (debole) dei grandi numeri. Ad esempio è utile per stimare la vera misura di una lunghezza, dopo aver effettuato diverse misure, si può considerare come vera misura la media aritmetica. In particolare tale risultato prende anche il nome di Teorema di Bernoulli, in quanto nella sua prima forma fu dimostrato da Bernoulli. Sia X1 , X2 , . . . , Xn , . . . una successione di variabili aleatorie bernoulliane i.i.d, con P(Xn ) = p e var(Xn ) = p(1 − p) finite. Ovvero 1, con P (Xn = 1) = p Xn = 0, con P (Xn = 0) = 1 − p = q In tal caso la successione delle medie aritmetiche diviene la frequenza relativa fn di successo su n prove e il teorema diviene ∀ > 0 lim P (|fn − p| > ) = 0. n→∞ Cioè la frequenza relativa di successo converge in probabilità alla probabilità p di successo. P Un altro importante risultato dovuto a Bernoulli, indicando con Sn = ni=1 Xi la frequenza assoluta, è il seguente ∀k > 0 lim P (|Sn − np| > k) = 1. n→∞ Cioè il numero di Sn − np tende in probabilità all’infinito. Possiamo pertanto dire che, in riferimento al lancio di una moneta, se si fanno un numero elevati di lanci la frequenze relativa di T esta sarà, con probabilità alta, vicina a 1/2, ma la frequenza assoluta, cioè il numero di T esta, sarà probabilmente lontano da n/2. Se ad ogni lancio si vince 1 se esce T esta e −1 se esce Croce, allora dopo un numero elevato di lanci la vincita (positiva o negativa) sarà lontana da zero. 10.4.6. Convergenza in Legge e convergenza in Probabilità. P L T EOREMA 10.3. Se Xn → X allora Xn → X. Inoltre se X = a con L P probabilità 1 vale il viceversa, cioè se Xn → X allora Xn → X Il precedente teorema dimostra che la convergenza in probabilità è più forte della convergenza in legge, tranne per variabili degenere. In generale la convergenza in legge non implica la convergenza in probabilità. Vediamo un controesempio. E SEMPIO 10.4. Sia X1 , X2 , . . . , Xn , . . . una successione di variabili aleatorie indipendenti e uniformemente distribuite in (0, 1) e sia X una variabile G.Sanfilippo 10.4 Convergenze 173 aleatoria con distr. unif. sempre in (0, 1) Essendo tutte le variabili in gioco con stessa distribuzione tutte avranno come funzione di ripartizione la funzione Fn = F definita come 0, se x ≤ 0, x, se 0 ≤ x < 1, F (x) = 1, se x ≥ 1. Quindi Xn converge in legge a X. Proviamo che non c’è convergenza in probabilità. Osserviamo che la densità marginale f (xn , x) è 1, se (xn , x) ∈ Q1 , fn (xn , x) = 0, altrimenti avendo indicato con Q1 il quadrato unitario, Q1 = {(x, y) : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1}. Consideriamo l’evento |Xn − X| > si ha P (|Xn − X| > ) = (1 − )2 cioè fissato la quantità P (|Xn − X| > ) rimane costante al crescere di n, quindi P Xn 9 X. E SERCIZIO 10.1. Sia {Xn ∼ U (0, 1/n), n ∈ N} una successione di variabili aleatorie ( delta di Dirac), provare che Xn converge sia in legge che in probabilità a X = 0 10.4.7. Convergenza in Media. Dato un numero reale r > 0, diciamo che Xn tende a X in media r − esima, e scriviamo m.r. Xn → X. se P(|Xn − X|r ) → 0. Per r = 2 si parla di convergenza in media quadratica. Inoltre tale convergenza, poichè prende in considerazione i valori medi, richiede che essi siano finiti. Ricordiamo che la disuguaglianza di Cebicev (Markov). Per r > 0, > 0, si ha P(|X|r ) P (|X| > ) ≤ , r pertanto possiamo dimostrare che T EOREMA 10.4. m.r. P Xn → X ⇒ Xn → X, infatti ∀, P (|Xn − X| > ) ≤ G.Sanfilippo P(|Xn − X|r ) →0 r 10.4 Convergenze 174 E SEMPIO 10.5. Nell’inferenza statistica classica (oltre alla correttezza) si dice che uno stimatore Yn è consistente se tende in probabilità alla grandezza η da stimare. Se P(Yn ) = η, cioè lo stimatore è corretto, si ha P((Yn − η)2 ) = P((Yn − P(Yn ))2 ) = var(Yn ) quindi se la var(Yn ) → 0 segue che m.q. Yn → η. e per il Teorema 10.4 si ha P Yn → η cioè lo stimatore è consistente. Pertanto la media campionaria X n (per variabili con momenti di ordine 2 finiti) è uno stimatore corretto e consistente della media. G.Sanfilippo