Capitolo 3 Valori caratteristici di distribuzioni 3.1 Valori attesi di variabili e vettori aleatori In molti casi è possibile descrivere adeguatamente una distribuzione di probabilità con pochi valori di sintesi. In altri termini la descrizione delle caratteristiche probabilistiche di una variabile aleatoria attraverso la funzione di probabilità (nel caso discreto) o la funzione di densità (nel caso continuo) può essere agevolata dal ricorso ad un certo numero di indicatori che sintetizzano altrettanti aspetti della distribuzione (tali indicatori, pur rappresentando particolari aspetti della distribuzione stessa, non ne esauriscono la descrizione). 3.1.1 Valori attesi di variabili aleatorie Definizione 3.1 Data una variabile aleatoria discreta X con funzione di probabilità pX e insieme di definizione RX si dice valore atteso o speranza matematica o valor medio di X la quantità ∑ t pX (t) (3.1) E (X) = t∈RX posto che la somma a secondo membro sia finita. Esempio 3.1 Sia X una variabile aleatoria discreta con funzione di probabilità { 1 x = 1, . . . , 5 5 pX (x) = 0 altrove il suo valore atteso è dato dall’espressione seguente 5 ∑ 1 t =3 E (X) = 5 t=1 59 60 A. Pollice - Appunti di Probabilità Esempio 3.2 Sia X una variabile aleatoria discreta con funzione di probabilità pX (−1) x = −1 pX (0) x=0 pX (x) = p (1) x=1 X 0 altrove posto che valgano E (X) = 1 6 e pX (0) = 1 2 è possibile determinare pX (−1) e pX (1), infatti 1 ∑ 1 = t pX (t) 6 t=−1 = −1 × pX (−1) + 0 × 1 + 1 × pX (1) 2 = pX (1) − pX (−1) inoltre dalla funzione di probabilità si deduce che deve valere pX (1) + pX (−1) = 21 , quindi pX (1) + pX (−1) = pX (1) − pX (−1) = 1 2 1 6 ⇒ pX (1) = 1 3 pX (−1) = 1 6 Esempio 3.3 Un’urna contiene 10 palline di cui 8 valgono £2000 e 2 valgono £5000. Se ne scelgano a caso 3 senza reinserimento e si vinca la somma dei valori delle 3 palline estratte. La distribuzione delle vincite possibili è la seguente: P (”3 palline da £2000”) = P (£6000) = (83) = 0.467 (10 3) P (”2 palline da £2000 ed 1 da £5000”) = P (£9000) = (82)(21) = 0.467 (10 3) P (”1 pallina da £2000 e 2 da £5000”) = P (£12000) = (81)(22) = 0.066 (10 3) Pertanto il valore atteso della vincità è £6000 × 0.467 + £9000 × 0.467 + £12000 × 0.066 = £7797 Definizione 3.2 Data una variabile aleatoria continua X con funzione di densità fX si dice valore atteso o speranza matematica o valor medio di X la quantità ∫ E (X) = t fX (t) dt (3.2) R posto che l’integrale a secondo membro sia finito. Cap.3: Valori caratteristici di distribuzioni 61 Esempio 3.4 Se dividiamo casualmente un segmento di lunghezza 5 in due parti ed indichiamo con X la lunghezza di una delle due parti ottenute (ad esempio quella posta alla nostra sinistra) posiamo ragionevolmente ritenere che valga 1 0<x<5 5 fX (x) = 0 altrove In altri termini stiamo supponendo che ciascun punto del segmento abbia la stessa probabilità di essere selezionato per dividerlo in due, ovvero che la lunghezza X della parte sinistra del segmento abbia distribuzione uniforme su tutto il segmento. In tal caso la lunghezza attesa della parte sinistra del segmento è data dal risultato seguente (anche giustificabile intuitivamente) ∫ 5 E (X) = 5 1 dt = · · · = 5 2 t 0 Esempio 3.5 Sia X una variabile aleatoria continua con funzione di densità continua a tratti 1 0<x<2 8 x 2<x<4 fX (x) = 8 0 altrove il suo valore atteso è dato da ∫ 2 t E (X) = 0 1 dt + 8 ∫ 4 t 2 t 31 dt = · · · = 8 12 Allo scopo di unificare la notazione nel caso di variabili aleatorie discrete e continue la definizione di valore atteso assume talvolta l’espressione seguente ∫ E (X) = t dFX (t) (3.3) R dove FX indica la funzione di ripartizione (discreta o continua) della variabile aleatoria X. Tale espressione, che fa riferimento alla teoria dell’integrazione di Lebesgue-Stieltjes, prende la forma rispettivamente della somma (3.1) o dell’integrale (3.2) nel caso di variabili aleatorie discrete o dotate di densità. 3.1.2 Valori attesi di funzioni di variabili aleatorie Data una funzione Y = g (X) della variabile aleatoria discreta X il suo valore atteso può essere calcolato ricavando prima la funzione di probabilità pY della variabile aleatoria Y , quindi applicando la definizione di valore atteso e la (3.1) ∑ E (Y ) = t pY (t) t∈RY Alternativamente è possibile utilizzare la funzione di probabilità della X senza procedere alla determinazione di quella della Y . La speranza matematica di Y = g (X) è data da ∑ E (Y ) = g (t) pX (t) (3.4) t∈RX 62 A. Pollice - Appunti di Probabilità Esempio 3.1 (cnt) Siano g1 (X) = X 2 e g2 (X) = (X + 2)2 5 ( ) ∑ 1 E X2 = t2 = 11 5 t=1 [ ] E (X + 2)2 = 5 ∑ 1 = 27 5 (t + 2)2 t=1 Esempio 3.2 (cnt) Posto che non si conosca ( ) il valore di E (X) e che anche in questo caso valga pX (0) = 12 si può calcolare il valore di E X 2 , infatti ( ) E X2 = 1 ∑ t2 pX (t) t=−1 = (−1)2 pX (−1) + 02 × = pX (−1) + pX (1) = 1 + (1)2 pX (1) 2 1 2 Data una funzione Y = g (X) della variabile aleatoria continua X il suo valore atteso può essere calcolato ricavando prima la funzione di densità fY della variabile aleatoria Y , quindi applicando la definizione di valore atteso ∫ E (Y ) = t fY (t) dt R Alternativamente è possibile utilizzare la funzione di densità della X senza procedere alla determinazione di quella della Y . La speranza matematica di Y = g (X) è data da ∫ E (Y ) = g (t) fX (t) dt (3.5) R Esempio 3.4 (cnt) La lunghezza attesa della sezione di segmento posta alla nostra destra è data da ∫ 5 E (5 − X) = 0 (5 − t) 1 5 dt = · · · = 5 2 analogamente il valore atteso del prodotto delle lunghezze delle due sezioni è dato da ∫ 5 1 25 E [X (5 − X)] = t (5 − t) dt = · · · = 5 6 0 Esempio 3.5 (cnt) Tenendo opportunamente conto della funzione di densità continua a tratti della variabile aleatoria X si ha ∫ 2 ∫ 4 ( ) 1 t 23 E X2 = t2 dt + t2 dt = · · · = 8 8 3 0 2 Cap.3: Valori caratteristici di distribuzioni 63 Esempio 3.6 Sia X una variabile aleatoria continua con funzione di densità 0<x<1 2x fX (x) = 0 altrove il valore atteso di Y = √ X è dato da (√ ) ∫ E (Y ) = E X = 1√ t 2t dt = · · · = 0 4 5 Si ottiene lo stesso risultato se si individua prima la densità della Y e poi si calcola direttamente il valore √ atteso. Infatti essendo y = x una trasformazione monotona per 0 < x < 1 si ha ( −1 ) dg −1 (y) = 2y 2 |2y| = 4y 3 0 < y < 1 fY (y) = fX g (y) dy quindi ∫ E (Y ) = 1 t 4t3 dt = · · · = 0 4 5 Anche per le funzioni reali di vettori aleatori i valori attesi sono determinabili in modo analogo. Il valore atteso della funzione reale Y = g (X) di un vettore aleatorio k-dimensionale discreto X con funzione di probabilità pX1 ···Xk è infatti dato dall’espressione ∑ E (Y ) = g (t) pX1 ···Xk (t) (3.6) t∈RX ⊂Rk 64 A. Pollice - Appunti di Probabilità Esempio 3.7 Sia (X1 , X2 ) la variabile aleatoria bidimensionale discreta la cui funzione di probabilità è data da 1 (x1 , x2 ) ∈ {(1, 1) , (2, 2) , (3, 3)} 3 pX1 X2 (x1 , x2 ) = 0 altrove Si noti che posto Y = X1 si ha E (X1 ) = 1 × 1 1 1 +2× +3× =2 3 3 3 e analogamente ponendo Y = X2 si ottiene E (X2 ) = 1 × 1 1 1 +2× +3× =2 3 3 3 Il valore atteso di Y = X1 X2 è dato da E (X1 X2 ) = 1 × 1 × 1 1 1 14 +2×2× +3×3× = 3 3 3 3 E analogamente [( )( )] ( ) ( ) 1 2 1 2 1 E X1 − X2 − = 1− × 1− × + 3 3 3 3 3 ) ( ) ( ) ( ) ( 2 1 1 2 1 26 1 × 2− × + 3− × 3− × = + 2− 3 3 3 3 3 3 9 Esempio 2.12 (cnt) Utilizzando la tabella che comprende le distribuzioni marginali (p. 48) è possibile calcolare E (X1 ) ed E (X2 ) E (X1 ) = 1 × 2 1 4 +2× = 3 3 3 E (X2 ) = 2 × 1 2 8 +3× = 3 3 3 Inoltre si ha che per Y = X1 X2 E (X1 X2 ) = 1 × 2 × 1 1 11 1 +2×2×0+1×3× +2×3× = 3 3 3 3 Analogamente nel caso di un vettore aleatorio k-dimensionale X dotato di densità fX1 ···Xk il valore atteso di una sua funzione Y = g (X) è dato dall’espressione ∫ E (Y ) = g (t) fX1 ···Xk (t) dt1 · · · dtk (3.7) Rk Cap.3: Valori caratteristici di distribuzioni 65 Esempio 2.14 (cnt) Si noti che posto Y = X1 si ha 3 E (X1 ) = 8 ∫ 1∫ 1 0 0 ( ) 23 t1 7t21 + t22 dt1 dt2 = · · · = 32 e analogamente ponendo Y = X2 si ottiene ∫ ∫ ) 17 3 1 1 ( 2 E (X2 ) = t2 7t1 + t22 dt1 dt2 = · · · = 8 0 0 32 infine se Y = X1 X2 E (X1 X2 ) = 3 8 ∫ 1∫ 1 0 0 ( ) 3 t1 t2 7t21 + t22 dt1 dt2 = · · · = 8 Esempio 2.15 (cnt) Si noti che posto Y = X1 si ha ∫ 1 ∫ t1 t1 t1 t2 dt1 dt2 = · · · = 4 5 t2 t1 t2 dt1 dt2 = · · · = 8 15 E (X1 ) = 8 0 0 e analogamente ponendo Y = X2 si ottiene ∫ 1∫ E (X2 ) = 8 0 infine se Y = X1 X2 t1 0 ∫ 1 ∫ t1 E (X1 X2 ) = 8 0 3.1.3 t1 t2 t1 t2 dt1 dt2 = · · · = 0 2 3 Proprietà dei valori attesi I valori attesi di variabili aleatorie godono di alcune proprietà che discendono dalle loro definizioni. Nell’enunciare queste proprietà si fa riferimento al caso di variabili aleatorie continue unidimensionali. L’estensione di enunciati e definizioni alle variabili aleatorie discrete e ai vettori aleatori continui e discreti è semplicemente ottenibile sostituendo agli integrali unidimensionali che definiscono i valori attesi rispettivamente le somme e gli integrali e le somme multidimensionali. 1. Il valore atteso di una costante è uguale alla costante stessa. Se g (X) = c con c costante, si ha ∫ ∫ E (c) = c fX (t) dt = c fX (t) dt = c (3.8) R R 2. Il valore atteso della funzione di una variabile aleatoria moltiplicata per una costante è uguale alla costante per il valore atteso della funzione della variabile aleatoria. Sia in questo caso g (X) = c h (X) con c costante ed h funzione di X, si ha ∫ E [c h (X)] = c h (t) fX (t) dt = c E [h (X)] (3.9) R 3. Il valore atteso di una combinazione lineare di due funzioni di una variabile aleatoria è uguale alla stessa combinazione lineare dei valori attesi delle stesse due funzioni della variabile aleatoria. In 66 A. Pollice - Appunti di Probabilità questo caso g (X) = c1 h1 (X) + c2 h2 (X) con c1 e c2 costanti ed h1 e h2 funzioni di X, si ha ∫ E [c1 h1 (X) + c2 h2 (X)] = c1 h1 (t) + c2 h2 (t) fX (t) dt = c1 E [h1 (X)] + c2 E [h2 (X)] (3.10) R 4. La proprietà precedente è immediatamente generalizzabile a combinazioni lineari di n > 2 termini [ E n ∑ ] ci hi (X) = i=1 n ∑ ci E [hi (X)] (3.11) i=1 5. Il valore atteso del prodotto di due variabili aleatorie è uguale al prodotto dei valori attesi delle variabili se queste sono indipendenti. Siano X1 ed X2 variabili aleatorie indipendenti rispettivamente con funzione di densità fX1 ed fX2 , si ha ∫∫ E (X1 X2 ) = R2 ∫∫ t1 t2 fX1 X2 (t1 , t2 ) dt1 dt2 = t1 t2 fX1 (t1 ) fX2 (t2 ) dt1 dt2 ∫ ∫ = t1 fX1 (t1 ) dt1 t2 fX2 (t2 ) dt2 = E (X1 ) E (X2 ) (3.12) R2 R R 6. Disuguaglianza di Schwarz-Hölder. Dati due numeri positivi a e b tali che a−1 + b−1 = 1 e due variabili aleatorie X1 e X2 si ha [ ( )] 1 b b E (|X1 X2 |) ≤ [E (|X1 | )] E |X2 | a 1 a (3.13) L’espressione precedente fornisce come casi particolari la disuguaglianza di Schwarz ( ) ( ) [E (|X1 X2 |)]2 ≤ E X12 E X22 (3.14) oltre che la seguente disuguaglianza valida per 0 < c < d ( )1 1 d (E |X|c ) c ≤ E |X|d Esempio 3.1 (cnt) [ ] [ ] E (X + 2)2 = E X 2 + 4X + 4 [ ] = E X 2 + E [4X] + E [4] [ ] = E X 2 + 4E [X] + 4 = 11 + 4 × 3 + 4 = 27 (3.15) Cap.3: Valori caratteristici di distribuzioni 67 Esempio 3.4 (cnt) E (5 − X) = 5 − E (X) = 5 − ∫ 5 E [X (5 − X)] = 5E (X) − t2 0 5 5 = 2 2 1 5 1 1 25 dt = 5 × − × × 125 = 5 2 5 3 6 Esempio 3.7 (cnt) )( )] ( ) [( 2 1 2 2 1 X2 − = E X1 X2 − X2 − X1 + E X1 − 3 3 3 3 9 1 2 2 = E (X1 X2 ) − E (X2 ) − E (X1 ) + 3 3 9 14 1 2 2 26 − ×2− ×2+ = 3 3 3 9 9 = Esempi 2.12,14,15 (cnt) In tutti e tre gli esempi poiché E (X1 X2 ) ̸= E (X1 ) E (X2 ) le variabili aleatorie X1 e X2 non sono indipendenti. 3.2 Momenti di variabili aleatorie Tra i valori attesi delle funzioni di variabili aleatorie unidimensionali assumono un’importanza particolare quelli delle potenze con esponente reale non negativo, denominate momenti. Definizione 3.3 Si dice momento (ordinario) r-esimo di una variabile aleatoria unidimensionale X la quantità µr = E (X r ) (3.16) Naturalmente a seconda che la variabile aleatoria X sia discreta e dotata di funzione di probabilità pX ovvero continua e dotata di funzione di densità fX il momento r-esimo è rispettivamente dato da ∑ tr pX (t) (3.17) µr = t∈RX ∫ tr fX (t) dt µr = (3.18) R 1. Si osservi che µ1 = E (X) = µ, ossia il momento primo di una variabile aleatoria coincide con il suo valore atteso. 2. Dalla definizione precedente si deduce immediatamente che il momento secondo gode della proprietà di essere nullo se e solo se la variabile aleatoria X è uguale a zero con probabilità 1 ( ) E X 2 = 0 ⇐⇒ PX (X = 0) = 1 (3.19) Definizione 3.4 Si dice momento centrale r-esimo di una variabile aleatoria unidimensionale X la quantità mr = E [(X − E (X))r ] (3.20) 68 A. Pollice - Appunti di Probabilità 1. I momenti ordinari e i momenti centrali appena definiti corrispondono a valori tipici che caratterizzano le distribuzioni delle variabili aleatorie a cui si riferiscono. La variabile aleatoria X − E (X) è anche detta scarto dalla media. A causa della proprietà di linearità della media il suo valore atteso è nullo m1 = E [X − E (X)] = E (X − µ) = 0 (3.21) 2. Una variabile aleatoria X ha distribuzione simmetrica rispetto al centro di simmetria a se vale FX (a − x) − PX (X = a − x) = 1 − FX (a + x) (3.22) questa condizione nel caso di variabili aleatorie continue dotate di densità diventa fX (a − x) = fX (a + x) (3.23) mentre le variabili aleatorie discrete simmetriche sono tali che i valori che assumono e le loro probabilità si dispongono simmetricamente rispetto ad a. Se una variabile aleatoria X ha distribuzione simmetrica il suo valore atteso coincide con il centro di simmetria, ovvero µ = a. Inoltre in tal caso i momenti centrali di ordine dispari sono nulli. Esempio 2.18 (cnt) Per la densità triangolare vale E (Y1 ) = 0, inoltre poiché per x > 0 si ha che fY1 (x) = 1 − x = fY1 (−x) allora tale densità è simmetrica e il suo centro di simmetria corrisponde all’origine degli assi. Di conseguenza i momenti centrali di ordine dispari sono nulli. [ ] ( ) m3 = E (Y1 − E (Y1 ))3 = E Y13 ∫ ∫ 0 3 = t (1 + t) dt + −1 1 t3 (1 − t) dt 0 1 1 1 1 = − + + − 4 5 4 5 Definizione 3.5 Il momento centrale secondo è anche detto varianza della variabile aleatoria e viene [ ] 2 2 generalmente indicato con m2 = Var (X) = σX = E (X − E (X)) . La varianza di una variabile aleatoria misura la dispersione della distribuzione di probabilità attorno al valore medio. 1. Si noti che vale 2 σX [ ] = E (X − E (X))2 [ ] = E X 2 + (E (X))2 − 2XE (X) ( = E X 2 ) (3.24) 2 + (E (X)) − 2E (X) E (X) = µ2 − µ2 In altri termini la varianza è data dal momento secondo meno il quadrato del momento primo. Cap.3: Valori caratteristici di distribuzioni 69 2. Si ricava facilmente che vale [ ] [ ] 2 2 Var (aX + b) = E (aX + b − E (aX + b)) = E (aX − aE (X)) = a2 Var (X) (3.25) La varianza resta invariata se alla variabile aleatoria si aggiunge una costante b, mentre viene moltiplicata per a2 se la variabile aleatoria è moltiplicata per a. 3. Si noti che la varianza si annulla se e solo se la variabile aleatoria X assume un unico valore (che ovviamente coincide con il valor medio µ) con probabilità 1. Dalla proprietà (b) dei momenti ordinari discende infatti che vale [ ] E (X − µ)2 = 0 ⇐⇒ PX (X − µ = 0) = 1 (3.26) 4. Per qualsiasi variabile aleatoria vale [ ] [ ] 2 σX = E (X − µ)2 = min E (X − a)2 a∈R infatti (3.27) [ ] [ ] E (X − a)2 = E (X − µ + µ − a)2 [ ] = E (X − µ)2 + (µ − a)2 + 2 (µ − a) E (X − µ) 2 2 = σX + (µ − a)2 ≥ σX 5. Disuguaglianza di Cebicev. Sia X una variabile aleatoria per la quale esistano finiti i momenti primo e secondo, per qualsiasi a > 0 vale PX (µ − aσX < X < µ + aσX ) ≥ 1 − 1 a2 (3.28) Infatti, posto b = aσX la suddetta disuguaglianza implica PX (|X − µ| < b) ≥ 1 − 2 σX 2 =⇒ σX ≥ b2 PX (|X − µ| ≥ b) b2 (3.29) L’ultima disuguaglianza si dimostra nel caso continuo osservando che vale ∫ 2 σX = (t − µ)2 fX (t) dt ∫R ≥ (t − µ)2 fX (t) dt |X−µ|≥b ∫ 2 ≥ b fX (t) dt |X−µ|≥b = b PX (|X − µ| ≥ b) 2 Analoghi passaggi portano alla dimostrazione della disuguaglianza nel caso di variabili aleatorie discrete. È importante sottolineare come la disuguaglianza di Cebicev sussiste per qualunque variabile aleatoria per la quale si conoscano µ e σX senza alcuna assunzione sulla sua distribuzione. Dunque tale disuguaglianza permette di calcolare il limite inferiore della probabilità di intervalli simmetrici attorno alla media di una variabile aleatoria di cui si conoscano solo i primi due momenti e non l’intera distribuzione. 70 A. Pollice - Appunti di Probabilità Esempio 2.18 (cnt) La varianza della variabile aleatoria continua Y1 con densità triangolare è data da [ ] ( ) σY21 = E (Y1 − E (Y1 ))2 = E Y12 ∫ ∫ 0 2 = t (1 + t) dt + −1 = 1 t2 (1 − t) dt 0 1 1 1 1 1 − + − = 3 4 3 4 6 Definizione 3.6 La radice quadrata della varianza è detta scarto quadratico medio o deviazione standard √ σX = Var (X) (3.30) 2 , la trasformazione lineare 1. Si noti che se X è una variabile aleatoria con E (X) = µ e Var (X) = σX Z= X −µ σX (3.31) fornisce una variabile aleatoria Z con E (Z) = 1 E (X − µ) = 0 σX (3.32) 1 2 Var (X) = 1 σX (3.33) Var (Z) = Tale trasformazione è dunque detta standardizzazione della variabile aleatoria X. Cap.3: Valori caratteristici di distribuzioni 71 Esempio 3.8 Si calcoli la varianza della somma ottenuta lanciando una coppia di dadi. Siano X1 il risultato del primo dado ed X2 quello del secondo con rispettivamente pX1 (x1 ) = 61 per x1 = 1, . . . , 6 e pX2 (x2 ) = 61 per x2 = 1, . . . , 6 e sia Z = X1 + X2 1 z = 2, 12 36 2 z = 3, 11 36 3 z = 4, 10 36 4 z = 5, 9 pZ (z) = PX1 X2 (X1 + X2 = z) = 36 5 z = 6, 8 36 6 z=7 36 0 altrove E (Z) = 12 ∑ tpZ (t) = · · · = 7 t=2 ( ) E Z2 = 12 ∑ t=2 t2 pZ (t) = · · · = 329 6 ( ) 35 Var (X1 + X2 ) = Var (Z) = E Z 2 − [E (Z)]2 = 6 Si noti che in generale vale [ ] m3 = E (Z − E (Z))3 [ ] = E Z 3 − (E (Z))3 + 3Z (E (Z))2 − 3Z 2 E (Z) ( ) ( ) = E Z 3 − (E (Z))3 + 3E (Z) (E (Z))2 − 3E Z 2 E (Z) ( ) ( ) = E Z 3 + 2 (E (Z))3 − 3E Z 2 E (Z) = µ3 + 2µ3 − 3µ2 µ ( ) Dal calcolo diretto risulta E Z 3 = 931 2 e di conseguenza m3 = 931 329 + 2 × 73 − 3 × ×7=0 2 6 Infatti la funzione di probabilità della variabile aleatoria discreta Z è evidentemente simmetrica attorno alla media 7. 72 A. Pollice - Appunti di Probabilità Esempio 3.9 Data la variabile aleatoria continua X con densità 0<x<1 6x (1 − x) fX (x) = 0 altrove si voglia determinare la probabilità P (µ − 2σX < X < µ + 2σX ). ∫ 1 µ = E (X) = t 6t (1 − t) dt = · · · = 0 ( ) E X2 = ∫ 1 t2 6t (1 − t) dt = · · · = 0 2 σX 3 = Var (X) = − 10 1 2 3 10 ( )2 ( )2 1 1 1 √ = = 2 20 2 5 Quindi ( PX (µ − 2σX < X < µ + 2σX ) = PX ∫ 1 1 1 1 −√ <X< +√ 2 2 5 5 0.947 = ) 6t (1 − t) dt = · · · = 0.984 0.053 Per la stessa probabilità, applicando la disuguaglianza di Cebicev, si ha PX (0.053 < X < 0.947) ≥ 1 − 1 = 0.75 22 Si noti come in questo secondo caso trascurando l’informazione sulla forma della densità della variabile aleatoria X si perviene a una determinazione molto meno precisa della probabilità dell’intervallo, infatti l’estremo inferiore della probabilità dell’intervallo (0.75) è piuttosto distante dalla probabilità esatta calcolata precedentemente (0.984). 3.2.1 Mediana di una variabile aleatoria I momenti descrivono dunque alcuni aspetti delle distribuzioni delle variabili aleatorie. Quando l’integrale (nel caso continuo) o la somma (nel caso discreto) divergono i momenti non esistono. In questi e in altri casi in cui il ricorso ai momenti risulta inopportuno vengono utilizzati altri indicatori della posizione e della forma delle distribuzioni di cui il più importante è la mediana. Definizione 3.7 Data una variabile aleatoria unidimensionale X si dice mediana della variabile aleatoria o della sua distribuzione il valore Me (X) tale che PX (X ≥ Me (X)) ≥ 1 2 e PX (X ≤ Me (X)) ≥ ovvero in termini della funzione di ripartizione lim FX (Me (X) − h) ≤ h→0+ 1 ≤ FX (Me (X)) 2 1 2 (3.34) Cap.3: Valori caratteristici di distribuzioni 73 Quando la variabile aleatoria X è continua si ha immediatamente che vale FX (Me (X)) = 12 . Nel caso discreto la mediana è per definizione quel valore che lascia alla sua sinistra ed alla sua destra una probabilità almeno pari ad 12 . Esempio 3.10 Le variabili aleatorie X 1 6 1 6 1 6 1 pX (x) = 6 1 6 1 6 0 e Y abbiano funzioni di probabilità rispettivamente x=1 x=2 x=3 x=4 pY (y) = x=5 x=6 1 10 y=1 1 10 y=2 1 5 y=3 2 5 1 5 0 y=4 y=5 altrove altrove Si nota facilmente che Me (X) non è unica, infatti per 3 ≤ Me (X) ≤ 4 vale la condizione (3.34). Al contrario Me (Y ) = 4. Esempio 3.11 Sia X una variabile aleatoria continua con densità esponenziale di parametro 1. La mediana è ottenuta rsilvendo l’equazione 1 = 2 ∫ Me(X) ∫ Me(X) −∞ fX (t) dt = e−t dt = 1 − e−Me(X) 0 da cui si ricava Me (X) = log 2. Per la mediana valgono le due seguenti proprietà: 1. Se Y = g (X) con g funzione non decrescente, allora Me (Y ) = g (Me (X)) . 2. Per qualsiasi variabile aleatoria X vale E [|X − Me (X)|] = mina∈R E [|X − a|] 3.2.2 (3.35) Momenti misti Anche tra i valori attesi delle funzioni di variabili aleatorie bidimensionali assumono un’importanza particolare quelli dei prodotti delle componenti elevate a potenze con esponente reale non negativo, denominate momenti misti. Definizione 3.8 Si dice momento misto di ordine r, s di un vettore aleatorio bidimensionale (X1 , X2 ) la quantità µr,s = E (X1r X2s ) (3.36) 74 A. Pollice - Appunti di Probabilità Naturalmente a seconda che la variabile aleatoria X sia discreta e dotata di funzione di probabilità pX1 ,X2 ovvero continua e dotata di funzione di densità fX1 ,X2 il momento misto di ordine r, s è rispettivamente dato da ∑ µr,s = tr1 ts2 pX1 ,X2 (t1 , t2 ) (3.37) (t1 ,t2 )∈RX ⊂R2 ∫∫ µr,s = R2 tr1 ts2 fX1 ,X2 (t1 , t2 ) dt1 dt2 (3.38) Si noti che ponendo r = 0 si ottiene µ0,s = E (X2s ) e analogamente per s = 0 si ha µr,0 = E (X1r ). Definizione 3.9 Si dice momento centrale misto di ordine r, s di un vettore aleatorio bidimensionale (X1 , X2 ) la quantità mr,s = E [(X1 − E (X1 ))r (X2 − E (X2 ))s ] (3.39) Si noti che anche in questo caso ponendo r = 0 si ottiene m0,s = E [(X2 − E (X2 ))s ] e analogamente per s = 0 si ha mr,0 = E [(X1 − E (X1 ))r ]. Infine ponendo r = s = 1 si ottiene il momento centrale misto di ordine 1, 1. Definizione 3.10 Il momento centrale misto di ordine 1, 1 è anche detto covarianza delle variabili aleatorie e viene generalmente indicato con m1,1 = Cov (X1 , X2 ) = σX1 ,X2 = E [(X1 − E (X1 )) (X2 − E (X2 ))]. 1. Si noti che vale σX1 ,X2 = E [(X1 − E (X1 )) (X2 − E (X2 ))] = E [X1 X2 − X1 E (X2 ) − X2 E (X1 ) + E (X1 ) E (X2 )] (3.40) = E (X1 X2 ) − E (X1 ) E (X2 ) − E (X1 ) E (X2 ) + E (X1 ) E (X2 ) = E (X1 X2 ) − E (X1 ) E (X2 ) 2. Si ricava facilmente che vale Cov (aX1 + b, cX2 + d) = E [(aX1 + b − E (aX1 + b)) (cX2 + d − E (cX2 + d))] = E [(aX1 − E (aX1 )) (cX2 − E (cX2 ))] (3.41) = acCov (X1 , X2 ) La covarianza è invariante rispetto a traslazioni delle variabili aleatorie mentre reagisce in modo proporzionale ai cambiamenti di scala delle stesse. 3. Se X1 e X2 sono due variabili aleatorie indipendenti, allora Cov (X1 , X2 ) = 0. Infatti in tal caso si ha Cov (X1 , X2 ) = E (X1 X2 ) − E (X1 ) E (X2 ) = E (X1 ) E (X2 ) − E (X1 ) E (X2 ) = 0 Dunque quando le due variabili aleatorie X1 e X2 sono indipendenti la covarianza si annulla. La covarianza può, però, anche annullarsi se le due variabili X1 e X2 non sono indipendenti, nel qual caso X1 e X2 sono dette incorrelate. Se Cov (X1 , X2 ) è positiva, allora X1 e X2 sono dette correlate positivamente e a valori alti di X1 corrispondono valori alti di X2 nonché a valori bassi di X1 corrispondono valori bassi di X2 . Al contrario X1 e X2 sono dette correlate negativamente se la covarianza è negativa; in tal caso a valori alti di X1 corrispondono valori bassi di X2 e viceversa. Cap.3: Valori caratteristici di distribuzioni 75 4. Per due variabili aleatorie qualsiasi X1 e X2 vale [ ] 2 2 σX = E (X + X − E (X + X )) 1 2 1 2 1 +X2 [ ] = E (X1 − E (X1 ) + X2 − E (X2 ))2 [ ] [ ] = E (X1 − E (X1 ))2 + E (X2 − E (X2 ))2 (3.42) +2E [(X1 − E (X1 )) (X2 − E (X2 ))] 2 2 = σX + σX + 2σX1 ,X2 1 2 Inoltre, di conseguenza, la varianza della somma di due variabili aleatorie indipendenti è uguale alla somma delle varianze delle due variabili aleatorie (risultato generalizzabile alla somma di più di due variabili aleatorie indipendenti). Esempio 2.10 (cnt) Dalle funzioni di probabilità marginali calcolo E (X1 ) ed E (X2 ) E (X1 ) = 1 × 11 1 1 91 + 2 × + ··· + 6 × = 36 4 36 36 E (X2 ) = 2 × 1 1 1 252 +3× + · · · + 12 × = 36 18 36 36 mentre dalla funzione di probabilità congiunta della variabile bidimensionale (X1 , X2 ) calcolo E (X1 X2 ) = 1 × 2 × 1 2 1 742 +1×3× + · · · + 6 × 12 × = 36 36 36 36 e complessivamente Cov (X1 , X2 ) = 742 91 252 105 − × = 36 36 36 36 Esempio 2.18 (cnt) Essendo E (Y1 ) = 0 ed ∫ E (Y1 , Y2 ) = 0 1 ∫ 1−t2 −t2 t1 t2 dt2 dt1 = · · · = − si ha complessivamente Cov (Y1 , Y2 ) = − 1 1 − 0 × E (Y2 ) = − 12 12 1 12 76 A. Pollice - Appunti di Probabilità Esempio 3.8 (cnt) Tenendo conto del fatto che evidentemente Cov (X1 , X2 ) = 0, vale Var (X1 + X2 ) = Var (X1 ) + Var (X2 ) = 2Var (X1 ). E (X1 ) = 6 ∑ tpX1 (t) = t=1 X12 ) 6 ∑ ) 91 1( 2 1 + 22 + 32 + 42 + 52 + 62 = 6 6 t=1 [ ( ) ] 35 Var (X1 + X2 ) = 2Var (X1 ) = 2 E X12 − [E (X1 )]2 = 6 E ( 1 21 (1 + 2 + 3 + 4 + 5 + 6) = 6 6 = t2 pX1 (t) = Definizione 3.11 Si dice coefficiente di correlazione la quantità ρ (X1 , X2 ) = σX1 ,X2 Cov (X1 , X2 ) =√ σX1 σX2 Var (X1 ) Var (X2 ) 1. Dall’applicazione della precedente proprietà 2. della covarianza risulta ( ) X1 − E (X1 ) X2 − E (X2 ) ρ (X1 , X2 ) = Cov , σX 1 σX 2 (3.43) (3.44) da cui si vede come il coefficiente di correlazione rappresenta la covarianza tra le variabili X1 e X2 standardizzate. 2. Per trasformazioni lineari delle variabili X1 e X2 vale ρ (aX1 + b, cX2 + d) = √ acCov (X1 , X2 ) a2 Var (X1 ) c2 Var (X2 ) =√ ac a2 c2 ρ (X1 , X2 ) = sgn (ac) ρ (X1 , X2 ) (3.45) Il coefficiente di correlazione è dunque invariante a meno del segno per trasformazioni di scala delle variabili. 3. Si noti che in generale vale [Cov (X1 , X2 )]2 = (E [(X1 − E (X1 )) (X2 − E (X2 ))])2 ≤ [E |(X1 − E (X1 )) (X2 − E (X2 ))|]2 [ ] [ ] ≤ E (X1 − E (X1 ))2 E (X2 − E (X2 ))2 = Var (X1 ) Var (X2 ) (3.46) La prima maggiorazione è banale, mentre la seconda è dovuta alla disuguaglianza di Schwarz. Dalla (3.46) si ricava che |ρ (X1 , X2 )| ≤ 1. 4. Il coefficiente di correlazione tra una variabile aleatoria X e una sua trasformazione lineare aX + b vale ρ (X, aX + b) = √ Cov (X, aX + b) aCov (X, X) aVar (X) =√ =√ = ±1 Var (X) Var (aX + b) a2 Var (X) Var (X) a2 Var (X) (3.47) In altre parole il coefficiente di correlazione assume valori ±1 quando le due variabili sono legate da una relazione lineare. Inoltre il valore assoluto del coefficiente di correlazione ρ (X1 , X2 ) è tanto più vicino all’unità quanto maggiore risulta la concentrazione della distribuzione di probabilità della variabile aleatoria bidimensionale (X1 , X2 ) attorno a una retta del piano. Cap.3: Valori caratteristici di distribuzioni 77 ( ) ( ) Esempio 2.10 (cnt) Ancora dalle funzioni di probabilità marginali calcolo E X12 ed E X22 ( ) 11 + 22 × E X12 = 12 × 36 ( ) 1 E X22 = 22 × + 32 × 36 1 1 301 + · · · + 62 × = 4 36 36 1 1 1974 2 + · · · + 12 × = 18 36 36 quindi ) 91 2 2555 = 36 362 ( )2 1974 252 7560 − = 36 36 362 301 − 36 Var (X1 ) = Var (X2 ) = ( infine ρ (X1 , X2 ) = √ Esempio 2.18 (cnt) Essendo Var (Y1 ) = 1 6 ∫ 105 36 2555 362 × ∼ = 0.86 e 1 (∫ t dt − t dt 0 0 si ha che ρ (X1 , X2 ) = √ 1 − 12 1 6 )2 1 2 Var (Y2 ) = Var (X2 ) = 3.2.3 7560 362 × 1 12 1 = − 3 ( )2 1 1 = 2 12 ∼ = −0.71 Valori attesi e momenti condizionati È possibile applicare la definizione di valore atteso considerando le funzioni di probabilità e di densità condizionate rispettivamente nel caso di variabili aleatorie doppie discrete e continue. Definizione 3.12 Data la variabile aleatoria doppia discreta (X1 , X2 ) e la funzione di probabilità condizionata pX1 |X2 il valore atteso condizionato della funzione g (X1 ) dato X2 = x2 è definito dall’espressione seguente ∑ E (g (X1 ) |x2 ) = g (t1 ) pX1 |X2 (t1 |x2 ) (3.48) {t1 ∈R:(t1 ,x2 )∈RX } Definizione 3.13 Data la variabile aleatoria doppia continua (X1 , X2 ) e la funzione di densità condizionata fX1 |X2 il valore atteso condizionato della funzione g (X1 ) dato X2 = x2 è definito dall’espressione seguente ∫ E (g (X1 ) |x2 ) = g (t1 ) fX1 |X2 (t1 |x2 ) dt1 (3.49) R 78 A. Pollice - Appunti di Probabilità Esempio 3.12 Si vogliano determinare E (X2 |x1 ) e Var (X2 |x1 ) a partire dalla variabile aleatoria doppia continua (X1 , X2 ) con funzione di densità 0 < x1 < 1 x1 + x2 0 < x2 < 1 fX1 ,X2 (x1 , x2 ) = 0 altrove La densità marginale della variabile condizionante risulta { ∫1 0 x1 + t2 dt2 = x1 + fX1 (x1 ) = 0 1 2 0 < x1 < 1 altrove quindi per un valore 0 < x1 < 1 { fX2 |X1 (x2 |x1 ) = da cui ∫ 1 E (X2 |x1 ) = ) ( E X22 |x1 = 0 < x2 < 1 0 altrove t2 3x1 + 2 x1 + t2 1 dt2 = · · · = 6x + 3 x1 + 2 1 t22 x1 + t 2 4x1 + 3 1 dt2 = · · · = 12x + 6 x1 + 2 1 0 ∫ x1 +x2 x1 + 12 1 0 ) ( Var (X2 |x1 ) = E X22 |x1 − (E (X2 |x1 ))2 = 4x1 + 3 − 12x1 + 6 = ··· = ( 3x1 + 2 6x1 + 3 )2 6x1 (x1 − 1) + 1 18 (2x1 + 1)2 Teorema 3.1 Posto E (g (X1 ) |X2 ) = h (X2 ) vale E (h (X2 )) = E (g (X1 )), ovvero E (E (g (X1 ) |X2 )) = E (g (X1 )) (3.50) Infatti nel caso continuo E (h (X2 )) = E (E (g (X1 ) |X2 )) ∫ E (g (X1 ) |t2 ) fX2 (t2 ) dt2 = R ∫ ∫ = R ∫∫ R = R2 g (t1 ) fX1 |X2 (t1 |t2 ) dt1 fX2 (t2 ) dt2 g (t1 ) fX1 ,X2 (t1 , t2 ) dt1 dt2 = E (g (X1 )) In particolare il teorema precedente porta alla seguente uguaglianza E (X1 ) = E [E (X1 |X2 )] (3.51) Cap.3: Valori caratteristici di distribuzioni 79 ed inoltre ( ) Var (X1 ) = E X12 − [E (X1 )]2 [ ( )] = E E X12 |X2 − {E [E (X1 |X2 )]}2 { } [ ( )] = E E X12 |X2 − E [E (X1 |X2 )]2 { } +E [E (X1 |X2 )]2 − {E [E (X1 |X2 )]}2 (3.52) { ( } ) = E E X12 |X2 − [E (X1 |X2 )]2 + Var [E (X1 |X2 )] = E [Var (X1 |X2 )] + Var [E (X1 |X2 )] 3.2.4 Momenti di vettori aleatori Nel paragrafo seguente vengono illustrate alcune proprietà relative ai momenti delle variabili aleatorie multidimensionali. Definizione 3.14 Il momento primo o valore atteso di un vettore aleatorio k-dimensionale X è dato dal vettore k-dimensionale dei valori attesi dei suoi elementi µ = E(X) = (E(X1 ), . . . , E(Xk ))T = (µ1 , . . . , µk )T (3.53) Naturalmente la definizione precedente ha senso purché esista finito il valore atteso di ogni componente del vettore aleatorio X. Seguono le principali proprietà dei valori attesi di vettori aleatori 1. Il valore atteso del trasposto di un vettore aleatorio è uguale al trasposto del valore atteso del vettore stesso ( ) E X T = [E (X)]T (3.54) 2. Linearità. Per X vettore casuale k-dimensionale ed A e b rispettivamente matrice e vettore di costanti in Rh×k ed Rh vale E(AX + b) = AE(X) + b (3.55) 3. Additività. Per X1 e X2 vettori casuali in Rk ed A e B matrici di costanti in Rh×k vale E(AX1 + BX2 ) = AE(X1 ) + BE(X2 ) (3.56) Definizione 3.15 La matrice di varianze e covarianze di un vettore aleatorio k-dimensionale X è data dall’espressione seguente { } ( ) ΣX = Var (X) = E [X − E (X)] [X − E (X)]T = E XX T − E (X) [E (X)]T (3.57) La definizione precedente ha senso purché esistano finiti i momenti secondi di ciascun elemento del vettore aleatorio X. Il perché è facilmente intuibile se si esplicita il significato degli elementi della matrice di varianze e covarianze 2 σX σX1 ,X2 · · · σX1 ,Xk 1 2 σX ,X σX · · · σX2 ,Xk 2 1 2 ΣX = (3.58) .. .. .. . . . . . . 2 σXk ,X1 σXk ,X2 · · · σX k 80 A. Pollice - Appunti di Probabilità { } 2 = E [X − E (X )]2 Dunque ΣX è una matrice quadrata di ordine k simmetrica e contiene le varianze σX i i 1 di ciascuna componente Xi sulla diagonale principale, mentre al di fuori di questa si trovano le covarianze σX1 ,X2 = E {[Xi − E (Xi )] [Xj − E (Xj )]} tra le possibili coppie di componenti. Si noti che qualsiasi matrice di varianze e covarianze è sempre semidefinita positiva. Infatti affinché ΣX sia semidefinita positiva deve valere aT ΣX a ≥ 0 per qualsiasi vettore a ∈ Rk diverso dal vettore nullo: { } {[ ]2 } aT ΣX a = E aT [X − E (X)] [X − E (X)]T a = E aT (X − E (X)) ≥0 Definizione 3.16 La matrice di covarianze tra il vettore aleatorio k-dimensionale X e il vettore aleatorio h-dimensionale Y è data dall’espressione seguente { } ( ) ΣX,Y = Cov (X, Y ) = E [X − E (X)] [Y − E (Y )]T = E XY T − E (X) [E (Y )]T (3.59) Come nel caso della matrice di varianze e covarianze σX1 ,Y1 σX1 ,Y2 σX ,Y σX ,Y 2 1 2 2 ΣX,Y = .. .. . . σXk ,Y1 σXk ,Y2 ··· ··· .. . σX1 ,Yh σX2 ,Yh .. . ··· σXk ,Yh (3.60) Se ne conclude che ΣX,Y è una matrice k×h il cui generico elemento σXi ,Yj = E{(Xi −E(Xi ))(Yj −E(Yj ))} è la covarianza tra la coppia (Xi , Yj ). Si osservi che Cov (X, X) = Var (X): questa seconda definizione è quindi più generale. Teorema 3.2 Se Z = AX + b e K = CY + d, con X ed Y vettori casuali in Rk , A e C matrici di costanti in Rh×k , b e d vettori di costanti in Rh , vale Cov (Z, K) = ACov (X, Y ) C T (3.61) Infatti { } Cov (Z, K) = E [Z − E (Z)] [K − E (K)]T { } = E [AX + b − E (AX + b)] [CY + d − E (CY + d)]T { } = E [AX + b − AE (X) − b] [CY + d − CE (Y ) − d]T { } = E A [X − E (X)] [Y − E (Y )]T C T = ACov (X, Y ) C T Da questo risultato generale discendono alcuni importanti casi particolari. 1. X = Y =⇒ Cov (Z, K) = AVar (X) C T 2. Z = K = AX + b =⇒ Var (Z) = AVar (X) AT 3. Z = K = X + b =⇒ Var (Z) = Var (X) 4. Z = K = AX =⇒ Var (Z) = AVar (X) AT 3.3 Funzione caratteristica e funzioni generatrici Vi sono oltre alle funzioni di ripartizione, alle funzioni di probabilità e di densità e ai momenti ancora altri strumenti per lo studio delle distribuzioni. Cap.3: Valori caratteristici di distribuzioni 3.3.1 81 Funzione caratteristica Tra questi vi è la trasformata complessa della funzione di ripartizione denominata funzione caratteristica che permette di calcolare i momenti della distribuzione in un modo più agevole di quello diretto: tramite derivazione piuttosto che tramite integrazione. Definizione 3.17 Data una variabile aleatoria X con funzione di ripartizione FX si dice funzione caratteristica la funzione definita per u ∈ R dal seguente valore atteso ∫ ( ) ψX (u) = E eiuX = eiut dFX (t) (3.62) R Dove nell’espressione precedente, che corrisponde alla trasformata di Eulero-Fourier della funzione di ripartizione, il calcolo del valore atteso è basato sull’integrale di Stieltjes. Teorema 3.3 La funzione caratteristica esiste sempre finita (l’integrale che la definisce non diverge mai) per u ∈ Ṙ. Infatti risulta sempre |ψX (u)| ≤ 1 ∫ iut |ψX (u)| = e dFX (t) ∫R iut e dFX (t) ≤ R ∫ = |cos ut + i sin ut| dFX (t) R ∫ √ cos2 ut + sin2 ut dFX (t) = ∫R = dFX (t) = 1 R Se X è discreta con funzione di probabilità pX e insieme di definizione RX l’espressione (3.62) diventa ∑ ( ) eiut pX (t) (3.63) ψX (u) = E eiuX = t∈RX mentre se X è continua e dotata di densità fX ( iuX ψX (u) = E e ) ∫ eiut fX (t) dt = R (3.64) 82 A. Pollice - Appunti di Probabilità Esempio 3.13 Sia X una variabile aleatoria continua con funzione di densità uniforme nell’intervallo (−1, 1) { 1 −1 < x < 1 2 fX (x) = 0 altrove la sua funzione caratteristica è dunque definita dal seguente integrale 1 ∫ eiut 1 1 iut e dt = 2 −1 2iu −1 ) 1 ( iu e − e−iu 2iu 1 (cos u + i sin u − cos u + i sin u) 2iu sin u u ψX (u) = = = = Si noti che ad ogni funzione di ripartizione corrisponde una funzione caratteristica e viceversa: le funzioni caratteristiche sono in corrispondenza biunivoca con le funzioni di ripartizione. Dunque la funzione caratteristica è uno strumento alternativo alla funzione di ripartizione per lo studio delle distribuzioni di probabilità. In particolare se si è in presenza di una funzione caratteristica di forma nota la biunivocità della corrispondenza permette di risalire alla distribuzione. ( ) Si può dimostrare che se esistono tutti i momenti E X h per h = 1, 2, . . . e se la serie complessa 1 + iuE (X) − u2 ( 2 ) (iu)h ( h ) E X + ··· + E X + ··· 2 h! converge in un intorno non nullo dello 0, allora detta serie coincide con lo sviluppo in serie di Taylor della funzione caratteristica e si ha ψX (u) = 1 + iuE (X) − u2 ( 2 ) (iu)h ( h ) E X + ··· + E X + ··· 2 h! (3.65) Questa proprietà stabilisce la corrispondenza tra la funzione caratteristica e la serie completa dei momenti della variabile aleatoria che pertanto individua le caratteristiche distributive della stessa. Il teorema seguente permette invece di utilizzare la funzione caratteristica per ricavare i momenti della variabile aleatoria. Teorema 3.4 Se la variabile aleatoria X ammette momenti finiti sino all’r-esimo, allora la funzione caratteristica ψX (u) è derivabile r volte e, per h = 1, . . . , r, vale ( ) h h −h d ψX (u) E X = µh = i h du u=0 (3.66) Infatti per h = 1 dψX (u) d = du du ∫ ∫ iut e dFX (t) = R mentre per h = 2 d2 ψX (u) d = 2 du du R d iut e dFX (t) = du ∫ it eiut dFX (t) R ∫ (it)2 eiut dFX (t) it eiut dFX (t) = R ∫ R Cap.3: Valori caratteristici di distribuzioni 83 quindi in generale per h = 1, . . . , r dh ψX (u) = duh ∫ (it)h eiut dFX (t) R Si dimostra che l’integrale precedente è sempre convergente per qualsiasi intero h < r. Infine ponendo u = 0 si ottiene ∫ dh ψX (u) h = i th dFX (t) = ih µh duh u=0 R Esempio 3.14 Sia X la variabile aleatoria che indica il numero di lanci una moneta regolare necessari affinché esca testa. La funzione di probabilità di X è dunque data da { ( 1 )x x = 1, 2, . . . 2 pX (x) = 0 altrove La funzione caratteristica è ψX (u) = lim n→∞ n ∑ t=1 iut e ( )t n ( iu )t eiu ∑ e eiu 1 2 = = lim = iu n→∞ 2 2 2 − eiu 1 − e2 t=1 l’espressione precedente è ottenuta come somma infinita della serie geometrica di ragione 1. Il calcolo delle prime due derivate della funzione caratteristica porta a ( ) ( ) ieiu 2 − eiu − eiu −ieiu 2ieiu dψX (u) = = du (2 − eiu )2 (2 − eiu )2 ( )2 ( )( ) −2eiu 2 − eiu − 2ieiu 2 2 − eiu −ieiu d2 ψX (u) 2e3iu − 8eiu = = du2 (2 − eiu )4 (2 − eiu )4 Quindi per i primi due momenti di X si ottengono i valori −1 dψX (u) E (X) = i =2 du u=0 2 ( 2) −2 d ψX (u) E X =i =6 du2 u=0 ( ) Var (X) = E X 2 − [E (X)]2 = 2 eiu 2 iu con e2 < 84 A. Pollice - Appunti di Probabilità Esempio 3.15 Sia X una variabile aleatoria continua la cui funzione di densità, detta distribuzione di Laplace o esponenziale simmetrica di parametro 1, è data da 1 fX (x) = e−|x| 2 −∞<x<∞ La funzione caratteristica è definita dall’integrale ∫ 1 ∞ iut −|t| ψX (u) = e e dt 2 −∞ ∫ ∫ 1 ∞ iut −t 1 0 iut t e e dt + e e dt = 2 −∞ 2 0 0 ∞ ( ( 1 et(1+iu) 1 e−t(1−iu) = − 2 1 + iu 2 1 − iu −∞ = 0 1 1 1 1 1 + = 2 1 + iu 2 1 − iu 1 + u2 Il calcolo delle prime due derivate della funzione caratteristica porta a ( )−2 dψX (u) = −2u 1 + u2 du ( )−2 ( )−3 d2 ψX (u) = −2 1 + u2 + 8u2 1 + u2 2 du Quindi per i primi due momenti di X si ottengono i valori −1 dψX (u) E (X) = i =0 du u=0 2 ( 2) −2 d ψX (u) =2 E X =i 2 du u=0 ( ) Var (X) = E X 2 − [E (X)]2 = 2 Cap.3: Valori caratteristici di distribuzioni 85 Esempio 3.13 (cnt) per quanto già visto si ha dψX (u) u cos u − sin u = du u2 d2 ψX (u) du2 = = u2 (cos u − u sin u − cos u) − 2u (u cos u − sin u) u4 2 2 sin u − u sin u − 2u cos u u3 Dall’applicazione della regola dell’Hôpital per il calcolo del limite della forma indeterminata lim u→0 0 0 si ottiene 1 dψX (u) u cos u − sin u = lim sin u = 0 = lim u→0 u→0 2 du u2 d2 ψX (u) 2 sin u − u2 sin u − 2u cos u 1 1 = lim = lim − cos u = − u→0 u→0 u→0 3 du2 u3 3 Quindi per i primi due momenti di X si ottengono i valori −1 dψX (u) E (X) = i =0 du u=0 2 ( 2) 1 −2 d ψX (u) E X =i = 2 du 3 u=0 lim ( ) 1 Var (X) = E X 2 − [E (X)]2 = 3 Teorema 3.5 Per a e b reali si ha ψaX+b (u) = eiub ψX (au) (3.67) Infatti per la definizione di funzione caratteristica e per la linearità del valore atteso [ ] [ ] ψaX+b (u) = E eiu(aX+b) = eiub E eiuaX = eiub ψX (au) Esempio 3.13 (cnt) Dalla funzione caratteristica della variabile aleatoria X avente densità uniforme su (−1, 1) si può ottenere facilmente quella della variabile aleatoria Y = 12 (X + 1) che ha densità uniforme su (0, 1) u ψY (u) = ψ 1 X+ 1 (u) = ei 2 2 2 sin u2 u 2 = iu ) eiu − 1 iu e 2 ( iu e 2 − e− 2 = iu iu Teorema 3.6 Se X1 e X2 sono variabili aleatorie stocasticamente indipendenti la funzione caratteristica della somma X1 + X2 è data dal prodotto delle funzioni caratteristiche di X1 e X2 ψX1 +X2 (u) = ψX1 (u) ψX2 (u) (3.68) 86 A. Pollice - Appunti di Probabilità Infatti per la definizione di funzione caratteristica e per la proprietà del valore atteso del prodotto di funzioni di variabili aleatorie indipendenti si ha [ ] [ ] [ ] [ ] ψX1 +X2 (u) = E eiu(X1 +X2 ) = E eiuX1 eiuX2 = E eiuX1 E eiuX2 = ψX1 (u) ψX2 (u) Esempio 3.16 Le variabili aleatorie X1 e X2 siano indipendenti e abbiano entrambe densità uniforme sull’intervallo (0, 1). Allora si ha che ψX1 (u) = ψX2 (u) = quindi ( eiu − 1 iu ψX1 +X2 (u) = Si noti inoltre che )2 = eiu − 1 iu ) 1 ( iu 2e − e2iu − 1 2 u [ ] 1 − e−iu ψ−X2 (u) = E e−iuX2 = ψX2 (−u) = iu quindi ) 1 ( eiu − 1 1 − e−iu = 2 2 + e−iu − eiu iu iu u L’ultima espressione fornisce la funzione caratteristica associata alla densità triangolare. ψX1 −X2 (u) = L’enunciato e la dimostrazione dell’ultimo teorema possono essere facilmente estesi alla somma di k > 2 variabili aleatorie mutuamente stocasticamente indipendenti X1 , . . . , Xk ψX1 +···+Xk (u) = ψX1 (u) · · · ψXk (u) = k ∏ ψXj (u) (3.69) j=1 3.3.2 Funzione generatrice dei momenti Oltre alla funzione caratteristica vengono utilizzate altre trasformate della funzione di ripartizione. Una di queste è la trasformata di Laplace che dà luogo alla cosiddetta funzione generatrice dei momenti. Definizione 3.18 Si dice funzione generatrice dei momenti della variabile aleatoria X con funzione di ripartizione FX la funzione ∫ ( uX ) ϕX (u) = E e = eut dFX (t) (3.70) R purché l’integrale sia finito in un intorno dell’origine. La funzione generatrice dei momenti si distingue dalla funzione caratteristica per la mancanza dell’unità immaginaria. Nonostante la semplificazione che si attua passando dal campo complesso al campo reale, l’integrale che definisce la trasformata di Laplace pur esistendo sempre può assumere valore infinito (diversamente dall’integrale che definisce la funzione caratteristica). Esempio 3.13 (cnt) In questo caso la funzione generatrice dei momenti ha la forma seguente 1 ϕX (u) = 2 1 eu − e−u eut = e dt = 2u −1 2u −1 ∫ 1 ut Cap.3: Valori caratteristici di distribuzioni 87 Seguono alcune proprietà analoghe a quelle già enunciate per la funzione caratteristica. 1. Se esistono finiti tutti i momenti della variabile aleatoria X si ha ϕX (u) = 1 + uE (X) + 2. u2 ( 2 ) uh ( h ) E X + ··· + E X + ··· 2 h! (3.71) ( ) dh ϕX (u) h E X = µh = duh u=0 (3.72) ϕaX+b (u) = eub ϕX (au) (3.73) 3. 4. Per variabili aleatorie X1 , . . . , Xk indipendenti ϕX1 +···+Xk (u) = ϕX1 (u) · · · ϕXk (u) = k ∏ j=1 ϕXj (u) (3.74) 88 A. Pollice - Appunti di Probabilità Esempio 3.13 (cnt) per l’esempio precedente si ha ( ) )] ueu + ue−u − eu + e−u dϕX (u) 1 [ ( = 2 2u eu + e−u − 2 eu − e−u = du 4u 2u2 d2 ϕX (u) du2 = ) ( u )] 1 [ 2( u u −u −u u −u −u u −u 2u e + ue + e − ue − e − e − 4u ue + ue − e + e 4u4 = u2 eu − u2 e−u − 2ueu − 2ue−u + 2eu − 2e−u 2u3 Dall’applicazione della regola dell’Hôpital per il calcolo del limite della forma indeterminata dϕX (u) E (X) = µ = du u=0 ueu + ue−u − eu + e−u ueu − ue−u = lim = lim =0 u→0 u→0 2u2 4u ( E X 2 ) = = 2 σX lim 0 0 si ottiene d2 ϕX (u) = du2 u2 eu − u=0 2 −u u e − u→0 2ueu − 2ue−u + 2eu − 2e−u u2 eu + u2 e−u 1 = lim = 3 u→0 2u 6u2 3 Inoltre dalla funzione generatrice dei momenti della variabile aleatoria X avente densità uniforme su (−1, 1) si può ottenere facilmente quella della variabile aleatoria Y = 12 (X + 1) che ha densità uniforme su (0, 1) ) eu − 1 u 1 u( u ϕY (u) = ϕ 1 X+ 1 (u) = e 2 e 2 − e− 2 = 2 2 u u Esempio 3.16 (cnt) La funzione generatrice dei momenti di X1 + X2 è data da ϕX1 +X2 (u) = ) 1 u 1 1 ( (e − 1) (eu − 1) = 2 e2u − 1 u u u mentre la funzione generatrice dei momenti della variabile aleatoria X1 − X2 avente densità triangolare è data da ) ) 1 u 1 ( −u 1 ( u −u ϕX1 −X2 (u) = ϕX1 (u) ϕX2 (−u) = − 3.3.3 u (e − 1) u e −1 = u2 e +e −2 Funzione generatrice delle probabilità Un’altra trasformata della funzione di ripartizione particolarmente utile nel caso di variabili aleatorie discrete è la trasformata di Dirichlet che dà luogo alla cosiddetta funzione generatrice delle probabilità. Definizione 3.19 Sia X una variabile aleatoria che assume solo valori interi non negativi con funzione di probabilità pX e insieme di definizione RX = {x ∈ R : x = 0, 1, 2, . . .}. Per −1 ≤ u ≤ 1 si definisce funzione generatrice delle probabilità della variabile aleatoria X il seguente valore atteso ∞ ( ) ∑ γX (u) = E uX = ut pX (t) t=0 (3.75) Cap.3: Valori caratteristici di distribuzioni 89 Si noti che per u > 0 la funzione caratteristica calcolata nel punto i−1 log u fornisce la funzione generatrice delle probabilità ( −1 ) ( ) ( ) ψX i−1 log u = E ei(i log u)X = E uX = γX (u) (3.76) Di conseguenza per la funzione generatrice delle probabilità valgono proprietà analoghe a quelle valide per la funzione caratteristica. Inoltre esiste la relazione seguente tra la funzione di probabilità e la funzione generatice delle probabilità di una variabile aleatoria discreta. 1. Per una variabile aleatoria X con funzione generatrice delle probabilità γX si ha 1 dx γX (u) pX (x) = x = 0, 1, 2, . . . x! dux u=0 Infatti è evidente che γX (u) = pX (0) + upX (1) + u2 pX (2) + · · · d γX (u) = pX (1) + 2upX (2) + 3u2 pX (3) + · · · du d2 γX (u) = 2pX (2) + 6upX (3) + 12u2 pX (4) + · · · du2 da cui si ricava γX (u)|u=0 = pX (0) dγX (u) = pX (1) du u=0 d2 γX (u) = 2pX (2) du2 u=0 ed in generale dx γX (u) = x!pX (x) dux u=0 Esempio 3.14 (cnt) Nel caso in questione si ha γX (u) = ∞ ∑ t=1 u ∑ ( u )t 1 u t = = 2 2 2 1− ∞ t t=1 d u pX (1) = du 2 − u u 2 = u 2−u 2 − u + u 1 = = 2 (2 − u) u=0 2 u=0 1 d2 u −3 = = 4 (2 − u) 2pX (2) = 2 du 2 − u u=0 2 u=0 in generale x!pX (x) = dx u dux 2 − u u=0 (3.77)