Capitolo 4 Distribuzioni di uso comune 4.1 Alcuni cenni sui processi stocastici Definizione 4.1 Si dice processo stocastico una famiglia di variabili aleatorie {Xt : t ∈ T } discrete o continue e definite sullo stesso spazio di probabilità (Ω, F, P ), dove t rappresenta un indice (o parametro) e T l’insieme dei suoi possibili valori. In generale si fa riferimento ad una famiglia di variabili aleatorie atte a descrivere diversi aspetti di un fenomeno in esame (come ad esempio misurazioni effettuate in tempi o luoghi diversi). Per questo motivo tali variabili aleatorie sono supposte opportunamente legate da relazioni di dipendenza. Quando T è costituito da un’infinità numerbile di valori il processo è detto a parametro discreto, viceversa se T è costituito da un insieme continuo di punti (come ad esempio un intervallo di numeri reali) il processo stocastico è detto a parametro continuo. Sia St l’insieme di definizione della variabile aleatoria Xt , si dice spazio degli stati di un processo stocastico l’insieme dei valori assumibili dalle variabili aleatorie del processo dato da ST = ∪t∈T St . Si dice traiettoria una possibile realizzazione di un processo stocastico, data dall’insieme dei valori osservati per le variabili: {xt : xt ∈ St , t ∈ T }. Così come il comportamento probabilistico di una variabile aleatoria viene completamente espresso tramite la sua funzione di ripartizione, il comportamento probabilistico di un processo stocastico, ovvero la sua distribuzione di probabilità sullo spazio delle sue traiettorie possibili, è determinato qualora siano note le distribuzioni congiunte di tutti i possibili sottoinsiemi degli elementi Xt della famiglia (non è dunque sufficiente conoscere le distribuzioni marginali delle singole variabili). D’altra parte così come nel caso delle variabili aleatorie i momenti individuano valori caratteristici atti a rappresentare la distribuzione, analogamente per un processo stocastico i valori attesi, le varianze e le covarianze delle Xt ne sintetizzano il comportamento probabilistico al variare di t. Definizione 4.2 Si dice valore atteso del processo stocastico {Xt : t ∈ T } la funzione µ(t) : T → R definita da µ(t) : E(Xt ), t∈T (4.1) Definizione 4.3 Si dice varianza del processo stocastico {Xt : t ∈ T } la funzione σ 2 (t) : T → R+ definita da σ 2 (t) : Var (Xt ), t∈T (4.2) Definizione 4.4 Si dice autocovarianza del processo stocastico {Xt : t ∈ T } la funzione γ(t1 , t2 ) : T ×T → R definita da γ(t1 , t2 ) : Cov (Xt1 , Xt2 ), 91 (t1 , t2 ) ∈ T × T (4.3) 92 A. Pollice - Appunti di Probabilità Definizione 4.5 Si dice autocorrelazione del processo stocastico {Xt : t ∈ T } la funzione ρ(t1 , t2 ) : T × T → [−1, 1] definita da ρ(t1 , t2 ) : γ(t1 , t2 ) , σ(t1 )σ(t2 ) (t1 , t2 ) ∈ T × T (4.4) Esempio 4.1 Un processo stocastico {Xt : t ∈ T } formato da variabili aleatorie stocasticamente indipendenti ed identicamente distribuite (i.i.d.) con media e varianza comuni pari rispettivamente a E(Xt ) = µ e Var (Xt ) = σ 2 per t ∈ T è detto rumore bianco (white noise). Un tale processo stocastico risulta completamente determinato quando è nota la distribuzione comune a tutte le variabili aleatorie del processo Xt . In tal caso infatti le distribuzioni congiunte dei possibili sottoinsiemi degli elementi del processo sono ottenibili, grazie all’assunzione di indipendenza di questi, come prodotto delle distribuzioni marginali delle Xt . 4.2 Processo bernoulliano Si consideri un esperimento casuale i dicotomico, ovvero caratterizzato da due soli risultati detti rispettivamente successo e insuccesso ed indicati con si e si e sia la probabilità di successo pari a P (si ) = p. A tale esperimento è possibile associare una variabile aleatoria Xi che vale 1 in caso di successo (con probabilità p) e 0 in caso di insuccesso (con probabilità 1 − p). Tale variabile aleatoria è detta indicatore di successo e la sua funzione di probabilità (detta bernoulliana) è data da { p x=1 pXi (x) = (4.5) 1−p x=0 Si consideri ora il processo stocastico {Xi : i, . . . , n} costituito da una successione di n esperimenti dicotomici mutuamente stocasticamente indipendenti e con probabilità di successo costante per tutte le prove e pari a P (si ) = p per i = 1, . . . , n. Il modello di riferimento appena esposto è detto processo di Bernoulli o delle prove ripetute (si noti come tale processo stocastico sia assimilabile ad una successione di estrazioni con reinserimento da un’urna contenente palline di due colori). Il calcolo della media e della varianza del processo stocastico {Xi : i, . . . , n} porta immediatamente a µ(i) = E (Xi ) = 1 × p + 0 × (1 − p) = p (4.6) ( ) σ 2 (i) = Var (Xi ) = E Xi2 − [E (Xi )]2 = 12 × p + 02 × (1 − p) − p2 = p (1 − p) (4.7) Si indichi con X la variabile aleatoria che restituisce il numero (ovvero la frequenza) dei successi nella successione delle n prove ripetute in un processo bernoulliano. La variabile aleatoria X è evidentemente discreta ed il suo insieme di definizione è dato da RX = {x ∈ R : x = 0, . . . , n}. Al fine di determinare la funzione di probabilità della X si noti innanzi tutto che le probabilità che nelle n prove ripetute si verifichino rispettivamente n successi ed n insuccessi sono date da pX (n) = pn e da pX (0) = (1 − p)n . Inoltre la probabilità che si verifichi un solo successo tra le n prove della successione (senza specificare quale) può essere ottenuta come somma delle probabilità associate agli eventi (incompatibili) che si verificano in corrispondenza dei successi di ciascuna prova, quando le altre n − 1 riportano un insuccesso. Infatti indicando rispettivemente con si ed si il successo e l’insuccesso all’i-esima prova per i = 1, . . . , n, si ha pX (1) = P [(s1 ∩ s2 ∩ · · · ∩ sn ) ∪ (s1 ∩ s2 ∩ · · · ∩ sn ) ∪ · · · ∪ (s1 ∩ s2 ∩ · · · ∩ sn )] = p (1 − p)n−1 + p (1 − p)n−1 + · · · + p (1 − p)n−1 = np (1 − p)n−1 Cap.4: Distribuzioni di uso comune 93 Generalizzando, la probabilità che si verifichino x successi tra gli n esperimenti è data dalla somma delle probabilità delle possibili ( )sequenze in cui possono essere disposti x successi ed n − x insuccessi. Tali sequenze sono in numero di nx (numero dei modi in cui si possono scegliere gli x successi dalle n prove) e ciascuna di esse ha probabilità px (1 − p)n−x , pertanto ( ) n x pX (x) = p (1 − p)n−x x = 0, . . . , n (4.8) x La funzione di probabilità appena determinata è detta binomiale di parametri ∑ n e p( a) causa del suo n n x n−x collegamento con lo sviluppo in serie della potenza di un binomio [(a + b)n = ]. Tale x=0 x a b sviluppo permette di dimostrare immediatamente che l’espressione (4.8) è una funzione di probabilità, infatti n ( ) ∑ n x p (1 − p)n−x = (p + 1 − p)n = 1 (4.9) x x=0 Si noti che la frequenza di successi X in n prove bernoulliane può essere ∑n ottenuta come somma degli indicatori di successo Xi associati alle prove, in altri termini vale X = i=1 Xi e di conseguenza ( n ) n ∑ ∑ E (X) = E Xi = E (Xi ) = np (4.10) i=1 ( Var (X) = Var n ∑ i=1 ) Xi = i=1 n ∑ Var (Xi ) = np (1 − p) (4.11) i=1 La seconda espressione vale in virtù dell’indipendenza stocastica delle X1 , . . . , Xn . Infine è immediato ricavare la funzione caratteristica della distribuzione binomiale, infatti per lo sviluppo in serie della potenza di un binomio si ha ( iuX ψX (u) = E e ) = n ∑ t=0 iut e ( ) ( )n n t p (1 − p)n−t = peiu + 1 − p t (4.12) Si consideri ora un numero infinito di prove ripetute di un processo bernoulliano (n = ∞). Sia T(1) la variabile casuale che indica il numero di prove necessarie affiché si verifichi il primo successo (talvolta la variabile aleatoria T(1) è denominata tempo di attesa del primo successo nel discreto, dove l’espressione “tempo nel discreto” è da intendersi come numero di prove). T(1) è evidentemente una variabile aleatoria discreta ed il suo insieme di definizione è dato da RT(1) = {x ∈ R : x = 1, 2, 3, . . .}. L’evento T(1) = x si manifesta quando le prime x − 1 prove producono tutti insuccessi mentre l’x-esima produce un successo. A causa dell’indipendenza delle prove tale probabilità, corrispondente alla funzione di probabilità di T(1) , è data semplicemente da pT(1) (x) = (1 − p)x−1 p x = 1, 2, 3, . . . (4.13) La funzione di probabilità appena determinata è detta geometrica di parametro p. Per il calcolo dei momenti della funzione di probabilità geometrica si noti che per la somma di infiniti termini di una progressione geometrica vale: ∞ ∑ (1 − p)t = (1 − p) t=1 1 1−p = 1 − (1 − p) p e derivando ambo i membri dell’uguaglianza rispetto a p si ottiene ∞ ∑ t=1 (−1) t (1 − p)t−1 = −p − (1 − p) 1 =− 2 2 p p (4.14) 94 A. Pollice - Appunti di Probabilità dalla quale si ha che ( ) E T(1) = ∞ ∑ t (1 − p)t−1 p = t=1 1 p (4.15) Inoltre derivando ulteriormente ambo membri della (4.14) si ha ∞ ∑ t (t − 1) (1 − p)t−2 = t=1 2 p3 dalla quale si ottiene ∞ ( ) ∑ 2 (1 − p) 2 2 E T(1) − T(1) = t (t − 1) (1 − p)t−1 p = 3 (1 − p) p = p p2 t=1 ovvero ed infine ( ) ( ) ( ) 2 (1 − p) 1 2−p 2 2 E T(1) + = = E T(1) − T(1) + E T(1) = p2 p p2 ( ) [ ( ( ) )]2 2 − p 1 1−p 2 Var T(1) = E T(1) − 2 = − E T(1) = p2 p p2 (4.16) Per la funzione caratteristica della distribuzione geometrica si ha ∞ ( ) ∑ ψT(1) (u) = E eiuT(1) = eiut (1 − p)t−1 p = t=1 = ∞ ]t p ∑ [ iu e (1 − p) 1−p t=1 p − p) = , iu 1 − p 1 − e (1 − p) 1 − eiu (1 − p) eiu (1 peiu eiu (1 − p) < 1 (4.17) Una proprietà interessante della distribuzione geometrica è la cosiddetta mancanza di memoria. Se T(1) è una variabile aleatoria avente funzione di probabilità geometrica di parametro p, allora si può dimostrare che vale ( ) ( ) PT1 |T1 T(1) ≤ x + t|T(1) > x = PT1 T(1) ≤ t (4.18) In altri termini se non si verifica alcun successo nelle prime x prove allora la probabilità che se ne verifichi uno nelle successive t prove è uguale alla probabilità che si verifichi un successo in t prove. L’informazione data dal fatto che non si sono avuti successi nelle prime x prove viene trascurata. In una situazione analoga alla precedente si consideri ora la variabile casuale T(r) che indica il tempo di attesa dell’r-esimo successo nel discreto, ovvero il numero di prove necessarie affinché si verifichino r successi in una successione bernoulliana di prove. T(r) è evidentemente una variabile aleatoria discreta ed il suo insieme di definizione è dato da RT(r) = {x ∈ R : x = r, r + 1, r + 2, . . .}. L’evento T(r) = x si manifesta quando l’ultima prova (la x-esima) è un successo e nelle x − 1 prove precedenti si sono verificati r − 1 successi. A causa dell’indipendenza delle prove tale probabilità, corrispondente alla funzione di probabilità di T(r) , è data semplicemente da ( ) ( ) x − 1 r−1 x−1 r x−r pT(r) (x) = p p (1 − p) = p (1 − p)x−r r−1 r−1 x = r, r + 1, r + 2, . . . La funzione di probabilità appena determinata è detta binomiale negativa o di Pascal di parametri r e p. Incidentalmente si noti che la (4.19) è una funzione di probabilità anche per valori reali di r non necessariamente interi. Si può dimostrare che per il valore atteso e la varianza della variabile aleatoria T(r) valgono le due espressioni seguenti ( ) r E T(r) = (4.19) p Cap.4: Distribuzioni di uso comune 95 ( ) r (1 − p) Var T(r) = (4.20) p2 Una generalizzazione del modello bernoulliano è ottenuta considerando una successione di n prove indipendenti in cui ciascuna prova sia un esperimento casuale con k possibili risultati. In altri termini ciascu(1) (k) na delle n prove ( possa ) avere come ∑k risultato uno di k eventi necessari e incompatibili s , . . . , s con proba(j) bilità pari a P s = pj con j=1 pj = 1. Si consideri il vettore aleatorio X = (X1 , . . . , Xk ) in cui Xj rappresenta il numero di volte che si presenta il j-esimo risultato nelle n prove indipendenti. Il vettore aleatorio X contiene dunque le frequenze dei k possibili risultati per-} { dell’esperimento riportabili in n prove ripetute, ∑k k tanto il suo insieme di definizione ha la forma RX = x ∈ R : xj = 0, . . . , n, j = 1, . . . , k, j=1 xj = n . ∑k Si voglia calcolare la funzione di probabilità di X. Per un certo argomento x = (x1 , . . . , xk ) con j=1 xj = n questa è data da PX (x), ovvero dalla probabilità che le n prove ripetute diano luogo per x1 volte ad s(1) , per x2 volte ad s(2) e così via. A causa dell’indipendenza delle prove, la probabilità di una specifica sequenza di n prove in cui s(1) si presenti x1 volte, s(2) si presenti x2 volte e così via è pari a px1 1 px2 2 · · · pxk k . Si noti che le possibili sequenze di questo tipo distinte per l’ordine in cui si presentano i risultati s1 , . . . , sk sono in n! pertanto la funzione di probabilità associata al vettore aleatorio discreto k-dimensionale numero di x1 !···x k! X è data dall’espressione seguente n! px1 px2 · · · pxk k x ∈ RX (4.21) x1 ! · · · xk ! 1 2 La funzione di probabilità appena determinata è detta multinomiale di parametri n, p1 , . . . , pk . La distribuzione marginale di ciascuna componente Xj del vettore aleatorio X è binomiale di parametri n e pj e pertanto E (Xj ) = npj (4.22) pX1 ,...,Xk (x1 , . . . , xk ) = Var (Xj ) = npj (1 − pj ) (4.23) Cov (Xj Xh ) = −npj ph (4.24) ed inoltre Il segno negativo della covarianza deriva dall’ovvia considerazione che, essendo n prefissato, al crescere di Xj la variabile aleatoria Xh tende a decrescere. Si consideri ora uno schema di estrazioni simile a quello bernoulliano dato da una successione di n esperimenti dicotomici corrispondenti a estrazioni senza reinserimento da un’urna contenente M palline di cui m bianche. Trattandosi di estrazioni senza reinserimento gli esperimenti della successione non risultano più stocasticamente indipendenti come nello schema bernoulliano. Tuttavia indicando con X la variabile aleatoria discreta associata al numero di palline bianche ottenute nelle n estrazioni, è possibile calcolarne la funzione di probabilità con considerazioni analoghe a quelle che hanno portato alla distribuzione binomiale. Si noti che l’insieme di definizione RX di questa variabile aleatoria ha la forma RX = {x ∈ N : max [0, n − (M − m)] ≤ x ≤ min [n, m]}. Detto si l’evento corrispondente all’estrazione di una pallina bianca all’i-esimo tentativo applicando i principî delle probabilità totali e delle probabilità composte si ha m P (s1 ) = M m−1 m m M −m m P (s2 ) = P (s2 |s1 ) P (s1 ) + P (s2 |s1 ) P (s1 ) = + = M −1M M −1 M M m ed in generale P (si ) = M . In tal caso dunque, analogamente a ciò che accade nello schema bernoulliano, si ha a che fare con una successione di eventi dicotomici aventi tutti la stessa probabilità di successo, ma questa volta eventi successivi non risultano indipendenti. Inoltre dato che le si non sono indipendenti la probabilità che si verifichi la sequenza s1 ∩ s2 ∩ . . . ∩ sx ∩ sx+1 ∩ sx+2 ∩ . . . ∩ sn è data per il principio delle probabilità composte da m m−1 m−x+1 M −mM −m−1 M −m−n+x+1 ··· ··· = M M −1 M −x+1 M −x M −x−1 M −n+1 (M −m)! m! (m−x)! (M −m−n+x)! M! (M −n)! 96 A. Pollice - Appunti di Probabilità Tale probabilità coincide con (n)quella di un qualunque altro ordinamento che contenga esattamente x palline bianche e poiché esistono x modi incompatibili di assegnare i posti alle x palline bianche si ha che (M −m)! ( ) m! n! n (m−x)! (M −m−n+x)! = pX (x) = M! x x! (n − x)! (M −n)! (M −m)! m! (m−x)! (M −m−n+x)! M! (M −n)! (m)(M −m) = x (Mn−x ) x ∈ RX (4.25) n La funzione di probabilità appena determinata è detta ipergeometrica di parametri n, M ed m. Media e varianza di una variabile aleatoria con distribuzione ipergeometrica sono ottenibili considerando che ∑ X = ni=1 Xi dove le Xi sono variabili aleatorie bernoulliane stocasticamente dipendenti e con probabilità m di successo costante pari a M , pertanto ( E (X) = E n ∑ ) m M (4.26) m) M −n m( 1− = ··· = n M M M −1 (4.27) Xi i=1 ( Var (X) = Var n ∑ i=1 4.3 ) Xi =n Processo di Poisson Si consideri una variabile aleatoria discreta Xn con distribuzione binomiale di parametri n e pn , dove pn sia una funzione decrescente del parametro n tale che valgano le due condizioni seguenti lim pn = 0 n→∞ npn = µ ∀n In altri termini si assume che pn decresca al crescere di n in modo da lasciare invariato e pari al valore costante µ il prodotto npn . In tal caso si ha che ( ) ( n 0 µ )n pXn (0) = pn (1 − pn )n = 1 − 0 n Ed inoltre (n) x pn (1 − pn )n−x µ − nµ (x − 1) pXn (x) n − x + 1 pn ( = ( n )x x−1 = = µ) n−x+1 pXn (x − 1) x (1 − p ) 1 − x p (1 − p ) n n n n x−1 x = 1, . . . , n Si consideri ora la variabile aleatoria discreta X = limn→∞ Xn . Per n → ∞ il numero delle prove del processo bernoulliano diverge e la probabilità di successo di ciascuna prova tende ad annullarsi. La variabile aleatoria discreta X restituisce il numero di successi in una successione infinita di eventi indipendenti la cui probabilità di successo tende a 0: si parla in tal caso di eventi o fenomeni rari. Nella situazione suddetta, posto che limn→∞ pXn = plimn→∞ Xn = pX e pX (x) /pX (x − 1) = limn→∞ [pXn (x) /pXn (x − 1)], si ha ( µ )n 1− = e−µ n→∞ n pX (0) = lim pXn (0) = lim n→∞ µ − nµ (x − 1) µ pXn (x) pX (x) = = lim = lim ( µ) n→∞ n→∞ pX (x − 1) pXn (x − 1) x 1− n x x = 1, . . . , n Cap.4: Distribuzioni di uso comune 97 e conseguentemente pX (1) = pX (2) = pX (3) = pX (1) pX (0) = µe−µ pX (0) pX (2) µ µ2 −µ pX (1) = µe−µ = e pX (1) 2 2 µ µ2 −µ µ3 −µ pX (3) pX (2) = e = e pX (2) 3 2 6 ed in generale µx −µ e x = 0, 1, 2, . . . (4.28) x! La funzione di probabilità appena determinata è detta distribuzione di Poisson di parametro µ. Tale funzione di probabilità appare dunque come un’approssimazione della distribuzione binomiale quando n è molto grande e la probabilità di successo p è molto piccola. La speranza matematica di una variabile aleatoria X avente distribuzione di Poisson di parametro µ è data dal parametro stesso, infatti pX (x) = E (X) = ∞ ∞ ∞ ∑ ∑ ∑ µt µt−1 −µ µt t e−µ = µ e =µ t e−µ = t! t! (t − 1)! t=0 t=1 t=1 ∑∞ Nell’espressione precedente si è fatto uso del risultato x=0 della variabile aleatoria X coincide con il parametro µ, infatti ( E X 2 ) = ∞ ∑ t=0 = ∞ ∑ t2 = t=1 ax x! = ea . Si noti che anche la varianza µt −µ e t! (t − 1 + 1) t=1 ∞ ∑ (4.29) µt e−µ (t − 1)! ∞ ∑ µt µt e−µ + e−µ (t − 1) (t − 1)! (t − 1)! t=1 ∞ ∞ ∑ ∑ µt−2 µt−1 = µ2 e−µ + µe−µ = µ2 + µ (t − 2)! (t − 1)! t=2 e di conseguenza t=1 ( ) Var (X) = E X 2 − [E (X)]2 = µ (4.30) La funzione caratteristica di una variabile aleatoria distribuita con funzione di probabilità di Poisson è data dall’espressione ∞ ( iu )t ∞ t ∑ ∑ e µ iu iu −µ iut µ −µ e =e = e−µ ee µ = eµ(e −1) (4.31) ψX (u) = e t! t! t=0 t=0 Oltre che come approssimazione della binomiale la funzione di probabilità di Poisson può essere ricavata come distribuzione esatta con riferimeno a un processo stocastico a parametro continuo detto processo di Poisson. Detta Xt la variabile aleatoria che indica il numero di volte che l’evento in questione si verifica in un intervallo di tempo di lunghezza prefissata t, il processo di Poisson {Xt : t ∈ T } rappresenta il verificarsi di un certo evento nel tempo posto che valgano le condizioni seguenti: 1. la probabilità che l’evento in questione si verifichi una volta in un intervallo di tempo di lunghezza t sia proporzionale all’ampiezza dell’intervallo: PXt (Xt = 1) = λt + o (t) 98 A. Pollice - Appunti di Probabilità 2. la probabilità che l’evento in questione si verifichi più di una volta in un intervallo di tempo di lunghezza t sia trascurabile: PXt (Xt > 1) = o (t) 3. variabili aleatorie associate al numero di eventi che si verificano in intervalli di tempo disgiunti sono stocasticamente indipendenti. Se valgono queste tre condizioni, allora la variabile aleatoria Xt ha distribuzione di Poisson di parametro λt, in altri termini (λt)x −λt pXt (x) = e x = 0, 1, 2, . . . (4.32) x! In tal caso λ indica il numero medio di arrivi in un intervallo di tempo di ampiezza unitaria. La variabile aleatoria discreta Xx rappresenti il numero di volte che un certo evento si verifica in un intervallo di tempo di lunghezza x ed abbia funzione di probabilità di Poisson di parametro λx. Se con T1 viene indicata una variabile aleatoria continua che rappresenta il tempo necessario affinché l’evento in questione si presenti per la prima volta (tempo di attesa del primo successo nel continuo), allora la sua funzione di ripartizione è data dall’espressione FT1 (x) = PT1 (T1 ≤ x) = 1 − PT1 (T1 > x) = 1 − PXx (Xx = 0) = 1 − e−λx x≥0 (4.33) La funzione di densità della variabile aleatoria T1 è data dunque da fT1 (x) = ) d ( dFT1 (x) = 1 − e−λx = λe−λx dx dx x≥0 (4.34) La funzione di densità appena determinata è detta esponenziale di parametro λ. Dall’espressione della funzione di densità si ricavano facilmente la media e la varianza della variabile aleatoria T1 ∫ ∞ tλe−λt dt [ ( ) ]∞ ∫ ∞ ( ) 1 1 −λt = tλ − e − λ − e−λt dt λ λ 0 0 [( ) ]∞ 1 1 e−λt = 0+ − = λ λ 0 E (T1 ) = 0 E ( T12 ) ∫ (4.35) ∞ t2 λe−λt dt ) ]∞ ∫ ∞ ( ) [ ( 1 1 −λt 2 e − 2tλ − e−λt dt = t λ − λ λ 0 [ ( ) 0 ]∞ ∫ ∞ ( ) 1 1 −λt = 0 + 2t − e − 2 − e−λt dt λ λ 0 ) 0 ]∞ [ ( 2 1 = 2 = 0 + 0 + 2 − 2 e−λt λ λ 0 = 0 e di conseguenza 2 Var (T1 ) = 2 − λ ( )2 1 1 = 2 λ λ (4.36) (4.37) Cap.4: Distribuzioni di uso comune 99 Per la funzione caratteristica, invece, si ricava l’espressione seguente ∫ ∞ ψT1 (u) = eiut λe−λt dt 0 ∫ ∞ = λet(iu−λ) dt [0 ]∞ 1 t(iu−λ) e = λ iu − λ 0 λ = iu − λ < 0 λ − iu (4.38) Come la distribuzione geometrica anche la densità esponenziale gode della proprietà di mancanza di memoria. Ciò significa che vale PT1 |T2 (T1 ≤ x + t|T1 > x) = = PT1 (x < T1 ≤ x + t) P (T1 > x) FT1 (x + t) − FT1 (x) 1 − FT1 (x) 1 − e−λ(x+t) − 1 + e−λx e−λx = PT1 (T1 ≤ t) = (4.39) In altri termini se non si verifica alcun evento nell’intervallo [0, x] la probabilità che se ne verifichi uno nell’intervallo di tempo adiacente (x, x + t] di ampiezza t è uguale alla probabilità che si verifichi un evento nell’intervallo [0, t]. A causa di questa proprietà si può affermare che una variabile aleatoria con densità esponenziale può essere interpretata oltre che come il tempo di attesa del primo successo, come la durata dell’intervallo di tempo Tj che separa la (j − 1)-esima e la j-esima manifestazione dell’evento in un processo di Poisson, per j = 1, 2, . . .. Da quanto appena detto si deduce che se ipotizziamo un processo di Poisson caratterizzato da un numero medio di arrivi nell’intervallo di tempo unitario pari a λ, le lunghezze degli intervalli di tempo tra arrivi successivi corrispondono ad altrettante variabili aleatorie T1 , T2 , . . . stocasticamente indipendenti ed aventi tutte la medesima distribuzione fT = fT1 = fT2 = · · · esponenziale di parametro λ. Pertanto la funzione di densità della variabile aleatoria Tr∗ associata ∑r al tempo di attesa dell’r-esimo successo nel continuo è ricavata come densità della somma Tr∗ = j=1 Tj di r variabili aleatorie indipendenti ed equidistribuite con distribuzione esponenziale di parametro λ. Per r = 2 si ha, applicando le formule di convoluzione ∫ ∫ x fT (x − t) fT (t) dt = λe−λ(x−t) λe−λt dt = λ2 xe−λx x > 0 fT2∗ (x) = R 0 Analogamente per r = 3 si ottiene ∫ ∫ ∗ ∗ fT3 (x) = fT (x − t) fT2 (t) dt = R x λe−λ(x−t) λ2 te−λt dt = 0 λ3 2 −λx x e 2 x>0 ed iterando il procedimento si ha che in generale fTr∗ (x) = λr xr−1 e−λx (r − 1)! x>0 (4.40) La funzione di densità appena determinata è detta distribuzione di Erlang di indice r (intero) e parametro ∑ λ. Naturalmente essendo Tr∗ = rj=1 Tj ed essendo le Tj mutuamente stocasticamente indipendenti si ha E (Tt∗ ) = r ∑ j=1 E (Tj ) = r λ (4.41) 100 A. Pollice - Appunti di Probabilità Var (Tt∗ ) = r ∑ Var (Tj ) = j=1 r λ2 (4.42) ∫∞ Si consideri ora l’integrale 0 ta−1 e−t dt che esiste finito e positivo quando a è una costante reale e positiva. In tal caso detto integrale prende il nome di funzione di Eulero o funzione gamma ∫ ∞ Γ (a) = ta−1 e−t dt (4.43) 0 Incidentalmente si noti che risolvendo per parti l’integrale precedente si ottiene la relazione Γ (a) = (a − 1) Γ (a − 1) che nel caso particolare di a intero porta iterativamente a Γ (a) = (a − 1)!. Inoltre considerando nell’integrale (4.43) la trasformazione della variabile d’integrazione t = λs si ottiene ∫ ∞ ∫ ∞ a λ a−1 −λs Γ (a) = (λs) e λds =⇒ sa−1 e−λs ds = 1 Γ (a) 0 0 Si noti come la parte variabile sa−1 e−λs della funzione integranda risulti identica a quella della disλa tribuzione di Erlang, mentre la parte costante Γ(a) dipenda dal parametro reale e positivo a. Ciò porta a definire una funzione di densità simile alla (4.40), per la quale l’indice a è un numero reale fX (x) = λa a−1 −λx x e Γ (a) x>0 (4.44) La funzione di densità appena determinata è detta distribuzione gamma di indice (o parametro di forma) a reale e parametro (di scala) λ. Evidentemente la (4.44) si riconduce alla (4.40) nel caso particolare in cui l’indice a è un numero intero. Per una variabile aleatoria X con funzione di densità gamma si ha ∫ ∞ ( ) λa a−1 −λs k s e ds E X = sk Γ (a) 0 ∫ ∞ λa = sa+k−1 e−λs ds Γ (a) 0 λa Γ (a + k) = Γ (a) λk+a (a + k − 1) · · · a = (4.45) λk e di conseguenza E (X) = a λ (a + 1) a ( a )2 a − = 2 λ2 λ λ Inoltre la forma della funzione caratteristica associata alla densità gamma è la seguente ∫ ∞ λa a−1 −λs ψX (u) = eius s e ds Γ (a) 0 ∫ ∞ λa sa−1 e−(λ−iu)s ds = Γ (a) 0 )a−1 ∫ ∞( λa z 1 = e−z dz Γ (a) 0 λ − iu λ − iu ∫ ∞ λa = z a−1 e−z dz Γ (a) (λ − iu)a 0 )a ( λ iu < λ = λ − iu Var (X) = (4.46) (4.47) (4.48) Cap.4: Distribuzioni di uso comune 101 dove l’integrale precedente, che assume valore infinito se λ−iu < 0, è stato risolto tramite la trasformazione z = (λ − iu) s. Dalla forma della funzione caratteristica appena ricavata deriva l’importante proprietà che riguarda la somma di variabili aleatorie indipendenti ed aventi funzione di densità gamma con lo stesso parametro di scala λ (additività della densità gamma). Infatti se X1 , . . . , Xk sono mutuamente indipendenti con Xj ∼Gamma[aj , λ] allora vale ψ∑k j=1 da cui discende che Xj ∑k j=1 Xj (u) = k ∏ ψXj (u) = j=1 ∼Gamma k ( ∏ j=1 [∑ k j=1 aj , λ λ λ − iu )aj ( = λ λ − iu )∑kj=1 aj (4.49) ] . Infine oltre alle densità esponenziale e a quella di Erlang si considera spesso un altro caso particolare della funzione di densità gamma in cui a = g2 e λ = 12 . In tal caso si ottiene una funzione di densità detta chi-quadrato con g gradi di libertà (spesso indicata con χ2g ). Si noti che in tal caso vale ( ) E χ2g = g (4.50) ( 2) Var χg = 2g (4.51) Si considerino due variabili aleatorie X e Y stocasticamente indipendenti ed aventi entrambe densità gamma con parametro di scala pari a 1 e indici rispettivamente a e b, reali e positivi. In altri termini siano X ∼Gamma[a, 1] e Y ∼Gamma[b, 1] indipendenti, la loro funzione di densità congiunta sia pertanto data dal prodotto delle due densità fX,Y (x, y) = 1 xa−1 y b−1 e−(x+y) , Γ (a) Γ (b) x ∈ R+ , y ∈ R+ si voglia determinare la funzione di densità della variabile aleatoria continua U = si consideri la trasformazione biunivoca { { X U U = X+Y X = V 1−U =⇒ V =Y Y =V per la quale lo jacobiano vale V . (1−U )2 X X+Y . A tale proposito Si noti inoltre che { } { } RX,Y = (x, y) ∈ R2 : x ∈ R+ , y ∈ R+ =⇒ RU,V = (u, v) ∈ R2 : u ∈ (0, 1) , v ∈ R+ La densità congiunta di U ed V è data dall’espressione ( )a−1 u 1 u v fU,V (u, v) = v v b−1 e−(v 1−u +v) Γ (a) Γ (b) 1−u (1 − u)2 = v ua−1 v a+b−1 − 1−u 1 e , a+1 Γ (a) Γ (b) (1 − u) 0 < u < 1, v ∈ R+ pertanto la densità marginale della variabile aleatoria U è individuata dall’integrale seguente, dove la funzione integranda ha la forma di una densità gamma di indice a + b e parametro (1 − u)−1 a meno della costante di normalizzazione: ∫ ∞ [ ] 1 ua−1 −1 a+b−1 fU (u) = v exp −v (1 − u) dv Γ (a) Γ (b) (1 − u)a+1 0 Γ (a + b) ua−1 1 = a+1 Γ (a) Γ (b) (1 − u) (1 − u)−(a+b) Γ (a + b) a−1 u (1 − u)b−1 , 0<u<1 (4.52) = Γ (a) Γ (b) 102 A. Pollice - Appunti di Probabilità La funzione (4.52) è detta densità beta di parametri (di forma) a e b. Si noti che valgono ∫ 1 Γ (a + b) Γ (a + b) Γ (a + 1) Γ (b) a E (U ) = ua (1 − u)b−1 du = = Γ (a) Γ (b) 0 Γ (a) Γ (b) Γ (a + b + 1) a+b ( E U 2 ) Γ (a + b) = Γ (a) Γ (b) e di conseguenza ∫ 1 ua+1 (1 − u)b−1 du = 0 (4.53) Γ (a + b) Γ (a + 2) Γ (b) (a + 1) a = Γ (a) Γ (b) Γ (a + b + 2) (a + b + 1) (a + b) ( ) Var (U ) = E U 2 − [E (U )]2 = · · · = ab (a + b + 1) (a + b)2 (4.54) La forma della funzione di densità varia al variare di a e b. Infatti per a > 1 e b > 1 tale densità è di forma campanulare, mentre per a < 1 e b < 1 è a forma di U, in particolare essa è simmetrica per a = b. Per a = b = 1 la densità beta coincide con l’uniforme nell’intervallo (0, 1). Infine tale densità è una funzione monotona crescente o decrescente rispettivamente se b ≤ 1 ≤ a e a ≤ 1 ≤ b. 4.4 Funzione di densità gaussiana Si consideri il seguente integrale improprio ∫ ∞ ( z2 I= exp − 2 −∞ ) (4.55) dz l’integrale precedente esiste sempre finito, infatti la funzione integranda è continua e positiva ed è maggiorata dalla funzione exp (− |z| + 1) ( 2) z < exp (− |z| + 1) 0 < exp − 2 essendo z 2 > 2 |z| − 2, inoltre la funzione maggiorante ha integrale finito ∫ ∞ exp (− |z| + 1) dz = 2e −∞ Per risolvere l’integrale (4.55) ne considero il quadrato ( 2) ∫ ∞ ( 2) ( 2 ) ∫ ∞ ∫∫ z x z + x2 2 I = exp − dz exp − dx = exp − dzdx 2 2 2 −∞ −∞ R2 ( 2) ] ∫ 2π [∫ ∞ ∫ 2π √ r = exp − r dr dθ = dθ = 2π =⇒ I = 2π 2 0 0 0 { x = r cos θ Nella risoluzione dell’integrale doppio si è utilizzata la trasformazione a coordinate polari z = r sin θ per la quale si ha |J| = r ed inoltre si è considerato ( 2) ∫ ∞ ∫ ∞ r r dr = exp (−k) dk = 1 exp − 2 0 0 Dalle considerazioni precedenti ricavo che la funzione ( 2) z 1 fZ (z) = √ exp − 2 2π z∈R (4.56) Cap.4: Distribuzioni di uso comune 103 è sempre positiva e il suo integrale esteso a tutto R è pari ad 1. La funzione (4.56) è detta funzione di densità normale standardizzata e viene indicata con N (0, 1). Essendo la (4.56) una funzione pari, il grafico della funzione fZ (z) è simmetrico rispetto all’asse delle ordinate, ed inoltre ha forma campanulare. L’integrale che definisce la funzione di ripartizione FZ (z) della variabile aleatoria Z (detto integrale di Laplace-Gauss) non ha soluzione esplicita ed i suoi valori calcolati tramite metodi numerici sono tabulati al variare di z. Invece la funzione generatrice dei momenti della variabile aleatoria Z con funzione di densità normale standardizzata è data da ∫ ∞ ∫ ∞ 2 1 2 1 ut 1 − t2 ϕZ (u) = e √ e dt = √ e− 2 (t −2ut) dt 2π 2π −∞ −∞ ( 2) u2 ∫ u2 ∫ ∞ ∞ e2 u e2 − 12 (t−u)2 − 12 k2 = √ e e dk = exp (4.57) dt = √ 2 2π −∞ 2π −∞ | {z } √ 2π Se si considerano la traslazione e il cambiamento di scala della variabile aleatoria Z definiti dalla trasformazione lineare X = µX + ZσX si ottiene la variabile aleatoria X la cui funzione di densità è ( ) 1 (x − µX )2 √ exp − fX (x) = 2 2σX σX 2π z∈R (4.58) 2 detta funzione di densità normale di parametri (rispettivamente di posizione e scala) µX e σX ( o gaussiana ) 2 e generalmente indicata con N µX , σX . Lo studio analitico di tale funzione evidenzia che il suo grafico ha forma campanulare simmetrica, è dotato di un solo punto di massimo nel punto x = µX e di due flessi nei punti x = µX ± σX . La funzione generatrice dei momenti della variabile aleatoria X con funzione di 2 è data da densità normale di parametri µX e σX ) ( 2 u2 σX 1 2 2 uµX uµX (4.59) ϕX (u) = e ϕZ (uσX ) = e e 2 = exp uµX + u σX 2 Dall’espressione precedente si ottengono i primi due momenti ordinari della variabile aleatoria X ( ) dϕX (u) 2 E (X) = = µX + uσX ϕX (u)u=0 = µX du u=0 ( E X 2 da cui ) (4.60) ( ) d2 ϕX (u) 2 2 2 2 = = σ ϕ (u) + µ + uσ ϕ (u) = σX + µ2X X X X X X 2 du u=0 u=0 ( ) 2 Var (X) = E X 2 − [E (X)]2 = σX (4.61) Incidentalmente si noti come nel caso della normale standardizzata la (4.60) e la (4.61) diano luogo a E (Z) = 0 e Var (Z) = 1. Tramite la (4.59) si può dimostrare ( ) la proprietà di linearità della distribuzione 2 normale: se X è una variabile aleatoria con X ∼ N µX , σX ed a e b sono costanti, ( ) ( ) 1 2 ϕaX+b (u) = eub E euaX = eub ϕX (ua) = exp ub + uaµX + u2 a2 σX 2 da cui si deduce che ( ) 2 aX + b ∼ N aµX + b, a2 σX (4.62) 104 A. Pollice - Appunti di Probabilità In altri termini qualsiasi trasformazione lineare aX +b di una variabile aleatoria X distribuita normalmente 2 ha densità normale con media e varianza rispettivamente date da aµ + b e da con parametri µX e σX X 2 2 a σX . Sempre tramite la (4.59) si può dimostrare la proprietà di additività ( ) della distribuzione normale: se 2 X1 , . . . , Xn sono variabili aleatorie indipendenti con Xj ∼ N µXj , σXj per j = 1, . . . , n ed a1 , . . . , an costanti, ϕ∑n j=1 aj Xj (u) = = n ∏ j=1 n ∏ j=1 ϕaj Xj (u) = exp aj uµXj n ∑ j=1 n ∑ aj Xj ∼ N j=1 n ∑ ϕXj (aj u) j=1 ( = exp u da cui si deduce che n ∏ 1 2 + a2j u2 σX j 2 1 aj µXj + u2 2 aj µXj , j=1 n ∑ n ∑ ) 2 a2j σX j j=1 2 a2j σX j (4.63) j=1 ∑ In altri termini una combinazione lineare nj=1 aj Xj di n ≥ 2 variabili aleatorie stocasticamente indipen2 per j = 1, . . . , n, è una variabile aleatoria con denti distribuite normalmente con parametri µXj e σX j ∑ ∑ 2 . densità normale con media e varianza rispettivamente date da nj=1 aj µXj e da nj=1 a2j σX j Si considerino due variabili aleatorie indipendenti X ed Y aventi entrambe densità normale standardizzata. La loro funzione di densità congiunta sia pertanto data dal prodotto delle due densità y2 x2 1 1 − x2 +y2 1 2 e , fX,Y (x, y) = √ e− 2 √ e− 2 = 2π 2π 2π x ∈ R, y ∈ R si voglia determinare la funzione di densità della variabile aleatoria continua U = consideri la trasformazione biunivoca { { X = UA U=X Y =⇒ Y =A A=Y X Y . A tale proposito si per la quale lo jacobiano vale |A|. Si noti inoltre che { } { } RX,Y = (x, y) ∈ R2 =⇒ RU,A = (u, a) ∈ R2 Pertanto la densità congiunta di U ed A è data dall’espressione fU,A (u, a) = 2 1 2 u +1 |a| e−a 2 , 2π u ∈ R, a ∈ R quindi la densità marginale della variabile aleatoria U è individuata dall’integrale seguente in cui, dopo la trasformazione a2 = b, la funzione integranda prende la forma della parte variabile di una densità esponenziale di parametro (u2 + 1)/2 a meno della costante di normalizzazione ∫ ∞ ∫ 2 1 1 ∞ −a2 u2 +1 −a2 u 2+1 2 da fU (u) = |a| e ae da = 2π −∞ π 0 ∫ ∞ u2 +1 1 1 2 1 1 = e−b 2 db = = , u∈R (4.64) 2 2π 0 2π u + 1 π u2 + 1 Cap.4: Distribuzioni di uso comune 105 La funzione di densità appena determinata, corrispondente al rapporto tra due variabili aleatorie indipendenti con densità normale standardizzata, è detta di Cauchy. Si noti che gli integrali che definiscono i momenti ordinari di una variabile aleatoria con densità di Cauchy non esistono finiti, pertanto tale variabile aleatoria non risulta dotata dei momenti. Inoltre la forma della funzione di densità è simile a quella della N (0, 1), con una maggiore dispersione attorno al valore medio. Si può dimostrare che la densità di Cauchy è ottenibile anche applicando la trasformazione U = tan Z ad una variabile aleatoria Z con distribuzione uniforme nell’intervallo (0, 2π). Sia Z una variabile aleatoria continua con densità normale standardizzata. Per ricavare la funzione di densità della trasformazione non biunivoca X = Z 2 si consideri la funzione di ripartizione FX (x) per x ∈ R+ ( ) ( √ √ ) FX (x) = PZ Z 2 ≤ x = PZ − x ≤ Z ≤ x ∫ √x ∫ √x 2 t2 1 2 − t2 = √ e dt = √ e− 2 dt √ 2π − x 2π 0 ∫ x 1 s 1 = √ s− 2 e− 2 ds 2π 0 da cui risulta che la funzione di densità della variabile aleatoria X ha la forma 1 x 1 fX (x) = √ x− 2 e− 2 2π (4.65) Si noti che l’espressione precedente è quella di una densità gamma di parametri 12 e 12 , ovvero quella di una chi quadrato con g = 1 gradi di libertà. Quanto appena dimostrato, insieme all’additività della densità gamma, consente di affermare che la somma dei quadrati di g variabili aleatorie indipendenti e aventi densità normale standardizzata ha a sua volta densità chi quadrato con g gradi di libertà. Si considerino una variabile aleatoria X con densità N (0, 1) e una variabile aleatoria Y con densità χ2g stocasticamente indipendenti. La loro funzione di densità congiunta sia pertanto data dal prodotto delle due densità ( )g 1 − x2 12 2 g −1 − y fX,Y (x, y) = √ e 2 ( g ) y 2 e 2 , x ∈ R, y ∈ R+ Γ 2 2π si voglia determinare la funzione di densità della variabile aleatoria continua U = si consideri la trasformazione biunivoca { U= Y g =⇒ A=Y √ per la quale lo jacobiano vale A g. √ { √X X=U √X Y g . A tale proposito A g Y =A Si noti inoltre che { } { } RX,Y = (x, y) ∈ R2 : x ∈ R, y ∈ R+ =⇒ RU,A = (u, a) ∈ R2 : u ∈ R, a ∈ R+ Pertanto la densità congiunta di U ed A è data dall’espressione fU,A (u, a) = = ( )g √ 1 − u2g2 a 12 2 g −1 − a a (g)a2 e 2 √ e g Γ 2 2π [ ( )] g+1 1 a u2 −1 2 exp − 1+ , ( ) ga √ 2 g 2πgΓ g2 2 2 u ∈ R, a ∈ R+ 106 A. Pollice - Appunti di Probabilità quindi la densità marginale della variabile aleatoria U è individuata dall’integrale seguente, dove la funzione ( ) g+1 1 u2 integranda ha la forma di una densità gamma di indice 2 e parametro 2 1 + g a meno della costante di normalizzazione, pertanto fU (u) = = = 1 ( ) g √ 2πgΓ g2 2 2 ∫ ∞ a [ a exp − 2 ) g+1 −1 2 0 ( g+1 Γ 2 1 (g) g [ ( √ )] g+1 2πgΓ 2 2 2 1 2 u2 1 + 2 g ) ( Γ g+1 2 1 (g) ( u∈R √ ) g+1 , πgΓ 2 2 u2 1+ g ( u2 1+ g )] da = (4.66) La funzione di densità appena determinata, corrispondente al rapporto tra una variabile aleatoria con densità normale standardizzata e la radice quadrata di una variabile aleatoria indipendente dalla prima ed avente distribuzione chi quadrato con g gradi di libertà, è detta t di Student con g gradi di libertà. Si noti che valgono E (U ) = 0 e Var (U ) = g/ (g − 2) se g > 2. Inoltre la forma della funzione di densità è simile a quella della N (0, 1) con una maggiore dispersione attorno al valore medio e tende ad essa all’aumentare dei gradi di libertà. L’espressione della funzione di ripartizione della distribuzione t di Student non è nota in forma esplicita ed i suoi valori calcolati tramite metodi numerici sono tabulati al variare dei gradi di libertà g. Si considerino una variabile aleatoria X con densità χ2g e una variabile aleatoria Y con densità χ2h stocasticamente indipendenti. La loro funzione di densità congiunta sia pertanto data dal prodotto delle due densità fX,Y (1)g (1)h g x+y h 2 2 y h x 2 −1 y 2 −1 e− 2 −1 − 2( ) g2 −1 − x2 2 ( ) y 2 e 2 = ( ) ( ) g+h , x e (x, y) = Γ g2 Γ h2 Γ g2 Γ h2 2 2 x ∈ R+ , y ∈ R+ si voglia determinare la funzione di densità della variabile aleatoria continua U = consideri la trasformazione biunivoca { per la quale lo jacobiano vale g h A. U = hX gY A=Y { =⇒ X g Y h . A tale proposito si X = hg U A Y =A Si noti inoltre che { } { } RX,Y = (x, y) ∈ R2 : x ∈ R+ , y ∈ R+ =⇒ RU,A = (u, a) ∈ R2 : u ∈ R+ , a ∈ R+ Pertanto la densità congiunta di U ed A è data dall’espressione (g fU,A (u, a) = = ) g −1 a g h a 2 −1 e− 2 ( h u+1) g a ( ) ( ) g+h h Γ g2 Γ h2 2 2 ( g ) g g −1 g+h −1 − a ( g u+1) 2 e 2 h u2 a 2 h , ( g ) ( h ) g+h Γ 2 Γ 2 2 2 h ua 2 u ∈ R+ , a ∈ R+ quindi la densità marginale della variabile aleatoria U è individuata dall’integrale seguente, dove la funzione ( ) 1 g integranda ha la forma di una densità gamma di indice g+h e parametro u + 1 a meno della costante 2 2 h Cap.4: Distribuzioni di uso comune 107 di normalizzazione, pertanto (g )g g ∫ ∞ g+h u 2 −1 a g a 2 −1 e− 2 ( h u+1) da = ( g ) ( h ) g+h Γ 2 Γ 2 2 2 0 ( ) ( g ) g g −1 g+h Γ 2 u2 2 h ( g ) ( h ) g+h [ ( )] g+h Γ 2 Γ 2 2 2 1 gu + 1 2 2 h ( ) g (g )g Γ g+h 2 u 2 −1 2 ( ) ( ) u ∈ R+ (g ) g+h , h Γ g2 Γ h2 u+1 2 2 fU (u) = = = h (4.67) h La funzione di densità appena determinata, corrispondente al rapporto tra due variabili aleatorie indipendenti con densità chi quadrato rapportate ai propri gradi di libertà, è detta F di Fisher con g ed h gradi di] [ 2 ] /[ libertà. Si noti che valgono E (U ) = h/ (h − 2) se h > 2 e Var (U ) = 2h (g + h − 2) g (h − 2)2 (h − 4) se h > 4. L’espressione della funzione di ripartizione della distribuzione F di Fisher non è nota in forma esplicita ed i suoi valori calcolati tramite metodi numerici sono tabulati al variare dei gradi di libertà g ed h. Si osservi che il quadrato di una variabile aleatoria avente densità t di Student con g gradi di libertà ha densità F di Fisher con 1 e g gradi di libertà. Siano Z1 , . . . , Zk variabili aleatorie mutuamente stocasticamente indipendenti aventi tutte densità normale standardizzata. La funzione di densità congiunta del vettore aleatorio k-dimensionale Z = (Z1 , . . . , Zk )T è pertanto data dall’espressione k k ∏ ∑ 1 T 2 1 1 1 1 √ e−zj /2 = fZ1 ,...,Zk (z1 , . . . , zk ) = zj2 = z ∈ Rk exp − e− 2 z z , k/2 k/2 2 2π (2π) (2π) j=1 j=1 dove z = (z1 , . . . , zk )T . Si consideri il vettore aleatorio k-dimensionale X definito dalla seguente trasformazione lineare tramite la matrice quadrata k × k di costanti C non singolare (ovvero invertibile) ed il vettore k-dimensionale di costanti b X = CZ + b =⇒ Z = C −1 (X − b) per la quale lo jacobiano vale |C|−1 . Si noti inoltre che { } { } RZ = z ∈ Rk =⇒ RX = x ∈ Rk Pertanto per x = (x1 , . . . , xk ), la densità congiunta del vettore aleatorio X è data da fX1 ,...,Xk (x1 , . . . , xk ) = = 1 k/2 (2π) e− 2 [C 1 |C| −1 (x−b) T C −1 (x−b) ] −1 1 (2π)k/2 |C| T 1 T e− 2 (x−b) (CC ) (x−b) , x ∈ Rk (4.68) Si noti inoltre che E (Z) = (E (Z1 ) , . . . , E (Zk ))T = (0, . . . , 0)T e che, data l’indipendenza delle componenti del vettore Z, vale ΣZ = Var (Z) = Ik . Pertanto per il vettore aleatorio X si ha µX = E (X) = E (CZ + b) = b ΣX = Var (X) = Var (CZ + b) = CVar (Z) C T = CΣZ C T = CC T In conclusione sostituendo le due espressioni precedenti nella (4.68) si ha fX1 ,...,Xk (x1 , . . . , xk ) = 1 k/2 (2π) e− 2 (x−µX ) 1 1/2 |ΣX | T Σ−1 X (x−µX ) , x ∈ Rk (4.69) 108 A. Pollice - Appunti di Probabilità La funzione di densità k-dimensionale appena determinata è detta normale k-dimensionale di parametri µX e ΣX , rispettivamente vettore delle medie e matrice di varianze e covarianze del vettore aleatorio kdimensionale X. Generalmente con X ∼ Nk (µX , ΣX ) si indica che X ha densità normale k-dimensionale di parametri µX e ΣX . Nel seguito vengono enunciate le principali proprietà della densità normale multivariata. 1. Linearità. Qualsiasi trasformazione lineare di un vettore aleatorio avente densità normale multivariata ha a sua volta densità normale multivariata. In altri termini se A e a sono rispettivamente una matrice h × k ed un vettore h-dimensionale di costanti, si ha ( ) X ∼ Nk (µX , ΣX ) =⇒ AX + a ∼ Nh AµX + a, AΣX AT (4.70) 2. Additività. Una combinazione lineare di n ≥ 2 vettori aleatori aventi densità normale multivariata ha a sua volta densità normale multivariata. In altri termini se X1 , . . . , Xn sono vettori ( ) aleatori stocasticamente indipendenti con densità normale kj -dimensionale Xj ∼ Nkj µXj , ΣXj per j = 1, . . . , n ed A1 , . . . , An matrici di costanti di dimensioni h × kj per j = 1, . . . , n, si ha n n ∑ ∑ A1 X1 + · · · + An Xn ∼ Nh Aj µXj , Aj ΣXj ATj j=1 j=1 3. Densità marginali. Le distribuzioni marginali degli elementi di un vettore aleatorio avente densità normale multivariata hanno a loro volta densità normale univariata. In altri termini si ha X = (X1 , . . . , Xk )T ∼ Nk (µX , ΣX ) =⇒ Xj ∼ N (µj , σj ) , j = 1, . . . , k (4.71) dove µj e σj2 sono rispettivamente il j-esimo elemento di µX e il j-esimo elemento della diagonale di ΣX . 4. Incorrelazione e indipendenza. L’assenza di correlazione tra le componenti di un vettore aleatorio con densità normale multidimensionale è condizione necessaria e sufficiente per la loro indipendenza. In altri termini, se X è un vettore aleatorio avente)densità normale multivariata con matrice di vari( anze e covarianze diagonale ΣX = diag σ12 , . . . , σk2 , allora le componenti di X sono stocasticamente indipendenti e viceversa. 5. Densità condizionate. Le densità condizionate di sottoinsiemi degli elementi di un vettore aleatorio avente densità normale multivariata hanno a loro volte densità normale multivariata.