RICHIAMI DI TEORIA DELLE PROBABILITA’ Classificando i segnali, all’inizio del Corso, si è fatta distinzione tra segnali determinati e segnali aleatori. Per lo studio di questi ultimi è indispensabile richiamare alcuni concetti del calcolo probabilistico e della teoria delle variabili aleatorie. Ciò viene fatto nella presente dispensa in cui, senza alcuna pretesa di completezza, verranno ricordate alcune definizioni “classiche” e forniti esempi di distribuzioni statistiche che, a vario titolo e con varie modalità, saranno utili per proseguire nello studio. Cominciamo con il ricordare la definizione di esperimento aleatorio: si definisce tale un “evento” di qualunque natura e consistenza, il cui risultato non è certo a priori ma può assumere una serie di esiti caratterizzati da un valore di probabilità. Per citare esempi ben noti, il lancio di una moneta è un esperimento aleatorio in quanto non è dato di sapere a priori quale sarà l’esito del lancio; ciò che si sa a priori è che, se la moneta non è truccata, la probabilità che esca una delle due facce è del 50%. Analogamente, quale risultato del lancio di un dado, la probabilità di ottenere il 4 (ma lo stesso vale per qualunque altra faccia) è del 16.66% (100/6%). Anche un segnale aleatorio può essere riguardato come il risultato di un esperimento aleatorio. Un segnale s (t ) = A cos(2π f0t + ϕ ) (1) in cui A (ampiezza) ed f0 (frequenza) sono quantità determinate mentre ϕ può assumere, con la stessa probabilità, un qualunque valore compreso tra 0 e 2π, è un segnale aleatorio 1 e ripetendo l’esperimento di generazione del segnale un numero arbitrario di volte, con istante di accensione generico dell’oscillatore che produce il segnale stesso, è lecito attendersi che il valore di ϕ possa essere diverso ogni volta. Ogni esperimento aleatorio può dunque fornire una serie di risultati. In molti casi questi risultati sono già in forma numerica (si pensi al lancio del dado). Per gli altri, nulla impedisce di associare ad ogni possibile esito dell’esperimento un numero. Si pensi al lancio della moneta: si può far corrispondere ad uno dei due possibili esiti il numero 1, e all’altro esito il numero 2. Così facendo si associa all’esperimento aleatorio una variabile che, con ovvio significato del termine, prende il nome di variabile aleatoria. La variabile aleatoria può essere: - discreta quando l’insieme dei valori che essa assume è discreto; - continua quando l’insieme dei valori che essa assume è continuo. Le variabili aleatorie associate al lancio del dado o della moneta sono, evidentemente, esempi di variabili discrete; la variabile ϕ che compare nella (1) è invece un esempio di variabile aleatoria continua, in quanto può assumere, per ipotesi, qualunque valore reale compreso tra 0 e 2π. In alcuni casi si hanno esempi di variabili aleatorie miste, in cui alcuni valori (discreti) sono più “importanti” degli altri; il senso di questa affermazione risulterà chiaro successivamente. Spesso, a livello di notazione, per indicare la variabile aleatoria si utilizzano le lettere maiuscole, mentre le lettere minuscole stanno ad indicare un particolare esito dell’esperimento aleatorio (si parla di realizzazione o determinazione). Così, nell’esempio fornito dalla (1), la variabile aleatoria viene indicata con Φ, mentre scrivere che Φ = ϕ significa che la variabile aleatoria ha assunto, a seguito dell’esperimento, il particolare valore ϕ. Da quanto precede risulta evidente che a ciascuno dei valori possibili per la variabile aleatoria è associato un numero il quale esprime la probabilità che si ottenga proprio tale valore come risultato dell’esperimento. Oltre che i singoli risultati di un esperimento, è spesso importante considerare anche dei gruppi di risultati. Si consideri l’esperimento aleatorio che consiste nel contare il numero di persone che, in un ben determinato intervallo della giornata, si presentano alla cassa di un supermercato. Questo è un esperimento aleatorio, in quanto non è dato sapere a priori quale sarà tale 1 L’aleatorietà è localizzata nel parametro ϕ; in casi come questo, si parla allora di “aleatorietà parametrica”. 1 numero. Accanto alla conoscenza del valore assoluto del numero delle persone, si può essere interessati a conoscere, ad esempio, quale sia la probabilità che il numero di clienti nell’intervallo temporale considerato sia maggiore di 20. L’interesse nell’esperimento potrebbe allora essere concentrato sul seguente evento: numero di clienti superiore a 20, nel qual caso i valori di interesse della variabile aleatoria, detta X, sarebbero solo quelli che soddisfano tale condizione, e cioè 21, 22, 23, …. Analogamente, a partire dallo stesso esperimento aleatorio si possono chiaramente definire molti altri eventi. Indicato dunque con Ω l’insieme complessivo dei valori possibili (tale insieme si chiama spazio campione) gli eventi sono sottoinsiemi dello spazio campione che verificano le seguenti condizioni: 1. se A è un evento, anche il suo complemento A , rispetto all’insieme Ω, è un evento; 2. se A e B sono eventi, anche la loro unione A ∪ B è un evento; 3. se A e B sono eventi, anche la loro intersezione A ∩ B è un evento; 4. dato un evento A, gli insiemi A ∪ A e A ∩ A sono (particolari) eventi: il primo coincidente con Ω (ovvero con lo spazio campione), è detto evento certo, mentre il secondo, indicato con il simbolo ∅ e non contenente alcun risultato dell’esperimento, è detto evento impossibile. Le condizioni enucleate meritano qualche commento. In primo luogo va detto che le condizioni 3 e 4 sono, in realtà conseguenza delle (e si dimostrano dunque a partire dalle) condizioni 1 e 2. Per complemento A dell’evento A si intende l’evento che considera i valori dello spazio campione non considerati da A. Nell’esempio della cassa del supermercato, l’evento complementare a quello sopra considerato, e cioè: numero di clienti superiore a 20, sarà: numero di clienti minore o uguale a 20. L’unione ∪ di due eventi A e B considera i risultati di interesse per A o per B (non necessariamente comuni ad entrambi). L’intersezione ∩ di due eventi A e B considera i risultati di interesse per A e per B (solo quelli comuni ad entrambi). A partire da queste definizioni, la condizione 4, in particolare risulta ovvia: l’unione di due eventi complementari restituisce la totalità dei valori possibili, e dunque lo spazio campione, mentre l’intersezione di due eventi complementari non ha elementi in comune. Anche il singolo risultato dell’esperimento è, chiaramente, un evento, quello che consiste nella considerazione di un particolare risultato. A partire da queste definizioni, come gli esempi introduttivi già mettevano in evidenza, dato un esperimento aleatorio, occorre associare ad ogni possibile evento un valore di probabilità. Formalmente questa operazione, che potrebbe apparire banale alla luce dell’uso, spesso improprio, che del concetto di probabilità siamo soliti fare nella vita quotidiana, è tutt’altro che semplice. Senza voler richiamare concetti complessi, inappropriati per la presente trattazione, verranno proposte di seguito tre diverse (anche se, chiaramente, correlate) formulazioni. Teoria assiomatica di Kolmogorov Secondo questo approccio, assegnato un esperimento aleatorio con uno spazio campione Ω e l’insieme degli eventi ad esso relativi, detto classe degli eventi ed indicato con S, una legge di probabilità Pr{⋅} è una corrispondenza che associa ad ogni elemento di S, e quindi ad ogni evento di interesse in una prova dell’esperimento, un numero reale che soddisfa i seguenti assiomi 2 : A.1 – la probabilità di un evento arbitrario A è non negativa, si ha cioè: Pr { A} ≥ 0 (2) A.2 – la probabilità dell’evento certo è unitaria (assioma di normalizzazione), si ha cioè: Pr {Ω} = 1 2 (3) In quanto assiomi, essi non devono essere dimostrati. 2 A.3 – dati due eventi A e B mutuamente esclusivi (ovvero incompatibili, cioè tali che non possano verificarsi contemporaneamente) la probabilità dell’evento unione è data dalla somma delle probabilità dei singoli eventi, si ha cioè: A ∩ B = ∅ → Pr { A ∪ B} = Pr { A} + Pr { B} (4) Da questi assiomi si ricavano poi alcune proprietà che sembrano ovvie, ma che devono comunque essere ricondotte ai principi primi (e cioè gli assiomi A.1 – A. 3): - dato un evento A, la probabilità dell’evento complementare A è data dal complemento a 1 della Pr{A}, si ha cioè: Pr { A} = 1 − Pr { A} - (5) l’insieme impossibile ha probabilità nulla di verificarsi, si ha cioè: Pr {∅} = 0 - (6) la probabilità di un evento A non può assumere un valore maggiore di 1, si ha cioè: 0 ≤ Pr { A} ≤ 1 - (7) dati due eventi A e B, la probabilità dell’evento unione A ∪ B è espressa dall’uguaglianza: Pr { A ∪ B} = Pr { A} + Pr { B} − Pr { A ∩ B} (8) Data una coppia di eventi A e B la probabilità dell’evento intersezione, spesso indicata semplicemente con Pr{A, B}, è detta probabilità congiunta, mentre Pr{A} e Pr{B} hanno il significato di probabilità marginali. Data una coppia di eventi A e B con Pr{B} ≠ 0, si definisce poi la probabilità condizionata: Pr { A | B} = Pr { A, B} (9) Pr { B} la quale esprime la probabilità dell’evento A condizionata al verificarsi dell’evento B (che ha dunque il significato di evento condizionante). Un modo semplice, ma convincente, per memorizzare (ma anche giustificare) le proprietà sopra elencate, consiste nell’utilizzo dei diagrammi di Venn, largamente usati, come ben noto, nella teoria degli insiemi. In Figura 1, il rettangolo rappresenta l’evento certo Ω, A è un generico evento e A il suo complementare. Dalla Figura 2 può invece essere giustificato il risultato (8). L’evento A ∪ B è rappresentato dalla sovrapposizione dei diagrammi di A e di B; sommando, semplicemente, le Pr{A} e Pr{B}, la probabilità di A ∩ B verrebbe conteggiata due volte. E’ dunque necessario toglierla per ricavare la probabilità dell’unione. La probabilità dell’unione diventa uguale alla somma delle probabilità degli eventi singoli nel caso in cui essi siano disgiunti in quanto, come tali, essi non hanno elementi in comune (Figura 3). 3 A A Ω Figura 1 A B Ω Figura 2 A B Ω Figura 3 Definizione “classica” di probabilità In accordo con questa definizione, storicamente attribuita a Laplace, la Pr{A} si calcola: - individuando il numero NF(A) dei cosiddetti casi favorevoli ad A, - individuando il numero NP dei cosiddetti casi possibili, - dividendo NF(A) per NP. In formula: Pr { A} = N F ( A) NP (10) In pratica: NP è il numero totale dei risultati contenuti in Ω, mentre NF(A) è il numero di risultati contenuti in A. E’ applicando questa definizione che, ad esempio, si ricava che la probabilità che si verifichi l’evento A = {il risultato del lancio del dado è 4} è Pr{A} = 1/6; si ha infatti NP = 6 e NF(A) = 1. D’altro canto possiamo definire un diverso evento B = {il risultato del lancio del dado è un numero pari}, ottenendo Pr{B} = 1/2 in quanto, per quest’altro evento, i casi favorevoli sono 3 (sempre sul totale di 6 casi possibili). 4 In effetti, la definizione classica di probabilità viene applicata di frequente nella pratica, anche in virtù della sua semplicità. Nondimeno, è facile convincersi che essa presuppone una ipotesi “chiave”: la perfetta “simmetria” dell’esperimento (nel caso del dado la effettiva simmetria dello stesso) ovvero, più chiaramente, l’equiprobabilità di tutti i risultati dell’esperimento. Se questa ipotesi non è verificata, l’applicabilità della (10) viene meno. La definizione “classica”, ad esempio, non è utilizzabile nel caso di dado truccato (e dunque non simmetrico) quando la probabilità di avere in uscita le varie facce non è identica per tutte le facce. Definizione “frequentista” di probabilità (di Von Mises) Questa definizione è simile a quella classica ma, rispetto a quest’ultima, ha il vantaggio di poter essere applicata anche nel caso di esperimento non simmetrico (nel senso precisato più sopra: ad esempio per un dado truccato). Di nuovo si esprime la probabilità come un rapporto ma, in questo caso, le quantità a numeratore e denominatore sono ricavate sperimentalmente. In sostanza, dovendo calcolare la probabilità di un evento A: - si ripete l’esperimento aleatorio un numero N di volte, - si conta il numero di volte NA in cui l’esperimento ha dato un esito favorevole ad A, - si divide NA per N. Il punto rilevante è che il rapporto così ottenuto approssima la probabilità di errore corretta solo a patto di considerare un numero di ripetizioni dell’esperimento sufficientemente elevato (al limite, tendente all’infinito). Si deve cioè porre: NA N →∞ N Pr { A} = lim (11) Il senso del passaggio al limite è, ancora una volta, chiaro anche solo pensando ai semplici esempi mutuati dall’esperienza quotidiana. Dal lancio ripetuto di una moneta non truccata si può stimare che la probabilità che si abbia come risultato una faccia è uguale a 1/2 solo effettuando un numero molto elevato di lanci, poiché è certamente possibile che, in una serie limitata, si abbia l’uscita, sistematica e costante, di una sola delle due facce. Peraltro, come detto, la (11) ha il vantaggio (concettuale) di poter essere applicata anche nel caso di moneta truccata. Ovviamente, il passaggio al limite resta, essenzialmente, un’astrazione matematica, ragion per cui non sono rari i casi in cui l’uso della (11) fornisce solo un’approssimazione della probabilità cercata. Ovviamente, nei casi in cui si è convinti della simmetria dell’esperimento (e dunque dell’equiprobabilità dei risultati) è conveniente ed opportuno l’uso della (10), assai più semplice da calcolare. E’ anche importante evidenziare che la definizione frequentista non è in contrasto con quella assiomatica di Kolmogorov. Infatti, la probabilità Pr{A}, espressa dalla (11), è: i) una quantità non negativa, poiché prodotta dal limite di un rapporto fra quantità positive; ii) se l’evento A coincide con Ω, allora banalmente si ha NA = N e quindi Pr{A} = 1; iii) se A e B sono due eventi che si escludono vicendevolmente (mutuamente esclusivi), allora una prova dell’esperimento che fa verificare A ∪ B dà un risultato che sta in A o in B, ma che non può stare in entrambi; ne consegue che NA∪B = NA + NB e quindi N A∪ B N + NB N N = lim A = lim A + lim B = Pr { A} + Pr { B} N →∞ N N →∞ N →∞ N N →∞ N N Pr { A ∪ B} = lim Gli assiomi A.1-A.3 sono dunque tutti automaticamente verificati (e con essi anche le proprietà conseguenti). Diamo ora la definizione di eventi statisticamente indipendenti: 5 Due eventi A e B sono indipendenti se il verificarsi dell’uno non ha alcuna implicazione sul verificarsi dell’altro. Ricordando la precedente definizione di probabilità condizionata, ciò implica, ad esempio che la probabilità marginale Pr{A} e la probabilità condizionata Pr{A|B} sono identiche: Pr { A} = Pr { A | B} (12) per eventi indipendenti Ovviamente è anche vero che: Pr { B} = Pr { B | A} (13) per eventi indipendenti Ricordando la (9), si può allora concludere che, per eventi indipendenti: Pr { A, B} = Pr { A} ⋅ Pr { B} (14) e cioè che la probabilità congiunta è uguale al prodotto delle probabilità marginali (dei singoli eventi). Un altro importante risultato è il teorema (o formula) di Bayes, che può essere formalizzato nel modo seguente: Pr { A | B} = Pr { B | A} ⋅ Pr { A} (15) Pr { B} La formula di Bayes è spesso usata in combinazione con il teorema della probabilità totale, che esaminiamo di seguito. Costruiamo, preliminarmente, una partizione dello spazio Ω scegliendo N eventi Bi (con i = 1, 2, …, N) di S con le seguenti proprietà (che, di fatto, costituiscono la definizione stessa di partizione): Bi ∩ Bk = ∅ se i ≠ k (16a) N ∪ Bi = Ω (16b) i =1 La (16a) esprime il fatto che gli elementi della partizione sono disgiunti, mentre la (16b) esprime il fatto che l’unione di tutti gli eventi della partizione restituisce lo spazio campione. Un esempio di partizione è mostrato in Figura 4. B B A B B Ω B B B Figura 4 6 Nella stessa figura, peraltro, è anche rappresentato un generico evento A, che non è un elemento della partizione. Ricordando l’assioma A.3 si può scrivere: N N ⎧⎪ ⎫⎪ ⎧⎪ N ⎫⎪ N Pr { A} = Pr { A ∩ Ω } = Pr ⎨ A ∩ ∪ Bi ⎬ = Pr ⎨∪ A ∩ Bi ⎬ = ∑ Pr { A ∩ Bi } = ∑ Pr { A | Bi } ⋅Pr { Bi } (17) ⎪⎩ ⎪⎩i =1 ⎪⎭ i =1 i =1 i =1 ⎪ ⎭ Quest’ultima espressione costituisce, appunto, l’enunciato del teorema della probabilità totale. Se ora si riscrive la (15), con un cambio di notazione come: Pr {Bi | A} = Pr { A | Bi } ⋅ Pr { Bi } (18) Pr { A} sostituendo la (17) si ottiene: Pr { Bi | A} = Pr { A | Bi } ⋅ Pr { Bi } (19) N ∑ Pr { A | Bi } ⋅Pr {Bi } i =1 che è, in effetti, formula ampiamente utilizzata nella pratica. ***** Esperimento di Bernoulli Quanto precede è sufficiente per introdurre un esperimento aleatorio di grande importanza nella pratica: le cosiddette prove di Bernoulli (o prove ripetute binarie e indipendenti). Si definisce tale un esperimento aleatorio a due soli esiti, indicati con x1 e con x2 caratterizzati da: Pr { x1} = p (20a) Pr { x2 } = q = 1 − p (20b) Si considerano n ripetizioni dell’esperimento assicurandosi che la singola ripetizione non abbia alcuna relazione con le altre (ipotesi di indipendenza) e si considera l’evento A = {x1 si è presentato k volte nelle n prove ripetute}. In virtù dell’indipendenza, applicando ripetutamente il risultato (14) all’evento A ed il suo complementare A , si trova immediatamente: () n! Pr { A} = n p k q n −k = p k (1 − p ) n−k k k !(n − k )! (20) Nella (20), pkqn−k esprime il fatto che sono favorevoli all’evento A i casi in cui x1 si è presentato k volte e, conseguentemente, x2 si è presentato (n − k) volte, mentre il coefficiente binomiale n k tiene conto del numero di tali casi, potendosi disporre, nella sequenza delle repliche dell’esperimento, i k valori x1 in un numero di modi che uguaglia le combinazioni semplici di classe k di n elementi. La (20) è nota come formula di Bernoulli. () ***** 7 Distribuzione di probabilità cumulativa e densità di probabilità In molti contesti di interesse pratico si pone il problema di calcolare la probabilità che una variabile aleatoria X assuma valori all’interno di un dato intervallo (a, b] 3 , vale a dire la Pr{a < X ≤ b}. E’ chiaro, riprendendo la notazione precedente, che la scrittura a < X ≤ b identifica un evento: quello che è soddisfatto dai risultati dello spazio campione che verificano la condizione posta sulla variabile aleatoria. Per risolvere un problema di questo tipo, risulta utile la seguente definizione di distribuzione di probabilità cumulativa (o funzione di ripartizione): FX ( x ) = Pr { X ≤ x} (21) FX(x) esprime dunque la probabilità che la variabile aleatoria X assuma valori non maggiori del valore, x, assegnato. E’ evidente che FX(x) deve soddisfare le seguenti proprietà: D.1 – assume valori appartenenti all’intervallo [0, 1], cioè: 0 ≤ FX ( x) ≤ 1 (22) D.2 – il suo valore limite, per x → ∞, è uguale a 1, cioè: lim FX ( x) = FX (∞) = Pr { X ≤ ∞} = 1 (23) x →∞ D.3 – il suo valore limite, per x → −∞, è uguale a 0, cioè: lim FX ( x) = FX ( −∞) = Pr { X ≤ −∞} = 0 x →−∞ (24) D.4 – è monotona non decrescente, cioè: x2 > x1 ⇒ FX ( x2 ) ≥ FX ( x1 ) (25) D.5 – se presenta una discontinuità di prima specie 4 , nel punto x = x , allora la differenza tra il suo limite destro e il suo limite sinistro in tale punto è pari alla probabilità dell’evento X = x , cioè: Pr { X = x } = FX ( x + ) − FX ( x − ) (26) avendo indicato con FX ( x + ) il limite destro e con FX ( x − ) quello sinistro. Tutte le proprietà precedenti sono ovvie, o comunque facilmente verificabili. In particolare, la proprietà D.2 deriva dal fatto che l’evento X ≤ ∞ coincide con l’evento certo Ω; dualmente, la proprietà D.3 deriva dal fatto che l’evento X ≤ −∞ coincide con l’evento impossibile ∅. Utilizzando la definizione di FX(x), è chiaro che si può scrivere: Pr {a < X ≤ b} = Pr { X ≤ b} − Pr { X ≤ a} = FX (b) − FX (a ) (27) Si ricordi che la notazione (⋅, ⋅] indica un intervallo aperto a sinistra e chiuso a destra. Si ricordi che una funzione presenta in un punto una discontinuità di prima specie se in quel punto la funzione ha un “salto”, con limite destro e sinistro ambedue finiti ma diversi tra loro. 3 4 8 la quale risolve il problema iniziale. Peraltro, lo stesso problema del calcolo della Pr{a < X ≤ b} può essere affrontato e risolto utilizzando un’altra funzione, legata alla precedente, la cosiddetta funzione densità di probabilità, così definita: f X ( x) = dFX ( x) dx (28) Dalla (28) si ricava immediatamente la relazione inversa: x FX ( x) = ∫ f X (ξ )dξ (29) −∞ Anche la densità di probabilità deve soddisfare alcune proprietà; in particolare: DD.1 – è una funzione non negativa, cioè: f X ( x) ≥ 0 (30) DD.2 – il suo integrale esteso all’intero asse reale è uguale a 1, cioè: ∞ ∫ f X ( x)dx = 1 (31) −∞ La proprietà DD.2 per la densità di probabilità, è conseguenza della proprietà D.2 per la distribuzione di probabilità cumulativa; ambedue sono manifestazioni dell’assioma A.2 (di normalizzazione) della formulazione assiomatica. La (31) costituisce il primo fondamentale passo, ove si debba verificare se una assegnata funzione fX(x) rappresenta o meno una densità di probabilità, ovvero, sotto quali condizioni lo diventa, ad esempio tramite una scelta appropriata di uno o più parametri, da cui essa dipende. Per chiarire quest’ultimo concetto, si guardi, ad esempio, alla Figura 5; in essa è rappresentata una funzione costante che, per essere una densità di probabilità, deve avere ampiezza pari a 1/(b – a); solo in questo caso, infatti, la condizione di normalizzazione (31) è verificata. fX (x) a b Figura 5 9 x Utilizzando la fX(x), la Pr{a < X ≤ b} può essere calcolata come segue: Pr {a < X ≤ b} = FX (b) − FX (a) = b ∫ a f X ( x)dx − −∞ ∫ −∞ b f X ( x)dx = ∫ f X ( x)dx (32) a All’inizio della trattazione si è detto che una variabile aleatoria può essere: discreta, quando l’insieme dei valori che essa assume è discreto; continua, quando l’insieme dei valori che essa assume è continuo. Per come sono definite, la distribuzione di probabilità cumulativa e la densità di probabilità sembrano “naturalmente” adattarsi al caso di variabile continua. Nondimeno, è facile convincersi che esse possono essere applicate anche al caso di variabile discreta, per la quale assumono andamenti “caratteristici”. Per quanto riguarda la distribuzione di probabilità cumulativa, si tratta di una funzione che rimane costante nei tratti che separano due generici valori possibili, e che si incrementa in corrispondenza di ciascuno di questi valori, per una quantità pari alla probabilità che lo caratterizza. In Figura 6, ad esempio, è mostrata la distribuzione di probabilità cumulativa dell’esperimento aleatorio del lancio del dado: la funzione si incrementa, di una quantità pari a 1/6, in corrispondenza dei valori 1, 2, …, 6, che corrispondono alle 6 facce del dado. FX (x) 1 5/6 4/6 3/6 2/6 1/6 0 1 2 3 4 5 6 x Figura 6 Generalizzando, la distribuzione di probabilità cumulativa per una variabile discreta è una funzione a gradini (costante a tratti), esprimibile come segue: FX ( x) = ∑ Pr { X = xk } u ( x − xk ) (33) k dove gli xk sono i valori possibili e u(x – xk) è il gradino unitario che parte da xk. Per quanto riguarda la densità di probabilità di una variabile aleatoria discreta, essa, in senso stretto, sembrerebbe non definibile, visto che la (33) non è derivabile. Il problema può però essere aggirato, in modo analogo a quanto si è fatto, ad esempio, per la trasformata di Fourier, utilizzando l’impulso matematico (delta di Dirac). Esso consente di usare la (28), a partire dalla (33), ottenendo per una generica variabile discreta: f X ( x) = ∑ Pr { X = xk } δ ( x − xk ) (34) k 10 La densità di probabilità di una variabile discreta è dunque data da una sequenza di delta di Dirac, centrate sui valori possibili della variabile e di area pari alla corrispondente probabilità. La densità di probabilità associata all’esperimento aleatorio del lancio del dado è mostrata in Figura 7. fX (x) 0 1 2 3 4 5 6 x Figura 7 Altri esempi di distribuzioni di probabilità cumulativa sono riportati in Figura 8 con, in Figura 9, le corrispondenti densità di probabilità. Le Figure 8(a) e 9(a) si riferiscono al caso di variabile aleatoria continua. Le Figure 8(b) e 9(b) sono invece relative al caso di variabile aleatoria discreta, appena discusso. Interessanti sono anche le Figure 8(c) e 9(c), che si riferiscono a una variabile aleatoria mista. Nel caso di variabile aleatoria continua, la probabilità che la X assuma un particolare valore x è uguale a zero. Questa conclusione è banale conseguenza del fatto che risulta (dalla (32)): Pr { x < X ≤ x + Δ x} = x +Δx ∫ f X ( x)dx (35) x Se Δx è molto piccolo, questa espressione può essere approssimata con: Pr { x < X ≤ x + Δ x} ≈ f X ( x )Δ x (36) che facendo tendere Δx a zero, visto che f X ( x ) assume necessariamente un valore finito, dà come risultato: Pr { X = x } = 0 (37) Nel caso di variabile discreta, la stessa conclusione vale per tutti i valori di X non ammissibili, mentre in corrispondenza dei valori ammissibili xk si ha, come già detto: lim Pr { xk < X ≤ xk + Δ x} = Pr { X = xk } (38) Δ x →0 Ciò è del resto congruente con la (34), visto che, per Δx prossimo a zero, si ha: 11 Pr { xk < X ≤ xk + Δ x} = xk + Δ x ∫ Pr { X = xk } δ ( x − xk )dx (39) xk Nel caso di Figura 8(c) e 9(c) la variabile aleatoria è quasi ovunque continua (e dunque vale, quasi ovunque, la (37)) ma il valore x1 (e solo quello) ha una probabilità diversa da zero di verificarsi. Di qui discende il nome di variabile aleatoria mista, cioè caratterizzata dalla coesistenza di una parte continua e di una parte discreta. Figura 8 12 Figura 9 ***** Esempi di variabili aleatorie Si forniscono, di seguito alcuni esempi di variabili aleatorie “classiche”, molto importanti per le applicazioni. Per comodità (e anche in considerazione del fatto che la terminologia è di solito coerente con questa scelta) il punto di partenza è costituito dalla densità di probabilità, donde è facile, utilizzando la (29), ricavare la distribuzione di probabilità cumulativa. Variabile uniforme Si tratta di una variabile aleatoria continua caratterizzata dalla densità di probabilità: ⎧ 1 ⎪ f X ( x) = ⎨ b − a ⎪0 ⎩ a≤ x≤b (40) x < a, x > b Per integrazione si ottiene: ⎧ 0 ⎪ ⎪x−a FX ( x) = ⎨ ⎪b − a ⎪ 1 ⎩ x<a a≤ x≤b (41) x>b 13 Esponenziale unilatera Si tratta di una variabile aleatoria continua caratterizzata dalla densità di probabilità: ⎧⎪a ⋅ exp(−ax) f X ( x) = ⎨ ⎪⎩0 x≥0 (42) x<0 con a > 0. Per integrazione si ottiene: ⎧⎪1 − exp(−ax) FX ( x) = ⎨ 0 ⎪⎩ x≥0 (43) x<0 Esponenziale bilatera (di Laplace) Si tratta di una variabile aleatoria continua caratterizzata dalla densità di probabilità: f X ( x) = a exp ( −a x ) 2 (44) con a > 0. Per integrazione si ottiene: ⎧ 1 ⎪ 2 exp(ax) ⎪ FX ( x) = ⎨ ⎪ 1 ⎪⎩1 − 2 exp(−ax) x<0 (45) x≥0 Gaussiana Si tratta di una variabile aleatoria continua caratterizzata dalla densità di probabilità: f X ( x) = ⎡ ( x − μ )2 ⎤ 1 exp ⎢ − ⎥ 2πσ 2σ 2 ⎥⎦ ⎢⎣ (46) (il significato dei parametri μ e σ risulterà chiaro successivamente). L’integrale della (46), necessario per il calcolo della distribuzione di probabilità cumulativa è, almeno apparentemente, non banale. Nondimeno è tale la sua importanza che gran parte dei software di calcolo in commercio mette a disposizione funzioni esplicite per la sua valutazione. In alternativa, sono disponibili tabelle che la stessa informazione forniscono con un prefissato passo di discretizzazione dell’argomento. In dettaglio: 1 FX ( x) = 2πσ ⎡ (ξ − μ ) 2 ⎤ exp ∫ ⎢⎢ − 2σ 2 ⎥⎥dξ ⎣ ⎦ −∞ x (47) Introducendo il cambiamento di variabile: 14 y= (ξ − μ ) 2σ → dξ = 2σ dy (48) la (47) diventa: FX ( x) = 1 π x−μ 2σ ∫ ( ) exp − y 2 dy −∞ (49) Si consideri ora la seguente definizione di funzione erfc(x) (funzione errore complementare): erfc( x) = 2 π ∞ ∫ exp ( − y 2 )dy (50) x Tale funzione verifica le seguenti proprietà: erfc(−∞) = 2 erfc(0) = 1 (51) Si può anche considerare la funzione erf(x) (funzione errore) così definita: erf( x ) = 1 − erfc( x ) = 2 π ∞ ( ) 2 ∫ exp − y dy − 0 2 π ∞ ( ) 2 ∫ exp − y dy = x 2 π x ∫ exp ( − y 2 )dy (52) 0 Utilizzando le funzioni erfc(x) ed erf(x), la distribuzione di probabilità cumulativa della variabile aleatoria gaussiana può scriversi come: FX ( x) = 1 π x−μ 2σ ∫ −∞ ( ) exp − y dy = 2 1 π +∞ ∫ exp ( − y −∞ 2 )dy − 1 π +∞ ∫ x−μ 2σ ( ) exp − y 2 dy = (53) 1 1⎡ ⎛x−μ⎞ ⎛ x − μ ⎞⎤ 1 ⎡ ⎛ x − μ ⎞⎤ = 1 − erfc ⎜ = 1 − ⎢1 − erf ⎜ = ⎢1 + erf ⎜ ⎥ ⎟ ⎟ ⎟⎥ 2 2⎣ ⎝ 2σ ⎠ ⎝ 2σ ⎠ ⎦ 2 ⎣ ⎝ 2σ ⎠ ⎦ Considerato che dalla conoscenza di fX(x) o di FX(x) è possibile ricavare la probabilità di qualunque evento legato alla variabile aleatoria X, se ne conclude che, dal punto di vista computazionale, ciò che serve è il valore della funzione erfc(x) (o, il che è lo stesso, della funzione erf(x)). Come anticipato più sopra, tali funzioni sono normalmente disponibili nei più diffusi software di calcolo o almeno riportate in opportune tabelle con un prefissato passo di discretizzazione. Esempi di tali tabelle sono allegati alla dispensa, per valori di x compresi tra 0 e (circa) 6, normalmente sufficienti per le applicazioni. E’ anche interessante osservare che i valori di tali funzioni relative ad argomenti negativi si ottengono facilmente dai valori delle funzioni con argomenti positivi. Utilizzando le definizioni, si ha infatti: 15 2 erfc( − x) = π 2 = π ∞ ∫ ( ) −x x ∫ exp ( − y 2 0 2 exp − y 2 dy = π ∫ −x ( ) exp − y 2 dy + 2 π ∞ ∫ exp ( − y 2 )dy 0 )dy + 1 = 1 + erf ( x) (54) 0 mentre: −x 2 erf (− x ) = π ∫ exp ( − y 2 )dy = − 0 2 π x ∫ exp ( − y 2 )dy = −erf ( x) (55) 0 Dalla (55), in particolare, si evince che la funzione erf(x) è una funzione dispari. Talora, invece della funzione erfc(x) si considera la funzione Q(x) così definita: 1 Q( x) = 2π ∞ ⎛ y2 ⎞ exp ∫ ⎜⎜ − 2 ⎟⎟dy ⎝ ⎠ x (56) Con un semplice cambiamento di variabile ( t = y / 2 ) è immediato determinare il legame tra le due funzioni: Q( x) = 1 ⎛ x ⎞ erfc ⎜ ⎟ 2 ⎝ 2⎠ (57) Rayleigh Si tratta di una variabile aleatoria continua caratterizzata dalla densità di probabilità: ⎧ x ⎛ x2 ⎞ exp ⎪⎪ 2 ⎜⎜ − 2 ⎟⎟ f X ( x) = ⎨ σ ⎝ 2σ ⎠ ⎪ 0 ⎪⎩ x≥0 (58) x<0 (il significato del parametro σ risulterà chiaro successivamente). Per integrazione si ottiene: ⎧⎡ ⎛ x2 ⎞⎤ ⎪⎪ ⎢1 − exp ⎜ − 2 ⎟ ⎥ ⎜ 2σ ⎟ ⎥ FX ( x) = ⎨ ⎢⎣ ⎝ ⎠⎦ ⎪ 0 ⎪⎩ x≥0 (59) x<0 Binomiale Si tratta di una variabile aleatoria discreta, associata all’esperimento di Bernoulli descritto in precedenza, e caratterizzata dalla densità di probabilità: f X ( x) = n ⎛n⎞ ∑ ⎜ k ⎟ p k (1 − p)n−k δ ( x − k ) k =0 ⎝ (60) ⎠ 16 dove X = k comporta che, in n prove ripetute, per k volte si è avuto l’esito che ha probabilità p di verificarsi. Trattandosi di variabile aleatoria discreta, la distribuzione di probabilità cumulativa è una funzione costante a tratti, il cui andamento, alla stregua di quello di fX(x), dipende fortemente da p. A mo’ di esempio, per p = 1/2 la (60) fornisce: f X ( x) = n ⎛n⎞ 1 ∑ ⎜ k ⎟ 2n δ ( x − k ) k =0 ⎝ (61) ⎠ e utilizzando la (33) si ricava: 1 n ⎛n⎞ ∑ ⎜ k ⎟ u( x − k ) 2n FX ( x) = k =0 ⎝ (62) ⎠ Tenendo conto dell’andamento del coefficiente binomiale, l’entità dei gradini è massima nell’intorno di x = n/2; Per il resto, si tratta di una funzione costantemente uguale a 0 per x < 0 e costantemente uguale a 1 per x > n. Poisson Si tratta di una variabile aleatoria discreta caratterizzata dalla densità di probabilità: f X ( x) = ∞ λk k =0 k! ∑ exp(−λ )δ ( x − k ) (63) (il significato del parametro λ risulterà chiaro successivamente). Per integrazione, ovvero utilizzando direttamente la (33), in questo caso si trova: ∞ λk k =0 k! FX ( x) = exp(−λ ) ∑ u( x − k ) (64) ***** Indicatori statistici La conoscenza della funzione densità di probabilità (o, il che è lo stesso, della distribuzione di probabilità cumulativa) fornisce una descrizione completa del comportamento di una variabile aleatoria. In molti casi, comunque, una conoscenza così dettagliata non è necessaria e ci si può accontentare della determinazione di alcuni parametri caratteristici, i più importanti dei quali sono riassunti di seguito. Valore medio Per una variabile aleatoria X con densità di probabilità fX(x) il valore medio è fornito dal seguente integrale: +∞ mX = ∫ xf X ( x)dx (65) −∞ 17 Il valore medio ha, essenzialmente, il significato di “baricentro” attorno al quale si distribuiscono i valori della variabile aleatoria. Nel caso particolare di variabile aleatoria discreta, la precedente può riscriversi: +∞ mX = ∫ xf X ( x)dx = −∞ +∞ ∫ −∞ x ∑ p k δ ( x − x k )dx = ∑ p k k k +∞ ∫ xδ ( x − xk )dx = ∑ pk xk −∞ (66) k Avendo sfruttato, nell’ultimo passaggio la proprietà di campionamento della delta di Dirac. Inoltre, nella (66) si è posto, per semplificare la notazione, Pr{X = xk} = pk. E’ interessante osservare che la precedente può essere utilizzata per calcolare il valore medio anche di una generica funzione Y = g(X) della variabile aleatoria X, in accordo con l’espressione seguente: +∞ mY = ∫ g ( x) f X ( x)dx (67) −∞ Più esplicitamente, nel seguito di questa dispensa si mostrerà come sia possibile, in condizioni non particolarmente restrittive, calcolare la funzione densità di probabilità fY(y) a partire dalla conoscenza della fX(x) oltre che, ovviamente, del legame funzionale tra X e Y. Una volta nota fY(y), mY si può chiaramente calcolare come: +∞ mY = ∫ yfY ( y)dy (68) −∞ Nondimeno, ciò che le considerazioni precedenti mettono in evidenza è che ai fini del calcolo del valore medio la conoscenza di fY(y) non è strettamente necessaria, potendosi utilizzare direttamente la (67). Il valore medio di una variabile viene spesso indicato con la lettera E, iniziale del termine inglese Expectation. Si ha dunque, ad esempio: E { X } = mX (69) Come ulteriore alternativa si ha anche la seguente, non meno classica, notazione: X = E { X } = mX (70) Nel seguito questi simboli verranno utilizzati, in maniera “interscambiabile”, come equivalenti. Valore quadratico medio Si tratta di una particolare applicazione della (67) in cui Y = g(X) = X2. Di conseguenza, per una variabile aleatoria X con densità di probabilità fX(x), il valore quadratico medio è definito dal seguente integrale: +∞ X 2 = ∫x 2 f X ( x)dx (71) −∞ Nel caso particolare di variabile aleatoria discreta, la precedente può riscriversi: 18 +∞ X 2 = ∫x +∞ 2 f X ( x)dx = −∞ ∫ +∞ x 2 −∞ ∑ pk δ ( x − xk )dx = ∑ pk ∫ x 2δ ( x − xk )dx = ∑ pk xk2 k −∞ k (72) k Varianza Per una variabile aleatoria X con densità di probabilità fX(x) la varianza è fornita dal seguente integrale: +∞ σ X2 = ( X − mX ) 2 x − m X ) f X ( x)dx ( ∫ = 2 (73) −∞ La varianza misura il livello di dispersione della variabile aleatoria intorno al valore medio. La sua radice quadrata σ prende il nome di deviazione standard (o scarto quadratico medio). Molto importante è il legame che esiste tra la varianza, il valore quadratico medio e il valore medio. Questo legame può essere ricavato facilmente dalla definizione precedente. Si ha infatti: σ X2 = +∞ 2 ∫ ( x − mX ) f X ( x)dx = −∞ = X 2 − 2m + m = X 2 X 2 X +∞ ∫ +∞ x 2 f X ( x)dx − 2mX −∞ 2 ∫ +∞ xf X ( x)dx + mX2 −∞ −m ∫ f X ( x)dx −∞ (74) 2 X avendo sfruttato, nell’ultimo termine, anche la proprietà di normalizzazione. Momenti e momenti centrali Benché la conoscenza del valore medio, del valore quadratico medio e della varianza fornisca tipicamente informazioni adeguate sulla variabile aleatoria (ove non si conosca o non si voglia considerare per intero la funzione densità di probabilità) la descrizione della variabile può essere ulteriormente perfezionata estendendo le definizioni precedenti. Data una variabile aleatoria X con densità di probabilità fX(x), si definisce momento di ordine j di tale variabile il seguente integrale: +∞ Mj = X j = ∫x j f X ( x)dx j = 1, 2, 3, … (75) −∞ E’ chiaro che per j = 1 la precedente restituisce il valore medio, che ha dunque il significato di momento di ordine 1; analogamente, per j = 2 la precedente restituisce il valore quadratico medio, che ha dunque il significato di momento di ordine 2. Per la stessa variabile aleatoria X si definisce invece momento centrale di ordine j il seguente integrale: σ j = ( X − mX ) j = +∞ j ∫ ( x − mX ) f X ( x)dx = −∞ +∞ ∫ (x − M ) 1 j f X ( x)dx −∞ Per j = 2 si riottiene la varianza; si ha dunque: σ2 = σX2. Sviluppando la potenza j-esima entro integrale, peraltro, si ottiene: 19 j = 2, 3, … (76) j ⎛ j⎞ k =0 ⎝ ⎠ σ j = ∑ ⎜ ⎟ (− M 1 )k M j −k k j = 2, 3, … (77) espressione quest’ultima che lega i momenti centrali σj ai momenti Mj della variabile aleatoria X. Nella (77) si deve porre M0 = 1, come del resto è giustificato dalla definizione (75) la quale per j = 0 restituisce la condizione di normalizzazione. I momenti di una variabile aleatoria, ancorché con le espressioni integrali sopra riportate, possono essere ricavati anche utilizzando la cosiddetta funzione caratteristica, così definita: +∞ C X (u ) = exp(iux) = ∫ exp(iux) f X ( x)dx (78) −∞ Nella (77), u è una variabile “formale” (non ha cioè un significato specifico in relazione alla variabile aleatoria X). Nondimeno, confrontando la (78) con la definizione di antitrasformata di Fourier, sostituendo in quella definizione t con u e ω con x, è facile concludere che CX(u) può essere appunto interpretata come l’antitrasformata di fX(x), moltiplicata per 2π. Vale allora, ovviamente, anche la relazione inversa, in virtù della quale la densità di probabilità della variabile aleatoria X può essere ottenuta dalla trasformata di Fourier della sua funzione caratteristica, divisa per 2π; si ha cioè: +∞ f X ( x) = 1 ∫ exp(−iux)CX (u )du 2π −∞ (79) Densità di probabilità e funzione caratteristica della variabile aleatoria X costituiscono quindi una coppia trasformata-antitrasformata e la conoscenza dell’una è completamente equivalente alla conoscenza dell’altra. Ciò che interessa ora mettere in evidenza è che, proprio in ragione di questo legame, la funzione caratteristica può essere utilizzata per ricavare i momenti della variabile aleatoria. Vale infatti la seguente relazione: M j = (−i ) j d j C (u ) du j u =0 j = 1, 2, …. (80) La verifica di questa proprietà è immediata. Utilizzando la (78) si ha infatti: j d j C (u ) j d (−i ) ( i ) = − du j u = 0 du j j +∞ ∫ exp(iux) f X ( x)dx −∞ +∞ = (−i ) u =0 +∞ = (−i ) j (i ) j ∫x j dj ∫ du j exp(iux) f X ( x)dx = −∞ u =0 +∞ j = exp(iux) f X ( x)dx −∞ u =0 ∫x j (81) f X ( x)dx = M j −∞ Per una variabile aleatoria discreta la funzione caratteristica, utilizzando la (34) ove si ponga, per semplicità, Pr{X = xk} = pk, diventa: C X (u ) = ∑ pk exp(iuxk ) (82) k 20 Con semplici calcoli, è possibile ricavare la funzione caratteristica per alcuni degli esempi di variabile aleatoria forniti più sopra. I relativi andamenti sono riportati in Tabella I. Variabile aleatoria Funzione caratteristica 1 exp(iub) − exp(iua) b−a iu a a − iu a2 a2 + u2 ⎛ u 2σ 2 ⎞ exp(iu μ ) exp ⎜ − ⎟ 2 ⎠ ⎝ Uniforme Esponenziale unilatera Esponenziale bilatera Gaussiana [1 − p + p exp(iu )] exp {λ [ exp(iu ) − 1]} n Binomiale Poisson Tabella I Questi andamenti possono essere utilizzati per ricavare, in particolare, valor medio, valore quadratico medio e varianza della variabile aleatoria in esame. Questi calcoli sono lasciati, per esercizio, al lettore. ***** Funzioni di variabile aleatoria In molti problemi di interesse pratico, nota che sia la descrizione statistica di una variabile aleatoria X, per esempio tramite la conoscenza della densità di probabilità fX(x) si è interessati a risalire alla descrizione statistica di una variabile aleatoria Y legata a X dalla relazione Y = g( X ) (83) Se g(X) è una funzione monotona, crescente o decrescente, il problema può essere immediatamente risolto; si verifica infatti che risulta: fY ( y ) = f X ( x) g '( x) (84) −1 x= g ( y ) dove si è posto g’(x) = dg(x)/dx, e si è indicata con g−1(Y) la funzione inversa della (83) (che esiste sicuramente perché la funzione è monotona). Esempio Sia X una variabile aleatoria gaussiana, con densità di probabilità: f X ( x) = 1 2πσ X ⎡ ( x − μ X )2 ⎤ exp ⎢ − ⎥ 2σ X2 ⎥⎦ ⎢⎣ Sia inoltre 21 Y = aX + b Questa funzione, per qualunque valore di a e b è certamente monotona. Si può quindi applicare la (84), dove la funzione inversa sarà: X= Y −b a D’altro canto: g '( x) = a Sostituendo si ottiene allora: fY ( y ) = 1 a 1 2π σ X 2 ⎡ ⎛ y −b ⎞ ⎤ − μX ⎟ ⎥ ⎢ ⎜ ⎡ ( y − b − aμ )2 ⎤ 1 a X ⎝ ⎠ ⎢ ⎥ ⎥ exp − exp ⎢ − = 2 2 2 ⎢ ⎥ 2π a σ X 2σ X 2a σ X ⎢⎣ ⎥⎦ ⎢ ⎥ ⎥⎦ ⎣⎢ Si tratta ancora di una variabile aleatoria gaussiana, ma con valore medio: μY = aμ X + b e varianza: σ Y2 = a 2σ X2 ovvero deviazione standard: σY = a σ X ***** Nel caso in cui la funzione (83) non sia monotona ma l’intervallo di variabilità della X sia decomponibile in un numero finito di regioni in cui la funzione è monotona, la densità di probabilità della variabile aleatoria Y può essere ricavata come: fY ( y ) = ∑ i f X ( xi ) g '( xi ) (85) −1 xi = g ( y ) dove l’insieme {xi} è costituito da tutte le soluzioni dell’equazione (83). Esplicitamente ciò equivale a dire che: − si individuano i sottointervalli della variabile aleatoria X in cui la (83) è monotona − si determinano i corrispondenti intervalli della variabile aleatoria Y − entro ciascun sottointervallo si applica la (84), che fornirà l’andamento “locale” della densità di probabilità cercata 22 − si sovrappongono i risultati parziali così ottenuti Esempio Sia X una variabile aleatoria gaussiana, con densità di probabilità: f X ( x) = 1 2πσ X ⎡ ( x − μ X )2 ⎤ exp ⎢ − ⎥ 2σ X2 ⎥⎦ ⎢⎣ Sia inoltre Y= X Questa funzione è monotona per X ≥ 0, dove si ha: X =Y e per X ≤ 0, dove si ha: X = −Y Il range di variabilità di X può dunque essere diviso in due sottointervalli, e si hanno due contributi nella (85). È opportuno, come spiegato più sopra, calcolare questi contributi separatamente. Valori di X ≥ 0 vengono “trasformati” dalla funzione assegnata in valori di Y ≥ 0. Il relativo contributo alla densità di probabilità vale: fY ( y ) = 1 2πσ X ⎡ ( y − μ X )2 ⎤ exp ⎢ − ⎥ 2σ X2 ⎥⎦ ⎢⎣ in quanto in questo caso non vengono cambiati né il valore medio e né la varianza. Valori di X ≤ 0 vengono anch’essi “trasformati” dalla funzione assegnata in valori di Y ≥ 0. Il relativo contributo alla densità di probabilità vale: fY ( y ) = 1 2πσ X ⎡ (− y − μ X )2 ⎤ ⎡ ( y + μ X )2 ⎤ 1 exp ⎢ − exp = ⎥ ⎢− ⎥ 2πσ X 2σ X2 2σ X2 ⎥⎦ ⎢⎣ ⎥⎦ ⎢⎣ Come detto, ambedue questi contributi devono essere riferiti a valori di Y ≥ 0 per cui, in definitiva, si ha: ⎧ 1 ⎡ ( y − μ X )2 ⎤ ⎡ ( y + μ X )2 ⎤ 1 − + exp exp ⎪⎪ ⎢ ⎥ ⎢− ⎥ 2π σ X 2σ X2 ⎥⎦ 2σ X2 ⎥⎦ ⎢⎣ ⎢⎣ fY ( y ) = ⎨ 2π σ X ⎪ 0 ⎪⎩ y≥0 y<0 Valori di Y < 0, infatti, non sono possibili. Come si vede (e come prevedibile) la variabile Y non è più una variabile gaussiana. 23 ***** Un caso che deve essere trattato separatamente riguarda la possibilità che la funzione (83) sia costante in uno (o più) degli intervalli di variabilità. Ciò corrisponde al fatto che un insieme di valori di X produce lo stesso valore di Y. Sulla base del significato stesso di probabilità, è qualitativamente ragionevole che la probabilità che X assuma valori all’interno dell’intervallo in cui la (83) è costante si trasferisca alla probabilità che Y assuma il valore costante. Il risultato della trasformazione è dunque una variabile aleatoria mista, in cui alcuni valori di Y hanno probabilità diversa da zero di verificarsi (mentre si è visto in precedenza che nel caso di variabile aleatoria continua la probabilità di un valore isolato è identicamente nulla). Esempio Sia X una variabile aleatoria gaussiana, con densità di probabilità: f X ( x) = 1 2πσ X ⎡ ( x − μ X )2 ⎤ exp ⎢ − ⎥ 2σ X2 ⎥⎦ ⎢⎣ Sia inoltre ⎧X Y =⎨ ⎩0 X ≥0 X <0 Questa funzione è monotona per X ≥ 0, dove si ha: X =Y Tutti i valori di X < 0, invece, vengono trasformati nel valore Y = 0. Questo significa che la Pr{Y = 0} sarà uguale alla Pr{X < 0}. In formule: Pr {Y = 0} = 0 ∫ −∞ 1 f X ( x)dx = 2πσ X 1 = πμ +∞ ∫ X /( 2σ X ) − μ X /( 2σ X ) ⎡ ( x − μ X )2 ⎤ 1 2 ∫ exp ⎢⎢ − 2σ 2 ⎥⎥dx = π ∫ exp − y dy = X ⎣ ⎦ −∞ −∞ 0 ( ) exp − y 2 dy = ( ) ⎛ μX 1 erfc ⎜⎜ 2 ⎝ 2σ X ⎞ ⎟⎟ ⎠ Si noterà che, in virtù della seconda delle (51), quando μX = 0 questa probabilità vale 1/2. D’altro canto, nel tratto in cui la funzione è monotona, e che corrisponde a valori di Y ≥ 0, si applica la (84) la quale fornisce: fY ( y ) = 1 2πσ X ⎡ ( y − μ X )2 ⎤ exp ⎢ − ⎥ 2σ X2 ⎥⎦ ⎢⎣ In definitiva si può scrivere, combinando i risultati: 24 fY ( y ) = 1 2π σ X ⎡ ( y − μ X )2 ⎤ ⎛ μX ⎞ 1 exp ⎢ − ⎥ u ( y ) + erfc ⎜ ⎟δ ( y) 2 2 2σ X ⎦⎥ ⎝ 2σ X ⎠ ⎣⎢ avendo indicato con u(y) la funzione gradino unitario che parte dall’origine. ***** Coppie di variabili aleatorie Consideriamo una coppia di variabili aleatorie X e Y. Singolarmente, esse saranno caratterizzate dalle rispettive densità di probabilità fX(x) e fY(y) o, il che è lo stesso dalle rispettive distribuzioni di probabilità cumulativa FX(x) e FY(y). Ciò che però può essere di interesse è la descrizione statistica congiunta di queste variabili, ad esempio la probabilità che X sia minore o uguale di un valore prefissato x e, contemporaneamente, Y sia minore o uguale di un valore prefissato y. Proprio a partire da questo esempio, si definisce distribuzione di probabilità congiunta delle due variabili la seguente funzione: FXY ( x, y ) = Pr { X ≤ x, Y ≤ y} (86) La valutazione della distribuzione di probabilità congiunta risulta particolarmente semplice nel caso in cui le variabili X e Y sono tra loro statisticamente indipendenti. Ricordando infatti la definizione di statistica indipendenza già fornita in precedenza e, in particolare, la relazione (14) è immediato concludere che, in questo caso, si ha: FXY ( x, y ) = Pr { X ≤ x} ⋅ Pr {Y ≤ y} = FX ( x) ⋅ FY ( y ) (87) Nel caso più generale, è però evidente che la (87) non può essere vera se, come si verifica in molti esperimenti aleatori, le variabili X e Y si influenzano reciprocamente. Peraltro, è qualitativamente del tutto ragionevole che la funzione FXY(x,y) determini le proprietà statistiche marginali, cioè relative alle singole variabili della coppia. Valgono le seguenti proprietà: G.1 – FXY(x,y) assume valori appartenenti all’intervallo [0, 1], cioè: 0 ≤ FXY ( x, y ) ≤ 1 (88) G.2 – FXY(x,y0), comunque si scelga il valore y0 della variabile Y, è monotona non decrescente nella variabile X e continua da destra in questa variabile; analogamente, FXY(x0,y), comunque si scelga il valore x0 della variabile X, è monotona non decrescente nella variabile Y e continua da destra in questa variabile. G.3 – FXY(x,y) soddisfa le seguenti uguaglianze: FXY (−∞, y ) = Pr { X ≤ −∞, Y ≤ y} = 0 (89a) FXY ( x, −∞ ) = Pr { X ≤ x, Y ≤ −∞} = 0 (89b) FXY ( −∞, −∞) = Pr { X ≤ −∞, Y ≤ −∞} = 0 (89c) 25 G.4 – le distribuzioni di probabilità cumulative delle variabili X e Y (distribuzioni marginali) si ottengono come segue: FX ( x) = FXY ( x, +∞) (90a) FY ( y) = FXY (+∞, y ) (90b) G.5 – il limite di FXY(x,y) quando sia x che y tendono a +∞ è unitario, si ha cioè: FXY (+∞, +∞) = 1 (91) G.6 – la probabilità dell’evento “rettangolare”: {x1 < X ≤ x2, y1 < Y ≤ y2} può essere calcolato mediante la relazione seguente: Pr { x1 < X ≤ x2 , y1 < Y ≤ y2 } = FXY ( x2 , y2 ) − FXY ( x1 , y2 ) − FXY ( x2 , y1 ) + FXY ( x1 , y1 ) (92) Gran parte di queste proprietà sono analoghe (e possono essere interpretate come la logica estensione) di quelle enunciate in precedenza per le distribuzioni delle singole variabili. Le (90), in particolare, si giustificano sulla base del fatto che, per ottenere le distribuzioni marginali di una variabile occorre “saturare” l’altra variabile. Quanto detto sin qui per le distribuzioni di probabilità cumulativa può ovviamente essere esteso alle densità di probabilità. Definiamo allora la seguente densità di probabilità congiunta: f XY ( x, y ) = ∂ 2 FXY ( x, y ) ∂x∂y (93) La relazione inversa della (93) consente invece di calcolare la distribuzione di probabilità congiunta a partire dalla densità di probabilità, come segue: x FXY ( x, y ) = y ∫ ∫ f XY (α , β )dα d β (94) α =−∞ β =−∞ Nel caso di variabili statisticamente indipendenti si ha: f XY ( x, y ) = f X ( x) fY ( y ) (95) Alla stregua della distribuzione di probabilità cumulativa, anche la densità di probabilità congiunta gode di una serie di proprietà; le più importanti sono elencate di seguito: H.1 – fXY(x,y) assume valori non negativi, cioè: f XY ( x, y ) ≥ 0 (96) H.2 – l’integrale di fXY(x,y) sull’intero piano x-y vale 1 (proprietà di normalizzazione), cioè: 26 +∞ ∫ +∞ ∫ f XY ( x, y )dxdy = 1 (97) x =−∞ y =−∞ H.3 – le densità di probabilità marginali delle variabili X e Y si ottengono come segue: +∞ f X ( x) = ∫ f XY ( x, y )dy (98a) f XY ( x, y )dx (98b) −∞ +∞ fY ( y ) = ∫ −∞ H.4 – la probabilità di un evento A = {( X , Y ) ∈ D} individuato da un dominio D nel piano x-y è data da: Pr( A) = ∫∫ f XY ( x, y )dxdy (99) D ***** Già in precedenza si è avuto modo di introdurre il concetto di probabilità condizionata. Date due variabili aleatorie X e Y, per estensione della (9) si può introdurre la densità di probabilità condizionata della variabile aleatoria Y, rispetto all’evento {X = x}: fY | X ( y | x) = f XY ( x, y ) f X ( x) (100) D’altro canto, per definizione: fY | X ( y | x) = dFY | X ( y | x) (101) dy e quindi la distribuzione di probabilità condizionata della variabile aleatoria Y, rispetto all’evento {X = x} risulta: y y FY | X ( y | x) = ∫ y fY | X ( β | x ) d β = β =−∞ ∫ β =−∞ f XY ( x, β ) dβ = f X ( x) ∫ f XY ( x, β )d β β =−∞ f X ( x) (102) Scambiando i ruoli di X e Y, relazioni analoghe si trovano per la densità di probabilità condizionata della variabile aleatoria X, rispetto all’evento {Y = y}: f X |Y ( x | y ) = f XY ( x, y ) fY ( y ) (103) 27 e per la distribuzione di probabilità condizionata della variabile aleatoria X, rispetto all’evento {Y = y}: x x ∫ FX |Y ( x | y ) = x f X |Y (α | y )dα = α =−∞ ∫ α =−∞ ∫ f XY (α , y)dα f XY (α , y ) dα = α =−∞ fY ( y ) fY ( y ) (104) dove, per definizione, si ha qui: f X |Y ( x | y ) = dFX |Y ( x | y ) (105) dx Nel caso di variabili aleatorie X e Y statisticamente indipendenti, in virtù della (95), le (100) e (103) forniscono, rispettivamente: f Y | X ( y | x ) = fY ( y ) (106) f X |Y ( x | y ) = f X ( x ) (107) e come è giusto che sia, in considerazione della definizione stessa di statistica indipendenza. Nel caso più generale, invece, dal confronto tra le (100) e (103) si ricava: f X |Y ( x | y ) fY ( y ) = fY | X ( y | x ) f X ( x ) (108) che a sua volta richiama la formula di Bayes (15). ***** Momenti congiunti e momenti centrali congiunti Utilizzando le funzioni FXY(x,y) e fXY(x,y), le definizioni di momenti e momenti centrali fornite in precedenza per una variabile aleatoria possono essere estese a coppie di variabili aleatorie. Si definisce allora momento congiunto di ordine (j,k) della coppia di variabili aleatorie X, Y il seguente integrale: +∞ M jk = X Y j k = +∞ ∫ ∫ x j y k f XY ( x, y )dxdy j, k = 0, 1, 2, 3, … (109) x =−∞ y =−∞ Particolarmente importante è il momento congiunto di ordine (1,1) il quale, utilizzando la (109), risulta: +∞ M 11 = XY = +∞ ∫ ∫ xyf XY ( x, y )dxdy (110) x =−∞ y =−∞ Il momento congiunto di ordine (1,1) prende il nome di correlazione. Nel caso di variabili statisticamente indipendenti, è immediato verificare che esso è dato dal prodotto dei momenti di 28 ordine 1 delle variabili singole (ovvero, esplicitamente, dal prodotto dei valori medi). Si ha infatti, in questo caso: +∞ M 11 = +∞ ∫ ∫ +∞ ∫ xf xyf X ( x) fY ( y )dxdy = x =−∞ y =−∞ −∞ +∞ X ( x)dx ∫ yfY ( y )dy = mX mY (111) −∞ Quando è verificata la (111), si dice che le variabili X e Y sono tra loro incorrelate. Se dunque è certamente vero che la statistica indipendenza implica l’incorrelazione non è ovviamente vero, in generale 5 , l’inverso, in quanto la correlazione può essere numericamente uguale al prodotto dei valori medi anche quando le variabili non sono statisticamente indipendenti. Un caso particolare si verifica quando le variabili sono incorrelate e una almeno di esse ha valor medio nullo; nel qual caso la (111) fornisce: M 11 = mX mY = 0 (112) Per estensione della terminologia introdotta nella teoria dei segnali determinati, si dice che le variabili X e Y che verificano la condizione M11 = 0 sono tra loro ortogonali. Peraltro, si faccia attenzione al fatto che la condizione di ortogonalità può essere verificata anche se le variabili non sono incorrelate (ovvero, a maggior ragione, statisticamente indipendenti). Incidentalmente, può anche essere interessante osservare che, dalla definizione (109), risulta: M 10 = X = m X (113a) M 01 = Y = mY (113b) Si definisce invece momento centrale congiunto di ordine (j,k) il seguente integrale: +∞ σ jk = ( X − mX ) j (Y − mY ) k = +∞ ∫ ∫ ( x − mX ) j ( y − mY ) k f XY ( x, y )dxdy j, k = 1, 2, … (114) x =−∞ y =−∞ Anche qui riveste particolare importanza il caso j = k = 1. Il momento congiunto che ne risulta: σ 11 = ( X − mX )(Y − mY ) = +∞ +∞ ∫ ∫ ( x − mX )( y − mY ) f XY ( x, y )dxdy x =−∞ y =−∞ prende il nome di covarianza. La covarianza può essere espressa in funzione dei momenti definiti più sopra. Si ha infatti: 5 Una importante eccezione verrà discussa nel seguito di questa dispensa. 29 (115) +∞ σ 11 = +∞ +∞ ∫ ∫ +∞ +∞ +∞ yf XY ( x, y )dxdy − mY x =−∞ y =−∞ +∞ + mX mY xyf XY ( x, y )dxdy + x =−∞ y =−∞ ∫ ∫ − mX ∫ ∫ ( x − mX )( y − mY ) f XY ( x, y )dxdy = x =−∞ y =−∞ +∞ +∞ ∫ ∫ xf XY ( x, y )dxdy + (116) x =−∞ y =−∞ +∞ ∫ ∫ f XY ( x, y )dxdy = M 11 − mX mY − mX mY + mX mY = M 11 − mX mY x =−∞ y =−∞ Se poi le variabili sono incorrelate (e lo sono certamente quando sono statisticamente indipendenti) è chiaro che risulta: σ 11 = 0 (117) Proprio in virtù di questo risultato, si conviene di assumere σ11 come misura della correlazione statistica di due variabili aleatorie. In realtà tale parametro viene normalizzato, in modo da assumere valori, in modulo, non maggiori dell’unità. Questo obiettivo si consegue dividendo per la deviazione standard delle variabili X e Y. Il risultato di tale rapporto: ρ XY = σ 11 σ 11 = σ XσY σ X2 σ Y2 (118) prende il nome di coefficiente di correlazione. Il fatto che il coefficiente di correlazione fornito dalla (118) assuma valori, in modulo, compresi tra 0 e 1 è conseguenza del fatto, qualitativamente ragionevole, che se da una parte si ha incorrelazione quando σ11 = 0, la massima correlazione corrisponde ad un legame di lineare dipendenza tra X e Y: Y = aX + b (119) Valendo la (119), risulta: mY = amX + b (120a) ⎡ +∞ ⎤ M 11 = ∫ ∫ x(ax + b) f XY ( x, y )dxdy = a ∫ x ⎢ ∫ f XY ( x, y )dy ⎥dx + x =−∞ y =−∞ x =−∞ ⎣⎢ y =−∞ ⎦⎥ +∞ +∞ +∞ 2 +∞ +∞ ⎡ +∞ ⎤ + b ∫ x ⎢ ∫ f XY ( x, y )dy ⎥dx = a ∫ x 2 f X ( x)dx + b ∫ xf X ( x)dx = a X 2 + bmX ⎢ y =−∞ x =−∞ ⎣ −∞ −∞ ⎦⎥ +∞ (120b) e quindi, in virtù della (116): ( ) σ 11 = a X 2 + bmX − amX2 − bmX = a X 2 − mX2 = aσ X2 (121) D’altro canto è anche: σ Y2 = a 2σ X2 (122) 30 e quindi: ρ XY = a a (123) La (123) comporta: ρ XY = 1 per a > 0 ρ XY = −1 (124a) per a < 0 (124b) Quando sono legate dalla relazione (119) che comporta, come si è verificato, ρ XY = 1 , si dice che X e Y sono tra loro completamente correlate. La funzione caratteristica ha ovviamente significato anche per una coppia di variabili aleatorie. In particolare, si definisce funzione caratteristica congiunta delle variabili X e Y la seguente funzione delle variabili formali u e v: C XY (u, v) = exp [i (ux + vy ) ] = +∞ +∞ ∫ ∫ exp [i (ux + vy ) ] f XY ( x, y )dxdy (125) x =−∞ y =−∞ CXY(u,v) può essere interpretata come un’antitrasformata di Fourier bidimensionale moltiplicata per 4π2. La funzione che viene antitrasformata è la densità di probabilità congiunta fXY(x,y); u, x e v, y sono coppie di variabili coniugate. La trasformazione inversa restituisce allora la densità di probabilità congiunta a partire dalla funzione caratteristica congiunta; si ha cioè: 1 f XY ( x, y ) = 2 4π +∞ +∞ ∫ ∫ C XY (u, v) exp [ −i (ux + vy ) ] dudv (126) u =−∞ v =−∞ Come già nel caso di variabili singole, anche per una coppia di variabili aleatorie la funzione caratteristica ha il significato di funzione generatrice di momenti (in questo caso, momenti congiunti). Si dimostra infatti il seguente risultato: M jk = (−i ) j + k ∂ j ∂ k C XY (u, v) ∂u j ∂v k u =0 j, k = 1, 2, …. (127) v=0 Un’altra proprietà molto importante è la seguente: se le variabili X e Y sono statisticamente indipendenti allora la funzione caratteristica congiunta è pari al prodotto delle funzioni caratteristiche delle singole variabili; in formula: C XY (u, v) = C X (u )CY (v) (128) La verifica di questa proprietà è immediata, discendendo direttamente dalla definizione. Se infatti si introduce la (95) nella (125) si ottiene: 31 +∞ +∞ ∫ ∫ C XY (u, v) = exp [i (ux + vy ) ] f X ( x) fY ( y )dxdy = x =−∞ y =−∞ +∞ ∫ exp(iux) f −∞ +∞ X ( x)dx ⋅ (129) ⋅ ∫ exp(ivy ) fY ( y )dy = C X (u )CY (v) −∞ Tutte le definizioni fornite possono ovviamente essere particolarizzate al caso di una coppia di variabili aleatorie discrete. Le espressioni relative sono qui omesse per brevità. ***** Variabili aleatorie gaussiane miste Si è osservato in precedenza che la statistica indipendenza è condizione più restrittiva dell’incorrelazione. Esplicitamente questo significa che due variabili aleatorie statisticamente indipendenti sono sicuramente incorrelate, ma due variabili aleatorie incorrelate possono non essere statisticamente indipendenti. Consideriamo ora una coppia di variabili aleatorie X e Y descritte da una densità di probabilità congiunta del tipo seguente: f XY ( x, y ) = 1 2πσ X σ Y ⎧⎪ ⎡ ( x − mX ) 2 ( y − mY ) 2 1 ( x − mX )( y − mY ) ⎤ ⎫⎪ + − 2ρ exp ⎨− ⎢ ⎥⎬ 2 2 2 σY σ XσY 1− ρ 2 ⎦ ⎭⎪ ⎩⎪ 2(1 − ρ ) ⎣ σ X (130) dove ρ è un opportuno parametro. Le densità di probabilità marginali delle variabili X e Y possono essere ricavate applicando le (98). Per integrazione, è facile verificare che si ottiene: f X ( x) = ⎡ ( x − mX ) 2 ⎤ 1 exp ⎢ − ⎥ 2σ X2 ⎦ 2πσ X ⎣ (131a) fY ( y ) = ⎡ ( y − mY ) 2 ⎤ 1 exp ⎢ − 2σ Y2 ⎥⎦ 2πσ Y ⎣ (131b) X e Y, quindi, sono due variabili separatamente gaussiane, con valori medi mX e mY, e varianze σX2 e σY2, rispettivamente. E ciò indipendentemente dal valore assunto da ρ. Variabili aleatorie caratterizzate dalla densità di probabilità congiunta (130) si dicono gaussiane miste. La loro peculiarità risiede nel fatto che per esse l’incorrelazione implica la statistica indipendenza (proprietà questa che, abbiamo detto più sopra, non vale in generale). Se infatti si calcola il coefficiente di correlazione, utilizzando la (118), si trova: ρ XY = ρ (132) Le variabili, dunque, sono incorrelate quando ρ = 0. D’altro canto, dalla (130) si vede che per ρ = 0 la densità di probabilità congiunta diventa: 32 f XY ( x, y ) = ⎪⎧ ⎡ ( x − mX ) 2 ( y − mY ) 2 ⎤ ⎪⎫ exp ⎨− ⎢ + ⎥ ⎬ = f X ( x ) fY ( y ) 2 2πσ X σ Y 2σ Y2 ⎦ ⎭⎪ ⎩⎪ ⎣ 2σ X 1 (133) con ciò confermando l’asserto precedente. ***** Estensione al caso di n variabili. Quanto detto per una coppia di variabili può ovviamente essere esteso ad un numero qualsiasi di variabili aleatorie X1, X2, …, Xn. Per esse si potrà allora definire, ad esempio, una densità di probabilità congiunta f X1 X 2 ... X n ( x1 , x2 ,..., xn ) che nel caso in cui le variabili siano tutte tra loro statisticamente indipendenti si riduce al prodotto delle densità di probabilità marginali: f X1 X 2 ... X n ( x1 , x2 ,..., xn ) = f X1 ( x1 ) f X 2 ( x2 ) f X n ( xn ) (134) Definita anche in questo caso la funzione caratteristica, nella stessa ipotesi di indipendenza statistica essa sarà pari al prodotto delle funzioni caratteristiche marginali: C X1 X 2 ... X n (u1 , u2 ,..., un ) = C X1 (u1 )C X 2 (u2 ) C X n (u n ) (135) Per ricavare, a partire dalla (134), la densità di probabilità di una delle variabili sarà sufficiente saturare tutte le altre; ad esempio: +∞ f X1 ( x1 ) = +∞ ∫ ∫ x2 =−∞ x3 =−∞ +∞ ∫ xn =−∞ f X1 X 2 ... X n ( x1 , x2 ,..., xn )dx2 dx3 … dxn (136) In realtà, se la (134) ha il significato di densità di probabilità congiunta di ordine n, è chiaro che, a partire da essa, possono essere definite densità di probabilità congiunte di ordine k < n che includono k delle n variabili assegnate. Per determinare la generica di queste densità si dovrà integrare la (134) nel dominio di definizione delle (n – k) variabili complementari. Al di là degli aspetti formali, questa generalizzazione al caso di n variabili (o, per meglio dire, di variabile aleatoria n-dimensionale) è piuttosto ovvia, e non sembra necessario insistere su di essa, poiché ciò non aggiungerebbe nulla alla comprensione. ***** Funzioni di due variabili aleatorie Consideriamo preliminarmente un caso particolare. Sia: Z = X +Y (137) Si vuol esplicitare la densità di probabilità della variabile Z. Peraltro, conviene dapprima considerare la distribuzione di probabilità cumulativa che, con ovvia notazione, potrà scriversi: FZ ( z ) = Pr {Z ≤ z} = Pr { X + Y ≤ z} (138) 33 Si guardi allora alla Figura 10. y z z x x+y<z y=z−x Figura 10 La regione del piano x-y favorevole all’evento definito nella (138) è quella al di sotto della retta y = z – x; Ne consegue che FZ(z) potrà essere calcolata integrando la densità di probabilità congiunta, fXY(x,y) delle variabili X e Y in tale regione. Formalmente: FZ ( z ) = ∫∫ +∞ f XY ( x, y )dxdy = x+ y≤ z z−x ∫ ∫ f XY ( x, y )dxdy (139) x =−∞ y =−∞ Dalla (139) è poi immediato ricavare la fZ(z), ricordando il legame che c’è tra la densità di probabilità e la distribuzione di probabilità congiunta: fZ ( z) = +∞ z − x ⎤ +∞ dFZ ( z ) d ⎡ = ⎢ ∫ ∫ f XY ( x, y )dxdy ⎥ = ∫ f XY ( x, z − x)dx dz dz ⎢⎣ x =−∞ y =−∞ ⎥⎦ −∞ (140) avendo utilizzato un noto risultato dell’analisi matematica, in virtù del quale la derivata di un integrale rispetto all’estremo superiore di integrazione è uguale alla funzione integranda calcolata in tale estremo. Un caso ulteriormente particolare si verifica quando le variabili X e Y sono tra loro statisticamente indipendenti. Allora la (140) può riscriversi: +∞ fZ ( z) = ∫ f X ( x) fY ( z − x)dx (141) −∞ che ha evidentemente il significato di integrale di convoluzione tra le densità di probabilità dei singoli addendi della (137). La (139) può ovviamente essere generalizzata. Considerata una generica funzione: Z = g( X ,Y ) (142) e indicato con D(z) il dominio del piano x-y in corrispondenza del quale risulta Z ≤ z, si potrà scrivere: 34 FZ ( z ) = −1 +∞ g ( z , x ) ∫∫ ∫ f XY ( x, y )dxdy = ∫ f XY ( x, y )dxdy (143) x =−∞ y =−∞ D( z) avendo indicato con g−1(Z, X) la funzione inversa della (142) rispetto a Y. Ovviamente, sia nella (139) che nella (143) è ugualmente lecito considerare la funzione inversa rispetto a X, nel qual caso la (143), ad esempio, si scrive: −1 +∞ g ( z , y ) FZ ( z ) = ∫ ∫ f XY ( x, y )dxdy (144) y =−∞ x =−∞ Derivando la (143) o la (144) si ottiene infine: d ⎡ fZ ( z) = ⎢ ∫ dz ⎢⎣ x =−∞ −1 +∞ g ( z , x ) ∫ y =−∞ ⎤ d ⎡ +∞ g ( z , y ) ⎤ f XY ( x, y )dxdy ⎥ = ⎢ ∫ f ( x , y ) dxdy ⎥ ∫ XY ⎥⎦ dz ⎢⎣ y =−∞ x =−∞ ⎥⎦ −1 (145) E’ importante evidenziare che ai fini del calcolo degli indicatori statistici (valore medio, valore quadratico medio, varianza, momenti di ordine superiore,…) della variabile Z fornita dalla (142) il calcolo della densità di probabilità fZ(z) non è indispensabile, ma è sufficiente la conoscenza della fXY(x,y). Per valor medio e varianza, in particolare, valgono le seguenti relazioni: +∞ mZ = g ( X , Y ) = +∞ ∫ ∫ (146a) g ( x, y ) f XY ( x, y ) dxdy x =−∞ y =−∞ σ Z2 = ⎡⎣ g ( X , Y ) − g ( X , Y ) ⎤⎦ 2 +∞ +∞ ∫ ∫ = 2 x =−∞ y =−∞ ⎡⎣ g ( x, y ) − g ( x, y ) ⎤⎦ f XY ( x, y )dxdy (146b) In particolare, nel caso della (137) (quando cioè la funzione g(X,Y) è una somma), la (146a) fornisce: +∞ mZ = +∞ ∫ ∫ +∞ ( x + y ) f XY ( x, y )dxdy = x =−∞ y =−∞ = +∞ +∞ −∞ −∞ ∫ xdx ∫ +∞ ∫ ∫ +∞ xf XY ( x, y )dxdy + x =−∞ y =−∞ f XY ( x, y )dy + +∞ +∞ −∞ −∞ ∫ ydy ∫ ∫ ∫ yf XY ( x, y )dxdy = x =−∞ y =−∞ +∞ f XY ( x, y )dx = +∞ ∫ xf −∞ +∞ X ( x)dx + ∫ yf Y (147) ( y )dy = mX + mY −∞ Il valor medio della somma di due variabili aleatorie è dunque sempre uguale alla somma dei valori medi delle variabili singole. Sempre per la (137), la (146b) fornisce invece (tenendo conto della (147)): 35 σ z2 = +∞ ∫ +∞ ∫ (x + y − m X x = −∞ y = −∞ +∞ + ∫ +∞ − mY )2 f XY ( x, y )dxdy = ∫ +∞ ∫ (x − m X ) 2 f XY ( x, y )dxdy + x = −∞ y = −∞ +∞ +∞ 2 ∫ ( y − mY ) f XY ( x, y)dxdy + 2 ∫ x = −∞ y = −∞ +∞ ∫ (x − m X )( y − mY ) f XY ( x, y)dxdy = (148) x = −∞ y = −∞ = σ X2 + σ Y2 + 2σ 11 Solo nel caso di variabili incorrelate, dunque, la varianza della somma di due variabili aleatorie è pari alla somma delle varianze delle variabili singole. I risultati qui verificati nel caso di una coppia di variabili possono essere estesi alla somma di un numero arbitrario di variabili, semplicemente iterandone le conclusioni. In particolare è sempre vero che il valor medio della somma è uguale alla somma dei valori medi, mentre la sommabilità delle varianze è subordinata all’ipotesi di incorrelazione. In particolare, le varianze si sommano nel caso di variabili statisticamente indipendenti (essendo la statistica indipendenza condizione più restrittiva dell’incorrelazione). Un altro risultato importante riguarda la funzione caratteristica: se le variabili X e Y sono statisticamente indipendenti, allora la funzione caratteristica della variabile Z = X + Y è essa pure uguale al prodotto delle funzioni caratteristiche CX(u) e CY(u) (in questo caso nell’unica variabile formale u). In formula: CZ (u ) = C X (u )CY (u ) (149) Anche la verifica di questa proprietà è immediata. Dalla definizione, infatti, risulta: +∞ CZ (u ) = exp(iuz ) = exp(iu ( x + y )) = +∞ ∫ ∫ exp [iu ( x + y )] f XY ( x, y )dxdy = x =−∞ y =−∞ +∞ = ∫ exp(iux) f −∞ +∞ X ( x)dx ⋅ ∫ exp(iuy ) fY ( y )dy = C X (u )CY (u ) −∞ V’è un modo alternativo per ricavare la densità di probabilità di Z. E’ significativo introdurlo con riferimento ad una situazione più generale (donde il caso discusso in questa sezione potrà essere ottenuto per particolarizzazione). ***** Funzioni di n variabili aleatorie Assegnato un insieme, di dimensione arbitraria, di variabili aleatorie X1, X2,…, Xn, con densità di probabilità congiunta f X1 , X 2 ,…, X n ( x1 , x2 ,… , xn ) , e dato un insieme parimenti numeroso di variabili Y1, Y2,…, Yn, funzioni delle precedenti, si dimostra che vale la seguente relazione: fY1 ,Y2 ,…,Yn ( y1 , y2 ,..., yn ) = f X1 , X 2 ,…, X n ( x1 , x2 ,..., xn ) ∂ ( x1 , x2 ,..., xn ) ∂ ( y1 , y2 ,..., yn ) (150) utilizzando la quale è possibile esplicitare la densità di probabilità congiunta delle variabili Y1, Y2,…, Yn, a partire dalla conoscenza della densità di probabilità congiunta delle variabili X1, X2,…, Xn. Nella (150), il simbolo ⏐∂(x1, x2,…, xn)/∂(y1, y2,…, yn)⏐ indica il modulo del determinante 36 Jacobiano delle xj rispetto alle yk, pari all’inverso del modulo del determinante Jacobiano delle yk rispetto alle xj: ∂ ( x1 , x2 ,..., xn ) ∂ ( y1 , y2 ,..., yn ) ⎡ ∂x1 ⎢ ∂y ⎢ 1 ⎢ ∂x2 = det ⎢⎢ ∂y1 ⎢ ⎢ ⎢ ∂xn ⎢⎣ ∂y1 ∂x1 ∂y2 ∂x2 ∂y2 ∂xn ∂y2 ∂x1 ⎤ ∂yn ⎥ ⎥ ∂x2 ⎥ ∂yn ⎥ ⎥ ⎥ ⎥ ∂xn ⎥ ∂yn ⎥⎦ (151) Chiaramente, le derivate che compaiono nella (151) possono essere esplicitate a partire dalle singole relazioni funzionali che legano le variabili Xj alle variabili Yk: X 1 = g1 (Y1 , Y2 ,… , Yn ) X 2 = g 2 (Y1 , Y2 ,… , Yn ) (152) … X n = g n (Y1 , Y2 ,… , Yn ) Essendo interessati a calcolare la densità marginale di una delle variabili Yk, con procedura analoga a quella già descritta in precedenza per un problema analogo, si tratterà di saturare la densità di probabilità congiunta rispetto alle n – 1 variabili complementari. Esempio Si consideri una coppia di variabili aleatorie gaussiane miste, X1 e X2, con valori medi nulli ed identica varianza σX2; utilizzando la (130), la densità di probabilità congiunta delle due variabili può scriversi: f X1 X 2 ( x1 , x2 ) = 1 2πσ 2 X ⎡ ⎤ 1 exp ⎢ − 2 x 2 + x22 − 2 ρ x1 x2 ) ⎥ 2 ( 1 1− ρ ⎣ 2σ X (1 − ρ ) ⎦ Siano Y1 = R e Y2 = Θ due variabili aleatorie legate a X1 e X2 dalle seguenti relazioni: R = X 12 + X 22 ⎛X ⎞ Θ = tan −1 ⎜ 2 ⎟ ⎝ X1 ⎠ Invertendo le precedenti si ottiene: X 1 = R cos(Θ) X 2 = R sin(Θ) da cui il modulo del determinante Jacobiano si calcola immediatamente, fornendo: 37 ∂ ( x1 , x2 ) ∂ ( y1 , y2 ) ⎡ ∂x1 ⎢ ∂r = det ⎢ ⎢ ∂x2 ⎢⎣ ∂r ∂x1 ⎤ ⎡cos(θ ) ∂θ ⎥ ⎥ = det ⎢ ∂x2 ⎥ ⎣ sin(θ ) ⎥ ∂θ ⎦ − r sin(θ ) ⎤ =r r cos(θ ) ⎦⎥ Utilizzando la (150) si ha allora: f RΘ ( r , θ ) = r 2πσ X2 ⎧ ⎫ r2 exp ⎨ − 2 1 − 2 ρ cos(θ ) sin(θ ) ]⎬ 2 [ 1− ρ ⎩ 2σ X (1 − ρ ) ⎭ Nel caso ρ = 0 (che corrisponde a variabili X1 e X2 tra loro incorrelate, e quindi indipendenti), la precedente fornisce: ⎛ r2 ⎞ r f RΘ ( r , θ ) = exp ⎜ − 2 ⎟ 2πσ X2 ⎝ 2σ X ⎠ Questa funzione dipende, come si vede, dalla sola variabile r. Valori di X1 e X2 da −∞ a +∞ vengono evidentemente convertiti dalla trasformazione in: 0 ≤ R < +∞ e −π < Θ ≤ π. La densità di probabilità di R può essere ottenuta come: π f R (r ) = ∫ f RΘ (r ,θ )dθ = −π π ⎛ r2 ⎞ ⎛ r2 ⎞ r r d exp θ exp − = ⎜ ⎟ ⎜− 2 ⎟ ∫ 2πσ X2 ⎝ 2σ X2 ⎠ σ X2 ⎝ 2σ X ⎠ −π Si tratta dunque di una variabile di Rayleigh. La densità di probabilità di Θ può essere ottenuta come: f Θ (θ ) = +∞ ∫ f RΘ (r ,θ )dr = 0 +∞ ∫ 0 ⎛ r2 r exp ⎜− 2 2πσ X2 ⎝ 2σ X ⎞ 1 ⎟ dr = 2π ⎠ Si tratta dunque di una variabile aleatoria uniforme. Osserviamo anche che l’ipotesi di statistica indipendenza delle variabili X1 e X2 si trasferisce a R e Θ che sono infatti, a loro volta, statisticamente indipendenti. ***** Il teorema-limite centrale Consideriamo la variabile aleatoria: n Zn = ∑ X j (153) j =1 e supponiamo che le n variabili aleatorie X1, X2, …, Xn: siano tra loro statisticamente indipendenti, abbiano tutte uguale densità di probabilità f X j ( x j ) = f ( x ) , con valore medio m X j = m e varianza σ X2 j = σ 2 . 38 Nelle ipotesi poste, nessuna delle variabili risulta, per così dire, “dominante” rispetto alle altre. La densità di probabilità della variabile Zn può essere calcolata utilizzando gli strumenti analitici descritti più sopra. Nondimeno, ciò che vogliamo chiederci è se sia possibile individuare l’andamento di tale densità di probabilità per valori di n molto elevati (al limite → ∞). Innanzitutto osserviamo che il valore medio di Zn, indicato con mn, è pari ad n volte il valore medio m; come verificato in precedenza, la proprietà secondo cui il valore medio della somma è pari alla somma dei valori medi è una proprietà generale, e prescinde dall’ipotesi di indipendenza statistica delle variabili. Al contrario, l’ipotesi di indipendenza statistica 6 è necessaria per affermare che la varianza di Zn, indicata con σn2, è pari ad n volte la varianza σ2. In ogni caso si può scrivere: mn = n ⋅ m (154a) σ n2 = n ⋅ σ 2 (154b) A partire dalla (153), definiamo ora la variabile normalizzata: Sn = Z n − mn σn = Zn − n ⋅ m n ⋅σ (155) Indipendentemente da n, è chiaro che Sn ha valor medio nullo e varianza unitaria (variabile normalizzata). A parte queste differenze, Sn ha le stesse proprietà statistiche di Zn, in particolare lo stesso andamento della densità di probabilità. La risposta al problema sopra formulato, e cioè il calcolo della densità di probabilità per n → ∞ è fornita dal seguente enunciato del teorema-limite centrale introdotto dal matematico russo Lyapunov 7 : La densità di probabilità della variabile somma normalizzata Sn tende a una variabile gaussiana con valor medio nullo e varianza unitaria; si ha cioè: lim f Sn ( sn ) = n →∞ ⎛ s2 ⎞ 1 exp ⎜ − n ⎟ 2π ⎝ 2⎠ (156) In pratica, questo risultato asserisce che la somma di un gran numero di variabili aleatorie indipendenti segue, con buona approssimazione, una legge gaussiana, e ciò indipendentemente dalla particolare distribuzione di ciascuna di esse. Il teorema-limite centrale sarà molto utile in una dispensa successiva in cui modelleremo un fenomeno fisico estremamente importante per le applicazioni: il rumore termico. Si può avere un’idea della tendenza alla variabile gaussiana esaminando un caso particolare. In Figura 11 sono riportate le densità si probabilità di Sn, per valori crescenti di n, nel caso di variabili Xj uniformi. Ricordando quanto detto nel caso di due variabili statisticamente indipendenti, la densità di probabilità della somma si ottiene dalla convoluzione iterata, n – 1 volte, della densità di probabilità f(x); l’andamento gaussiano risulta del tutto evidente, per l’esempio, già con n = 15. Si noti che in figura la densità di probabilità gaussiana è stata indicata come normale, essendo questa una classica dicitura alternativa per la funzione densità gaussiana. 6 In realtà è sufficiente l’ipotesi di incorrelazione che però è implicata, come noto, da quella di statistica indipendenza. In realtà del teorema-limite centrale si possono fornire enunciati molto più generali; ad esempio si verifica che l’ipotesi di avere densità di probabilità tutte uguali tra loro non è essenziale ai fini della dimostrazione. Qui ci si è limitati a ricordare quanto utile per la trattazione di argomenti successivi nell’ambito del Corso. 7 39 Figura 11 40