i U NIVERSITÀ DEGLI S TUDI DI PAVIA FACOLTÀ DI S CIENZE MM FF NN C ORSO DI L AUREA IN M ATEMATICA E UGENIO R EGAZZINI E F EDERICO B ASSETTI INTRODUZIONE ALLA PROBABILITA’ E ALLA STATISTICA A PPUNTI PER LA L AUREA TRIENNALE IN M ATEMATICA ii Indice 1 Definizione di probabilità 1.1 Esperimenti ed eventi 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Definizione di probabilità su algebre di eventi . . . . . . . . . . . . . . . . . 4 1.3 Probabilità su spazi finiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.1 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4 Probabilità su spazi infiniti e definizione di probabilità su σ-algebre . . . . 14 2 Numeri aleatori - Distribuzioni di probabilità 19 2.1 Considerazioni introduttive al concetto di variabile aleatoria . . . . . . . . 19 2.2 Distribuzione di probabilità di una variabile aleatoria . . . . . . . . . . . . 21 2.2.1 Distribuzione di probabilità e funzione di ripartizione di un numero aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2.2 Perché la funzione di ripartizione merita attenzione . . . . . . . . . 24 2.2.3 Funzioni di ripartizione di numeri aleatori discreti . . . . . . . . . 26 2.2.4 Funzioni di ripartizione assolutamente continue . . . . . . . . . . . 29 2.2.5 Funzioni di ripartizione di natura qualunque. Cenni . . . . . . . . 34 2.3 Interpretazioni di una distribuzione sull’asse reale . . . . . . . . . . . . . . 37 3 Probabilità condizionata e indipendenza stocastica 39 3.1 Considerazioni introduttive . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2 Principio delle probabilità composte e teorema di Bayes . . . . . . . . . . . 41 3.2.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3 Correlazione fra eventi e indipendenza stocastica . . . . . . . . . . . . . . 46 3.3.1 Ancora la distribuzione binomiale . . . . . . . . . . . . . . . . . . . 48 3.3.2 Successioni di eventi indipendenti e, ancora, distribuzione binomiale negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.3.3 Indipendenza condizionata . . . . . . . . . . . . . . . . . . . . . . . . 49 iii INDICE iv 3.4 Osservazioni complementari . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Vettori aleatori 50 53 4.1 Generalità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2 Distribuzione di un vettore aleatorio discreto . . . . . . . . . . . . . . . . . 54 4.3 Somma di variabili aleatorie indipendenti discrete . . . . . . . . . . . . . . 59 4.3.1 Somma di variabili bernoulliane . . . . . . . . . . . . . . . . . . . . 59 4.3.2 Passeggiate aleatorie, barriere assorbenti (problema della rovina del giocatore) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.3.3 Somma di variabili di Poisson indipendenti . . . . . . . . . . . . . . 63 4.3.4 Tempi di attesa in una successione di prove bernoulliane . . . . . . 64 4.4 Distribuzioni condizionate (il caso discreto) . . . . . . . . . . . . . . . . . . 65 4.5 Distribuzione di vettore aleatorio in generale . . . . . . . . . . . . . . . . . 66 4.5.1 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . 68 4.5.2 Distribuzioni assolutamente continue di vettore aleatorio . . . . . . 69 4.5.3 Caratterizzazione dell’indipendenza tramite fattorizzazione della funzione di densità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.5.4 Distribuzione di funzione di vettore aleatorio dotato di legge assolutamente continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.6 Distribuzione condizionata quando il vettore aleatorio ha legge assolutamente continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Caratteristiche sintetiche di una distribuzione 74 77 5.1 Qualche considerazione generale . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2 Valore atteso, o speranza matematica, di numero aleatorio discreto . . . . 78 5.2.1 Proprietà elementari del valore atteso . . . . . . . . . . . . . . . . . 79 5.3 Valore atteso di un numero aleatorio qualunque . . . . . . . . . . . . . . . 80 5.4 Valore atteso di una distribuzione condizionata . . . . . . . . . . . . . . . . 86 5.5 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.5.1 Varianza di una somma di numeri aleatori . . . . . . . . . . . . . . 91 5.5.2 Esempi di momenti di distribuzioni notevoli . . . . . . . . . . . . . 92 5.6 Caratteristiche sintetiche di una distribuzione a più dimensioni . . . . . . 96 5.6.1 Concordanza, discordanza e covarianza . . . . . . . . . . . . . . . . 96 5.6.2 Correlazione lineare e coefficiente di correlazione lineare . . . . . . 98 5.6.3 Regressione di secondo tipo (regressione lineare) . . . . . . . . . . . 100 INDICE 6 Trasformazioni integrali di leggi di probabilità v 105 6.1 Definizione di funzione caratteristica e di funzione generatrice dei momenti106 6.2 Proprietà della funzione caratteristica . . . . . . . . . . . . . . . . . . . . . 111 6.3 Estensione a vettori aleatori. . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.4 Applicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.4.1 Proprietà della legge gaussiana d-dimensionale . . . . . . . . . . . 120 6.4.2 Legge di somma di numeri aleatori (esempi notevoli) . . . . . . . . 120 6.4.3 Applicazioni alla statistica . . . . . . . . . . . . . . . . . . . . . . . . 122 6.5 Funzione caratteristica e momenti . . . . . . . . . . . . . . . . . . . . . . . 125 7 Teoremi limite del calcolo delle probabilità. Brevi cenni 129 7.1 Qualche disuguaglianza notevole . . . . . . . . . . . . . . . . . . . . . . . . 130 7.2 Leggi (deboli) dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . 131 7.3 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 8 Elementi di inferenza statistica 137 8.1 Stime di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . 141 8.2 Stime dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 8.3 Stime per intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . 144 8.4 Cenno ai criteri di significatività . . . . . . . . . . . . . . . . . . . . . . . . 147 A Elementi di calcolo combinatorio 149 A.1 Campioni e urne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 A.1.1 Campioni ordinati con restituzione . . . . . . . . . . . . . . . . . . . 152 A.1.2 Campioni ordinati senza restituzione (n 6 M ) . . . . . . . . . . . . 152 A.1.3 Campioni non ordinati senza restituzione (n 6 M ) . . . . . . . . . . 153 A.1.4 Campioni non ordinati con restituzione . . . . . . . . . . . . . . . . 154 A.2 Problemi di occupazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 A.3 Formula di Tartaglia–Newton . . . . . . . . . . . . . . . . . . . . . . . . . . 155 A.3.1 Una conseguenza della formula di Tartaglia–Newton . . . . . . . . 156 B Funzioni generatrici 157 vi INDICE Elenco delle figure 1.1 Incontro di I e II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 Funzione di ripartizione di una distribuzione discreta . . . . . . . . . . . . 26 2.2 Densità uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.3 Funzione di ripartizione della densità uniforme . . . . . . . . . . . . . . . 31 2.4 Diagramma risarcimento–importo del sinistro . . . . . . . . . . . . . . . . 35 2.5 Funzione di ripartizione della densità di Pareto . . . . . . . . . . . . . . . . 36 3.1 Condizionamento di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.1 Passeggiata aleatoria (Random walk) 61 . . . . . . . . . . . . . . . . . . . . . 4.2 La regione sfumata ha probabilità Q uguale a F (x, y). . . . . . . . . . . . 4.3 La regione sfumata a probabilità F (x + h, y + k) − F (x + h, y) − F (x, y + 67 k) + F (x, y) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.4 Distribuzione beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.1 Approssimazioni di una funzione assolutamente continua . . . . . . . . . . 81 5.2 Il valore di h(m) è dato dalla differenza dell’area con tratteggio obliquo meno quella con tratteggio verticale . . . . . . . . . . . . . . . . . . . . . . . 85 5.3 Le crocette corrispondono alle determinazioni di (ξ1 , ξ2 ). . . . . . . . . . . . 89 5.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 8.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 vii viii ELENCO DELLE FIGURE Capitolo 1 Definizione di probabilità 1.1 Esperimenti ed eventi Il termine esperimento è qui usato per designare un qualunque processo il cui risultato non sia generalmente noto a priori. Si assume, d’altro canto, che siano ben determinati a priori i risultati possibili, i cosiddetti casi elementari. L’aggregato di tutti i casi elementari di un dato esperimento è detto spazio dei casi elementari di quell’esperimento. È invalso l’uso di indicare con Ω quest’ultimo insieme e con ω il suo generico elemento, ovvero il generico caso elementare. Diamo qualche esempio semplice di esperimento, tratto dai giochi d’azzardo, il campo d’applicazione originario della probabilità ma non il più importante oggidì. Esempio 1.1.1. (a) Si lancia una moneta e la si lascia cadere sul pavimento. Generalmente le monete hanno un volto umano su un lato, che si dice Testa, e qualche altro segno sul secondo lato, che si dice Croce. Il generico caso elementare del lancio è il nome della faccia, o lato, della moneta rivolta verso l’alto: T, C. Quindi Ω = {T, C}. (b) Si lancia un dado con sei facce regolari, numerate da 1 a 6. Per risultato del lancio s’intende la faccia che il dado rivolge, una volta fermatosi, verso l’alto. Caratterizzando la faccia col punteggio che essa porta, i casi elementari son dati dagli interi 1, 2, 3, 4, 5, 6 e Ω = {1, 2, 3, 4, 5, 6}. (c) Se uno stesso dado viene lanciato due volte, successivamente, allora lo spazio dei casi elementari è dato da Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}. La cardinalità di Ω è 1 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ 2 quindi il numero delle disposizioni con ripetizione di classe 2, di 6 oggetti. Cf. Sottosezione A.1.1 dell’Appendice A. z Ogni sottoinsieme di Ω si dice evento. Si dice che un evento E si verifica quando il risultato dell’esperimento è un qualunque caso elementare ω appartenente ad E. Ad esempio, nel caso del lancio della moneta, la proposizione “la faccia rivolta verso l’alto della moneta è Testa” designa l’evento {T }. Con riferimento al lancio successivo dei due dadi, la proposizione “la somma dei (due) punteggi ottenuti è uguale a 9” corrisponde all’evento {(3, 6), (4, 5), (5, 4), (6, 3)}. Accolta la precedente definizione di evento, le operazioni su eventi sono operazioni su insiemi descritte con un linguaggio adatto alla situazione specifica. Allora Ω si dice evento certo e l’insieme vuoto, indicato solitamente con ∅, si dice evento impossibile. L’ unione di due o più eventi è l’evento che è verificato se e solo se almeno uno dei riunendi è verificato; analogamente, l’intersezione di due o più eventi è l’evento che è verificato se e solo se tutti gli intersecandi sono verificati. Se due eventi non possono verificarsi simultaneamente, non hanno cioè casi elementari in comune, ovvero la loro intersezione è l’evento impossibile, allora i due eventi si dicono incompatibili. Data una classe {Ei : i ∈ I} di eventi, dove I è un certo insieme di indici, la loro S T unione si indica – come al solito – con i∈I Ei e la loro intersezione con i∈I Ei . Il complementare [rispetto a Ω] di un evento E – indicato con E c – si dice evento contrario di E. Oltre alle operazioni principali, è utile accennare ad altre che dalle prime derivano in modo semplice. Dati gli eventi A e B, la differenza di A meno B [in simboli A \ B] è l’evento che si verifica se e solo se si verifica A e non B. Si noti che la differenza non è commutativa. Verificare per esercizio che vale la relazione A \ B = A ∩ B c . La differenza simmetrica di A e B, A △ B, è l’evento che è vero se e solo se tale risulta uno e uno solo dei due eventi considerati: A △ B = (A \ B) ∪ (B \ A). Se A e B sono eventi tali che A ⊂ B si dice che l’evento A implica B. Esempio 1.1.2. Due individui, I e II, hanno convenuto di incontrarsi, in un luogo ben definito, fra mezzogiorno e l’una. L’accordo è stato stipulato nei termini seguenti: il primo che arriva aspetta l’altro per 20 minuti e, quindi, se ne va. Introdurre un opportuno spazio di casi elementari in modo che il fatto “I e II riescono a incontrarsi” possa essere 1.1. ESPERIMENTI ED EVENTI 3 rappresentato da un sottoinsieme di tale spazio. Assumiamo che entrambi arrivino al luogo convenuto e che l’arrivo di ciascuno avvenga fra mezzogiorno e l’una. Sotto queste condizioni, l’istante (aleatorio) dell’arrivo di I, x, e quello dell’arrivo di II, y, possono essere rappresentati con la coppia (x, y) nel quadrato [0, 60]2 ; cf. Figura 1.1. Quindi, Ω = [0, 60]2 . Inoltre, I e II si incontrano se e solo se risulta |x − y| 6 20 e, perciò, l’evento che ci interessa è rappresentato dalla parte ombreggiata della Figura 1.1. z Figura 1.1: La parte di piano ombreggiata corrisponde all’evento ”I e II si incontrano”. Esempio 1.1.3. Una moneta può essere lanciata un numero indefinitamente grande di volte e, spesso, si considerano eventi come, ad esempio, “la frequenza di testa converge al divergere del numero delle prove (lanci)”, che dipendono dai risultati lungo l’intera successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo spazio Ω coincide con quello delle successioni (xn )n>1 a valori in {0, 1}, ovvero: xn ∈ {0, 1}, ∀n > 1. Con x indichiamo la generica di tali successioni. La frequenza di testa nei primi n lanci, corrispondente alla specifica successione x, è Pn fn (x) = k=1 xk /n. Quindi, dato ε > 0, En,m := {x ∈ Ω : |fn (x) − fm (x)| 6 ε} è l’evento che si verifica se e solo se le frequenze di testa relative ai primi n e ai primi m lanci non differiscono per più di ε. Fissato n0 in N, \ L(n0 , ε) := En,m n,m>n0 è l’evento che si verifica se tutte le frequenze di testa non differiscono per più di ε a partire da un certo posto n0 in poi. Quindi, l’evento [ M (ε) := L(n0 , ε) n0 >1 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ 4 si verifica se e solo se esiste un posto n0 a partire dal quale le frequenze non differiscono per più di ε e l’evento \ M (ε) ε>0 risulta verificato se e solo se la frequenza converge. Ricordare, a questo proposito, il criterio di convergenza delle successioni numeriche dovuto a Cauchy. 1.2 Definizione di probabilità su algebre di eventi Il problema della definizione di probabilità è piuttosto delicato, soprattutto quando si voglia coniugare rigore formale e aderenza ad un significato concreto del termine che abbia riguardo per le applicazioni. Prova ne siano: (a) il ritardo con cui la probabilità è stata accettata nella famiglia delle discipline matematiche; (b) gli innumerevoli saggi e trattati scritti sui fondamenti della probabilità; (c) il persistere, con sempre rinnovato vigore, del dibattito sul significato della probabilità nei suoi rapporti con la scienza e la pratica. A partire dagli anni Trenta del secolo scorso, e segnatamente dall’apparizione dei Grundbegriffe, nel 1933, di Andrei N. Kolmogorov (1903-1987), i matematici hanno accettato una definizione assiomatica che assimila la probabilità a una misura finita, in accordo con l’estensione, dovuta a Maurice Fréchet (1878-1973), della teoria della misura e dell’integrazione di Henri Lebesgue (1875-1941), a spazi astratti. L’eccezione più interessante al consenso quasi universale per la definizione di Kolmogorov è rappresentata dalla teoria di Bruno de Finetti (1906-1985). La definizione di Kolmogorov richiede che la probabilità sia definita sopra un’algebra di eventi. Una classe A di sottoinsiemi di Ω è un’algebra se soddisfa i requisiti seguenti: (a) Ω ∈ A; (b) A ∈ A ⇒ Ac ∈ A; Sn (c) A1 , ..., An ∈ A ⇒ k=1 Ak ∈ A (n < +∞). Sarebbe un utile esercizio per lo studente verificare che (c) può essere sostituita con: A1 , . . . , An ∈ A ⇒ ∩nk=1 Ak ∈ A (n < +∞). Esempio 1.2.1. (a) Se A è un sottoinsieme di Ω, la classe A = {∅, A, Ac , Ω} è un’algebra. (b)La classe P(Ω) di tutti i sottoinsiemi di Ω è un’algebra. (c) Con riferimento all’Esempio 1.1.3, preso A ⊂ {0, 1}n per qualche n ∈ N, si denoti con C(A) il cilindro di base A, ovvero l’insieme di tutte le successioni x = (xn )n>1 le cui prime n coordinate, prese nell’ordine, fissano un punto di A: C(A) = {x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ A}. 1.2. DEFINIZIONE DI PROBABILITÀ SU ALGEBRE DI EVENTI 5 Fissato n ∈ N, la classe di eventi (cilindri con base di dimensione n) An := {C(A) : A ⊂ {0, 1}n} è un’algebra. Infatti, Ω = C({0, 1}n); inoltre, se A ⊂ {0, 1}n, allora C(A)c = {x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ A}c = {x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ Ac } = C(Ac ) e quindi C(A)c è contenuto in An ; infine, se A, B ⊂ {0, 1}n, allora C(A)∪C(B) = {x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ A}∪{x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ B} = {x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ A ∪ B} = C(A ∪ B), e quindi C(A) ∪ C(B) è contenuto in An . Naturalmente, An+1 ⊃ An , ∀n, e, quindi, è immediato verificare che anche A := [ n>1 è un’algebra di sottoinsiemi di Ω = {0, 1}∞ . An z Per l’ultimo esempio di algebra di eventi che intendiamo presentare si rende necessaria qualche premessa. Dati n eventi E1 , . . . , En con Ek ⊂ Ω per k = 1, . . . , n, si considerano le intersezioni del tipo Ei1 ∩ · · · ∩ Eik ∩ Ejc1 ∩ · · · ∩ Ejcn−k al variare del sottoinsieme {i1 , . . . , ik } in {1, . . . , n}, essendo {j1 , . . . , jn−k } := {1, . . . , n} \ {i1 , . . . , ik }. Sono le intersezioni di k eventi scelti fra gli n dati con i contrari dei rima- nenti. Le intersezioni non vuote (in numero di s 6 2n ) si dicono costituenti della classe E = {E1 , . . . , En }. Ogni costituente descrive una particolare realizzazione degli eventi E1 , . . . , En . Si noti che i costituenti sono a due a due incompatibili e la loro unione è l’evento certo. Inoltre, un evento E ⊂ Ω si dice logicamente dipendente dalla classe E se il suo valore logico (vero o falso) risulta essere determinato in corrispondenza ad ogni realizzazione possibile degli eventi E1 , . . . , En . Quindi, la classe U degli eventi che dipendono logicamente da E coinciderà con quella di tutte le unioni di costituenti. In particolare, ogni Ei dipende logicamente da E in quanto unione dei costituenti nella cui definizione E è affermato. Nell’esempio seguente si mostra che U è un algebra, anzi la più piccola algebra che contiene E; per questo si chiama l’algebra generata da E. Esempio 1.2.2. La classe U delle unioni dei costituenti di E = {E1 , . . . , En } è la più piccola algebra di parti di Ω che contiene E. Per verificarlo, indichiamo con C(E) la classe dei costituenti di E. Prima di tutto l’insieme vuoto appartiene a U e, come già osservato, Ω appartiene a U in quanto esprimibile come unione di tutti i costituenti. Si consideri, quindi, A in U; in corrispondenza ad A gli elementi di C(E) vengono ripartiti CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ 6 in due classi: nella prima si trovano quelli la cui unione coincide con A e, nella seconda, si collocano quelli la cui unione coincide con Ac ; pertanto Ac appartiene a U. Inoltre, se A, B appartengono a U, ricaviamo che A ∪ B è l’unione di tutti gli elementi di C(E) che implicano A oppure B e, di conseguenza: A ∪ B ∈ U. Perció U è un algebra. Ora, se F è un’algebra contenente E, è immediato convincersi che E ∈ U, otteniamo che C(E) è contenuta in F (per la definizione di algebra e di costituente). Inoltre, ogni E ∈ U è unione di particolari elementi di C(E), quindi E appartiene a F e, pertanto, U ⊂ F . z Una funzione P , definita su un’algebra A di parti di Ω e a valori in R, si dice misura di probabilità se (a’) P (Ω) = 1; (b’) P (A1 ∪ A2 ) = P (A1 ) + P (A2 ), ∀A1 , A2 ∈ A tali che A1 ∩ A2 = ∅; (c’) per ogni successione di eventi contenuti in A a due a due incompatibili A1 , . . . , An , . . . , P tali che ∪k>1 Ak ∈ A, si ha P (∪k>1 Ak ) = k>1 P (Ak ). La proprietà (b’), detta di additività, si estende (per induzione matematica) a ogni famiglia finita di elementi a due a due incompatibili di A. Infatti, se A1 , . . . , An sono elementi di A, allora A1 ∪ · · · ∪ An−1 ∈ A [per la (c)] e se A1 , . . . , An sono a due a due incompatibili, anche A1 ∪ · · · ∪ An−1 e An sono incompatibili; quindi, per (b’), vale P (A1 ∪ · · · ∪ An−1 ∪ An ) = P (A1 ∪ · · · ∪ An−1 ) + P (An ). Fatta l’ipotesi (induttiva) che la proprietà additiva valga per ogni famiglia disgiunta di cardinalità 6 n − 1, otteniamo dalla precedente P (A1 ∪ · · · ∪ An−1 ∪ An ) = P (A1 ) + · · · + P (An−1 ) + P (An ) e, quindi, la tesi per induzione completa. La stessa (b’) non si estende automaticamente a classi infinite di eventi a due a due incompatibili. Perció, è necessario imporre la (c’), detta σ–additività o additività completa, se si desidera che l’additività valga almeno nel caso di classi numerabilmente infinite. Da A∪Ac = Ω congiuntamente a (a’)-(b’) ricaviamo P (A)+P (Ac ) = P (Ω) = 1 e quindi P (Ac ) = 1 − P (A). In particolare, P (∅) + P (Ω) = 1, ovvero P (∅) = 0. (1.1) 1.2. DEFINIZIONE DI PROBABILITÀ SU ALGEBRE DI EVENTI 7 Inoltre, se A, B ∈ A con A ⊂ B, si ha A ∩ (B \ A) = ∅ e, quindi, P (B) = P (A) + P (B \ A); poiché P (B \ A) > 0, risulta dimostrata l’implicazione A, B ∈ A tali che A ⊂ B ⇒ P (A) 6 P (B). (1.2) Un’altra conseguenza degli assiomi, assai utile per il calcolo, è la formula della probabilità di una unione finita di eventi (non necessariamente a due a due incompatibili). Siano, dunque, A e B elementi qualunque di A; per essi vale A ∪ B = (A △ B) ∪ (A ∩ B) = (A \ (A ∩ B)) ∪ (B \ (A ∩ B)) ∪ (A ∩ B) e, per (b’), P (A ∪ B) = P (A \ (A ∩ B)) + P (B \ (A ∩ B)) + P (A ∩ B) dove, sempre per (b’), P (A \ (A ∩ B)) = P (A) − P (A ∩ B), P (B \ (A ∩ B)) = P (B) − P (A ∩ B). Quindi, P (A ∪ B) = P (A) + P (B) − P (A ∩ B). (1.3) Anche questa notevole proprietà può essere estesa a un numero qualunque di eventi: P (A1 ∪ · · · ∪ An ) = n X i=1 P (Ai ) − X + 16i<j<k6n X 16i<j6n P (Ai ∩ Aj ) P (Ai ∩ Aj ∩ Ak ) (1.4) + · · · + (−1)n+1 P (A1 ∩ · · · ∩ An ). Possiamo convincerci della validità di questa formula procedendo per induzione matematica. Supponiamo, perciò, che essa sia vera per ogni n 6 ν e verifichiamola per n = ν + 1. P (A1 ∪ · · · ∪ Aν ∪ Aν+1 ) = P (A1 ∪ · · · ∪ Aν ) + P (Aν+1 ) − P (∪νk=1 (Ak ∩ Aν+1 )) = ν+1 X i=1 + P (Ai ) − X 16i<j<k6ν X 16i<j6ν [per la (1.3)] P (Ai ∩ Aj ) P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)ν+1 P (A1 ∩ · · · ∩ Aν ) CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ 8 − − ν X P (Ai ∩ Aν+1 ) + i=1 X 16i<j<k6ν X 16i<j6ν P (Ai ∩ Aj ∩ Aν+1 ) P (Ai ∩ Ai ∩ Ak ∩ Aν+1 ) + · · · + [per l’ipotesi induttiva] + (−1)ν+2 P (A1 ∩ · · · ∩ Aν ∩ Aν+1 ) = ν+1 X P (Ai ) − i=1 X + 16i<j<k6ν+1 X 16i<j6ν+1 P (Ai ∩ Aj )+ P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)ν+2 P (A1 ∩ · · · ∩ Aν ∩ Aν+1 ). 1.3 Probabilità su spazi finiti Le applicazioni più elementari della probabilità, e storicamente più antiche, riguardano spazi finiti di casi elementari. Ad esempio, ricade in questo ambito la gran parte dei problemi elementari posti dai giuochi di azzardo o dalla ripartizione (casuale), nelle celle dello spazio delle fasi, di un certo numero di particelle. Si tratta, in definitiva, di considerare Ω = {ω1 , . . . , ωN } e A = P(Ω). Si vede facilmente che il numero degli ele menti di A [eventi] è, in questo caso, 2N . Infatti, per ogni k = 0, 1, . . . N , esistono Nk eventi contenenti esattamente k casi elementari; perciò, il numero degli elementi di A N è N0 + N1 + · · · + N N = 2 ; cf. (A.1) in Appendice A con a = b = 1. La generica pro- babilità su A si può caratterizzare a partire dall’assegnazione di N numeri non negativi p1 , . . . , pN a somma 1 (p1 + · · · + pN = 1), da interpretarsi come probabilità degli eventi elementari è la probabilità di {ωk }, pk per k = 1, . . . , N. Quindi, per rispettare (b’), la probabilità di E in A deve coincidere con la somma delle probabilità pk degli eventi elementari {ωk } inclusi in E. Poniamo, quindi, P (E) := X pk {k:ωk ∈E} (E ∈ A). (1.5) P Evidentemente, P (E) > 0 per ogni E; inoltre, P (E) 6 N k=1 pk = 1 per ogni E. ChiaraPN mente, P (Ω) = k=1 pk = 1 e, se E1 , E2 appartengono ad A con E1 ∩ E2 = ∅, otteniamo P (E1 ∪ E2 ) := = X pk {k:ωk ∈E1 ∪E2 } X {k:ωk ∈E1 } pk + X {k:ωk ∈E2 } = P (E1 ) + P (E2 ). pk [poiché E1 , E2 sono disgiunti] 1.3. PROBABILITÀ SU SPAZI FINITI 9 In buona sostanza, si è dimostrato che ogni funzione P : A → [0, 1] definita da (1.5), con p1 + · · · + pn = 1, è una probabilità su A [sotto la condizione che A sia l’insieme delle parti di Ω = {ω1 , . . . , ωN }]. Un esempio notevolissimo di assegnazione di probabilità conforme a (1.5) è rappre- sentato dalla posizione pk = 1/N , per ogni k = 1, . . . , N : tutti i casi elementari sono considerati ugualmente probabili (valutazione simmetrica). Allora da (1.5) discende X P (E) = pk = {k:ωk ∈E} |E| N dove |E| denota la cardinalità di E: il numero dei casi elementari contenuti in E. In questo esempio, la probabilità di E è dunque data dal rapporto fra il numero dei casi favorevoli a E e quello totale dei casi possibili. Classicamente, alcuni autori pensarono di far coincidere la definizione di probabilità col metodo di valutazione testé ricordato, il quale, nella moderna teoria della probabilità, riguarda solo situazioni molto particolari incui si ritiene ch i casi possibili siano ugualmente possibili. Comunque, una valutazione siffatta riduce il calcolo a quello delle numerosità certi insiemi finiti. A tal fine rivestono un ruolo particolarmente importante i primi elementi del calcolo combinatorio, per i quali si rinvia all’ Appendice A. 1.3.1 Esempi Esempio 1.3.1 (Lotto). Si giuochi su una sola ruota. Dei 90 numeri, compresi fra 1 e 90, ne vengono estratti 5 a caso. Con questo modo di dire si intende che le cinquine possibili sono ritenute tutte ugualmente probabili. Il numero di tali cinquine è N = 90 5 , cf. Sottosezione A.1.3 in Appendice A, e, quindi, Ω = {ω1 , . . . , ωN }, dove ωk è la generica cinquina [=sottoinsieme, di 5 elementi, dell’insieme {1, . . . , 90}]. L’ipotesi di equiprobabilità dei casi elementari si traduce nel fatto che −1 90 P ({ωk }) = 5 90 k = 1, . . . , . 5 Indichiamo con E2 l’evento “si vince giocando un ambo particolare”. E2 è un sottoinsieme di Ω di cardinalità 88 3 e, perciò, 88 3 P (E2 ) = ≃ 0, 00258. 90 5 Per l’evento E3 “si vince giocando un particolare terno” si ha CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ 10 87 2 P (E3 ) = ≃ 0, 000085. 90 5 Si considerino 10 ruote, allora i casi possibili sono (10) E2 90 10 . 5 Si gioca uno stesso ambo su tutte le ruote e si indica con l’evento “si vince almeno su una ruota”. Poiché (10) (10) = 1 − P (E2 )c , calcoliamo P E2 (10) P (E2 )c = Quindi P (10) E2 10 10 90 88 88 − 5 3 3 10 = 1 − 10 = (1 − P (E2 )) . 90 90 5 5 10 = 1 − (1 − P (E2 )) 10 X 10 =1− (−1)k P (E2 )k k cf. (A.1) k=0 10 = 10P (E2 ) − P (E2 )2 + ... ≃ 10P (E2 ). 2 [(numero delle ruote)×(probabilità di vincere su ciascuna di esse)]. z Esempio 1.3.2 (Testa e Croce). Si gettano n monete. I risultati possibili sono 2n , di cui n k con k teste e (n − k) croci. La probabilità che, delle n monete, k mostrino testa è n n k /2 . Poiché il rapporto n−k n n : = k+1 k+1 k è maggiore (minore, rispettivamente) di uno per k < il massimo della suddetta probabilità si ha per k = k= n+1 2 n 2 n−1 2 (k > n−1 2 , rispettivamente), se n è pari e per k = n−1 2 e per se n è dispari. Delle n monete, r pezzi siano da 1 euro e s pezzi da 2 euro (n = r + s). La probabilità di avere testa per h delle prime e k delle seconde è r s /2n h k e la probabilità di avere testa lo stesso numero di volte fra le monete da 1 euro e da 2 euro è 1 n 1 n 1 r+s s 1 X r = = . = 2n 2n 2n r 2n s r i i i>0 Per calcolare la somma precedente, si può ricorrere al trucco che consiste nell’indicare come faccia A sia la testa della moneta da 1 euro che la croce della moneta da 2 euro, e come faccia B sia la testa della moneta da 2 euro che la croce della moneta da 1 euro. 1.3. PROBABILITÀ SU SPAZI FINITI 11 Allora, avere lo stesso numero di teste nei due gruppi significa avere, nel complesso, s P volte la faccia A e r volte la faccia B. Quindi, i>0 ri si = r+s r . Per una dimostrazione più formale si veda l’Appendice A. Ritrornando alla prima parte dell’esempio, valutiamo ora la probabilità di ottenere, su n lanci, h volte consecutive testa. Indichiamo con An il numero delle successioni di n lanci non contenenti alcuna sequenza di h teste consecutive. Per tale valutazione, osserviamo che da ciascuna di queste successioni si ottengono due successioni di (n + 1) elementi, facendo seguire un’ulteriore prova: una termina con testa, l’altra con croce. Quindi An+1 è uguale a 2An meno il numero delle successioni – chiamiamolo ν – che con l’ulteriore prova vengono a contenere una sequenza di h teste consecutive. Ciascuna delle ν successioni proviene da un elemento di An così caratterizzato: le ultime (h − 1) prove presentano testa; queste sono precedute da una croce; questa croce è preceduta da una qualunque successione di (n − h) prove non contenente alcuna sequenza di h teste consecutive. Pertanto, ν = An−h e vale la relazione ricorrente An+1 = 2An − An−h , con le condizioni iniziali: A0 = 1, Ak = 2k , per k < h, Ah = 2h − 1. Ricaviamo An con h = 2. Intanto si osserva che, per h = 2, la relazione ricorrente si può scrivere come δn+1 = δn + δn−1 con δn := An − An−1 , e che le condizioni iniziali si traducono nelle seguenti δ1 = A1 − A0 = 1, δ2 = A2 − A1 = 1. Perciò, la ricorrenza si può estendere a ogni n > 1, δn+1 = δn + δn−1 con δ0 = 0, δ1 = 1. La successione delle differenze coincide, quindi, con quella dei numeri di Fibonacci: ciascuno è somma dei due precedenti. Ricorrendo al metodo delle funzioni generatrici, esposto anche nell’Appendice B di queste dispense, si trova √ !j √ !j 1+ 5 1− 5 1 − , δj = √ 2 2 5 j > 1. CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ 12 Combinando questo risultato con la definizione di An , si ha An = A0 + n X δk k=1 √ !k √ !k n X 1− 5 1 1+ 5 √ − = A0 + 2 2 5 k=1 √ !k √ !k n X 1− 5 1 1+ 5 √ − . = 1+ 2 2 5 k=1 In conclusione, la probabilità di ottenere, su n lanci di una moneta, 2 volte consecutive testa è: √ !k n X |An | 1 1+ 5 1 √ 1− n =1− n 1+ − 2 2 2 5 k=1 √ !k 1− 5 . 2 z Esempio 1.3.3. [Estrazioni da un’urna] Un’urna contiene N palle distinte, di cui R bianche ed S nere. Si estraggono n palle in blocco. Si vuole calcolare la probabilità che k di esse siano bianche e n − k nere. I casi possibili sono i sottoinsiemi, di n elementi, estraibili da un insieme di N elementi; il loro numero è, perciò, N n . Se assumiamo che i sottoinsiemi in questione hanno la stessa probabilità di essere estratti, allora basta determinare il numero di quei sottoinsiemi che contengono k bianche e n−k nere, ovvero S R k n−k . Allora, la probabilità richiesta è uguale a R S k n−k N n con la convenzione che tale rapporto è considerato nullo quando qualche coefficente binomiale perde di significato algebrico. Lo stesso vale se le n palle si estraggono una per volta senza però reimbussolare quelle già estratte e se le n-uple ottenibili sono supposte ugualmente probabili. Si estraggono successivamente tutte le palle; qual è la probabilità che non si presentino mai due bianche di seguito? Tale evento è impossibile se R > S. I casi possibili sono N ! successioni e, supposto R 6 S, il numero dei casi favorevoli si ottiene intercalando, in ciascuna delle S! permutazioni delle nere, le R bianche in R punti (compreso il punto avanti la prima e il punto dopo l’ultima). Per ogni singola permutazione delle nere, la suddetta operazione si può fare in R! S+1 modi. Quindi, se ciascuna delle N ! R 1.3. PROBABILITÀ SU SPAZI FINITI 13 permutazioni è giudicata con probabilità 1/N !, la probabilità che non si presentino mai due bianche di seguito è: S+1 S+1 R!S! R R = . N N! R Invece se estraiamo dalla stessa urna con restituzione [registrato il colore della palla estratta, la si rimette nell’urna e si procede all’estrazione successiva], i casi possibili sono le disposizioni con ripetizione, di classe n, di oggetti da un insieme che ne contiene N . Vogliamo ancora calcolare la probabilità di ottenere k bianche e (n − k) nere. Il primo estratto può essere uno qualunque di questi oggetti, il secondo estratto, parimenti, può essere uno qualunque degli N oggetti dati, ecc.; perciò, il numero delle suddette disposizioni è N n . Quelle favorevoli sono le disposizioni che contengono k bianche e n−k nere. Ciascuno dei k posti può essere riempito in R modi possibili (numero delle bianche) e i restanti n − k possono essere riempiti singolarmente in S modi possibili (numero delle nere). Inoltre, poiché i k posti delle bianche sono tanti quanti i sottoinsiemi di k ele menti di un insieme di n elementi [= nk ], il numero dei casi favorevoli è nk Rk S n−k . Dunque, la probabilità di avere k bianche in n estrazioni è n−k k k n−k R n n R S R 1 − . = Nn N N k k Si noti che R/N si può vedere come probabilità di osservare bianca in ogni singola estrazione, e (1 − R/N ) come probabilità di nera. z Esempio 1.3.4. Sia Ω l’insieme delle n! permutazioni di (1, . . . , n). Su Ω si consideri la misura di probabilità uniforme, ossia P {ω} = 1/n! per ogni ω in Ω. Data una permutazione ω = (σ1 , . . . , σn ) diciamo che tale permutazione è completamente disordinata se σi 6= i per ogni i = 1, . . . , n, ossia se nessun numero resta fissato da ω. Calcoliamo la probabilità dell’insieme E delle permutazioni completamente disordinate. Se indichiamo con Ei l’insieme delle permutazioni che fissano i, ossia tali che σi = i, si ha E = (∪ni=1 Ei )c e quindi P (E) = 1 − P (∪ni=1 Ei ). Gli eventi Ei non sono a due a due incompatibili quindi per calcolare P (∪ni=1 Ei ) si può applicare il principio di inclusione esclusione (1.4). Il numero delle permutazioni in cui sono fissati i numeri (i1 , . . . , ik ) è (n − k)! e, per l’ipotesi di uniformità della probabilità CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ 14 fissata, si ha P (Ei1 ∩ . . . , ∩Eik ) = (n − k)!/n!, per k = 1, . . . , n. Notando che questa probaP bilità non dipende dalla scelta di (i1 , . . . , ik ) e che il numero di addendi in 16i1 <···<ik 6n è nk , la (1.4) porge P (∪ni=1 Ei ) n X n (n − 1)! 1 1 3 n (n − 2)! = (−1)k+1 . −1 + · · · + (−1)n+1 = 1 n! n! n! k! 2 k=1 Concludendo, P (E) = 1 − n X n k+1 (−1) X 1 1 = (−1)k . k! k! k=0 k=1 Se ne deduce che P (E) ∼ 1/e per n → +∞. 1.4 Probabilità su spazi infiniti e definizione di probabilità su σ-algebre Non di rado si presentano situazioni nelle quali lo spazio dei casi elementari non è finito o, più precisamente, conviene considerarlo come infinito. Ad esempio, il numero (aleatorio) delle persone che si presentano a un certo posto di servizio durante una ben determinata futura giornata lavorativa sarà certamente finito ma, non potendo essere predetto in anticipo, sarà opportuno identificarne, almeno in una prima approsimazione, tutte le realizzazioni possibili con l’insieme degli interi non negativi N0 := {0, 1, 2, . . .}. Incominciamo, quindi, a trattare della probabilizzazione delle parti di un insieme Ω numerabilmente infinito: Ω = {ω1 , ω2 , . . .}. Procediamo, imitando quanto si è fatto nel caso di Ω finito, col fissare una successione P di numeri non negativi pk (k = 1, 2, . . .) tali da soddisfare k>1 pk = 1. Quindi, proseguiamo definendo, per ogni evento A ⊂ Ω, P (A) = X pk . {k:ωk ∈A} Si verifica facilmente che P soddisfa le condizioni (a’)-(b’) assegnate nel Paragrafo 1.3. Si S può altresì provare che P è σ–additiva, soddisfa cioè (c’). I Infatti, posto A0 = n>1 An , 1.4. PROBABILITÀ SU SPAZI INFINITI E DEFINIZIONE DI PROBABILITÀ SU σ -ALGEBRE15 dalla definizione di P segue P( [ X An ) = n>1 pk {k:ωk ∈A0 } = X X pk per l’incompatibilità a coppie degli eventi An n>1 {k:ωk ∈An } e le proprietà delle serie convergenti a termini > 0 = X P (An ). n>1 E’ interessante notare che si possono dare esempi di probabilità che soddisfano (a’)–(b’) ma non (c’), come nel seguente . Esempio 1.4.1. Si consideri come Ω l’insieme N degli interi positivi e si fissi la classe A dei sottoinsiemi di N che sono finiti o cofiniti; quindi A ∈ A se e solo se A contiene un numero finito di casi elementari oppure il complementare di A presenta la stessa caratteristica. Lo studente può verificare, per esercizio, che A è un’algebra. Su A si definisca la funzione 0 P (E) = 1 se E ⊂ N è finito se E ⊂ N è cofinito . Si controlla facilmente che questa P soddisfa (a’)-(b’) e che, dunque, è una probabilità. P z Tuttavia, si ha 1 = P (Ω) > 0 = n>0 P ({n}). Ritornando alle considerazioni generali svolte nel paragrafo 1.2, si deve notare che, in numerose trattazioni, le misure di probabilità vengono presentate in modo (solo formalmente) diverso, coinvolgendo il concetto di σ-algebra di parti di Ω: un’algebra di parti di Ω, S, che sia stabile per unione numerabile (se A1 , A2 , . . . appartengono a S, allora la loro unione appartiene a S) si dice σ-algebra. Pertanto, P : S → [0, 1] si dice (misura di) probabilità su (Ω, S) se, oltre a doddisfare (a′ ) e (b′ ) della definizione di Sezione 1.2, verifica la condizione P (c′′ ) P (∪n>1 An ) = n>1 P (An ) per ogni successione di eventi A1 , A2 , . . . in S a due a due incompatibili. Quest’ultima definizione di misura di probabilità non è più restrittiva di quella riferita, più genericamente, a un’algebra, e questo segue da un fondamentale teorema dovuto a Carathéodory: Teorema 1.4.2. Se A è un’algebra di parti di Ω e P è una misura di probabilità su A, allora esiste una e una sola misura di probabilità P ∗ sulla più piccola fra le σ-algebre che contengono A, tale che P ∗ (A) = P (A) per ogni A in A. CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ 16 Il valore della condizione (c′′ ) rispetto a probabilità definite tramite (a′ ) − (b′ ) si può apprezzare ricordando che la richiesta di (c′′ ) equivale ad una condizione di continuità di P lungo successioni monotone di eventi. Se (An )n>1 è una successione di insiemi tali che An ⊂ An+1 per ogni n > 1, allora si dirà che la successione è monotona non decrescente; analogamente, la successione (Bn )n>1 per cui Bn ⊃ Bn+1 , per ogni n > 1, si dice monotona non crescente. Per tali successioni si definisce il limite come segue: ∪n>1 An nel primo caso, ∩n>1 Bn nel secondo; una probabilità P si dice continua lungo (An )n>1 , [(Bn )n>1 , rispettivamente] se lim P (An ) = P (∪n>1 An ) n→+∞ [limn→+∞ P (Bn ) = P (∩n>1 Bn ), rispettivamente]. La suddetta forma di continuità delle misure di probabilità è completamente descritta dal Teorema 1.4.3. Sia P una funzione da S in [0, 1] che soddisfa (a′ ) − (b′ ). Valgono allora le due affermazioni seguenti: (i) Se P è anche una misura di probabilità (soddisfa (c′′ )), allora P è continua lungo ogni successione monotona. (ii) Se P è continua lungo le successioni monotone di eventi decrescenti verso l’evento impossibile, allora P è una misura di probabilità. Di particolare interesse, nel terorema testé enunciato, è il punto (ii) il quale fornisce un criterio comodo, in certi casi, per controllare se una misura è, anche, una misura di probabilità. Approfondimenti e applicazioni di questi aspetti saranno trattati in corsi più avanzati del biennio magistrale. Concludiamo con la dimostrazione della fondamentale proprietà di subattività, finita e σ–finita. Teorema 1.4.4. Sia P una misura di probabilità su (Ω, S), e E1 , E2 , . . . siano eventi appartenenti a S. Allora (i) P (E1 ∪ · · · ∪ En ) 6 (ii) P (∪k>1 Ek ) 6 P Pn k>1 k=1 P (Ek ) per ogni n. P (Ek ). Dimostrazione. (i) Scriviamo E1 ∪ · · · ∪ En come unione di eventi a due a due incompatibili c E1 ∪ · · · ∪ En = E1 ∪ (E2 ∩ E1c ) ∪ (E3 ∩ E1c ∩ E2c ) · · · ∪ (En ∩ E1c ∩ · · · ∩ En−1 ). 1.4. PROBABILITÀ SU SPAZI INFINITI E DEFINIZIONE DI PROBABILITÀ SU σ -ALGEBRE17 Allora, dalla (b′ ) della definizione di probabilità, c P (E1 ∪ · · · ∪ En ) = P (E1 ) + P (E2 ∩ E1c ) + P (E3 ∩ E1c ∩ E2c ) + · · · + P (En ∩ E1c ∩ · · · ∩ En−1 ) 6 P (E1 ) + . . . P (En ) (per la (1.2)). 18 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ Capitolo 2 Numeri aleatori - Distribuzioni di probabilità 2.1 Considerazioni introduttive al concetto di variabile aleatoria Supponiamo che un tiratore punti a un bersaglio circolare di raggio 3, e riceva punteggio 3,2,1 rispettivamente nei casi in cui colpisca il cerchio più interno di raggio 1, la corona circolare di raggio non minore di 1 e minore di 2, la restante corona circolare. Il tiratore non riceve alcun punto se non colpisce il cerchio di raggio 3. Si pone il problema di descrivere adeguatamente il guadagno del tiratore che, ovviamente, è di entità aleatoria. Molti problemi concreti si presentano nella forma di quello testé descritto. L’avverbio adeguatamente si riferisce alla proposta di un modello matematico aderente alle situazioni concrete del tipo di quella considerata e, contemporaneamente, abbastanza generale. A questo fine, nella teoria delle probabilità moderna si procede fissando, dapprima, un opportuno spazio di casi elementari, tale che la grandezza aleatoria in esame [punteggio, nel caso del tiratore] sia riprodotta da una conveniente funzione definita sullo spazio dei casi elementari predisposto in partenza. Allora, nell’esempio del tiratore possiamo identificare lo spazio dei casi elementari Ω con R2 . Posto ciò, il punteggio si può scrivere come funzione X da Ω in R nel modo seguente. Si pone ω = (x, y) e, quindi, X = X(ω) = 11{2<kωk63} (ω) + 2 · 11{1<kωk62} (ω) + 3 · 11{kωk61} (ω), 19 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ 20 dove con k(x, y)k si denota la radice quadrata, in senso aritmetico, di (x2 +y 2 ) e 11A indica la funzione indicatrice di A, ossia la funzione definita da 11A (ω) = 1 se ω appartiene ad A e 11A (ω) = 0 se ω non appartiene ad A. Si prenda in considerazione un altro esempio, più realistico del precedente, concernente l’affidabilità di un sistema. Si esamina, per l’appunto, il funzionamento di un sistema costituito da n elementi detti componenti. Ciascuno di questi ultimi, in un certo istante, può risultare efficiente [situazione che si designa, convenzionalmente, con la cifra 1] oppure guasto [circostanza che si indica con la cifra 0]. Allora, lo stato del sistema si può identificare , con riferimento a un dato istante, con un vettore ω = (x1 , . . . , xn ) con componenti in {0, 1}: xi = 0 oppure 1 a seconda che l’i-esimo elemento del sistema sia, all’epoca considerata, guasto oppure efficiente. Possiamo dunque riguardare l’insieme Ω = {0, 1}n di tutti questi vettori come spazio dei casi elementari quando si voglia esam- inare lo stato del sistema, che è generalmente aleatorio se riferito ad un istante futuro come avviene, del resto, nelle applicazioni più interessanti della teoria e delle tecniche dell’affidabilità. Si noti che Ω contiene 2n elementi. Dunque, per descrivere lo stato del sistema alla data futura fissata, si introduce una variabile aleatoria detta, nel caso specifico, funzione struttura del sistema, che vale 1 in corrispondenza agli elementi di Ω per i quali il sistema è efficiente e vale 0 in corrispondenza ai restanti. Si possono citare diversi tipi di funzione struttura. Ad esempio, per un sistema che funziona in serie [il sistema è efficiente solo se tutti gli elementi sono efficienti], la funzione struttura sarà definita come ϕs = ϕs (ω) = min{x1 , . . . , xn } = n n Y k=1 xk per ω = (x1 , . . . , xn ) ∈ {0, 1}n. Invece, per un sistema funzionante in parallelo [il sistema è efficiente se almeno un suo componente è tale], la funzione struttura è data da ϕp = ϕp (ω) = max{x1 , . . . , xn }, n per ω = (x1 , . . . , xn ) ∈ {0, 1}n. Venendo alla presentazione generale, si dice elemento aleatorio o variabile aleatoria ogni funzione definita su uno spazio di casi elementari. Se la funzione è costante, la variabile non è, di fatto, aleatoria, e, per comodità espositiva, non si conia un apposito simbolo per indicarla e si continua ad usare il simbolo della costante. Concretamente ogni variabile aleatoria corrisponde a un fenomeno (aleatorio) osservabile del quale non è generalmente possibile – per carenza d’informazione – predire la vera determinazione. Tale determinazione è però fissata in corrispondenza a ogni caso elementare contenuto in Ω. 2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 21 2.2 Distribuzione di probabilità di una variabile aleatoria Un fenomeno osservabile diviene rilevante dal punto di vista probabilistico quando se ne fissi una legge di probabilità, ovvero, in parole molto povere, si stabiliscano dei gradi di probabilità per le determinazioni possibili del fenomeno stesso. Quando il fenomeno viene rappresentato nella forma di un elemento aleatorio, diciamo ξ, la sua legge di probabilità – indichiamola con Pξ – viene generalmente detta distribuzione di probabilità di ξ. Essa si esprime per mezzo di una probabilità sopra una classe di parti del codominio di ξ. In particolare, se è fissata una probabilità P sopra una classe di parti di Ω – tipicamente una σ-algebra S – la distribuzione di ξ viene a dipendere significativamente da P . Più precisamente, se C è una classe di sottoinsiemi del codominio – o di un insieme C che contiene il codominio – di ξ, e se {ω ∈ Ω : ξ(ω) ∈ A} è un elemento di S per ogni A in C [in questo caso, la funzione ξ è detta misurabile rispetto a S/C], allora la probabilità che la variabile aleatoria ξ prenda una determinazione contenuta in A è pari al valore di P in corrispondenza all’evento {ω ∈ Ω : ξ(ω) ∈ A}. Quindi vale Pξ (A) = P {ω ∈ Ω : ξ(ω) ∈ A}, (A ∈ C). (2.1) Conviene far notare subito che nelle applicazioni concrete della probabilità l’assegnazione di Pξ precede, generalmente, quella di P . Può darsi il caso che vengano fissate le leggi di probabilità di k variabili aleatorie, con k > 2, prima comunque che venga precisata una probabilità P su una classe di parti di Ω. Quindi, se per esigenze di esposizione matematica si presentasse la necessità di ricondurre ciascuna della Pξ a una medesima P sopra una classe di parti di Ω, allora si procederebbe – ove possibile – a definire convenzionalmente sia S sia P in modo che la suddetta condizione di misurabil- ità e la (2.1) valgano – con riferimento a tali S e P – per ogni ξ. Ora ci limitiamo a dare qualche dettaglio della procedura indicata nel caso in cui C è un sottoinsieme di R e ξ, perciò, è un numero aleatorio. Si tratta di una situazione particolarmente significativa in vista delle applicazioni che se ne fanno. Prima di procedere, avvertiamo, una volta per tutte, che le probabilità di cui si tratterà d’ora in poi sono da considerare misure di probabilità, ovvero probabilità σ-additive, e le variabili aleatorie sono da supporre funzioni misurabili. 22 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ 2.2.1 Distribuzione di probabilità e funzione di ripartizione di un numero aleatorio Senza ledere seriamente la generalità del discorso, consideriamo ξ con C = R. In questo caso, si usa fissare C coincidente con la più piccola σ-algebra (di parti di R) contenente tutti i sottoinsiemi aperti di R. Essa è nota come σ-algebra di Borel su R e viene indicata con B(R). E’ evidente che intervalli come (−∞, a) appartengono a B(R); inoltre poiché (−∞, a] = ∩n>1 (−∞, a + 1 n ], anche le semirette semichiuse (−∞, a] sono contenute in B(R). Di conseguenza si scopre che tutti gli intervalli sono insiemi boreliani. Dati un numero aleatorio ξ e la sua distribuzione Pξ , si considera la restrizione di Pξ all’insieme delle semirette {(−∞, a] : a ∈ R}: (−∞, a] → Pξ ((−∞, a]) con a variabile in R. Si nota che questa restrizione si può interpretare come funzione della variabile reale a e scrivere Fξ (a) := Pξ ((−∞, a]) (a ∈ R). La funzione di variabile reale a 7→ Fξ (a) si dice funzione di ripartizione di ξ. Essa gode di talune proprietà che conviene porre in evidenza. La prima concerne la monotonia di Fξ e, cioè, il fatto che Fξ è monotona non decrescente. Ciò è dovuto all’implicazione (−∞, a] ⊂ (∞, a + h] se h > 0, la quale, unitamente alla monotonia della probabilità (cf. 1.2), implica Fξ (a) = Pξ ((−∞, a]) 6 Pξ ((−∞, a + h]) = Fξ (a + h) per ogni a in R e h > 0. In conseguenza della monotonia, gli eventuali punti di discontinuità di Fξ costituiscono un insieme numerabile (finito o numerabilmente infinito). Fra le proprietà di Fξ vanno senz’altro annoverate quelle relative al comportamento ai limiti: lim Fξ (x) = 0, x→−∞ lim Fξ (x) = 1, x→+∞ (2.2) e alla continuità da destra in eventuali punti a di discontinuità: lim Fξ (x) = Fξ (a). x→a+ (2.3) Le (2.2), (2.3) sono conseguenza della continuità delle misure di probabilità (cf. Teorema 1.4.3) e della monotonia di Fξ . Infatti ∅ si può vedere come limite della successione (−∞, −n], n = 1, 2, . . . , per n → +∞. Quindi, 0 = Pξ (∅) = lim Pξ ((−∞, −n]) = lim = Fξ (−n). n→+∞ n→+∞ Per stabilire che vale la prima delle (2.2), basta ricordare che Fξ è monotona non decrescente, condizione che implica l’esistenza di limx→−∞ Fξ (x). Analogamente, si dimostra 2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 23 la seconda delle (2.2) osservando che R si può vedere come limite della successione crescente (−∞, n], n = 1, 2, . . . . Pertanto, per continuità, 1 = Pξ (R) = lim Pξ ((−∞, n]) = lim = Fξ (n) n→+∞ n→+∞ e la tesi segue, ancora una volta, dalla monotonia di Fξ . Finalmente, per dimostrare (2.3), si applica la continuità delle misure di probabilità onde ricavare Fξ (a) = Pξ ((−∞, a]) = lim Pξ ((−∞, a + n→+∞ 1 1 ]) = lim Fξ (a + ); n→+∞ n n allora, poiché limx→a+ Fξ (x) esiste in virtù della monotonia di Fξ , ricaviamo Fξ (a) = lim Fξ (a + n→+∞ 1 ) = lim Fξ (x). n x→a+ Si ha Pξ {(a, b]} = Fξ (b) − Fξ (a) purché si convenga di porre Fξ (−∞) = 0. Inoltre, Pξ (a, +∞) = 1 − Fξ (a) per −∞ 6 a < +∞. In definitiva, data una funzione di ripartizione, si possono fissare immediatamente le probabilità degli intervalli aperti a sinistra e chiusi a destra. D’altro canto, per la continuità di Pξ (cfr. Paragrafo 1.4), poiché (a, b) = limn→+∞ (a, b − 1/n] vale per ogni a, b per cui −∞ 6 a < b < +∞, si ha Pξ (a, b) = limn→+∞ Pξ (a, b − 1/n], ovvero Pξ (a, b) = Fξ (b− ) − Fξ (a) (2.4) dove f (x− 0 ) indica limx→x− f (x) (purché il limite esista). Infatti, ((a, b − 1/n])n>1 costitu0 isce una successione crescente di insiemi verso l’aperto (a, b) e, pertanto, in virtù della (i) del Teorema 1.4.3 si ha Fξ (b − 1/n) − Fξ (a) = Pξ ((a, b − 1/n]) → Pξ (a, b) per n → +∞ e, inoltre, essendo Fξ monotona non decrescente, limn Fξ (b − 1/n) = Fξ (b− ). Vale anche Pξ {[a, b]} = Fξ (b) − Fξ (a− ) e, in particolare, per a = b = x0 Fξ (x0 ) − Fξ (x− 0 ) = Pξ {x0 }. Ciò chiarisce che l’eventuale salto di Fξ in x0 coincide con la probabilità concentrata nel singoletto {x0 }. Chiaramente, Pξ {x0 } = 0 se e solo se x0 è un punto di continuità per Fξ . D’ora in poi caratterizzeremo spesso la distribuzione di probabilità di una variabile aleatoria mediante la sua funzione di ripartizione. CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ 24 2.2.2 Perché la funzione di ripartizione merita attenzione L’importanza della funzione di ripartizione è legata ad un teorema in base al quale una distribuzione di probabilità su (R, B(R)) (o, equivalentemente, la distribuzione di pro- babilità di un numero aleatorio) è completamente determinata dalla conoscenza della relativa funzione di ripartizione. Una formulazione precisa si ottiene introducendo la definizione di funzione di ripartizione astraendo da quella di un numero aleatorio: si dice funzione di ripartizione su R una qualunque funzione F : R → R monotona non decrescente che soddisfa (2.2) e (2.3) con F al posto di Fξ . Allora, il risultato annunciato si puó formulare come segue Teorema 2.2.1. Data una funzione di ripartizione su R, F, esiste una ed una sola misura di probabilità µ∗ su B(R) tale che µ∗ (−∞, x] = F (x) valga per ogni x ∈ R. In preparazione alla dimostrazione consideriamo la classe di intervalli I := {(a, b], (c, +∞) : −∞ 6 a < b < +∞, x > −∞} e mostriamo che la classe U di tutte le unioni finite e disgiunte di tali intervalli è l’al- gebra generata da I. Poiché ogni algebra contenente I deve contenere anche U, basta Un dimostrare che U è un’algebra. Infatti, se A = k=1 Ik 1 è una unione finita e disgiun- ta di elementi di I, è evidente che Ac è dello stesso tipo e, quindi, è un elemento di Un′ U. Se anche B = k=1 Ik′ è una unione finita e disgiunta di elementi di I, si verifica facilemnte che tale rimane A ∩ B. Infine, R = (−∞, +∞) ∈ I ⊂ U e, con questo, si può concludere che U è un’algebra. L’algebra U genera, a sua volta, la classe di Borel. Per questo, basta dimostrare che ogni σ-algebra contenente U contiene tutti gli intervalli aperti (a, b). A tal fine, si osserva che ogni σ-algebra siffatta deve contenere le unioni ∪n>1 (a, b − 1/n] = (a, b) essendo (a, b − 1/n] elementi di I ⊂ U per n = 1, 2, . . . . Dimostrazione del Teorema 2.2.1. Per ogni elemento di I, poniamo µ((c, +∞)) = Pn Un 1 − F (c), µ((a, b]) = F (b) − F (a) con F (−∞) := 0 e, per A = k=1 Ik , µ(A) = k=1 µ(Ik ). Verifichiamo che µ è una misura di probabilità su U. In primo luogo ci accertiamo che µ è una funzione su U. Infatti, ogni elemento di U ammette più di una rappresentazione – dovuta al fatto che ogni elemento di I può a sua volta essere decomposto nella unione di due intervalli disgiunti – e noi dobbiamo verificare che µ è insensibile alle diverse rappresentazioni di uno stesso elemento di U. A questo fine, basta appurare che tale “insensibilità” sussiste se si considera (a, α] ∪ (α, b] al posto di (a, b] e (c, α] ∪ (α, +∞) al posto di (c, +∞), con α in (a, b] nel primo caso e α in (c, +∞) nel secondo. In effetti, si ha 1 U denota l’unione di insiemi disgiunti a dua a due 2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 25 µ((a, α]∪(α, b]) = µ((a, α])+ µ((α, b]) = F (α)− F (a)+ F (b)− F (α) = F (b)− F (a) = µ((a, b]) e µ((c, α] ∪ (α, +∞)) = µ((c, α]) + µ((α, +∞)) = F (α) − F (c) + 1 − F (α) = µ((c, +∞)). Ora, è immediato verificare che µ(R) = 1 e che µ è (grazie alla sua costruzione) finitamente additiva. Per completare la verifica, sarebbe sufficiente mostrare che per ogni (Ak )k>1 ⊂ U tale che Ak ց ∅ si ha µ(Ak ) ց 0 per k → +∞, cfr. Teorema 1.4.3 (ii). Il fatto che (µ(Ak ))k>1 sia monotona non crescente segue dall’addidività finita e da (1.2). Verifichiamo subito che per ogni ε > 0 si può trovare un sottoinsieme limitato e non vuoto di A′k di Ak tale che Ak ⊃ A′k (chiusura di A′k ) e µ(Ak \ A′k ) 6 ǫ/2k per k = 1, 2, . . . . Poiché ogni Ak è unione finita e disgiunta di elementi di I, possi- amo limitarci a mostrare che la suddetta proprietà di approssimazione sussiste per ogni singolo elemento di I. In effetti dati ε, (a, b], (c, +∞) si ha [α, b] ⊂ (a, b] per ogni a < α 6 b e [β, γ] ⊂ (c, +∞) per ogni c < β < γ < +∞. Quindi sfruttando la continuità da destra della funzione di ripartizione F , possiamo fissare α abbastan- za vicino ad a in modo che µ((a, b] \ (α, b]) = F (α) − F (a) sia minore di ε; inoltre, da µ((c, +∞) \ (β, γ]) = µ((c, β]) + µ((γ, +∞)) = F (β) − F (c) + 1 − F (γ) vediamo che possiamo fissare β sufficientemente vicino a c (rispettivamente, γ abbastanza grande) in modo che F (β) − F (c) 6 ε/2 (rispettivamente, 1 − F (γ) 6 ε/2, ricordando che F (γ) ր 1 se γ → +∞). Segue l’esistenza della successione (A′k )k>1 con la disiderata proprietà di approssimazione. Ora, posto Ck = ∩kj=1 A′j per k = 1, 2, . . . , si ha che (Ck )k>1 è una successione decrescente di compatti con Ck ⊂ overlineA′k ⊂ Ak e, quindi, Ck ց ∅ per k → +∞, ovvero ∩k>1 Ck = ∅. Per un classico teorema (di Cantor) deve allora esistere un intero positivo N per il quali ∩N k=1 Ck = ∅. ′ Ciò implica ∩N k=1 Ak = ∅ e, per n > N , si ha µ(An ) = µ(An \ ∩nk=1 A′k ) = µ(An ∩ (∪nj=1 (A′j )c )) = µ(∪nj=1 (An \ A′j )) 6 µ(∪nj=1 (Aj \ A′j )) (perché An ⊃ Aj se j 6 n) 6 6 n X j=1 n X j=1 µ(Aj \ A′j ) (subadditività implicata dalla additività finita di µ su U) ε 6 ε. 2j Data l’arbitrarietà di ε, la precedente implica µ(An ) → 0, come restava da dimostrare per concludere che µ è misura di probabilità su U. Ricorrendo al teorema di Carathéodory (cfr. Teorema 1.4.2) si può allora affermare che esiste una ed una sola misura di proba- bilità µ∗ sulla σ-algebra generata da U, ovvero B(R), per la quale µ∗ (A) = µ(A) su ogni A in U e, in particolare µ∗ ((−∞, x]) = F (x) per ogni x in R. z CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ 26 Come conseguenza del teorema si ottiene che, data una funzione di ripartizione F , esiste (almeno) un numero aleatorio ξ la cui funzione di ripartizione Fξ coincide con F su R. 2.2.3 Funzioni di ripartizione di numeri aleatori discreti Iniziamo con la caratterizzazione delle cosiddette distribuzioni discrete. Sia S un sottoinsieme numerabile di R e sia ξ un numero aleatorio il cui codominio è contenuto in S. Allora, indicata come al solito la distribuzione di ξ con Pξ , risultano soddisfatte le relazioni seguenti Pξ (S c ) = 0, Pξ {s} > 0 per ogni s ∈ S, X s∈S Pξ {s} = 1. La distribuzione, come pure la funzione di ripartizione di ξ e, a volte, la ξ stessa, in questo caso viene detta, con leggero abuso di linguaggio, discreta. Conviene osservare che il grafico di una funzione di ripartizione discreta in cui l’insieme {s ∈ S : Pξ {s} > 0} è formato da punti isolati, si presenta come un diagramma a gradini; ovvero, se con xi si denotano gli elementi di S in ordine crescente, lo stralcio del- la funzione di ripartizione attorno agli elementi consecutivi xi−1 < xi < xi+1 apparirà come nella Figura 2.1 dove pi := Fξ (xi ) − Fξ (xi−1 ) rappresenta Pξ {xi }. Figura 2.1: Funzione di ripartizione di una distribuzione discreta. Diamo ora alcuni notevoli esempi di distribuzioni discrete. Distribuzione binomiale Siano n un intero positivo e θ un elemento fissato dell’intervallo [0, 1], ξ un numero aleatorio che prende valori in S = {0, 1, 2, . . . n}. La distribuzione di ξ si dice binomiale con parametro (n, θ) [in simboli Bn,θ ] se n k Pξ {k} = θ (1 − θ)n−k k per k = 0, 1, 2, . . . , n. 2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 27 Si osserva immediatamente che nk θk (1 − θ)n−k è non negativo. (Si faccia la convenzione di assumere nk θk (1 − θ)n−k = 1 se θ = 0 e k = 0 oppure se θ = 1 e k = n.) Inoltre, per la formula dello sviluppo del binomio, cf. (A.1), vale n n X X n k Pξ {k} = θ (1 − θ)n−k = [θ + (1 − θ)]n = 1. k k=0 k=0 Confrontando Pξ {k} con la parte finale dell’Esempio 1.3.3, si vede che per θ = R/N , Bn,θ è la distribuzione del numero aleatorio ξ =′′ numero di bianche estratte in n estrazioni con restituzione′′ . L’interpretazione di Bn,θ si arricchirà di nuovi elementi interessan- ti dopo aver introdotto, nel Capitolo 3, la nozione di indipendenza stocastica; cf. la Sottosezione 3.3.1. Distribuzione ipergeometrica Consideriamo ancora un numero aleatorio ξ con n ed S come nel paragrafo precedente. Per quanto concerne θ si assume che esso coincide con R/N . La distribuzione di ξ si dice ipergeometrica se Pξ {k} = n N θ(N θ−1)...(N θ−k+1)(N −N θ)(N −N θ−1)...(N −N θ−n+k+1) N (N −1)...(N −n+1) k se n 6 N , N θ + n − N 6 k 6 N θ 0 altrove. In seguito indicheremo tale distribuzione con H(k; θ, N, n). Si vede facilmente, con- frontandola con la probabilità ottenuta nella prima parte dell’Esempio 1.3.3 che Pξ {k} è la probabilità di avere k palline bianche in n estrazioni senza restituzione da un’urna che contiene N palline di cui N θ = R bianche, quando tutte le n–uple estraibili siano ritenute ugualmente probabili. Si può mostrare che la probabilità ipergeometrica si avvicina uniformemente a quella binomiale al divergere a all’infinito del rapporto N/n. In altre parole, se il numero delle palline contenute nell’urna è grande rispetto a quello delle estratte, allora la probabilità ipergeometrica si può ben approssimare con quella binomiale; l’approssimazione migliora uniformemente se il divario fra i due numeri n ed N aumenta divergendo all’infinito. La validità di queste affermazioni segue dalle seguenti disuguaglianze 1 n−k−1 ) n N θN (θ − N1 ) . . . N (θ − k−1 N )N (1 − θ)N (1 − θ − N ) . . . N (1 − θ − N H(k; θ, N, n) > k Nn k−1 1 n−k−1 1 n )(1 − θ)(1 − θ − ) . . . (1 − θ − ) = θ(θ − ) . . . (θ − N N N N k k n−k k n n−k > θ− 1−θ− ; k N N CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ 28 Nn n k θ (1 − θ)n−k k N (N − 1) . . . (N − n + 1) N θ . . . (N θ − k + 1)(N − N θ) . . . (N − N θ − (n − k) + 1) (N θ)k (N − N θ)n−k Nn n k 1 n k < θ (1 − θ)n−k . < θ (1 − θ)n−k N (N − 1) . . . (N − n + 1) (1 − n/N )n k k H(k; θ, N, n) = Distribuzione di Poisson Sia ξ una variabile aleatoria tale che Pξ {k} = λk e−λ k! valga per ogni k intero non negativo con λ parametro strettamente positivo assegnato. La funzione k 7→ Pξ {k} genera una distribuzione di probabilità su B(R) in quanto Pξ {k} > 0 per ogni k = 0, 1, 2, . . . e, inoltre, X k>0 Pξ {k} = X λk e−λ k! k>0 = e−λ eλ = 1. Tale distribuzione si dice di Poisson. Essa viene spesso utilizzata come legge del numero aleatorio degli arrivi in una coda, o di un numero aleatorio di nascite in un’unità di tempo. È interessante osservare che la si può leggere come limite di una successione di distribuzioni binomiali. Più precisamente, per ogni n > 1 si definisca la distribuzione binomiale Bn,θn con θn = λ n + o(1/n), n → +∞: n k Bn,θn {k} = θ (1 − θn )n−k . k n Quindi, per k = 0, 1, . . . , n, 1 Bn,θn {k} = n(n − 1) · · · (n − k + 1) k! = λ +o n k n−k λ 1 1 1− +o = n n n k n−k 1 k−1 λ 1 1 1 n→+∞ 1 ··· 1 − λ+n·o 1− +o −−−−−→ λk e−λ . 1 1− k! n n n n n k! Distribuzione binomiale negativa I numeri n+r−1 n θ (1 − θ)r , r r = 0, 1, . . . 2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 29 sono ovviamente strettamente positivi quando n è un intero fissato maggiore di zero e θ è un numero qualunque in (0, 1). Inoltre, sotto queste medesime condizioni, X n + r − 1 r>0 r θn (1 − θ)r = X (n + r − 1) · · · n r! r>0 X θn (1 − θ)r (−n)(−n − 1) · · · (−n − r + 1) n θ (1 − θ)r r! r>0 X −n n θ (1 − θ)r = (−1)r r = (−1)r r>0 = θn [1 − (1 − θ)]−n = 1. Quindi, Pξ {r} = n+r−1 n θ (1 − θ)r r r = 0, 1, . . . definisce una distribuzione di probabilità discreta che è nota come legge binomiale negativa. Vedremo che nello schema di eventi indipendenti con probabilità fissa θ, descritto n nel prossimo capitolo, n+r−1 · ·θ (1 − θ)r fornisce la probabilità che l’n-esimo successo r si verifichi nella (n + r)-esima prova. Quando n = 1, la distribuzione è detta geometrica o di Pascal; legge del tempo in cui si verifica il primo successo. 2.2.4 z Funzioni di ripartizione assolutamente continue Consideriamo ora una funzione non negativa f : R → R+ , integrabile su R e tale che Rb R +∞ f (x) dx = 1, ovvero lima→−∞,b→+∞ a f (x) dx = 1. A tale f associamo la funzione −∞ integrale F (x) = Z x f (t) dt −∞ (x ∈ R). Si dimostra facilmente che F è monotona non decrescente, con limx→−∞ F (x) = 0 e limx→+∞ F (x) = 1. Inoltre, F è continua ovunque e, da questo punto di vista, presenta una forma di continuità speciale che si chiama assoluta continuità: F è derivabile quasi ovunque e vale F ′ (x) = f (x) quasi ovunque. (Una proprietà si dice valida quasi ovunque su R se l’eventuale insieme su cui non vale è ricopribile per ogni ε > 0 con una classe numerabile di intervalli la somma delle cui lunghezze non supera ε.) La funzione f è nota come funzione di densità della funzione di ripartizione F . Proseguiamo con qualche esempio notevole di funzione di ripartizione assolutamente continua. 30 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ Distribuzione uniforme Fissato l’intervallo non vuoto e limitato (a, b) si consideri la funzione f (x) = che, ovviamente, vale 1 b−a 1 11(a,b) (x) b−a su (a, b) ed è nulla altrove. Tale funzione è non negativa e Z +∞ Z b 1 dx = 1. f (x) dx = b − a +∞ a Quindi, f è una funzione di densità [cf. Figura 2.2] che, per la sua forma, è detta uniforme su (a, b). 1/(b−a) a b Figura 2.2: Densità uniforme La corrispondente funzione di ripartizione [cf. Figura 2.3] è data da F (x) = Z x −∞ 0 x−a 1 11(a,b) (t) dt = b−a b−a 1 se x6a se a<x6b . se x>b Distribuzione esponenziale negativa e, più in generale, gamma Si suddivida l’asse dei tempi nella successione d’intervalli contigui: [0, ∆], (∆, 2∆], (2∆, 3∆], . . .. Al j-esimo di tali intervalli sia associato l’evento Ej,∆ “si verifica almeno un 2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 31 Figura 2.3: Funzione di ripartizione con densità uniforme guasto, in un certo impianto, nel j-esimo intervallo temporale”, j = 1, 2, . . . La probabilità di ciascun Ej,∆ sia λ∆ + o(∆) (∆ → 0), dove λ è un parametro positivo. Anticipando argomenti trattati nei Capitoli 3 e 4, se si fa l’ipotesi che i numeri (aleatori) di eventi, che si verificano in intervalli disgiunti, sono stocasticamente indipendenti con probabilità che dipendono solo dalle lunghezze degli intervalli, allora l’espressione (1 − λ∆ + o(∆))k dà la probabilità che il primo evento (guasto) si manifesti dopo l’istante k∆. Fissiamo t > 0 e consideriamo l’evento At = ”nessun guasto si verifichi prima di t ”. Considerato che la parte intera del rapporto (t/∆), [t/∆], corrisponde al numero di intervalli completi contenuti in [0, t], si ha A([t/∆]+1)∆ ⊂ At ⊂ A([t/∆])∆ e, per la monotonia della probabilità [vedi (1.2)] P robA([t/∆]+1)∆ 6 P robAt 6 P robA([t/∆])∆ . Si osservi ora che valgono P robA([t/∆])∆ = (1 − λ∆ + o(∆))[t/∆] , P robA([t/∆]+1)∆ = (1 − λ∆ + o(∆))[t/∆]+1 , (2.5) 32 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ e che, per il limite notevole che definisce la base dei logaritmi neperiani, le (2.5), convergono, per ∆ tendente a 0, a e−λt . Quindi per il teorema del confronto, se ξ denota l’istante in cui si verifica il primo guasto nel modello a tempo continuo, il valore sopra determinato rappresenta Pξ (t, +∞). In altri termini Pξ (−∞, t] = 1 − e−λt fornisce, per ogni t > 0, la probabilità che il primo guasto si verifichi non oltre t. Si vede agevolmente che la funzione 0 F (t) = 1 − e−λt t60 t>0 è di ripartizione. Inoltre, poiché F (x) = Z x λe−λt 11(0,+∞) (t) dt −∞ vale per ogni x, ricaviamo che F è assolutamente continua con densità λe−λt 11(0,+∞) (t). Essa è detta distribuzione esponenziale negativa. Sotto le stesse condizioni d’indipendenza stocastica, ma con calcoli necessariamente più elaborati, si trova che la probabilità di avere un numero di guasti non superiore a (m − 1), nell’intervallo [0, t) è data da 1− λm (m − 1)! Z t y m−1 e−λy . 0 Denotato allora con ξm l’istante aleatorio in cui si verifica l’m-esimo guasto, risulterà Z t λm Pξn (t, +∞) = 1 − y m−1 e−λy dy. (m − 1)! 0 Nella teoria delle funzioni speciali si chiama funzione gamma la seguente Z +∞ z 7→ Γ(z) := xz−1 e−x dx (z > 0). 0 Integrando per parti, si scopre che essa soddisfa la relazione Γ(z + 1) = zΓ(z) (z > 0) e, quindi, se z = m intero positivo, si ricava Γ(m + 1) = m!. Per quanto detto, f (x) = 0 λm m−1 −λx x e Γ(m) se x < 0 se x > 0 è una funzione di densità di probabilità la cui corrispondente funzione di ripartizione (assolutamente continua) Z F (x) = x −∞ λm m−1 −λu u e 11(0,+∞) (u) du Γ(m) (x ∈ R) 2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 33 si chiama funzione di ripartizione gamma, come la distribuzione di probabilità che essa genera. Si è visto, dunque, che essa rappresenta, sotto opportune condizioni, la legge dell’istante di accadimento dell’m-esimo di una successione di eventi. Notiamo che la distribuzione esponenziale negativa è un caso particolare di distribuzione gamma (con m = 1). Completiamo le informazioni sulla funzione gamma aggiungendo che vale Γ(1/2) = √ π. Infatti, Z +∞ Z +∞ √ 2 −1/2 −x Γ(1/2) = x e dx = 2 e−t dt (per il cambiamento di variabile t = x). 0 Ora, posto I := 0 R +∞ 0 2 e−t dt, si ottiene 2 I = Z 0 +∞Z +∞ e−(x 2 +y 2 ) dxdy 0 e, passando a coordinate polari, I2 = Z 0 π/2Z +∞ 2 e−ρ ρ dρdθ = 0 Z π/2 0 √ √ Pertanto, I = π/2 e Γ(1/2) = 2I = π. π 1 dθ = . 2 4 Distribuzione gaussiana Si tratta di una distribuzione assolutamente continua avente densità 1 (x − m)2 f (x) = √ exp − (x ∈ R) 2σ 2 σ 2π con m, σ parametri: m ∈ R, σ > 0. Per convincersi che f è una densità basta osservare che essa è strettamente positiva su R e che Z +∞ Z +∞ √ 1 √ exp(−y 2 ) dy f (x) dx = (col cambiamento di variabile y = (x − m)/σ 2 ) π −∞ −∞ Z +∞ 2 2 e−y dy (per simmetria) = √ π 0 =1 (cf. la fine della sottosezione precedente). La corrispondente funzione di ripartizione è data da F (x) = 1 √ σ 2π Z x e− −∞ (y−m)2 2σ2 1 dy = √ 2π Z (x−m)/σ −∞ La funzione di densità di probabilità 2 x 1 x 7→ √ exp − 2 2π (x ∈ R) e− ξ2 2 dξ. (2.6) 34 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ è la cosiddetta densità gaussiana standard la cui funzione di ripartizione si denota, usualmente, con Φ. Allora, in virtù di (2.6), si ha F (x) = Φ x−m σ (x ∈ R). L’importanza della distribuzione gaussiana è legata al teorema centrale del limite, teorema al quale accenneremo in una delle prossime lezioni. Cf. Capitolo 7. z 2.2.5 Funzioni di ripartizione di natura qualunque. Cenni Un teorema di Lebesgue permette di stabilire che ogni funzione di ripartizione si decompone, in un unico modo, nella combinazione convessa di funzioni di ripartizione di tre tipi: discreta, assolutamente continua, continua–singolare. Più precisamente, data una funzione di ripartizione F , esistono una terna di numeri non negativi c1 , c2 , c3 con c1 + c2 + c3 = 1 e una terna di funzioni di ripartizione Fd (discreta), Fac (assolutamente continua), Fcs (continua–singolare) tali che F = c1 Fd + c2 Fac + c3 Fcs . Qualche ci potrebbe essere nulla; finora, ad esempio, ci siamo occupati di funzioni di ripartizione con c2 = c3 = 0 oppure con c1 = c3 = 0. Illustriamo il significato del teorema di Lebesgue ricorrendo a qualche esempio. Esempio di funzione di ripartizione con componente discreta e componente assolutamente continua Si considera una tariffa adottata da una compagnia di assicurazione in base alla quale se l’importo del sinistro (assicurato) è minore di un valore prestabilito, m, la compagnia non effettua alcun risarcimento; se l’importo supera il valore M > m, allora la compagnia risarcisce M ; la compagnia rimborsa l’importo del sinistro se questo è compreso nell’intervallo [m, M ]. Ai fini della determinazione del premio – da pagarsi all’atto della stipulazione del contratto di assicurazione – la compagnia deve fissare la distribuzione del numero aleatorio associato al risarcimento. In base all’esperienza ed alle caratteristiche specifiche dei contraenti e del sinistro assicurato, la compagnia può determinare la distribuzione dell’importo del sinistro (si badi, non ancora quella del risarcimento). Supponiamo che la funzione di ripartizione di tale importo (x) sia assolutamente continua con la cosiddetta densità di Pareto p(s) = βαβ 11(α,+∞) (s) sβ+1 2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 35 dove α, β sono parametri positivi noti, con α < m. Da essa si può dedurre la legge del risarcimento (r) tenendo presente che vale r = x11[m,M] (x) + M 11(M,+∞) (x). Cf. Figura 2.4. Figura 2.4: Diagramma del risarcimento in funzione dell’importo del sinistro. Allora, indicata con F la funzione di ripartizione del risarcimento, F (z) = P {r 6 z}, si ha 0 se z < 0 Z m β βα 11 (x)dx se 0 6 z < m β+1 (α,+∞) x Z0 z F (z) = βαβ 11 (x)dx se m 6 z 6 M β+1 (α,+∞) 0 x 1 se z > M 0 se x < 0 1 − (α/m)β se 0 6 x < m . = 1 − (α/x)β se m 6 x 6 M 1 se x > M Il diagramma di questa funzione di ripartizione è visualizzata nella Fig. 2.5 Esso pone in evidenza l’esistenza di due masse concentrate in 0 e in M , esse valgono, rispettivamente, 1 − (α/m)β e (α/M )β . Consideriamo quindi la funzione di ripartizione discreta ottenuta normalizzando queste masse, ossia α β α β α β 1 + 1 1 (x) 1 − . 1 1 (x) 1 − + Fd (x) = [M,+∞) [0,M) 1 − (α/m)β + (α/M )β m m M 36 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ Figura 2.5: Funzione di ripartizione del risarcimento. Quindi, si osservi che vale α β α β α β − 11[M,+∞) (x) 1 − = F (x) − 11[0,M) (x) 1 − + m m M α β α β α β α β = 11[m,M) (x) + 11[M,+∞) (x) = − − m x m M Z x α β α β β −β−1 βα u 11(m,M) (u) du = = Fac (x) − m M −∞ e, pertanto, per ogni x in R si ha α β α β α β α β Fd (x) + Fac (x) F (x) = 1 − + − m M m M h i−1 R x α β α β β −β−1 con Fac = m 11(m,M) (u) du. − M −∞ βα u z Esempio di funzione di ripartizione continua singolare. Si dá un esempio di funzione di ripartizione su R che è ovunque continua ma (come nel caso di funzioni di ripartizione discrete) ha derivata nulla quasi ovunque. Una tale funzione di ripartizione non può allora essere assolutamente continua percheé, in tal caso, essa coinciderebbe con l’integrale della propria derivata su (−∞, x] per ogni x e, dunque, la derivata non potrebbe essere nulla quasi ovunque. L’esempio viene costruito per mezzo di un passaggio al limite, per n → +∞, dopo aver eseguito n “passi” come segue. Al passo 1, si suddivide l’intervallo unitario in tre parti e si considera una qualunque funzione F monotona non decrescente che sull’intervallo centrale [1/3, 2/3) prende valore costante = 1/2. Al passo 2, ciascuna delle parti restanti viene suddivisa in tre parti 2.3. INTERPRETAZIONI DI UNA DISTRIBUZIONE SULL’ASSE REALE 37 di uguale lunghezza e, fra le funzioni individuate nel passo 1 si considerano quelle che sugli intervalli centrali [1/9, 2/9),[7/9, 8/9) prendono valore costante uguale, rispettivamente a 1/4 e 3/4. Al passo 3, ciascuna delle 4 parti rimanenti viene suddivisa in 3 parti uguali e, fra le sunzioni individuate al passo 2 si considerano soltanto quelle che, sui tratti centrali [1/27, 2/27), [7/27, 8/27),[19/27, 20/27), [25/27, 26/27), prendono valore costante uguale, rispettivamente, a 1/8, 3/8, 5/8, 7/8. Procedendo così, dopo n passi, si considerano quelle funzioni monotone non decrescenti che prendono valore costante uguale a 1/2n, 3/2n , . . . , (2n − 1)/2n , sugli intervalli centrali (in numero di 2n−1 ) di quelli lasciati liberi dopo il passo (n − 1), ciascuno di luneghezza 1/3n. Pertanto le funzioni da considerare prima del passo successivo hanno derivata nulla sull’unione di tutti gli intervalli centrali definiti fino al passo n, unione che ha lunghezza Ln = 2n−1 1 2 + + ···+ n ; 3 9 3 inoltre, le funzioni non continue, fra quelle considerate, hanno salti di ampiezza massima αn 6 1/2n . Allora, mandando il numero dei passi a +∞, si viene ad isolare una funzione non decrescente (passa da 0 a 1) F definita su [0, 1), che è continua (perché αn → 0) e ha derivata nulla su un insieme unione di intervalli di lunghezza complessiva L = lim Ln = 1 n che è anche la lunghezza di [0, 1). Pertanto, prolungando F in una funzione G coincidendte con F su [0, 1), e che vale 0 su (−∞, 0) e 1 su [1, +∞), si ricava che G è una funzione di ripartizione continua su R con derivata quasi ovunque nulla su R e, di conseguenza, non assolutamente continua. Essa è crescente su un insieme (dei “buchi” lasciati liberi dagli intervalli su cui è costante) di misura (di Lebesgue) nulla o –equivalemntemente – distribuisce la massa unitaria in tale insieme di misura nulla. Per questo, costituisce un esempio di funzione di ripartizione singolare (rispetto alla misura di Lebesgue). 2.3 Interpretazioni di una distribuzione sull’asse reale Abbiamo finora trattato di distribuzioni di probabilità. Nel caso più elementare, si è considerato un numero aleatorio che può assumere un numero finito di determinazioni, e , quindi, la sua distribuzione fissa le probabilità con cui esso prende le determinazioni possibili. Un concetto analogo si incontra in statistica. Dati N individui, da suddividere a seconda di una certa caratteristica che ammette k modalità: µ1 , . . . , µk , si ottengono k 38 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ gruppi contenenti N1 , . . . , Nk individui, rispettivamente: N1 + · · ·+ Nk = N . Ad esempio, nella “Relazione del Nucleo di Valutazione dell’Università di Pavia” per il 1998 si legge che, per certi fini, i 1134 ricercatori vengono suddivisi per comitato; esistono 9 comitati [01: Scienze matematiche, informatiche, Ingegneria elettrica, elettronica e meccanica (128); 02: Scienze fisiche (81); . . . ; 09: Scienze economiche e statistiche (107)]. Le frazioni ϕk = Nk /N [nel caso dei ricercatori: ϕ1 = 0, 1129, ϕ2 = 0, 0714, . . .] si dicono frequenze ed è evidente che esse danno luogo ad una distribuzione che ha le stesse proprietà di una distribuzione di probabilità. Essa si chiama distribuzione statistica perché ha frequenze al posto di probabilità. Una distribuzione statistica ha comunque una interpretazione come distribuzione di probabilità: se scelgo a caso uno degli N individui (ogni individuo può uscire con probabilità 1/N ), allora la probabilità che possegga la modalità µi è ϕi . Le probabilità o le frequenze ϕ1 , . . . , ϕk sulle ascisse µ1 , . . . , µk possono essere viste, inoltre, come masse materiali, nel senso della meccanica, e la distribuzione si può allora interpretare come suddivisione della massa unitaria fra i punti µ1 , . . . , µk . Capitolo 3 Probabilità condizionata e indipendenza stocastica 3.1 Considerazioni introduttive Abbiamo trattato, finora, soltanto di probabilità di eventi che possono risultare Veri o Falsi. Tuttavia, il calcolo delle probabilità si occupa, per soddisfare esigenze applicative concrete, anche di eventi il cui campo di possibilità è limitato da qualche specifica condizione. Si parla, allora, di eventi condizionati o subordinati. Per esempio, relativamente a una partita di calcio che vedrà impegnate le squadre A e B, si può scommettere sulla vittoria di A [ricevendo una somma di denaro prestabilita se A vince e perdendo la posta se A non vince: perde o pareggia], ma si può scommettere sulla vittoria di A nell’ipotesi che la partita si chiuda con la vittoria di una delle squadre in campo. Dunque l’evento “vittoria di A” viene subordinato alla condizione che una delle due squadre vinca. Di conseguenza, lo scommettitore incassa se A vince, perde se vince B, mentre vede annullata la scommessa nel caso la partita non termini con la vittoria di una delle due squadre. Si noti la differenza rispetto alla situazione precedente della scommessa sulla vittoria di A. Una situazione concettualmente analoga si presenta – con riferimento al cosiddetto processo di apprendimento dall’esperienza – quando si debba valutare la probabilità di una certa ipotesi H subordinatamente al fatto che un determinato esperimento abbia un certo esito, fatto espresso a sua volta da un evento E. Si tratta di valutare la probabilità di H condizionatamente a un ipotetico incremento d’informazione espresso dall’evento 39 40CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA E. Siano E, H, con E 6= ∅, eventi contenuti in una classe C di parti di Ω che includa an- che l’intersezione E ∩ H. Ciò è automaticamente soddisfatto se C è un’algebra. L’evento “H condizionato da E” (detto anche evento “H subordinato a E”) si può rappresentare, come nella Figura 3.1, restringendo (come accennato all’inizio del paragrafo) le possibilità all’insieme dei casi elementari che costituiscono E e, quindi, considerando successo [rispettivamente, insuccesso] il presentarsi di un caso elementare contenuto in H ∩ E [rispettivamente, il presentarsi di un caso elementare contenuto in E \ H]. Si usa indicare l’evento “H condizionato da E” col simbolo H|E. Si noti che vale H|E = H ∩ E|E ovvero, il generico evento condizionato H|E si può scrivere in forma irriducibile come H ∩ E|E. Figura 3.1: L’evento “H condizionato da E” è vero nella zona punteggiata, falso in quella sfumata, indeterminato nella zona bianca. Veniamo a fare qualche osservazione preliminare sulla valutazione della probabilità di H|E. Supponiamo che un individuo giudichi P (E) = 0, 90 la probabilità che si verifichi E e P (H|E) = 0, 60 la probabilità che si verifichi H nell’ipotesi che E sia vero. Possiamo reinterpretare questo sistema di valutazione così: l’individuo in questione si impegna a pagare 0,60 euro nel caso si verifichi E, per ricevere 1 euro se si verifica H ∩ E; per vincere 0,60 euro nel caso si verifichi E si impegna a pagare 0,60 · 0,90=0,54 euro. In definitiva, pagando 0,54 euro, il nostro giocatore acquista il diritto a ricevere 1 euro se si verificano simultaneamente H ed E; quindi, 0,54 si può riguardare come una valutazione della probabilità di H ∩ E coerente con i valori di P (H|E) e P (E). Questo punto di vista sarebbe in accordo con quanto suggerito dalla precedente immagine geometrica. Poiché, considerare H|E significa concentrare l’attenzione ai punti contenuti in E (zona sfumata per l’insuccesso, punteggiata per il successo), allora la probabilità di 3.2. PRINCIPIO DELLE PROBABILITÀ COMPOSTE E TEOREMA DI BAYES 41 E va vista come nuova unità di misura, ovvero: P (H|E) = P (H ∩ E)/P (E), equivalente a 0, 60 = P (H ∩ E)/0, 90. 3.2 Principio delle probabilità composte e teorema di Bayes Nell’impostazione assiomatica di Kolmogorov, la probabilità di H|E [nelle condizioni dichiarate nella sezione precedente] viene definita, coerentemente alle osservazioni già svolte, come un numero P (H|E) che soddisfa la relazione (3.1) P (H|E)P (E) = P (H ∩ E) ossia il principio delle probabilità composte. Quando P (E) 6= 0, (3.1) determina la probabilità di P (H|E), P (H|E) = P (H ∩ E)/P (E), prolungando P da C a C ∪ {H|E}. A questo punto si pone in evidenza che, per un evento E fissato in un’algebra C con P (E) > 0, la funzione H 7→ P (H|E) (H ∈ C) è una misura di probabilità su C. Infatti, (1) P (H|E) = P (H ∩ E)/P (E) > 0; (2) se H appartiene a C e contiene E, allora P (H|E) = P (H ∩ E)/P (E) = P (E)/P (E) = 1, da cui, in particolare P (Ω|E) = 1; (3) se A1 , A2 , . . . e ∪n>1 An appartengono a C, con gli Ai a due a due incompatibili, allora 1 P (E ∩ (∪n>1 An )) P (E) 1 1 X = P (∪n>1 (E ∩ An )) = P (E ∩ An ) P (E) P (E) P (∪n>1 An |E) = n>1 = X n>1 X 1 P (E ∩ An ) = P (An |E) P (E) n>1 In molti casi, praticamente significativi come quello dei procedimenti di apprendimento (l’induzione statistica ne sarebbe esempio tipico), si suppongono assegnate le probabilità: – P (E|H) del risultato sperimentale data l’ipotesi H, P (E|H c ) del risultato sperimentale data H c , – P (H) dell’ipotesi (probabilità iniziale) 42CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA e si procede alla determinazione di P (H|E) (probabilità finale). Allora, dalla definizione di P (E|H), cioè P (E|H)P (H) = P (H ∩ E), segue P (E|H)P (H) = P (H|E)P (E) ovvero P (H|E) = P (E|H)P (H) P (E) se P (E) 6= 0 (3.2) che fornisce l’espressione più elementare del teorema di Bayes. Infatti, con considerazioni semplici è possibile generalizzare questo teorema a partizioni numerabili di ipotesi. Si dice che la famiglia di eventi {Hn : n > 1} è una partizione dello spazio Ω dei casi elementari se Hn 6= ∅ per ogni n, Hn ∩ Hm = ∅ se S n 6= m, n>1 Hn = Ω. Quindi, per ogni (misura di ) probabilità P , vale 1 = P (Ω) = P [ n>1 Hn = Inoltre, per ogni evento E vale [ [ E =E∩ (E ∩ Hn ) Hn = n>1 X P (Hn ). n>1 (proprietà distributiva). n>1 Quindi, risultando gli eventi E ∩ Hn , n > 1, a due a due incompatibili, si ha [disinte- grazione della probabilità di E su (Hn )n>1 ] P (E) = X n>1 (3.3) P (E ∩ Hn ). Se in un problema sono assegnate le probabilità – P (E|Hn ), n > 1 [n 7→ P (E|Hn ) è detta verosimiglianza delle ipotesi Hn , dato E], – P (Hn ), n > 1 [n 7→ P (Hn ) è detta distribuzione iniziale], si può determinare P (E) notando che (3.3) e il principio delle probabilità composte implicano P (E) = X P (E|Hn )P (Hn ) n>1 e, per il teorema “ristretto′′ di Bayes (3.2), a patto che P (E) sia strettamente positiva, si perviene alla forma classica dello stesso teorema P (E|Hn )P (Hn ) n>1 P (E|Hn )P (Hn ) P (Hn |E) = P (n > 1). (3.4) 3.2. PRINCIPIO DELLE PROBABILITÀ COMPOSTE E TEOREMA DI BAYES 3.2.1 43 Alcuni esempi Concludiamo il paragrafo con qualche esempio nel quale si applicano i concetti e le regole di calcolo esposti in precedenza. Poker Si calcoli la probabilità di realizzare, in una data mano di poker, una scala reale [la mano che comprende 10, J, Q, K, A dello stesso seme], nell’ipotesi che tutte le mani possibili abbiano la stessa probabilità. Il numero delle mani possibili è 52 5 ; quindi denotato con Ω l’insieme delle mani possibili e con ω la mano generica, si ha 52 P (ω) = 1/ . 5 Indicato con R l’evento “la mano è una scala reale”, si vede che R è formato da 4 elementi di Ω e, quindi, P (R) = 4/ 52 . 5 Poniamo ora che il mazziere scopra l’ultima carta della tua mano (la quinta); valuta la probabilità di realizzare scala reale accettando la carta scoperta che, supponiamo, è l’asso di cuori. Se denotiamo con C l’evento “la quinta carta che ti si distribuisce è l’asso di cuori”, l’evento di cui si chiede di valutare la probabilità è l’evento condizionato R|C. Il numero delle mani con la caratteristica di avere l’asso di cuori in quinta posizione (o una carta qualunque fissata in una data posizione) è 51 4 e, pertanto, 51 52 P (C) = / 4 5 e, perciò, P (R ∩ C) = P (R|C) = P (C) 51 52 P (R ∩ C)/ . 4 5 Inoltre, R ∩ C contiene un solo caso elementare: la scala reale di cuori. Pertanto, −1 P (R ∩ C) = 52 e, di conseguenza, 5 51 13 P (R). P (R|C) = 1/ = 5 4 44CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA Probabilità di essere imbrogliati Un’industria automobilistica fabbrica uno stesso modello in tre diversi stabilimenti: A, B, C. Si stima che A produce NA modelli, B produce NB modelli e C produce NC modelli, rispettivamente con una frazione pA , pB , pC di difettosi. Se acquisti, presso un concessionario, un esemplare del modello, qual è la probabilità di trovarlo difettoso? Si possono formulare tre ipotesi, circa la provenienza dell’esemplare, che formano una partizione di Ω: H1 =“l’esemplare proviene dallo stabilimento A”; H2 =“l’esemplare proviene dallo stabilimento B”; H3 =“l’esemplare proviene dallo stabilimento C”. Indicato con D l’evento “l’esemplare acquistato è difettoso”, si ha P (D|H1 ) = pA , P (D|H2 ) = pB , P (D|H3 ) = pC . Inoltre, è ragionevole valutare le P (Hi ) nel modo seguente P (H1 ) = NA , N P (H2 ) = NB , N P (H3 ) = NC , N (N := NA + NB + NC ) Quindi, P (D) = P (D ∩ H1 ) + P (D ∩ H2 ) + P (D ∩ H3 ) = pA NA NB NC + pB + pC . N N N Ora, nell’ipotesi che il modello acquistato sia difettoso, calcola la probabilità che provenga, rispettivamente, da A, B, C: NA per i = 1 pA N 1 1 NB P (Hi ∩ D) = × P (Hi |D) = pB per i = 2 . P (D) P (D) N N pC C per i = 3 N Test clinico Si considera un test clinico ideato per rivelare una malattia rara che si presenta in un caso su 100.000. Il test è abbastanza affidabile: per un individuo affetto rivela la presenza della malattia con probabilità 0,95; per un individuo non affetto segnala la malattia (sbagliando, dunque) con probabilità 0,005. Calcolare la probabilità che un individuo, per il quale il test è positivo, sia affetto dalla malattia in questione. Consideriamo gli eventi: M =“l’individuo è affetto dalla malattia”; R=“il test è positivo”; dobbiamo valutare P (M |R), sapendo che P (R|M ) = 0.95, P (R|M c ) = 0, 005, P (M ) = 0, 00001. Allora P (R|M )P (M ) P (R|M )P (M ) + P (R|M c )P (M c ) 0, 95 · 0, 00001 = 0, 0018964. = 0, 95 · 0, 00001 + 0, 005 · 0.99999 P (M |R) = 3.2. PRINCIPIO DELLE PROBABILITÀ COMPOSTE E TEOREMA DI BAYES 45 Ancora i dadi. . . Una coppia di dadi equilibrati viene lanciata in aria. Nell’ipotesi che la faccia presentata dal primo dado sia 3, qual è la probabilità che il punteggio totale superi 6? Detto Ω lo spazio dei casi elementari (l’insieme delle coppie ordinate (i, j) con i=punteggio del primo dado e j=punteggio del secondo dado), si ha |Ω| = 36. Indichiamo con E l’evento che si verifica se i = 3 e con F l’evento {(i, j) ∈ Ω : 3 + j > 6}. La probabilità richiesta è P (F |E) = P (F ∩ E)/P (E). Mettendo a frutto la condizione espressa sui dadi, sarà ragionevole ritenere uguale a 1/36 la probabilità di ogni caso elementare. Quindi: P (E) = 6/36, P (F ∩E) = 3/36 e, di conseguenza, P (F |E) = 3/6 = 1/2. Sesso dei figli Si considerano le famiglie con due figli. Questi ultimi, classificati in ordine di nascita e in base al sesso, danno luogo alle possibilità seguenti: {M M, M F, F M, F F }. Nell’ipotesi che le quattro possibilità siano ugualmente probabili, si chiede di calcolare la probabilità che i figli siano entrambi maschi, nell’ipotesi che almeno uno sia maschio. Si ha P (M M |M M ∨ M F ∨ F M ) = 1 1/4 = . 3/4 3 [Si badi, non 1/2] Calcolare la probabilità che i figli siano entrambi maschi nell’ipotesi che il più giovane sia maschio: P (M M |M M ∨ M F ) = 1 1/4 = . 2/4 2 Urne Si considerano due urne contenenti palline colorate. La prima contiene 3 palline bianche e 2 rosse, la seconda contiene 3 palline bianche e 4 rosse. Si estrae una pallina a caso dalla prima urna e la si ripone nella seconda; quindi si estrae una pallina a caso dalla seconda urna e si chiede di valutare che essa sia rossa. Indichiamo con R2 quest’ultimo evento, e con B1 e R1 , rispettivamente, l’estrazione di bianca e di rossa dalla prima urna. Allora, P (R2 ) = P (R2 ∩B1 )+P (R2 ∩R1 ) = P (R2 |B1 )P (B1 )+P (R2 |R1 )P (R1 ) = 22 43 52 + = . 85 85 40 46CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA 3.3 Correlazione fra eventi e indipendenza stocastica Nel confronto fra P (H|E) e P (H) potrebbe presentarsi una delle circostanze seguenti: (i) P (H|E) > P (H), (ii) P (H|E) < P (H), (iii) P (H|E) = P (H). La (iii) dice che assumere la verità di E non ha alcuna influenza sulla probabilità di H; si dice allora che H non dipende stocasticamente da E. Analogamente, la (i) [rispettivamente, la (ii)] dice che assumere la verità di E fa aumentare [rispettivamente, fa diminuire] la probabilità di H; quindi, si dice che H dipende positivamente [rispettivemente, negativamente] da E. Ricordando le relazioni fondamentali P (E ∩ H) = P (E|H)P (H) = P (H|E)P (E) (3.5) si scopre che la validità di (iii) implica (3.6) P (E ∩ H) = P (H)P (E) e, se P (H) 6= 0, anche la validità di (3.7) P (E|H) = P (E) (E non dipende stocasticamente da H). Da (3.6) segue (iii) quando P (E) > 0. Gli eventi E, H si dicono (mutuamente o reciprocamente) stocasticamente indipendenti quando vale (3.6). Questa è una delle proprietà più interessanti per gli sviluppi della teoria delle probabilità. Si noti che si tratta di una proprietà di P , non degli eventi, a dispetto della dizione. [N.B.: Non si confonda l’indipendenza stocastica di E ed H con la loro eventuale incompatibilità. Gli eventi E,H possono essere indipendenti e non incompatibili, quando P (E∩H) = P (E)P (H) con P (E∩H) > 0. Al contrario, gli eventi E ed H incompatibili con P (E) > 0 e P (H) > 0 non possono, ovviamente, essere indipendenti, perché P (E ∩ H) = 0.] Se E e H sono stocasticamente indipendenti, allora anche E e H c sono stocasticamente indipendenti (quindi, anche (E c , H c ) e (E c , H)). Infatti, P (E ∩ H c ) = P (E) − P (E ∩ H) = P (E) − P (E)P (H) [per la (3.6)] = P (E){1 − P (H)} = P (E)P (H c ). Quando si hanno n eventi E1 , . . . , En , con n > 2, essi si dicono stocasticamente indipendenti se lo sono a due a due, a tre a tre, ecc.; più precisamente, quando per ogni 3.3. CORRELAZIONE FRA EVENTI E INDIPENDENZA STOCASTICA 47 k = 2, . . . , n e per ogni sottoinsieme {j1 , . . . , jk } di {1, . . . , n} vale P (Ej1 ∩ · · · ∩ Ejk ) = P (Ej1 ) · · · P (Ejk ). Si dimostra facilmente che se E1 , . . . , En sono indipendenti, risultano indipendenti anche gli eventi Eic1 , . . . , Eick , Ei1 , . . . , Ein−k per ogni {i1 , . . . , ik } ⊂ {1, . . . , n} e {j1 , . . . , jn−k } = {1, . . . , n} \ {i1 , . . . , ik }. Come mostra il caso seguente, non basta l’indipendenza a due a due per avere, ad esempio, quella a tre a tre. Si estrae una pallina da un’urna che ne contiene 4: una bianca, una rossa, una verde, una bleu. Si scommette avendo diritto a scegliere due colori, e tre individui scommettono scegliendo: il primo bianco o rosso (E1 ), il secondo bianco o verde (E2 ), il terzo bianco o bleu (E3 ). Se la probabilità di ciascun colore è 1/4, allora: P (E1 ) = P (E2 ) = P (E3 ) = 1/2, P (E1 ∩ E2 ) = P (E1 ∩ E3 ) = P (E2 ∩ E3 ) = 1/4 = P (Ei )P (Ej ) (i 6= j). Così gli eventi E1 , E2 , E3 sono a due a due indipendenti: la probabilità che una fissata coppia di scommettitori vinca è data dal prodotto delle probabilità che il singolo vinca. Invece P (E1 ∩ E2 ∩ E3 ) = 1/4 6= P (E1 )P (E2 )P (E3 ). È interessante notare il fatto seguente: Data la probabilità di ciascuno di n eventi indipendenti, si può determinare la probabilità di ogni altro evento che ne dipenda logicamente. (Per la nozione di dipendenza logica, vedere Sezione 1.2 ed Esempio 1.2.2) Infatti, si può incominciare con l’osservazione che se E1 , . . . , En sono gli n eventi dati, allora ogni evento E che ne dipenda logicamente è unione dei costituenti Ei1 ∩ · · · ∩ Eik ∩ Ejc1 ∩· · ·∩Ejcn−k . Allora, sfruttando l’additività della probabilità e il fatto che i costituenti sono a due a due incompatibili, si ha P (E) = X ∗ P (Ei1 ∩ · · · ∩ Eik ∩ Ejc1 ∩ · · · ∩ Ejcn−k ) con la somma estesa agli indici {i1 , . . . , ik } ⊂ {1, . . . , n} per cui Ei1 ∩ · · · ∩ Eik ∩ Ejc1 ∩ · · · ∩ Ejcn−k ⊂ E. Se vale l’ipotesi di indipendenza, posto pj = P (Ej ), qj = P (Ejc ) = 1 − pj (j = 1, . . . , n), 48CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA si ha, in più, P (Ei1 ∩ · · · ∩ Eik ∩ Ejc1 ∩ · · · ∩ Ejcn−k ) = pi1 · · · pik · qj1 · · · qjn−k e anche la probabilità di E dipende soltanto dai valori di pj e qj assegnati. Ad esempio, la probabilità che nessuno degli eventi Ei si verifichi è ω0 = q1 · · · qn La probabilità che se ne verifichi esattamente uno è ω1 = X i q1 · · · qi−1 · pi · qi+1 · · · qn = ω0 X pi i (se qi qi > 0 per ogni i) come si può dedurre anche dalla formula generale (1.4) quando si assuma l’indipendenza stocastica degli Ai . La probabilità che se ne verifichino esattamente due è ω2 = X 16i<j6n q1 · · · qi−1 · pi · qi+1 · · · qj−1 · pj · qj+1 · · · qn X = ω0 16i<j6n pi pj qi qj (se ogni qi 6= 0) e la probabilità che se ne verifichino esattamente k è ωk = X 16i1 <···<ik 6n = ω0 X q1 · · · qi1 −1 · pi1 · qi1 +1 · · · qik −1 · pik · qik +1 · · · qn 16i1 <···<ik 6n pi1 · · · pik qi1 · · · qik (3.8) (3.9) se ogni qi 6= 0. 3.3.1 Ancora la distribuzione binomiale Se gli eventi E1 , . . . , En , oltre ad essere stocasticamente indipendenti, sono ugualmente probabili [P (Ei ) = p e qi = 1 − p per ogni i], allora la probabilità ωk che se ne verifichino esattamente k si deduce da (3.8) come segue ωk = X 16i1 <···<ik 6n k n−k p q n k n−k = p q k perché il numero degli addendi è uguale a quello dei sottoinsiemi, di k elementi, dell’insieme {1, . . . , n}. Confrontando questo risultato con la definizione di distribuzione binomiale data nel Sottoparagrafo 2.2.3, si conclude che per n eventi indipendenti e con probabilità costante p, il numero aleatorio di quelli che si verificano ha distribuzione binomiale di parametro (n, p). 3.3. CORRELAZIONE FRA EVENTI E INDIPENDENZA STOCASTICA 3.3.2 49 Successioni di eventi indipendenti e, ancora, distribuzione binomiale negativa Gli eventi di una successione E1 , E2 , . . . si dicono indipendenti se, per ogni n, E1 , . . . , En formano una n-upla di eventi stocasticamente indipendenti. Sia dunque (En )n>1 una successione di eventi indipendenti, di probabilità costante uguale a p. Qual è la probabilità che l’n-esimo successo si verifichi in corrispondenza alla prova (n + r)-esima? Tale probabilità è nulla se r < 0. Per r > 0, l’evento che interessa si verifica se e solo se si verifica En+r , e fra i primi (n + r − 1) eventi se ne verificano esattamente (n − 1) [evento che denotiamo con G(n + r − 1, n − 1)]. Allora, dall’indipendenza supposta segue che la probabilità richiesta è P (G(n + r − 1, n − 1))P (En+r ) con P (En+r ) = p e, per il risultato n−1 r contenuto nel precedente sottoparagrafo, P (G(n + r − 1, n − 1)) = n+r−1 q . Quindi, n−1 p indicando con ξ l’istante (intero) in cui si ha l’n-esimo successo, si ottiene n+r−1 n P {ξ = n + r} = p (1 − p)r (r = 0, 1, 2, . . .) r ovvero, ξ ha la distribuzione binomiale negativa. Cf., ancora una volta, il Sottoparagrafo 2.2.3. 3.3.3 Indipendenza condizionata Dati gli eventi A, B, C, si dice che A e B sono condizionatamente indipendenti dato C se P (A ∩ B|C) = P (A|C)P (B|C). Più in generale, considerata la probabilità A 7→ P (A|C), con A variabile in una algebra di eventi e C contenuto nella stessa algebra, se gli eventi H1 , . . . , Hn (appartenenti alla stessa algebra) sono indipendenti rispetto alla distribuzione P (•|C), allora si dicono condizionatamente indipendenti dato C. Presentiamo una semplice applicazione di questo concetto. Testimonianza Si considera un tribunale che sta indagando sopra un evento E [per esempio, l’eventualità che un certo delitto accaduto sia stato commesso da una certa specifica persona]. La corte si avvale della testimonianza di due individui, diciamo I e II, le cui testimonianze essa ritiene indipendenti condizionatamente sia a E sia a E c . La corte è anche in grado di valutare la probabilità della veridicità delle due testimonianze; diciamo p1 e 50CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA p2 , rispettivamente per I e II. Indicata con p la probabilità che la corte assegna a E, si calcolino la probabilità: – di E subordinatamente al fatto che I e II accusino l’indagato; – di E subordinatamente al fatto che I accusi e II non accusi l’indagato. Per rispondere, indichiamo con E1 [rispettivamente, E2 ] l’evento corrispondente alla affermazione da parte di I [rispettivamente, II] che E è accaduto. Si tratta di calcolare P (E|E1 ∩ E2 ) e P (E|E1 ∩ E2c ). Si ha: P (E ∩ E1 ∩ E2 ) = P (E1 ∩ E2 |E)P (E) = P (E1 |E)P (E2 |E)P (E) [per l’indipendenza condizionata delle testimonianze] = p1 · p2 · p P (E ∩ E1 ∩ E2c ) = P (E1 ∩ E2c |E)P (E) = P (E1 |E)P (E2c |E)P (E) = p1 · (1 − p2 ) · p P (E1 ∩ E2 ) = P (E1 ∩ E2 ∩ E) + P (E1 ∩ E2 ∩ E c ) = p1 · p2 · p + P (E1 ∩ E2 |E c ) · (1 − p) = p1 · p2 · p + (1 − p1 )(1 − p2 )(1 − p) P (E1 ∩ E2c ) = P (E1 ∩ E2c ∩ E) + P (E1 ∩ E2c ∩ E c ) = p1 · (1 − p2 ) · p + P (E1 ∩ E2c |E c )P (E c ) e = p1 · (1 − p2 ) · p + (1 − p1 ) · p2 · (1 − p) P (E|E1 ∩ E2 ) = P (E|E1 ∩ E2c ) = p1 · p2 · p p1 · p2 · p + (1 − p1 )(1 − p2 )(1 − p) p1 · (1 − p2 ) · p . p1 · (1 − p2 ) · p + (1 − p1 ) · p2 · (1 − p) 3.4 Osservazioni complementari In molti libri di probabilità, passa sotto il nome di paradosso del progioniero il seguente problema. Tre individui sono stati imprigionati senza processo. Tenuto presente che ci troviamo in un paese governato da un signore spietato, il carceriere comunica loro la notizia che questo signore ha deciso, in modo del tutto arbitrario, di liberarne uno e di mandare a morte gli altri due. Aggiunge, inoltre, che gli è fatto divieto di rivelare a chiunque la fine, determinata dal signore. Indicati con A, B e C i tre prigionieri, si sa che A chiede al carceriere di indicargli – in segreto dagli altri – uno dei due condannati 3.4. OSSERVAZIONI COMPLEMENTARI 51 (diverso da A, per la regola testé richiamata), e che il carceriere gli risponde B. Si chiede di esprimere la probabilità che A attribuisce alla propria condanna a morte. A ben guardare, qui non ci troviamo di fronte a un problema di probabilità condizionata. Infatti, A è in possesso dell’informazione che B è condannato. Il significato di un qualunque evento condizionato a tale eventualità (la condanna di B) sarebbe invece, come più volte specificato, quello di un evento esaminato sotto l’ipotesi che B sia condannato quando l’ipotesi è ancora incerta. Ora, dopo che A ha avuto l’informazione del c carceriere, lo spazio degli eventi elementari è: {HB ∩ HA ∩ HCc , HB ∩ HA ∩ HC }, dove HI denota che l’individuo I è condannato a morte. A questo punto, si vede che A è condannato se e solo se si verifica la prima eventualità. Quindi, la probabilità richiesta è esattamente la probabilità di detta eventualità e, quindi, un qualunque numero compreso tra 0 e 1; fissata la valutazione α, il suo complemento a 1, 1 − α, è la probabilità c di HB ∩ HA ∩ HC . La probabilità richiesta è 1/2, in condizioni di simmetria. Invece, se A intende valutare la probabilità di essere condannato nell’ipotesi che B sia condannato [ma non gli è noto se questo sia Vero o Falso], allora deve apprestarsi a c c calcolare P (HA |HB ). Lo spazio dei casi elementari è: {HB ∩HA ∩HCc , HB ∩HA ∩HC , HB ∩ HA ∩ HC } e supponiamo che essi abbiano rispettivamente probabilità p1 , p2 , p3 con pi > 0 (i = 1, 2, 3) e p1 + p2 + p3 = 1. Si ha: P (HA ∩ HB ) = P (HA ∩ HB ∩ HCc ) = p1 [perché HA ∩ HB ∩ HC è impossibile] c c P (HB ) = P (HA ∩ HB ) + P (HA ∩ HB ) = p1 + P (HA ∩ HB ∩ HC ) = p 1 + p 2 e quindi, se p1 + p2 > 0 (p3 6= 1) otteniamo P (HA |HB ) = p1 p1 + p2 [=1/2 se p1 = p2 ; 2/3 se p1 = 2p2 , ecc.]. A questo punto del discorso, la situazione dovrebbe apparire paradossale solo a coloro che, mischiando un po’ i ragionamenti, che (come si doveva) abbiamo tenuti distinti, non sanno farsi una ragione del fatto che siano ammissibili valutazioni diverse. La risposta è univoca, nella prima impostazione, se si fissa α e, nella seconda, se si fissano p1 e p2 . Corrispondendo a stati di informazione diversi, non si può escludere (anzi, sarebbe naturale attendersi) un divario fra α e p1 o 1 − α e p2 . 52CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA Concludiamo con una osservazione sulla valutazione di probabilità in spazi finiti, con casi elementari ugualmente probabili (simmetria), in relazione all’ipotesi di indipendenza stocastica. Ritorniamo al Paragrafo 1.4 (Estrazioni da un’urna) considerando la famiglia di eventi {E1 , . . . , Em }, dove Ei è l’evento che è Vero se e solo se nella i-esima estrazione si osserva pallina bianca (i = 1, . . . , m). Ci si sofferma sul caso in cui le estrazioni sono con restituzione. Se gli eventi hanno probabilità costante= r/n [perché l’urna contiene r palle bianche e n−r = s palle nere] e sono considerati come indipendenti [perché la composizione dell’urna è nota in corrispondenza a ogni estrazione], allora possiamo applicare la formula di ωk , nel Sottoparagrafo 3.3.1, per ottenere la probabilità che si verifichino h di detti eventi [in altre parole: si estraggono h palle bianche]: r m−h m r h 1− n n h la stessa espressione trovata nel Capitolo I, sulla base di considerazioni di simmetria e a prescindere da considerazioni di indipendenza stocastica. Lo studente mediti sul guadagno, sul piano concettuale e dal punto di vista delle applicazioni, conseguito con l’introduzione del concetto di indipendenza stocastica. Capitolo 4 Vettori aleatori 4.1 Generalità Il vettore aleatorio ξ = (ξ1 , ξ2 ) o, più in generale, (ξ1 , . . . , ξk ), essendo k un qualunque intero maggiore o uguale a 2, è un particolare elemento aleatorio che ad ogni caso elementare associa una coppia ordinata o, più in generale, una k-upla ordinata, di numeri reali. Noi ci limitiamo a considerare, quasi esclusivamente, vettori a due componenti reali; in altri termini, le determinazioni di ciascun ξi sono elementi di R, e ξi è un numero aleatorio. Concretamente, l’opportunità di considerare vettori aleatori si presenta quando un dato fenomeno viene analizzato osservando congiuntamente le determinazioni possibili di due o più numeri aleatori, che, generalmente, presenteranno fra loro un’ associazione più o meno stretta. Ad esempio, lo stato di salute di un individuo, secondo un certo protocollo, potrebbe essere descritto dalle determinazioni di una k-upla di indicatori clinici (pressione, altezza, peso,. . . ). Analogamente, in economia, si fa spesso riferimento ad una k-upla ordinata di indicatori economici (i fondamentali dell’economia) per stabilire se una certa situazione economica sia da considerarsi sana, florida, debole, scassata, ecc. . . . Di fatto abbiamo già avuto modo di considerare vettori aleatori in situazioni molto più semplici della precedente, quando, ad esempio, il lancio di due dadi è stato caratterizzato con la coppia ordinata dei punteggi riportati, rispettivamente, dal primo e dal secondo dado. Questo esempio suggerisce di procedere trattando dapprima dei cosiddetti vettori aleatori discreti. 53 CAPITOLO 4. VETTORI ALEATORI 54 4.2 Distribuzione di un vettore aleatorio discreto Sia ξ = (ξ1 , ξ2 ) un vettore aleatorio definito su (Ω, S), con S σ-algebra di parti di Ω. Sia P una misura di probabilità su (Ω, S). Se esiste un insieme numerabile C di coppie (x, y) tale che P {(ξ1 , ξ2 ) ∈ C} = 1, diciamo che ξ è un vettore aleatorio discreto. Posto f (x, y) = P {ξ1 = x, ξ2 = y}, si può assumere che risulti f (x, y) > 0 congiuntamente a X su C f (x, y) = 1. (x,y)∈C Le distribuzioni delle singole componenti si ottengono, sfruttando l’additivita’ completa della probabilità, nel modo seguente f1 (x) := P {ξ1 = x} = f2 (y) := P {ξ2 = y} = X {y:(x,y)∈C} X {x:(x,y)∈C} P {ξ1 = x, ξ2 = y} = P {ξ1 = x, ξ2 = y} = X f (x, y) {y:(x,y)∈C} X f (x, y). {x:(x,y)∈C} Le distribuzioni di ξ1 e ξ2 sono dette leggi marginali, rispetto alla legge, detta congiunta, del vettore ξ. La terminologia risente del fatto che un modo comodo per rappresentare f è quello di ricorrere alla cosiddetta tabella a doppia entrata: ξ1 \ξ2 .. . .. . ··· ··· yj .. . .. . ··· xi .. . ··· ··· f (xi , yj ) .. . ··· Si deve notare che la rappresentazione della legge congiunta mediante tabella a doppia entrata presuppone che C venga riscritto, se possibile, oppure, più generalmente, immerso in un prodotto cartesiano {(xi , yj ) : i > 1, j > 1}. La tabella ha le righe intestate con le determinazioni di ξ1 e le colonne intestate con le determinazioni di ξ2 , e all’incrocio della riga xi -esima con la colonna yj -esima riporta la probabilità di {(ξ1 , ξ2 ) = (xi , yj )} che, ovviamente, può anche essere nulla. Essa con- sente la visualizzazione dell’associazione determinata fra i caratteri dalla distribuzione congiunta. Ad esempio, se i caratteri sono ordinati (xi > xi−1 ∀i, yj > yj−1 ∀j), 4.2. DISTRIBUZIONE DI UN VETTORE ALEATORIO DISCRETO 55 allora elevati valori di f attorno alla diagonale principale denotano una forte concordanza (a valori grandi di ξ1 tendono ad associarsi valori grandi di ξ2 ). Non si potrebbero trarre simili informazioni dall’esame delle sole distribuzioni marginali. A titolo esemplificativo, siano ξ1 e ξ2 variabili aleatorie che prendono i valori 20, 25, 30 secondo le distribuzioni di probabilità P {ξ1 = 20} = 0, 05, P {ξ1 = 25} = 0, 80, P {ξ1 = 30} = 0, 15, P {ξ2 = 20} = 0, 04, P {ξ2 = 25} = 0, 70, P {ξ2 = 30} = 0, 26. Molte (infinite) sono le distribuzioni congiunte di (ξ1 , ξ2 ) che sono compatibili con tali distribuzioni marginali. Ne presentiamo 3 casi particolarmente significativi. Incominciamo da quello di massima concordanza, in cui, compatibilmente con le marginali assegnate, viene realizzata la massima associazione fra i valori di ξ1 e i valori di ξ2 . Si scrive la tabella con le marginali desiderate e nella casella in alto a sinistra si colloca la probabilità più elevata consentita dai valori marginali (0,04); quindi, sulla prima colonna le caselle ancora vuote ricevono il valore 0 (entrambe); la seconda casella della prima riga riceve la massa mancante per completare la probabilità di {ξ1 = 20}; e così di seguito. ξ1 \ξ2 20 25 30 20 0,04 0,01 0 0,05 25 0 0,69 0,11 0,80 30 0 0 0,15 0,15 0,04 0,70 0,26 La situazione di massima discordanza si ottiene incominciando dall’ultima casella nella prima riga e riempiendola col più grande valore consentito dalle marginali; quindi, si procede associando il più grande valore di ξ2 col più piccolo di ξ1 diverso da 20, e così via. ξ1 \ξ2 20 25 30 20 0 0 0,05 0,05 25 0 0,59 0,21 0,80 30 0,04 0,11 0 0,15 0,04 0,70 0,26 A queste situazioni estreme si contrappone quella di indipendenza stocastica di ξ1 e ξ2 . Estendendo la definizione di eventi indipendenti (cf. (3.3)), diciamo che i numeri CAPITOLO 4. VETTORI ALEATORI 56 aleatori discreti ξ1 e ξ2 sono stocasticamente indipendenti quando f (x, y) = f1 (x)f2 (y) ((x, y) ∈ C). ξ1 \ξ2 20 25 30 20 0,002 0,035 0,013 0,05 25 0,032 0,560 0,208 0,80 30 0,006 0,105 0,039 0,15 0,04 0,70 0,26 (4.1) Più in generale, n numeri aleatori discreti ξ1 , . . . , ξn si dicono stocasticamente indipendenti se P {ξ1 = x1 , . . . , ξn = xn } = P {ξ1 = x1 } . . . P {ξn = xn } (4.2) per ogni determinazione (x1 , . . . , xn ) del vettore aleatorio (ξ1 , . . . , ξn ). Infine, si parla di successione di numeri aleatori indipendenti, ξ1 , . . . , ξn , . . . , quando per ogni n le componenti di (ξ1 , . . . , ξn ) sono indipendenti secondo la definizione precedente. Riprendiamo le considerazioni svolte per la determinazione delle marginali f1 , f2 a partire dalla congiunta f . Si tratta, a ben vedere, di un caso particolare del problema seguente. Si considera una funzione g : C 7→ C1 e si vuole calcolare P {g(ξ1 , ξ2 ) = σ}. Allora, per σ ∈ C1 , si ha {g(ξ1 , ξ2 ) = σ} = {(x, y) ∈ C : g(x, y) = σ} e, quindi, P {g(ξ1 , ξ2 ) = σ} = X f (x, y). (4.3) {(x,y)∈C : g(x,y)=σ} La determinazione delle leggi marginali si ottiene con g1 (x, y) = x e g2 (x, y) = y, rispettivamente, per ogni (x, y) in C. Esempio 4.2.1. . Due giocatori, 1 e 2, per decidere a chi tocchi distribuire le carte, procedono nel modo seguente: 1 estrae una carta a caso e 2 ne estrae una delle rimanenti. Sapendo che si tratta di un mazzo di 40 carte ordinate come 1,2,. . . , fante, donna, re, si stabilisce che il mazzo spetti al giocatore che ha estratto la carta più alta, e a 1 in caso di pareggio. Si risponda alle seguenti domande: (a) Indicato con ξi il punteggio ottenuto da i, trovare la distribuzione [in condizioni di perfetta simmetria] del vettore (ξ1 , ξ2 ); (b) Determinare le leggi di ξ1 e di ξ2 ; 4.2. DISTRIBUZIONE DI UN VETTORE ALEATORIO DISCRETO 57 (c) Detti V e W rispettivamente i punteggi minimo e massimo, dare le leggi del vettore (V, W ), di V e di W ; (d) Stabilire la distribuzione di W − V ; (e) Qual è la probabilità che le carte vengano distribuite da 1 (rispettivamente da 2)? (a,b) 1 può estrarre un uno, oppure un due,. . . . La probabilità di uno qualunque di tali eventi è P {ξ1 = k} = 1/10 per k = 1, 2, . . . , 7, fante, donna, re. Inoltre: 16 40 · 39 12 P {ξ1 = k, ξ2 = j} = 40 · 39 P {ξ1 = k, ξ2 = j} = Si ricava P {ξ2 = j} = 1 10 se k 6= j se k = j. per ogni j. (c) P {V = v, W = w} = P {ξ1 = v, ξ2 = w} + P {ξ1 = w, ξ2 = v} se v<w se v=w se v<w se v=w (d) Per z = 0, . . . , 9, si ha = P {ξ1 = v, ξ2 = v} 4/195 = 1/130 1 13 4 = (10 − z) 195 P {W − V = z} = . z=0 z = 1, . . . , 9. (e) Le carte vengono distribuite da 1 se ξ1 > ξ2 , ovvero con probabilità P {ξ1 > ξ2 } = 12 40·39 · 10 + 16 40·39 (1 + 2 + · · · + 9) = 7 13 . z Diamo ora un esempio notevole di legge di vettore aleatorio discreto che estende in modo naturale la nozione di legge binomiale. Esempio 4.2.2 (Distribuzione multinomiale). Siano ξ1 , ξ2 , . . . , ξn variabili aleatorie indipendenti ed identicamente distribuite caratterizzate dalla legge [che, per l’identità in distribuzione, si precisa solo per ξ1 ] P {ξ1 = j} = pj CAPITOLO 4. VETTORI ALEATORI 58 (j = 1, . . . , d), pj > 0 per ogni j e p1 + · · · + pd = 1. Si vuole determinare la probabilità che ni di queste variabili prendano il valore i per i = 1, . . . , d; quindi, ni ∈ {0, 1, . . . , n} per i = 1, . . . , d, n1 + · · · + nd = n. Indichiamo con (N1 , . . . , Nd ) il vettore aleatorio la cui i-esima componente Ni rappresenta il numero (aleatorio) di variabili ξ1 , ξ2 , . . . , ξn che prendono il valore i. Sfruttando l’ipotesi d’indipendenza e l’identità in distribuzione, la Qd n probabilità che la suddetta attesa si verifichi secondo un ordine prestabilito è j=1 pj j ; ciò mostra che la probabilità in questione non dipende dall’ordine prescelto. Poiché il numero di tali ordini è quello delle disposizioni (con ripetizione) delle n variabili, con ni termini uguali a i per i = 1, . . . , d, si ottiene P {N1 = n1 , . . . , Nd = nd } = n! pn1 · · · pnd d n1 ! · · · nd ! 1 dove n1 , . . . , nd rispettano i vincoli sopra definiti. La distribuzione del vettore aleatorio (N1 , . . . , Nd ) così ottenuta si chiama multinomiale. Si noti che la si può scrivere “risparmiando una dimensione” nella forma ridotta P {N1 = n1 , . . . , Nd−1 = nd−1 } = n! · n1 ! · · · nd−1 !(n − n1 − · · · − nd−1 )! nd −1 ·pn1 1 · · · pd−1 (1 − p1 − · · · − pd−1 )nd con p1 , . . . , pd−1 > 0, (4.4) 1 − p1 − · · · − pd−1 > 0 e per n1 , . . . , nd−1 interi non negativi per i quali n1 + · · · + nd−1 6 n. Per d = 2, la precedente si riduce alla già nota distribuzione binomiale. Inoltre, per ogni i = 1, 2, . . . , Ni ha distribuzione binomiale con parametri n, pi . Verifichiamo questo fatto importante per i = 1, assumendo nei passaggi seguenti che gli addendi privi di significato algebrico valgano 0. Allora P {N1 = n1 } = = X n2 ,...,nd−1 n! · n1 ! · · · nd−1 !(n − n1 − · · · − nd−1 )! nd −1 (1 − p1 − · · · − pd−1 )nd ·pn1 1 · · · pd−1 X n!pn1 (n − n1 )! 1 n1 !(n − n1 )! n 2 ,...,nd−1 n2 ! · · · nd−1 !(n − n1 − · · · − nd−1 )! · nd −1 ·pn2 2 · · · pd−1 (1 − p1 − · · · − pd−1 )nd n! = pn1 [1 − p1 − · · · − pd−1 + p2 + · · · + pd−1 ]n−n1 n1 !(n − n1 )! 1 n n1 = p (1 − p1 )n−n1 . n1 1 dove la penultima uguaglianza si ricava dall’espressione di Leibniz per la potenza naturale del polinomio. 4.3. SOMMA DI VARIABILI ALEATORIE INDIPENDENTI DISCRETE 59 4.3 Somma di variabili aleatorie indipendenti discrete Un caso notevolissimo di applicazione della (4.3) riguarda la distribuzione della somma di due variabili ξ1 , ξ2 : P {ξ1 + ξ2 = σ} = X f (x, y) = X x (x,y) : x+y=σ f (x, σ − x). Nel caso particolare in cui ξ1 e ξ2 siano indipendenti, la precedente si riduce a P {ξ1 + ξ2 = σ} = 4.3.1 X f1 (x)f2 (y) = X x (x,y) : x+y=σ f1 (x)f2 (σ − x) = X y f1 (σ − y)f2 (y). (4.5) Somma di variabili bernoulliane Una successione ξ1 , ξ2 , . . . di variabili aleatorie indipendenti ed identicamente distribuite con p = P {ξ1 = 1} = 1 − P {ξ1 = 0} = 1 − q si dice successione bernoulliana. Si pensi, equivalentemente, ad una successione di eventi indipendenti di probabilità costante p. Allora Sn = ξ1 + . . . + ξn rappresenta il numero dei successi fra i primi n eventi. Determiniamo la distribuzione di probabilità di Sn . Preso σ in {0, 1, 2} e posto f (0) = q, f (1) = p, f (x) = 0 per x 6= 0, 1, (4.5) porge q2 X P {ξ1 + ξ2 = σ} = f (x)f (σ − x) = qf (σ) + pf (σ − 1) = 2pq x p2 σ=0 2 σ 2−σ p q . σ=1 = σ σ=2 Quindi, per σ in {0, 1, 2, 3}, vale P {S3 = σ} = P {S2 +ξ3 = σ} = X x 2 σ 2−σ 2 f (x)P {S2 = σ−x} = q p q +p pσ−1 q 3−σ = σ σ−1 2 σ 3−σ 2 3 σ 3−σ σ 3−σ = p q + p q = p q . σ σ−1 σ Procedendo per induzione matematica, formuliamo l’ipotesi (induttiva) in base alla quale vale P {Sk = σ} = k σ k−σ p q σ CAPITOLO 4. VETTORI ALEATORI 60 per ogni σ = 0, 1, . . . , k e per ogni k = 1, 2, . . . , n − 1. Quindi, per σ in {0, 1, . . . , n}, otteniamo P {Sn = σ} = P {Sn−1 + ξn = σ} = 1 X x=0 f (x)P {Sn−1 = σ − x} n − 1 σ−x n+x−σ−1 = f (x) p q σ−x x=0 n − 1 σ n−σ n − 1 σ n−σ = p q + p q σ σ−1 n σ n−σ = p q σ 1 X che si ricava direttamente dall’ipotesi induttiva cambiando n − 1 in n. Pertanto, n σ n−σ P {Sn = σ} = p q (σ = 0, 1, . . . , n) σ vale per ogni n = 0, 1, 2, . . ., e con questa si ha una nuova interessante interpretazione della legge binomiale, in questo caso come legge di somma di numeri aleatori. 4.3.2 Passeggiate aleatorie, barriere assorbenti (problema della rovina del giocatore) Consideriamo un altro esempio significativo di somma di variabili aleatorie indipendenti. Si prenda una successione di Testa e Croce. Ad essa è associabile una successione di eventi E1 , E2 , . . . dove Ek è da ritenersi vero se il k-esimo lancio dà Testa. Il risultato di una tale successione ammette svariate e suggestive rappresentazioni geometriche. Qui faremo uso di quella basata sull’eccedenza di successi: eccedenza, a un istante generico, del numero di Teste su quello delle Croci fino a quell’istante ottenute. L’eccedenza Vn all’istante n (n = 1, 2, . . .) si può rappresentare come numero aleatorio assegnando a ogni Ek il numero aleatorio ξk che vale 1 se Ek si verifica (appare Testa) e (−1) se Ek non si verifica (appare Croce). Con ciò si ha: Vn = ξ1 + · · · + ξn (n = 1, 2, . . .). Per comodità si pone, anche, V0 ≡ 0. Vn può essere visto anche come il guadagno (aleato- rio) in n colpi di Testa e Croce per colui che – nel generico colpo – riceve o perde 1 a seconda che Ek sia Vero o Falso (k = 1, 2, . . .). L’andamento di (Vn )n>0 si può visualizzare, come detto sopra, facendo riferimento alla Figura 4.1. Formuliamo le ipotesi seguenti: gli eventi Ek sono indipendenti e hanno probabilità costante p. Si suol dire, allora, che la nostra successione Vn è una passeggiata aleatoria 4.3. SOMMA DI VARIABILI ALEATORIE INDIPENDENTI DISCRETE 61 Figura 4.1: Traiettoria che passa per (16, 2), che ritorna in 0 per la prima volta all’istante 8, per la seconda volta all’istante 12. . . ed è facile calcolare P {Vn = k}, ovvero la probabilità che nei primi n colpi si realizzi un guadagno uguale a k. La condizione è soddisfatta se e solo se la differenza tra il numero dei tratti ascendenti (a) e il numero dei tratti discendenti (d) è uguale a k, essendo a + d = n. Quindi, a= n+k , 2 d= n−k 2 e, ragionando come nel Sottoparagrafo 4.3.1, n+k n−k n P {Vn = k} = n+k p 2 q 2 2 col membro di destra che, per la solita convenzione, vale 0 se negativo oppure se n+k 2 n+k 2 non è intero non > n. Si noti che la variabile aleatoria Vn può essere interpretata come la posizione, dopo n passi, di una particella sulla retta reale che parte da 0 e ad ogni istante (intero) si muove a caso: un passo avanti con probabilità p, un passo indietro con probabilità q = 1 − p. Ecco il motivo per cui si denomina la successione (Vn )n>0 passeggiata aleatoria. Consideriamo ora due giocatori che ingaggiano una successione di colpi a Testa e Croce. Il giocatore 1 ha un capitale iniziale pari all’intero positivo a e il giocatore 2 ha un capitale iniziale pari all’intero positivo b; inoltre, in ogni colpo, 1 riceve (versa) una unità da (a) 2 se si verifica Testa (Croce). Vn rappresenta, perciò, il guadagno di 1, dopo n colpi, nell’ipotesi che la passeggiata sia priva di vincoli. In realtà, si può supporre che se il guadagno di 1 raggiunge b, prima che sia passato da (−a), allora il giuoco non possa proseguire per rovina di 2. Analogamente, se il guadagno in questione raggiunge (−a) prima che sia passato da b, il giuoco non può proseguire a causa della rovina di 1. L’insieme delle traiettorie con quest’ultima proprietà corrisponde all’evento CAPITOLO 4. VETTORI ALEATORI 62 R1 :=“il giocatore 1 prima o poi cade in rovina”. Denotiamo con pk la probabilità dello stesso evento, con la variante che sia V0 = k, k essendo un intero dell’intervallo [−a, b]. Assumiamo che valga pb = 0, p−a = 1. (È ragionevole questo?) Quindi, per −a < k < b, possiamo argomentare nel modo seguente: nel primo colpo, il guadagno può passare a k + 1 oppure a k − 1. In ogni caso, dal nuovo punto di arrivo, la passeggiata riparte con le stesse caratteristiche che possedeva all’epoca 0; unica variante è la posizione iniziale (k + 1) o (k − 1) invece di k. La conservazione delle caratteristiche è dovuta al fatto che i colpi sono indipendenti con probabilità costante. Si ottiene pk = p · pk+1 + q · pk−1 (k = −a + 1, . . . , b − 1) Siamo in presenza di una equazione alle differenze del secondo ordine, nell’incognita pk . Riscriviamola come p(pk+1 − pk ) = q(pk − pk−1 ) e poniamo pk − pk−1 = δk differenze diviene (k = −a + 1, . . . , b − 1); allora la precedente equazione alle (k = −a + 1, . . . , b − 1) pδk+1 = qδk da cui δk = k+a−1 q δ−a+1 p (k = −a + 2, . . . , b − 1) Se q = p = 1/2 (passeggiata simmetrica, gioco equo), otteniamo pk − pk−1 = δ−a+1 = p−a+1 − p−a = p−a+1 − 1. Quindi, p−a+j = jp−a+1 − (j − 1) (j = 1, . . . , b + a) con 0 = pb = (b + a)p−a+1 − (b + a − 1) ovvero p−a+1 = b+a−1 b+a e, per conseguenza, p−a+j = j b+a−1 − (j − 1). b+a In particolare, la probabilità di rovina richiesta sarà, nel caso di passeggiata simmetrica (p = q = 1/2), P (R1 ) = p0 = a b b+a−1 − (a − 1) = . b+a a+b 4.3. SOMMA DI VARIABILI ALEATORIE INDIPENDENTI DISCRETE 63 Si scopre che la probabilità di rovina di 1 è vicina ad uno se il capitale iniziale (b) dell’avversario è infinitamente più grande del suo (a). Se p 6= q con q/p = ρ 6= 1, vale pk − pk−1 = ρk+a−1 δ−a+1 ovvero p−a+j = p−a+1 (1 + ρ + · · · + ρj−1 ) − (ρ + · · · + ρj−1 ). Per j = a + b si ha 0 = pb = p−a+1 (1 + ρ + · · · + ρa+b−1 ) − (ρ + · · · + ρa+b−1 ) e quindi p−a+1 = e, ponendo j = a, P (R1 ) = p0 = ρ − ρa+b 1 − ρa+b ρ − ρa+b 1 − ρa 1 − ρa−1 ρa − ρa+b . − ρ = 1 − ρa+b 1 − ρ 1−ρ 1 − ρa+b E’ interessante notare che la probabilità di rovina di 1 resta minore di uno (≈ ρα ) se il capitale iniziale di 2 è infinitamente più grande di a, purché il gioco sia favorevole a 1 (ρ < 1). Invece se ρ > 1 (gioco favorevole a 2), il comportamento della probabilità di rovina è simile a quello che si ha nel caso di gioco equo, quando b/a è infinitamente grande. Se, invece, è a/b ad essere grande e ρ > 1 si ha che P (R1 ) ≈ 1 − ρ−b , mentre P (R1 ) ≈ 0 nel caso di gioco equo. 4.3.3 Somma di variabili di Poisson indipendenti Siano ξ1 , ξ2 variabili aleatorie indipendenti tali che P {ξi = k} = e−λi λki k! (k = 0, 1, . . .) λi essendo un parametro positivo per i = 1, 2. Allora, per x = 0, 1, . . ., P {ξ1 + ξ2 = x} = x X k=0 x X P {ξ1 = k}P {ξ2 = x − k} e−λ1 λk1 e−λ2 λx−k 2 k! (x − k)! k=0 x 1 X x k x−k = e−(λ1 +λ2 ) λ λ x! k 1 2 = k=0 1 = e−(λ1 +λ2 ) (λ1 + λ2 )x x! che è ancora una distribuzione di Poisson con parametro λ1 + λ2 . CAPITOLO 4. VETTORI ALEATORI 64 4.3.4 Tempi di attesa in una successione di prove bernoulliane Ritorniamo alla situazione descritta nel Sottoparagrafo 4.3.1 indicando con Ti l’indice della prova in cui compare l’i-esimo successo (1). Si ha Ti ∈ {i, i + 1, . . .}, 1 6 T1 < T2 < . . .. Indichiamo, poi, con τ1 , τ2 , . . . i tempi intercorrenti τ1 = T1 , τ2 = T2 − T1 , τ3 = T3 − T2 , ... e calcoliamo la distribuzione congiunta di (τ1 , . . . , τn ). Per ogni x1 , . . . , xn in {1, . . . , n, . . . } si ha P {τ1 = x1 , . . . , τn = xn } = P {ξ1 = . . . = ξx1 −1 = 0, ξx1 = 1, ξx1 +1 = . . . = ξx1 +x2 −1 = 0, ξx1 +x2 = 1, . . . , ξx1 +···+xn = 1} = q x1 −1 pq x2 −1 p · · · q xn −1 p = n Y pq xk −1 . k=1 Quindi, preso j ∈ {1, . . . , n}, si ricava P {τj = xj } = X x1 >1 ··· X X xj−1 >1 xj+1 >1 e, perciò, P {τ1 = x1 , . . . , τn = xn } = n Y ··· n X Y (4.6) pq xk −1 = pq xj −1 . xn >1 k=1 pq xk −1 = k=1 n Y k=1 P {τk = xk }. Ne discende che τ1 , τ2 , . . . sono variabili aleatorie indipendenti con uguale distribuzione. Determiniamo la distribuzione di Ti = τ1 + · · · + τi . Per x = 2, 4, . . . vale P {T2 = x} = X σ>1 P {τ1 = σ}P {τ2 = x − σ} = e per = 2, 3, . . . x−1 X σ=1 pq σ−1 pq x−σ−1 = p2 q x−2 (x − 1) = p2 q x−2 P {T3 = x} = X σ>1 = p3 q x−3 x−2 X P {τ3 = σ}P {T2 = x − σ} = (x − σ − 1) = p3 q x−3 σ=1 Formuliamo l’ipotesi induttiva x−2 X x−2 X σ=1 P {Tk = x} = pk q x−k x−1 k−1 x−1 . 1 pq σ−1 p2 q x−σ−2 (x − σ − 1) j = p3 q x−3 j=1 (x − 2)(x − 1) x−1 . = p3 q x−3 2 2 x = k, k + 1, . . . 4.4. DISTRIBUZIONI CONDIZIONATE (IL CASO DISCRETO) 65 per ogni k 6 n − 1, allora P {Tn = x} = = X σ>1 P {τn = σ}P {Tn−1 = x − σ} x+1−n X pq σ=1 p q x+1−n X x−σ−1 n−2 σ=1 x−n X k+n−2 pn q x−n = n−2 k=0 x − 1 n x−n = p q n−1 x − 1 n x−n = p q x−n = pn q x−n x−σ−1 n−2 σ−1 n−1 x−σ+1−n come si doveva dimostrare, e dove la penultima uguaglianza deriva dalla nota identità Pm n+k Pm = n+m+1 e osservando che , che si dimostra ponendo sn = k=0 n+k k=0 n n n+1 sn = m X n+k−1 k=0 n−1 implica sn−1 = n+m n . + m−1 X n + j n+m n+k−1 = sn−1 + sn − = sn−1 + n n n j=−1 Si noti che per x = n + r, P {Tn = x} ha l’espressione della distribuzione binomiale negativa; cf. 2.2.3. 4.4 Distribuzioni condizionate (il caso discreto) Riprendiamo la generica distribuzione discreta del Paragrafo 4.2. Per ogni x tale che f1 (x) > 0 si avrà (definizione di probabilità di evento condizionato) f2|1 (y|x) := P (ξ2 = y|ξ1 = x) = f (x, y) . f1 (x) Si vede facilmente che y 7→ f2|1 (y|x), per ogni x per cui f1 (x) > 0, è una distribuzione di probabilità sulle determinazioni di ξ2 . Infatti, f (x, y)/f1 (x) > 0 e X f (x, y) y f1 (x) = f1 (x) = 1. f1 (x) La distribuzione in questione si chiama, naturalmente, distribuzione condizionata di ξ2 dato {ξ1 = x}. Inoltre la funzione y 7→ F2|1 (y) := X t6y f2|1 (t|x) CAPITOLO 4. VETTORI ALEATORI 66 si dice funzione di ripartizione di ξ2 condizionato da {ξ1 = x}. In modo del tutto analogo si definisce la distribuzione condizionata di ξ1 dato {ξ2 = y}, f1|2 . Ad esempio, la distribuzione f2|1 nella tabella di massima concordanza con {ξ1 = 20} è data da f2|1 (20|20) = 4 5 f2|1 (25|20) = 1 5 f2|1 (30|20) = 0; con {ξ1 = 25} si ha f2|1 (20|25) = 0, f2|1 (25|25) = 69 80 f2|1 (30|25) = 11 ; 80 e per {ξ1 = 30}, f2|1 (20|30) = f2|1 (25|30) = 0 f2|1 (30|30) = 1. 4.5 Distribuzione di vettore aleatorio in generale Quando ξ = (ξ1 , ξ2 ) è un generico vettore aleatorio a componenti reali, definito su (Ω, S, P ), la sua distribuzione di probabilità Pξ è definita da Pξ (B) = P (ξ −1 (B)) (B ∈ B(R2 ) essendo B(R2 ) la classe di Borel su R2 : la σ-algebra generata dagli aperti di R2 . La restrizione di Pξ ai rettangoli (−∞, x] × (−∞, y], intesa come funzione calcolata in (x, y) per ogni (x, y) in R2 , si dice funzione di ripartizione di ξ: Fξ (x, y) = Pξ ((−∞, x] × (−∞, y]) ((x, y) ∈ R2 ). Si vede facilmente che la funzione di ripartizione F (si omette ξ nel simbolo, più completo, Fξ ) ha le seguenti proprietà lim F (x, y) = lim F (x, y) = 0, x→−∞ y→−∞ lim F (x, y) = F (x0 , y0 ) x→x+ 0 y→y0+ lim F (x, y) = 1, x→+∞ y→+∞ per ogni (x0 , y0 ) in R2 , F (x + h, y + k) − F (x + h, y) − F (x, y + k) + F (x, y) > 0 per ogni h, k > 0 e per ogni (x, y) ∈ R2 . (4.7) (4.8) (4.9) Si dimostra che una data funzione di ripartizione di ripartizione – intesa come funzione reale su R2 che soddisfa (4.7)-(4.9) – determina una (ed una sola) distribuzione di probabilità su (R2 , B(R2 )); più precisamente: assegnata una funzione di ripartizione F su R2 , esiste una ed una sola misura di probabilità Q sui boreliani di R2 tale che P ((−∞, x] × (−∞, y]) = F (x, y) per ogni (x, y) ∈ R2 . 4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE 67 Omettiamo la dimostrazione di questo importante teorema. Esso implica che F (x, y) è la probabilità Q concentrata nel rettangolo corrispondente alla zona sfumata della Figura 4.2. Figura 4.2: La regione sfumata ha probabilità Q uguale a F (x, y). Per quanto concerne il significato del membro di sinistra di (4.9) si noti che esso rappresenta la probabilità del rettangolo sfumato della Fig. 4.3. Infatti, per additività, la probabilità in questione è data da: Q((−∞, x + h] × (−∞, y + k]) − Q((−∞, x + h] × (−∞, y]) − Q((−∞, x] × (−∞, y + k]) + P ((−∞, x] × (−∞, y]). La probabilità concentrata nel punto (x0 , y0 ) è data da lim [F (x0 + h, y0 + k) − F (x0 − h, y0 + k) − F (x0 + h, y0 − k) + F (x0 − h, y0 − k)] h→0+ k→0+ (4.10) quando il limite in questione è strettamente positivo. Si noti che F è discreta se e solo se esiste un insieme numerabile C + ⊂ R2 tale che lim [F (x0 + h, y0 + k) − F (x0 − h, y0 + k) − F (x0 + h, y0 − k) + F (x0 − h, y0 − k)] = f (x0 , y0 ) > 0 h→0+ k→0+ per ogni (x0 , y0 ) in C + e, inoltre, X (x0 ,y0 )∈C + f (x0 , y0 ) = 1. CAPITOLO 4. VETTORI ALEATORI 68 Figura 4.3: Probabilità del rettangolo. Ritornando al caso generale, si può osservare che, data la funzione di ripartizione Fξ del vettore aleatorio ξ, si ha P {ξ1 6 x} = P {ξ1 6 x, ξ2 < +∞} = lim P {ξ1 6 x, ξ2 6 y} y→+∞ (4.11) P {ξ2 6 y} = P {ξ1 < +∞x, ξ2 6 y} = lim P {ξ1 6 x, ξ2 6 y} x→+∞ dove la seconda uguaglianza è valida in virtù della continuità delle probabilità σ–additive. Perciò, indicata con Fξi la funzione di ripartizione di ξi , per i = 1, 2, si avrà Fξ1 (x) = lim Fξ (x, y) (x ∈ R) Fξ2 (y) = lim Fξ (x, y) (y ∈ R). y→+∞ e x→+∞ 4.5.1 Variabili aleatorie indipendenti Siano ξ1 e ξ2 variabili aleatorie a valori, rispettivamente, in C1 e C2 e supponiamo che C1 , C2 siano σ-algebre di sottoinsiemi di C1 e C2 rispettivamente. Posto ξ = (ξ1 , ξ2 ), la distribuzione di ξ, Pξ , si suppone definita sulla classe di parti di C1 × C2 che corrisponde alla più piccola σ-algebra C che contiene tutti i rettangoli A × B con A in C1 e B in C2 . Perciò, Pξ (A × B) dà la probabilità che ξ1 appartenga ad A e ξ2 appartenga a B; più in generale, per ogni D in C, Pξ (D) è la probabilità che la coppia (ξ1 , ξ2 ) cada in D. In questo ambito, le variabili aleatorie ξ1 , ξ2 si dicono stocasticamente indipendenti se Pξ (A × B) = Pξ1 (A) · Pξ2 (B) per ogni A ∈ C1 e B ∈ C2 . Tale nozione si estende in maniera facilmente intuibile a un numero qualunque di variabili aleatorie. È un fatto di grande 4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE 69 importanza che nel caso di numeri aleatori, ovvero C1 = C2 = R e C1 = C2 = B(R), l’indipendenza stocastica di ξ1 e ξ2 equivale alla condizione ∀ (x, y) ∈ R2 Pξ ((−∞, x] × (−∞, y]) = Fξ1 (x)Fξ2 (y) dove Fξi è la funzione di ripartizione di ξi (4.12) (i = 1, 2). In altri termini, basta che la funzione di ripartizione bidimensionale si possa scrivere come prodotto delle funzioni di ripartizione marginali. Anche la dimostrazione di questo fatto viene omessa inqueste lezioni. E’ comunque facile verificare che, per ξ1 e ξ2 numeri aleatori discreti, la condizione (4.12) equivale a (4.1). 4.5.2 Distribuzioni assolutamente continue di vettore aleatorio Fra le distribuzioni bidimensionale non discrete meritano particolare attenzione quelle note come assolutamente continue. [Si veda il caso analogo per numeri aleatori nel Capitolo 2.] Sia data una funzione f : R2 7→ [0, +∞) tale che Z +∞ Z +∞ f (x, y) dxdy = 1. −∞ −∞ Si verifica, piuttosto facilmente, che la funzione Z x Z y (x, y) 7→ f (u, v) dudv −∞ −∞ gode delle proprietà da (4.7) a (4.9) e, pertanto, Z x Z y f (u, v) dudv F (x, y) = −∞ (x, y) ∈ R2 −∞ è una funzione di ripartizione su R2 ; essa viene detta assolutamente continua (perché F è assolutamente continua nel senso usuale dell’Analisi generale). La funzione f prende il nome di funzione di densità di probabilità. Se F è assolutamente continua, allora per ogni punto (x, y) in cui f è continua, vale f (x, y) = ∂2 F (x, y). ∂x∂y In effetti, questa relazione sussiste quasi ovunque. Coerentemente col caso monodimensionale trattato nel Sottoparagrafo 2.2.4, una proprietà si dice valida quasi ovunque su Rk se l’eventuale insieme N su cui non vale è tale che ad ogni ε > 0 si può associare una classe numerabile di sfere k–dimensionali la somma dei cui diametri non supera ε e la cui unione contiene N . Inoltre, dalle (4.11) si deduce Z x Z y Z Fξ1 (x) = lim f (u, v) dudv = y→+∞ −∞ −∞ x −∞ Z +∞ f (u, v) dv −∞ du (x ∈ R) CAPITOLO 4. VETTORI ALEATORI 70 Fξ2 (y) = lim x→+∞ = Z Z x −∞ +∞ Z y −∞ Z y f (u, v) dudv −∞ f (u, v) du −∞ e si deduce la proprietà notevole: dv = Z y −∞ Z +∞ f (u, v) du −∞ (y ∈ R) dv Se F è assolutamente continua, allora Fξ1 e Fξ2 sono assolutamente continue e le loro densità sono date, rispettivamente, da Z +∞ f (•, v) dv, fξ1 (•) = fξ2 (•) = Z +∞ −∞ −∞ f (u, •) du. (4.13) Illustriamo con due esempi le nozioni generali presentate in questo paragrafo. Esempio 4.5.1. (a) Si consideri un vettore aleatorio bidimensionale (ξ1 , ξ2 ) con distribuzione di probabilità assolutamente continua caratterizzata da una densità f (x, y) = 211T (x, y) dove T := {(x, y) ∈ R2 : 0 6 y 6 x 6 1}. Per calcolare la densità di ξ2 è sufficiente osservare che Z 1 dt = 2(1 − y)11(0,1) (y). f2 (y) = 11(0,1) (y)2 y (b) Si consideri un vettore aleatorio bidimensionale (ξ1 , ξ2 ) con distribuzione di probabilità assolutamente continua caratterizzata da una densità f (x, y) = 1 ye−y 11(0,+∞)×(0,+∞) (x, y). (x + y)2 In questo caso la densità di ξ2 è data da Z +∞ f2 (y) = 11(0,+∞) (y) 0 1 ye−y dx = e−y 11(0,+∞) (y). (x + y)2 (c) Distribuzione gaussiana d-dimensionale. Siano µ un vettore in Rd e V una matrice (d × d) simmetrica definita positiva. Allora, la funzione f (x) = 1t −1 exp − (x − µ)V (x − µ) 2 (2π)d/2 det V 1 (x ∈ Rd ) è una funzione di densità di probabilità su Rd . Si scopre che la i-esima distribuzione marginale è gaussiana con media µi e varianza uguale all’i-esimo elemento della diagonale principale di V . In effetti, la densità d-dimensionale in esame è nota come densità gaussiana d-dimensionale di parametro (µ, V ). Per maggiori informazioni, cf. la Sezione 6.4.1. 4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE 4.5.3 71 Caratterizzazione dell’indipendenza tramite fattorizzazione della funzione di densità Se (ξ1 , . . . , ξd ) ha distribuzione assolutamente continua rispetto alla quale ξ1 , . . . , ξd sono stocasticamente indipendenti, indicate con f la densità del vettore e con fξ1 , . . . , fξd le densità marginali delle singole componenti, la relazione f (x1 , . . . , xd ) = fξ1 (x1 ) · · · fξd (xd ) vale quasi ovunque. Si riveda la (4.2) per l’analoga caratterizzazione nel caso discreto. Ne discende, ad esempio, che le componenti di un vettore (ξ1 , . . . , ξd ) avente legge gaussiana sono indipendenti se V è matrice diagonale, e solo in quel caso. 4.5.4 Distribuzione di funzione di vettore aleatorio dotato di legge assolutamente continua Riprendiamo il problema della determinazione della distribuzione del numero aleatorio X = g(ξ1 , ξ2 ) quando ξ := (ξ1 , ξ2 ) ha distribuzione assolutamente continua. Cf. (4.3) e Paragrafo 4.4 per il caso discreto. Se la legge di (ξ1 , ξ2 ) ha densità f , allora per ogni insieme (di Borel) B contenuto in R vale Z PX (B) := P {X ∈ B} = In particolare per X = ξ1 + ξ2 , si ha Z Z f (x, y) dxdy = P {X 6 σ} = = = {x+y6σ} Z +∞ Z σ ( −∞ Z σ −∞ Z ( −∞ +∞ −∞ f (x, y) dxdy. {(x,y): g(x,y)∈B} +∞ −∞ Z σ−x f (x, y) dy −∞ dx, cambio di variabile y = u − v, x = v f (v, u − v) du) dv f (v, u − v) dv) du, la quale implica che fX (σ) = Z +∞ −∞ (4.14) f (x, σ − x) dx è una funzione di densità della distribuzione di X = ξ1 + ξ2 quando (ξ1 , ξ2 ) ha legge assolutamente continua con densità f . In particolare, se ξ1 e ξ2 sono stocasticamente indipendenti, rispettivamente con densità fξ1 e fξ2 , si ottiene fX (σ) = Z +∞ −∞ fξ1 (x)fξ2 (σ − x) dx (σ ∈ R), (4.15) che costituisce, dal punto di vista matematico, un esempio d’integrale di convoluzione. CAPITOLO 4. VETTORI ALEATORI 72 Esempio 4.5.2. Siano ξ1 , ξ2 indipendenti con distribuzioni gaussiane di parametri, rispettivamente, (µ1 , σ12 ) e (µ2 , σ22 ). Ci si propone di determinare la legge di X = ξ1 + ξ2 . Si risolve il problema col calcolo della densità tramite la (4.15): Z +∞ (u − µ1 )2 (x − u − µ2 )2 1 1 √ √ exp − exp − fX (x) = du 2σ12 2σ22 σ2 2π −∞ σ1 2π 2 2 1 +µ2 Z +∞ σ22 ξ − −x+µ 1 σ2 ξ 1 √ exp − √ exp − dξ = 2 2σ1 2 −∞ σ1 2π 2π u + µ2 − x ] [ottenuto col cambiamento di variabile ξ = σ2 ( Z +∞ 2 ) 1 σ12 σ12 + σ22 vσ22 1 2 2 √ exp − = √ exp −v σ2 2 ξ− 2 dξ σ1 + σ22 2σ12 σ1 + σ22 2π −∞ σ1 2π µ1 + µ2 − x ] [ottenuto col cambiamento si variabile v := σ2 (x − (µ1 + µ2 ))2 1 exp − = p (x ∈ R). 2(σ12 + σ22 ) 2π(σ12 + σ22 ) Questa è ancora una densità gaussiana di parametri µ1 + µ2 , σ12 + σ22 [somma dei parametri delle distribuzioni gaussiane di ξ1 e ξ2 ]. z Esempio 4.5.3. Siano ξ1 , ξ2 indipendenti con distribuzione di tipo gamma fξi (x) = 1 xai −1 e−x 11(0,+∞) (x) Γ(ai ) (x ∈ R) per i = 1, 2. La densità di X = ξ1 + ξ2 in x > 0 si ottiene per mezzo di (4.15): Z +∞ 1 1 fX (x) = ua1 −1 e−u 11(0,+∞) (u) (x − u)a2 −1 e−(x−u) 11(0,+∞) (x − u) du Γ(a ) Γ(a ) 1 2 −∞ Z x 1 1 a1 −1 −u a2 −1 −(x−u) u e (x − u) e du = Γ(a2 ) 0 Γ(a1 ) Z x e−x = ua1 −1 (x − u)a2 −1 du Γ(a1 )Γ(a2 ) 0 Z x u a2 −1 e−x xa2 −1 du = ua1 −1 1 − Γ(a1 )Γ(a2 ) 0 x Z e−x xa2 −1 a1 1 a1 −1 x ξ (1 − ξ)a2 −1 dξ. = Γ(a1 )Γ(a2 ) 0 Dovendo risultare 1= Z 0 +∞ R +∞ 0 fX (x) dx = 1, ricaviamo e−x xa2 −1 a1 x Γ(a1 )Γ(a2 ) Z 0 1 ξ a1 −1 (1 − ξ)a2 −1 dξdx 1 = Γ(a1 )Γ(a2 ) = Γ(a1 + a2 ) Γ(a1 )Γ(a2 ) Z 1 ξ 0 Z 0 1 a1 −1 a2 −1 (1 − ξ) dξ ξ a1 −1 (1 − ξ)a2 −1 dξ Z 0 +∞ e−x xa1 +a2 −1 dx 4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE 73 e, quindi, l’identità notevole Z 0 1 ξ a1 −1 (1 − ξ)a2 −1 dξ = Γ(a1 )Γ(a2 ) =: B(a1 , a2 ) Γ(a1 + a2 ) da cui fX (x) = 1 e−x xa1 +a2 −1 11(0,+∞) (x). Γ(a1 + a2 ) Dunque, X ha distribuzione gamma di parametri a1 + a2 , 1. Nella teoria delle funzioni speciali, la funzione (a1 , a2 ) 7→ B(a1 , a2 ), con a1 , a2 > 0 è nota come funzione beta. Ad essa è associata una legge di probabilità notevole che porta lo stesso nome. z Esempio 4.5.4 (Distribuzione beta). Abbiano ξ1 , ξ2 distribuzioni gamma come nell’esempio precedente. Proponiamo di determinare la distribuzione di ρ := ξ1 /(ξ1 + ξ2 ). Si noti che ρ ∈ (0, 1) con probabilità 1. Figura 4.4: Distribuzione beta. Quindi per x in (0, 1) si ha x ξ2 , ξ1 > 0, ξ2 > 0} 1−x ! x Z +∞ Z 1−x v 1 1 a1 −1 −u u e du v a2 −1 e−v dv. = Γ(a ) Γ(a ) 1 2 0 0 ! a1 −1 Z +∞ Z x z 1 1 a2 −1 −t t −zt/(1−z) dz t t e dt e 2 1−z (1 − z) Γ(a2 ) 0 Γ(a1 ) 0 ! a1 −1 Z x Z +∞ z 1 a2 −1 −t 1 t −zt/(1−z) dt dz t e t e Γ(a2 ) Γ(a1 ) 1 − z (1 − z)2 0 0 P {ρ 6 x} = P {ξ1 6 CAPITOLO 4. VETTORI ALEATORI 74 ottenuto operando il cambiamento di variabili t = v, z = u/(u + v). Pertanto a1 −1 v x 1 1 a2 −1 −v e−vx/(1−x) v e v dv fρ (x) = Γ(a2 ) Γ(a1 ) 1 − x (1 − x)2 0 Z +∞ x xa1 −1 = e−v(1+ 1−x ) v a1 +a2 −1 dv a +1 1 Γ(a1 )Γ(a2 )(1 − x) 0 a1 −1 x Γ(a1 + a2 ) = a1 +a2 Γ(a1 )Γ(a2 )(1 − x)a1 +1 x 1 + 1−x Z = +∞ Γ(a1 + a2 ) a1 −1 x (1 − x)a2 −1 Γ(a1 )Γ(a2 ) è una funzione di densità per il numero aleatorio ρ. La funzione di densità testé trovata Γ(a1 + a2 ) a1 −1 x (1 − x)a2 −1 11(0,1) (x) Γ(a1 )Γ(a2 ) si dice beta di parametri a1 , a2 . z 4.6 Distribuzione condizionata quando il vettore aleatorio ha legge assolutamente continua Vogliamo ora estendere la nozione di distribuzione condizionata (vista, per il caso discreto, nel Paragrafo 4.4) a vettori (ξ1 , ξ2 ) dotati di legge assolutamente continua. Per orientarci, incominciamo col dare risalto ad alcune importanti conseguenze della definizione data nel Paragrafo 4.4. Intanto, se C1 e C2 sono insiemi che rispettivamente racchiudono le determinazioni di ξ1 e ξ2 , per A ⊂ C2 si ha P {ξ2 ∈ A|ξ1 = x} = X f (x, y) f1 (x) [f (x, y)/f1 (x) = f2|1 (y|x)] y∈A e, quindi, per ogni fissato A, questa probabilità resta determinata quando sia nota la realizzazione di ξ1 . Inoltre, per B ⊂ C1 , P {ξ1 ∈ B, ξ2 ∈ A} = X x∈B P (ξ2 ∈ A|ξ1 = x)f1 (x). (4.16) Se F è una funzione di ripartizione assolutamente continua di vettore aleatorio (ξ1 , ξ2 ), avente densità f e densità marginali f1 , f2 , ci proponiamo di definire la funzione di ripartizione di ξ2 condizionata da {ξ1 = x} : F2|1 (•|x). Imitando ciò che si è trovato nel caso discreto, si impone che essa soddisfi una relazione del tipo (4.16), ovvero Z F (x, y) = P {ξ1 6 x, ξ2 6 y} = F2|1 (y|t)f1 (t) dt (∀x ∈ R) (t6x) 4.6. DISTRIBUZIONE CONDIZIONATA QUANDO IL VETTORE ALEATORIO HA LEGGE ASSOLUTAMENTE CON ovvero Z x −∞ Z y f (t, u) dudt = Z x F2|1 (y|t)f1 (t) dt −∞ −∞ Poiché quest’ultima relazione deve valere per ogni x, derivando rispetto ad x (operazione lecita quasi ovunque), ricaviamo Ry F2|1 (y|x) = −∞ f (x, u) du (quando f1 (x) 6= 0) f1 (x) (4.17) ovvero l’espressione per la funzione di ripartizione condizionata di ξ2 calcolata in y, dato {ξ1 = x}. Quindi, y 7→ f2|1 (y|x) := f (x, y) f1 (x) (quando f1 (x) 6= 0) è una densità condizionata (calcolata in y) di ξ2 dato {ξ1 = x}. Analogamente Rx f (u, y) du F1|2 (x|y) = −∞ (quando f2 (y) 6= 0) f2 (y) (4.18) (4.19) è la funzione di ripartizione condizionata calcolata in x, di ξ1 dato {ξ2 = y} e x 7→ f1|2 (x|y) := f (x, y) f2 (y) (quando f2 (y) 6= 0) (4.20) è una densità condizionata (calcolata in x) di ξ1 dato {ξ2 = y}. Le (4.17) e (4.18) non possono estendersi al caso in cui f1 (x) = 0; analogamente le (4.19) e (4.20) quando f2 (y) = 0. Poniamo allora Ni := {x ∈ R : fi (x) = 0} (i = 1, 2). Va notato che P {ξi ∈ Ni } = 0 per i = 1, 2; infatti P {ξi ∈ Ni } = Z fi (x)dx = 0 (i = 1, 2). Ni Questo autorizza a definire arbitrariamente le funzioni di ripartizione F1|2 (·|y) F2|1 (·|x) quando x e y sono rispettivamente in N1 e N2 ; ad esempio, ponendo F2|1 (·|x) = F2 (·) e F1|2 (·|y) = F1 (·). Esempio 4.6.1. Riprendiamo la distribuzione gaussiana d-dimensionale con d = 2 (legge gaussiana bidimensionale) 2 2 y−µ2 y−µ2 x−µ1 x−µ1 1 exp − 2(1−ρ + − 2ρ 2) σ1 σ1 σ2 σ2 f (x, y) = 2π(1 − ρ)1/2 σ1 σ2 ((x, y) ∈ R2 ), dove µ1 , µ2 sono reali, σ1 , σ2 costanti strettamente positive e ρ un numero in (−1, 1). Sappiamo che la densità marginale di ξi , fi , è data da fi (u) = (u − µi )2 1 √ exp − 2σi2 σi 2π (u ∈ R) i = 1, 2. CAPITOLO 4. VETTORI ALEATORI 76 Con calcoli elementari, e un po’ noiosi, si trova dall’applicazione di (4.18) la densità condizionata di ξ2 (calcolata in y) dato {ξ1 = x}: ( 2 ) σ2 1 1 y − µ2 + ρ (x − µ1 ) f2|1 (y|x) = p exp − 2 2σ2 (1 − ρ2 ) σ1 σ2 2π(1 − ρ2 ) (y ∈ R) che, per ogni x fissata in R, è ancora di tipo gaussiano con parametri µ2 + ρ σσ21 (x − µ1 ) , σ22 (1 − ρ2 ). z Esempio 4.6.2. Con riferimento alla densità dell’esempio 4.5.1 (a) f (x, y) = 211T (x, y) con T := {(x, y) ∈ R2 : 0 6 y 6 x 6 1}, si ottiene f1|2 (x|y) = 1106y6x61 1 f (x, y) = 1106y6x61 . f2 (y) 1−y Capitolo 5 Caratteristiche sintetiche di una distribuzione 5.1 Qualche considerazione generale Capita spesso che, in relazione a scopi specifici, non sia necessario conoscere la forma completa della distribuzione. Ad esempio, in molti problemi di meccanica non serve conoscere come è distribuita la massa e basta disporre del baricentro della massa. Analogamente, in statistica, per determinare l’accrescimento di una popolazione su un certo numero di unità di tempo non è necessario avere la distribuzione degli accrescimenti nelle unità di tempo considerate, ma basta un accrescimento medio e il numero delle unità temporali. In argomento più chiaramente probabilistico, si potrebbe dire che per sapere se, vendendo il diritto ad acquisire un guadagno aleatorio, ad un certo prezzo, ho guadagnato o perso, dovrò confrontare tale prezzo col prezzo ideale in base al quale sarei disposto sia a comprare sia a vendere una scommessa, d’importo qualunque, su tale guadagno. In queste lezioni ci occupiamo del problema di come sintetizzare, mediante opportune caratteristiche numeriche, una distribuzione e, quindi, di determinare espressioni di tali caratteristiche date, tipicamente, come funzioni della distribuzione stessa. 77 78 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE 5.2 Valore atteso, o speranza matematica, di numero aleatorio discreto Si pensi ad una distribuzione che ripartisce la massa unitaria fra i punti di ascissa x1 , . . . , xN in modo che pi sia la massa concentrata in xi (i = 1, . . . , N ). Se l’asse è supposto rigido e sospeso nell’origine, per calcolare le forze occorrenti ad equilibrare la distribuzione si può considerare che la massa sia concentrata nel baricentro, ovvero in x= N X xk pk . k=1 Se x1 , . . . , xN sono le realizzazioni possibili del guadagno derivante da una certa operazione economica (dall’esito aleatorio) e p1 , . . . , pN sono le probabilità da attribuire a tali realizzazioni, x prende un nuovo significato in relazione al problema seguente. Supponi di essere obbligato ad esprimere una valutazione certa (un prezzo) del guadagno in questione. Per evitare di tirare un numero a casaccio ma, al contrario, per garantire un fondamento alla valutazione che ti appresti a formulare, immagina di essere penalizzato per eventuali errori. Più precisamente, indicati con ξ il guadagno aleatorio e con v la valutazione certa di ξ, supponi di dover pagare c(xk − v)2 quando xk è la realizzazione effettiva di ξ, essendo c una costante positiva. Un indice della bontà di v come previsore è dato da s2 (v) = c N X k=1 (xk − v)2 pk (5.1) nel senso che valori piccoli di s2 (v) segnalano che v ben rappresenta, sia pure riassuntivamente, il valore che ξ può concretamente assumere. Quindi, una valutazione accettabile dovrebbe rendere minima la funzione v 7→ s2 (v). Si ha s2 (v) = c n n X X 2 xk + v 2 − 2vxk pk = c x2k pk + cv 2 − 2cvx k=1 k=1 e, dunque, l’equazione di una parabola con concavità rivolta verso l’alto. Perciò, v 7→ s2 (v) ha minimo assoluto nell’ascissa del vertice della parabola v= 2cx = x. 2c Lo stesso punto di vista si potrebbe adottare per concludere che x è una buona valutazione per un numero aleatorio di natura qualunque, purché discreto. Quindi nel calcolo delle probabilità, dato un numero aleatorio discreto ξ che prenda i valori x1 , x2 , . . . 5.2. VALORE ATTESO, O SPERANZA MATEMATICA, DI NUMERO ALEATORIO DISCRETO79 con rispettive probabilità p1 , p2 , . . . (pk > 0 per k = 1, 2, . . . , P k>1 |xk |pk < +∞, il numero X xk pk P k>1 pk = 1), tale che k>1 è detto valore atteso o speranza matematica di ξ e viene denotato con E(ξ). Da questa definizione si ricava che se g è una funzione reale definita su R tale che P k>1 |g(xk )|pk < +∞, il numero X g(xk )pk k>1 rappresenta il valore atteso del numero aleatorio g(ξ), ovvero E(g(ξ)) = X (5.2) g(xk )pk . k>1 Infatti, indicati con gj i valori distinti di g(ξ), si ponga p∗j = P {g(ξ) = gj } e si ricorra alla definizione di speranza matematica per ottenere E(g(ξ)) = X gj p∗j = X gj X pi = X i {i: g(xi )=gj } X pi gj = {j: gj =g(xi )} X pi g(xi ). i In particolare, per ogni evento A si ha E(11A ) = P (A). Analogamente, data una coppia di numeri aleatori (ξ1 , ξ2 ) che assuma valori (x, y) in un insieme numerabile C con probabilità f (x, y) = P {ξ1 = x, ξ2 = y}, se g è una funzione P reale definita su R2 tale che i,j>1 f (x, y)|g(x, y)| < +∞, si ha E(g(ξ1 , ξ2 )) = X (5.3) g(x, y)f (x, y). (x,y) Infatti, indicati con gk i valori distinti di g(ξ1 , ξ2 ), e ponendo p∗k = P {g(ξ1 , ξ2 ) = gk }, ragionando come prima si ottiene X X E(g(ξ1 , ξ2 )) = gk p∗k = gk k = X (x,y) 5.2.1 k f (x, y) X f (x, y) {(x,y): g(x,y)=gk } X {k: gk =g(x,y)} gk = X f (x, y)g(x, y). (x,y) Proprietà elementari del valore atteso In vista del largo uso che faremo della speranza matematica, conviene porne in evidenza alcune proprietà utili ad evitare calcoli spesso noiosi. Fermo restando (per il momento) la natura discreta dei numeri aleatori di cui si tratta, valgono le seguenti proposizioni: (a) Se la speranza matematica di ξ esiste, allora per ogni a e b in R si ha: E(aξ + b) = aE(ξ) + b; 80 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE (b) P {ξ = a} = 1 =⇒ E(ξ) = a; (c) P {a < ξ 6 b} = 1 =⇒ a < E(ξ) 6 b; (d) Se ξ1 e ξ2 hanno speranza matematica finita anche aξ1 + bξ2 ha speranza finita, (per ogni a, b in R) e vale E(aξ1 + bξ2 ) = aE(ξ1 ) + bE(ξ2 ). Dimostrazioni (a) Da (5.2), E(aξ + b) = P (axi + b)pi = a P xi pi + b = aE(ξ) + b; (b) Se P {ξ = a} = 1 allora E(ξ) = a · P {ξ = a} = a; (c) Se P {a < ξ 6 b} = 1 si ha E(ξ) 6 b P pi = b, E(ξ) > a P pj = a; (d) Da (5.3) ponendo f (x, y) = P {ξ1 = x, ξ2 = y} si ha, supposto b 6= 0, X |ax + by|f (x, y) E(|aξ1 + bξ2 |) = (x,y) 6 |a| = |a| = |a| X (x,y) X x X x |x|f (x, y) + |b| |x| X y X (x,y) f (x, y) + |b| |x|P {ξ1 = x} + |b| |y|f (x, y) X y X y = |a|E(|ξ1 |) + |b|E(|ξ2 |) < +∞ |y| X f (x, y) x |y|P {ξ2 = y} per ipotesi. Quindi esiste finita la speranza matematica di aξ1 + bξ2 e, con calcoli analoghi a quelli testé eseguiti, si ottiene E(aξ1 + bξ2 ) = aE(ξ1 ) + bE(ξ2 ). Se per k intero positivo si ha k, o momento k-esimo, di ξ. P |xi |k pi < +∞, allora E(ξ k ) si dice momento di ordine 5.3 Valore atteso di un numero aleatorio qualunque Sia ξ un numero aleatorio con funzione di ripartizione F , non necessariamente discreta; si veda la definizione di funzione di ripartizione su R nel Capitolo 2. Per arrivare ad una definizione del valore atteso di ξ, che conservi le proprietà già rilevate nel caso discreto, si può partire da una successione di approssimazioni discrete di ξ che converga a ξ stesso, ed estendere la nozione di valore atteso per continuità. Incominciamo col supporre che il codominio di ξ sia limitato e, per fissare le idee, risulti −∞ < a < ξ 6 b < +∞. 5.3. VALORE ATTESO DI UN NUMERO ALEATORIO QUALUNQUE 81 i (n) (n) con i = 1, . . . , n Per ogni intero positivo n, suddividiamo (a, b] in intervallini xi−1 , xi (n) (n) (n) (n) e x0 ≡ a, xn ≡ b e maxi xi − xi−1 ↓ 0 per n → +∞. Figura 5.1: Suddivisione dell’intervallo (a, b] i (n) (n) (n) La funzione ξ n che vale xi−1 quando ξ è contenuto in xi−1 , xi , per i = 1, . . . , n, è un numero aleatorio che approssima per difetto ξ. Analogamente, la funzione ξ n che i (n) (n) (n) approssima per eccesso ξ. Allora ξ n e ξ n sono vale xi sullo stesso intervallo xi−1 , xi numeri aleatori discreti. Cf. Figura 5.1. Posto (n) (n) − F xi−1 pi,n = F xi (i = 1, . . . , n) si ottiene n o n o (n) (n) P ξ n = xi−1 = P ξ n = xi = pi,n n X pi,n = 1 i=1 e, quindi, n X (n) xi−1 pi,n , E ξn = i=1 n X (n) E ξn = xi pi,n . i=1 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE 82 Inoltre 0 6 E(ξ n − ξ n ) 6 E ξn − E ξn = n X (n) pi,n (xi i=1 (n) 6 max(xi i (n) = max(xi i [ da (c)] [da (d)] (n) − xi−1 ) (n) − xi−1 ) (n) n X (5.4) pi,n i=1 − xi−1 ) ↓ 0 (n → +∞). Da questa relazione deduciamo che (E(ξ n ))n>1 , (E(ξ n ))n>1 sono successioni contigue e separate di numeri; l’elemento (numero) separatore ha, ovviamente, la proprietà caratteristica di non essere inferiore a nessun E(ξ n ) e non essere superiore ad alcun E(ξ n ). Ora, poiché le disuguaglianze ξ n 6 ξ 6 ξ n valgono per ogni n, un’estensione di E(·) a ξ che conservi la proprietà di monotonia (verificata nel caso discreto combinando (d) e (c), ovvero, se ξ1 e ξ2 soddisfano ξ1 6 ξ2 , allora E(ξ1 ) 6 E(ξ2 )) dovrà coincidere col suddetto elemento separatore in corrispondenza a ξ. E’ dunque lecito proporre di definire il valore atteso, o speranza matematica, di ξ come limite di E(ξ n ) [oppure, indifferentemente, di E(ξ n )]. Tale limite è noto, nell’Analisi generale, come integrale di Stieltjes e lo si denota R con [a,b] xdF (x). La rimozione del vincolo di limitatezza potrebbe realizzarsi ricorrendo all’integrale improprio, ponendo E(ξ) := lim a→−∞,b→+∞ Z xdF (x) = [a,b] lim a→−∞,b→+∞ E(ξ11[a,b] (ξ)) (5.5) purché sia soddisfatta la condizione lim a→−∞,b→+∞ Si scriverà, in tal caso, E(ξ) = R +∞ −∞ Z [a,b] |x|dF (x) < +∞. xdF (x) o, anche, R R xdF (x). L’ammissibilità della definizione (5.5) si può far risalire, essenzialmente, alle proprietà dell’integrale improprio di Stieltjes [cf., ad esempio, Gilardi (2001) e il Capitolo 6 di Burkill e Burkill (1970)] che, fra molte altre cose, implicano che E definita come in (5.5), continua a soddisfare le proprietà da (a) a (d) del Paragrafo 5.2.1. E’ importante notare che la speranza matematica di una funzione di numero aleatorio può essere determinata direttamente sulla base della funzione di ripartizione di ξ. R Se g : R → R è tale che R |g(x)|dF (x) < +∞, essendo F la funzione di ripartizione del 5.3. VALORE ATTESO DI UN NUMERO ALEATORIO QUALUNQUE 83 numero aleatorio ξ, allora vale E(g(ξ)) = Z g(x)dF (x). (5.6) R In particolare, la speranza matematica (supposta esistente) di ξ k , con k intero positivo, Z xk dF (x) mk := E(ξ k ) = R continua ad essere detta momento di ordine k (della funzione di ripartizione F ) di ξ. Perció, il valore atteso di ξ coincide con il momento primo della funzione di ripartizione di ξ. Come vedremo in seguito, la conoscenza di certi momenti può bastare, in circostanze particolari, a gettare luce su importanti aspetti di una intera distribuzione di probabilità. A proposito dei momenti conviene ricordare la seguente disuguaglianza (detta di Lyapunov): Se 0 < k < m e se E(|ξ|m ) < +∞ allora E[|ξ|k ]1/k 6 E[|ξ|m ]1/m . Discende da essa che se ilmomento secondo è finito, allora anche il momento primo (valore atteso) è finito. Concludiamo il paragrafo precisando come la definizione (5.5) possa essere tradotta in formule utili per il calcolo. Anche tali formule sono diretta conseguenza di proprietà notevoli dell’integrale di Stieltjes. La prima si riferisce al calcolo (peraltro già ben noto) del valore atteso di un numero aleatorio discreto. (C1) Sia ξ un numero aleatorio discreto con funzione di ripartizione F tale che F (xj )− P P F (xj − 0) = pj per j = 1, . . . , k, . . . e j pj = 1; allora, se j |xj |pj < +∞, si ha Z X xj pj . (5.7) xdF (x) = R j Un altro vantaggio della definizione proposta è nel fatto che essa consente il calcolo esplicito del valore atteso quando F è assolutamente continua. (C2) Se ξ è un numero aleatorio con funzione di ripartizione F assolutamente conR tinua, e funzione di densità di probabilità f , tale che R |x|f (x)dx < +∞, allora Z xf (x)dx. (5.8) E(ξ) = R Per quanto riguarda il numero aleatorio ξ con funzione di ripartizione F che sia combinazione convessa di una discreta (Fd ) e di una assolutamente continua (Fac ), come F (x) = λFd (x) + (1 − λ)Fac (x) CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE 84 con λ in (0, 1), dalle proprietà dell’integrale di Stieltjes discende Z X E(ξ) = xf (x)dx y j pj + R j>1 dove y1 , y2 , . . . sono le ascisse dei punti di salto di F con pj = F (yj ) − F (yj − 0) e f è la funzione derivata (con le precisazioni ben note sulla sua esistenza) di (1 − λ)Fac (x). Ad esempio, con riferimento alla funzione di ripartizione della Figura 2.4, il valore atteso è dato da 0 · (1 − Z α β α ) + M ( )β + m M M m xβαβ x−β−1 dx = (M − 1)( α β α ) + ( )β . M m Per numeri aleatori ξ con funzione di ripartizione qualunque (anche se non combinazione convessa di discreta e di assolutamente continua), conviene ricordare la seguente rappresentazione del valore atteso. Si nota, intanto che il valore atteso di ξ è finito se e R +∞ R0 solo se 0 (1 − F (x))dx < +∞ e −∞ F (x)dx < +∞; in tal caso Z E(ξ) = +∞ (1 − F (x))dx − 0 Z 0 F (x)dx. (5.9) −∞ Se il valore atteso di ξ è finito, si verifica la precedente con questi calcoli Z Z xdF (x) xdF (x) + E(ξ) = [0,+∞) = = Z [0,+∞) Z +∞ Z 0 = Z Z (−∞,0) x 0 dtdF (x) − (t,+∞) Z (1 − F (x))dx − Z 0 dtdF (x) (−∞,0) x Z 0 Z dF (x)dt − +∞ 0 Z −∞ 0 dF (x)dt (−∞,t] F (x)dx −∞ nei quali si fa uso del teorema di Fubini; viceversa, se i due integrali che figurano in (5.9) sono finiti, si può partire da ciascuno di essi per ricavare, rispettivamente, le espressioni R R [0,+∞) xdF (x) e (−∞,0) xdF (x) . L’espressione (5.9) ha un’interessante interpretazione geometrica. Infatti, posto h(m) := Z +∞ m (1 − F (x))dx − Z m F (x)dx −∞ si vede facilmente che m 7→ h(m) è continua e strettamente decrescente, con limm→+∞ h(m) = −∞, limm→−∞ h(m) = +∞. Nel punto m0 in cui h si annulla (cfr. Figura 5.2) si ha Z m0 Z +∞ F (x)dx := Lm0 (1 − F (x))dx = Um0 := −∞ m0 con U m0 = Z 0 +∞ (1 − F (x))dx − Z 0 m0 (1 − F (x))dx 5.3. VALORE ATTESO DI UN NUMERO ALEATORIO QUALUNQUE 85 111111111111 000000000000 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 111111111111111111111111 000000000000000000000000 000000000000000000000000 111111111111111111111111 000000000000000000000000 111111111111111111111111 000000000000000000000000 111111111111111111111111 111111111111111111111111111 000000000000000000000000000 000000000000000000000000 111111111111111111111111 m Figura 5.2: Il valore di h(m) è dato dalla differenza dell’area con tratteggio obliquo meno quella con tratteggio verticale L m0 = 0 −∞ e, quindi, 0 = U m0 − L m0 = Z Z F (x)dx − +∞ 0 (1 − F (x))dx − m0 + Z 0 Z 0 F (x)dx m0 m0 F (x)dx − Z 0 −∞ F (x)dx + Z 0 F (x)dx m0 = E(ξ) − m0 . Perció il valore atteso E(ξ) è l’ascissa del punto nel quale si ottiene il bilanciamento delle due aree a tratteggio obliquo e a tratteggio verticale. La formula 5.9 può essere utilizzata, ad esempio, per il calcolo di E(ξ) quando ξ ha la funzione di ripartizione descritta nell’esempio (b) di distribuzione continua discussa R1 nella Sottosezione 2.2.5. Infatti, da E(ξ) = 0 (1 − FS ∗ (x))dx (poiché S ∗ ha supporto incluso in [0, 1]), segue E(ξ) = 1 3 1 1 3 1 1 ( − )+ ( − )+ ··· = . 2 4 4 4 16 16 2 Completiamo le considerazioni svolte a proposito di (5.6) in relazione ad una funzione h(ξ1 , ξ2 ) di vettore aleatorio (ξ1 , ξ2 ), dotato di funzione di ripartizione F , essendo h R definita su R2 (misurabile) e a valori reali. Allora, se R2 |h(x, y)|dF (x, y) < +∞, si trova dalle proprietà dell’integrale di Stieltjes E(h(ξ1 , ξ2 )) = Z h(x, y)dF (x, y) (5.10) R2 che, nel caso discreto, si riduce a (5.3). Se F è assolutamente continua con funzione di densità f si ha E(h(ξ1 , ξ2 )) = Z h(x, y)f (x, y)dxdy. R2 Un caso particolarmente interessante si ha quando ξ1 e ξ2 sono stocasticamente indipendenti e h(ξ1 , ξ2 ) = ξ1 ξ2 . 86 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE Conviene, a questo proposito, premettere che dalla ovvia disuguaglianza 2|ab| 6 a + b2 segue che se vale E[ξi2 ] < +∞ per i = 1, 2, allora sono ben definite le speranze 2 matematiche E[|ξ1 ξ2 |] e E[ξ1 ξ2 ]. Ritornando al caso dell’indipendenza di ξ1 e ξ2 , si ha Proposizione 5.3.1. Se ξ1 e ξ2 sono stocasticamente indipendenti ed hanno speranza matematica finita, allora E(ξ1 · ξ2 ) = E(ξ1 )E(ξ2 ). Dimostrazione. (cenno euristico) Per ipotesi P {ξ1 6 x, ξ2 6 y} = Fξ1 (x)Fξ2 (y) ((x, y) ∈ R2 ). Quindi, se E(|ξi |) < +∞ per i = 1, 2, Z E(ξ1 ξ2 ) = xydFξ1 (x)dFξ2 (y) 2 Z ZR = xdFξ1 (x) ydFξ2 (y) = E(ξ1 )E(ξ2 ). R R z E’ importante osservare che la tesi della Proposizione 5.3.1 potrebbe valere anche in assenza della condizione di indipendenza stocastica, come nell’Esempio 5.5.4 che vedremo fra poco. 5.4 Valore atteso di una distribuzione condizionata Nei Paragrafi 4 e 6 del quarto capitolo abbiamo introdotto ed esemplificato la nozione di distribuzione condizionata, caratterizzata con y 7→ f2|1 (y|x) da intendersi, nel caso discreto, come probabilità condizionata di {ξ2 = y} dato {ξ1 = x} e, nel caso assolutamente continuo, come densità condizionata, calcolata in y, di ξ2 dato {ξ1 = x}. Se la corrispondente distribuzione risultasse molto concentrata attorno ad un valore (dipendente, chiaramente, da x) potremmo usare eventuali osservazioni su ξ1 per prevedere il valore di ξ2 . Si noti, a questo proposito, che ξ1 e ξ2 potrebbero essere il risultato di due osservazioni sullo stesso fenomeno effettuate in tempi diversi. Poincaré, nel 1902, scriveva “I fatti previsti. . . non possono che essere probabili. Per quanto una previsione possa apparirci solidamente fondata, non siamo mai assolutamente certi che l’esperienza non la smentirà. Ma la probabilità è spesso sufficientemente grande perché noi possiamo, praticamente, contentarcene.” 5.4. VALORE ATTESO DI UNA DISTRIBUZIONE CONDIZIONATA 87 Ad esempio, se ripetessimo misurazioni sulla differenza di potenziali (ξ1 ) agli estremi di un tratto di conduttore e, congiuntamente, sull’intensità di corrente (ξ2 ) difficilmente troveremmo, sia pure in condizioni ideali, perfettamente rispettata la legge di Ohm. Più realisticamente, si troverebbe una nuvola di punti nel piano, realizzazioni di (ξ1 , ξ2 ), molto concentrati attorno al grafico che esprime la legge suddetta. Quindi, un modello soddisfacente per situazioni analoghe a quella descritta e, a maggior ragione, per altre in cui le quantità oggetto di osservazione non sono assoggettabili a leggi deterministiche, dovrebbe essere costituito da una distribuzione o legge di probabilità a due o più dimensioni che specificasse i valori di probabilità assegnati ai varî accoppiamenti, o alle varie combinazioni, delle determinazioni delle quantità osservabili. La maggiore o minore concentrazione delle varie leggi condizionali servirebbe ad indicare la maggiore o minore tendenza di una quantità a dipendere da altre. Più precisamente, con riferimento a vettori bidimensionali, il problema si può porre nei termini seguenti: fissare un modo efficiente per prevedere ξ2 sulla base dei valori di ξ1 , in relazione ad un certo sistema di penalizzazione associato all’errore di previsione commesso. Indicato con ξb2 = g(ξ1 ) il previsore, si tratta, quindi, di fissare g in modo che risulti minima una pre- fissata penalizzazione. Qui ci limitiamo a considerare la penalizzazione che corrisponde al quadrato dello scarto fra ξ2 e g(ξ1 ). In altri termini, cerchiamo g in modo che risulti minimo il valore atteso E[(ξ2 − g(ξ1 ))2 ] (5.11) al variare di g in un’opportuna classe. Sussiste, a questo proposito, la fondamentale Proposizione 5.4.1. Si denoti con G la classe dei numeri aleatori g : R → R, che sono funzioni di ξ1 tali che E(g 2 (ξ1 )) < +∞. Allora, se anche per ξ2 vale E(ξ22 ) < +∞, si ha min E[(ξ2 − g(ξ1 ))2 ] = E[(ξ2 − E(ξ2 |ξ1 ))2 ] g∈G dove E(ξ2 |ξ1 ) = da Z ydF2|1 (y|ξ1 ). (5.12) R Prima di procedere alla dimostrazione, rileviamo che l’espressione E(ξ2 |ξ1 ) si ricava E(ξ2 |ξ1 = x) = 1 X yf (y, x) f1 (x) y nel caso discreto, per ogni determinazione x di ξ1 con probabilità positiva, e da E(ξ2 |ξ1 = x) = 1 f1 (x) Z yf (y, x)dy R CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE 88 nel caso assolutamente continuo, per ogni x tale che f1 (x) > 0. Inoltre, ricordiamo che la funzione x 7→ r2 (x) = E(ξ2 |ξ1 = x), definita per ogni x tale che f1 (x) > 0, prende il nome di funzione di regressione di ξ2 su ξ1 . Dimostrazione della Proposizione 5.4.1. Per dimostrare la proposizione si osserva che E[(ξ2 −g(ξ1 ))2 ] = E[(ξ2 −r2 (ξ1 ))2 ]+E[(r2 (ξ1 )−g(ξ1 ))2 ]+2E[(ξ2 −r2 (ξ1 ))(r2 (ξ1 )−g(ξ1 ))], con E[(ξ2 − r2 (ξ1 ))(r2 (ξ1 ) − g(ξ1 ))] = dal momento che R Z Z (y − r2 (x))(r2 (x) − g(x))dF2|1 (y|x)dF1 (x) Z = [r2 (x) − g(x)] [y − r2 (x)]dF2|1 (y|x) dF1 (x) Z Z = [r2 (x) − g(x)] ydF2|1 (y|x) − r2 (x) dF1 (x) = 0 Z ydF2|1 (y|x) − r2 (x) = 0. Pertanto, E[(ξ2 − g(ξ1 ))2 ] = E[(ξ2 − r2 (ξ1 ))2 ] + E[(r2 (ξ1 ) − g(ξ1 ))2 ] > E[(ξ2 − r2 (ξ1 ))2 ] e l’uguaglianza vale se e solo se g(ξ1 ) = r2 (ξ1 ) con probabilità uno. z Quindi il miglior previsore – rispetto alla penalizzazione quadratica – è la funzione di regressione a cui corrisponde un danno medio uguale a E[(ξ2 − r2 (ξ1 ))2 ]. Come misurare l’intensità di dipendenza di ξ2 da ξ1 , ovvero la bontà della regressione quale previsore? A questo proposito, seguendo Karl Pearson si può notare che vale Z 2 σ2 := (x − m2 )2 dF2 (x) = E[{(ξ2 − r2 (ξ1 )) + (r2 (ξ1 ) − m2 )}2 ] R = E[(ξ2 − r2 (ξ1 ))2 ] + E[(r2 (ξ1 ) − m2 )2 ] dove si è posto mi := E(ξi ) per i = 1, 2. Per verificare l’ultima uguaglianza si può procedere come nella dimostrazione della Proposizione 5.4.1. Quindi, 2 := η2|1 E[(ξ2 − r2 (ξ1 ))2 ] E[(r2 (ξ1 ) − m2 )2 ] =1− . 2 σ2 σ22 2 La costante η2|1 – nota come rapporto di correlazione – è stata proposta da K.Pearson per misurare, appunto, l’intensità della dipendenza di ξ2 da ξ1 . Essa varia in [0, 1] e assume il valore uno se e solo se ξ2 = r2 (ξ1 ) con probabilità uno, ovvero ξ2 dipende da ξ1 ; per contro, prende il valore zero se e solo se r2 (ξ1 ) è con probabilità uno costante (= m2 ), ovvero si presenta la situazione di indipendenza regressiva: la regressione non varia al 5.4. VALORE ATTESO DI UNA DISTRIBUZIONE CONDIZIONATA 89 variare di ξ1 . Si noti che quest’ultima circostanza sussiste, ad esempio, nel caso in cui ξ1 e ξ2 sono stocasticamente indipendenti (ma anche in altri casi). Infatti se ξ1 e ξ2 sono stocasticamente indipendenti, si ha r2 (ξ1 ) = E(ξ2 |ξ1 ) = E(ξ2 ) = m2 . Lasciamo allo studente di riformulare tutte le considerazioni che precedono per la R regressione r1 (ξ2 ) di ξ1 su ξ2 , dopo aver posto σ12 = R (x − m1 )2 dF1 (x). Esempio 5.4.2. Sia (ξ1 , ξ2 ) un vettore aleatorio con la legge rappresentata nella seguente tabella: ξ1 \ξ2 4 6 8 10 1 0,1 0,5 0 0 0,6 2 0 0 0,1 0,1 0,2 3 0 0 0 0,1 0,1 4 0 0 0 0,1 0,1 0,1 0,5 0,1 0,3 Si ha E(ξ1 ) = 1.7, Var(ξ1 ) = 1.01, E(ξ2 ) = 7.2, Var(ξ2 ) = 4.16. Nella Figura 5.3 vengono rappresentate con crocette le determinazioni di (ξ1 , ξ2 ). Figura 5.3: Le crocette corrispondono alle determinazioni di (ξ1 , ξ2 ). Direttamente dalla tabella segue P {ξ1 = 1|ξ2 = 4} = 1 P {ξ1 = 1|ξ2 = 6} = 1 P {ξ1 = 2|ξ2 = 8} = 1 P {ξ1 = 2|ξ2 = 10} = P {ξ1 = 3|ξ2 = 10} = P {ξ1 = 4|ξ2 = 10} = 1/3. 90 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE Quindi, r1 (4) = 1, r1 (6) = 1, r1 (8) = 2, r1 (10) = 9/3. 2 Per calcolare η1|2 , organizziamo i calcoli come segue (r1 (·) − m1 )p· (r1 (·) − m1 )2 p· 1 -0.7 0.245 2 0.3 0.009 9/3 1,3 0.507 r1 (·) 1 -0.7 0.049 0.81 2 da cui segue η1|2 = 0.81/1.01 = 0.801.... 5.5 Varianza Il valore atteso è stato introdotto come caratteristica numerica di una distribuzione atta a fornire una buona previsione di un numero aleatorio dotato di quella distribuzione. Infatti, E(ξ) rende minimo l’indice (5.1). Il valore minimo di tale indice si chiama varianza di ξ, in simboli Var(ξ), e la sua espressione è Var(ξ) = X k (xk − E(ξ))2 pk . Facendo uso dell’operatore E, si può scrivere X k (xk − E(ξ))2 pk = E[(ξ − E(ξ))2 ] e, sapendo che E è definito anche per numeri aleatori non discreti, possiamo estendere la nozione di varianza a un numero aleatorio ξ qualunque (anche non discreto) ponendo Var(ξ) = E[(ξ − m)2 ] (m := E(ξ)) (5.13) purché risulti E(ξ 2 ) < +∞. Ricordando la rappresentazione di E come integrale, da (5.13) segue Var(ξ) = Z R (x − m)2 dF (x) dove F è la funzione di ripartizione di ξ. Dalle proprietà dell’integrale, si ricava che, se F è discreta con salti p1 , p2 , . . . in x1 , x2 , . . . , vale Var(ξ) = X k (xk − m)2 pk . 5.5. VARIANZA purché riesca avrà 91 P k x2k pk < +∞. Invece, se F è assolutamente continua con densità f , si Var(ξ) = a patto che valga la condizione vale la R R Z R (x − m)2 f (x)dx x2 f (x)dx < +∞. In ogni caso se la varianza è finita, Proposizione 5.5.1. Se E(ξ 2 ) < +∞, allora Var(ξ) = E(ξ 2 ) − E2 (ξ), Var(aξ + b) = a2 Var(ξ) (a, b) ∈ R2 . (5.14) Dimostrazione. Var(ξ) = E[ξ 2 + E2 (ξ) − 2ξE(ξ)] = E(ξ 2 ) + E(E2 (ξ)) − 2E(ξ)E(ξ) = E(ξ 2 ) − E2 (ξ). Var(aξ + b) = E((aξ − aE(ξ))2 ) = E(a2 ξ 2 ) − E2 (aξ) = a2 (E(ξ) − E2 (ξ)) = a2 Var(ξ).z La varianza è un indice della maggiore o minore variabilità (dispersione) di una distribuzione attorno al valore atteso. Si vede facilmente che essa vale 0 se e solo se esiste una costante a tale che P {ξ = a} = 1. Esempio 5.5.2. Considero un numero aleatorio ξ con distribuzione P {ξ = −A} = (1 − β)/2 = P {ξ = A}, P {ξ = 0} = β, con β in [0, 1], A > 0. Allora E(ξ) = 0 e Var(ξ) = A2 (1 − β). La varianza è dunque nulla se β = 1 e, per A fissato, massima se β = 0. Lo studente potrebbe spiegare perché questa conclusione è intuitiva. 5.5.1 Varianza di una somma di numeri aleatori Passiamo a problemi di secondo grado, consistenti nel determinare la varianza di (aξ1 + bξ2 ) nell’ipotesi che valga E(ξi2 ) < +∞ per i = 1, 2. Per comodità di notazione, si continui a scrivere mi = E(ξi ) e σi2 = Var(ξi ) per i = 1, 2. Si vede facilmente che per ogni terna di numeri reali a, b, c vale la seguente Proposizione 5.5.3. Se ξ1 e ξ2 sono due variabili aleatorie con E(ξi2 ) < +∞, per i = 1, 2, allora Var(aξ1 + bξ2 + c) = Var(aξ1 + bξ2 ) = a2 σ12 + b2 σ22 + 2abCov(ξ1 , ξ2 ). (5.15) dove Cov(ξ1 , ξ2 ) := E[(ξ1 − m1 )(ξ2 − m2 )] = E(ξ1 ξ2 ) − m1 m2 (5.16) CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE 92 Dimostrazione. Var(aξ1 + bξ2 + c) = E (aξ1 + bξ2 − (am1 + bm2 ))2 = E (a(ξ1 − m1 ) + b(ξ2 − m2 ))2 = E a2 (ξ1 − m1 )2 + b2 (ξ2 − m2 )2 + 2ab(ξ1 − m1 )(ξ2 − m2 ) = a2 Var(ξ1 ) + b2 Var(ξ2 ) + 2abE[(ξ1 − m1 )(ξ2 − m2 )]. z (5.17) Il numero Cov(ξ1 , ξ2 ) è detto covarianza di (ξ1 , ξ2 ) e rappresenta una delle caratteristiche sintetiche più rilevanti di una distribuzione di vettore aleatorio. Se µ è la distribuzione di probabilità di (ξ1 , ξ2 ) scriveremo anche Cov(µ) al posto di Cov(ξ1 , ξ2 ). L’espressione della varianza della somma si semplifica sensibilimente quando ξ1 e ξ2 sono stocasticamente indipendenti. Infatti in questo caso si ha, per la Proposizione 5.3.1, Cov(ξ1 , ξ2 ) = E(ξ1 − m1 )E(ξ2 − m2 ) = 0 e, pertanto, Var(aξ1 + bξ2 ) = a2 Var(ξ1 ) + b2 Var(ξ2 ). (5.18) Si noti però che la covarianza si può annullare anche se ξ1 e ξ2 non sono stocasticamente indipendenti. Diremo in tal caso che i numeri aleatori ξ1 e ξ2 sono ortogonali o non correlati. Esempio 5.5.4. La legge di ξ1 sia data da P {ξ1 = −1} = 1−β = P {ξ1 = 1}, 2 P {ξ1 = 0} = β. Inoltre, ξ2 sia uguale al quadrato di ξ1 : ξ2 = ξ12 . Allora, E(ξ1 ) = 0, E(ξ1 ξ2 ) = E(ξ13 ) = 0 2 e ciò implica Cov(ξ1 , ξ2 ) = 0, pur essendo ξ2 perfettamente dipendente da ξ1 (η2|1 = 1). L’esempio offre anche un caso concreto in cui E[ξ1 ξ2 ] = E[ξ1 ]E[ξ2 ], pur non essendo stocasticamente indipendenti i numeri aleatori ξ1 e ξ2 . 5.5.2 Esempi di momenti di distribuzioni notevoli Esempio 5.5.5 (Valore atteso e varianza di una distribuzione binomiale). Vogliamo determinare valore atteso e varianza di un numero aleatorio Sn dotato di legge binomiale n k n−k P {Sn = k} = p q (k = 0, 1, . . . , n). k 5.5. VARIANZA 93 Lo studente faccia riferimento al Paragrafo 4.3.1, in cui Sn è visto come somma di numeri aleatori ξ1 , . . . , ξn indipendenti con legge comune p = P {ξ1 = 1} = 1 − P {ξ1 = 0} = 1 − q. Allora, dalla (d) del Paragrafo 5.2.1 segue E(Sn ) = E(ξ1 ) + · · · + E(ξn ) = np poiché E(ξ1 ) = 0 · q + 1 · p. Inoltre, da (5.18), Var(Sn ) = Var(ξ1 ) + · · · + Var(ξn ) = npq poiché E(ξ12 ) = 0 · q + 1 · p = p e, quindi, Var(ξ1 ) = E(ξ12 ) − E2 (ξ1 ) = p − p2 = p(1 − p). Esempio 5.5.6 (Valore atteso e varianza di una distribuzione di Poisson). Supponiamo che il numero aleatorio ξ abbia distribuzione di Poisson, ovvero P {ξ = k} = e−θ θk k! (k = 0, 1, . . .) in cui θ è un parametro positivo. Allora ∞ X X e−θ θk X θk−1 X θk e−θ θk E(ξ) = k = = θe−θ = θe−θ =θ k! (k − 1)! (k − 1)! k! k=0 k>1 k>1 k>0 Inoltre, E(ξ 2 ) = X k>0 k2 X X e−θ θk e−θ θk e−θ θk = = +θ [k(k − 1) + k] k! k! (k − 2)! k>0 k>2 X θk−2 + θ = θ2 + θ = e−θ θ2 (k − 2)! k>2 e quindi Var(ξ) = E(ξ 2 ) − E2 (ξ) = θ2 + θ − θ2 = θ. Allora, Var(ξ) = E(ξ) quando ξ ha distribuzione di Poisson. Esempio 5.5.7 (Valore atteso e varianza di una distribuzione geometrica). Sia P {ξ = r} = θ(1 − θ)r (r = 0, 1, . . .) 94 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE con θ parametro in (0, 1). Allora, E(ξ) = X r>1 P rθ(1 − θ)r = θ(1 − θ) X r>1 r(1 − θ)r−1 . La somma r>1 r(1 − θ)r−1 , come si vede facilmente, è la derivata calcolata in (1 − θ) di P x 7→ r>0 xr = (1 − x)−1 (x ∈ (0, 1)). Pertanto, E(ξ) = θ(1 − θ) = 1 d 1 = θ(1 − θ) 2 dx 1 − x x=1−θ (1 − x) x=1−θ θ(1 − θ) θ(1 − θ) 1−θ = = . (1 − 1 + θ)2 θ2 θ Ricordando che la distribuzione di (ξ + 1) fornisce la legge del tempo di attesa del primo successo in termini di numero di prove, nel caso di prove bernoulliane, si può asserire che il valore atteso di questo tempo è uguale al reciproco della probabilità di successo. [Risultato abbastanza naturale.] Con calcoli analoghi, si ottiene Var(ξ) = Var(ξ + 1) = (1 − θ)/θ2 . Esempio 5.5.8 (Valore atteso e varianza di distribuzione binomiale negativa). Nella Sezione 4.3.4 abbiamo visto che la distribuzione binomiale negativa, presentata nella Sezione 2.2.3, coincide con la legge di probabilità di un numero aleatorio ξ = Tn − n dove Tn è somma dei primi tempi intercorrenti τ1 , . . . , τn , ivi descritti. Quindi X n + r − 2 E(ξ) := θn (1 − θ)r r r>1 = E(Tn ) − n = n X i=1 per la (d) della Sezione 5.2.1. E(τi ) − n D’altra parte da (4.6) si vede che (τi − 1) è una variabile aleatoria con distribuzione geometrica e, quindi, dall’Esempio 5.5.7 si ricava E(τi ) = E(τi − 1) + 1 = 1−θ 1 +1= , θ θ e, dunque, 1 1−θ E(ξ) = n − n = n . θ θ Infine, per l’indipendenza dei tempi τi , Var(ξ) = Var(Tn − n) = Var(Tn ) = n X i=1 Var(τi ) = n 1−θ . θ2 5.5. VARIANZA 95 Infatti, sempre dall’Esempio 5.5.7 Var(τi ) = Var(τi − 1) = 1−θ . θ2 Esempio 5.5.9 (Valore atteso e varianza di distribuzione gaussiana). In questo esempio si danno alcuni elementi ulteriori alla conoscenza della legge gaussiana. La legge di ξ sia dunque assolutamente continua con densità (x − m)2 1 f (x) = √ exp − 2σ 2 σ 2π (x ∈ R). Dimostriamo che valgono le fondamentali relazioni: E(ξ − m) = 0, ovvero E(ξ) = m, Var(ξ − m) = Var(ξ) = σ 2 . Infatti: Z +∞ (x − m)2 1 √ exp − dx E(ξ − m) = (x − m) 2σ 2 σ 2π −∞ √ Z +∞ 2 x−m σ 2 ve−v dv [col cambiamento di variabile v = √ ] = √ π −∞ σ 2 =0 [l’integranda è dispari]; Var(ξ − m) = E((ξ − m)2 ) = = = = = 1 (x − m)2 (x − m)2 √ exp − dx 2σ 2 σ 2π −∞ Z 2σ 2 +∞ 2 −v2 √ v e dv π −∞ Z 4σ 2 +∞ 2 −v2 √ v e dv π 0 Z 2σ 2 +∞ −x 3 −1 √ e x 2 dx [col cambiamento di variabile x = v 2 ] π 0 2σ 2 √ Γ(3/2) = σ 2 . π Z +∞ Resta così chiarito il significato dei parametri m, σ 2 . z Esempio 5.5.10 (Momenti della distribuzione gamma e beta). Sia ξ un numero aleatorio con legge assolutamente continua di densità gamma f (x) = ab −ax b−1 e x 11(0,+∞) (x) Γ(b) (x ∈ R) con a, b parametri positivi. Allora, per ogni intero k > 0, Z +∞ ab k E(ξ ) = xk e−ax xb−1 dx Γ(b) 0 1 ab Γ(b + k) = k (b + k − 1) · · · b. = Γ(b) ab+k a Quindi, E(ξ) = b , a E(ξ 2 ) = (b + 1)b , a2 Var(ξ) = b . a2 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE 96 Sia X un numero aleatorio con legge assolutamente continua di densità (beta) g(x) = Γ(a + b) a−1 x (1 − x)b−1 11(0,1) (x) Γ(a)Γ(b) (x ∈ R). Allora, Z Γ(a + b) 1 k a−1 E(X ) = x x (1 − x)b−1 dx Γ(a)Γ(b) 0 Γ(a + b) Γ(k + b)Γ(b) = Γ(a)Γ(b) Γ(a + b + k) (k + a − 1) . . . a = (a + b + k − 1) . . . (a + b) k da cui E(X) = a , a+b E(X 2 ) = a(a + 1) , (a + b + 1)(a + b) Var(X) = ab . (a + b)2 (a + b + 1) 5.6 Caratteristiche sintetiche di una distribuzione a più dimensioni 5.6.1 Concordanza, discordanza e covarianza Aspetto assai interessante di una generica distribuzione di probabilità di vettore aleatorio è la concordanza: al crescere di una componente anche l’altra presenta una propensione a crescere. Si ritorni a vedere anche il Paragrafo 4.2. Come misurare questa proprietà tramite un’opportuna costante caratteristica? In un articolo del 1937, de Finetti propone di procedere nel modo seguente. Indicata con µ una distribuzione di probabilità su B(R2 ), si prendono due vettori aleatori (X1 , Y1 ) e (X2 , Y2 ) indipendenti e ciascuno di essi distribuito con legge µ. Si guarda ai due vettori come a due punti presi a caso sul piano (cf. Figura 5.4) e si considera l’evento C := {(X1 − X2 )(Y1 − Y2 ) > 0} che corrisponde alla condizione di concordanza, contro l’evento D := {(X1 − X2 )(Y1 − Y2 ) < 0} che segnala la condizione opposta, di discordanza. Per (X1 , Y1 ) fissato, la regione di concordanza è determinata dal fatto che (X2 , Y2 ) appartenga alla regione ombreggiata; la parte restante del piano è di indifferenza o di discordanza. Quindi, la concordanza – discordanza di µ si può misurare considerando il valore atteso del segno di (X1 − X2 )(Y1 − Y2 ), vale a dire il valore atteso di 1 sign((X1 − X2 )(Y1 − Y2 )) = −1 se (X1 − X2 )(Y1 − Y2 ) > 0 se (X1 − X2 )(Y1 − Y2 ) < 0. 5.6. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE A PIÙ DIMENSIONI97 (X_1,Y_1) Figura 5.4: Ovviamente, si ha E(sign((X1 − X2 )(Y1 − Y2 ))) = − Z Z 11{(x1 −x2 )(y1 −y2 )>0} µ(dx1 dy1 )µ(dx2 dy2 ) 11{(x1 −x2 )(y1 −y2 )<0} µ(dx1 dy1 )µ(dx2 dy2 ) e questo indice varia fra −1 e 1 e sarà tanto più prossimo a 1 (−1, rispettivamente) quanto maggiore è la concordanza (la discordanza, rispettivamente); la sua eventuale prossimità a zero indicherebbe sostanzialmente indifferenza tra i due caratteri. Un altro modo per cogliere il grado di concordanza è quello di valutare, anziché il segno di (X1 − X2 )(Y1 − Y2 ), il valore di tale prodotto e, quindi, il valore atteso E[(X1 − X2 )(Y1 − Y2 )] purché quest’ultimo esista. In tal caso, ricordando che (X1 , Y1 ) e (X2 , Y2 ) sono indipendenti e e che (X1 , Y1 ) ha la stessa legge di (X2 , Y2 ), si ha E[(X1 − X2 )(Y1 − Y2 )] = E[X1 Y1 − X1 Y2 − X2 Y1 + X2 Y2 ] = Cov(X1 , Y1 ) + E(X1 )E(Y1 ) − E(X1 )E(Y2 ) − E(X2 )E(Y1 ) + Cov(X2 , Y2 ) + E(X2 )E(Y2 ) = 2Cov(X1 , Y1 ). Perció, Cov(µ) coincide con la metà del valore atteso di (X1 − X2 )(Y1 − Y2 ) e, per il fatto che le determinazioni di questo prodotto segnalano la concordanza–discordanza delle 98 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE componenti del vettore (ξ1 , ξ2 ) distribuito secondo µ, ne discende che Cov(µ) fornisce una misura della concordaza–discordanza in µ. 5.6.2 Correlazione lineare e coefficiente di correlazione lineare Altra caratteristica interessante di una distribuzione µ di vettore aleatorio (ξ1 , ξ2 ) è l’eventuale tendenza a concentrarsi attorno ad una retta. Se una simile circostanza si presentasse sarebbe lecito, avendo determinato la retta, prevedere la determinazione di ξi a partitre dalla determinazione di ξj , per i 6= j. Come misurare l’intensità del- la tendenza summenzionata che, in statistica, è consuetudine chiamare correlazione lineare? Si parte dal membro di destra dell’espressione (5.15) e si osserva che, essendo la varianza di un numero aleatorio, deve soddisfare la disuguaglianza Q(a, b) := a2 σ12 + b2 σ22 + 2abCov(ξ1 , ξ2 ) > 0 (a, b) ∈ R2 . Q è dunque una forma quadratica [in (a, b)] semidefinita positiva. Quindi, essendo Var(ξi ) > 0 (i = 1, 2), il determinante di Var(ξ1 ) Cov(ξ1 , ξ2 ) Cov(ξ1 , ξ2 ) Var(ξ2 ) deve essere non negativo, ossia Var(ξ1 )Var(ξ2 ) > Cov2 (ξ1 , ξ2 ), (5.19) che è una versione probabilistica della disuguaglianza di Cauchy–Schwarz. Va inoltre osservato che Var(a0 ξ1 + b0 ξ2 ) = 0 per una opportuna coppia di (a0 , b0 ) 6= (0, 0) se e solo se la suddetta matrice non è definita positiva, ovvero Cov2 (ξ1 , ξ2 ) = Var(ξ1 )Var(ξ2 ). (5.20) Poiché Var(a0 ξ1 + b0 ξ2 ) = 0 se e solo se esiste una costante c0 per cui P {a0 ξ1 + b0 ξ2 = c0 } = 1, (5.21) possiamo stabilire la seguente Proposizione 5.6.1. Se E(ξi2 ) < +∞ (i = 1, 2), allora Cov2 (ξ1 , ξ2 ) 6 Var(ξ1 )Var(ξ2 ) (5.22) e l’uguaglianza vale se e solo se le determinazioni del vettore aleatorio (ξ1 , ξ2 ) appartengono con probabilità 1 ad una retta ax + by = c. In tal caso, se σi > 0 per i = 1, 2, la retta è crescente se e solo se Cov(ξ1 , ξ2 ) > 0. 5.6. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE A PIÙ DIMENSIONI99 Dimostrazione. Resta solo da dimostrare l’ultima affermazione sul segno di Cov(ξ1 , ξ2 ). Se vale (5.21) con σi > 0 per i = 1, 2, allora 0 = a20 σ12 + b20 σ22 + 2a0 b0 Cov(ξ1 , ξ2 ) con |Cov(ξ1 , ξ2 )| = σ1 σ2 ; perció, 0 = (a0 σ1 + b0 σ2 sign(Cov(ξ1 , ξ2 )))2 ovvero a0 σ1 = −b0 σ2 sign(Cov(ξ1 , ξ2 )). Pertanto, valendo la (5.21), il segno di Cov(ξ1 , ξ2 ) è opposto a quello di a0 b0 . z Nel caso particolare in cui σi2 > 0 per i = 1, 2, possiamo considerare il rapporto ρ(ξ1 , ξ2 ) = Cov(ξ1 , ξ2 ) σ1 σ2 noto come coefficiente di correlazione lineare (detto anche coefficiente di Bravais–Pearson). In virtù della Proposizione 5.6.1, si ha |ρ(ξ1 , ξ2 )| 6 1 e l’uguaglianza sussiste se e solo se vale (5.21), con a0 b0 < 0 (retta crescente) se e solo se ρ(ξ1 , ξ2 ) = 1. Ripetiamo che i numeri aleatorî ξ1 , ξ2 si dicono non correlati quando ρ(ξ1 , ξ2 ) = 0. Possiamo raccogliere le considerazioni precedenti nella seguente proposizione che precisa l’ufficio di ρ come misura della correlazione lineare fra le componenti di un vettore aleatorio bidimensionale. Proposizione 5.6.2. Se 0 < σi < +∞ per i = 1, 2, si ha |ρ(ξ1 , ξ2 )| 6 1 e l’uguaglianza vale se e solo le determinazioni del vettore aleatorio (ξ1 , ξ2 ) appartengono con probabilità 1 ad una retta ax + by = c. In tal caso, inoltre, la retta è crescente se e solo se ρ(ξ1 , ξ2 ) = 1. Si deve osservare che la legge di (ξ1 , ξ2 ) potrebbe segnalare una forte dipendenza di ξ2 da ξ1 ad esempio, o di ξ1 da ξ2 , ma debole correlazione lineare; in altri termini, la forma di tale dipendenza non sarebbe lineare. A questo fine, conviene mettere in luce una notevole disuguaglianza esistente fra rapporti di correlazione e coefficente di correlazione lineare. 100 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE Ricordiamo che con r2 (ξ1 ) abbiamo denotato la regressione di ξ2 su ξ1 . Allora, con la stessa notazione della Sezione 5.4 2 η2|1 =1− E[(ξ2 − g(ξ1 ))2 ] E[(ξ2 − r2 (ξ1 ))2 ] > 1 − σ22 σ22 per ogni funzione g e, in particolare, per g(ξ1 ) = m2 + ρσ2 (ξ1 − m1 )/σ1 (=retta di regressione II tipo; cf. 5.6.3), si ottiene 2 > 1 − {1 + ρ2 − 2ρ2 } = ρ2 . η2|1 2 Abbiamo già visto che η2|1 può assumere il valore massimo (1) mentre ρ2 prende quello minimo (0); cf. Esempio 5.5.4. Se η 2 = 0 (indipendenza in regressione) anche ρ2 deve 2 valere 0. Più in generale, l’uguaglianza tra η2|1 e ρ2 sussiste se e solo se la regressione di ξ2 su ξ1 è lineare (affine). Esempio 5.6.3. Riprendendo l’Esempio 5.4.2, si ha E(ξ1 · ξ2 ) = 0, 1 · 4 + 0, 5 · 6 + 0, 1 · 16 + 0, 1 · 20 + 0, 1 · 30 + 0, 1 · 40 = 14, 0 e Cov(ξ1 , ξ2 ) = 14, 0 − 1, 7 · 7, 2 = 1, 76. Allora ρ= √ 1, 76 ≃ 0, 86, 4, 2016 che è un valore piuttosto elevato per ρ; in effetti, la retta g(ξ1 ) = m2 + ρσ2 (ξ1 − m1 )/σ1 , tratteggiata in Figura 5.3, sembra adattarsi piuttosto bene ai dati (crocette). z 5.6.3 Regressione di secondo tipo (regressione lineare) Quando il modulo del coefficiente di correlazione ρ(ξ1 , ξ2 ) è abbastanza vicino ad uno vi è buon motivo per ritenere che le realizzazioni di (ξ1 , ξ2 ) tendano a concentrarsi attorno ad una retta. E’ quindi interessante cercare l’equazione di una retta che, rispetto ad un ben determinato criterio, si adatti bene alle realizzazioni di (ξ1 , ξ2 ). Come già in altre circostanze, adotteremo il criterio della minimizzazione dell’errore quadratico medio. Il problema può allora essere affrontato cercando la coppia (ā, b̄) per cui E[(ξ2 − āξ1 − b̄)2 ] = min E[(ξ2 − aξ1 − b)2 ]. a,b (5.23) Quindi, il numero aleatorio ξ¯2∗ = āξ1 + b̄ rende minimo il valore atteso del quadrato dell’errore |ξ2 − ξ2∗ |, con ξ2∗ = aξ1 + b al variare di (a, b). Per retta di regressione di secondo tipo si intende la retta cha ha equazione ξ2∗ = āξ1 + b̄. Essa corrisponde, nel campo dell’approssimazione numerica, alla retta dei minimi quadrati (Legendre-Gauss). Proposizione 5.6.4. Sotto la solita ipotesi E(ξi2 ) < +∞ e σi > 0 per i = 1, 2, il problema (5.23) ammette un’unica soluzione, caratterizzata da ā = ρ σ2 , σ1 b̄ = m2 − ρm1 σ2 . σ1 5.6. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE A PIÙ DIMENSIONI101 Dimostrazione. Posto R := E[(ξ2 − aξ1 − b)2 ] = E{[(ξ2 − m2 ) − a(ξ1 − m1 ) − (m2 − am1 − b)]2 } = σ22 + a2 σ12 + (m2 − am1 − b)2 − 2aCov(ξ1 , ξ2 ), il problema può essere risolto ricorrendo al metodo classico: ∂R = 2aσ12 − 2(m2 − am1 − b)m1 − 2Cov(ξ1 , ξ2 ) = 0 ∂a ∂R = −2(m2 − am1 − b) = 0 ∂b che porge ā = σ2 Cov(ξ1 , ξ2 ) =ρ , Var(ξ1 ) σ1 b̄ = m2 − ρ σ2 m1 . z σ1 √ Nell’Esempio 5.4.2, la regressione lineare di ξ1 su ξ2 è data da ξ1∗ = 1, 7+0, 86 0, 243(ξ2 − 7, 2) ed è rappresentata nel grafico di figura 5.3. Esempio 5.6.5. Per la distribuzione multinomiale con d = 3 (Cf. Esempio 4.2.2) si ha P {ξ2 = n2 |ξ1 = n1 } = (n − n1 )! n2 !(n − n1 − n2 )! p2 1 − p1 n2 1− p2 1 − p1 n−n1 −n2 purché sia 0 < p1 < 1 e 0 6 n1 + n2 6 n. Allora, E(ξ2 |ξ1 = n1 ) = = X n2 n2 P {ξ2 = n2 |ξ1 = n1 } n2 n−n2 p2 n − n1 p2 1− n2 1 − p1 1 − p1 =0 n−n X1 n2 A questo punto, si vede che il valore atteso condizionato cercato coincide con quello relativo alla legge binomiale (cf. Esempio 5.5.5) con n − n1 , al posto di n, p2 /(1 − p1 ) al posto di p. Perciò, n1 7→ E(ξ2 |ξ1 = n1 ) = (n − n1 ) p2 p2 p2 =n − n1 1 − p1 1 − p1 1 − p1 n1 = 0, . . . , n è la funzione di regressione di ξ2 su ξ1 . Questo mostra che la funzione di regressione di ξ2 su ξ1 (ma lo stesso vale per la regressione di ξ1 su ξ2 ) è lineare e, di conseguenza, dovrà coincidere con la regressione di secondo tipo con ā = ρσ2 /σ1 = −p2 /(1 − p1 ), b̄ = m2 − ρm1 σ2 /σ1 = np2 /(1 − p1 ). Poiché σ1 e σ2 valgono np1 (1 − p1 ) e np2 (1 − p2 ) in virtù del fatto che le leggi marginali sono binomiali di parametri npi (i = 1, 2) –cfr Esempio 4.2.2– si ottiene l’espressione del coefficente di correlazione dall’espressione p np2 (1 − p2 ) p2 ρp =− , 1 − p1 np1 (1 − p1 ) 102 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE ossia √ p1 p2 ρ = −p (1 − p1 )(1 − p2 ) e, di conseguenza, √ Cov(ξ1 , ξ2 ) = −n p1 p2 . Esempio 5.6.6 (Gaussiana). Per quanto concerne la legge gaussiana bidimensionale di densità f (x, y) = 2 2 y−µ2 y−µ2 x−µ1 x−µ1 1 + − 2ρ exp − 2(1−ρ 2) σ1 σ1 σ2 σ2 2π(1 − ρ2 )1/2 σ1 σ2 con (x, y) ∈ R2 ), poiché le leggi marginali sono ancora gaussiane di parametri (µ1 , σ1 ), (µ2 , σ2 ), si ha Var(ξi ) = σi2 E(ξi ) = µi , (i = 1, 2). Inoltre, Z +∞Z +∞ 1 (x − µ1 )(y − µ2 ) 2 )1/2 σ σ 2π(1 − ρ 1 2 −∞ −∞ " ( 2 2 #) x − µ1 −1 y − µ2 y − µ2 x − µ1 exp + dxdy − 2ρ 2(1 − ρ2 ) σ1 σ1 σ2 σ2 2 Z +∞Z +∞ 1 x1 x1 x2 x22 −1 = dx1 dx2 . − 2ρ + x x exp 1 2 2(1 − ρ2 ) σ12 σ1 σ2 σ22 2π(1 − ρ2 )1/2 σ1 σ2 −∞ −∞ Cov(ξ1 , ξ2 ) = Posto 1 y1 = p 1 − ρ2 x2 y2 = σ2 x1 ρx2 − σ1 σ2 si trova x1 = σ1 p 1 − ρ2 y1 + ρσ1 y2 x2 = σ2 y2 a cui corrisponde la matrice jacobiana J = σ1 p 1 − ρ2 0 ρσ1 σ2 , |J| = σ1 σ2 p 1 − ρ2 . 5.6. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE A PIÙ DIMENSIONI103 Perciò, col cambiamento di variabile indicato, si ottiene Z +∞Z +∞ p 1 −1 2 · σ2 y2 (σ1 1 − ρ y1 + ρσ1 y2 ) exp Cov(ξ1 , ξ2 ) = 2π −∞ −∞ 2(1 − ρ2 ) " #) p 2 y + ρσ y ) p 1 − ρ 1 σ y (σ 1 1 2 2 2 1 2 2 · dy1 dy2 (σ1 1 − ρ2 y1 + ρσ1 y2 ) + 2ρ + y2 σ12 σ1 σ2 Z Z p σ1 σ2 +∞ +∞ = y2 ( 1 − ρ2 y1 + ρy2 ) · 2π −∞ −∞ −1 2 2 2 2 −(1 − ρ )y1 − (1 − ρ )y2 dy1 dy2 · exp 2(1 − ρ2 ) h p i = σ1 σ2 E ξ2′ ( 1 − ρ2 ξ1′ + ρξ2′ ) = σ1 σ2 ρE(ξ2′ ) = σ1 σ2 ρ. (dove ξ1′ e ξ2′ sono variabili aleatorie indipendenti, di media nulla e varianza 1) Si scopre, così, che il parametro ρ rappresenta il coefficiente di correlazione lineare fra ξ1 e ξ2 . Guardando all’espressione della densità condizionale, presentata nell’Esempio 4.6.1, e all’interpretazione del parametro di una legge gaussiana unidimensionale, si trova l’espressione della regressione di ξ1 su ξ2 , immediatamente; cioè, x 7→ E(ξ2 |ξ1 = x) = µ2 + ρ σ2 (x − µ1 ) σ1 (x ∈ R) che, come per la legge multinomiale, coincide con la regressione lineare di secondo tipo. Inoltre, Var(ξ2 |ξ1 = x) = σ22 (1 − ρ2 ). La variabilità della legge condizionata di ξ2 , dato {ξ1 = x}, è dunque tanto più piccola – fermo restando la varianza marginale σ22 – quanto più prossimo a 1 è ρ2 (Risultato intuitivo!). z 104 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE Capitolo 6 Trasformazioni integrali di leggi di probabilità Nel Capitolo 4 abbiamo considerato il problema della determinazione della distribuzione di probabilità di funzioni di un dato vettore aleatorio del quale fosse nota la legge di probabilità. In generale è arduo riuscire ad ottenere forme esplicite di tali distribuzioni, a causa delle difficoltà che presenta il calcolo di integrali o somme multipli, anche nel caso di vettori con componenti stocasticamente indipendenti. A volte, le difficoltà che si incontrano nel calcolo diretto si possono evitare ricorrendo ad opportune trasformazioni delle distribuzioni di probabilità coinvolte nel calcolo. Particolarmente interessante, in questo senso, appare la caratterizzazione della distribuzione di una somma di numeri aleatori indipendenti per mezzo della loro funzione caratteristica o, quando può essere definita, della loro funzione generatrice dei momenti. La somma di numeri aleatori si presenta come operazione cruciale negli sviluppi teorici della probabilità (ad esempio, per lo studio dei processi ad incrementi indipendenti) e, parimenti, in applicazioni statistiche. In questo capitolo, con un occhio di riguardo alle applicazioni accennate e al carattere introduttivo del corso, vengono presentati alcuni aspetti elementari relativi a definizioni, proprietà e uso delle trasformazioni sopra accennate. 105 106 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ 6.1 Definizione di funzione caratteristica e di funzione generatrice dei momenti Il numero aleatorio ξ, definito in (Ω, S, P ), abbia funzione di ripartizione F . Ricordando la ben nota forma trigonometrica di un numero complesso, per ogni ω in Ω e per ogni reale t si scriva (6.1) eitξ(ω) = cos(tξ(ω)) + i sin(tξ(ω)). Per t fissata, quella che abbiamo scritto è una funzione di ω interpretabile come numero aleatorio a valori complessi. Essendo ξ 7→ cos(tξ) e ξ 7→ sin(tξ) funzioni continue e limitate (di ξ), per ogni t in R, i valori attesi E[cos(tξ)], E[sin(tξ)] sono ben definiti (cfr. Sezione 5.3 ) e quindi si definisce anche il valore atteso di exp(itξ) come E[eitξ ] := E[cos(tξ)] + iE[sin(tξ)] per ogni t fissata. In virtù di (6.1) e (5.6), si può porre Z Z cos(tx)dF (x) + i sin(tx)dF (x) E(eitξ ) := R ZR = (cos(tx) + i sin(tx))dF (x) ZR eitx dF (x). = R La funzione φ che ad ogni reale t associa il numero complesso E[eitξ ] prende il nome di funzione caratteristica di ξ. Nel linguaggio dell’Analisi A, essa corrisponde alla trasformata di Fourier-Stieltjes della funzione di ripartizione di F . Ricordando (5.7) e (5.8), si ottiene X φ(t) = eitxj pj j (t ∈ R) quando ξ è discreto con pj := F (xj ) − F (xj − 0) per j = 1, 2, . . . e φ(t) = Z R eitx f (x)dx P j pj = 1, e (t ∈ R) quando F è assolutamente continua con funzione di densità di probabilità f . L’ultima rappresentazione di φ si dice, col linguaggio dell’Analisi, trasformata di Fourier della funzione di densità f . 6.1. DEFINIZIONE DI FUNZIONE CARATTERISTICA E DI FUNZIONE GENERATRICE DEI MOMENTI107 Esempi di funzioni caratteristiche di leggi notevoli 1. Legge degenere. Dato x0 in R sia δx0 la distribuzione di probabilità degenere, che concentra la massa unitaria su x0 . Indicatane con Dx0 la funzione di ripartizione, per la corrispondente funzione caratteristica si ha Z eitx dDx0 (x) = eitx0 = cos(tx0 ) + i sin(tx0 ). φ(t) = R 2. Legge di Bernoulli. Sia ξ un numero aleatorio che prende i valori 0 e 1, rispettivamente con probabilità (1 − p) e p, essendo p un punto dell’intervallo [0, 1]. Allora la funzione caratteristica di ξ è φ(t) = (1 − p)eit·0 + peit·1 = 1 − p + peit . 3. Legge binomiale. In accordo alla definizione data nella Sottosezione 2.2.2, la legge binomiale è quella per cui un dato numero aleatorio prende uno dei valori {0, 1, . . . , n}, diciamo k, con probabilità nk θk (1−θ)n−k , essendo θ un reale fissato in [0, 1]. Allora la corrispondente funzione caratteristica è n X itk n θk (1 − θ)n−k φ(t) = e k k=0 n X n = (eit θ)k (1 − θ)n−k k k=0 = (1 − θ + θeit )n (sviluppo di Tartaglia-Newton della potenza intera del binomio). 4. Distribuzione di Poisson. Si tratta di un altro esempio di distribuzione discreta, definita sempre nella succitata Sottosezione 2.2.2. Un numero aleatorio ξ possiede la legge in questione se, per k in {0, 1, 2, . . . }, la probabilità che ξ prenda il valore k è λk e−λ /k!, con λ parametro strettamente positivo. Allora la funzione caratteristica è φ(t) = e−λ X k>0 eitk X (eit λ)k it λk = e−λ = e−λ(1−e ) . k! k! k>0 5. Come visto nelle Sottosezioni 2.2.2 e 3.3.2, la distribuzione binomiale negativa gioca un ruolo importante come legge di tempi d’attesa: in una successione bernoulliana di eventi, la probabilità che l’n-esimo successo si verifichi nella prova (n + r)-esima è data da n+r−1 n θ (1 − θ)r r r = 0, 1, 2, . . . 108 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ con θ come nei precedenti punti 2 e 3. La corrispondente funzione caratteristica è X n + r − 1 φ(t) = θn (1 − θ)r eitr r r>0 = X (−n)(−n − 1) · · · (−n + r + 1) r! r>0 (−1)r [(1 − θ)eit ]r X −n =θ (−1)r [(1 − θ)eit ]r r r>0 n θ . = 1 − (1 − θ)eit n La caratteristica di un numero aleatorio con legge geometrica (di Pascal), ovvero con legge binomiale negativa in cui n = 1, è data da φ(t) = θ . 1 − (1 − θ)eit 6. Distribuzione uniforme su (a, b). Si ricorda che è la legge assolutamente continua con densità f (x) = 1 I(a,b) (x). b−a La funzione caratteristica è allora data da Z b 1 1 eitb − eita φ(t) = eitx dx = b−a a b−a it (t 6= 0). Nel caso di a = 0 e b = 1 riesce φ(t) = eit − 1 it (t 6= 0). In entrambi i casi si definisce φ(0) = 1. Altri esempi notevoli di funzioni caratteristiche verranno presentati nel seguito, dopo aver discusso alcune proprietà generali della funzione caratteristica. Concentriamo ora l’attenzione sulla nozione di funzione generatrice dei momenti. Si tratta di una trasformazione integrale che si può definire solo per le funzioni di ripartizione F dotate della seguente proprietà: esiste un numero strettamente positivo ρ tale che Z etx dF (x) < +∞ per ogni t in (−ρ, ρ). R In tal caso, la funzione t 7→ Z etx dF (x) R definita per t in (−ρ, ρ) si dice funzione generatrice dei momenti associata alla funzione di ripartizione F . La denominazione scende dal fatto che, se F ha funzione generatrice 6.1. DEFINIZIONE DI FUNZIONE CARATTERISTICA E DI FUNZIONE GENERATRICE DEI MOMENTI109 dei momenti, allora F possiede finiti i momenti di ogni ordine e, inoltre, risulta Z X tj −ρ<t<ρ g(t) := etx dF (x) = mj j! R j>0 con mj := R R xj dF (x) (=momento di ordine j), j = 0, 1, 2, . . . . Non dimostriamo questo risultato, ma facciamo ulteriormente notare che esso implica mj = g (j) (0) per ogni j, e ciò chiarisce come la funzione g generi i momenti: tramite le sue derivate successive calcolate in 0. Per gli studenti in possesso di qualche nozione di ′′ teoria delle funzioni complesse′′ , notiamo che la condizione di esistenza della funzione generatrice dei momenti equivale a quella di ρ-analiticità della funzione caratteristica. In altri termini: la funzione di ripartizione F ammette generatrice dei momenti se e solo se esiste ρ > 0 tale che la funzione caratteristica φ risulti sviluppabile in serie di potenze su P (−ρ, ρ): φ(ξ) = j>0 βj ξ j , ξ ∈ (−ρ, ρ). In questo caso, φ può essere estesa analiticamente al cerchio |z| < ρ del piano complesso e la restrizione di questa estensione al segmento {−it : −ρ < t < ρ} coincide con la generatrice dei momenti. Esempi notevoli di funzione generatrice dei momenti e calcolo dei momenti 1. Distribuzione gaussiana. Si scrive exp{tx − (x − m)2 1 } = exp{ 2 (2σ 2 tx − x2 − m2 + 2mx)} 2 2σ 2σ 1 m2 = exp{− 2 − 2 (x2 − 2x(m + tσ 2 ))} 2σ 2σ 1 (m + tσ 2 )2 m2 }. = exp{− 2 − 2 [x − (m + tσ 2 )]2 + 2σ 2σ 2σ 2 Allora 1 g(t) = √ σ 2π Z 2 1 etx− 2σ2 (x−m) dx R Z (m+tσ2 )2 2 2 1 m2 1 + − 2σ 2σ2 √ e− 2σ2 [x−(m+tσ )] dx =e 2 σ 2π R m2 = e− 2σ2 + (m+tσ2 )2 2σ2 (cfr. Sottosezione 2.2.3) 2 = exp{tm + t 2 σ } 2 valido per ogni reale t. Ricorrendo alla succitata relazione fra caratteristiche analitiche e generatrice dei momenti, dalla generatrice gaussiana si passa alla caratteristica gaussiana ponendo φ(ξ) = g(iξ) = exp{iξm − ξ2 2 σ } 2 (ξ ∈ R). 110 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ 2. Distribuzione gamma. Dalla definizione data nella Sottosezione 2.2.3, la funzione generatrice dei momenti associata alla distribuzione gamma è definita dall’integrale g(t) = Z +∞ λm m−1 −λx λm x e dx = Γ(m) Γ(m) etx 0 Z +∞ xm−1 e−(λ−t)x dx 0 che è finito solo se t < λ. Quindi, la generatrice è ben definita anche in questo caso e si ha g(t) = λm Γ(m) 1 = m Γ(m) (λ − t) (1 − t/λ)m (t < λ). La funzione caratteristica sarà φ(ξ) = 1 (1 − iξ/λ)m (ξ ∈ R). Dallo sviluppo binomiale, t k X −m (−1)k λ k g(t) = (1 − t/λ)−m = = t<λ k>0 X tk m(m + 1) · · · (m + k − 1) . k! λk k>0 Si evince che il momento k-esimo della legge gamma è dato da Γ(m + k) λk Γ(m) Un po’ più elaborato sarà il calcolo per il momento k–esimo della precedente legge di Gauss. Si può procedere interpretando g come prodotto delle funzioni etm = X tr r>0 r! 2 mr , et σ2 /2 = X t2j σ 2 ( )j j! 2 j>0 e, quindi, il coefficiente di tν nella serie prodotto è X mr (σ 2 /2)j X (σ 2 /2)j mν−2j = r!j! (ν − 2j)!j! ν 2j+r=ν j6[ 2 ] ovvero exp{tm + X tν t2 2 σ }= mν 2 ν! ν>0 con mν = ν! X j6[ ν2 ] σ 2j mν−2j . (ν − 2j)!j!2j Quando il valore atteso (m) è nullo, dalla precedente ricaviamo le formule m2n = (2n)! σ 2n n!2n m2n+1 = 0. 6.2. PROPRIETÀ DELLA FUNZIONE CARATTERISTICA 111 A differenza della funzione caratteristica, che può essere definita indistintamente per ogni legge di probabilità su R, la funzione generatrice dei momenti potrebbe non esistere per certe funzioni di ripartizione. Ad esempio, prendiamo la densità f (x) = a ba I(b,+∞) (x) xa+1 con a, b parametri strettamente positivi, ben nota perché proposta dall’economista Vilfredo Pareto come distribuzione dei redditi individuali, cfr. anche 2.2.4. Per ogni t positivo si ha aba Z +∞ b 1 tx e dx = +∞ xa+1 e, quindi, la legge di Pareto non ha funzione generatrice dei momenti. Controllare, per esercizio, che ha momenti infiniti a partire da un certo ordine, stabilendo di quale ordine si tratta. 6.2 Proprietà della funzione caratteristica Iniziamo il paragrafo con una proprietà di sicuro valore operativo, in grado, da sola, di far apprezzare l’utilità della funzione caratteristica. Con questo fine, si rifletta sulla difficoltà che generalmente s’incontra nel calcolo della distribuzione della somma di numeri aleatori: cfr le Sezioni 4.2 e 4.3 per il caso discreto e la Sottosezione 4.5.4 per il caso di leggi assolutamente continue. Difficoltà che sussiste anche in caso di numeri aleatori indipendenti (calcolo di integrali di convoluzione) ove, invece, risulti semplice il calcolo della funzione caratteristica. Proposizione 6.2.1. Se X1 , . . . , Xn sono numeri aleatori indipendenti, con funzioni caratteristiche date rispettivamente da φX1 , . . . , φXn , allora la funzione caratteristica φSn della somma Sn := X1 + · · · + Xn è uguale al prodotto delle funzioni caratteristiche dei singoli addendi, ovvero φSn (t) = n Y φXk (t) k=1 (t ∈ R). Dimostrazione. Per definizione di funzione caratteristica si ha φSn (t) = E[eitSn ] = E[ n Y eitXk ] k=1 speranza matematica del prodotto di n numeri aleatori a valori complessi, stocasticamente indipendenti. 1 Allora, dalla Proposizione 5.3.1, estesa facilmente al caso di 1 Questa affermazione riguardante l’indipendenza va spiegata alla luce della definizione data all’inizio della Sottosezione 4.5.1, finora mai usata. Limitandoci al caso di n = 2, nella notazione di quella definizione, 112 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ numeri aleatori complessi, si ha E[ n Y eitXk ] = k=1 n Y E[eitXk ] = k=1 n Y φXk (t). k=1 z Questo risultato sarebbe però di scarso valore se, a questo punto, non si avesse la garanzia che alla funzione caratteristica rappresentata come prodotto corrisponde una sola legge di probabilità, quella di Sn . In effetti la corrispondenza uno ad uno fra legge di probabilità e funzione caratteristica vale, e questo assicura che la conoscenza della prima equivale a quella della seconda. Teorema 6.2.2 (di corrispondenza). Dette φXi , rispettivamente FXi , funzione caratteristica e funzione di ripartizione di Xi per i = 1, 2, allora φX1 = φX2 se e solo se FX1 = FX2 . Non dimostriamo il teorema, noto anche sotto il nome di teorema di unicità. Lo studente che fosse interessato a prendere visione della dimostrazione, sia del teorema precedente, sia dei molti qui presentati senza dimostrazione, può consultare il libro di Chow e Teicher: Probability Theory (Springer), 1997. Un celebere teorema di Lévy, detto d’inversione, permette di scrivere la funzione di ripartizione, corrispondente ad una data funzione caratteristica, in funzione di quest’ultima. Teorema 6.2.3 (formula d’inversione di Lévy). Se X è un numero aleatorio con funzione caratteristica φ, allora per ogni coppia di reali a, b con a < b si ha 1 C→+∞ 2π lim Z +C −C P {X = a} + P {X = b} e−ita − e−itb φ(t)dt = P {a < X 6 b} + . it 2 Se b è un punto di continuità della funzione di ripartizione F di X, dalla precedente si ottiene 1 a→−∞ C→+∞ 2π F (b) = lim lim Z +C −C e−ita − e−itb φ(t)dt. it Particolarmente istruttivo si presenta il caso in cui esiste finito l’integrale su R della funzione t 7→ |φ(t)|, in quanto vale il abbiamo ξ1 = eitX1 , ξ2 = eitX2 , C1 = C2 =piano complesso; quindi ξr = (cos(tXr ), sin(tXr )) con r = 1, 2. Fissati due elementi qualunque della σ-algebra di Borel di R2 , A1 e A2 , l’insieme A′r = {ω ∈ Ω : (cos(tXr (ω)), sin(tXr (ω))) ∈ Ar }, con r ∈ {1, 2}, si riduce per r e t, fissati rispettivamente in {1, 2} e R, ad un insieme del tipo A′r = {ω ∈ Ω : Xr (ω) ∈ Rr,t } con Rr,t nella S–algebra di Borel di R. Combinando queste rappresentazioni con l’ipotesi di indipendenza di X1 e X2 , si deduce l’indipendenza di A′1 e A′2 , e, quindi, di ξ1 e ξ2 . 6.2. PROPRIETÀ DELLA FUNZIONE CARATTERISTICA Corollario 6.2.4. Se R R 113 |φ(t)|dt < +∞, allora per a < b si ha Z −ita e − e−itb 1 φ(t)dt F (b) − F (a) = 2π R it e, inoltre, F è assolutamente continua, con una densità continua e limitata f esprimibile come f (x) = F ′ (x) = 1 2π Z e−itx φ(t)dt R (x ∈ R). Avremo occasione di ritornare su queste proposizioni. Procediamo ora alla presentazione di qualche proprietà elementare della funzione caratteristica. Proposizione 6.2.5. Sia φ la funzione caratteristica di un numero aleatorio ξ. Allora (i) φ(0) = 1; (ii) t 7→ φ(t) è uniformemente continua su R; (iii) la funzione caratteristica di aξ + b, con a, b costanti reali, è data da eitb φ(at). (iv) la funzione caratteristica di −ξ è uguale a φ(−t) = φ̄(t). Dimostrazione. (i) cos(tξ) + i sin(tξ) = 1 se t = 0 e, quindi, φ(0) = 1. (ii) |φ(t + h) − φ(t)| = |E[ei(t+h)ξ − eitξ ]| 6 E(|eihξ − 1|). Poiché |eihξ − 1| 6 2, la funzione h 7→ E(|eihξ − 1|) converge a zero per h che tende a zero e, quindi, fissato ε > 0, esiste δ > 0, indipendente da t, tale che |φ(t + h) − φ(t)| 6 E(|eihξ − 1|) 6 ε per ogni h tale che |h| 6 δ. (iii) E[ei(aξ+b)t ] = E[eibt eiaξt ] = eibt E[eiaξt ] = eibt φ(at). (iv) Vale E[ei(−ξ)t ] = E[cos(−tξ) + i sin(−tξ)] = φ̄(t) e, inoltre, E[ei(−ξ)t ] = φ(−t). z Ricordiamo che la legge di probabilità di un numero aleatorio ξ si dice simmetrica quando (−ξ) ha la stessa legge di ξ. Indicata con F la funzione di ripartizione di ξ, si ha simmetria se e solo se, per ogni x nell’insieme di continuità di F , si ha F (x) := P {ξ 6 x} = P {−ξ 6 x} = P {ξ > −x} =: 1 − F (−x). Inoltre, se ξ ha la legge simmetrica e funzione caratteristica φ, allora φ è anche caratteristica di −ξ, ovvero φ(t) = φ(−t) = φ̄(t) per la (iv). Pertanto, Reφ(t) = φ(t) + φ̄(t) = φ(t) 2 114 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ e dunque φ è a valori reali. Si dimostra che questo fatto è caratteristico delle leggi simmetriche. Proposizione 6.2.6. La funzione caratteristica di ξ è reale se e solo se la legge di ξ è simmetrica. Dimostrazione. Basta dimostrare che la condizione di simmetria è necessaria. Se φ è reale, allora φ(t) = φ̄(t) = φ(−t) e questo stabilisce, per mezzo del teorema di corrispondenza, che la legge di ξ coincide con quella di (−ξ). z Abbiamo incontrato vari esempi di leggi simmetriche. Il primo è quello della legge degenere in 0 (φ(t) ≡ 1). Come secondo esempio possiamo citare quello della legge uniforme su (a, b) con a = −b < 0. In tal caso, la funzione caratteristica è 1 eitb − e−itb 1 2i sin(tb) sin(tb) = = . 2b it 2b it bt Classico è l’esempio della legge gaussiana di valore atteso nullo: φ(t) = exp{−t2 σ 2 /2}. Possiamo trovare altri esempi notevoli ricorrendo ad una osservazione che si rivela utile per la determinazione di altre funzioni caratteristiche. Una utile osservazione sul riconoscimento di funzioni caratteristiche Si presenta un criterio per il riconoscimento di funzioni caratteristiche fondato sul Corollario 6.2.4 e sulla Proposizione 6.2.6. Supponiamo che f sia una funzione di densità continua, con corrispondente funzione caratteristica reale, non negativa e integrabile φ. Allora, per il Corollario 6.2.4, f coincide con F ′ dove 1 F (t) = 2π ′ Z e−itx φ(x)dx R (t ∈ R). Avendo supposto che φ è non negativa e integrabile, esiste una costante k > 0 tale che kφ viene ad essere densità di probabilità a sua volta. La costante k si determina subito, ponendo t = 0 nella precedente e imponendo che valga Z k 1 kF ′ (0) = . φ(x)dx = 2π R 2π Allora k = 1/{2πF ′ (0)} e la funzione (in t) definita da Z F ′ (−t) eitx kφ(x)dx = ′ F (0) R si può leggere come funzione caratteristica associata alla densità φ(x)/{2πF ′ (0)}. Per la Proposizione 6.2.6, essendo φ reale, deve sussistere la relazione F ′ (t) = F ′ (−t) e, quindi, f (t)/F ′ (0) è una funzione caratteristica e, più specificatamente, la funzione caratteristica coincidente con la trasformata di Fourier di φ(x)/{2πF ′ (0)}. Passiamo a qualche utile applicazione del criterio precedente. 6.2. PROPRIETÀ DELLA FUNZIONE CARATTERISTICA 115 (a) Legge di Cauchy e sua caratteristica. Data la costante positiva a, la funzione t 7→ e−a|t| è una funzione caratteristica? In vista dell’applicazione del criterio precedente, si parte dall’osservazione che la funzione f (t) = a −a|t| e 2 (t ∈ R) è una funzione di densità di probabilità, alla quale corrisponde la funzione caratteristica φ(x) = Z eitx f (t)dt = R =a Z +∞ Z R a −a|t| e cos(tx)dt 2 (per simmetria) e−at cos(tx)dt 0 = a2 a2 + x2 (integrare per parti due volte, considerando e−at come fattore differenziale). Questa funzione φ è reale, non negativa e integrabile su R. Applicando la conclusione sopra raggiunta, kφ è una densità cui corrisponde la funzione caratteristica (ae−a|t| /2)/F ′ (0) = e−a|t| . Si scopre così che e−a|t| è funzione caratteristica e si dimostra, inoltre, che ad essa corrisponde la densità 1 2 a2 a 1 = , 2 2 2 2π a a + x π a + x2 x ∈ R, nota come densità della legge di Cauchy, spesso portata ad esempio di legge per la quale non esiste il valore atteso. Non ammette, a maggior ragione, funzione generatrice dei momenti. (b) Legge triangolare inversa. Per α > 0 fissata, si considera la funzione t 7→ (1 − |t|/α)I[0,α) (|t|) e ci si chiede se è funzione caratteristica. Poiché non negativa e soddisfacendo si conclude che Z α −α (1 − |t|/α)dt = 2 f (t) = Z 0 α (1 − t/α)dt = α |t| 1 (1 − )I{|t| < α} α α è funzione di densità di probabilità con corrispondente funzione caratteristica Z α Z α 1 t cos(tx) (1 − )dt eitx f (t)dt = 2 φ(x) = (per simmetria) α α 0 −α Z Z α 2 2 α cos(tx)dt − 2 t cos(tx)dt = α 0 α 0 Z α 2 2 sin(αx) sin(tx) = sin(αx) − 2 [ α− dt] xα α x x 0 2 = 2 2 (1 − cos(αx)) (x ∈ R). x α 116 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ Poiché φ è reale, non negativa e integrabile su R, si può concludere che t 7→ (1 − |t| α )I{|t| < α} è funzione caratteristica, che corrisponde alla densità 2 α 2 1 − cos(αx) 1 (1 − cos(αx)) = 2πF ′ (0) α2 x2 2π α2 x2 1 1 − cos(αx) = απ x2 (x ∈ R) detta triangolare inversa, in quanto la densità f (t) è comunemente nota come triangolare, in ragione della forma del suo grafico. Un’ultima osservazione complementare: se ξ1 e ξ2 sono numeri aleatori indipendenti, ciascuno con legge uniforme su (0, α), e quindi con funzione caratteristica φ1 (t) = 1 eitα − 1 α it (cfr. (5) della Sezione 6.1), la funzione caratteristica φ di ξ1 − ξ2 si ottiene tramite la (iii) della Proposizione 6.2.5 e la Proposizione 6.2.1: φ(t) = φ1 (t)φ1 (−t) = = Pertanto x 7→ 1 α (1 − 1 α2 t2 (eitα − 1)(e−itα − 1) 2 (1 − cos(tα)). (αt)2 |x| α )I{|x| < α) è densità della differenza di due numeri aleatori indipendenti, ciascuno con densità uniforme su (0, α). 6.3 Estensione a vettori aleatori. Le definizioni e i teoremi presentati nelle prime due sezioni si possono estendere a vettori aleatori con accorgimenti piuttosto ovvi. Sia dunque ξ = (ξ1 , . . . , ξd ) un vettore aleatorio, d intero maggiore o uguale a due, con funzione di ripartizione F . Presi gli indici i1 , . . . , ik con 1 6 i1 < · · · < ik 6 d, k potendo essere uguale a uno, denoteremo con Fi1 ,...,ik la funzione di ripartizione marginale di (ξi1 , . . . , ξik ): Fi1 ,...,ik (xi1 , . . . , xik ) = lim F (x1 , . . . , xd ). xj → +∞ per ogni j 6∈ {i1 , . . . , ik } da Si chiama funzione caratteristica di (ξ1 , . . . , ξd ) la funzione di (t1 , . . . , td ) ∈ Rd definita φ(t1 , . . . , td ) = E[ei Pd j=1 tj ξj d d X X tj ξj )]. tj ξj )] + iE[sin( ] = E[cos( j=1 j=1 6.3. ESTENSIONE A VETTORI ALEATORI. 117 E’ utile notare che la funzione caratteristica si può interpretare come classe delle funPd zioni caratteristiche, calcolate in 1, dei numeri aleatori j=1 tj ξj ottenuti al variare di (t1 , . . . , td ) in Rd . E’ da notare come sia facile determinare la funzione caratteristica corrispondente alla distribuzione marginale Fi1 ,...,ik : basta porre uguali a zero, in φ(t1 , . . . , td ), tutte le tj con j ∈ {1, . . . , d} \ {i1 , . . . , ik }. E’ anche interessante notare che φ(t, . . . , t) = E[eitSd ] con Sd := Pd j=1 ξj : φ(t, . . . , t) coincide con la funzione caratteristica di Sd . Si deve ricordare che continua a valere il teorema di corrispondenza (unicità): Se X1 e X2 sono vettori aleatori, allora affinché abbiano la stessa legge di probabilità è necessario e sufficiente che posseggano la stessa funzione caratteristica. Si ottiene, come applicazione diretta dell’unicità, la seguente importante caratterizzazione dell’indipendenza stocastica. Proposizione 6.3.1. I numeri aleatori ξ1 , . . . , ξd sono stocasticamente indipendenti se e solo se la funzione caratteristica φ del vettore (ξ1 , . . . , ξd ) si scrive come prodotto delle funzioni caratteristiche φj (j = 1, . . . , d) dei singoli numeri aleatori ξ1 , . . . , ξd : φ(t1 , . . . , td ) = d Y (t1 , . . . , td ) ∈ Rd . φj (tj ) j=1 Dimostrazione. Dimostriamo dapprima che la fattorizzazione della funzione caratteristica è condizione necessaria. Infatti, se ξ1 , . . . , ξd sono indipendenti, per ogni (t1 , . . . , td ) in Rd si ottiene φ(t1 , . . . , td ) = E[exp{i d X j=1 = d Y tj ξj }] = E[ d Y eitj ξj ] j=1 (per l’indipendenza stocastica) E[eitj ξj ] j=1 = d Y φ(tj ). j=1 Assumiamo che valga la fattorizzazione della funzione caratteristica. Allora, per ogni (t1 , . . . , td ) in Rd si ha, indicando con Fj la funzione di ripartizione di ξj , φ(t1 , . . . , td ) = d Y φ(tj ). = j=1 j=1 = Z Rd d Z Y ei Pd j=1 tj xj d( eitj x dFj (x) R d Y j=1 Fj (xj )). 118 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ Da quest’ultima uguaglianza e dal teorema di unicità segue che la funzione di ripartizione F di (ξ1 , . . . , ξd ) si scrive come F (x1 , . . . , xd ) = d Y Fj (xj ) j=1 per ogni (x1 , . . . , xd ) in Rd , il che equivale all’indipendenza stocastica dei numeri aleatori (ξ1 , . . . , ξd ). z Per quanto concerne il calcolo effettivo della funzione caratteristica di un vettore aleatorio ξ = (ξ1 , . . . , ξd ) con funzione di ripartizione F , si ha Z Pd ei j=1 tj xj dF (x1 , . . . , xd ) (t1 , . . . , td ) ∈ Rd φ(t1 , . . . , td ) = Rd che si può ulteriormente precisare nei casi in cui: (j) (j) (a) F è discreta e concentra la massa unitaria sui punti x(j) = (x1 , . . . , xd ) per j = 1, 2, . . . ; se pj denota la massa concentrata su x(j) , allora φ(t1 , . . . , td ) = X pj e i Pd (j) k=1 tk xk . j (b) F è assolutamente continua con funzione di densità f ; allora Z Pd ei j=1 tj xj f (x1 , . . . , xd )dx1 . . . dxd . φ(t1 , . . . , td ) = Rd Due esempi notevoli di funzione caratteristica di vettore aleatorio. La for- mula (4.4) rappresenta la probabilità multinomiale di un vettore (N1 , . . . , Nd−1 ) sull’insieme delle (d−1)–uple di interi non negativi (n1 , . . . , nd−1 ) per i quali n1 +· · ·+nd−1 6 n. La funzione caratteristica φ è data da X P n! nd−1 nd i d−1 pn1 1 . . . pd−1 pd e m=1 tm nm φ(t1 , . . . , td−1 ) = n1 ! . . . nd−1 !nd ! = = X (nd := n − n1 · · · − nd−1 , pd := 1 − (p1 + · · · + pd−1 ), X denota la somma estesa alle suddette (d − 1)-uple) d−1 nk Y n! pk eitk pnd d n1 ! . . . nd−1 !nd ! d−1 X k=1 pk eitk + pd k=1 n , (6.2) l’ultima uguaglianza ottenuta dalla formula di Leibnitz della potenza naturale del polinomio. Nel punto (b) dell’Esempio 4.5.1 è stata definita la densità gaussiana d-dimensionale come f (x) = 1 (2π)d/2 (detV )1/2 1 exp{− (x − µ)′ V −1 (x − µ)} 2 (x ∈ Rd ) (6.3) 6.4. APPLICAZIONI 119 essendo V una matrice simmetrica definita positiva e µ un punto di Rd . La funzione caratteristica corrispondente è data da 1 φ(t1 , . . . , td ) = (2π)d/2 (detV )1/2 ′ = eit µ (2π)d/2 (detV )1/2 Z Z ′ 1 eit x exp{− (x − µ)′ V −1 (x − µ)}dx 2 Rd ′ 1 eit y exp{− y ′ V −1 y}dy. 2 Rd Sappiamo che esiste una matrice ortogonale O tale che σ2 0 0 1 0 σ22 0 O′ V O = D := . . . . . . . . . 0 ... ... ... . . . . . . . 2 σd Operando con la trasformazione u = Oy si ottiene ′ φ(t1 , . . . , td ) = eit µ Qd (2π)d/2 ( j=1 σj2 )1/2 ′ = eit µ Q (2π)d/2 ( dj=1 σj2 )1/2 Z ′ ′ eit O u exp{− Rd Z ei Pd j=1 τj uj Rd d 1 X u2j }du 2 j=1 σj2 exp{− d 1 X u2j }du 2 j=1 σj2 (τ ′ = t′ O′ ) =e it′ µ d Z Y j=1 ′ = eit µ d Y u2 R iτj uj − 12 j2 1 σ j du √ e j 2πσj 1 2 2 1 ′ e− 2 τj σj = eit µ− 2 Pd j=1 τj2 σj2 j=1 ′ 1 = eit µ− 2 τ ′ Dτ ′ 1 ′ = eit µ− 2 t V t . Riassumendo, la funzione caratteristica associata alla distribuzione multinomiale è φ(t1 , . . . , td−1 ) = d−1 X k=1 n pk eitk + (1 − p1 − · · · − pd−1 ) e quella associata alla densità gaussiana (6.3) è ′ 1 ′ φ(t1 , . . . , td ) = eit µ− 2 t V t . 6.4 Applicazioni In questo paragrafo presentiamo alcune applicazioni che, in parte, restituiranno risultati già noti. In questo caso potremo constatare come l’uso della funzione caratteristica ne faciliti la deduzione rispetto ad altri metodi. 120 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ 6.4.1 Proprietà della legge gaussiana d-dimensionale Si è visto che la funzione caratteristica di un generico vettore gaussiano è 1 φ(t1 , . . . , t1 ) = exp{it′ µ − t′ V t} 2 (t ∈ Rd ) con µ = (µ1 , . . . , µd )′ vettore fissato in Rd e V matrice simmetrica definita positiva. Indicato con (ξ1 , . . . , ξd )′ il vettore aleatorio corrispondente, per ogni k ∈ {1, . . . , d} la funzione caratteristica di ξk si ottiene della precedente ponendo t1 = · · · = tk−1 = tk+1 = · · · = td = 0, ovvero 1 φξk (tk ) = φ(0, . . . , 0, tk , 0, . . . , 0) = exp{itk µk − t2k σkk }. 2 Quindi, la legge marginale di posto k è gaussiana di valore atteso µk e varianza σk2 = σkk . Allora, affinchè ξ1 , . . . , ξk siano indipendenti è necessario e sufficiente che riesca d Y 1 1 exp{it′ µ − t′ V t} = exp{itk µk − t2k σkk } 2 2 k=1 (∀t ∈ Rd ) ovvero t′ V t = t′ Dt per ogni t con D = [σij ]16i,j6d e σij = 0 se i 6= j. Si ricava im- mediatamente che, nel caso gaussiano, l’indipendenza si ha se e solo se la matrice V è diagonale. Nel prossimo paragrafo, sui rapporti fra momenti e derivate di funzioni caratteristiche, otterremo una interessante interpretazione di questo ultimo risultato in termini di correlazione. Ritornando alla forma delle marginali della legge gaussiana d-dimensionale, vale che per ogni k e 1 6 i1 < · · · < ik 6 d, la legge di (ξi1 , . . . , ξik ) è gaussiana con funzione caratteristica 1 exp{iτ ′ µ(k) − τ ′ V (k) τ } 2 (τ ∈ Rk ) essendo µ(k) = (µi1 , . . . , µik )′ , V (k) la sottomatrice di V che ha per righe e colonne quelle ottenuto ”incrociando” le righe e le colonne di posto i1 , . . . ik di V . Per verificare ciò, basta porre uguali a zero tutti gli (n − k) elementi di t di posto diverso da i1 , . . . , ik . 6.4.2 Legge di somma di numeri aleatori (esempi notevoli) Dato un vettore aleatorio (ξ1 , . . . , ξd ) con funzione caratteristica φ, è immediato determinare la funzione caratteristica della somma di certe sue componenti. Ad esempio, se interessa la funzione caratteristica di Sk = ξ1 + · · · + ξk , φSk , con k 6 d, si ha φSk (t) = E[eitSk ] = φ( t, . . . , t , 0, . . . , 0) | {z } k componenti (t ∈ R). 6.4. APPLICAZIONI 121 (a) Nel caso che (N1 , . . . , Nd−1 ) abbia distribuzione multinomiale, preso k in {1, . . . , d− Pk 1}, si definisca j=1 Nj =: Sk . Allora la funzione caratteristica di Sk , calcolata in t, sarà φSk (t) = k X pm eit + m=1 d−1 X pm + pd m=k+1 n = k X m=1 k n X pm ) pm eit + (1 − m=1 ovvero la funzione caratteristica di un numero aleatorio avente distribuzione binomiale come la seguente X k k X n P {Sk = j} = ( pm )j (1 − pm )n−j j m=1 m=1 (j = 0, . . . , n). (b) Passando al caso in cui (ξ1 , . . . , ξd ) ha legge gaussiana d-dimensionale come nella Sottosezione 6.4.1, la somma Sk := ξ1 + · · · + ξk ha funzione caratteristica φSk (t) = exp{it con σ11 . . . M (t) = (t, . . . , t) . . . σk1 k X 1 µj − M (t)} 2 j=1 t k X k X ... 2 = t σl,m . . . ... m=1 l=1 t σkk ... σ1k ... ... ... ovvero la funzione caratteristica di un numero aleatorio gaussiano di valore atteso Pk Pk Pk j=1 µj e varianza m=1 l=1 σl,m . (c) Determiniamo la legge di ξ1 + · · · + ξd quando ξ1 , . . . , ξd sono stocasticamente indipendenti e la legge di ξk è gamma di densità λmk mk −1 −λx x e I{x > 0} Γ(mk ) per k = 1, . . . , d. Combinando la Proposizione 6.2.1 con la ormai ben nota espressione φξk (t) = 1 (1 − it mk λ) (t ∈ R), si ottiene φSd (t) = d Y k=1 φSk (t) = 1 m (1 − it λ) m := k=1 Ne discende che Sd ha funzione di densità gamma data da λm m−1 −λx x e I{x > 0} Γ(m) d X m := d X k=1 mk . mk . 122 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ 6.4.3 Applicazioni alla statistica Capita, in certi problemi statistici, come quelli contenuti nell’ultimo capitolo di questi appunti, di dover considerare la legge di probabilità di specifiche funzioni (statistiche) di vettori aleatori (ξ1 , . . . , ξn ) sotto l’ipotesi (h) (ξ1 , . . . , ξn ) sono numeri aleatori indipendenti ed identicamente distribuiti con legge gaussiana di media µ e varianza σ 2 . Incominciamo con lo studio della distribuzione del vettore aleatorio Vn := (ξ¯n , ξ1 − ξ¯n , ξ2 − ξ̄n , . . . , ξn − ξ̄n ) dove n 1X ξk . n i=1 ξ̄n := Ricorrendo alla funzione caratteristica, si ha φVn (t, t1 , . . . , tn ) = E[exp{itξ¯n + i n X k=1 dove itξ¯n +i n X k=1 =i tk (ξk − ξ¯n ) = i n X j=1 ξj {tj + n X tk ξk + k=1 1 t − n n tk (ξk − ξ̄n )}] n n n i X i X X t ξj − tk ξj n j=1 n j=1 k=1 n X k=1 tk } Quindi, per l’indipendenza stocastica delle ξj e la Proposizione 6.3.1, φVn (t, t1 , . . . , tn ) = n Y exp{iµ[ j=1 con t 1 t + t̄j ] − σ 2 [ + t̄j ]2 } n 2 n n t̄j := tj − per j = 1, . . . , n. Di conseguenza, valendo φVn (t, t1 , . . . , tn ) = exp{i n X ( j=1 = exp{itµ − 1X tk n Pn k=1 k=1 t̄k t σ + t̄j )µ − n 2 n 2 X σ2 2 σ t − 2n 2 = 0, n 2 X j=1 j=1 ( t2 + t̄2j )} n2 (tj − n 1X 2 tk ) } n k=1 n n 1X 2 σ X σ 2 (tj − t } exp{− tk ) } = exp{itµ − 2n 2 j=1 n 2 2 k=1 n n σ X 2 1X 2 1 σ 2 tj − t − t } exp{− [ = exp{itµ − 2n 2 j=1 n j=1 j n 2 = exp{itµ − 2 X 16j<k6n σ2 σ2 2 t } exp{− (t1 , . . . , tn )Λn (t1 , . . . , tn )′ } 2n 2 tj tk ]} 6.4. APPLICAZIONI dove Allora, 123 1 − n1 1 −n Λn := ... − n1 − n1 1 n 1− − n1 ... − n1 ... ... ...... − n1 ... 1 − n1 . φξ̄n (t) = φVn (t, 0, . . . , 0) = exp{itµ − σ2 2 t } 2n φ(ξ1 −ξ̄n ,...,ξn −ξ̄n ) (t1 , . . . , tn ) = φVn (0, t1 , . . . , tn ) = exp{− σ2 (t1 , . . . , tn )Λn (t1 , . . . , tn )′ } 2 (6.4) e ciò può essere riassunto nei punti seguenti: ξ¯n e (ξ1 − ξ¯n , . . . , ξn − ξ¯n ) sono stocasticamente indipendenti. (6.5) La legge di ξ̄n è gaussiana con valore atteso µ e varianza σ 2 /n. (6.6) La funzione caratteristica di (ξ1 − ξ̄n , . . . , ξn − ξ̄n ) è data da (6.4) e, (6.7) quindi, è di tipo gaussiano. Occupiamoci ora della legge di: Sn := n 1X (ξj − µ). σ j=1 Posto ξk∗ := ξk − µ σ si ha 2 t2 t2 t φξk∗ (t) = e−itµ/σ φξk ( ) = e−itµ/σ e+itµ/σ− 2σ2 σ = e− 2 σ e, quindi, φSn (t) = e− t2 n 2 che equivale ad affermare che La distribuzione di Sn è gaussiana con valore atteso nullo e varianza n. Passiamo all’esame della legge di Q2n := n 1 X (ξk − µ)2 . σ2 k=1 Per quanto concerne la funzione di ripartizione di (ξk − µ)2 /σ 2 , si ha P {(ξk − µ)2 /σ 2 6 s} = 0 (6.8) 124 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ per s < 0, e √ √ P {(ξk − µ)2 /σ 2 6 s} = P {− s 6 (ξk − µ)/σ 6 s} per s > 0, dove, più esplicitamente, Z √s √ √ 2 2 P {− s 6 (ξk − µ)/σ 6 s} = √ e−x /2 dx 2π 0 Z s t 1 1 e− 2 t 2 −1 dt. = 1/2 1 2 Γ( 2 ) 0 Quindi, (ξk − µ)2 /σ 2 ha legge assolutamente continua con funzione di densità di proba- bilità gamma con parametri m = λ = 1/2 1 1 e−s/2 s 2 −1 I(s > 0) 21/2 Γ( 21 ) che è nota come densità χ quadrato (χ2 ) con un grado di libertà. I numeri aleatori (ξk − µ)2 /σ 2 , k = 1, . . . , n, sono indipendenti ed identicamente distribuiti e, quindi, φQ2n (t) = n Y φ (ξk −µ)2 (t) = σ2 k=1 n Y k=1 1 1 = (1 − 2it)1/2 (1 − 2it)n/2 funzione caratteristica della legge gamma con parametri m = n/2, λ = 1/2. Perció, Q2n ha funzione di densità gamma definita da fQ2n (x) = (6.9) ( 21 )n/2 − 1 x n −1 e 2 x 2 I(0,+∞) (x) Γ( n2 ) denominata, comunemente, densità χ quadrato con n gradi di libertà. In statistica (cfr. l’ultimo capitolo di queste dispense) riveste un certo interesse il numero aleatorio Q̄2n := n 1 X (ξk − ξ̄n )2 . σ2 k=1 Della sua distribuzione ci occupiamo ora. Si nota che valgono le ovvie uguaglianze Q2n = n n n 1 X 1 X 1 X n 2 2 ¯ (ξ − µ) = [(ξ − ξ̄ ) + ( ξ − µ)] = (ξk − ξ̄n )2 + 2 (ξ¯n − µ)2 k k n n σ2 σ2 σ2 σ k=1 k=1 k=1 che, per la (6.5), si può vedere come somma di due numeri aleatori indipendenti: il primo uguale a Q̄2n è funzione di (ξ1 − ξ̄n , . . . , ξn − ξ¯n ), mentre il secondo è funzione di ξ¯n e ha legge χ2 con 1 grado di libertà (infatti la legge ξ¯n è gaussiana di valore atteso µ e di varianza σ 2 /n). Allora φQ2n (t) = φQ̄2n (t) e quindi φQ̄2n (t) = (1 − 2it)1/2 1 (1 − 2it)1/2 1 1 = n/2 (1 − 2it) (1 − 2it)(n−1)/2 6.5. FUNZIONE CARATTERISTICA E MOMENTI 125 la quale, combinata col teorema di unicità, dice che La legge di Q̄2n è χ2 con (n − 1) gradi di libertà o, equivalemtemente, Q̄2n ha funzione di densità di probabilità fQ̄2n (x) = ( 12 )(n−1)/2 − 1 x n−1 −1 e 2 x 2 I(0,+∞) (x). Γ( n−1 2 ) (6.10) Anche il numero aleatorio Tn−1 := p ξ¯n − µ n(n − 1) qP n 2 j=1 (ξj − ξ̄n ) gioca un ruolo rilevante in statistica. La sua legge, che ci apprestiamo a determinare, è nota come legge t di Student con (n − 1) gradi di libertà. Si può scrivere Tn−1 come rapporto dei due numeri aleatori indipendenti ξ̄n − µ √ , ∆n := ν := σ/ n r 1 Q̄2 n−1 n ν avendo legge gaussiana standard e Q̄2n la legge χ-quadrato con (n − 1) gradi di libertà. Quindi, per ogni t in R, si ha r o n 1 P {Tn−1 6 t} = P ν 6 t Q̄2n n−1 x Z Z t√ n−1 n−1 2 1 1 √ e−y /2 dy n−1 e−x/2 x 2 −1 dx = n−1 2π 2 2 Γ( 2 ) R −∞ la cui derivata rispetto a t fornisce la funzione di densità di Tn−1 (densità t di Student con (n − 1) gradi di libertà), fTn−1 : Z r n−1 t2 x 1 x 1 √ e− 2 n−1 n−1 fTn−1 (t) = e−x/2 x 2 −1 dx n−1 n − 1 2 2π 2 Γ( 2 ) R Z t2 x n 1 = p e− 2 (1+ n−1 ) x 2 −1 dx n−1 n−1 2π(n − 1)2 2 Γ( 2 ) R Γ( n2 ) 1 = p n n−1 t2 )] 2 [ 1 (1 + n−1 2π(n − 1)2 2 Γ( n−1 2 ) 2 Ovvero, Γ( n2 ) 1 . = p t2 n 2 [1 + ) π(n − 1)Γ( n−1 n−1 ] 2 1 1 fTn−1 (t) = √ n 1 n−1 t2 n − 1B( 2 , 2 ) (1 + n−1 )2 (t ∈ R). (6.11) 6.5 Funzione caratteristica e momenti Del calcolo dei momenti di un numero aleatorio per mezzo della funzione generatrice si è già detto. Si tratta di una possibilità che soffre della non trascurabile limitazione 126 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ derivante dal fatto che la funzione generatrice dei momenti, a differenza della caratteristica, non è definita per tutte le leggi di probabilità. E’ quindi utile accennare anche a come si possano dedurre i momenti dalla funzione caratteristica e agli sviluppi, di quest’ultima, deducibili dall’ipotesi di esistenza di un dato numero di momenti. A questo proposito, si enuncia (ma qui non si dimostra) il Teorema 6.5.1. Se ξ è un numero aleatorio con funzione caratteristica φ e E(|ξ|n+δ ) < +∞ per qualche intero n non negativo e per qualche δ in [0, 1], allora φ è di classe C n (R) [ classe delle funzioni definite su R e che posseggono continue tutte le derivate di ordine k 6 n]. Inoltre φ(k) (t) = ik E[ξ k eitξ ], φ(t) = φ(k) (0) = ik E[ξ k ], n X (it)j E[ξ j ] j=0 con j! O(|t|n+δ ) 6 21−δ φ(t) = n X (it)j E[ξ j ] j=0 j! 1 6 k 6 n, + O(|t|n+δ ) |t|n+δ E|ξ|n+δ (1 + δ) · · · (n + δ) + o(|t|n ) (t → 0). Si deve osservare che l’esistenza della derivata di un certo ordine nell’origine non implica, in generale, l’esistenza del momento di tale ordine. Però, se l’ordine in questione è pari, ad esempio, se φ(2k) (0) esiste finita per qualche intero k positivo, allora E(ξ 2k ) < +∞. Il precedente teorema si estende a vettori aleatori ξ := (ξ1 , . . . , ξd ) di dimensione d > 2. Ricordiamo che, dato il vettore aleatorio ξ := (ξ1 , . . . , ξd ), il suo momento misto di ordine (ν1 , . . . , νd ), con ν1 , . . . , νd interi non negativi, è definito dal valore atteso E(ξ1ν1 · · · ξdνd ) purché sia finito il valore atteso del prodotto dei moduli (E(|ξ1ν1 | · · · |ξdνd |) < +∞). Se esistono tutti i momenti di ordine (ν1 , . . . , νd ) con ν1 + · · · + νd 6 n per qualche intero n > 1, si può sviluppare la funzione caratteristica φ di ξ nel modo seguente φ(t1 , . . . , td ) = X ν1 + · · · + νd 6 n νj > 0, j = 1, . . . , d iν1 +···+νd E[ξ ν1 · · · ξdνd ]tν11 · · · tνdd + o(ktkn ) (ktk → 0) ν1 ! . . . νd ! 1 6.5. FUNZIONE CARATTERISTICA E MOMENTI P dove ktk := ( dk=1 t2k )1/2 ; inoltre, iν1 +...νd E[ξ1ν1 · · · ξdνd ] = 127 ∂ ν1 +...νd . νd φ(t1 , . . . , td ) ν1 ∂t1 · · · ∂td t1 =0,...,td =0 Una semplice applicazione di quest’ultima affermazione consente di completare le considerazioni sul significato degli elementi di µ e V , caratterizzanti la legge gaussiana d-dimensionale della Sottosezione 6.4.1. Ponendo, dapprima, νk = 0 per ogni k 6= j e νj = 1, si ottiene iE(ξj ) = ∂ φ(t1 , . . . , td ) ∂tj t1 =0,...,td =0 = iµj (j-esima componente di µ). Quindi, µj è la j–esima componente del vettore µ corrispondente al valore atteso di ξj per j = 1, . . . , d. Ancora, ponendo νj = νl = 1 per j 6= l e νk = 0 per k diverso da j e l, si ricava i2 E[ξj ξl ] = ∂2 φ(t1 , . . . , td ) ∂tj ∂tl t1 =0,...,td =0 = i2 (σjl + µj µl ) con σjl = σlj elemento che si trova all’incrocio della j–esima riga con la l–esima colonna di V ; si ha allora che σjl = E[ξj ξl ] − µj µl = Cov(ξj , ξl ). Analogamente, ponendo νj = 2 e νk = 0 per k diverso da j, si ricava i2 E[ξj2 ] = ∂2 φ(t , . . . , t ) 1 d ∂t2j t1 =0,...,td =0 = i2 (σj2 + µ2j ) con σj2 = σjj ; perció, σj2 = V ar(ξj ). Si può quindi completare il discorso lasciato in sospeso nella Sottosezione 6.4.1, dicendo che, nel caso di vettori aleatori gaussiani, l’indipendenza equivale all’assenza di correlazione. Fatto che non vale, però, in generale. Il calcolo delle derivate di φ (di I e II ordine) sopra indicate è lasciato, per esercizio, allo studente. 128 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ Capitolo 7 Teoremi limite del calcolo delle probabilità. Brevi cenni I teoremi limite costituiscono un punto di arrivo per il calcolo delle probabilità classico. Sia per rispondere a problemi concreti, sia per esigenze di speculazione scientifica, i probabilisti sono stati indotti a ricercare regolarità nei fenomeni aleatori soprattutto nell’ambito di gruppi numerosi di prove. Ad esempio, si sono preoccupati di vedere in che senso si può dire che la frequenza di successo in una successione di eventi equiprobabili converge verso la probabilità (costante) di successo. Analogamente, in una successione di misurazioni di una stessa grandezza fisica, è legittimo attendersi che la media delle prime n letture ”converge”, all’aumentare del numero delle misurazioni, verso la grandezza oggetto di studio? Ancora, se si considera la media dei guadagni aleatori relativi ad un gruppo numeroso di contratti assicurativi fra loro ”disparati”, possiamo ragionevolmente attenderci, qualora i guadagni vengano valutati in base a premi ′′ puri′′ , che il portafoglio sia prossimo all’equilibrio (media nulla dei guadagni)? E come interpretare correttamente un’eventuale risposta positiva? Si possono porre altri quesiti, di natura differente, che conducono a risolvere ′′ problemi limite′′ che si traducono nella ricerca di una distribuzione di equilibrio per grandezze concepibili come somma di effetti, singolarmente trascurabili, di una miriade di cause indipendenti. E’ il caso della distribuzione degli errori di misurazione o degli scarti accidentali da un valore programmato in una produzione di massa di un certo manufatto. Il primo gruppo di esempi si ricollega alle leggi dei grandi numeri, mentre il secondo al teorema centrale del limite del calcolo delle probabilità. A questi temi dedicheremo soltanto brevi cenni. Uno studio più approfondito potrebbe essere fatto in un secondo 129 130CAPITOLO 7. TEOREMI LIMITE DEL CALCOLO DELLE PROBABILITÀ. BREVI CENNI corso sulla probabilità. Utilizzeremo alcune disuguaglianze notevoli che prensentiamo immediatamente. 7.1 Qualche disuguaglianza notevole Le seguenti disuguaglianze, basate sui momenti del numero aleatorio d’interesse, hanno una notevole importanza teorica per la loro utilità in svariati processi dimostrativi; dal punto di vista della bontà dell’approssimazione che forniscono appaiono, invece, piuttosto rudimentali. Proposizione 7.1.1. Siano ξ un numero aleatorio e h una funzione misurabile da R in R+ , tale che E(h(ξ)) < +∞. Allora, per ogni a > 0, P {h(ξ) > a} 6 E(h(ξ)) . a (7.1) Dimostrazione. Si ha h(ξ) − 11{h(ξ)>a} · a > 0 e, per (a), (c), (d) della Sezione 5.2.1, 0 6 E h(ξ) − a11{h(ξ)>a} = E(h(ξ)) − a · P {h(ξ) > a}. z Dalla disuguaglianza (7.1), con h(•) = | • |, segue la classica disuguaglianza di Markov. Corollario 7.1.2 (Disuguaglianza di Markov). Se E|ξ| < +∞, allora P {|ξ| > a} 6 E(|ξ|) a (a > 0). (7.2) Infine, con h(ξ) = (ξ−E(ξ))2 , a = ε2 (ε > 0), si ricava la disuguaglianza di Bienaymé– Chebyshev. Corollario 7.1.3 (Disuguaglianza di Bienaymé– Chebyshev). Se E|ξ|2 < +∞, allora P {|ξ − E(ξ)| > ε} 6 Var(ξ) ε2 (ε > 0). Dimostrazione. Si ha P {|ξ − E(ξ)| > ε} = P {(ξ − E(ξ))2 > ε2 } 6 Var(ξ) E[(ξ − E(ξ))2 ] = .z ε2 ε2 (7.3) 7.2. LEGGI (DEBOLI) DEI GRANDI NUMERI 131 7.2 Leggi (deboli) dei grandi numeri Prendiamo in considerazione la successione bernoulliana (ξn )n>1 del Paragrafo 4.3.1. Il valore assoluto del numero aleatorio n n 1X 1X ξi − p = (ξi − p) n i=1 n i=1 ci dà lo scarto fra la frequenza di successo nelle prime n prove e la probabilità p di successo in ciascuna prova. Fissato un numero positivo ε (il caso interessante si ha quando ε è piccolo), ci si chiede se è ragionevole ritenere che, per n sufficientemente grande, l’evento n {| 1X (ξi − p)| 6 ε} n i=1 è altamente plausibile. La prima risposta rigorosa a questo quesito si trova nell’Ars Coniectandi di Jacob Bernoulli, pubblicato postumo a Basilea nel 1713. Proposizione 7.2.1 (J. Bernoulli). Se (ξn )n>1 è una successione bernoulliana con probabilità p di successo in ogni prova, si ha ( n ) 1 X p(1 − p) P ξi − p 6 ε > 1 − . n nε2 i=1 Quindi, per ogni successione strettamente positiva e infinitesima (εn )n>0 tale che nε2n → +∞, vale ( n ) 1 X P ξi − p 6 εn → 1 n i=1 (n → +∞). Dimostrazione. E’ ben noto che valgono (cfr. Esempio 5.5.5) le seguenti Pn Pn n X np(1 − p) np 1 i=1 ξi i=1 ξi ξi ) = = = 2 Var( . , Var E n n n n n2 i=1 Quindi, dalla disuguaglianza di Bienaymé– Chebyshev, ) ( n Pn 1 X Var( i=1 ξi ) p(1 − p) ξi − p 6 ε > 1 − P = 1− . z 2 ε2 n n nε2 i=1 Il teorema di Bernoulli dà l’esempio più elementare di legge debole dei grandi nu- meri: in una successione di eventi indipendenti con probabilità costante p, la probabilità che la frequenza di successo differisca dalla probabilità di successo di ciascun evento, per un valore maggiore di ε, tende a zero al divergere del numero degli eventi considerati. A titolo puramente informativo ricordiamo che questo tipo di convergenza si dice convergenza in probabilità. Per la validità della tesi enunciata, le condizioni di indipendenza 132CAPITOLO 7. TEOREMI LIMITE DEL CALCOLO DELLE PROBABILITÀ. BREVI CENNI e costanza della probabilità, pur non essendo necessarie, giocano un ruolo importante. Facciamo anche osservare che la legge di Bernoulli non è di per se sufficiente a far P concludere che ni=1 ξi /n converge a p per n tendente ad infinito. Una proposizione di questo genere è stata comunque dimostrata, nel 1917, da Francesco Paolo Cantelli. La convergenza, in tale proposizione, è da intendersi come convergenza quasi certa, un concetto che non diamo in questo corso. La legge di Bernoulli dice soltanto che per un singolo n, purchè sufficientemente grande, è prossima a uno la probabilità che lo scarto Pn | n1 i=1 ξi − p| sia piccolo. La legge di Bernoulli è stata generalizzata in diverse direzioni. Una prima es- tensione quasi immediata si ha quando al posto dei precedenti numeri aleatori ξn si prendano numeri aleatori indipendenti Xn (n = 1, 2, . . . ) tali che P {Xn = 1} = p, P {Xn = −1} = 1 − p (n = 1, 2, . . . ). (7.4) Xn è allora assimilabile ad un guadagno aleatorio che prende il valore 1 oppure il valore (−1) rispettivamente con probabilità p e (1 − p). Xn potrebbe rappresentare il moto aleatorio sull’asse reale di una particella, all’istante n; oppure il guadagno associato all’n–esimo contratto (alquanto semplificato) in un portafoglio assicurativo. Chiaramente, si può scrivere Xn = 2ξn − 1, qualora ξ1 , ξ2 , . . . siano i numeri aleatori del teore- ma di Bernoulli. Perció, il guadagno medio sui primi n contratti, o la posizione media della particella dopo l’n–esimo spostamento, sarà n e dalla Proposizione 7.2.1 segue n 1X 2X Xi = ξi − 1 n i=1 n i=1 Corollario 7.2.2. Se (Xn )n>1 è una successione di numeri aleatori indipendenti che soddisfano (7.4), allora per ogni successione infinitesima e strettamente positiva (εn )n>1 , tale che nε2n → +∞ per n → +∞, vale ) ( n 1 X Xi − (p − q) 6 εn → 1 P n i=1 (n → +∞) con q = 1 − p . Ancora più in generale vale il seguente teorema di Chebyshev che trova applicazione, ad esempio, nello studio asintotico della media di letture ottenute da un dato processo di misurazioni successive. Proposizione 7.2.3. Siano Y1 , Y2 , . . . numeri aleatori indipendenti con momento secondo finito: E(Y 2 ) < +∞ per i = 1, 2, . . . ; inoltre, la successione delle loro varianze sia 7.3. TEOREMA CENTRALE DEL LIMITE 133 limitata: esiste C > 0 tale che Var(Yi ) 6 C per ogni i. Allora, posto mi := E(Yi ) si ha ) ( n 1 X (Yi − mi ) 6 ε → 1 (n → +∞), P n i=1 per ogni ε > 0. Si noti che la condizione sulla limitatezza della successione delle varianze è soddisfatta quando i numeri aleatori Yi sono identicamente distribuiti perché, in tal caso, si ha m1 = m2 = · · · = m, Var(Y1 ) = Var(Y2 ) = · · · = σ 2 . Dimostrazione. Dalle proprietà della speranza matematica e della varianza dedu- ciamo la validità di ! n 1X (Yi − mi ) = 0 E n i=1 ! n n 1X 1 X Var (Yi − mi ) = 2 Var(Yi ) n i=1 n i=1 Pn e, quindi, dal Corollario 7.1.3 con ξ = i=1 (Yi − mi )/n segue P {| n n 1X 1 X (Yi − mi )| 6 ε} > 1 − 2 2 Var(Yi ) n i=1 ε n i=1 >1− nC (→ 1 per n → +∞). z ε 2 n2 7.3 Teorema centrale del limite Come accennato nelle osservazioni introduttive al capitolo, un problema ritenuto importante, tanto da meritare il nome di problema centrale del limite, è quello dell’esistenza di una legge di probabilità notevole che approssima quella delle grandezze aleatorie che sono interpretabili come somma di un grande numero di variabili aleatorie indipendenti e singolarmente trascurabili. Il primo risultato in tal senso risale ad Abraham deMoivre (1733-1756) e riguarda successioni bernoulliane. Proposizione 7.3.1 (deMoivre–Laplace). Sia (ξn )n>1 la stessa successione bernoulliana della Proposizione 7.2.1. Allora n o n X 1 (ξi − p) 6 x P p np(1 − p) i=1 X = √ 06k6p+x np(1−p) n k p (1 − p)n−k k converge alla funzione di ripartizione gaussiana ridotta Z x 2 1 φ(x) := √ e−u /2 du (x ∈ R) 2π −∞ (7.5) 134CAPITOLO 7. TEOREMI LIMITE DEL CALCOLO DELLE PROBABILITÀ. BREVI CENNI uniformemente in x, quando n → +∞. Inoltre, per ogni k ed n tali che k − np x := √ npq risulti limitato in valore assoluto da un’assegnata costante A > 0, vale x2 e− 2 (x3 − 3x)pq n k n−k + Rn (A)] ξi = k} = p (1 − p) = √ [1 + P{ √ 6 npq k 2πnpq i=1 n X (7.6) dove |Rn (A)| 6 C/n per un’opportuna costante C. Il teorema di de Moivre-Laplace rappresenta una delle forme più elementari del cosiddetto teorema centrale del limite; (7.5) è una versione ′′ integrale′′ mentre (7.6) una versione ′′ locale′′ di tale teorema. Si noti che per ogni n fissato, il generico addendo è limitato uniformemente da un numero che converge a zero quando n diverge all’infinito. Infatti |ξi − p| max(p, q) 6 √ √ npq npq per ogni 1 6 i 6 n, n = 1, 2, . . . . Una notevole generalizzazione del precedente teorema, che basta a giustificare l’uso della distribuzione gaussiana in molti casi che interessano la statistica, è data dalla Proposizione 7.3.2 (Lindeberg–Lévy). Se ξ1 , ξ2 , . . . sono numeri aleatori indipendenti ed identicamente distribuiti con momento secondo finito, indicate con m e σ 2 rispettivamente la speranza matematica e la varianza di ciascun ξi (i = 1, 2, . . . ), ( ) n 1 X √ P (ξi − m) 6 x σ n i=1 converge uniformemente (in x) verso la funzione di ripartizione gaussiana ridotta φ(x), quando n tende ad infinito: ( ) Z 2 n x e−t /2 1 X √ √ dt = 0. (ξi − m) 6 x − lim sup P n→+∞ x∈R σ n i=1 2π −∞ Si noti che, per ogni ε > 0, vale |ξ1 − m| |ξi − m| √ √ >ε =P >ε max P 16i6n σ n σ n e, quindi, max P 16i6n |ξi − m| √ >ε σ n →0 (n → +∞). Si noti che questa relazione precisa come si debba intendere correttamente la ′′ trascurabilità′′ di ogni addendo evocata all’inizio del paragrafo. 7.3. TEOREMA CENTRALE DEL LIMITE 135 Il teorema può essere dimostrato ricorrendo al teorema di continuità delle funzioni caratteristiche, teorema che si riallaccia alla definizione di convergenza debole di una successione di funzioni di ripartizione. Ricordiamo che una successione di funzioni di ripartizione (Fn )n>1 converge debolmente verso la funzione di ripartizione F se limn→+∞ Fn (x) = F (x) per ogni punto x di continuità di F . Se X, X1 , X2 , . . . sono numeri aleatori per le cui funzioni di ripartizione FX , FX1 , FX2 , . . . vale che FXn converge debolmente a FX , allora si dice che (Xn )n>1 converge in legge, o in distribuzione, a X. Se F è continua e Fn converge debolmente a F , allora supx∈R |Fn (x) − F (x)| → 0 per n → +∞. Il succitato teorema di continuità delle funzioni caratteristiche si può enunciare in questo modo. Proposizione 7.3.3. Indicate con φXn e φX rispettivamente le funzioni caratteristiche di Xn per n = 1, 2, . . . e di X, si ha: (a) Se (Xn )n>1 converge in distribuzione a X, allora (φXn )n>1 converge puntualmente a φX . . (b) Se (φXn )n>1 converge puntualmente ad una funzione h continua nell’origine, allora (Xn )n>1 converge in distribuzione e h è funzione caratteristica: la funzione caratteristica del limite in legge di (Xn )n>1 . Come preannunciato, la Proposizione 7.3.3, precisamente la parte (b), può essere sfruttata per dimostrare il teorema centrale del limite. Dimostrazione della Proposizione 7.3.2. La funzione caratteristica di Tn := Pn √ j=1 (ξj − m)/σ n, in virtù della Proposizione 6.2.1, è data da φTn (ξ) = n Y j=1 φ ξj√−m (t) = φ ξ1√−m (t)n σ n t = φξ1 −m ( √ )n σ n σ n (per la (iii) della Proposizione 6.2.5). Ora, E[ξ1 − m] = 0, E[(ξ1 − m)2 ] = σ 2 e, quindi, per il Teorema 6.5.1, φξ1 −m (t) = 1 + (it)2 σ 2 + o(|t|2 ) 2 la quale implica 1 t2 t t2 φξ1 −m ( √ )n = {1 − + o( 2 )}n . 2n nσ σ n Pertanto, per t fissata, esiste n0 tale che |1 − 1 t2 2 n 2 t + o( nσ 2 )| 6 1 per ogni n > n0 . Quindi, per t fissata e n > n0 , 1 t2 n t2 t ) | 6 no( 2 ) → 0 |φξ1 −m ( √ )n − (1 − σ n 2n nσ (n → +∞). 136CAPITOLO 7. TEOREMI LIMITE DEL CALCOLO DELLE PROBABILITÀ. BREVI CENNI Per vedere quest’ultimo fatto, si considerino i numeri complessi z1 , z2 , . . . , z1′ , z2′ , . . . con modulo non maggiore di 1. Allora, procedendo induttivamente, si ha |z1 · · · zn − P 2 z1′ · · · zn′ | 6 nj=1 |zj − zj′ |. Si ponga, infine zi = φξ1 −m ( σ√t n ) e zi′ = (1 − 12 tn ) per ogni i. Ora, da (1 − 1 t2 n 2 n) 2 → e−t /2 , per n → +∞, segue 2 φTn (t) = φξ1 −m (t)n → e−t /2 (n → +∞, t ∈ R). Quest’ultima, tramite (b) della Proposizione 7.3.3, implica che Tn converge in legge ad un numero aleatorio G dotato di funzione caratteristica uguale a quella della legge gaussiana ridotta (media= 0, varianza= 1). Dalla continuità di quest’ultima segue che la convergenza debole della funzione di ripartizione FTn verso FG si traduce nella convergenza uniforme sup |FTn (x) − FG (x)| = sup |FTn (x) − x∈R x∈R Z x −∞ 2 1 √ e−u /2 du| → 0 2π (n → +∞). z Capitolo 8 Elementi di inferenza statistica I problemi statistici a cui accenneremo sono caratterizzati dal fatto che, in essi, dalla conoscenza di alcune caratteristiche di una parte, opportunamente estratta, di una collezione di elementi (popolazione), si intende trarre conclusioni sulle caratteristiche della parte non nota. Esistono diverse impostazioni generali del problema prospettato, ciascuna di esse facente capo ad una specifica scuola di pensiero. Ci limiteremo a considerare pochi elementi di quella che fa riferimento all’opera di Ronald A. Fisher (1890–1962), restringendo la trattazione a caratteristiche dotate di valori nello spazio euclideo Rd , con d = 1 nella maggior parte dei casi di cui effettivamente tratteremo. A titolo di esempio presentiamone due particolarmente semplici ma significativi. Esempio 8.0.4. Per varie ragioni si vogliano studiare le tendenze di una popolazione di elettori che possono scegliere fra due schieramenti designati, rispettivamente, con A e B. A questo fine si scelgono dalla popolazione n elettori e se ne registrino le preferenze. Si associa il valore 1 ad ogni intervistato che preferisce A ed il valore 0 a chi dice di preferire B. Si ottiene così una n-upla ordinata di 0 − 1, (x1 , . . . , xn ), il cui i-esimo elemento, xi , specifica la preferenza dell’i-esimo intervistato. La frazione n 1X xi n i=1 è la frequenza di preferenze per A nella parte di popolazione intervistata. Esempio 8.0.5. Si effettuano n misurazioni x1 , . . . , xn per stimare la distanza incognita fra due punti (corpi celesti, ecc.). Anche qui xi rappresenta la lettura relativa alla i137 CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA 138 esima misurazione. Un problema interessante sarà quello di vedere se vi sono buone ragioni per adottare la media delle letture n 1X xi n i=1 come stima della distanza incognita. n La n-upla incognita (x1 , . . . , xn ) appartenente ad (Rd ) – negli esempi, si ha d = 1 – si dice campione. Il primo passo da compiere, per avviare a soluzione un generico problema di inferenza statistica, consiste nell’assegnazione di una legge di probabilità per il campione. Essa consente di fissare procedure statistiche valide, da un punto di vista logico, qualunque sia il campione effettivamente osservato. Le determinazioni di tali procedure dipendono, in generale, dal campione osservato, ma la loro definizione, che non può essere influenzata dalla specifica n-upla campionaria, potrà variare in relazione alle modalità del processo di osservazione e alle conoscenze preliminari sul fenomeno oggetto d’indagine. In linea di fatto, secondo l’impostazione di Fisher, i fattori legati al processo di osservazione, come pure le informazioni sul fenomeno oggetto d’indagine, agiscono per mezzo della legge di probabilità del campione nella quale dovranno perciò essere incorporati. Si tradurranno, tipicamente, nella scelta di opportune forme di dipendenza stocastica fra le osservazioni congiuntamente a forme specifiche di distribuzioni di probabilità per le singole osservazioni. A loro volta, queste ultime, per la natura stessa del problema statistico che nasce in relazione a situazioni d’informazione incompleta, non saranno completamente specificate. Ci limiteremo a considerare casi in cui le leggi sono determinate a meno di un parametro ϑ a valori in Rk . Immaginiamo, quindi, di disporre della legge di probabilità del processo di osservazione, rappresentato dalla n-upla (ξ1 , . . . , ξn ) di n elementi aleatori a valori in Rd , mediante ln (x1 , . . . , xn ; ϑ), in accordo alla seguente interpretazione (parziale) • nel caso discreto, ln (x1 , . . . , xn ; ϑ) denota la probabilità dell’evento {ξ1 = x1 , . . . , ξn = xn } quando ϑ è la determinazione del parametro incognito; • nel caso assolutamente continuo, ln (x1 , . . . , xn ; ϑ) rappresenta la densità, calcolata in (x1 , . . . , xn ) , della legge di probabilità di (ξ1 , . . . , ξn ) quando ϑ è la determinazione del parametro incognito. Un caso particolarmente interessante, perché rispondente alla situazione “classica” delle prove successive eseguite in condizioni analoghe, si ha quando ξ1 , . . . , ξn sono 139 ritenuti indipendenti e ugualmente distribuiti. Indicata allora con f (x; ϑ) la probabilità di {ξ1 = x} nel caso discreto, oppure la densità in x della distribuzione di ξ1 nel caso assolutamente continuo, si ottiene la seguente forma speciale di l: ln (x1 , . . . , xn ; ϑ) = n Y f (xk ; ϑ). k=1 Per ogni n-upla fissata (x1 , . . . , xn ) , la funzione ϑ 7→ ln (x1 , . . . , xn ; ϑ) (ϑ ∈ Θ) prende il nome di verosimiglianza di ϑ associata al campione (x1 , . . . , xn ) . Il termine verosimiglianza (traduzione di likelihood usato da Fisher) sarebbe coerente con la seguente interpretazione: i valori di ϑ in corrispondenza ai quali l risultasse più elevata sarebbero da ritenersi vicini “al vero” in quanto in corrispondenza ad essi risulterebbe elevata la probabilità (nel caso discreto) o la densità (nel caso continuo) associata al campione (x1 , . . . , xn ) . Passiamo alla determinazione della verosimiglianza di alcuni modelli statistici significativi. Esempio 8.0.6. Supponiamo di dover controllare la qualità di una massa di pezzi prodotti in serie, tramite un’ispezione campionaria (n pezzi). Ciascun pezzo può risultare difettoso (1) oppure idoneo (0). Se si segue la modalità della restituzione e le estrazioni avvengono in condizioni analoghe, indicata con ϑ la frazione dei difettosi nell’intera massa, la probabilità di avere una specifica successione (x1 , . . . , xn ) di 0, 1, è uguale a n Y i=1 Quindi, 1−xi ϑxi (1 − ϑ) Pn ln (x1 , . . . , xn ; ϑ) = ϑ i=1 xi . (1 − ϑ) n− Pn i=1 xi con (x1 , . . . , xn ) in {0, 1}n e ϑ in Θ = [0, 1]. Quando il numero di difettosi nel campione, Pn i=1 xi , è compreso tra 1 e (n − 1), l’andamento della funzione di verosimiglianza è del Pn Pn tipo di quello tracciato nella Figura 8.1. Se i=1 xi = 0 ( i=1 xi = n rispettivamente), il grafico della verosimiglianza è del tipo di quello tracciato in 8.2a (8.2b rispettivamente) Pn della Figura ??. Perciò, in ogni caso, il valore più verosimile di ϑ è ϑ̂ = i=1 xi /n, la frequenza osservata di difettosi. Se si segue la modalità dell’estrazione in blocco o senza restituzione, l’espressione di ln , quando N sia il numero totale dei pezzi e ϑ la frazione dei difettosi, è data da ln (x1 , . . . , xn ; ϑ) = N ϑ(N ϑ − 1) · · · (N ϑ − Pn 1 P xi + 1){N (1 − ϑ) N (1 − ϑ) − 1 · · · N (1 − ϑ) − n + n1 xi + 1 } N (N − 1) · · · (N − n + 1) CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA 140 Figura 8.1 (a) (b) Figura 8.2 8.1. STIME DI MASSIMA VEROSIMIGLIANZA 141 Esempio 8.0.7. Si effettuino n misurazioni indipendenti come nell’Esempio 8.0.5. Se si ritengono soddisfatte le condizioni del teorema centrale del limite, presentato nel Capitolo 6, si può ritenere che ogni xi abbia distribuzione gaussiana con valore atteso m e varianza σ 2 (precisione dello strumento = 1/σ). In concreto si possono avere tre alternative interessanti la statistica: 1. m incognita, σ 2 nota (ϑ = m ∈ R); 2. m nota, σ 2 incognita (ϑ = σ 2 > 0); 3. m e σ 2 entrambe incognite (ϑ = (m, σ 2 ) ∈ R × R+ ). Le corrispondenti funzioni di verosimiglianza si ricavano da ) ( n 1 X 1 2 (xi − m) exp − 2 ϑ 7→ ln (x1 , . . . , xn ; ϑ) = n/2 2σ i=1 (2πσ 2 ) per (x1 , . . . , xn ) fissato in Rn . 8.1 Stime di massima verosimiglianza Aderendo all’interpretazione della verosimiglianza ricordata nelle righe che precedono l’Esempio 8.0.6, è sembrato lecito (a partire da Fisher) proporre il seguente metodo di stima per il parametro incognito. Se, dato un campione (x1 , . . . , xn ) , la funzione di verosimiglianza ha massimo assoluto che raggiunge in ϑ̂n = ϑ̂n (x1 , . . . , xn ), allora non è fuori luogo comportarsi come se ϑ̂n fosse il vero valore del parametro, visto che in corrispondenza ad esso sarebbe massima la densità calcolata nel campione effettivamente osservato. La funzione (x1 , . . . , xn ) 7→ ϑ̂n è detta stimatore di massima verosimiglianza per ϑ, in corrispondenza al campione (x1 , . . . , xn ) . Esempio 8.1.1. Nell’Esempio 8.0.6 si trova che lo stimatore di massima verosimiglianza coincide con la frequenza ϑ̂n = n X xi /n i=1 Nell’Esempio 8.0.7.1, in cui ϑ ∈ R, la funzione di verosimiglianza ) ( n 1 1 X 2 (xi − ϑ) ln (x1 , . . . , xn ; ϑ) = exp − 2 n/2 2σ i=1 (2πσ 2 ) è massima dove n X i=1 2 (xi − ϑ) = nϑ2 − 2ϑ n X i=1 xi + n X i=1 xi 2 CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA 142 è minima, ovvero n ϑ̂n = 1X xi n i=1 (la media delle osservazioni). Passando a 8.0.7.2, ln (x1 , . . . , xn ; ϑ) = 1 (2πϑ)n/2 ovvero e ( n 1 X 2 exp − (xi − m) 2ϑ i=1 ) , ϑ > 0, n 1 X n (xi − m)2 log ln = − (log 2π + log ϑ) − 2 2ϑ i=1 n ∂ n 1 X (xi − m)2 . log ln = − + 2 ∂ϑ 2ϑ 2ϑ i=1 Allora, uguagliando la derivata a zero, n ϑ̂n = 1X 2 (xi − m) . n i=1 Finalmente, in 8.0.7.3, ϑ = (m, σ 2 ) e n 1 X n 2 (xi − m) log ln (x1 , . . . , xn ; ϑ) = − (log 2π + log σ 2 ) − 2 2 2σ i=1 n ∂ n 1 X (xi − m)2 log l = − + n ∂σ 2 2σ 2 2σ 4 i=1 n ∂ 1 X (xi − m) log ln = 2 ∂m σ i=1 ovvero, uguagliando le derivate a zero, ϑ̂n = n X xi /n m̂ = n i=1 n 1X 2 2 σ̂ = (xi − m) n n i=1 rispettivamente media e varianza delle osservazioni. 8.2 Stime dei minimi quadrati Un altro metodo classico di stima puntuale (risale a Legendre e Gauss) consiste nella ricerca di stimatori che rendono minima una opportuna penalizzazione quadratica, secondo un criterio già più volte invocato in questo corso. 8.2. STIME DEI MINIMI QUADRATI 143 Si supponga che ogni osservazione ξi sia la somma di una “parte sistematica” (β+αxi , con xi nota) e di un disturbo (εi ): ξi = β + αxi + εi (8.1) (i = 1, . . . , n) Il metodo di propone di stimare (α, β) con la coppia (α̂n , β̂n ) che minimizza la somma dei quadrati dei disturbi q(α, β) := n X i=1 εi 2 = n X i=1 2 (ξi − β − αxi ) . Si incomincia col determinare i punti stazionari dalle equazioni n X ∂q (ξi − β − αxi ) = 0 = −2 ∂β i=1 n X ∂q (ξi − β − αxi )xi = 0 = −2 ∂α i=1 che porgono P P xi ξi P 2 P xi ξi xi σ̂2,n β̂n = P = m̂2,n − ρ̂n m̂1,n σ̂1,n n xi P 2 P xi xi P n ξi P P xi xi ξi σ̂2,n α̂n = P = ρ̂n σ̂1,n n xi P 2 P xi xi col seguente significato dei simboli: n m̂1,n = 1X xi n i=1 n 1X ξi n i=1 rP xi 2 − m̂21,n σ̂1,n = n s P 2 ξi σ̂2,n = − m̂22,n n X 1 1 ρ̂n = xi ξi − m̂1,n m̂2,n . σ̂1,n σ̂2,n n m̂2,n = CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA 144 È facile verificare che (α̂n , β̂n ) è punto di minimo assoluto di q(α, β); per questo è detto vettore delle stime dei minimi quadrati. Quando ε1 , ε2 , . . . sono indipendenti e identicamente distribuiti con densità f , allora ξ1 , ξ2 , . . . vengono ad essere indipendenti e identicamente distribuiti con densità f (y − β − αxi ) per i = 1, 2, . . .. Quindi la corrispondente funzione di verosimiglianza è (α, β) 7→ ln (ξ1 , . . . , ξn ; α, β) = n Y i=1 f (ξi − β − αxi ). In particolare, se f è gaussiana di media nulla e varianza σ 2 (nota), la stima di massima verosimiglianza di (α, β) viene a coincidere con quella dei minimi quadrati (α̂n , β̂n ). 8.3 Stime per intervalli di confidenza I metodi di massima verosimiglianza e dei minimi quadrati producono stime puntuali, ovvero funzioni del campione che, in corrispondenza ad ogni campione specifico, assegnano delle valutazioni del parametro incognito. Il metodo che presentiamo in questo paragrafo persegue una finalità diversa che può essere descritta, nel caso di un parametro a valori reali, come ricerca di un intervallo, dipendente dal campione, che con un prefissato valore di probabilità elevato, contenga il vero valore del parametro. In questo paragrafo ci limitiamo ad illustrare l’applicazione del metodo a campioni gaussiani, cioè a campioni (ξ1 , . . . , ξn ) con componenti indipendenti ed identicamente distribuite con una assegnata legge gaussiana. La prima applicazione riguarda la stima del valore atteso m quando la varianza σ 2 è nota. La proposta di un intervallo di confidenza viene basata – e questo vale in generale, non solo nel caso specifico qui trattato – su una funzione, detta pivot, dipendente dal parametro incognito e da (ξ1 , . . . , ξn ) , ma con legge di probabilità (indotta da quella di (ξ1 , . . . , ξn ) ) indipendente dal parametro. Ora, nel nostro caso, (ξ1 , . . . , ξn ) ha densità di probabilità n Y k=1 1 1 √ exp − 2 (xk − m)2 2σ σ 2π calcolata in x1 , . . . , xn ∈ R . Dalla (6.8) n n 1 X (ξk − m) S̄n = √ σ n k=1 ha distribuzione gaussiana di media nulla e varianza unitaria. S̄n è quindi una funzione pivot. Per ogni valore fissato di m (si ricordi che σ 2 è nota) la probabilità che S̄n 8.3. STIME PER INTERVALLI DI CONFIDENZA 145 appartenga all’intervallo [−c, c] è data da Φ(c) − Φ(−c) = 2Φ(c) − 1 con Φ(x) := 1 2π Rx 2 −∞ e−u /2 du (x ∈ R), per ogni c > 0. Dalla doppia disuguaglianza −c 6 Sn 6 c segue facilmente che l’intervallo Pn Pn cσ cσ k=1 ξk k=1 ξk −√ , +√ n n n n contiene m, quando m è il valore atteso di ciascuna ξi , con probabilità 2Φ(c) − 1. Se vogliamo che questa probabilità sia uguale a (1 − α) – il livello di confidenza dell’inter- vallo – basta fissare c in modo che risulti 2Φ(c) − 1 = 1 − α ovvero α . c = Φ−1 1 − 2 Ad esempio, per α = 0, 005, si trova c = Φ−1 (0, 9975) = 2, 801. I valori della funzione di ripartizione gaussiana standard sono tabulati in molti libri o disponibili in molti software statistici. L’ampiezza dell’intervallo di confidenza 2cσ √ n converge a zero quando n tende ad infinito (infinitesima al divergere del numero delle prove). Affrontiamo lo stesso problema – determinare un intervallo di confidenza per m – anche quando σ non è nota. Per la ricerca di una opportuna funzione pivot, rimandiamo Tn−1 della Sottosezione 6.4.3 in cui si è dimostrato che Tn−1 := q √ (ξ n − m) n Pn 2 1 i=1 (ξi − ξ n ) n−1 n (ξ n := 1X ξi ) n i=1 ha densità t di Student con (n − 1) gradi di libertà, indipendente da σ e da m; Tn−1 è dunque una funzione pivot. Se indichiamo con FTn−1 la sua funzione di ripartizione, la probabilità che tn−1 appartenga ad un determinato intervallo [−c, c] è data da Z c 1 1 FTn−1 (c) − FTn−1 (−c) = √ (cfr. (6.11)) n dt 1 n−1 t2 n − 1B( 2 , 2 ) −c (1 + n−1 )2 = 2FTn−1 (c) − 1. CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA 146 L’uguaglianza si giustifica per la simmetria della densità di Tn−1 . Procedendo come nel caso precedente, si trova per m l’intervallo di confidenza seguente v v u u n n X X u u 1 1 2 2 ξ n − ct (ξi − ξ n ) , ξ n + ct (ξi − ξ n ) n(n − 1) i=1 n(n − 1) i=1 Ad esempio per il livello di confidenza 1 − α = 0, 95 (α = 0, 05) con n = 20, si trova c = FTn−1 −1 (0, 975) = 2, 093. La lunghezza dell’intervallo è uguale v u n 1 u 1 X 2 (ξi − ξ n ) 2c √ t n n − 1 i=1 in cui Pn i=1 2 √ (ξi − ξ n ) / n − 1, per n sufficientemente grande, ha probabilità molto ele- vata di assumere valori in un intorno “piccolo” di σ 2 (si dimostra ricorrendo alla legge dei grandi numeri). Si noti, quindi, la stretta parentela di questo intervallo con quello determinato nel caso precedente. Proseguiamo col problema della stima della varianza. Dapprima si assumerà noto il valore atteso m. Per quanto riguarda l’individuazione di una funzione pivot, si può ricorrere alla Q2n := n 1 X 2 (ξi − m) σ 2 i=1 che, in virtù di (6.9), ha distribuzione chi-quadrato con n gradi di libertà e, quindi, indipendente da σ 2 . Un intervallo di confidenza di livello 1 − α si può determinare fissando c1 , c2 in modo che riesca Z 1−α= c2 c1 n 2 Γ 1 2n/2 e−z/2 z (n−2)/2 dz. Quindi la probabilità che Q2n appartenga a [c1 , c2 ] è 1 − α e ciò equivale a dire che, se σ 2 è il vero valore della varianza incognita, allora " # n n 1 X 1 X 2 2 (ξi − m) , (ξi − m) c2 i=1 c1 i=1 contiene σ 2 con probabilità (1 − α). Ad esempio, c1 e c2 potrebbero essere fissati in modo che riescano soddisfatte le relazioni Z c1 α = 2 Γ 0 Z +∞ = c2 Γ n 2 n 2 1 1 2n/2 2n/2 e−z/2 z (n−2)/2 dz e−z/2 z (n−2)/2 dz 8.4. CENNO AI CRITERI DI SIGNIFICATIVITÀ 147 A volte si fissa c1 = 0 e, quindi, si determina c2 in modo che valga Z +∞ 1 e−z/2 z (n−2)/2 . α= n n/2 c2 Γ 2 2 Se anche il valore atteso è incognito, si può ricordare che Q̄2n n 1 X 2 (ξi − ξ n ) := 2 σ i=1 ha distribuzione χ2n−1 con (n − 1) gradi di libertà; cfr. (6.10). Allora, " n n 1 X 1 X 2 2 (ξi − ξ n ) , (ξi − ξ n ) c2 i=1 c1 i=1 # è un intervallo di confidenza per σ 2 , di livello (1 − α) se c1 e c2 sono scelti in modo che risulti 1−α= Z c2 c1 Γ n−1 2 1 e−z/2 z (n−3)/2 dz. 2(n−1)/2 8.4 Cenno ai criteri di significatività Un intervallo di confidenza può spesso essere usato come criterio di significatività. Per intenderci, supponiamo che (ξ1 , . . . , ξn ) sia un campione estratto da un lotto di pezzi prodotti in serie: ξi è la misura di una certa caratteristica nell’i-esimo pezzo ispezionato, i = 1, . . . , n. Sia m0 il valore programmato per tale caratteristica. L’ispezione campionaria è fatta proprio per controllare se la produzione è conforme al programma, pur non potendosi escludere una variabilità che si considera assumendo che ogni ξi abbia legge gaussiana e, nell’ipotesi che la produzione proceda secondo programma, abbia valore atteso. Allora, fissato α (possibilmente piccolo), noi sappiamo come proporre un intervallo di confidenza per il valore atteso. Ad esempio, se la varianza è incognita, tale intervallo è determinato richiedendo che sia uguale ad α la probabilità che √ (ξ − m ) n 0 n |Tn−1 (m0 )| := q P 2 n 1 i=1 (ξi − ξ n ) n−1 prenda valori maggiori di c. Abbiamo visto come fissare c in modo da soddisfare la precedente richiesta. Una volta determinato c e noti i risultati dell’indagine campionaria, si scopre se |Tn−1 (m0 )| è maggiore oppure non è maggiore di c. Se si presenta la prima circostanza che, per α opportunamente piccolo, ha bassa probabilità di verificarsi se m0 è il vero valore del parametro incognito, molti statistici – Fisher in testa – ritengono che il campione segnali l’inattendibilità dell’ipotesi che m0 sia il vero valore del parametro. 148 CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA Nel nostro esempio, in particolare, si giungerebbe a ritenere il processo produttivo non in grado di realizzare il livello qualitativo programmato. Lo studente potrebbe adattare il ragionamento ora svolto a ciascuno degli intervalli determinati nel paragrafo precedente. Appendice A Elementi di calcolo combinatorio Ci proponiamo di introdurre i primi elementi di calcolo combinatorio illustrandoli con problemi che si presentano tipicamente nell’estrazione di campioni da una data popolazione. A.1 Campioni e urne Ogni popolazione costituita da M unità si può assimilare ad un’urna contenente M palline, rese distinguibili per mezzo di un opportuno contrassegno [d’ora in poi, le considereremo numerate da 1 ad M ]. Pensiamo ora ad una indagine campionaria su una popolazione di M elementi, allo scopo di inferire su una data caratteristica dei suoi elementi. Le proprietà di una procedura inferenziale vengono formulate in termini di valutazioni di probabilità relative a certe proprietà del campione, prima che il campione venga estratto. Per valutare le probabilità succitate è allora necessario descrivere, preliminarmente, l’insieme di tutti i campioni logicamente possibili; d’ora in poi riterremo che il numero degli elementi del campione sia prefissato [ampiezza del campione]. Detto Γ tale insieme, possiamo riguardare Γ come aggregato dei casi elementari relativi ad una data procedura atta a produrre un campione di ampiezza assegnata. In realtà, moltissime sono le procedure di campionamento che, ragionevolmente, si possono realizzare a fini inferenziali. Qui, tratteremo di quattro procedure, ottenute incrociando i seguenti criteri. 149 150 APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO Criterio I: rilevanza o no dell’ordine con cui si estraggono le unità campionarie; Criterio II: si ammette o non si ammette la possibilità che un elemento sia ripetuto in uno stesso campione. In base al Criterio I, si hanno campioni ordinati o campioni non ordinati. Si parla di campioni ordinati quando due campioni si ritengono distinti, oltre che per eventuali diversità tra gli elementi inclusi o per diversità nel numero di ripetizioni di uno stesso elemento, anche per l’ordine con cui gli stessi n elementi possono essere estratti. Sono detti non ordinati i campioni per la cui distinguibilità è irrilevante l’ordine di estrazione. In base al Criterio II, si hanno campioni ottenuti con restituzione o senza restituzione. I campioni del primo tipo sono ottenuti mediante estrazioni successive, in modo che dopo ogni estrazione, e prima di procedere alla successiva, si restituisce l’elemento osservato alla popolazione; in questo modo, si consente che una stessa unità sia ripetuta più volte nel campione. Sono senza restituzione i campioni ottenuti mediante estrazioni successive, senza reintrodurre le unità estratte di volta in volta osservate; in tal modo, le n unità campionarie saranno tutte diverse. Incrociando in tutti i modi possibili le precedenti quattro modalità, si ottengono quattro tipi di procedure di campionamento. In corrispondenza a ciascuna di esse calcoleremo la cardinalità di Γ. Prima di trattare l’argomento in termini generali, soffermiamoci ad analizzare un caso molto particolare. Esempio A.1.1. Dati M = 5, ossia la popolazione {1, 2, 3, 4, 5}, descriviamo Γ in corrispondenza ad ognuna delle quattro modalità di estrazione previste sopra. Campioni con restituzione e ordinati Gli elementi di Γ sono: (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (2, 1) (3, 1) (4, 1) (5, 1) (2, 2) (2, 3) (2, 4) (2, 5) (3, 2) (4, 2) (5, 2) (3, 3) (3, 4) (3, 5) (4, 3) (5, 3) (4, 4) (4, 5) (5, 4) (5, 5) A.1. CAMPIONI E URNE 151 e quindi ♯{Γ} = 25. Campioni con restituzione non ordinati Gli elementi di Γ sono: [1, 1] [1, 2] [1, 3] [1, 4] [1, 5] [2, 2] [2, 3] [2, 4] [2, 5] [3, 3] [3, 4] [3, 5] [4, 4] [4, 5] [5, 5] e quindi ♯{Γ} = 15. Campioni senza restituzione e ordinati Gli elementi di Γ sono: (1, 2) (1, 3) (1, 4) (1, 5) (2, 1) (3, 1) (4, 1) (5, 1) (2, 3) (2, 4) (2, 5) (3, 2) (4, 2) (5, 2) (3, 4) (3, 5) (4, 3) (5, 3) (4, 5) (5, 4) e quindi ♯{Γ} = 20. Campioni senza restituzione non ordinati Gli elementi di Γ sono: [1, 2] [1, 3] [1, 4] [1, 5] [2, 3] [2, 4] [2, 5] [3, 4] [3, 5] [4, 5] e quindi ♯(Γ) = 10. z Procediamo alla determinazione, in generale, di ♯{Γ} realtivamente a campioni di ampiezza n estratti da una popolazione costituita da M unità [distinte]. Tale determinazione è importante quando, ammessa l’equiprobabilità degli elementi di Γ, per valutare la probabilità che il campione abbia una data proprietà A, dovremo ricorrere al 152 APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO rapporto ♯{campioni con la proprietà A} . ♯{Γ} Cfr Paragrafo 1.3. A.1.1 Campioni ordinati con restituzione Il numero dei campioni ordinati con restituzione, di ampiezza n, estraibili da una popolazione di ampiezza M , è Mn [numero delle disposizioni con ripetizione di classe n di M oggetti]. Infatti, i campioni possibili si possono identificare con gli allineamenti di n oggetti estratti da un’urna che ne contiene M , con la possibilità che uno stesso elemento sia ripetuto. Due campioni si considerano distinti o per la diversità degli elementi contenuti, o per la diversità del numero di ripetizioni o per l’ordine in cui gli elementi vengono estratti. Quindi, se si considerano n posti allineati il primo può essere occupato in M modi diversi, il secondo in M modi diversi, . . . , l’n–esimo in M modi diversi; i primi due in M 2 modi diversi, i primi tre in M 3 modi diversi, . . . , i primi n in M n modi diversi. Esempio A.1.2. (a) Quante sono le possibili colonne della schedina del totocalcio? La popolazione è costituita da 3 elementi: X, 1, 2; da essa si estrae un campione ordinato [l’ordine conta agli effetti del concorso] con restituzione [gli elementi possono essere ripetuti] di 13 elementi. La risposta è allora 313 . (b) Si consideri un gruppo di n persone delle quali non ci è noto il compleanno; si sa soltanto che sono nate in anni di 365 giorni. Quante sono le n–uple di compleanni possibili? La risposta è 365n. z A.1.2 Campioni ordinati senza restituzione (n 6 M) Il numero dei campioni ordinati senza restituzione, di ampiezza n, estraibili da una popolazione di M unità, è DM,n = M (M − 1) . . . (M − n + 1) [numero delle disposizioni semplici di classe n, di M oggetti]. Per verificarlo, si considerino n posti allineati. I campioni in questione si possono assimilare ad allineamenti in quei posti; esattamente, si tratta degli allineamenti ordinati di M elementi in n posti, con la clausola che un elemento non possa essere presente più A.1. CAMPIONI E URNE 153 di una volta. Il primo posto si può occupare in M modi diversi, il secondo in M − 1 modi diversi [poiché non si considera l’elemento che già occupa il primo posto], . . . , l’n–esimo posto si può occupare in (M − n + 1) modi diversi. Quindi, i primi due posti si possono congiuntamente occupare in M (M − 1) modi diversi, i primi tre in M (M − 1)(M − 2) modi diversi, . . . , i primi n in M (M − 1) . . . (M − n + 1) modi diversi. Esempio A.1.3. Su un tavolo sono disposte n buste recanti n indirizzi diversi, n lettere ciascuna delle quali da recapitare ad uno degli indirizzi precedenti. In quanti modi possiamo inserire le n lettere nelle n buste? Il numero rischiesto è Dn,n = n!. z A.1.3 Campioni non ordinati senza restituzione (n 6 M) Il numero dei campioni non ordinati senza restituzione, di ampiezza n, estraibili da una popolazione di M unità, è CM,n = M! M = n!(M − n)! n [numero delle combinazioni semplici di classe n, di M oggetti]. Supponiamo di aver enumerato i DM,n campioni ordinati, senza restituzione, di classe n. Ciascuno di essi, a prescindere dall’ordine, è un campione non ordinato. Inversamente, da ciascun campione non ordinato senza restituzione, di ampiezza n, si possono generare n! campioni ordinati distinti, permutando i termini del primo in tutti i modi possibili. Esiste, perciò, una corrispondenza che a n! campioni ordinati associa un solo campione non ordinato; quindi, il numero che cerchiamo è DM,n /n! = (M )! M (M − 1) . . . (M − n + 1) = . n! n!(M − n)! Esempio A.1.4. (a) Quante sono le possibili mani per un giocatore servito per primo, secondo le regole del bridge? Il giocatore riceve 13 carte diverse [n = 13] estratte da un mazzo di 52 carte [M = 52]. Si tratta di un campione senza restituzione, non ordinato [perché agli effetti del gioco, l’ordine con cui si ricevono le carte è irrilevante]. Il numero cercato è pertanto 52 13 . (b) In una collettività di 100 individui si elegge un comitato di 5 persone. Quante sono le configurazioni possibli del comitato? Si tratta di campioni non ordinati senza restituzione, cosicché il numero cercato è . z 100 5 154 APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO A.1.4 Campioni non ordinati con restituzione Il numero dei campioni non ordinati con restituzione, di ampiezza n, estraibili da una popolazione di M unità, è (M + n − 1)! M +n−1 = n!(M − 1)! n [numero delle combinazioni con ripetizione di classe n, di M oggetti]. Per spiegare ciò, indichiamo con {a1 , . . . , aM } la popolazione da cui si estrae il cam- pione. Ad ogni campione non ordinato con restituzione associamo l’allineamento così definito: si scrive a1 e lo si fa seguire da tanti ∗ quante sono le presenze di a1 nel cam- pione [nessun ∗ se a1 non è rappresentato nel campione]; si scrive quindi a2 seguito da tanti asterischi quante sono le presenze di a2 nel campione, e così di seguito fino ad aM . Per fissare le idee, sia [a2 , a2 , a4 , a5 , a5 ] un campione di ampiezza 5 estratto da {a1 , . . . , a9 }. Allora, l’allineamento corrispondente, usando la regola precedentemente descritta, è [a1 a2 ∗ ∗a3 a4 a5 ∗ ∗a6 a7 a8 a9 ]. Se, a questo punto, eliminiamo gli indici dalle a, otteniamo un allineamento di M + n oggetti di cui M sono uguali ad a e n sono uguali ad ∗. Il primo elemento è, poi, sempre uguale ad a. Per contare il numero di allineamenti fatti di (M − 1) elementi uguali ad a e di n asterischi, possiamo osservare che esso è quello delle combinazioni semplici di classe n di M + n − 1 oggetti, quindi (M + n − 1)! M +n−1 CM+n−1,n = = . n!(M − 1)! n La tesi segue dal fatto che tali allineamenti sono in corrispondenza biunivoca con i campioni che stiamo considerando. Esempio A.1.5. (a) Si dispone di n dadi indistinguibili. Quanti sono i risultati possibli del lancio degli n dadi? Il risultato del lancio è un campione di n elementi estratti da {1, . . . , 6}; il campione è non ordinato, percheé i dadi sono indistinguibli, e con resti- tuzione, perché lo stesso punteggio può presentarsi ripetutamente. Quindi, il numero dei risultati possibili è 6+n−1 5+n = . n n (b) Quante sono le derivate parziali di ordine n di una funzione analitica f (x − 1, . . . , xM )? Per una funzione analitica, l’ordine di derivazione è ininfluente e, quindi, il numero delle derivate è M+n−1 . z n A.2. PROBLEMI DI OCCUPAZIONE 155 A.2 Problemi di occupazione Osserviamo che ogni problema di estrazione di campioni può essere riletto come problema di occupazione, nel senso che ora preciseremo. Tali problemi sono rilevanti nella meccanica statistica. Siano date n particelle, ciascuna delle quali è caratterizzata o individuata con k dati, in modo che possa essere rappresentata con un punto di uno spazio [detto delle fasi], avente come coordinate i k dati della particella considerata. Suddiviso lo spazio delle fasi in M celle, il sistema fisico può essere descritto contando il numero di particelle contenute in ciascuna cella. In particolare, ogni stato del sistema può essere visto come un allineamento di M oggetti in n posti, ovvero come un campione di n elementi estratti da una popolazione che ne contiene M . Alle modalità di estrazione considerate in precedenza corrispondono modalità di occupazione delle celle secondo lo schema seguente: campioni senza restituzione ←→ occupazione con esclusione [principio di Pauli; non è possibile che una cella sia occupata da più di una particella] campioni con restituzione ←→ occupazione in assenza del principio di Pauli campioni ordinati ←→ particelle distinguibli campioni non ordinati ←→ particelle indistinguibli. A.3 Formula di Tartaglia–Newton Per n intero positivo e per a, b in R, vale (a + b)n = n X n k n−k a b . k (A.1) k=0 Questa formula fornisce un algoritmo per il calcolo della potenza n–esima (n intero positivo) di un binomio; quindi, indicato con (a + b) il binomio stesso, la formula in questione dà uno sviluppo di (a + b)n . Tenuto conto che vale (a + b)n = (a + b) . . . (a + b), {z } | (A.2) n fattori la nostra attenzione si può concentrare sul calcolo del mebro di destra. Questo sarà ovviamente una somma di termini del tipo ak bn−k con k che varia in {0, . . . , n}. Più precisamente, il numero degli addendi coincide con quello dei modi con cui si posson estrarre k fattori uguali ad a e (n − k) ugali a b dal prodotto di destra di (A.2). Per- APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO 156 ció, il numero degli addendi uguali a ak bn−k è n k n−k . k a b n k e il loro contributo complessivo sarà A.3.1 Una conseguenza della formula di Tartaglia–Newton Se poniamo a = x e b = 1 la (A.1) diviene n X n k x . (1 + x) = k n k=0 Pertanto X r X s X X r s h k (1 + x) (1 + x) = x x = xj , h k h j−h r s h>0 k>0 j>0 h e (1 + x)r (1 + x)s = (1 + x)r+s X r + s . = xj j j>0 Allora, per il principio di identità dei polinomi, X r+s r s = . j h j−h h Questa, per j = s, diviene X X r+s r s r s = = . s h s−h h h h h Appendice B Funzioni generatrici I numeri di Fibonacci sono definiti ricorsivamente dalle seguenti relazioni δn+1 = δn + δn−1 δ0 = 0 Si ha che (B.1) (n > 1) δ1 = 1. √ !j 1 1+ 5 δj = √ − 2 5 √ !j 1− 5 , 2 j>1 La determinazione di δj è fra i problemi che si possono semplificare significativamente ricorrendo alle cosiddette funzioni generatrici. Si cerca, con tale metodo, di associare alla relazione data una serie di potenze o un polinomio; basta moltiplicare i membri di (B.1) per tn , con t reale qualunque, e sommare per n = 1, 2, . . . : X tn δn+1 = n>1 X tn δ n + n>1 X (B.2) tn δn−1 n>1 e, posto g(t) = X tn δ n , n>1 tenendo conto della condizione iniziale, (B.2) diventa X tj−1 δj = g(t) + j>2 X tk+1 δk = g(t) + k>0 ovvero X tj δj = tg(t) + t2 g(t). j>2 157 X k>1 tk+1 δk APPENDICE B. FUNZIONI GENERATRICI 158 Allora g(t) = t −t = 2 = 2 1−t−t t +t−1 −t √ ! √ !. 1 1 5 5 t+ − t+ + 2 2 2 2 L’idea su cui si fonda il metodo delle funzioni generatrici consiste, una volta ottenuta un’espressione di g, nel cercare di riscrivere tale espressione come serie di potenze (di t) g(t) = X tn a n n>0 con i coefficenti an ben determinati, e di applicare il relativo principio di identità onde ricavare δn = an (n > 0) Nel nostro caso, t g(t) = − √ 5 1 1 √ − √ 5 5 1 1 t+ − t+ + 2 2 2 2 1 1 t ! ! ! ! . − = −√ √ √ 5 1 1 5 5 t t √ √ 1+ 1+ + 2− 2 1 5 1 5 2 2 2 − 2 2 + 2 √ Ora, se prendiamo t in modo che valga t/( 21 ± 25 ) 6 1, possiamo scrivere 1 1+ e quindi g(t) = = = = t 1 2 ± = √ 5 2 X n>0 − t 1 2 ± √ 5 2 !n , n X X 2t n 2 2t t 2 √ √ √ − −√ −√ 5 1 − 5 n>0 5−1 1 + 5 n>0 5+1 n n X 2 2 2 2 t X √ tn − √ tn √ −√ −√ 5 n>0 5−1 1− 5 5+1 1+ 5 n>0 n n X 2 1 2 2 2 1 √ √ −√ √ √ − tn+1 √ 5 1+ 5 1+ 5 5 5−1 1− 5 n>0 ) ( j−1 j−1 X 2 2 2 2 1 1 j √ √ −√ √ √ √ − . t 5 1+ 5 1+ 5 5 5−1 1− 5 j>1 Poiché due serie di potenze che sono uguali su tutto un intervallo devono necessariamente avere i coefficienti identici, perveniamo a scrivere 159 X tn δn = g(t) = n>1 X j>1 tj ( 1 √ 5 − 2 √ 1+ 5 j−1 2 1 √ −√ 1+ 5 5 2 √ 5−1 j−1 da cui: j−1 j−1 2 2 2 2 1 √ √ √ −√ √ − 1+ 5 1+ 5 5 5−1 1− 5 ( j j ) 1 2 2 j−1 √ = √ (−1) + √ 5 1+ 5 5−1 ( √ ) √ −( 5 − 1)j (−1)j + (1 + 5)j 2j = √ √ √ j 5 ( 5 − 1)j ( 5 + 1) √ √ 2j (1 + 5)j − (1 − 5)j =√ 4j 5 !j √ √ !j 1 1+ 5 1− 5 = √ − , j > 1. 2 2 5 1 δj = √ 5 2 √ 1− 5 ) ,