Appunti di Probabilità e Statistica a.a. 2014/2015 BOZZA 2 Riuscire a controllare l’incertezza può significare riuscire a ridurla The things one feels absolutely certain about are never true (Oscar Wilde) c Copyright 2014 Mirko D’Ovidio Appunti rilasciati per il solo uso non commerciale. 1.5 (testing) 5 maggio 2015. Gli Appunti: i) sono stati scritti utilizzando LATEX su Linux - Debian (software free); ii) sono una raccolta di materiale per i corsi di Probabilità e Statistica ancora in versione preliminare, pertanto sarà cosa estremamente gradita la comunicazione di chiunque volesse segnalare errori di stampa o di concetto (materiale gratuito). Il materiale riportato in queste note è stato selezionato in modo da garantire una trattazione (spero) ben organizzata di argomenti che comunque non si deve considerare esaustiva ma dovrebbe avere lo scopo di aiutare e supportare nello studio della probabilità e della statistica. Gli appunti vanno quindi intesi come una lettura da affiancare ad un libro di testo, più completo e dettagliato, da concordare in maniera diversa nei due corsi di ”Calcolo delle Probabilità” e ”Probabilità e Statistica”. Alcuni concetti sono trattati in maniera più approfondita, possono risultare quindi troppo avanzati. Lo scopo di queste note è quello di fornire un aiuto nella comprensione della teoria di base ma anche quello di stimolare gli interessi di alcuni verso teorie più avanzate. - : il simbolo indica gli argomenti importanti. Il resto degli appunti è necessario per la comprensione di tali argomenti (prerequisiti o applicazioni). Indice 1 2 3 Osservazione e Probabilità 1.1 Statistica descrittiva . . . . 1.2 Probabilità . . . . . . . . . 1.3 Statistica inferenziale . . . 1.4 Probabilità e Applicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Misura e Probabilità 2.1 Insiemi . . . . . . . . . . . . . . . . . . . . . . 2.2 Misure positive e di Lebesgue . . . . . . . . . . 2.3 Funzioni misurabili e spazi di Lebesgue . . . . . 2.4 Misure di Probabilità - . . . . . . . . . . . . . . 2.5 Il concetto di Probabilità e le diverse impostazioni 2.6 Spazi di Probabilità uniformi . . . . . . . . . . . . . . . . . . . . . Variabili Aleatorie 3.1 Definizione di variabile aleatoria - . . . . . . . . 3.2 Media e Momenti . . . . . . . . . . . . . . . . . . 3.3 Relazioni tra variabili aleatorie - . . . . . . . . . 3.3.1 Eventi di misura nulla . . . . . . . . . . . 3.3.2 Probabilità congiunte e condizionate . . . . 3.3.3 Tabella di contingenza . . . . . . . . . . . 3.3.4 Trasformazioni di v.a. . . . . . . . . . . . 3.3.5 Somme di variabili aleatorie . . . . . . . . 3.3.6 Somme aleatorie di variabili aleatorie . . . 3.3.7 Variabili aleatorie ordinate . . . . . . . . . 3.3.8 Successioni monotone di variabili aleatorie 3.3.9 Simulazione, generatori di numeri casuali . 3.4 Serie numeriche e di funzioni . . . . . . . . . . . . 3.5 Trasformate di densità . . . . . . . . . . . . . . . 3.6 Alcune disuguaglianze fondamentali . . . . . . . . iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 4 15 17 . . . . . . 19 19 22 27 35 45 46 . . . . . . . . . . . . . . . 51 51 66 71 71 72 79 82 88 96 96 99 101 103 107 113 iv 3.7 3.8 Convergenza di variabili aleatorie - . . . . . . 3.7.1 Convergenza, definizioni e discussione 3.7.2 Teoremi limite . . . . . . . . . . . . . 3.7.3 Metodi Monte Carlo . . . . . . . . . . Processi aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 116 125 128 131 4 Gli universi campionari 137 4.1 Popolazioni finite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 4.2 Popolazioni virtuali . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 5 Inferenza statistica 5.1 Stima parametrica - . . . . . . . . . . . . . 5.1.1 Proprietà desiderabili di uno stimatore 5.1.2 Metodi di stima . . . . . . . . . . . . 5.2 Verifica delle ipotesi statistiche - . . . . . . 5.2.1 Test parametrici . . . . . . . . . . . . 5.2.2 Test non parametrici . . . . . . . . . 5.3 Stima in presenza di parametri di disturbo . . 5.4 Inferenza su particolari parametri . . . . . . . 5.5 Logiche inferenziali . . . . . . . . . . . . . . 6 7 I modelli lineari 6.1 Il modello lineare generale . . . . 6.2 Stima dei parametri . . . . . . . . 6.3 Il caso di una variabile esplicativa 6.4 Modelli lineari generalizzati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 145 146 155 160 160 165 167 169 172 . . . . 175 175 176 178 180 Distribuzioni di probabilità elementari 183 7.1 Variabili discrete - . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 7.2 Variabili continue - . . . . . . . . . . . . . . . . . . . . . . . . . . 191 A Esercizi 201 B Alcune somme notevoli 205 C Svolgimenti 209 Bibliografia 241 Introduzione Nelle scienze applicate si procede sempre allo stesso modo, si osserva, si elabora, si traggono conclusioni. Si raccolgono dati da un campione e si traggono conclusioni per l’intera popolazione (sia essa di uomini, animali, batteri, titoli, etc.). Sembra un procedimento elementare, ebbene lo scopo di questo corso è proprio quello di fornire gli elementi per capire quanto, in effetti, non lo sia. Quando osserviamo un fenomeno, registriamo dei dati. Lo scopo della Statistica Descrittiva è quello di fornire ed estrapolare informazioni dai dati in nostro possesso. Utilizziamo a questo scopo delle funzioni dei dati campionari che sono chiamate appunto, statistiche dei dati campionari. Una volta ottenute le informazioni sul fenomeno oggetto di studio, ci si chiede quanto queste informazioni siano attendibili (sembra inevitabile ricordare che l’affidabilità di un dispositivo è la probabilità che funzioni!). Ci sono diverse questioni da affrontare, ad esempio, si deve ricordare che tutte le informazioni ottenute sono il frutto di analisi fatte sullo stesso campione. Vogliamo quindi sapere se considerando un campione diverso, oppure osservando un campione diverso, arriveremmo alle stesse informazioni. Oppure, se il campione osservato rispecchia al meglio le caratteristiche della popolazione, se cioè il campione osservato è quello più probabile. Questo è il ruolo della Statistica Inferenziale. Alla base delle tecniche inferenziali e non solo, troviamo il calcolo delle Probabilità. Più avanti nel testo, si è accennato a problemi (semplificati) relativi ai seguenti campi di applicazione della Probabilità: • Matematica applicata: costruire modelli (governati da equazioni a derivate parziali o no) che riducano l’incertezza in ambiti anche molto diversi, dalla Fisica alle Scienze Sociali o dalla Biologia alla Medicina (processi aleatori); • Teoria dei segnali: si studia la variazione nel tempo di una grandezza (o misurazione) cercando proprietà matematiche e statistiche (processi aleatori); • Inferenza Statistica: problemi di stima per parametri di un modello (matematico) che descrive un fenomeno oggetto di studio e che non può essere descritto da v vi modelli puramente deterministici. si vogliono studiare alcune proprietà su pochi unità e trarre conclusioni più generali; • Teoria delle decisioni: metodologia che si applica quando un decisore può scegliere tra varie azioni future il cui esito dipende da fattori esterni che non possono essere previsti esattamente; • Teoria del rischio: modelli matematici per descrivere la vulnerabilità di insolvenza di un assicuratore (o altra compagnia). Si può associare allo studio del problema classico della rovina del giocatore. In particolare, possiamo elencare alcuni esempi: • Astrofisica: studio della radiazione cosmica di fondo,...; • Biologia: inferenza su culture....; • Economia/Marketing: indagini sui nuovi prodotti, ...; • Farmacia: testare un farmaco,...; • Finanza/Assicurazione: problemi relativi ai titoli finanziari,...; • Fisica: diffusione del calore, moti di particelle, .... • Geologia: statistica spaziale, ...; • Informatica: approssimazione di integrali, calcolatori quantistici, ...; • Inquinamento: stima delle concentrazioni di inquinanti,...; • Medicina: studiare gli effetti di malattie o cure su pazienti, ....; Programma e registro delle lezioni. Tratteremo, nei due corsi AT e GEST, gli argomenti divisi come in Tabella 1. Il programma dettagliato va preso dal registro delle lezioni, aggiornato in tempo reale e disponibile sulla pagina web del coso: https://sites.google.com/site/mirkodovidio/didattica-mirko-d-ovidio Gli esercizi di autovalutazione si possono reperire ovunque in rete, si consiglia comunque di consultare la pagina https://sites.google.com/site/aristidesanmartini/ INDICE vii AT AT e GEST Capitolo 1 Capitolo 2 Capitolo 3 Capitolo 4 Capitolo 5 GEST Capitolo 3 (Somme di v.a. + Disuguaglianze) Capitolo 6 Tabella 1: Programma (in generale). In particolare sono consigliati gli ESERCIZI con RISPOSTE dal 1986 al 2001 oppure tutti i compiti dal 2003 con svolgimento. Il lettore interessato può approfondire gli argomenti trattati nei seguenti testi di riferimento: teoria della misura e analisi [10, 9, 4, 3]; statistica asintotica [11]; somme notevoli ed integrali [5]; Probabilità [1, 2, 6, 7]; Probabilità e Statistica [8]. Obiettivi del corso. Acquisire competenza e abilità nel trattare: • variabili aleatorie, relazioni, interpretazione e probabilità di eventi; • trasformazioni di variabili aleatorie X 7→ g(X) dove X può essere un vettore, P somme di v.a. Sn = nk=1 g(Xk ), convergenza di n−1 Sn per n → ∞; • inferenza statistica su X̄n = n−1 Sn , n ∈ N. viii Errata Corrige e Approfondimenti In classe spesso affrontiamo esempi ed esercizi non presenti negli appunti. Sono qui elencati gli approfondimenti, commenti, esercizi trattati in classe e non presenti nelle precedenti versioni. Inoltre sono elencate le correzioni già fatte (in questa versione) di errori presenti in versioni precedenti. Quindi, nella presente versione potete trovare le seguenti differenze con le versioni precedenti: • pag. 7, Esempio 1 • pag. 12, Svolgimento Esercizio 7 • pag. 13, Esempio 2 • pag 14, Esercizio 9 • pag. 15, Esercizio 11 • Legge delle probabilità totali. ....e A, B, C sono eventi compatibili.... • pag. 38, Osservazione 11 • Eventi complementari • pag. 39, Esempio 12 • pag. 39, Esempio 13 • pag. 40, Proposizione 6 • pag. 43, Esercizio 29 con Svolgimento • pag. 44, Esercizio 30 con Svolgimento • pag. 51, dopo Definizione 28: ....dove B n ⊆ P(Rn ) se X ∈ Rn o B n ⊆ P(Zn ) se X ∈ Zn . ix x • pag. 54, Figura 3.1 • pag. 65, Osservazione 19 • pag. 65, Osservazione 14 • Sezione 3.2, .... Osserviamo che per v.a. continue o discrete, data una funzione continua g ∈ C(R), possiamo scrivere Z g(x)f (x)µ(dx) Eg(X) = R dove µ(dx) = dx (misura di Lebesgue e f è la densità continua con supporto supp(X)) o µ(dx) = µδ (dx, spet(X)) (misura di Dirac e f è la densità discreta di X). Nelle formule sopra si è considerata la funzione continua g(x) = xr con r > 0. • pag. 67, ....La funzione g(x) = xr con r > 0 è continua ma non limitata: non avrà senso per noi considerare EX r = ∞, infatti g ∈ Cb (R) ⇒ |Eg(X)| ≤ M < ∞ |Eg(X)| < ∞ 6⇒ g ∈ Cb (R). • proprietà della media, dimostrazione del punto v) • pag. 69, Esercizio 44 con soluzione • pag. 70, Osservazione 15 • pag. 70, Osservazione 16 • pag. 85, Esempio 18 • pag. 88, Sezione 3.3.5, la v.a X̄n • pag. 88, formula (3.39) e discussione • pag. 93, Osservazione 26 • pag. 94, Proposizione 10 con dimostrazione • pag. 111, Esempio 84 • pag. 124, Esempio 28 • pag. 125, il Teorema 33 (legge debole dei grandi numeri) e discussione INDICE xi • Sezione 6.3, il modello lineare • pag. 184, Osservazione 41. • Capitolo 7, Geometrica • Capitolo 7, Binomiale • Capitolo 7, Ipergeometrica • Capitolo 7, Poisson • pag. 192, Osservazione 44 • Capitolo 7, funzione Gamma • Soluzione Esercizio 50. ..... 2 e−xj fXj (xj ) = √ , π j = 1, 2. • Appendice A, Esercizi con svolgimenti (in progress) • Bibliografia xii Capitolo 1 Osservazione e Probabilità Si consiglia di leggere il Capitolo 1 prima dei capitoli che seguono e soprattutto dopo. 1.1 Statistica descrittiva La statistica è una scienza, una disciplina che ha come scopo lo studio quantitativo e qualitativo di fenomeni (non deterministici). La statistica descrittiva ha lo scopo di fornire una fotografia di una situazione o di un particolare fenomeno osservato. ”Una statistica è una funzione dei dati campionari. ” I dati campionari sono costituiti dalle misurazioni (o osservazioni) fatte sul campione osservato. Il campione osservato è costituito da unità statistiche che sono state opportunamente selezionate da una popolazione. La popolazione rappresenta l’interesse principale ed il motivo per il quale si vuole effettuare una analisi statistica. Si vuole cioè studiare un particolare (o più di uno) fenomeno che coinvolge la popolazione di interesse. La popolazione oggetto di studio può essere costituita da persone, animali, batteri, titoli finanziari, insetti, etc., in ogni caso siamo interessati a studiarne le caratteristiche. Non ci preoccupiamo ora di questioni legate al campione (come viene selezionato, come viene definita la numerosità ottima, etc.), tali argomenti rappresentano parte dei problemi che risolveremo ricorrendo alla statistica inferenziale. Per ora, diremo che il campione è casuale senza dire in che modo sia regolata tale casualità. Una volta osservato il campione, avremo una serie di misurazioni (supponiamo che la caratteristica di interesse ammetta valori numerici, sia quindi di tipo quantitativo1 ). Indichiamo tali misurazioni con il vettore x = (x1 , x2 , . . . , xn ) 1 (1.1) Non ci preoccuperemo quasi mai di introdurre variabili di tipo diverso, qualitative ad esempio. 1 2 che è quindi un punto di Rn . Dalla definizione data sopra di statistica, sembra chiaro che possiamo considerare tutte le funzione con supporto in Rn . Ovviamente, volendo ricavare delle informazioni (riguardanti la popolazione) dal campione, sembra altrettanto chiaro che le funzioni deputate debbono prima di tutto essere informative. La prima informazione utile che possiamo ottenere è la media campionaria n 1X x̄ = xi . n i=1 (1.2) Vogliamo poi capire quanto i dati si discostano dalla media campionaria. Introduciamo allora una distanza (Euclidea) dei dati campionari da tale valore che è la varianza campionaria n 1X 2 s = (xi − x̄)2 . (1.3) n i=1 La varianza campionaria si può scrivere a partire dai momenti campionari di ordine r>0 n 1X (xi )r (1.4) mr = n i=1 dove, per r = 1, si ottiene la media campionaria m1 = x̄. Infatti, s2 = m2 − (m1 )2 (a volte scriveremo mr = x̄r e quindi s2 = x̄2 − (x̄1 )2 ), il secondo momento meno il quadrato del primo. Supponiamo adesso che nel campione osservato x ci siano un certo numero di valori uguali, diciamo ad esempio che k valori su n siano esattamente uguali. In generale, supponiamo che ki valori sugli n totali siano uguali al generico vi . Allora, si può identificare una distribuzione (successione) di frequenze relative fi = ki /n ricavata dalla distribuzione di frequenze assolute ki ed i ∈ I dove I è un nuovo insieme di indici la cui cardinalità |I| è la dimensione del nuovo vettore v = (v1 , v2 , . . . , v|I| ). In nuovo vettore è costituito da tutti i valori diversi di x, presi con i loro pesi ki , i = 1, 2, . . . , |I| ≤ n. Ovviamente, se |I| = n allora v = x, non ci sono valori uguali. Seguendo questa impostazione abbiamo x̄ = |I| X i=1 e |I| X |I| 1X vi ki vi fi = n i=1 |I| 1X s = (vi − x̄) fi = (vi − x̄)2 ki n i=1 i=1 2 (1.5) 2 (1.6) Capitolo 1. Osservazione e Probabilità 3 dove fi e ki sono le frequenze relative e assolute introdotto sopra. Notiamo che tali frequenze si possono scrivere come vettori, f = (f1 , f2 , . . . , fn ) e k = (k1 , k2 , . . . , kn ). Esercizio 1. Trovare i vettori v, k, f relativi al campione osservato x = (2, 2, 3, 4, 2, 4, 3, 2, 5, 1, 1) e calcolare media e varianza campionarie. Data una successione finita di valori xk , k = 1, . . . , n si definiscono: n 1X xk n k=1 n X xk f k media aritmetica, media ponderata, k=1 n Pn n Y 1 k=1 xk !1/n xk media armonica, media geometrica, k=1 n 1X (xk )p n k=1 !1/p media di potenza. In base al fenomeno oggetto di studio può essere scelta una diversa statistica di interesse, la media campionaria appena introdotta è solo un esempio. Possiamo essere interessati a studiare il max{x1 , . . . , xn }, il min{x1 , . . . , xn } oppure altre funzioni dei dati campionari. Supponiamo ora che il Rettore della Sapienza ci chieda l’età media degli iscritti al primo anno delle Facoltà di Ingegneria e supponiamo che tale informazione sia da comunicare entro 10 ore. Sappiamo che gli iscritti sono circa 10000 e non abbiamo il tempo di chiedere a tutti gli studenti di comunicare la loro età. La soluzione sembra essere quella di selezionare un campione molto ridotto di studenti, chiedere l’età e comunicare la media al Rettore. Diciamo che si sceglie di intervistare 5 studenti, la cosa è presto fatta, si può reperire l’età di 5 studenti in pochi minuti. Immaginiamo per comodità che ad ogni studente si possa far corrispondere un numero invece del nome, ci sono 10000 studenti quindi se X è l’età dello studente, allora Xi è per noi l’età dello studente i con i = 1, 2, . . . , 10000. All’ingresso della Facoltà di ingegneria trovo i 5 studenti corrispondenti ai numeri (6, 60, 114, 1002, 8657) 4 registro le loro età e ottengo il campione x = (X6 = 19, X60 = 20, X114 = 26, X1002 = 18, X8657 = 21). La prima domanda che mi pongo riguarda l’età media, la calcolo e scopro che è 1 x̄ = (19 + 20 + 26 + 18 + 21). 5 La seconda domanda che mi pongo riguarda la correttezza di tale informazione e mi chiedo se veramente voglio assumermi la responsabilità di comunicare l’età media appena trovata al Rettore. Le mie insicurezze riguardano due punti: D1 n = 5 studenti è un campione rappresentativo o sarebbe meglio considerare n > 5? Quanti studenti dovrei considerare per ottenere un risultato attendibile, n =? D2 se avessi considerato studenti diversi, la media quanto sarebbe cambiata? In effetti, avrei potuto trovare le età relative ai campioni (X62 , X69 , X124 , X1402 , X9239 ), (X632 , X1989 , X2014 , X4201 , X9719 ) oppure, in generale (Xi1 , Xi2 , Xi3 , Xi4 , Xi5 ). (1.7) La scelta degli studenti da intervistare è del tutto casuale, dipende dagli studenti che trovo in quel momento, in quel posto. In particolare D3 quanti gruppi diversi di 5 studenti potevo trovare? (che equivale a dire, quante medie diverse potevo calcolare?) 1.2 Probabilità Per introdurre il concetto di probabilità cerchiamo di impostare il problema visto sopra da un punto di vista più matematico. Si capisce bene che l’età di una persona può essere considerata come una variabile in un dato problema, in particolare è una variabile quantitativa discreta. Nel nostro caso, dobbiamo aggiungere che si tratta di una variabile aleatoria, non sappiamo cioè quanto vale fino a quando non osserviamo (fino a quando non si realizza la variabile aleatoria). Dobbiamo quindi distinguere tra variabile deterministica e variabile aleatoria. Diciamo che una variabile è deterministica se ”possiamo prevedere il suo valore in Capitolo 1. Osservazione e Probabilità 5 un certo momento” mentre una variabile è aleatoria se non abbiamo nessun controllo sui valori che assume, se cioè ”siamo in grado di prevedere il suo valore in un certo momento solo con una certa probabilità”. Se lancio un dado, non possiamo semplicemente dire ”esce 4” ma possiamo dire P (”esce 4”) = 1 6 cioè la probabilità dell’evento ”lancio il dado ed esce 4” è pari a 1/6. Formalizziamo dicendo che la variabile aleatoria X =”lancio il dado” ha un insieme limitato di realizzazioni che sono ovviamente Ω = {1, 2, 3, 4, 5, 6}, allora si vede subito che P (X = x) = 1 6 per ogni faccia x ∈ Ω. Si poteva quindi scrivere P (X = 4) = P (”esce 4”) = P (”lancio il dado ed esce 4”). Notiamo che P (X ∈ Ω) = P (”lancio il dado ed esce una faccia”) = 1 e gli eventi di probabilità pari a 1 si dicono eventi certi. Analogamente chiameremo eventi impossibili quegli eventi con probabilità pari a 0. Ci riferiremo agli eventi rari quando le loro probabilità sono prossime a 0. In generale, ci possiamo riferire ad un fenomeno oggetto di studio come ad una variabile aleatoria X, non conosciamo il valore di X fino a quando X non si realizza, cioè fino a quando non osserviamo. Chiamiamo x la realizzazione della variabile aleatoria X. Quindi x è la nostra osservazione, nel caso del lancio del dado, x è una faccia di Ω = {1, 2, 3, 4, 5, 6}. Le probabilità che ci interessano saranno allora P (X = x), P (X ≤ x), P (X < x), P (X ≥ x), P (X > x) (1.8) oppure, se x1 ≤ x2 , P (x1 ≤ X ≤ x2 ). Si noti che se x1 , x2 ∈ R, la (1.8) continua ad avere senso. La variabile aleatoria sarà scelta in base al fenomeno che vogliamo studiare, alcuni esempi possono essere puramente didattici: 6 i) X =”lancio il dado”; ii) X =”estraggo una pallina da un urna”; iii) X =”estraggo k palline con ripetizione”; iv) X =”estraggo k palline in blocco”; altri possono rappresentare delle semplificazioni di modelli molto più complicati e utilizzati nella vita reale: i) X =”altezza”; ii) X =”pressione sistolica”; iii) X =”livello di reddito”; iv) X =”numero di sinistri”; v) X =”misurazioni relative alla radiazione cosmica di fondo”; vi) X =”precipitazioni in una regione”; vii) X =”concentrazione di un inquinante"’. Se Xi =”età della persona i” come nell’esempio sopra, allora possiamo formalizzare come segue. Chiamiamo X ∈ Nn con n = 5 il vettore (1.7). Cioè, ogni elemento di X è un numero naturale. La media campionaria è una quantità deterministica una volta che X si è realizzato, prima che si realizzi X, anche la media aritmetica degli elementi di X è aleatoria, cioè 5 1X 1X Xi j = Xj X̄ = 5 j=1 5 j∈c 5 dove si è usato il fatto che c5 è un insieme di 5 etichette rappresentanti gli studenti intervistati. Volendo generalizzare ad n qualunque, scriviamo la variabile aleatoria media campionaria, 1X X̄n = Xj (1.9) n j∈c n e cn è un insieme di etichette che rappresenta un gruppo di n studenti. Quindi diciamo che X̄n è la variabile aleatoria ”età media campionaria”. A questo punto potrei chiedermi D4 quanti gruppi diversi di n studenti posso trovare? Cioè quanti insiemi diversi cn di etichette posso costruire? Capitolo 1. Osservazione e Probabilità 7 Esempio 1. Supponiamo che Mario chieda al fratello Moreno di essere visitato senza aggiungere altre informazioni. Moreno che è un medico esperto ma anche preoccupato, si chiede come mai il fratello volesse essere visitato ed immagina la scoperta improvvisa di qualche malattia, diciamo X. Allora Moreno si interroga sulla storia passata dei sui pazienti, sulla base cioè delle sue informazioni. Le malattie per le quali i suoi pazienti si sono presentati negli ultimi anni sono x1 , x2 , . . . e rovistando tra le carte le associa alle frequenze fi , i = 1, 2, . . ., cioè fi = f req{ pazienti con la malattia xi }, i = 1, 2, . . . . Sulla base delle frequenze appena ricostruite, arriva a dire che P (X = xi ) = fi i = 1, 2, . . . e scartando le malattie con probabilità più basse, restringe la rosa di possibilità per la malattia del fratello Mario. Spazi di Probabilità uniformi (prime considerazioni) Non definiamo qui uno spazio di probabilità ma ci limitiamo a dire che esso è caratterizzato da due oggetti: i) un insieme Ω detto insieme degli eventi (elementari); ii) la probabilità P che possiamo immaginare come una funzione del tipo P : ω → [0, 1] con ω ∈ Ω. Diremo che uno spazio di probabilità è uniforme se gli eventi ω di Ω sono equiprobabili. Si pensi al lancio di un dado: Ω = {1, 2, 3, 4, 5, 6} e P (ω) = 1/6 per ogni ω ∈ Ω. Potremmo anche considerare un urna contenente n palline numerate da 1 a n. Allora, Ω = {1, 2, . . . , n} e P (estrarre la pallina numero x) = P (ω) = 1/n per ogni ω ∈ Ω (cioè per ogni x = 1, 2, . . . . , n). Notiamo subito che Ω è detto insieme degli eventi elementari perché non contiene tutti gli eventi ai quali posso essere interessato. Continuiamo a riferirci al lancio del dado, le probabilità degli eventi elementari come abbiamo già osservato sono costanti e tutte uguali a 1/6. Potrei chiedermi allora con quale probabilità: 1. esce una faccia con un numero minore di 4 (esce un numero < 4); 2. esce una faccia con un numero minore o uguale a 4 (esce un numero ≤ 4); 8 cioè del tipo (1.8). Quando si considerano spazi di probabilità uniformi si può utilizzare l’impostazione classica delle probabilità secondo la quale, la probabilità di un evento A si può trovare dal rapporto tra casi favorevoli e casi possibili, P (A) = numero di casi f avorevoli ad A . numero di casi possibili (1.10) Ad esempio, nel lancio di un dado: • P (esce un numero pari) = 3/6; • P (esce un numero < 3) = 2/6; • P (esce un numero ≤ 4) = 4/6. Esercizio 2. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggono, con reimbussolamento (o con ripetizione), due palline a caso. Calcolare le seguenti probabilità: 1. P (estrarre una pallina rossa e una nera); 2. P (estrarre due palline rosse); 3. P (estrarre due palline nere); 4. P (avere estratto una pallina rossa se so che una è nera). Esercizio 3. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggono, senza reimbussolamento (o senza ripetizione), due palline a caso. Calcolare le seguenti probabilità: 1. P (estrarre una pallina rossa e una nera); 2. P (estrarre due palline rosse); 3. P (estrarre due palline nere). Esercizio 4. Da un urna contenente 4 palline rosse e 6 palline nere, si estraggono, senza reimbussolamento, due palline a caso. Calcolare le seguenti probabilità: 1. P (estrarre una pallina rossa e una nera); 2. P (estrarre due palline rosse); 3. P (estrarre due palline nere). Capitolo 1. Osservazione e Probabilità 9 Esercizio 5. Da un mazzo di carte da poker (52 carte) si distribuiscono 5 carte prese a caso. Calcolare: 1. P (asso di picche tra le 5); 2. P (un asso tra le 5); 3. P (asso di picche, 2 di quadri, 7 di cuori, 2 di f iori, 8 di cuori). Esercizio 6. Un gruppo di n maschi e m femmine partono per le vacanze. Decidono di trovarsi in stazione la mattina del giorno dopo alle 5:30 e attendere che la biglietteria apra. Quando arrivano in stazione non c’è nessuno, si mettono in fila in ordine di arrivo. Volendo parlare durante l’attesa, si chiedono con quale probabilità i maschi saranno tutti vicini e di conseguenza anche le femmine? Prima di rispondere agli esercizi proposti, introduciamo il calcolo combinatorio che risulta essere un strumento molto potente nel calcolo di probabilità su spazi uniformi. In particolare, si considera l’impostazione classica della probabilità, bisogna distinguere tra casi possibili (la totalità degli eventi che possiamo registrare) e casi favorevoli (i soli eventi relativi alla probabilità di interesse, i casi che contribuiscono al verificarsi dell’evento per cui vogliamo calcolare la probabilità). Nel calcolo combinatorio si studiano le diverse regole secondo le quali insiemi di elementi sono considerati diversi. Tali regole definiscono delle famiglie di insiemi, al loro interno tutti gli insiemi rispettano le stesse regole, su numerosità e ordine ad esempio. Approfondiremo questi aspetti in seguito. Definizione 1. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità n, ii) che differiscono per ordine (ordinati) formano l’insieme P n delle permutazioni semplici degli n elementi di U . Inoltre, |P n | = n!. Definizione 2. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità k ≤ n, ii) che non differiscono per ordine (non ordinati) 10 formano l’insieme Cn,k delle combinazioni semplici degli n elementi di U in classi di k. Inoltre, n n! |Cn,k | = = . k (n − k)!k! Sia U = {a, b, c}, allora P 3 = {abc, acb, bac, bca, cab, cba}, C3,1 ={a, b, c}, C3,2 ={ab, ac, bc}, C3,3 ={abc}. Cerchiamo ora di rispondere alla D4 e quindi anche alla D3. Nel calcolare la media campionaria non importa in quale ordine osservo le stesse n persone, posso quindi considerare cn una combinazione semplice di 10000 indici in classi di n e può essere scelto in |C10000,n | modi diversi. Inoltre, −1 1 10000! P (cn ) = 10000 = . (10000 − n)! n! n Supponiamo ora che dal campione relativo a cn si sia ottenuta l’età media x̄ = 20. Dobbiamo notare che P (X̄n = 20) 6= P (cn ) infatti ci possono essere diversi campioni con la stessa media campionaria (la media delle età di Maria e Alberto può essere uguale alla media delle età di Marta e Simone). Il problema di determinare la legge distributiva di X̄n è quindi ancora aperto, non sappiamo cioè scrivere P (X̄n = x) per ogni x. (1.11) Svolgimento Esercizio 2. Le palline estratte vengono inserite nuovamente nell’urna e quindi ad ogni estrazione la situazione è esattamente la stessa. Indichiamo con N =”estraggo pallina nera” e R =”estraggo pallina rossa”. Gli eventi di interesse sono RN oppure N R (sono i casi favorevoli). I casi possibili sono RR, RN, N R, N N. Capitolo 1. Osservazione e Probabilità 11 La situazione iniziale prevede che (eventi di probabilità uniformi) P (R) = 5 10 e P (N ) = 5 . 10 Alla seconda estrazione non cambia nulla perché ogni volta inseriamo di nuovo la pallina nell’urna. Si ottiene: 1. P (RN oppure N R) = 2/4; 2. P (RR) = 1/4; 3. P (N N ) = 1/4; 4. P (R|N ) =?. Nei primi tre punti si è utilizzata la (1.10) mentre nell’ultimo punto si è introdotta la probabilità condizionata solo per sottolineare l’esistenza di un problema diverso. Affronteremo il condizionamento in seguito. Svolgimento Esercizio 3. Dobbiamo considerare un urna con 10 palline dalla quale si estrae una pallina alla volta, senza reimbussolamento. Dopo la prima estrazione la situazione cambia e di conseguenza anche le probabilità di estrarre palline rosse o nere. Alla seconda estrazione, P (R) e P (N ) dipenderanno da quale pallina ho estratto la prima volta. Devo quindi introdurre gli eventi Ri = ”R alla estrazione i-esima” e Ni = ”N alla estrazione i-esima” e calcolare P (R1 N2 ) = P (N2 |R1 )P (R1 ). Inoltre, in questo caso P (R1 N2 ) = P (R2 N1 ), perché? Daremo la soluzione di questo esercizio in seguito. Svolgimento Esercizio 4. Anche questo esercizio ha il solo scopo di sottolineare alcuni aspetti importanti, daremo la soluzione in seguito. Siamo però in grado di fornire una spiegazione del fatto che P (R1 N2 ) 6= P (R2 N1 ) contrariamente a quanto accadeva nel precedente esercizio. Perché? Svolgimento Esercizio 5. 12 Svolgimento Esercizio 6. Pensiamo ad una sequenza di numeri, da 1 a n + m. Ad ogni amico associamo un numero. I casi favorevoli sono dati da tutti i modi in cui posso ordinare i primi n numeri (i maschi) e tutti i modi in cui posso ordinare i numeri da n+1 a m (le femmine), si ottiene rispettivamente P n e P m . Quindi i casi favorevoli sono n!m! mentre i casi possibili sono dati da tutti i modi in cui posso ordinare gli n+m numeri (amici). In definitiva, applicando l’impostazione classica della probabilità, la P (i maschi saranno tutti vicini e di conseguenza anche le femmine) si ottiene considerando l’ordine di arrivo e calcolando n!m! . P (due gruppi distinti) = (n + m)! Si noti che P (due gruppi distinti) = |Cn+m,m |−1 = |Cn+m,n |−1 . Esercizio 7. (Regola del ”ne fisso uno”) Si distribuiscono a caso 5 carte da un mazzo di 52. Calcolare le probabilità relative agli eventi: 1. ottengo una coppia, 2. ottengo due coppie, 3. ottengo un poker, 4. ottengo un poker di assi, 5. ottengo colore. Svolgimento Esercizio 7. Si può rispondere a tutti i punti considerando un solo caso alla volta, vediamo come. Ricordiamo che le 52 carte sono divise in 13 carte per 4 semi. Consideriamo le 13 carte in corrispondenza con i primi 13 numeri (al numero 1 corrisponde un asso, etc.). 1. Per ottenere una coppia devo avere due carte dello stesso numero. Mi devo chiedere quante coppie posso ottenere? Notiamo che l’evento di interesse non è ”ottengo almeno una coppia”. Fissiamo un numero, ad esempio uno (che equivale a dire, asso). Quante coppie posso formare con 4 uno? Sono |C4,2 |. Quindi, la probabilità di ottenere una coppia di uno (di assi) si ottiene considerando i casi possibili |C52,5 | e i casi favorevoli dati da una coppia tra quelle possibili e le restanti 3 carte prese a caso. In quanti modi posso scegliere le restanti 3 carte? In |C50,3 | modi di cui solo |C48,3 | mi interessano? No! Se voglio una coppia, devo considerare 13 4 12 48 13 4 12 4 4 4 1 2 3 1 52 5 1 1 6= 1 2 3 52 5 per via delle ripetizioni possibili nelle tre carte rimanenti 3 Capitolo 1. Osservazione e Probabilità 13 2. posso scegliere 2 numeri su 13 in |C13,2 |. Ne fisso due e per ognuno considero le coppie possibili, poi moltiplico per il numero di combinazioni di classe uno possibili per le restanti carte, 13 4 4 44 13 4 4 11 4 2 2 2 1 52 5 o anche 2 2 2 1 52 5 1 3. posso fare un poker con ognuno dei 13 numeri. Ne fisso uno e poi moltiplico per 13 e per le combinazioni relative alla quinta carta, 13 4 12 4 13 4 48 1 4 1 52 5 o anche 1 4 1 1 52 5 4. per fare un poker di assi, devo considerare solo gli assi, quindi 4 48 4 12 4 4 1 52 5 o anche 4 1 1 52 5 5. si ottiene un colore con 5 carte dello stesso seme. Allora fisso un seme e ottengo 4 13 1 5 52 5 Esempio 2. Nel lancio di due dadi si deve considerare uno spazio degli eventi elementari dato da Ω = {ωi,j = (i, j) : 1 ≤ i, j ≤ 6} cioè gli elementi ai,j = (i, j) di una matrice 6 × 6. La probabilità di ottenere una sola coppia è costante (spazio uniforme) ed è pari a 1/36 e 36 sono gli elementi della matrice. Si deve osservare che P (ottenere (1, 2)) = P (ottenere (2, 1)) = 1/36 mentre P (ottenere entrambi i numeri 1 e 2) = 2 1 1 = + 36 36 36 che introduce il concetto di eventi incompatibili (insiemi disgiunti) ed il fatto che P (A ∪ B) = P (A) + P (B) se A ∩ B = ∅. Inoltre, si vede subito che P (ottenere (1, 2)) = 1 1 1 = · = P (ottenere 1) · P (ottenere 2) 36 6 6 che introduce il concetto di indipendenza (eventi indipendenti e compatibili) ed il fatto che P (A ∩ B) = P (A) · P (B). Lanciare due dadi può essere visto come lanciare due volte un solo dado. 14 Esercizio 8. (Regola del ”procedo per iterazioni successive”) Due amici arrivano al cancello chiuso di un palazzo e solo Mario (il custode) conosce la chiave del mazzo che apre il cancello. Appena arrivati Mario deve rispondere al telefono e lascia il mazzo di n chiavi all’amico Matteo chiedendogli di aprire. Matteo non sapendo quale sia la chiave giusta, le prova tutte una ad una togliendo ogni volta dal mazzo la chiave che non apre. Con quale probabilità Matteo proverà k chiavi? Svolgimento Esercizio 8. Si considerino gli eventi G =”chiave giusta” e S =”chiave sbagliata”. Allora P (G al tentativo numero 1) =P (G) = 1 n n−1 1 n n−1 n−1n−2 1 P (G al tentativo numero 3) =P (S)P (S)P (G) = n n−1n−2 .... .. P (G al tentativo numero 2) =P (S)P (G) = P (G al tentativo numero k) =P (S)P (S) · · · P (S)P (G) = 1 n per ogni k ≤ n. Bisogna notare che si è usato il fatto che G ⊥ S (gli eventi G e S sono indipendenti). Questo aspetto risulterà chiaro in seguito. Notiamo inoltre che S = Gc e quindi P (G) + P (S) = P (Ω) = 1 Esercizio 9. Una segretaria riceve 4 buste dove scrive i rispettivi indirizzi e 4 lettere da inserire nelle buste. Risponde al telefono e dimentica quale lettera va associata a quale indirizzo, decide di provare a caso. Calcolare la probabilità che 3 lettere vengano inserite nelle buste giuste e quindi spedite al giusto indirizzo. Svolgimento Esercizio 9. Se 3 lettere sono messe nella busta corretta allora anche la quarta verrà spedita al giusto indirizzo. Se chiamo le buste A, B, C, B e le lettere a, b, c, d, per mettere le lettere nelle buste giuste devo aver ordinato le buste e le lettere allo stesso modo. Quindi, la probabilità cercata è 1/4!. Esercizio 10. Mario è addetto al controllo qualità in una azienda che produce lampadine. Da precedenti controlli si sa che il 5% delle lampadine prodotte sono difettose. 1. Con quale probabilità Mario troverà una lampadina difettosa durante il controllo? Capitolo 1. Osservazione e Probabilità 15 2. Le lampadine vengono confezionate in scatole da 5 ogni 100 lampadine prodotte e poi vengono imballate e sistemate in bancali da 20 scatole. Con quale probabilità Mario troverà una lampadina difettosa in una scatola da 5? Con quale probabilità ne trova due difettose in una scatola da 5? Se controlla tutto il bancale da 20 scatole, con quale probabilità troverà una scatola con almeno una lampadina difettosa? Infine, con quale probabilità troverà più di 5 lampadine difettose nelle 20 confezioni di un bancale? 3. Nei precedenti controlli, come si è arrivati a dire che il 5% delle lampadine sono difettose? Possiamo ancora considerarla un informazione attendibile? Esercizio 11. Una ditta produce due componenti a e b che risultano difettosi rispettivamente per il 3% e 4%. La produzione avviene in reparti diversi e quindi in maniere indipendente. I due componenti vengono poi assemblati e si ottiene il prodotto finale. Calcolare la probabilità che 1. il prodotto finale presenti entrambi i difetti, 2. il prodotto finale sia difettoso (almeno un componente difettoso), 3. sia difettoso a sapendo che il prodotto finale è difettoso, 4. sia difettoso b sapendo che il prodotto finale è difettoso. 1.3 Statistica inferenziale Vogliamo inferire su un particolare parametro della popolazione. Nei problemi a cui vogliamo trovare risposta disporremo di alcune informazioni, ad esempio un campione e vogliamo caratterizzare la popolazione, ad esempio trovando un valore che ben rappresenta un parametro (o i parametri) di tale popolazione. Tale valore è proprio una stima del parametro. Si deve però definire il concetto di stima, per ora diciamo che possiamo disporre dei seguenti concetti legati alla stima, supponiamo che il parametro di interesse sia unidimensionale: • stima puntuale, vogliamo trovare un valore che rappresenti il valore vero (un numero); • stima intervallare, vogliamo trovare un insieme di valori che contenga con elevata probabilità il valore vero (un intervallo), • test di ipotesi, vogliamo verificare delle ipotesi sulle stime ottenute (ad esempio se possiamo considerarle attendibili/affidabili). 16 Tratteremo tecniche della statistica inferenziale mirate a risolvere problemi come quelli di seguito elencati. Esercizio 12. Per una particolare marca di abbigliamento, si poteva assumere che il prezzo di vendita di un capo negli passati seguiva una legge normale di media µ = 66 euro (cioè il prezzo in Italia del capo variava attorno a 66 euro seguendo una distribuzione normale). Vengono considerati 10 negozi (presi a caso in tutta Italia) tra i 1000 che trattano il capo in questione e si rileva, per ognuno, il prezzo di vendita di quest’anno. Il vettore delle osservazioni è dato da x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62). Si vuole capire se ci sono state variazioni in termini di prezzo medio. 1. Calcolare una stima del prezzo medio di quest’anno. 2. Calcolare un intervallo che con probabilità pari al 95% contenga il prezzo medio italiano vero (cioè di tutti i 1000 negozi). Dal campione emerge che il prezzo medio campionario è inferiore a quello degli anni passati. 3. Stabilire se si può sostenere che il prezzo sia cambiato (test di ipotesi) e con quale probabilità (fiducia). Esercizio 13. Un pescatore vorrebbe sapere, in un particolare tratto di fiume, quanto tempo deve aspettare in media l’arrivo di un pesce (che forse abboccherà). Sa che un modello utile nello studio del numero di arrivi è basato sulla variabile di Poisson di parametro λ e si chiede se è veramente così, cioè se i pesci arrivano veramente seguendo una legge di Poisson. Inoltre, se così fosse, vorrebbe sapere quanto vale λ in modo da capire quanti pesci aspettarsi in un intervallo di tempo. Osserva in 60 minuti quanti pesce attraversano il tratto di fiume al minuto e registra le osservazioni riportate nella Tabella 1.1. 1. Verificare se tale campione è rappresentativo e se i dubbi del pescatore sul modello sono fondati (si può usare il modello di Poisson?). 2. Calcolare un intervallo per il tempo medio di attesa (arrivo di un pesce) che sia valido con una probabilità del 95% (che sia al 95% il tempo medio vero che bisogna attendere per l’arrivo di un pesce). Svolgimento Esercizio 13 Capitolo 1. Osservazione e Probabilità 17 numero di transiti in un minuto frequenza 0 1 2 3 4 5 12 14 21 12 4 5 3 1 Tabella 1.1: Transiti dei pesci in 60 minuti 1.4 Probabilità e Applicazioni La statistica inferenziale è una delle molte applicazione della probabilità. Sono collegate alla statistica inferenziale anche problemi di stima per processi aleatori che sono oggetti più complessi e prevedono, tra le altre cose, una diversa struttura di dipendenza tra le osservazioni. I processi aleatori possono rappresentare fenomeni evolutivi e quindi dipendono dal tempo. Tali processi rappresentano fenomeni fisici, biologici, finanziari e si possono associare a moti aleatori (di particelle o titoli ad esempio) che seguono delle leggi governate da equazioni differenziali. Supponiamo che Google voglia estrapolare delle informazioni dalle sue ricche basi di dati. Le informazioni vengono immagazzinate in matrici di dati (matrici di Rn×m ) e supponiamo che sia importante, per il caso di interesse, trovare i determinanti di tali matrici. La potenza di calcolo delle macchine di Google consente di trovare il determinante di una matrice in due giorni ma gli Ingegneri di Google conoscono un metodo più veloce. Le matrici sono di dimensione n×m con n, m grandissimi, troppo. Consideriamone una, ad esempio la matrice A. Allora, si scelgono due numeri n0 e m0 molto minori di n e m rispettivamente e si decide di calcolare il determinante della sotto-matrice di dimensioni n0 e m0 , ad esempio A0 . Il calcolo del determinate diventa un operazione che impegna le macchine Google solo pochi minuti ma il problema diventa: ”esiste una scelta ottima degli elementi di A in modo da costruire la sotto-matrice 0 A tale per cui P (det(A) = det(A0 )) = max?”. Ovviamente se tale probabilità fosse sufficientemente alta, diciamo non minore del 95%, allora Google risparmierebbe molto tempo e denaro! Sempre Google, come può minimizzare il tempo di ricerca? I vari server in cui si può trovare ciò che si cerca sono collegati da una fitta rete (il web) che possiamo immaginare come una vera e propria rete costituita da archi (collegamenti tra due ser- 18 Figura 1.1: ...provate con I’m feeling lucky. ver). Consideriamo un grafo aleatorio (random graph), cioè una successione di archi (e quindi una successione di server). Ho scelto a caso gli archi e ho stabilito un percorso tra i server in cui cercare ..... ” I am feeling lucky"!! La cosa ha successo se organizzo un algoritmo di scelta per gli archi tale per cui P ( scelta giusta ) = max. Capitolo 2 Misura e Probabilità Z ? f (x)dx 6= 2.1 Z ? Z f (x)dµ(x) = f (x)µ(dx) Insiemi Operazioni, funzioni, cardinalità Sia A un insieme (ad esempio, N, Z, R, . . . ). Denotiamo con P(A) l’insieme dei sottoinsiemi di A. P(A) può essere considerato come un insieme di famiglie di insiemi. Possiamo cioè considerare famiglie di insiemi di P(A), ogni famiglia è costituita da insiemi di P(A) che condividono una certa caratteristica, la caratteristica della famiglia1 . Sia Ē il complementare di un insieme E. Scriveremo anche E c per indicare il complementare di E. Proposizione 1. (Formule di Boole o di De Morgan) Dati due insiemi A e B di P(A), si ha che A ∪ B = Ac ∩ B c e (duale) A ∩ B = Ac ∪ B c . Sia A un insieme di P(A). Si noti che A = (A ∩ B) ∪ (A ∩ B̄) per ogni scelta di B in P(A). Definizione 3. Una successione Ek ⊆ P(A) si dice • monotona non decrescente se Ek ⊆ Ek+1 per ogni k ∈ N, 1 Si pensi ad A = N, i numeri interi positivi. Possiamo considerare un insieme di numeri pari, un insieme di numeri inferiori ad N fissato etc.. Si possono costruire famiglie più o meno complesse, più o meno grandi. 19 20 • monotona non crescente se Ek+1 ⊆ Ek per ogni k ∈ N. Definizione 4. Data una successione Ek ⊆ P(A): • si dice limite superiore2 di Ek l’insieme lim sup Ek = lim Ek = k ∞ [ ∞ \ Ek . i=1 k=i • si dice limite inferiore3 di Ek l’insieme lim inf Ek = lim Ek = k ∞ \ ∞ [ Ek . i=1 k=i Osservazione 1. Se Ek è una successione monotona di insiemi di P(A), allora [ Ek se la successione è crescente, lim Ek = k lim Ek = k k∈N \ Ek se la successione è decrescente. k∈N Definizione 5. Sia E ⊆ A. La funzione 1E : A 7→ {0, 1} così definita 1 se x ∈ E 1E (x) = , x∈A 0 altrimenti (2.1) è detta funzione caratteristica4 o indicatrice dell’insieme E (anche scritta χE ). La funzione caratteristica 1[0,∞) è detta funzione di Haeviside e viene denotata con il simbolo H, cioè H(x) = 1[0,∞) (x). Osservazione 2. La funzione caratteristica 1Q∩[0,1] è detta funzione di Dirichlet. 2 Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite superiore come segue lim sup ak = inf sup ak . k 3 n∈N k≥n Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite inferiore come segue lim inf ak = sup inf ak . k 4 n∈N k≥n Con il temine caratteristica preferiamo indicare una trasformata di densità che verrà introdotta in seguito. Chiameremo quindi 1 funzione indicatrice. Capitolo 2. Misura e Probabilità 21 Definiamo la cardinalità di un insieme. Nel definire la cardinalità è importante definire il concetto di insiemi equipotenti, due insiemi A e B sono detti equipotenti se esiste una applicazione biunivoca f : A 7→ B, ad esempio i 7→ ki , che associa ad ogni i ∈ I ⊂ N un elemento ki , definendo così l’insieme {ki }i∈I ∈ KI . Possiamo da I risalire ad un elemento preciso di KI e viceversa. Diamo allora la seguente Definizione 6. (Cardinalità) Si dice cardinalità dell’insieme A (denotata con |A|) la famiglia degli insiemi equipotenti ad A: |A| = {B|∃f : A 7→ B, f biunivoca}. Segue ovviamente che |A| = |B| se A e B sono equipotenti inoltre se l’applicazione f è del tipo f : I 7→ KI , biunivoca, segue spontaneamente l’idempotenza con un insieme C ⊆ N, in particolare diciamo che un insieme A è numerabile se |A| ≤ |N|. Diciamo che un insieme A è infinito se esiste un sottoinsieme proprio B ⊆ A, B 6= A tale che |A| = |B| mentre è finito un insieme che non risulti infinito. Tutti gli insiemi finiti sono numerabili, è facile pensare nel caso f : I 7→ KI che esista un unico n ∈ N per cui |A| = |{1, 2, . . . , n}| e scriveremo |A| = n, abbiamo ottenuto quindi che un insieme A è finito se e solo se vale |A| ≤ |N| quindi se è numerabile5 . Si dice invece che un insieme ha la potenza del continuo se risulta |A| = |R|. Definizione 7. (Insieme numerabile) Un insieme A è detto numerabile se esiste una funzione iniettiva f : A 7→ N . Se f è anche una funzione suriettiva (quindi è biunivoca), allora A è chiamato insieme infinito numerabile. Si noti che |{a, b, f, 3, h}| = 5. Famiglie Sia A un insieme, P(A) la famiglia dei sottoinsiemi di A. Definizione 8. (Algebre) Una famiglia A ⊆ P(A) è detta algebra su A se 1. {∅} ∈ A; 2. E ∈ A ⇒ Ē ∈ A; 3. E, F ∈ A ⇒ E ∪ F ∈ A 5 Vale la pena di notare che l’insieme dei razionali Q = {p/q|p ∈ Z, q ∈ N} è numerabile mentre non lo è l’insieme [0, 1] 22 Quindi ogni algebra è stabile rispetto alla unione finita (o numerabile), nel senso che l’operazione di unione su insiemi di A porta ad un insieme di A, inoltre è numerabile visto che a due a due possono formarsi le unioni di tutti gli elementi di A. Ogni famiglia non vuota A ⊆ P(A) stabile per il passaggio al complementare e per unione finita contiene l’insieme vuoto {∅} e quindi è un’algebra. Definizione 9. (σ-algebre) Una famiglia A ⊆ P(A) è detta σ-algebra su A se 1. {∅} ∈ A; 2. E ∈ A ⇒ Ē ∈ A; 3. per ogni successione {Ek } ⊆ A risulta ∞ [ Ek ∈ A. k=1 La coppia (A, A) è detta spazio misurabile e gli elementi di A sono insiemi misurabili. Si noti che una σ-algebra è un’algebra stabile per unioni numerabili ed inoltre vale la seguente relazione tra algebra e σ-algebra. Proposizione 2. Sia A un’algebra. Le affermazioni seguenti sono equivalenti: 1. A è una σ-algebra; 2. per ogni {En } ⊆ A risulta lim En ∈ A. Definizione 10. Sia (A, A) uno spazio misurabile ed F ⊂ A. La σ-algebra AF = A ∩ F è detta σ-algebra indotta da A su F . 2.2 Misure positive e di Lebesgue Sia A un insieme, A0 ⊆ P(A) una famiglia tale che {∅} ∈ A0 . Definizione 11. Una applicazione µ : A0 7→ R+ è detta misura positiva (o misura) su A0 se 1. µ({∅}) = 0; Capitolo 2. Misura e Probabilità 23 2. (σ-additività) per ogni successione {Ek ⊆ A0 } di insiemi disgiunti tali che ∞ [ Ek ∈ A0 k=1 risulta µ ∞ [ ! Ek k=1 = ∞ X µ(Ek ). k=1 Osservazione 3. Osserviamo che se A ∈ A implica che Ā ∈ A, allora A0 = A è una σ-algebra. Definizione 12. Una misura µ si dice finita se prende valori in R+ . Si dice σ-finita se esiste una successione {Ek } ⊆ A0 tale che A= ∞ [ Ek , µ(Ek ) < ∞ ∀k ∈ N. k=1 Osservazione 4. Supponiamo che µ(Ek ) = 1/2k . Allora (si veda sotto, la serie geometrica) µ(A) = ∞ X k=1 µ(Ek ) = ∞ ∞ X X 1 1 1 = − 1 = − 1 = 1. k k 2 2 1 − 1/2 k=0 k=1 Definizione 13. Sia A ⊆ P(A) una σ-algebra, µ : A 7→ R+ una misura. • La terna (A, A, µ) è detta spazio di misura. Se µ è finita (σ-finita) lo spazio di misura è detto finito (σ-finito). • Se µ(A) = 1 lo spazio (A, A, µ) è detto spazio di probabilità e la misura µ è detta misura di probabilità. Diamo ora alcune proprietà delle misure: Proposizione 3. Sia (A, A, µ) uno spazio di misura. Allora: 1. monotonia: E ⊆ F ⇒ µ(E) ≤ µ(F ); S P 2. additività: µ ( nk=1 Ek ) = nk=1 µ(Ek ); S P∞ 3. subadditività: ∀ {Ek } ⊆ A ⇒ µ ( ∞ k=1 Ek ) ≤ k=1 µ(Ek ); 4. perSogni successione non decrescente {Ek } ⊆ A vale µ( ∞ k=1 Ek ) = limk→∞ µ(Ek ); 24 5. perTogni successione non crescente {Ek } ⊆ A tale che µ(E1 ) < ∞ vale µ( ∞ k=1 Ek ) = limk→∞ µ(Ek ) Proposizione 4. (Misura di Lebesgue) Valgono le seguenti: 1. ogni intervallo limitato Ia,b = (a, b) è misurabile secondo Lebesgue e risulta µ(Ia,b ) = b − a, 2. ogni intervallo non limitato I è misurabile secondo Lebesgue e risulta µ(I) = ∞. Osservazione 5. (Lunghezza di un intervallo) Si consideri la misura di Lebesgue µ, allora dµ = µ(dx) = dx e Z Z µ(dx) = b − a. (2.2) dµ = µ(Ia,b ) = Ia,b Ia,b Esercizio 14. Sia Q il quadrato {(0, 0), (1, 0), (1, 1), (0, 1)}. Calcolare: 1. misura di Lebesgue µ(Q) di Q, 2. area di Q. Definire un rettangolo R e calcolare: 1. misura di Lebesgue µ(R) di R, 2. area di R. Osservazione 6. Notiamo che µ([a, b]) = µ({a} ∪ (a, b) ∪ {b}) = µ((a, b)) visto che µ({a}) = µ({b}) = 0. Vale infatti quanto sotto riportato. Proposizione 5. Ogni sottoinsieme numerabile di R è misurabile secondo Lebesgue e ha misura nulla. Definizione 14. (Insiemi di misura nulla) Un insieme N ⊆ A si dice di misura nulla (e scriviamo N ∈ N , dove N è la famiglia degli insiemi di misura nulla) se N ∈ A e µ(N ) = 0. Inoltre un insieme E ∈ A si dice trascurabile se esiste un insieme N ∈ N tale che E ⊆ N. Capitolo 2. Misura e Probabilità 25 Osservazione 7. Se µ è ancora la misura di Lebesgue, sappiamo che µ(0, ∞) = ∞. Se consideriamo una misura diversa, ad esempio dµ = µ(dx) = e−x dx (cioè la misura esponenziale), si ottiene Z Z ∞ e−x dx = 1. µ(0, ∞) = dµ = (0,∞) 0 Esercizio 15. Calcolare µ(−1, ∞) se 1. µ(dx) = 1(−2,2) (x)dx, 2. µ(dx) = x−α−1 1[1,∞) (x)dx, α ∈ (0, 1), 3. µ(dx) = λe−λx 1(0,∞) (x)dx, con λ > 0, 4. µ(dx) = (1 + x2 )−1 1R (x)dx, √ 2 5. µ(dx) = e−x /2 / 2π1R (x)dx. Definizione 15. (Misura che conta) Sia A un insieme. L’applicazione µ] : P(A) 7→ R+ definita come segue |E| = numero di elementi di E, se E è finito ] µ (E) = ∞, altrimenti è una misura di conteggio. Definizione 16. (Misura di Dirac6 ) Sia A un insieme. L’applicazione µδ : R×P(A) 7→ {0, 1} relativa ad E ∈ P(A) definita come segue 1, x ∈ E δ µ (x) = , x∈R 0, altrimenti è una misura di presenza/assenza. 6 Si noti che qui si sta parlando della misura di Dirac e non della delta di Dirac che è una funzione generalizzata indicata con δy (x) = δ(x − y) indicando così che è una funzione di x centrata in y, spesso y = 0 e si dice centrata in zero. La funzione di Dirac vale zero in tutti i punti x 6= y, vale ∞ in x = y R ed è tale per cui B δ(x − y)dx = 1 se y ∈ B con B ⊆ R. Inoltre, in generale Z δ(x − y)f (y)dy = f (x), (prima si è considerata f = 1B ). R 26 Quindi fissato E ∈ P(A), si ha µδ : x ∈ R 7→ {0, 1}. Si poteva scrivere µδE (x) oppure µδ (x, E), preferiamo non mantenere il riferimento ad E per non appesantire la notazione, nel seguito sarà sempre chiaro a quale E ci riferiamo. Notiamo anche che µδ (x, E) = 1E (x) e X dµδ = µδ (dx) = µδ (dx, E) = δy (x)dx. y∈E Si noti che Z ] µ (A) = dµδ , A⊂Z A se E = Z, cioè se dµδ = µδ (dx, Z). Osservazione 8. Giusto per fissare bene le idee. Sia E = Z ed A = {−3, −1, 4}. Allora, Z Z Z Z XZ δ δk (x)dx = δ−3 (x)dx + δ−1 (x)dx + δ4 (x)dx = 3. dµ = A k∈A R R R R Definizione 17. Sia (A, A, µ) uno spazio di misura ed F ⊂ A. La restrizione di µ alla σ-algebra indotta AF = A ∩ F è una misura denotata con µF è detta misura indotta da µ su AF . Consideriamo uno spazio di misura (A, A, µ) e diamo la seguente caratterizzazione di ”affermazione valida quasi ovunque”. Notiamo che la famiglia N dipende dalla misura µ, nel senso che un insieme può essere di misura nulla rispetto ad una misura ma non rispetto ad un altra scelta opportunamente. Si può allora scrivere Nµ per sottolineare questo fatto. Inoltre, tala famiglia è chiusa rispetto all’unione numerabile. Diciamo inoltre che una certa affermazione A[f (x)] su una data funzione f : A 7→ R è vera quasi ovunque (o q.o.) rispetto alla misura µ se {x ∈ A tali che A[f (x)] è falsa} ∈ Nµ . Quindi, date due funzioni f : A 7→ [−∞, +∞] e g : A 7→ [−∞, +∞], diremo che • f è finita q.o. se {x ∈ A : f (x) = ±∞)} ∈ N , • f = g q.o. se {x ∈ A : f (x) 6= g(x)} ∈ N , • f : D 7→ [−∞, +∞] è definita q.o. se A \ D ∈ N (dove A \ D = Dc è il complementare di D). Capitolo 2. Misura e Probabilità 27 Di esempi come quelli sopra riportati, come vedremo in seguito, se ne possono fare a piacimento ed il concetto ”affermazione valida q.o.” gioca un ruolo chiave nella teoria delle probabilità. Sostituiremo infatti la dicitura q.o. con q.c. (quasi certamente) se µ = P è una misura di probabilità. In particolare, scriveremo q.o. f = g se e solo se µ({x ∈ A : f (x) 6= g(x)}) = 0 (2.3) ed in maniera analoga negli altri casi (con riferimento alla misura µ, cioè µ-q.o. oppure P -q.c.). Consideriamo le funzioni 0, x ≤ 0 1, x 6= 0 F (x) = e f (x) = . 1, x > 0 0, x = 0 La funzione F è continua q.o. in R rispetto alla misura di Lebesgue. La funzione f ha un punto di discontinuità e possiamo dire che f = 1R q.o. rispetto alla misura di Lebesgue dove la funzione indicatrice (o identità) è continua in R. Infatti, in entrambi i casi µ({x}) = 07 . 2.3 Funzioni misurabili e spazi di Lebesgue Gli spazi di Lebesgue possono intendersi come una classe di equivalenza per funzioni misurabili. Indichiamo con M l’insieme delle funzioni misurabili. Ricordiamo che uno spazio è misurabile se possiamo associare a tale spazio una σ-algebra, allora ogni insieme di tale spazio è misurabile. Definizione 18. Siano (X, A) e (X 0 , A0 ) due spazi misurabili. Una funzione f : X 7→ X 0 è detta misurabile se per ogni insieme E 0 ∈ A0 risulta f −1 (E 0 ) ∈ A. Se cioè f −1 (E 0 ) è misurabile per ogni E 0 ∈ A0 . Definendo allora X 0 = R ∪ {−∞, ∞} ed α ∈ R possiamo scrivere che se {f > α} = {x ∈ X|f (x) > α} = f −1 ((α, ∞]) ∈ A allora f ∈ M. Si potevano anche considerare gli insiemi {f < α}, {f ≤ α}, {f ≥ α} e loro intersezioni, unioni, complementari. Si noti il collegamento con (1.8), le variabili aleatorie sono funzioni misurabili. Un esempio di funzione non misurabile rispetto alla misura µ può essere dato dalla funzione indicatrice f (x) = 1E (x) se E (e quindi 7 Si noti che vale per ogni punto x, non solo in x = 0 come in questo caso. 28 E c ) non è misurabile rispetto a µ. Quindi insiemi non misurabili rispetto ad una certa misura portano a funzioni non misurabili rispetto a quella misura8 . Esercizio 16. Data f (x) = x2 , verificare se {f ≤ α} è misurabile rispetto alle misure in Esercizio 15. Definizione 19. (Spazi di Lebesgue) Sia (X, A, µ) uno spazio di misura. Sia M(X, A) l’insieme delle funzioni misurabili in X. Per ogni p ∈ [1, ∞] sia Lp (X, A, µ) = {f ∈ M(X, A) | kf kp < ∞}, lo spazio di Lebesgue di ordine p, dove Z 1/p p |f | dµ , X kf kp = sup |f |, p ∈ [1, ∞) (2.4) p = ∞. X Indicheremo tale classe di equivalenza semplicemente con Lp . Introduciamo la funzione semplice f : A 7→ R definita da f (x) = ∞ X cn 1An (x) (2.5) n=1 dove 1A (x) = 1(x∈A) . Se An = {n}, allora 1{n} (x) = 1(n=x) è la funzione indicatrice dell’insieme {n} ed in questo caso, la funzione f (k) = ck è quindi una successione in k ∈ N. Se inoltre consideriamo la misura di Dirac relativa ai naturali, dµδ = µδ (dx, N), notiamo che Z X Z X δ f (x)µ (dx) = cy δy (x)dx = cy . R R y∈N y∈N Inoltre, considerato un insieme B ⊂ R, scriviamo Z X Z X δ f (x)µ (dx) = cy δy (x)dx = cy 1B (y) B y∈N B y∈N dove si è usato il fatto che Z δy (x)dx = 1B (y). B 8 Esempi banali ma forse di aiuto: non posso certo misurare la temperatura di un corpo con il metro, non posso neanche misurare le altezze con la bilancia. È importante considerare la dimensione degli oggetti in questione! Capitolo 2. Misura e Probabilità 29 Esercizio 17. Dire se la funzione f (x) = x−1 1[1,∞) (x), x ∈ R è di Lp per qualche p ≥ 1. Definizione 20. Sia (X, A, µ) = (N, P(N), µ] ) dove P(N) è l’insieme dei sottoinsiemi di N, e µ] è la misura di conteggio. Lo spazio Lp (N, P(N), µ] ) viene indicato con lp e per una successione {cn } ∈ lp vale !1/p Z 1/p ∞ X = |cn |p |f |p dµ] < ∞, p ∈ [1, ∞) N k{cn }kp = (2.6) n=1 sup |f (n)| = sup |cn | < ∞, p=∞ N dove si è posto f= N ∞ X cn 1{n} . n=1 Diamo il seguente teorema a scopo puramente illustrativo (ed introduttivo!!). Teorema 1. Sia p ∈ [1, ∞], {fn } ⊆ Lp una successione di Cauchy. Allora esiste f ∈ Lp tale che kfn − f kp → 0. Stiamo quindi dicendo in che senso fn → f se n → ∞9 . Sembra utile introdurre alcune questioni legate alle convergenze di funzioni già accennate nel teorema precedente. In particolare, facciamo notare quali tipi di convergenza si possono considerare. Sia (A, A, µ) uno spazio di misura e f : A → B, fn : A → B con n ∈ N due funzioni date, possiamo trovarci nelle seguenti situazioni: ♣ (conv. semplice o puntuale ) sia B = (−∞, +∞), allora fn → f in A se ∀x ∈ A ∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha |fn (x) − f (x)| < (2.7) ♣ (conv. uniforme) sia B = (−∞, +∞), allora fn → f in A se ∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha |fn (x) − f (x)| < ∀ x ∈ A (2.8) oppure, se kfn − f k∞ = sup |fn (x) − f (x)| → 0. (2.9) x∈A Possiamo dimostrare che Lp è uno spazio di Banach rispetto alla metrica indotta dalla norma k · kp . Dato uno spazio di Banach (X, k · k), si dice base per tale spazio un insieme B ⊂ X, costituito da elementi linearmente indipendenti e tali che lo spazio generato da B sia denso in X (o ogni elemento di X possa scriversi come combinazione lineare di elementi di B). Si dice poi che X è separabile se esiste una base costituita da un numero finito di vettori o al più da una infinità numerabile. 9 30 ♠ (conv. in misura) siano fn , f ∈ M(A, A) finite q.o., n ∈ N. Allora fn → f in µ misura (e scriviamo fn → f ) se µ({x ∈ A : |fn (x) − f (x)| ≥ }) → 0 per ogni > 0 se n → ∞. (2.10) ♠ (conv. quasi ovunque) sia B = [−∞, +∞], allora fn → f in A se {x ∈ A : lim fn (x) = g(x) e f (x) 6= g(x)} ∈ N n→∞ (2.11) ♠ (conv. in Lp ) sia B = [−∞, +∞], Lp = Lp (A, A, µ) e {fn } ∈ Lp , f ∈ Lp . Allora fn → f in A se ∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗ dove Z kfn − f kp = si ha kfn − f kp < 1/p |fn (x) − f (x)| µ(dx) . p (2.12) (2.13) A Ci sono interessanti collegamenti tra convergenze, noi affronteremo tali questioni nel caso µ sia una misura di probabilità. Diciamo qualche parola sulla convergenza puntuale (o pointwise), siano fn , f definite in D, se ∀ x ∈ D0 ⊆ D, ∀ > 0, ∃ n∗ = n∗ (x, ) : ∀n > n∗ si ha |fn − f | < diciamo che fn → f pointwise in D0 ed n∗ dipende da x e . Può accadere quindi che per qualche x non posso trovare nessun n∗ che verifichi la condizione di convergenza. Se una successione converge uniformemente, n∗ non dipende dalla scelta di x, fn converge infatti in maniera uniforme. Inoltre, se fn → f ∗ (puntualmente o uniformemente) e se f ∗ = f quasi ovunque rispetto ad una misura µ (µ-q.o) diciamo che fn → f (puntualmente o uniformemente) µ-q.o.. Esercizio 18. Si calcoli Z x f (u)du, x∈R −∞ nei due casi 1, x ∈ (0, 1) ∪ (1, 3) f (x) = 0, altrove oppure f (x) = 1, x ∈ (0, 2) ∪ (2, 3) . 0, altrove (2.14) Capitolo 2. Misura e Probabilità 31 Esempio 3. Consideriamo la funzione fn (x) = n1 per ogni x ∈ R. Si vede che fn → 0 per ogni x ∈ R (convergenza puntuale), inoltre kfn − 0k∞ = n1 → 0 per ogni x ∈ R (convergenza uniforme). Esempio 4. Studiamo fn (x) = nx , x ∈ R. Fissato x, si vede subito che fn → 0 (convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈R |x| = ∞ (non converge uniformemente). √ √ Esempio 5. Studiamo fn (x) = nx , x ∈ D = [− n, + n]. Fissato x, fn → 0 (convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈D |x| = √1n → 0 (converge uniformemente). Esempio 6. Sia ora fn (x) = sinxnx , x ∈ R. Si ottiene fn → 0 (puntualmente) infatti sin nx ∈ [−1, 1] è una funzione limitata. Inoltre, kfn − 0k∞ ≤ n1 → 0 (convergenza uniforme). Esercizio 19. Fornire una rappresentazione caratteristica (elementare) dell’insieme {f > α} se: 1. f (x) = log x, α = 1, 2. f (x) = e−x , α = 0. Esercizio 20. Fornire una rappresentazione caratteristica (elementare) dell’insieme {f ∈ A} se: 1. f (x) = log x, A = (1, 2), 2. f (x) = e−x , A = (1, ∞). Esercizio 21. Si dica se le seguenti funzioni sono continue o misurabili: 1. f (x) = 1(1,3] (x) + 1(4,5) (x); 2. h(x) = sin x; 3. g(x) = sin x + 2 cos x; 4. v(x) = c1 1(−1,0) (x) + c2 1(0,1) (x) con c1 , c2 > 0. Esercizio 22. Studiare la continuità delle seguenti funzioni: f (x) = 1(1,3] (x) + 1(3,5) (x); h(x) = 1(1,3) (x) + 1(3,5) (x); g(x) = 1(1,3) (x) + 1[3,5) (x). 32 Esercizio 23. Si dica se le seguenti successioni convergono pointwise. (Dove?) 1. fn (x) = xn , x ∈ [0, 1]. 2. fn (x) = (n + 1)−1/2 sin(nx + 3), x ∈ R. 3. fn (x) = n−2 (nx + x2 ), x ∈ R. Esercizio 24. Studiare la convergenza in misura della successione fn (x) = xn con x ∈ [0, 1]. Esempio 7. Sia fn (x) = nx(1−x2 )n , x ∈ [0, 1]. Si vede subito che fn (0) = fn (1) = 0 e fn → 0 per ogni x ∈ (0, 1) (infatti, se a > 1, n/an → 0 per n → ∞). Inoltre, n n 1 kfn − 0k∞ = √ 1− 2n + 1 2n + 1 n 2n+1 ! 2n+1 n 1 =√ 1− 2n + 1 2n + 1 dove n lim n→∞ 2n + 1 n→∞ −1/2 n = lim √ e n→∞ 2n + 1 lim kfn − 0k∞ = lim √ n→∞ 1− 1 2n + 1 n 2n+1 ! 2n+1 e quindi kfn − 0k∞ → +∞ (non converge uniformemente). Vogliamo sottolineare che Z Z fn (x)dx 6= lim n→∞ 1 0 1 lim fn (x)dx = 0. 0 n→∞ Infatti, per ogni n, Z 0 1 1 fn (x)dx = . 2 Quindi la convergenza puntuale non è sufficiente per il passaggio al limite sotto il segno di integrale. q Esercizio 25. Dimostrare che la funzione fn (x) = x2 + n1 , x ∈ R converge puntualmente e uniformemente. Studiare la convergenza di fn0 e confrontarla con f 0 . Capitolo 2. Misura e Probabilità 33 Esempio 8. Consideriamo ancora fn (x) = sin nx . n lim fn0 (x) 6= f 0 (x) = n→∞ Si vede subito che 0 lim fn (x) . n→∞ Basta vedere che fn0 (0) = 1 per ogni n mentre f 0 (x) = 0 per ogni x. Quindi la convergenza uniforme di fn non è sufficiente per il passaggio al limite sotto il segno di derivata. Osservazione 9. Consideriamo gli insiemi A ={x ∈ R : f (x) = 0} ∈ Nµ B ={x ∈ R : f (x) = ∞} ∈ Nµ e l’integrale Z ID (f ) = f (x)µ(dx) D dove, solo per semplicità prendiamo µ(dx) = dx, la misura di Lebesgue. Si deve notare che A e B sono insiemi di misura nulla ma ID (f ) = ID\A (f ) < ∞ se A ⊆ D, B ∩ D = ∅, ID (f ) = IB (f ) = ∞ se B ⊆ D. Osservazione 10. Quanto abbiamo detto si può estendere a spazi Lp (X, A, m) dove dm = ϕdµ (2.15) e m è detta misura con densità ϕ rispetto alla misura µ. Dato A ∈ A, scriveremo Z Z f (x)dm(x) = f (x)ϕ(x)dµ(x). A A Non tutte la misure ammettono densità. Alcune disuguaglianze Definizione 21. Una funzione reale, due volte differenziabile f è detta: i) convessa se f 00 (x) ≥ 0 per ogni x, ii) concava se f 00 (x) ≤ 0 per ogni x. 34 Teorema 2. (Dis. di Jensen) Sia µ una misura positiva su Ω tale che µ(Ω) = 1. Sia f ∈ L1 (Ω) tale che a < f (x) < b per ogni x ∈ Ω e ϕ una funzione convessa. Allora10 Z ϕ f dµ Ω Z ≤ (ϕ ◦ f )dµ. (2.16) Ω Diamo inoltre la seguente definizione. Definizione 22. (Esponenti coniugati) Se p e q sono numeri reali positivi tali che p + q = pq oppure 1 1 + = 1, p q allora chiamiamo p e q, coppia di esponenti coniugati. Teorema 3. (Dis. di Hölder) Siano p e q esponenti coniugati e 1 ≤ p ≤ ∞. Se f ∈ Lp (µ) e se g ∈ Lq (µ), allora kf gk1 ≤ kf kp kgkq (quindi f g ∈ L1 (µ)). (2.17) Teorema 4. (Dis. di Minkowski) Sia 1 ≤ p ≤ ∞. Se f ∈ Lp (µ) e se g ∈ Lp (µ), allora kf + gkp ≤ kf kp + kgkp (quindi f + g ∈ Lp (µ)). (2.18) Le disuguaglianze appena introdotte valgono anche negli spazi lp = Lp (µ] ) della Definizione 20, non solo negli spazi Lp (µ) della Definizione 19. Valgono quindi anche per successioni. Per p = 1 con µ misura di Lebesgue (solo per comodità) e g = 1 (identicamente uguale alla funzione unità), dalla dis. di Hölder si ottiene Z Z f (x)dx ≤ |f (x)|dx mentre dalla dis. di Minkowski si ottiene Z Z Z |f (x) − g(x)|dx ≤ |f (x)|dx + |g(x)|dx. 10 Ricordiamo che ϕ ◦ f è la composizione di ϕ e f , cioè ϕ(f (x)). Capitolo 2. 2.4 Misura e Probabilità 35 Misure di Probabilità - Assiomi di base della probabilità (assiomi di Kolmogorov) Possiamo esporre la teoria delle probabilità a partire da alcuni assiomi attorno ai quali estendere quanto si è visto sino ad ora. In particolare: 1. Gli eventi sono sottoinsiemi di uno spazio Ω e formano una classe additiva A. 2. Ad ogni evento A ∈ A è associato un numero reale non negativo P (A) che viene detto probabilità di A. 3. P (Ω) = 1. 4. A ∩ B = {∅} ⇒ P (A ∪ B) = P (A) + P (B). 5. Se {An , n = 1, 2, . . .} è una successione decrescente di eventi e limn→∞ An = {∅}, si ha limn→∞ P (An ) = 0 Resta definito a questo punto uno spazio di probabilità (Ω, A, P ). La classe additiva o σ-algebra A è una classe di insiemi non vuota e chiusa (stabile) rispetto alla negazione e all’unione numerabile (la chiusura appena menzionata vuole intendere che tale classe è costituita da elementi, gli insiemi, che possono essere uniti formando un nuovo insieme appartenente alla classe e che preso il complementare di ognuno di essi, della negazione o dell’unione appena ricordata, tale complementare appartiene ancora alla classe). Una immediata conseguenza è che {∅} ∈ A, Ω ∈ A e ∪n An ∈ A per ogni successione {An } ∈ A. La misura P è quindi una misura di probabilità, in particolare è una misura del tipo (2.15). Diremo che Ω è l’insieme fondamentale o spazio fondamentale, spazio campionario, insieme degli eventi. In un esperimento o nel lancio di un dado si ottiene uno degli eventi di Ω, se pensiamo al dado l’evento A ∈ A può essere A =00 si ottiene 100 . Lo spazio degli eventi A o anche algebra degli eventi è l’insieme di tutti gli eventi casuali che si possono ottenere in un certo esperimento. Supponiamo che nel lancio di un dado sia A =“si ottiene un numero pari”= {2, 4, 6} = {2}∪{4}∪{6}, la σ-algebra A sarebbe allora A = {∅, A, Ā, Ω} dove Ā ={2} ∪ {4} ∪ {6} = {1, 3, 4, 5, 6} ∩ {1, 2, 3, 5, 6} ∩ {1, 2, 3, 4, 5}, quindi se Ω è l’insieme degli eventi possibili, A è l’insieme degli eventi di interesse relativamente all’esperimento (sopra si è usata la legge di DE MORGAN o di BOOLE). Sembra utile chiarire un formalismo che in realtà è anche una importante sfumatura teorica, l’evento P ({1, 2, 3}) nel lancio di un dado può essere riscritto P ({1, 2, 3}) = P ({1}∪{2}∪{3}) e rappresenta l’evento S P (esce 1 oP 2 o 3) = P (esce 1)+P (esce 2)+ P (esce 3). Allo stesso modo P (Ω) = P ( r Ar ) = r P (Ar ) = 1 sotto le condizione dell’assioma 4. 36 Eventi complementari Diciamo che B è il complementare di A e scriviamo B = Ā oppure B = Ac se A∪B =Ω e A ∩ B = ∅. Eventi incompatibili. Diciamo che due eventi E, F sono incompatibili se E ∩ F = {∅}. Per gli eventi E =“mi trovo a Parigi”, F =“mi trovo a Roma” si ottiene E ∩ F = ”mi trovo a Parigi e a Roma” = “evento impossibile”. Definizione 23. Dato un insieme finito di eventi {Ar }r=1,...,n a due a due incompatibili, la probabilità dell’unione di tutti gli eventi è uguale alla somma delle probabilità degli eventi. In simboli n n [ X Ai ∩ Aj = {∅} per i 6= j ⇒ P ( Ar ) = P (Ar ). (2.19) r=1 r=1 Esempio 9. Gli eventi E =”mi trovo a Pisa” e F =”vedo la torre Eiffel” sono eventi incompatibili. Esercizio 26. Consideriamo gli eventi E =“piove”, F =“cado scendendo le scale”. Che tipo di eventi sono? Intersezione con un evento certo. Un evento è certo se si verifica con probabilità pari ad 1. Dato un evento certo che indichiamo con Ω (e quindi P (Ω) = 1) è sempre possibile individuare un evento A tale che A∪Ac = Ω. Si vede subito che P (A∩Ac ) = 0, i due eventi sono incompatibili (osserviamo anche che P (A) + P (Ac ) = 1). Dato un evento E ∈ Ω, è estremamente utile ricordare la seguente decomposizione P (E) = P (E ∩ Ω) = P (E ∩ (A ∪ Ac )) = P ((E ∩ A) ∪ (E ∩ Ac )). Si vede subito che (E ∩ A) ∩ (E ∩ Ac ) = {∅} quindi dalla (2.19) segue che P (E) = P (E ∩ A) + P (E ∩ Ac ). (2.20) Esercizio 27. Si rappresenti graficamente quanto appena detto mediante i digrammi di Eulero-Venn. Eventi compatibili. Diremo che due eventi sono compatibili se non sono incompatibili. Se quindi non si escludono. Prima di proseguire ricordiamo il principio di induzione già introdotto nei corsi precedenti : Sia Ak dipendente da un indice k ∈ N una affermazione vera per k = 1 e supponiamo che sia vera per un certo k = n. Se è vera anche per k = n + 1, allora Ak è vera per ogni k ∈ N. Diamo ora il seguente risultato. Capitolo 2. Misura e Probabilità 37 Teorema 5. (Disuguaglianza di Boole) Per una successione finita o numerabile di eventi {Ar }r=1,...,n si ha n n [ X P ( Ar ) ≤ P (Ar ) r=1 r=1 Dimostrazione. Introduciamo una successione arbitraria di eventi Fr = Ar \ r−1 [ Ak , r = 1, 2, . . . , n k=1 e procediamo per induzione nel dimostrare che n [ Ar = n [ Fr . (2.21) A \ B = A ∩ Bc (2.22) r=1 r=1 Sarà utile ricordare la relazione dove B c = B̄ è il complementare di B (verificate utilizzando i diagrammi di Venn). Se vede subito che A1 = F1 per costruzione. Supponiamo che (2.21) sia vera per n − 1 e verifichiamo per n. Si ottiene ! n n−1 [ [ Fr = Fr ∪ Fn r=1 = = r=1 n−1 [ r=1 n−1 [ ! ∪ Fn Ar (assunzione) ! ∪ Ar An \ r=1 = = = n−1 [ r=1 n [ ! Ar ∪ An ∩ n−1 [ ! Ak k=1 n−1 [ (definizione) !c ! Ak (dalla (2.22)) k=1 ! Ar ∩Ω r=1 n [ Ar . r=1 Quindi la (2.21) è dimostrata. La scelta della successione Fr non è stata arbitraria. Infatti si può verificare facilmente che gli insieme di tale successione sono a due a due 38 disgiunti (la verifica è lasciata al lettore, si consideri ad esempio F2 ∩ F1 ). Possiamo allora scrivere P( n [ Ar ) =P ( r=1 n [ Fr ) (per quanto appena dimostrato) r=1 = ≤ n X r=1 n X P (Fr ) (per il quarto assioma o per la additività di P ) P (Ar ) r=1 dove si è utilizzato il fatto che P (Fr ) ≤ P (Ar ) termine a termine. Questo fatto segue ancora dalla definizione della successione Fr . Infatti, si vede subito che P (F1 ) = P (A1 ), P (A2 \ A1 ) ≤ P (A2 ) etc.. La dimostrazione è conclusa. Osservazione 11. Se Ak ∩ As = ∅ per ogni s 6= k, allora Fk = Ak e P (Fk ) = P (Ak ) per ogni k. Vale il segno di uguale nella dis. di Boole. La legge delle probabilità totali. Siano A e B due eventi compatibili. Allora, P (A ∪ B) = P (A) + P (B) − P (A ∩ B). (si dimostri graficamente). Inoltre, se A,B,C sono eventi compatibili, P (A ∪ B ∪ C) =P (A) + P (B) + P (C) −P (A ∩ B) − P (A ∩ C) − P (B ∩ C) +P (A ∩ B ∩ C) Ovviamente si può procedere con più di tre eventi. Lasciamo questo esercizio al lettore interessato, si noti che un modo di procedere è il metodo grafico (diagrammi di Venn). La legge delle probabilità composte. Siano A e B due eventi. Allora, P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A) dalla quale si ricava anche P (A|B) = P (A ∩ B) P (B) e P (B|A) = P (A ∩ B) . P (A) L’evento A|B si legge A dato il verificarsi di B, presuppone quindi una dipendenza di A da B. Prima di andare a vedere in quanti modi può verificarsi A bisogna distinguere tra i casi possibili di B e capire come il verificarsi di B modifica il verificarsi di A. Capitolo 2. Misura e Probabilità 39 Esempio 10. Sia A ="mi rompo un braccio" un evento, non troppo felice! Sia B ="piove" un secondo evento. Allora A|B può avere un senso, posso cioè rompermi il braccio cadendo e cado perché piove. Forse, col sole non sarei caduto! C’è quindi una probabilità positiva (cioè diversa da zero) per l’evento A|B. Esempio 11. Siano A ="mi rompo l’altro braccio" e B ="mio fratello è nato il 4 luglio". Cosa posso dire? Esempio 12. Dal lancio di due dadi regolari, diciamo D1 e D2 , voglio calcolare la probabilità che sia uscita la faccia 1 sapendo che la somma dei numeri sulle facce è 3. Allora, P ({1}|somma = 3) =P ((D1 = 1) ∪ (D2 = 1)|D1 + D2 = 3) P ([(D1 = 1) ∪ (D2 = 1)] ∩ (D1 + D2 = 3)) = P (D1 + D2 = 3) P ([(D1 = 1) ∩ (D1 + D2 = 3)] ∪ [(D2 = 1) ∩ (D1 + D2 = 3)]) = P (D1 + D2 = 3) P ((D1 = 1) ∩ (D2 = 2)) + P ((D1 = 2) ∩ (D2 = 1)) = P (D1 + D2 = 3) =1. Esempio 13. Seguendo il precedente esercizio, vediamo invece che P ([(D1 = 1) ∩ (D1 + D2 = 4)] ∪ [(D2 = 1) ∩ (D1 + D2 = 4)]) P (D1 + D2 = 4) P ((D1 = 1) ∩ (D2 = 3)) + P ((D1 = 3) ∩ (D2 = 1)) = P (D1 + D2 = 4) 1 2 = · P (D1 + D2 = 4) 36 P ({1}|somma = 4) = dove P (D1 + D2 = 4) = 3 . 36 Si ottiene quindi 2 P ({1}|somma = 4) = . 3 40 Eventi indipendenti. Se gli eventi A e B sono indipendenti, allora P (A ∩ B) = P (A)P (B). Se gli eventi sono indipendenti, come si è visto, A|B = A. Cioè il verificarsi di A dipende solo da A e non da B. Inoltre, se gli eventi A e B sono indipendenti, sono indipendenti anche A e B̄, Ā e B, Ā e B̄. Esercizio 28. Siano A e B eventi indipendenti. Si dimostri che P (A ∩ B̄) = P (A)P (B̄). La situazione si complica nel caso di più eventi. Vale il seguente risultato. Proposizione 6. Se gli eventi {Ar }, in numero finito e infinito, sono indipendenti, allora comunque si prendano k di essi Aj1 , Aj2 , . . . , Ajk con k > 1, si ha P (Aj1 ∩ Aj2 ∩ · · · ∩ Ajk ) = P (Aj1 )P (Aj2 ) . . . P (Ajk ). (2.23) Osservazione 12. Dobbiamo notare che se gli eventi sono incompatibili, non ha senso il concetto di dipendenza. Osservazione 13. Vogliamo sottolineare che se vale la (2.23), allora non necessariamente gli eventi {Ar } sono indipendenti. Consideriamo due eventi A =”indosso scarpe nere” e B =”cado sul bagnato” nel caso in cui posseggo solo scarpe nere e rosse ma dello stesso modello. Allora, B = B ∩ Ω implica che P (A ∩ B) + P (Ā ∩ B) = P (B) e indossare scarpe nere o rosse non modifica la probabilità di cadere perché sono dello stesso modello. Quindi possiamo scrivere 1 P (A ∩ B) = P (Ā ∩ B) = P (B). 2 (2.24) Si vede subito che se possiedo metà scarpe nere e metà rosse, allora P (A) = P (Ā) = 1/2 e vale la (2.24). Se inoltre le scarpe di colori diversi sono di modelli diversi è ragionevole pensare che P (A ∩ B) 6= P (Ā ∩ B) Capitolo 2. Misura e Probabilità 41 cioè dovrebbero essere entrambe diverse da 1 P (A)P (B) = P (B) = P (Ā)P (B). 2 Quindi, il fatto che P (A ∩ B) sia uguale a P (Ā ∩ B) P (A ∩ B) P (A) sia uguale a o equivalentemente P (B|A) = P (Ā ∩ B) = P (B|Ā) P (Ā) non implica che cadere sia indipendente dal colore ovvero non implica che P (A ∩ B) = P (A)P (B) e quindi P (Ā ∩ B) = P (Ā)P (B) ma rappresenta solo una equivalenza analitica. In definitiva, P (A ∩ B) = P (A)P (B) non implica che A e B sono indipendenti (condizione necessaria ma non sufficiente) mentre è sempre vero il contrario. Nel seguito useremo anche la seguente notazione P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 , A2 , . . . , An ) (2.25) ed intenderemo sempre la probabilità che gli eventi A1 , A2 , . . . , An si verifichino tutti. Sembra utile leggere P (A ∩ B) come la probabilità che si verifichi A e B. Diremo invece che P (A∪B) è la probabilità che si verifichino A, B o entrambi (diremo quindi A o B). In generale P (∪r Ar ) sarà la probabilità che si verifichi almeno uno degli Ar (non escludiamo quindi che se ne possono verificare più di uno). Se gli eventi sono indipendenti, la formula (2.25) si scrive come il prodotto delle singole probabilità altrimenti vale la regola del prodotto P (A1 , A2 , . . . , An ) = P (An |An−1 , . . . , A2 , A1 ) · · · P (A2 |A1 )P (A1 ). Ovviamente, sotto l’ipotesi di indipendenza si ha che P (An |An−1 , . . . , A2 , A1 ) = P (An ), .. . P (A2 |A1 ) = P (A1 ) e quindi la regola (2.26) vale per eventi qualunque. (2.26) 42 Svolgimento Esercizio 11. Indichiamo con A ="a è difettoso" e B ="b è difettoso" gli eventi di interesse. Ovviamente P (A) = 0.03 e P (B) = 0.04. 1. P (A ∩ B) = P (A)P (B), 2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B), 3. P (A|A ∪ B) = P (A ∩ (A ∪ B))/P (A ∪ B) dove P (A ∩ (A ∪ B)) = P (A ∪ (A ∩ B)) = P (A), 4. P (B)/P (A ∪ B). La legge delle probabilità composte a più alternative (formula di Bayes). La formula di Bayes svolge un ruolo molto interessante. Mette in relazione un evento E (che possiamo identificare come un effetto) con altri eventi (che possiamo considerare come le cause). Ci chiediamo quanto uno degli altri eventi intervenga nel determinare E (quindi quale causa partecipa maggiormente nel determinare un effetto). Teorema 6. Dati un evento E ed unSinsieme finito (o numerabile) di eventi incompatibili {Ar }, r = 1, 2, . . . , n, se E ⊂ nr=1 Ar e P (E) 6= 0, si ha P (Ar )P (E|Ar ) , P (Ar |E) = Pn i=1 P (Ai )P (E|Ai ) r = 1, 2, . . . , n. (2.27) Dimostrazione. Per la legge delle probabilità composte possiamo scrivere P (Ar |E) = P (E ∩ Ar ) P (E|Ar )P (Ar ) = . P (E) P (E) Inoltre, E ⊂ ∪r Ar e quindi ! E=E∩ [ Ar r = [ (E ∩ Ar ). r Ora dobbiamo notare che se gli Ar sono incompatibili, allora E ∩ Ar sono incompatibili. Per la legge delle probabilità totali, otteniamo P (E) = P (∪r (E ∩ Ar )) = n X r=1 La dimostrazione è conclusa. P (E ∩ Ar ) = n X r=1 P (E|Ar )P (Ar ). Capitolo 2. Misura e Probabilità 43 Svolgimento Esercizio 2 (continuazione). Diamo qui uno svolgimento diverso da quello già visto alla luce delle nuove considerazioni. Se estraggo con reimbussolamento le estrazioni sono indipendenti (le probabilità non cambiano in estrazioni successive). In particolare, P (R) = 5/10 = P (N ) 1. P (RN ∪ N R) = P ((R ∩ N ) ∪ (N ∩ R)) = P (R ∩ N ) + P (N ∩ R) − P (R ∩ N ∩ 5 5 5 N ∩ R) = P (R ∩ N ) + P (N ∩ R) = P (R)P (N ) + P (N )P (R) = 2 10 = 10 ; 10 2. P (RR) = P (R ∩ R) = P (R)P (R) = 52 ; 102 3. P (N N ) = P (N ∩ N ) = P (N )P (N ) = 4. P (R|N ) = P (R∩N ) P (N ) = 52 ; 102 5 . 10 Esercizio 29. Una compagnia di assicurazioni considera la popolazione composta da PI ="persone propense agli incidenti" e PIc ="persone non propense agli incidenti". Le statistiche della compagnia mostrano che tra le persone propense agli incidenti, il 40% ne ha entro il primo anno; tra le persone non propense agli incidenti, il 20% ne ha uno entro un anno. Inoltre, dalle statistiche si evince che il 30% della popolazione è propensa agli incidenti. Si vuole calcolare: 1. la probabilità che un nuovo assicurato abbia un incidente entro il primo anno dalla stipula della polizza, 2. la probabilità che una persona che ha avuto un incidente sia propensa agli incedenti. Svolgimento Esercizio 29. Sia A = "un nuovo assicurato abbia un incidente entro il primo anno dalla stipula della polizza" l’evento di interesse. Sappiamo che PI ∪ PIc = Ω e P (PI ) = 0.3 quindi si ottiene P (PIc ) = 0.7 per passaggio al complementare. 1. Consideriamo l’intersezione con l’evento certo Ω, P (A) =P (A ∩ [PI ∪ PIc ]) =P ([A ∩ PI ] ∪ [A ∩ PIc ]) =P ([A ∩ PI ]) + ([A ∩ PIc ]) =P (A|PI )P (PI ) + P (A|PIc )P (PIc ) 2 7 4 3 + = 10 10 10 10 26 = 100 dove si è usata la legge delle probabilità totali prima e delle probabilità composte dopo. 44 2. Si ha P (A ∩ PI ) P (A) P (A|PI )P (PI ) = P (A) 4 3 100 = 10 10 26 12 = . 26 P (PI |A) = Esercizio 30. In un laboratorio di analisi si effettua un esame per verificare la presenza/assenza di una particolare malattia. La malattia è difficile da diagnosticare e l’esame è efficace (positivo in presenza di malattia o negativo in assenza di malattia) al 95% ma porta a falsi positivi (esame positivo quando la malattia non è presente) nel 1% delle persone sane. Se le persone malate sono il 6% della popolazione, calcolare: la probabilità che una persona sia malata se risulta positiva all’esame; la probabilità che una persona risultata negativa sia malata. Svolgimento Esercizio 30. Indichiamo con M ="persona malata" e E ="persona con esame positivo" gli eventi di interesse. I casi possibili sono: Veri Positivi, Veri Negativi, Falsi Positivi, Falsi Negativi (eventi incompatibili) corrispondenti agli eventi (E ∩ M ) ∪ (E c ∩ M c ) ∪ (E ∩ M c ) ∪ (E c ∩ M ) = Ω infatti (E c ∩ M c ) ∪ (E ∩ M c ) = M c e (E ∩ M ) ∪ (E c ∩ M ) = M con P (M ∪ M c ) = 1 oppure (E ∩ M ) ∪ (E ∩ M c ) = E e (E c ∩ M ) ∪ (E c ∩ M c ) = E c con P (E) + P (E c ) = 1. Inoltre P (M c ) = 1 − P (M ) = 0.94. La probabilità di ottenere un vero positivo è P (E ∩ M ), cioè una persona verifica entrambi gli eventi E e M . Dai dati del problema P (E|M c ) = 0.01 e P (E ∩ M ) + P (E c ∩ M c ) = 0.95 Capitolo 2. Misura e Probabilità 45 si ricava P (E ∩ M c ) = 0.01 · P (M c ) = 0.0094 e 0.94 = P (M c ) = P (E ∩ M c ) + P (E c ∩ M c ) da cui P (E c ∩ M c ) = 0.94 − 0.0094 = 0.9306, P (E ∩ M ) = 0.95 − 0.9306 = 0.0194. Si vede subito che P (E|M ) = 0.0194 , 0.06 P (E|M c ) = 0.0094 0.94 e la probabilità cercata è P (M |E) = P (E|M )P (M ) P (E) dove P (E) = P (E|M )P (M ) + P (E|M c )P (M c ) = 0.0288. Otteniamo P (M |E) ≈ 67% e quindi con esame positivo nel 67% dei casi circa la persona è effettivamente malata. Rispondiamo al secondo problema osservando che P (M ∩E c ) = 0.0406 e P (E c ) = 0.9712 quindi P (M |E c ) = 0.0406 ≈ 0.042 0.9712 che sembra essere confortante per il paziente. 2.5 Il concetto di Probabilità e le diverse impostazioni Abbiamo introdotto gli assiomi della probabilità e ci siamo quindi preoccupati di introdurre una impostazione rigorosa. ”La Probabilità è una misura.” Dobbiamo ricordare che si possono dare diverse definizioni di probabilità spesso legate anche a diverse scuole e linee di pensiero. • Impostazione soggettiva. La probabilità di un evento è il prezzo che siamo disposti a pagare in una scommessa per ricevere 1 al verificarsi dell’evento. 46 • Impostazione Bayesiana. La probabilità di un evento dipende da una legge a posteriori ottenuta scegliendo (anche soggettivamente) una legge a priori. È forte quindi il condizionamento a ciò che conosciamo sul fenomeno che ci interessa. Si può definire in questo ambito uno schema che prevede aggiornamenti successivi della priori con la posteriori fino ad uno step definito ottimo in qualche senso. • Impostazione frequentista. Si associa la probabilità di un evento alla frequenza di tale evento, si considera cioè che un evento si possa verificare in relazione ai casi favorevoli a tale evento. Se i casi in questione sono equiprobabili, allora la probabilità si può ottenere dal rapporto tra casi favorevoli e casi possibili. • Impostazione classica. Semplicemente il rapporto tra casi favorevoli e casi possibili (se gli eventi sono equiprobabili). • Impostazione assiomatica. Si basa sugli assiomi di Kolmogorov. 2.6 Spazi di Probabilità uniformi Vediamo più in dettaglio quanto già introdotto nel Capitolo 1 riguardo a spazi uniformi11 e impostazione classica della Probabilità. Uno spazio di probabilità è detto uniforme se gli eventi possibili sono equiprobabili, cioè tutti di probabilità data e uguale a p. Si pensi al lancio di un dado o di una moneta non truccati. Come si vedrà, p = P (ω) = µ] (casi 1 , possibili) ω∈Ω dove Ω è lo spazio degli eventi (elementari) possibili e X P (A) = P (ωk ) =p · µ] (casi favorevoli all’evento A) k:ωk ∈A = µ] (casi favorevoli all’evento A) µ] (casi possibili) dove A è un elemento della σ−algebra generata da Ω. Il nostro lavoro in questa direzione è quindi solo quello di identificare il numero di casi possibili e favorevoli. A tale scopo abbiamo già introdotto - le combinazioni semplici, - le permutazioni semplici, 11 Ricordiamo che sono spazi finiti. Capitolo 2. Misura e Probabilità 47 che non ci garantiscono una trattazione completa dei casi di interesse (per questo corso!). PN Definizione 24. Dato un insieme U = ∪N j=1 Uj di cardinalità |U | = j=1 nj = n dove |Uj | = nj per j = 1, . . . , N e gli Uj sono costituiti da nj ripetizioni dello stesso elemento, tutti i sottoinsiemi di U i) di cardinalità n, ii) che differiscono per ordinamento (ordinati), iii) che non differiscono per numero di elementi uguali (con ripetizione) formano l’insieme Pnn1 ,...,nN delle permutazioni con ripetizione. Inoltre, |Pnn1 ,...,nN | = n! . n1 ! n2 ! · · · nN ! Definizione 25. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità k ≤ n, ii) che differiscono per ordinamento (ordinati), iii) in cui ogni elemento di U può essere preso una sola volta (senza ripetizione) formano l’insieme Dn,k delle disposizioni semplici di n elementi in classe di k. Inoltre, |Dn,k | = n · (n − 1) · · · (n − k + 1) = n! . (n − k)! Definizione 26. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità k ≤ n, ii) che differiscono per ordinamento (ordinati), iii) in cui ogni elemento di U può essere preso più volte (con ripetizione) 0 formano l’insieme Dn,k delle disposizioni con ripetizione di n elementi in classe di k. Inoltre, 0 |Dn,k | = nk . 48 Definizione 27. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità k ≤ n, ii) che non differiscono per ordinamento (non ordinati), iii) in cui ogni elemento di U può essere preso più volte (con ripetizione) 0 formano l’insieme Cn,k delle combinazioni con ripetizione di n elementi in classe di k. Inoltre, n+k−1 0 . |Cn,k | = k Sia U = {a, a, b}, allora 3 P2,1 ={aab, aba, baa}. Sia U = {a, b}, allora D2,2 = {ab, ba}, 0 D2,2 = {aa, ab, ba, bb}, 0 C2,2 = {aa, ab, bb} = {aa, ba, bb} Svolgimento Esercizio 3 (continuazione). Possiamo considerare le estrazioni in blocco e quindi otteniamo 5 1. P (RN ∪ N R) = 51 51 / 10 = 9; 2 2. P (RR) = 52 50 / 10 ; 2 3. P (N N ) = 50 52 / 10 ; 2 oppure consideriamo il fatto che non c’è reimbussolamento, le probabilità cambiano ad estrazioni successive. Infatti, P (RN ) = P (R alla prima estrazione)P (N alla seconda estrazione) = Si ottiene allora 5 5 1. P (RN ∪ N R) = 2 10 ; 9 5 5 . 10 9 Capitolo 2. Misura e Probabilità 2. P (RR) = 3. P (N N ) = 49 5 4 ; 10 9 5 4 . 10 9 Esercizio 31. Da un mazzo di 52 carte Mariello prende tutte le 13 carte di un solo seme scelto a caso e le passa a Mario. Mario distribuisce a Maria le prime n carte del mazzo. Calcolare le seguenti probabilità: a) tutte le carte di Maria sono minori o uguali ad n. b) tutte le carte di Maria sono maggiori di n. c) tutte le carte di Maria sono di cuori. Esercizio 32. Mario e Piero (in questo ordine) estraggono una pallina numerata a testa con reimbussolamento da una scatola contenete i numeri da 1 a 9. Guardano i numeri sulle due palline estratte, chi ha un numero pari vince 5 euro e se si sono estratte due palline con un numero pari non vince nessuno. Si ripete questa operazione due volte. Calcolare le probabilità dei seguenti eventi: 1. nessuno vince; 2. Piero vince 10 euro; 3. entrambi vincono 10 euro; 4. uno dei due vince 10 euro; 5. entrambi vincono 5 euro. 50 Capitolo 3 Variabili Aleatorie 3.1 Definizione di variabile aleatoria - Diamo una definizione formale e introduciamo le variabili aleatorie con un esempio. Sia B lo spazio dei reali B = Rn o degli interi B = Zn e Ω ⊆ A. Definizione 28. Sia X = X(ω) una funzione X : Ω 7→ B, diremo che X è una variabile aleatoria (v.a) definita sullo spazio di probabilità (Ω, A, P ) se X è misurabile, se cioè (X ≤ x) = {ω ∈ Ω : X(ω) ≤ x} ∈ A. Possiamo quindi parlare di una v.a. misurabile X(ω) : A 7→ Bn e risulta P (B) = P (X(ω) ∈ B ⊆ B n ) = P (X −1 (B) ∈ Ω0 ⊆ A) = P (Ω0 ) dove B n ⊆ P(Rn ) se X ∈ Rn o B n ⊆ P(Zn ) se X ∈ Zn . Dobbiamo specificare rispetto a quale misura si sta calcolando la probabilità P quando si considera un Boreliano B della σ-algebra B n di Rn (oppure un boreliano B della σ-algebra ”discreta” B n di Zn ) o un insieme Ω0 della σ-algebra A di Ω. Infatti, Z Z P (Ω0 ) = dP = P (dω), Ω0 ∈ A, (3.1) Ω0 Ω0 o equivalentemente Z P (B) = Z dFX = B fX (x)µ(dx), B ∈ Bn . (3.2) B Diremo che FX è associata a P . Si vede subito che FX : B 7→ [0, 1] mentre P : Ω 7→ [0, 1]. Il nostro scopo, in questo capitolo, è quello di caratterizzare la misura µ nel caso 51 52 in cui X assuma valori continui o discreti. Diciamo per ora che una v.a. X(ω) assume valori in Rn o Zn ma la sua aleatorietà dipende da ω (e quindi ci interessano tutti gli ω ∈ Ω0 tali che X(ω) ∈ B ⊂ B n , cioè Ω0 ∈ A). Ci troviamo a dover trattare due spazi, (Ω, A, P ) e (Rn , B n , µ). La v.a. X(ω) rappresenta il collegamento tra di loro. Se (il Boreliano B) l’insieme B fosse rappresentato dalle persone alte 1.70 metri (B = {1.70}) ed X fosse la v.a. altezza delle persone di Ω diciamo che la probabilità che una persona sia alta 1.70 è data da P (X = 1.70) = P (X(ω) = 1.70) = P (ω ∈ Ω0 ) = P (Ω0 ) e quindi dalla µ] (Ω0 )/µ] (Ω) = nX=1.70 /npersone di Ω . In questo caso Ω0 è l’insieme delle persone ω ∈ Ω tali che la v.a. X assuma valori pari a 1.70 metri, Ω0 = {ω ∈ Ω | X(ω) = 1.70} e µ] (Ω0 ) restituisce il numero di tali persone. Si osservi che Ω0 = {ω ∈ Ω | X(ω) < 1.70} ⇔ B = (0, 1.70) Ω0 = {ω ∈ Ω | X(ω) > 1.20} ⇔ B = (1.20, +∞) Ω0 = {ω ∈ Ω | 1.20 < X(ω) ≤ 180]} ⇔ B = (1.20, 1.80]. Diremo quindi che X(ω) =” altezza di ω” se X =”altezza” e ad ω può essere associata una misura di probabilità P (ω). Osservazione 14. Notiamo che P (X ∈ B) = P (ω : X(ω) ∈ B) = P (Ω0 ) Ω0 ⊂ Ω nello spazio (Ω, A, P ) e quindi P (X ∈ B) = FX (B : X −1 (B) ∈ Ω0 ) B ∈ Bn nello spazio (Rn , B n , FX ). Rimane da definire µ introdotta in (3.2). Oggetto chiave del corso sarà la funzione di ripartizione della v.a. X a valori in Rn FX (x) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) dove X = (X1 , X2 , . . . , Xn ) è un vettore aleatorio e x = (x1 , x2 , . . . , xn ) ∈ Rn . Diamo la seguente definizione generale. Capitolo 3. Variabili Aleatorie 53 Definizione 29. Una variabile aleatoria (v.a.) reale X è una funzione dallo spazio di probabilità (Ω, A, P ) allo spazio misurabile (Rn , B n , FX ), con la classe B n misurabile, nel senso che le immagini inverse degli insiemi di B n di B appartengono ad A di Ω. Notiamo che N ⊂ Z ⊂ R. Nella definizione precedente si sono introdotte le variabili reali, come vedremo più avanti noi saremo interessati a caratterizzare le variabili continue e discrete. Useremo anche la notazione (ΩX , AX , PX ) per indicare che lo spazio di probabilità (Ω, A, P ) si riferisce alla v.a. X. Vediamo il caso in cui X ha valori in R ed FX (x) = P (X ≤ x) con x ∈ R ovvero X è reale 1-dimensionale. Proprietà della funzione di ripartizione. Risulta utile ricordare le proprietà fondamentali della funzione FX : R 7→ [0, 1], 1. P (X ∈ (−∞, x]) = P (X ≤ x) = FX (x), x ∈ R; 2. P (X ∈ (x1 , x2 ]) = P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ), x1 < x2 ; 3. P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) = FX (x1 ) + P (x1 < X ≤ x2 ); 4. limx→+∞ FX (x) = 1 e limx→−∞ FX (x) = 0; 5. limx→x+0 FX (x) = FX (x0 ) (continuità a destra) cioè xn ↓ x ⇒ FX (xn ) ↓ P (X ≤ x) = FX (x) e xn ↑ x ⇒ FX (xn ) ↑ P (X < x) = FX (x−). Se xn → ∞ (o xn ↑ ∞) allora FX (xn ) → P (X < ∞) = 1. Notiamo che P (X = x) = FX (x) − FX (x−) (3.3) è uguale a zero per tutti i punti x di continuità1 per FX . Nel caso di una v.a. multidimensionale si ottiene lim F(X1 ,X2 ) (x1 , x2 ) = FX2 (x2 ), x1 →+∞ 1 lim F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 ), (3.4) x2 →+∞ Se la v.a. è continua si ha FX (x−) = FX (x) mentre nel caso di v.a. discrete, i salti della f.r. determinano P (X = x) > 0. 1.0 54 ● 0.8 ● 0.6 ● 0.4 ● 0.2 ● 0.0 ● 0 1 2 3 4 5 6 7 Figura 3.1: Funzione di ripartizione FX (x) = P (X ≤ x) dove X ="faccia nel lancio di un dado". La funzione è continua a destra. lim F(X1 ,X2 ) (x1 , x2 ) = 0 = lim F(X1 ,X2 ) (x1 , x2 ), x1 →−∞ x2 →−∞ lim x1 ,x2 →∞ F(X1 ,X2 ) (x1 , x2 ) = 1. (3.5) (3.6) La probabilità è una misura positiva di massa finita (P (Ω) = 1). La funzione di ripartizione è quindi una probabilità (misura di probabilità) e diciamo che Z dP = f · dµ e P = dP (3.7) dove f è la densità di P rispetto alla misura µ. Per ora vogliamo solo sottolineare (in maniera ingenua) che: • f è una densità continua e µ è la misura di Lebesgue, quindi Z Z Z P (B) = f dµ = fX (x)dx = fX (x)1B (x)dx = P (X ∈ B). B B Capitolo 3. Variabili Aleatorie 55 Notiamo che B ∈ P(R) (o B ∈ P(Rn )) e se B = {x} è un punto, P (B) = 0. • f è una densità discreta e µ è una misura di Dirac, quindi Z X X f dµδ = pk 1(x=xk ) = P (B) = pk 1B (xk ) = P (X ∈ B) B x∈B k e pk = P (X = xk ) è a sua volta una probabilità per ogni k, diremo che la successione {pk }k è una distribuzione di probabilità. Notiamo che B ∈ P(Z) (o B ∈ P(Zn )) se B = {x} è un punto, P (B) = pk se x = xk per un k da definire. Dobbiamo quindi distinguere tra v.a. continue e discrete. In entrambi i casi vale il seguente risultato di continuità. Teorema 7. (Continuità di P ) Sia P una misura di probabilità. Sia {Ak }k∈N ∈ A una successione monotona di eventi, allora lim P (Ak ) = P lim Ak . (3.8) k→∞ k→∞ Inoltre, lim P (Ak ) = P k→∞ lim P (Ak ) = P k→∞ ∞ [ ! Ak , (se la successione è crescente) k=1 ∞ \ ! Ak , (se la successione è decrescente). k=1 Variabili aleatorie continue Diamo innanzitutto le seguenti definizioni. Definizione 30. Una v.a. si dice continua se assume valori continui2 . Definizione 31. Se X è una v.a. continua, definiamo supp(X) il supporto della v.a. X, cioè l’insieme dei valori che può assumere X. 2 Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato supporto o spettro continuo, ha la potenza del continuo. 56 Introduciamo le funzioni continue e vediamo come si legano alle v.a. continue. Definizione 32. Sia f : D 7→ R. Se per ogni successione xn a valori in D per cui lim xn = x n→∞ si ha lim f (xn ) = f (x) (3.9) n→∞ diciamo che f è continua in x. Se la (3.9) vale per ogni x ∈ D, scriviamo f ∈ C, dove C = C(D) è l’insieme delle funzioni continue con supporto in D ⊆ R. Osservazione 15. Se una funzione è continua in un punto, allora è continua da destra e da sinistra in quel punto. Teorema 8. (Teorema fondamentale del calcolo integrale) Sia f una funzione continua nell’intervallo [a, b]. La funzione integrale Z x f (u)du (3.10) F (x) = a è derivabile e vale F 0 (x) = f (x) ∀ x ∈ [a, b]. (3.11) Dimostrazione. Consideriamo la proprietà di additività dell’integrale Z x+h Z x Z x+h f (u)du f (u)du = f (u)du − F (x + h) − F (x) = x a a ed il rapporto incrementale F (x + h) − F (x) 1 = h h Z x+h f (u)du. x Dobbiamo calcolare il limite per h → 0. Notiamo che esiste un ponto xh ∈ [x, x + h] tale che (teorema della media) F (x + h) − F (x) = f (xh ) h e xh → x0 ∈ {x}, cioè xh → x per h → 0. Se f ∈ C, allora f (xh ) → f (x) ed ovviamente si ha che F (x + h) − F (x) → F 0 (x). h Quindi se f è continua si ottiene il risultato atteso e la dimostrazione è conclusa. Capitolo 3. Variabili Aleatorie 57 Una funzione derivabile in un punto è continua in quel punto. Non è sempre vero il contrario, si pensi alla funzione modulo f (x) = |x|. Teorema 9. (Formula fondamentale del calcolo integrale) Sia f una funzione che ammette una primitiva F , cioè F 0 (x) = f (x) per ogni x ∈ [a, b]. Se f è integrabile, si ha Z b f (x)dx = F (b) − F (a). (3.12) a La funzione integrale (3.10) vale per f ∈ C nota dalla quale ricaviamo F . In questo caso, in cui f è integrabile (e non nota mentre lo è la F ) possiamo scegliere f = F 0 se l’uguaglianza vale quasi ovunque. Possiamo quindi calcolare la probabilità Z P (X ∈ B) = fX (x)dx B per un Boreliano B se fX è integrabile3 . Si pensi ad esempio alla funzione indicatrice f (x) = 1E (x) o alla funzione di Heaviside H(x) = 1[0,∞) (x) continue nel loro supporto o alle loro combinazioni lineari. Consideriamo quindi FX ∈ AC dove AC è l’insieme delle funzioni assolutamente continue ed è costituito dalle funzioni per cui vale la formula fondamentale del calcolo integrale. Quindi, se F ∈ AC, allora F ∈ C e F 0 = f è integrabile. Notiamo però che se f ∈ C, vale il Teorema fondamentale. Quindi, possiamo definire una f.r. se fX è integrabile ma occorre che sia continua affinché FX sia differenziabile in tutti i punti in cui f è continua4 . Diremo quindi che X è una v.a. continua (o assolutamente continua) se FX è continua (o assolutamente continua). Scriveremo inoltre ”c.” o "a.c." invece di "continua" o ”assolutamente continua” se dal contesto sarà chiaro il riferimento alle v.a.. Proposizione 7. Sia X una v.a. c. o a.c. con FX (x) = P (X ≤ x). Allora, d in tutti i punti in cui è continua, se X è c., FX (x) fX (x) = in tutti i punti in cui esiste, se X è a.c.. dx (3.13) La v.a. X è c. oppure a.c. nel suo supporto. Se f = fX è continua (f ∈ C([a, b])), abbiamo quindi detto che y = FX risolve y 0 = f (dove y ∈ C 1 ([a, b])). Bisogna sottolineare che le soluzioni fornite dal Teorema fondamentale del calcolo integrale sono relative alla teoria dell’integrazione secondo Riemann e quindi al caso in cui Ricordiamo che una funzione f è integrabile in B se f ∈ L1 (B), ciòè se |f | è integrabile. Dobbiamo notare R che fX > 0 è una condizione necessaria affinché fX sia una legge di densità. Quindi deve essere B fX (x)dx < ∞. 4 Per una discussione dettagliata sulle funzioni assolutamente continue si veda [10, pag. 311]. 3 58 f ∈ C. Noi ci occupiamo anche di funzioni f ∈ L1 per cui y 0 = f quasi ovunque (rispetto alla misura µ che per noi sarà la misura di Lebesgue). Si parla in questo caso di teoria dell’integrazione secondo Lebesgue5 . Una v.a. con valori continui possiede quindi una f.r. che è una funzione integrale, si può rappresentare come integrale di una funzione fX detta (funzione di) densità Z Z P (X ∈ B) = FX (B) = dFX = fX (x)dx B B (dove B è un Boreliano). Affinché una funzione fX sia una densità, sono condizioni necessarie e sufficienti: 1. fX (x) > 0, R∞ 2. −∞ fX (x)dx = 1. Se X è assolutamente continua, a volte diremo semplicemente che X è continua nel senso della Definizione 30. Inoltre, se X è una v.a. c. o a.c. scriveremo X ∼ fX (3.14) e per ogni Boreliano B ∈ P(R), Z P (X ∈ B) = fX (x)1B (x)dx. supp(X) Se supp(X) ⊆ Rd , cioè se X è un vettore aleatorio di dimensione d ≥ 1, allora per ogni Boreliano B ∈ P(Rd ), Z P (X ∈ B) = fX (x)1B (x)dx. Rd Infatti, la funzione fX è nulla fuori supp(X). 2 Esercizio 33. Trovare il valore κ tale che f (x) = κe−x , x ∈ R sia una densità. Esercizio 34. Verificare se f (x) = e−3x , x ≥ 0 è una densità. Esercizio 35. Trovare il valore κ tale che f (x) = κ1(−1,1) (x), x ∈ R sia una densità. Esercizio 36. Dire se le densità considerate negli esercizi precedenti sono continue o assolutamente continue. 5 Il lettore interessato può consultare [10, Capitolo 6], per essere precisi, l’integrale (3.2) o per una f integrabile rispetto a FX , va inteso nel senso di Lebesgue-Stieltjes. R f dFX Capitolo 3. Variabili Aleatorie 59 Il concetto di funzione di distribuzione può essere esteso al caso delle v.a. multidimensionali (o vettori di v.a.). Nel caso di un vettore 2-dimensionale scriveremo Z Z P (X1 ∈ B1 , X2 ∈ B2 ) = F(X1 ,X2 ) (x1 , x2 ) = fX1 ,X2 (x1 , x2 )dx1 dx2 B1 B2 In generale, X è un vettore di variabili aleatorie di dimensione n se X = (X1 , X2 , . . . , Xn ) dove le Xj , j = 1, 2, . . . , n possono essere dipendenti o indipendenti. Dalle formule in (3.4) si ottengono le marginali. Diciamo che, data la f.r. ϕ(x1 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−1 ≤ xn−1 , Xn ≤ xn ) si ottiene lim xn →∞ xn−1 →∞ ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xn−2 ) dove ϕ(x1 , . . . , xn−2 ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−2 ≤ xn−2 ) è la marginale di ordine n − 2. In generale, è anche vero che lim ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xj−1 , xj+1 , . . . , xn ). xj →∞ Si possono definire marginali di ogni ordine k ≤ n partendo da una funzione di ripartizione di ordine n. Infatti anche per k = n si può pensare di avere una marginale rispetto a qualche funzione di ripartizione di ordine m > n. Le densità marginali si ottengono derivando le corrispondenti funzioni di ripartizione che equivale e scrivere, ad esempio nel caso unidimensionale Z fX1 (x1 ) = fX1 ,X2 (x1 , x2 )dx2 supp(X2 ) oppure, se φ(x) = ∂ nϕ (x) = fX1 ,...,Xn (x1 , . . . , xn ), ∂x1 · · · ∂xn allora Z fX1 ,X2 ,...,Xj−1 ,Xj+1 ,...,Xn (x1 , x2 , . . . , xj , xj+1 , . . . , xn ) = φ(x)dxj . supp(Xj ) 60 Vale la pena di notare che P (X1 ≤ x1 , X2 ≤ ∞) = P (X1 ≤ x1 ) dato che l’evento ΩX2 = (X2 ≤ ∞) è un evento certo per X2 . Cioè P (X2 ≤ ∞) = 1 o A ∩ ΩX2 = A per ogni insieme A ∈ AX2 . Preso il Boreliano B = (−∞, x], si ricava che Z x Z x FX ((−∞, x]) = FX (x) = dFX = fX (u)du. −∞ −∞ Inoltre il concetto di densità può essere espresso in termini di probabilità dalla seguente relazione Z x+Mx fX (x)4x ' fX (u)du = P (x < X ≤ x+ M x) = FX (x + 4x) − FX (x) x con P (x < X ≤ x+ M x) = FX0 (x). 4x→0 4x lim Osservazione 16. Osserviamo che per una v.a. assolutamente continua si ha P (X = x) = 0 per ogni punto x ∈ supp(X) (ed ovviamente per tutti gli x ∈ / supp(X), per + definizione). Basta considerare 4x → 0 e la continuità di FX . Diamo la seguente definizione. Definizione 33. Sia f ∈ C. • Se g ∈ L1 e |f (x)| ≤ g(x) per ogni x, diciamo che f è dominata da g. • Se per M > 0, si ha |f (x)| ≤ M per ogni x, diciamo che f ∈ Cb dove Cb indica l’insieme delle funzioni continue e limitate (o uniformemente limitate). Abbiamo preferito mantenere il simbolo Cb che sta per continuous and bounded. Possiamo dire che una funzione è limitata se la sua immagine è un insieme limitato. Introduciamo ora la condizione di Lipschitz, per una funzione f , |f (x) − f (y)| ≤ M |x − y| dove M è detta costante di Lipschitz. Una funzione Lipschitziana è una funzione di una variabile reale che ha una crescita limitata, nel senso che il grafico della funzione f è contenuto nella regione delimitata dalle rette di coefficiente angolare +M e −M passanti per un punto opportunamente scelto del grafico della f . La Lipshitzianetà6 è 6 Una funzione è detta di Lipschitz se esiste una costante M tale che, per ogni x, y, vale la condizione di Lipschitz. Capitolo 3. Variabili Aleatorie 61 una condizione più forte della continuità7 o della uniforme continuità8 . Indichiamo con Lip l’insieme delle funzioni Lipschitziane. Una funzione derivabile e Lipschitziana ha derivata limitata. Infatti, se f è derivabile nel punto x, allora lim y→x f (x) − f (y) = f 0 (x). x−y Quindi, se f ∈ Lip, |f (x) − f (y)| ≤M y→x |x − y| |f 0 (x)| = lim e quindi la derivata è limitata. In particolare, le seguenti affermazioni sono dunque equivalenti: i) f è derivabile e |f 0 | ≤ M , allora f ∈ Lip, ii) f ∈ C 1 , allora f è localmente Lipischitziana. Osserviamo che la ii) significa che f è uniformemente continua in un intervallo, basta considerare δ = /M . 2 Osservazione 17. Sono esempi di funzioni continue in R le funzioni √ f (x) = x e g(x) = sin x. Si noti che f ∈ / Lip mentre g ∈ Lip. Inoltre, f (x) = x è continua in [0, ∞) ma f ∈ / Lip. Osserviamo infine che non vale la doppia implicazione. Infatti, f (x) = |x| è Lipshitziana ma f ∈ / C 1 in R, essendo continua ovunque ma derivabile per x 6= 0. Ricordiamo un risultato utile nei conti. Proposizione 8. Siano ϕ e ψ derivabili, f integrabile. Allora, la funzione integrale Z ϕ(x) F (x) = f (u)du (3.15) ψ(x) ha derivata F 0 (x) = ϕ0 (x) f (ϕ(x)) − ψ 0 (x) f (ψ(x)). 7 (3.16) Una funzione è detta continua in x se ∀ > 0 ∃ δ = δ(y, ) > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < . Questa definizione è ovviamente analoga a quella già data, viene riportata solo per evidenziare il collegamento con le funzioni Lipschitziane. 8 Una funzione f è uniformemente continua se δ dipende solo da , cioè se per ogni x, y si ha ∀ > 0 ∃ δ = δ() > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < . 62 Una funzione (di una variabile) continua può non essere derivabile mentre una funzione derivabile è continua. Per funzioni di più variabili bisogna introdurre la nozione di funzione differenziabile. Se f è differenziabile, allora ha derivata in ogni direzione. Inoltre, ogni funzione differenziabile in x è continua in x. Teorema 10. Se f ha derivate parziali in un intorno di x e sono continue in x, allora f è differenziabile in x. Segue dalla Definizione 31 che P (X ∈ A) > 0 per ogni insieme A ⊂ supp(X). Si vede subito che per ogni densità fX (e quindi per ogni v.a. X) si ha che supp(X) = supp(fX ) e quindi fX (x) = 0 per ogni x ∈ / supp(X). Infatti, sia X una v.a. ddimensionale e A = R \ supp(X), allora possiamo scrivere, Z Z fX (x)dx = P (X ∈ Ω) = 1 fX (x)dx = Rd supp(X) e Z fX (x)dx = P (X ∈ A) = 0. Rd \supp(X) Esercizio 37. Dire se ( F (x) = x2 sin 0, 1 , x 6= 0 x2 x=0 è differenziabile e verificare che F 0 = f ∈ / L1 (f non è integrabile). Esercizio 38. Si è introdotta la funzione di Heaviside H(x) = 1[0,∞) (x) con x ∈ R. Dire se H è continua a destra o a sinistra. Dire se H è continua in A = (1, 3), B = [1, 3), C = (−1, 0), Ac , B c , C c \ [0, ∞). Esercizio 39. Sia X ∼ fX con fX (x) = κ1E (x) con E = (0, l), κ, l > 0. Dire se X è c. oppure a.c. in R. Quanto vale κ? Chi è X? Esercizio 40. Dire se esiste X ∼ fX con FX (x) = H(x). [Si consideri che FX (x) = P (X ≤ x).]9 9 Si veda la Definizione 43. Capitolo 3. Variabili Aleatorie 63 Variabili aleatorie discrete Un esempio di v.a. discreta può essere la variabile che restituisce i numeri da 1 a 6 nel lancio di un dado oppure una variabile che può assumere solo i valori 1 e −1. Definizione 34. Una v.a. si dice discreta se assume valori discreti10 . Definizione 35. Se X è una v.a. discreta, definiamo spet(X) lo spettro della v.a. X, cioè l’insieme dei valori che può assumere X. Una v.a. si dice discreta se lo spettro è un insieme numerabile11 . La funzione di ripartizione è scritta a partire dalla seguente probabilità (come vedremo questa non è la scrittura definitiva) X P (X ≤ x) = pk , x ∈ spet(X) k:xk ≤x dove pk = P (X = xk ), xk ∈ spet(X) 0, altrimenti (3.17) e la successione xk , k = 1, 2, . . . rappresenta tutti i valori che X può assumere. La successione è dunque numerabile (cioè può essere messa in corrispondenza biunivoca con l’insieme dei numeri naturali) e può essere scritta come {xk }k∈IX dove IX ⊆ N è un insieme di indici per la v.a. X. In generale, diremo che una v.a. discreta X può essere caratterizzata dalla coppia (xk , pk ) per tutti i k ∈ IX e scriveremo X ∼ (xk , pk ), k ∈ IX . (3.18) Quindi la funzione di ripartizione si potrebbe riscrivere considerando X P (X ≤ x) = pk , x ∈ spet(X). k∈IX :xk ≤x Consideriamo la funzione semplice (2.5) e la misura di Dirac associate alla v.a discreta X. Diremo che: • la funzione semplice fX è associata alla v.a. discreta X se X fX (x) = pk 1{xk } (x), k∈Z 10 Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato spettro o spettro discreto, è un insieme finito o infinito numerabile. 11 Se ad esempio spet(X) = {−π, +π}, allora diciamo che X è una variabile discreta anche se ±π non sono interi. 64 • la misura di Dirac µδ è associata alla v.a. discreta X se µδ = µδ (x, E) con E = spet(X). Allora, Z P (X ∈ B) = f dµδ = B X pk µδ (xk , B). (3.19) k∈IX La successione pk , k ∈ IX (e quindi la funzione f ) è detta densità discreta di X e per ogni B ∈ P(Z), X P (X ∈ B) = pk 1B (xk ) k∈IX dove 1B (xk ) = 0 per ogni k se e solo se B ∩ spet(X) = ∅. Condizioni necessarie e sufficienti affinché pk sia una densità discreta sono: 1. pk ≥ 0, P 2. k∈IX pk = 1. Osserviamo che la somma ad uno implica che pk ≤ 1 e quindi pk ∈ [0, 1] sono probabilità. Si noti anche che la definizione (3.17) è stata data per chiarezza ma risulta ridondante. Infatti P (X = xk ) = 0 se xk ∈ / spet(X), si pensi al lancio di un dado, P (esce la faccia con il numero 21) = 0. La seconda condizione (necessaria e sufficiente) dice in sostanza chi è l’evento certo per una v.a. X, cioè [ (X = xk ) = Ω k∈IX dove gli eventi (X = xk ) sono mutualmente esclusivi (la v.a. si realizza una sola volta, gli eventi sono incompatibili) e quindi ! [ X P (X = xk ) = P (X = xk ). k∈IX k∈IX Osservazione 18. Notiamo che si sta usando un insieme diverso dal supporto di una v.a., lo spettro. Si vuole infatti sottolineare che nel caso delle v.a. discrete si ha a che fare con un insieme, lo spettro, per cui si ha P (X = x) 6= 0 per ogni x ∈ spet(X). Capitolo 3. Variabili Aleatorie 65 Osservazione 19. Se pk = 1/|Ω| è costante, la (3.19) diventa P (X ∈ B) = 1 X δ µ] (B) 1 ] µ (B) = ] . µ (xk , B) = |Ω| k∈I |Ω| µ (Ω) X Ritroviamo cioè uno spazio di probabilità uniforme e la probabilità di un evento si calcola usando il metodo classico (si veda la Sezione 2.6). Esercizio 41. Sia {pk }k∈I una densità discreta (I è un insieme di indici e potrà essere I = IX per qualche X). Studiare la convergenza di fn (x) = n X pk 1{xk } (x), x ∈ D, n ∈ N. k=−n Abbiamo accennato al fatto che useremo una scrittura definitiva per la f.r. che completa quella appena data (si veda il Capitolo 7). Come vedremo sotto, se x ∈ / supp(X) (o x ∈ / spet(X)) la f.r. FX (x) può assumere solo il valore 0 oppure 1. Introduciamo le seguente notazione per indicare la probabilità relativa ad un vettore di v.a. discrete, pr,s = P (X1 = xr , X2 = xs ), r ∈ IX1 , s ∈ IX2 (3.20) oppure pr1 ,r2 = P (X1 = xr1 , X2 = xr2 ), r1 ∈ IX1 , r2 ∈ IX2 Segue immediatamente la notazione relativa a vettori di dimensione d > 2. Esercizio 42. Sia ck = γP (X = k), k ≥ 1 una successione con X ∼ P ois(λ), λ > 0 e γ > 0. Dire se (yk = k, ck ), k ∈ IY = {1, 2, 3, . . .} caratterizza una v.a. Y . Osservazione 20. Spesso il supporto di una v.a. (continua) viene chiamato spettro continuo mentre lo spettro di una v.a. (discreta) viene chiamato spettro discreto. Noi chiameremo supporto e spettro gli insieme in questione per sottolineare i collegamenti con la densità f della misura P ed il fatto che il supp(f ) è costituito dai punti x per cui f (x) 6= 0. In particolare il supporto di una funzione f è dato dalla chiusura di {x ∈ A : f (x) 6= 0}. Esempio 14. (Modello deterministico v.s. Modello aleatorio) Un modello matematico deve descrivere un fenomeno reale a partire dalla conoscenza di alcune informazioni, le informazioni sono i dati del modello e rappresentano valori (o variabili) in input. Il valore in output deve descrivere il fenomeno sulle base delle variabili considerate. Consideriamo un modello semplice che descrive il fenomeno y, tale fenomeno dipende 66 dalle variabili x1 , x2 , . . . , xn , allora se la relazione di dipendenza è espressa dalla funzione g, scriveremo y = g(x1 , x2 , . . . , xn ) per indicare un modello deterministico: le variabili sono fisse. Pensiamo ad un fenomeno fisico, se conosco tutte le variabili che entrano in gioco, posso determinare esattamente il valore della risposta y. Se non conosco tutte le variabili, il modello non potrà restituire una risposta esatta (o fedele alle leggi fisiche del fenomeno) e si introduce inevitabilmente una condizione di incertezza. Il modello matematico diventerebbe allora Y = g(x1 , x2 , . . . , xn , X) dove X è una variabile aleatoria che deve giustificare la mia ignoranza sul fenomeno o l’impossibilità di reperire tutte le informazioni necessarie. La risposta diventa a sua volta una variabile aleatoria e la sua legge di densità è legata alla densità di X per il tramite della funzione g. Il modello così formulato si chiamo modello aleatorio : le variabili non sono fisse ma sono legate ad una legge di probabilità, esiste ad esempio, un valore modale. 3.2 Media e Momenti Si consideri una v.a. continua X con legge di densità fX ed una v.a. discreta Y caratterizzata dalla successione (yk , pk ), k ∈ IY . Definiamo le seguenti medie Z X x fX (x)dx, EY = yk pk EX = supp(X) k∈IY ed in generale i momenti di ordine r > 0 Z r EX = xr fX (x)dx, supp(X) EY r = X (yk )r pk . k∈IY Osserviamo che per v.a. continue o discrete, data una funzione continua g ∈ C(R), possiamo scrivere Z Eg(X) = g(x)f (x)µ(dx) R dove µ(dx) = dx (misura di Lebesgue e f è la densità continua con supporto supp(X)) o µ(dx) = µδ (dx, spet(X)) (misura di Dirac e f è la densità discreta di X). Nelle Capitolo 3. Variabili Aleatorie 67 formule sopra si è considerata la funzione continua g(x) = xr con r > 0. Per r = 0 si ottiene banalmente E1 = 1. Le medie campionarie introdotte a pagina 3 sono dunque collegate alle medie appena introdotte. In particolare, la media aritmetica è un caso particolare di media ponderata ed entrambe si possono vedere come il valore medio di una variabile aleatoria. Dobbiamo osservare che le medie campionarie di pagina 3 sono medie aritmetiche mentre le medie di cui si parla in questa sezione sono dette teoriche, sono cioè calcolate relativamente alla densità f (che sia continua o discreta). Inoltre, siamo in grado di passare a nuove v.a. per il tramite di una funzione g ben definita. Proposizione 9. Sia g ∈ Cb e non negativa, allora Z X g(x) fX (x)dx, Eg(Y ) = Eg(X) = g(yk ) pk . supp(X) (3.21) k∈IY Si noti che se 0 ≤ g ≤ M , allora 0 ≤ Eg(X) ≤ M (verificare! Si consideri la dis. di Hölder.). Inoltre, se g ∈ Cb allora g ∗ = −g ∈ Cb . La funzione g(x) = xr con r > 0 è continua ma non limitata: non avrà senso per noi considerare EX r = ∞, infatti g ∈ Cb (R) ⇒ |Eg(X)| ≤ M < ∞ |Eg(X)| < ∞ 6⇒ g ∈ Cb (R). Siano adesso X ed Y due v.a. (continue o discrete). Sono quantità di interesse: la varianza V ar(X) = E(X − µ)2 = M2 − (M1 )2 , (3.22) la covarianza Cov(X, Y ) = E[(X − µX )(Y − µY )] = EXY − EXEY (3.23) Mr = EX r . (3.24) ed i momenti Spesso scriveremo µ = M1 per indicare che la media M1 = EX è il numero µ (non deve creare confusione il fatto che si stia usando lo stesso simbolo µ utilizzato per indicare una misura, infatti dal contesto sarà sempre chiaro a quale oggetto ci stiamo 2 riferendo). Scriveremo anche σX = V ar(X) per indicare la varianza di X o semplice2 mente σ se non ci sarà ambiguità. Allo stesso modo scriveremo Mr invece di Mr (X) 2 o Mr (Y ). Notiamo inoltre che σX = Cov(X, X). Diamo alcune proprietà della media: 68 i) E1A (X) = P (X ∈ A) ii) per aj ∈ R ed Xj v.a. qualunque, j = 1, 2, . . . , n, " n # n X X E aj X j = aj EXj (linearità della media) j=1 j=1 iii) se X ≥ 0, si ha Z EX = ∞ P (X > x)dx X e EX = 0 P (X > xk ) k∈IX iv) se X ≥ 0 e p > 0, si ha Z ∞ p EX = pxp−1 P (X > x)dx e EX = 0 X p(xk )p−1 P (X > xk ) k∈IX v) se X ≥ 0 e EX = 0, allora P (X = 0) = 1 vi) se X ⊥ Y , allora EXY = EX EY vii) se p e q sono esponenti coniugati, allora 1 1 E|XY | ≤ (E|X|p ) p (E|Y |q ) q Proviamo che vale la relazione (3.22) scritta sopra tra varianza e momenti. Otteniamo 2 σX =E(X − µ)2 (per definizione) =E(X 2 − 2µX + µ2 ) (sviluppando il quadrato) =M2 − 2µM1 + µ2 (per la linearità della media) =M2 − (M1 )2 (per la definizione di momento) Per la varianza vale inoltre la relazione V ar(aX) = a2 V ar(X) (3.25) per ogni a ∈ R. La dimostrazione è lasciata al lettore (si consideri E[aX − E(aX)]2 ). Osserviamo inoltre che (indipendenza lineare) X ⊥ Y ⇒ Cov(X, Y ) = 0. Non è vero il contrario (perché?). (3.26) Capitolo 3. Variabili Aleatorie 69 Dimostrazione del punto i). Se X ∼ fX , Z Z E1A (X) = 1A (x)fX (x)dx = fX (x)dx = P (X ∈ A). A Se invece X ∼ (xk , pk ), k ∈ IX , Z X E1A (X) = 1A (x)f (x)µδ (dx) = 1A (xk ) pk = P (X ∈ A). k∈IX Esercizio 43. Si dimostri il punto ii). Esercizio 44. Si dimostri il punto iii) per v.a. continue e discrete. Dimostrazione alternativa del punto iii). Integriamo per parti ed otteniamo ∞ Z ∞ Z ∞ d x [1 − FX (x)]dx P (X > x)dx =xP (X > x) − dx 0 0 ∞ 0Z ∞ =x(1 − FX (x)) + xfX (x)dx 0 0 Z ∞ = xfX (x)dx 0 dove si è usata la regola di de l’Hopital ed il fatto che FX (0) = 0, FX (+∞) = 1, fX (±∞) = 0 (integrabilità della fX ). Esercizio 45. Si dimostri il punto iv). Dimostrazione del punto v). Dal punto precedente si vede che Z ∞ EX = P (X > x)dx = 0 implica P (X > x) = 0 per ogni x. (3.27) 0 Quindi deve essere 1 = 1 − P (X > x) = P (X ≤ x) per ogni x e quindi (essendo FX (x) non decrescente) tutta la probabilità è concentrata solo nel punto x = 0 (essendo X ≥ 0, una v.a. non negativa). Dimostrazione del punto vi). Segue dal fatto che f(X,Y ) (x, y) = fX (x) fY (y) per le v.a. continue e analogamente pr,s = pr ps per le v.a. discrete. 70 Dimostrazione del punto vii). Consideriamo prima il caso in cui le variabili siano continue. Osserviamo che Z Z Z E|XY | = |xy|f(X,Y ) (x, y) dxdy = |xy|dµ = kxyk1 supp(X) supp(Y ) che equivale a kf gk1 in L2 (µ) per le funzioni f (x, y) = x e g(x, y) = y. Inoltre, Z Z Z p p |x| f(X,Y ) (x, y) dxdy = |x|p dµ = (kf kp )p E|X| = supp(X) supp(Y ) e E|Y |q = (kgkq )q . Si sta quindi considerando una misura µ con densità continua f(X,Y ) e dalla disuguaglianza di Hölder, si ottiene l’enunciato. Se le variabili sono discrete, la disuguaglianza di Hölder continua a valere in lp rispetto alla misura f(X,Y ) · µδ (dx, spet(X, Y )) associata alla v.a. discreta (X, Y ). Esempio 15. (Il modello lineare) Consideriamo la funzione y = ax dove a ∈ R, il grafico è una retta passante per l’origine degli assi. La funzione y descrive un fenomeno lineare deterministico, si ha cioè una perfetta relazione (lineare) tra le variazioni di x e y. Nella realtà è assai difficile però trovare un fenomeno così regolare e quindi il modello lineare deterministico non è molto adatto a descrivere alcun fenomeno. Consideriamo una v.a. E che rappresenti l’errore che si commette passando dal modello deterministico y = ax ad uno più adatto Z = y + E e sia EE = 0. Si vede subito che EZ = ax ed ax diventa un trend lineare, cioè il fenomeno oggetto di studio non deve essere lineare ma deve avere un andamento medio lineare (che è una richiesta meno artificiale). Esempio 16. (Modello deterministico v.s. Modello aleatorio) Supponiamo di essere interessati al seguente esperimento: in un aula ci sono tre finestre aperte e n studenti che vogliono lanciare un gessetto con direzione fissata, angolazione fissata, forza fissata e vedere dove cade il gessetto nei diversi lanci. Per mantenere uno scopo illustrativo consideriamo quantità adimensionali. Siamo interessati a studiare (semplificando) y = posizione = g(peso, f orza, vento ) = f (x1 , x2 , x3 ) dove il peso del gessetto varierà ad ogni lancio per via dell’urto, la forza che ogni studente dovrà utilizzare nel lancio è stata fissata ma ognuno avrà una diversa sensibilità e pur volendo non riuscirà a lanciare con forza costante, il vento disturberà i lanci con una forza variabile e che non possiamo controllare. Vista la quantità di incertezza che si introduce il modello giusto sembra essere un modello aleatorio del tipo Y = g(X1 , X2 , X3 ) Capitolo 3. Variabili Aleatorie 71 dove X1 ="peso del gessetto" avrà una sua distribuzione con un peso medio e varianza prossima a zero, X2 ="forza nel lancio" avrà media uguale alla forza stabilita nella fase iniziale dell’esperimento e varianza che dipenderà dalla sensibilità generale dei lanciatori, X3 ="forza del vento" avrà un valore medio prossimo a zero (nel senso che mediamente non ci sarà vento) ma la varianza può essere elevata (per via delle folate di vento). Il modello aleatorio consentirà di individuare una distribuzione di probabilità per il punto di contatto del gessetto. Inoltre data una regione di piano, diciamo R, attraverso tale distribuzione di probabilità diremo che il gessetto (in un lancio effettuato da uno studente) cadrà in un punto di R con una certa probabilità. Se Rρ è un disco di raggio ρ > 0, possiamo trovare quel valore di ρ per cui P (Y ∈ Rρ ) = α con α = 0.95 o α = 0.99 ad esempio. Se ρ è molto grande, P (Y ∈ Rρ ) = 1 ma questo rappresenta il caso banale. La giusta scelta di ρ ∈ (0, ∞) va fatta massimizzando la probabilità α ∈ (0, 1) ma in relazione alla regione Rρ più piccola possibile. 3.3 3.3.1 Relazioni tra variabili aleatorie Eventi di misura nulla Se vale µ(A) = 0 diciamo che A ha misura µ nulla, cioè A è un insieme trascurabile rispetto alla misura µ. Se P ha densità f rispetto a µ, cioè dP = f · dµ ed A è trascurabile rispetto a µ allora sarà anche di misura nulla rispetto a P , cioè P (A) = 012 . Si consideri una v.a. X ∼ U nif (−c, c) con c > 0, la cui densità è quindi fX (x) = 1 1 (x) (si veda sotto per la v.a. Uniforme). Vediamo che P (X ∈ A) è la misura 2c [−c,c] di Lebesgue dell’insieme A, infatti se A ⊂ [−c, c], Z 1 1 P (X ∈ A) = 1[−c,c] (x)dx = µ(A). (3.28) 2c A 2c Sia adesso Y ∼ fY una v.a. continua con supp(Y ) ⊂ supp(X). Notiamo che Y è assolutamente continua rispetto ad X, o meglio Z P (Y ∈ A) = fY (y)dy A è assolutamente continua rispetto alla misura di Lebesgue. In particolare, dato un insieme A ∈ supp(Y ) ⊆ supp(X), allora P (X ∈ A) = 0 implica P (Y ∈ A) = 0. Si può sempre definire una v.a. Uniforme con supporto contenente un intorno di x di probabilità nulla, quindi tale intorno sarà di probabilità nulla per ogni ogni v.a. continua. 12 Si dice che P è assolutamente continua rispetto a µ e si scrive P µ. 72 3.3.2 Probabilità congiunte e condizionate Variabili identicamente distribuite. Diciamo che due o più variabili sono identicamente distribuite e scriveremo ”i.d.” se hanno la stessa legge di densità13 (discreta o continua). Inoltre se due o più variabili i.d. sono anche indipendenti scriveremo ”i.i.d.”. Indipendenza. È importante sottolineare un aspetto fondamentale nel calcolo delle Probabilità al quale si è appena accennato. Diamo la seguente definizione. Definizione 36. Siano X e Y due v.a. definite sullo stesso spazio di probabilità. Diciamo che X e Y sono indipendenti e scriveremo X ⊥ Y se P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) per ogni A, B ∈ B n . (3.29) Due eventi A1 , A2 relativi alla v.a. X sono indipendenti se (X ∈ A1 ) ⊥ (X ∈ A2 ). Si noti che si sta parlando della stessa v.a. X. Studiare il verificarsi di A1 significa quindi studiare (X ∈ A1 ) e così anche per A2 . Si deve notare che ci sono diverse misure di dipendenza. Osserviamo i grafici in Figura 3.2, si vede che i punti in (a) sono distribuiti in maniera casuale; i punti in (b) sono distribuiti in maniera casuale intorno ad una retta (detta trend); i punti in (c) sono distribuiti in maniera casuale attorno ad una parabola (un trend diverso dal precedente); i punti in (d) sono ottenuti da realizzazioni indipendenti del quadrato di una normale. Le realizzazioni sono quindi indipendenti ma essendo legate da un trend sottostante, tranne nel caso (a), si possono identificare diverse strutture di dipendenza dei dati. I grafici si sono ottenuti utilizzando R ed eseguendo il codice: >e=rnorm(500) >x=seq(0.01, 5, 0.01) >par(mfrow=c(2,2)) >plot(e, pch=16, axes=F, xlab="(a)", ylab=" ") >plot(x + e, pch=16, axes=F, xlab="(b)", ylab=" ") >plot(x^2 + e, pch=16, axes=F, xlab="(c)", ylab=" ") >plot(e^2, pch=16, axes=F, xlab="(d)", ylab=" ") Si noti che rnorm() restituisce un vettore (di dimensione 500) di numeri con distribuzione N (0, 1). Tale funzione è un esempio di generatore di numeri casuali. Esercizio 46. Nel grafico (a) di Figura 3.2 si sono plottati i punti e. Si noti che tali punti rappresentano un errore Gaussiano e corrisponde alla nuvola di punti 0+e. Perché tale osservazione non è banale? (Si faccia il confronto con il grafico (b)!!). 13 Dovremmo dire anche rispetto alla stessa misura µ che noi supporremo essere sempre la misura di Lebesgue per le v.a. continue (o assolutamente continue) e la misura di Dirac per le v.a. discrete. Capitolo 3. Variabili Aleatorie 73 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ●● ●● ●●● ● ●● ●● ●● ● ● ●●● ● ●● ● ● ● ●● ● ● ● ●●●●●●● ● ● ●● ● ● ●● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ●● ●● ●● ● ●● ● ● ● ●● ●●●● ● ● ● ● ●● ●● ●● ●● ● ●● ● ●● ● ● ●●●● ● ● ●● ● ● ● ● ●●●● ● ● ● ●● ●● ● ●● ● ● ●● ●● ● ●● ●● ● ●●● ● ●●●●●● ●● ●● ●● ● ●●●● ● ● ●● ●●● ● ● ●●●● ●● ● ●● ● ● ●● ● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●● ●●●● ● ● ●●● ●● ● ●● ● ● ●● ● ● ● ●● ● ●●●● ● ●● ●● ●● ● ● ● ● ●● ● ●● ● ●● ●● ●● ● ● ●● ●● ● ●● ● ●●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ●●● ●● ●● ● ● ●●● ●●●●●●●● ● ●●● ● ● ● ● ● ●● ●● ● ● ●●● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ● ●● ●● ●● ● ●●●● ● ●● ● ●● ●●● ●● ●●● ● ●● ●●● ● ● ● ● ● ● ● ●● ●● ●●●● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●● ●● ●● ● ● ●● ● ● ● ● ●● ● ●●●● ●● ●●● ●● ●●● ●● ●● ● ● ● ● ●●●● ● ●●● ●● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ●●● ● ●● ●●● ● ●● ● ● ● ●● ● ●● ● ●●● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●●●● ●●●●●●●● ● ●● ●● ●●● ● ● ●●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●●● ● ● ● ●● ● ● ●●● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ● ● ● ●● ●● ●●●● ● ● ●● ● ● ● ●●●● ●●● ● ● ●●●●● ●● ● ● ●●●● ● ● ● ● ●●● ● ●●●●●●● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●● (a) (b) ●● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ●● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ●●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●●●● ●● ● ●● ● ● ●●●● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ●●● ●●● ● ●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●●● ● ●● ●● ●●● ●●● ● ●● ● ● ● ●●● ●●●● ●● ● ●● ●●● ● ●●● ● ●● ●● ● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ●●● ● ● ● ●●● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●● ● ● ● ●●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ●● ●●● ● ● ● ● ● (c) (d) ● ● ● ● ● ● ● ● ● ● ● Figura 3.2: Diverse strutture di dipendenza. 74 Densità e funzioni di ripartizione. Dalla Proposizione 6, scriviamo P (A1 , A2 , . . . , An ) = n Y P (Aj ) j=1 se gli eventi Aj sono tra loro indipendenti. Consideriamo Aj = (Xj ≤ xj ) per ogni j = 1, 2, . . . , n. Per il vettore X = (X1 , . . . , Xn ), otteniamo la f.r. FX (x) =FX (x1 , . . . , xn ) =P (X1 ≤ x1 , . . . , Xn ≤ xn ) n Y = P (Xj ≤ xj ) = j=1 n Y FXj (xj ). j=1 Dalla relazione precedente si ricava che, se X ∼ fX , ∂n FX (x1 , . . . , xn ) ∂x1 · · · ∂xn n Y = fXj (xj ). fX (x1 , . . . , xn ) = j=1 Se Xj ∼ (xk , pk ), k ∈ IXj per j = 1, 2, . . . , n (cioè sono identicamente distribuite14 ), allora pr1 ,...,rn = P (X1 = xr1 , X2 = xr2 , . . . , Xn = xrn ) = n Y prj . j=1 Si vede subito, dalla legge delle probabilità composte che P (X = xr |X = xs ) = pr|s = pr,s . ps (3.30) Consideriamo ancora v.a. continue (e quindi integrali). La probabilità condizionata può essere riscritta come segue, sfruttando formalmente la legge delle probabilità composte, Z Z P (Y ∈ A|X ∈ B) = P (Y ∈ dy|X ∈ dx) A 14 B Si considera il caso in cui sono identicamente distribuite solo per semplicità di notazione ma si potevano considerare le Xj ∼ (xjk , pjk ), k ∈ IXj . Capitolo 3. Variabili Aleatorie 75 Z Z = ZA ZB = P (Y ∈ dy, X ∈ dx) P (X ∈ dx) dFY |X (x, y) ZA ZB A B = fY |X (x, y)dxdy. In particolare, si ottiene che fY |X (x, y) = fX,Y (x, y) fX (x) (3.31) è la densità doppia della v.a. Y |X. Si poteva considerare subito la legge delle probabilità totali ed ottenere P (Y ∈ A, X ∈ B) P (X ∈ B) Z P (Y ∈ dy, X ∈ B) = P (X ∈ B) ZA P (Y ∈ dy, X ∈ B) dy = P (X ∈ B) dy A P (Y ∈ A|X ∈ B) = dove P (Y ∈ dy, X ∈ B) 1 ∂ = FY |X (y, B) dy P (X ∈ B) ∂y Z ∂2 FY |X (y, x)dx. = B ∂y∂x Si ottiene ancora che ∂2 fX,Y (x, y) FY |X (y, x) = = fY |X (x, y). ∂y∂x fX (x) Diremo che fX,Y (x, y) è una densità (doppia) congiunta mentre fY |X (x, y) è una densità (doppia) condizionata. Nel caso di dimensioni n > 2 parleremo di densità n-dimensionale (congiunta o condizionata). Per semplicità continuiamo a riferirci alle densità 2-dimensionali fX,Y (x, y). Bisogna notare che la continuità di una funzione di due variabili, diciamo f (x, y), non deve essere confusa con la continuità separata . Una funzione f (x, y) si dice separatamente continua se per ogni y fissato, la funzione φ : x 7→ f (x, y) è continua solo in x e se per ogni x fissato, la funzione ψ : y 7→ f (x, y) è continua solo in y. Se f è continua 76 in un punto allora anche φ,ψ sono separatamente continue in quel punto. Non è vero il contrario come si può vedere dalla funzione ( xy , (x, y) 6= (0, 0) + y2 0, (x, y) = (0, 0). x2 f (x, y) = Per verificare che f non è continua basta considerare f (t, t) = t2 /(t2 + t2 ) e quindi sulle rette x = t e y = t. La verifica della continuità separata è lasciata al lettore. Inoltre, verificare che f è derivabile. Se una funzione è derivabile e le derivate sono continue in un punto, allora tale funzione è differenziabile in quel punto; se una funzione è differenziabile in un punto, allora è continua in quel punto. Esercizio 47. Sia √ p x y , (x, y) 6= (0, 0) f (x, y) = x2 + y 2 0, (x, y) = (0, 0). Provare che f non è differenziabile. Dire se è continua. Esercizio 48. Calcolare: 1. x ; 2 (x,y)→(∞,∞) x + y 2 lim 2. 3x2 + 2y 2 ; (x,y)→(0,0) (x2 + y 2 )2 lim 3. x−y . + y 2 + 1) lim (x,y)→(0,0) log(x2 ν−1 Esercizio 49. Sia fX (x1 , x2 ) = λ xΓ(ν) e−(x1 +λx2 ) con x1 , x2 > 0, ν > 0, λ > 0 la legge di densità del vettore X = (X1 , X2 ). 1. Dire se X1 ⊥ X2 . 2. Scrivere la marginale fX1 . 3. Scrivere la marginale fX2 . 4. Scrivere la f.r. FX2 . 2 2 Esercizio 50. Data la densità congiunta fX (x1 , x2 ) = κe−(x1 +x2 ) con x1 , x2 ∈ R del vettore X = (X1 , X2 ): 1. determinare κ, 2. scrivere le marginali fXj (xj ), j = 1, 2. Capitolo 3. Variabili Aleatorie Mancanza di memoria. di indipendenza 77 Diciamo che una v.a. non ha memoria se vale la relazione P (X > a + b|X > a) = P (X > b) (3.32) per a, b > 0. Per la legge delle probabilità composte si vede subito che deve verificarsi P (X > a + b, X > a) P (X > a + b) = = P (X > b) P (X > a) P (X > a) dove la prima uguaglianza è sempre soddisfatta essendo vero che (X > a + b) implica (X > a) con a, b > 0. Infatti, {ω : X(ω) > a} ⊂ {ω : X(ω) > a+b}. La mancanza di memoria è una proprietà molto importante, implica che il comportamento di un certo fenomeno (e quindi della v.a. che lo rappresenta) non dipende dal comportamento passato. Il condizionamento non aggiunge e non toglie informazione. Esercizio 51. Verificare la proprietà (3.32) per le seguenti v.a. : 1. X ∼ Exp(λ) con λ > 4, 2. X ∼ Gamma(λ, 1) con λ > 0, 3. X ∼ N (0, σ 2 ). Correlazione. La correlazione è una dipendenza lineare misurata dalla covarianza. Se due v.a. X e Y hanno covarianza nulla diciamo che sono incorrelate (o non sono correlate). Stiamo dicendo che non è possibile identificare una relazione lineare tra le due variabili, ad esempio non possiamo trovare a e b tali che Y = aX + b (o X = aY + b). Notiamo che Cov(X, Y ) = EXY − EXEX può essere nulla per una pura combinazione numerica (come ad esempio 12 = 3 · 4 o 12 = 2 · 6) e quindi non implica che le v.a. siano indipendenti, possiamo solo dire che tra le due v.a. non c’è dipendenza lineare. Quindi, riassumiamo dicendo che X ⊥ Y ⇒ Cov(X, Y ) = 0, Cov(X, Y ) = 0 6⇒ X ⊥ Y. Si utilizza spesso un indice di correlazione detto di Bravais-Pearson dato da σX,Y Cov(X, Y ) = . ρ(X, Y ) = p σX σY V ar(X) V ar(Y ) Dalla dis. di Hölder si vede che |E[(X − µX )(Y − µY )]| ≤ E(X − µX )2 21 E(Y − µY )2 21 78 e quindi |Cov(X, Y )| ≤ p V ar(X) V ar(Y ) ⇒ −1 ≤ ρ(X, Y ) ≤ 1. Se esiste una dipendenza lineare tra le v.a. X e Y allora Y = g(X) (o viceversa) e g(x) = ax + b con a 6= 0. Consideriamo un campione di n soggetti ai quali viene somministrato un farmaco per valutarne gli effetti. Ogni soggetto (diciamo il paziente i-esimo) viene sottoposto a visita medica e vengono misurati i valori relativi alla pressione arteriosa (variabile Xi per il paziente i-esimo) e livelli di colesterolo nel sangue (variabile Yi ). Quindi dal campione di n soggetti si ottengono le osservazioni x = (x1 , x2 , . . . , xn ), y = (y1 , y2 , . . . , yn ) che possiamo vedere come realizzazioni dei vettori X = (X1 , X2 , . . . , Xn ), Y = (Y1 , Y2 , . . . , Yn ). Supponendo che esista la relazione lineare di cui sopra, sarà possibile approssimare le yi osservate con i valori g(xi ) ottenute dalle osservazioni xi . Inoltre, la relazione lineare sarà tanto più plausibile quanto più l’errore ei = yi − g(xi ) sarà minimo. Vogliamo allora trovare gli a e b tali per cui n X e2i = min. i=1 Seguendo la soluzione dell’Esercizio 118 con a = β̂1 e b = β̂0 si vede che il coefficiente angolare (e quindi il coefficiente che determina la relazione lineare) è ρ = ρ(x, y), il coefficiente di correlazione campionario15 . 15 Ricordiamo che il coefficiente di correlazione campionario è una statistica, cioè una funzione dei dati campionari (in questo caso i vettori x = (x1 , x2 , . . . , xn ) e y = (y1 , y2 , . . . , yn )). In particolare, Pn 1 i=1 xi yi − x̄ȳ n ρ(x, y) = q P 1 Pn n 1 i=1 xi − x̄ i=1 yi − ȳ n n dove x̄ e ȳ sono medie campionarie. In questo contesto dovremmo parlare di stima del coefficiente di correlazione e scrivere ρ̂ = ρ(x, y). Capitolo 3. Variabili Aleatorie 79 Matrice delle covarianze. Consideriamo il vettore aleatorio X = (X1 , X2 , . . . , Xn ) e le covarianze σi,j = Cov(Xi , Xj ) = EXi Xj − EXi EXj con 1 ≤ i, j ≤ n. Si vede subito che σi,j = σj,i , le covarianze sono simmetriche. Inoltre, scriveremo σi2 = σi,i per indicare che Cov(Xi , Xi ) = V ar(Xi ), i = 1, 2, . . . , n. Si definisce matrice delle covarianze quella matrice n × n i cui elementi sono proprio le covarianze, σ = {σi,j }1≤i,j≤n . La matrice Σ è simmetrica e quindi Σt = Σ, inoltre se le componenti del vettore X sono indipendenti, allora Σ = diag{σi2 }1≤i≤n è una matrice diagonale. Infatti, Cov(Xi , Xj ) = 0 per ogni i 6= j. 3.3.3 Tabella di contingenza Siano X e Y due v.a. discrete. In generale è sempre possibile associare alla v.a. doppia (X, Y ) una distribuzione doppia (la congiunta) pr,s definita sopra. Scriviamo X ∼ (xk , pk ), k ∈ IX ed Y ∼ (ys , qs ), s ∈ IY per distinguere le due distribuzioni di probabilità. Per distinguere quindi le marginali della v.a. doppia. Supponiamo inoltre che entrambe le v.a. possano assumere solo tre valori per semplicità. La corrispondente tabella di contingenza (tabella a doppia entrata) è data da x1 x2 x3 y1 p1,1 p2,1 p3,1 p·,1 = q1 y2 p1,2 p2,2 p3,2 p·,2 = q2 y3 p1,3 p2,3 p3,3 p·,3 = q3 p1,· = p1 p2,· = p2 p3,· = p3 1 80 dove le marginali si possono ottenere sommando sulle colonne o sulle righe pk,· = 3 X pk,s e p·,s = s=1 3 X pk,s . k=1 Siano ora X e Y due v.a. indipendenti. Allora la tabella di contingenza nel caso di indipendenza prende la forma x1 x2 x3 y1 p1 q 1 p2 q 1 p3 q 1 p·,1 = q1 y2 p1 q2 p2 q2 p3 q2 p·,2 = q2 y3 p1 q3 p2 q3 p3 q3 p·,3 = q3 p1,· = p1 p2,· = p2 p3,· = p3 1 Si capisce subito che entrambe le tabelle possono essere scritte in termini matriciali, in particolare possiamo associare una matrice n × m (o quadrata) alla prima tabella, ad esempio A ed una matrice delle stesse dimensioni alla seconda tabella, ad esempio B. La dimensione delle matrici dipende ovviamente dalle v.a. X e Y e quindi dai loro insiemi di indici IX e IY . Avremo le marginali pk,· = m X pk,s e p·,s = s=1 n X pk,s k=1 e le matrici A = {pk,s } 1≤k≤n e B = {pk qs } 1≤k≤n . 1≤s≤m 1≤s≤m Supponiamo ora di volere una ricostruzione della matrice A a partire da una matrice osservata che possiamo chiamare F. Vogliamo quindi che F rappresenti una situazione osservata. Si sono osservate le realizzazioni della v.a. doppia (X, Y ) su un campione (di persone, animali, batteri, alberi, etc.) di numerosità N e si sono registrate le osservazioni dalle quali si sono ricavate le frequenze fk,s , quindi F = {fk,s } 1≤k≤n . 1≤s≤m Notiamo che le frequenze (relative) fk,s si sono ottenute considerando le frequenze assolute Nk,s su tutte le N osservazioni fatte, cioè fk,s = Nk,s /N ed Nk,s rappresenta il numero di elementi del campione (numero di persone, animali, batteri, alberi, etc.) per le quali si è osservata la realizzazione (xk , ys ) della v.a. (X, Y ). Quindi, possiamo anche scrivere F= 1 N N dove N = {Nk,s } 1≤k≤n . 1≤s≤m Capitolo 3. Variabili Aleatorie 81 Seguendo un approccio frequentista potremmo dire che al crescere di N (numerosità del campione) si arriverebbe a scrivere 1 N→A N cioè le frequenze diventano probabilità. Diciamo infatti che A e B sono matrici teoriche (o che rappresentano situazioni teoriche) mentre F è una matrice osservata. Sembra ovvio che quanto più F è ”simile” alla matrice B, tanto più le v.a. osservate si possono considerare indipendenti. Introduciamo allora un indice di dipendenza, d(F, B) = n X m X (fk,s − pk qs )2 (3.33) k=1 s=1 che restituisce una misura quadratica della distanza tra le matrici F e B. Come si vede subito, 0 ≤ d(F, B) ≤ nm e quanto più si avvicina a 0 tanto più possiamo dire che la situazione osservata rappresenta meglio un ipotesi di indipendenza tra le variabili X e Y della popolazione (di persone, animali, batteri, alberi, etc.). Esempio 17. Nel lancio di due dadi, diciamo D1 e D2 , la tabella di contingenza è scritta come segue D1 D1 D1 D1 D1 D1 =1 =2 =3 =4 =5 =6 D2 = 1 D2 = 2 D2 = 3 D2 = 4 D2 = 5 D2 = 6 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/36 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1 dove la distribuzione in blu corrisponde al dado D1 e la distribuzione in magenta corrisponde al dado D2 . Inoltre, si vede subito che dalle pk,s = P (D1 = k, D2 = s) = si ottiene P (D1 = k) = 6 X s=1 pk,s 1 6 ∀ k, s 82 = 6 X P (D1 = k, D2 = s) s=1 =P 6 [ D1 = k, ! (D2 = s) s=1 =P (D1 = k, D2 ∈ spet(D2 )) . per ogni k ∈ {1, 2, 3, 4, 5, 6}. Vale ovviamente il risultato analogo per P (D2 = s). Esercizio 52. Data la matrice 3 8 1 2 A= 1 1 4 calcolare la distanza d(·, ·) tra A e la matrice B = {ai,j = 1/4}1≤i,j≤2 . Cosa possiamo dire? Il χ-quadrato. Una v.a. molto importante in statistica è data dalla somma parziale χ2 (n) = n X Xk2 k=1 dove Xk ∼ N (µ, σ 2 ) e n assume qui il significato di gradi di libertà. La somma (v.a. varianza campionaria corretta) n 1 X S = (Xk − X̄)2 n − 1 k=1 2 si distribuisce in accordo con una χ-quadrato, in particolare S2 ∼ σ2 2 χ (n − 1). n−1 I gradi di libertà sono n − 1 perché si può identificare una combinazione lineare nella somma Xk − X̄ per cui una v.a. può essere scritta in funzione delle n − 1 rimanenti. 3.3.4 Trasformazioni di v.a. Diamo prima i seguenti risultati senza dimostrarli. Teorema 11. Sia X una v.a. 1-dimensionale e g : R 7→ R una funzione misurabile, allora Y = g(X) è una variabile aleatoria. Capitolo 3. Variabili Aleatorie 83 Teorema 12. Sia (X1 , X2 ) = X una v.a. 2-dimensionale e g : R2 7→ R misurabile, continua e derivabile. Allora g(X1 , X2 ) = Z è una variabile aleatoria. Se le trasformazioni Y e Z di cui sopra sono v.a., allora possiamo identificare le loro funzioni di ripartizione FY e FZ . Osservazione 21. Sia Z = g(X1 , X2 ) come nel Teorema 12. Notiamo che il valore medio può essere scritto a partire dalla FZ o dalla FX , cioè EZ = Eg(X1 , X2 ). Se le v.a. sono continue posso considerare Z EZ = z dFZ (z) supp(Z) oppure Z Z Eg(X1 , X2 ) = g(x1 , x2 ) dF(X1 ,X2 ) (x1 , x2 ). supp(X1 ) supp(X2 ) Analogamente nel caso discreto. Ricordiamo anche che le derivate della funzione g e della sua inversa h = g −1 sono legate dalla seguente formula 1 (3.34) h0 (g) = 0 g (h) (verificate !). Si ricava facilmente che (basta considerare y = g(x) e quindi x = h(y)) h0 (g(x)) = 1 g 0 (x) e h0 (y) = 1 g 0 (h(y)) . Teorema 13. Sia g una funzione misurabile, invertibile e derivabile con inversa h = g −1 . Sia X una v.a. con legge di densità fX nota. La densità della v.a. Y = g(X) è data da fY (y) = |h0 (y)| fX (h(y)), y ∈ supp(g(X)) (3.35) Dimostrazione. Osserviamo che Y è una v.a. per il Teorema 11, quindi possiamo calcolare la f.r. FY . Inoltre, Z Z fY (y)dy = |h0 (y)| fX (h(y))dy supp(Y ) g(supp(X)) Z = fX (z)dz = 1 ponendo y = g(z). supp(X) 84 Se X ∼ fX allora la composizione di funzioni continue da una funzione continua ed Y = g(X) è una v.a. continua. Per trovare la fY si deve quindi derivare la f.r. FY . Se g è crescente, allora h = g −1 è crescente e h0 > 0. Otteniamo, FY (y) =P (g(X) < y) =P (X < h(y)) Z h(y) = fX (x)dx ⇒ fY (y) = h0 (y)fX (h(y)) ≥ 0. −∞ Se g è decrescente, allora la sua inversa è decrescente. In particolare, h0 < 0 e quindi FY (y) =P (g(X) < y) =P (X > h(y)) Z ∞ = fX (x)dx ⇒ fY (y) = −h0 (y)fX (h(y)) ≥ 0. h(y) Per quanto sopra, la dimostrazione è conclusa. Teorema 14. Sia g una funzione misurabile, invertibile e derivabile con inversa h = g −1 . Sia X una v.a. con distribuzione di probabilità (xk , pk ), k ∈ IX nota. La distribuzione di probabilità della v.a. Y = g(X) è data da P (Y = y) = P (X = h(y)), y ∈ spet(g(X)). (3.36) Inoltre, Y ∼ (yk = g(xk ), pk ), k ∈ IY = IX . Esercizio 53. Dimostrare la (3.36). Osservazione 22. Supponiamo che in uno studio medico sia importante misurare il livello Y di una certa sostanza e che tale misurazione sia estremamente complessa. Si sa però che Y = g(X) dove X è il peso ed è quindi facilmente reperibile, cioè tra Y e X esiste la relazione (di dipendenza) g. Il medico aspetta che arrivi un paziente e subito misura il peso X, ottiene quindi il livello Y = g(X). I pazienti arrivano casualmente, quindi per il medico il peso di ogni paziente è aleatorio fino alla misurazione. Di conseguenza, è aleatorio il livello Y . Alcuni esempi: • modello lineare, g(X) = aX + b con a, b ∈ R • potenza di v.a., g(X) = X α con α ∈ R Capitolo 3. Variabili Aleatorie 85 • somma di v.a., g(X1 , X2 ) = X1 + X2 • rapporto di v.a., g(X1 , X2 ) = X1 /X2 • funzioni più complesse, g(X1 , X2 , X3 ) = (X1 + X2 )/(X1 + X3 ) • etc. Si osservi che la funzione g esprime quindi una relazione di dipendenza tra le variabili input e la variabile output (o risposta del modello). Esempio 18. Si vuole caratterizzare la v.a. Y = g(X) conoscendo X e la funzione g. Dobbiamo quindi calcolare la densità di Y e riconoscere Y tra le v.a. elementari se la sua densità è notevole. Si deve partire dalla f.r. di Y FY (y) =P (Y ≤ y) definizione =P (g(X) ≤ y) dato del problema. Volendo procedere graficamente, si deve considerare il grafico della funzione g, cioè Y = g(X) nel piano (X, Y ) e la regione ammissibile per la coppia (X, Y ), cioè D = supp(X) × supp(Y ) (o analogamente16 D = spet(X) × spet(Y )). Nel calcolare la f.r. si deve considerare l’evento Ay ∩ D dove Ay = {(x, y) ∈ R2 : g(x) ≤ y} oppure, se ad esempio g è monotona crescente con inversa h = g −1 , {(x, y) ∈ R2 : g(x) ≤ y} = {(x, y) ∈ R2 : x ≤ h(y)}. Nel passare alla funzione inversa h bisogna considerare il giusto verso della disuguaglianza. A questo punto FY (y) = P (Ay ∩ D), y ∈ supp(Y ) e va calcolata per tutte le figure geometriche diverse che si possono identificare da Ay ∩ D al variare di y ∈ supp(Y ). (Si veda anche l’Esempio 19). Esercizio 54. Sia X ∼ fX una v.a., scrivere la legge di densità di Y = X 2 . Esercizio 55. Sia X ∼ Exp(2), scrivere la legge di densità di Y = X + 1. Esercizio 56. Siano X ∼ Exp(λ) con λ > 0 e Y ∼ U nif (0, 1) due v.a. indipendenti, scrivere la legge di densità di Z = X/Y . 16 Nel caso in cui le v.a. sono discrete si può considerare la densità discreta pk = P (g(X) = yk ) e non la f.r. P (g(X) ≤ yk ) come nel caso di v.a. continue. 86 Esercizio 57. Sia X ∼ Exp(1), scrivere la legge di densità di Y = X 2 . Esercizio 58. Siano X1 , X2 due v.a. i.i.d. Exp(λ), λ > 0. Sia ( x , x, y ∈ R \ {0} x+y g(x, y) = 0, (x, y) = (0, 0) e Z = g(X1 , X2 ). Determinare: 1. supp(Z). 2. fZ (z), z ∈ supp(Z). 3. supp(fZ ). Esercizio 59. Sia ( g(x, y) = xy , x, y ∈ R \ {0} + y2 . 0, (x, y) = (0, 0) x2 Determinare il supporto della v.a. Z = g(X, Y ) se X ⊥ Y e 1. X, Y ∼ Exp(λ), λ > 2; 2. X ∼ Exp(λ), Y ∼ Exp(µ), λ, µ > 0; 3. X ∼ Exp(λ), λ > 0 e Y ∼ N (0, 1); 4. X ∼ Exp(µ), µ > 0 e Y ∼ P ois(λ), λ > 0; 5. X 2 ∼ N (0, 1), Y ∼ Exp(λ), λ > 1. Esercizio 60. Determinare gli insiemi di definizione delle funzioni: 1. f (x, y) = x(x2 − y 2 )−1 , 2. f (x, y) = (y log x)y−x , Capitolo 3. Variabili Aleatorie 3. f (x, y) = (|x| − √ 87 x − y)y , 4. f (x, y) = e1/y (x2 − y 2 )−1/2 , √ 5. f (x, y) = y − log x. Esercizio 61. Siano X e Y due v.a. indipendenti con densità 2 fX (x) = 2xλe−λx 1(0,∞) (x), 2 fY (y) = 2yλe−λy 1(0,∞) (y), λ > 0. Sia Z = g(X, Y ) dove ( g(x, y) = x , x, y ∈ R \ {0} x2 − y 2 . 0, (x, y) = (0, 0) 1. Determinare Eg(X, Y ). 2. Determinare fZ . 3. Determinare EZ. Esercizio 62. Siano X ∼ U nif (0, 1) e Y ∼ Exp(1) due v.a. indipendenti. Determinare: 1. la legge di densità della v.a. Z= p Y − log X, 2. supp(Z). Esercizio 63. Si consideri la funzione f (x) = κ xθ−1 con x ∈ (0, a), a > 0. 1. determinare gli insiemi di definizione per κ e θ tali che f sia una legge di densità. Si consideri la v.a. X con legge fX = f appena trovata. √ 2. Scrivere la funzione di ripartizione della v.a. V = log( 1 + a − X); 3. Scrivere la legge di densità della v.a. Z = (a − X)−1 . 88 3.3.5 Somme di variabili aleatorie È utile nelle applicazioni saper trattare la somma di v.a. o somme parziali del tipo Sn = n X n ∈ N. Xk , (3.37) k=1 Come vedremo, il modo migliore per trattare tali oggetti prevede un utilizzo abbastanza elementare delle funzioni caratteristiche associate alle v.a. coinvolte nella somma. Un modello poco più complicato si ottiene considerando la combinazione lineare Zn = n X ak X k , n∈N (3.38) k=1 dove compaiono i coefficienti ak che possono essere scelti anche senza restrizioni. Notiamo che una possibile scelta è ak = n−α per ogni k ≥ 1 con α ∈ R. Come vedremo, sarà interessante capire a quale v.a. tende Zn se n → ∞. Nelle applicazioni, n → ∞ significa n molto grande e corrisponde all’aumento di numerosità campionaria o di informazioni disponibili. Inoltre, molto spesso n grande si traduce in n > 1000, n > 100 o n > 30 nel senso che raggiunti tali valori si ottiene una buona approssimazione del problema oggetto di studio. Le informazioni disponibili sono già sufficienti ad ottenere una analisi accurata. Osserviamo che per la linearità del valore medio si ha EZn = n X ak EXk k=1 e (dalla proprietà (3.25)) supponendo che le Xk siano indipendenti V ar(Zn ) = n X V ar(ak Xk ) = k=1 n X a2k V ar(Xk ). (3.39) k=1 Si veda lo svolgimento dell’Esercizio 105. Se le v.a. Xk , k ∈ N non sono indipendenti, dalla relazione V ar(Zn ) = M2 (Zn ) − M12 (Zn ) ricaviamo V ar(Zn ) = n X n X ak as Cov(Xk , Xs ). k=1 s=1 Infatti n X k=1 !2 ak X k = n X k=1 ! ak X k · n X k=1 ! ak X k Capitolo 3. Variabili Aleatorie 89 n X = ! ak X k · = ! as X s s=1 k=1 n X n X n X ak X k as X s k=1 s=1 dalla quale scriviamo M2 (Zn ) mentre per il primo momento si ha che ! ! X X M12 (Zn ) = ak E[Xk ] as E[Xs ] s=1 k=1 = XX as ak E[Xk ] E[Xs ]. k=1 s=1 Quindi, si ottiene M2 (Zn ) − M12 (Zn ) = n n X X ak as (E[Xk Xs ] − E[Xk ] E[Xs ]) . k=1 s=1 La v.a. media campionaria. È definita dalla media aritmetica di v.a. indipendenti Xk , k ∈ N ed è indicata con X̄ o X̄n per sottolineare la dipendenza da n (numerosità campionaria), n 1X Xk X̄n = n k=1 ed è quindi riconducibile alle v.a. viste sopra (n−1 Sn o Zn con ak = 1/n per ogni k). Bisogna subito notare che se Xk ∼ N (µk , σk2 ) sono indipendenti, allora ! ! n n n n X X X X 1 1 1 X̄n ∼ N µk , σk2 = N µk , 2 σk2 . n n n k=1 k=1 k=1 k=1 Se le Xk ∼ N (µ, σ 2 ) sono i.i.d., allora 1 X̄n ∼ N (nµ, nσ 2 ) = N n σ2 µ, . n Oltre alla variabile Normale, possiamo ovviamente considerare altre v.a. e quindi altre densità chiuse rispetto alla somma oppure no, si avrà sempre comunque (se le v.a Xk sono i.i.d.) E X̄n = EX1 , e V ar(X̄n ) = V ar(X1 ) . n 90 Somme di due v.a. indipendenti. Consideriamo la somma di due v.a. indipendenti X,Y . Vogliamo trovare la legge di densità (continua, discreta o mista) della v.a. Z = X +Y. Esempio 19. Siano X ∼ fX , Y ∼ fY due v.a unidimensionali tali che X ⊥ Y . Studiare la v.a. Z = X + Y . Lo studio di Z passa per tre punti essenziali, si deve caratterizzare 1. il supporto supp(Z) (visto che X e Y sono c., ci aspettiamo che Z sia c.), 2. la f.r. FZ (z), z ∈ supp(Z) (e quindi resta definita la densità fZ ), 3. la densità fZ = FZ0 ; riconoscere Z se fZ è notevole. Il primo punto sembra facile, bisogna ovviamente considerare supp(X) e supp(Y ) e vedere la somma dei minimi e dei massimi valori per entrambe le v.a. X e Y . Vediamo il secondo punto, per ogni z ∈ supp(X + Y ), si deve considerare la probabilità P (Z ≤ z) =P (X + Y ≤ z) = P (X ≤ z − Y ) = P (Y ≤ z − X), ricordando che si hanno informazioni su X e Y (o sulla v.a. doppia (X, Y )) e non su Z. Chiamiamo D = supp(X) × supp(Y ) il supporto della v.a. doppia (X, Y ), se X ≥ 0 e Y ≥ 0 ovviamente D è il primo quadrante nel piano cartesiano. Scegliamo di considerare, tanto non cambia il risultato, P (Y ≤ z − X), allora nel piano cartesiano dobbiamo disegnare la retta Y = z − X dove X e Y variano nel loro supporto e z ∈ supp(X + Y ) deve essere fissato. Al crescere di z la retta Y = z − X (o X + Y = z) si allontana dall’origine degli assi. Noi siamo interessati a tutti quei punti che si trovano sotto la retta, cioè alla porzione di piano Az = {(x, y) ∈ R2 : x + y ≤ z} = {(x, y) ∈ R2 : y ≤ z − x}. Infatti stiamo cercando P (X+Y ≤ z) = P (Y ≤ z−X). L’insieme Az deve dipendere da z, perché si è detto che preventivamente bisogna fissare z, in realtà z va fissato in base alle diverse figure che si possono ottenere da D ∩ Az al variare di z ∈ supp(Z). Sia D = ∪N i=1 Di dove gli insiemi Di sono scelti in modo che Di ∩ Az per i = 1, . . . , N siano figure geometriche (piane, in questo caso) diverse. Allora, 0, z∈ / supp(X + Y ), (X, Y ) ∈ D0 P (D ∩ A ), z ∈ supp(X + Y ), (X, Y ) ∈ D1 1 z P (D2 ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ D2 FZ (z) = P (Z ≤ z) = .. . P (DN ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ DN 1, z∈ / supp(X + Y ), (X, Y ) ∈ DN +1 Capitolo 3. Variabili Aleatorie 91 dove P (Di ∩ Az ) = P ((X, Y ) ∈ Di ∩ Az ) per ogni i = 1, 2, . . . , N e D0 , DN +1 sono rispettivamente, l’evento impossibile e l’evento certo per la v.a. doppia (X, Y ). Il terzo punto è lasciato al lettore e dipenderà dal caso oggetto di studio. Osservazione 23. Per v.a. discrete e miste si procede esattamente allo stesso modo. Esercizio 64. Siano λ, µ > 0 e X ∼ Exp(λ), Y ∼ Exp(µ) tali che X ⊥ Y . Studiare la v.a. Z = X + Y . Esercizio 65. Sia Z la v.a. del precedente esercizio. Studiare Z nel caso µ = λ. Teorema 15. (Convoluzione per densità discrete) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼ (ys , ps ), s ∈ IY due v.a. note. Allora, X + Y = Z ∼ (zk , pk ), k ∈ IZ con pk = P (Z = zk ) = X P (Y = zk − xi ) pi = i∈If X X P (X = zk − ys ) ps (3.40) s∈If Y e P (Z ≤ zk ) = X P (Y ≤ zk − xi ) pi = i∈If X X P (X ≤ zk − ys ) ps (3.41) s∈If Y dove If X = {i ∈ IX : zk − xi ∈ spet(Y ), zk ∈ spet(Z)} e If Y = {s ∈ IY : zk − ys ∈ spet(X), zk ∈ spet(Z)}. Osservazione 24. Consideriamo due v.a. indipendenti X ∼ (xi , pi ), i ∈ IX , Y ∼ (ys , ps ), s ∈ IY e la somma Z = X + Y . Allora, per ogni z ∈ supp(X + Y ), P (Z = z) =P (Y = z − X) = P (Y = z − X, X ∈ spet(X)) = [(considero l’intersezione con un evento certo)] ! [ =P Y = z − X, (X = xi ) (unione di eventi incompatibili) k∈IX 92 ! [ =P [(Y = z − X) ∩ (X = xi )] k∈IX = X P (Y = z − X) ∩ (X = xi ) (legge delle prob. totali) k∈IX = X P (Y = z − X|X = xi )P (X = xi ) (legge delle prob. composte) k∈IX = X P (Y = z − xi )P (X = xi ) k∈IX dove, nell’ultimo passaggio, si è usato il condizionamento, si è usata cioè l’informazione disponibile X = xi . Teorema 16. (Convoluzione per densità miste) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼ fY due v.a. note. Allora, X + Y = Z ∼ fZ con FZ (z) = X FY (z − xi ) pi (3.42) fY (z − xi ) pi (3.43) i∈If X e fZ (z) = X i∈If X dove If X = {i ∈ IX : z − xi ∈ spet(Y ), z ∈ supp(Z)}. Osservazione 25. Seguendo quanto abbiamo visto nella precedente osservazione, nel caso delle v.a. miste si deve considerare X P (Y ≤ z − X) ∩ (X = xi ) (legge delle prob. totali) FZ (z) = k∈IX = X P (Y ≤ z − X|X = xi )P (X = xi ) (legge delle prob. composte) k∈IX = X P (Y ≤ z − xi )P (X = xi ). k∈IX Teorema 17. (Convoluzione per densità continue) Siano X ∼ fX e Y ∼ fY due v.a. note. Allora, X + Y = Z ∼ fZ Capitolo 3. Variabili Aleatorie con densità Z fZ (z) = 93 Z fY (z − x)fX (x)dx = SX fX (z − y)fY (y)dy, z ∈ supp(Z) (3.44) SY dove SX = {x ∈ supp(X) : z − x ∈ supp(Y ), z ∈ supp(Z)} e SY = {y ∈ supp(Y ) : z − y ∈ supp(X), z ∈ supp(Z)} Osservazione 26. Valgono le seguenti uguaglianze Z Z fY (z − x)fX (x)dx = fY (z − x)fX (x)dx SX R (perché fY è nulla fuori il suo supporto) e Z Z fX (z − y)fY (y)dy fX (z − y)fY (y)dy = SY R (perché fX è nulla fuori il suo supporto). Definizione 37. Si dice famiglia di densità di probabilità F = F(θ) di parametro θ ∈ Θ ⊆ Rm , l’insieme delle densità f = f (x; θ) con x ∈ D ⊆ Rd . Per indicare che non ci interessa la dipendenza dalla variabile x, scriveremo f (·; θ). La funzione f ci interessa nell’argomento θ (il parametro) e non nell’argomento x (la variabile). Esempio 20. La densità discreta pk = famiglia di densità λk −λ e k! = f (k; λ) al variare di λ definisce la F(λ) = {f (·; λ), λ ∈ (0, ∞)} . √ 2 2 Esempio 21. La densità f (x; θ) = e−(x−µ) /2σ / 2πσ 2 con θ = (µ, σ 2 ) ∈ R × (0, ∞) definisce la famiglia F(µ, σ 2 ) = f (·; µ, σ 2 ), µ ∈ R, σ 2 > 0 . Definizione 38. Una famiglia F di densità di probabilità è chiusa rispetto alla somma se prese due densità in quella famiglia, la loro convoluzione appartiene ancora ad F. 94 Esercizio 66. Dimostrare che la famiglia di densità di Poisson è chiusa rispetto alla somma. Esercizio 67. Siano X ∼ U nif (0, 1) ed Y ∼ Exp(λ), λ > 0 due variabili indipendenti: a) calcolare la legge di densità della somma Z = X + Y , b) calcolare la funzione di ripartizione della variabile W = λZ, c) scrivere la legge di densità di Z nel caso X ∼ Exp(λ), λ > 0. Esercizio 68. Siano X ∼ Exp(λ), λ > 0 e Y ∼ Ber(p), p ∈ (0, 1) due v.a. indipendenti. Studiare la v.a. Z = X + Y . 2 Esercizio 69. Si consideri la funzione f (x) = κ e−θx con x ∈ R. 1. Determinare gli insiemi di definizione per κ e θ tali che f sia una legge di densità. Si consideri la v.a. X con legge di densità fX = f appena trovata. 2. Chi è X? 3. Si fissino due valori (ammissibili) per κ e θ. Scrivere la legge di densità della v.a. Y = |X|2 . 4. Si consideri la successione di v.a. i.i.d. Yj ∼ Y . Scrivere la legge di densità di Pn Z = j=1 Yj . Proposizione 10. Sia pk , k ∈ N ∪ {0} la densità discreta di una v.a. Bin(n, p). Allora pk è prima monotona crescente e poi monotona decrescente attorno al valore massimo (n + 1)p. Dimostrazione. Basta considerare il rapporto pk (n − k + 1)p = pk−1 k(1 − p) che è maggiore di uno se pk ≥ pk−1 , cioè se e solo se (n − k + 1)p > k(1 − p) ovvero k < (n + 1)p. Capitolo 3. Variabili Aleatorie 95 Approssimazioni per grandi campioni. Sia x ∈ Rn una realizzazione del vettore X le cui componenti sono Bernoulliane indipendenti. Sappiamo che sommando tali componenti otteniamo una Binomiale, siamo quindi interessati alla v.a. Sn = n X Xi ∼ Bin(n, p) n ∈ N, p ∈ [0, 1]. (3.45) i=1 Osserviamo che • Se n è grande e p è molto piccola possiamo approssimare la binomiale Bin(n, p) con la legge degli eventi rari o di Poisson di parametro λ = np. Quando p è molto grande vale la stessa approssimazione se consideriamo che 1 − p = q è molto piccola. Infatti, se Xn ∼ Bin(n, p) con p = λ/n, allora n−k λk λ n! 1− P (Xn = k) = k!(n − k)! nk n −k n λk λ λ n(n − 1)(n − 2) · · · (n − k + 1) = 1− 1− . k! n n nk Per n → ∞, n −k λ λ −λ → e , 1− → 1 1− n n n(n − 1)(n − 2) · · · (n − k + 1) → 1 nk e quindi si ottiene lim P (Xn = k) = n→∞ λk −λ e , k! k = 0, 1, 2, . . . . Inoltre, la P oi(λ) può essere approssimata al crescere di λ da una N (λ, λ). • Se n è grande e p ' q ' 0.5, approssimiamo la binomiale Bin(n, p) con la normale N (np, npq). In ultima analisi quindi la Bin(n, p) può essere approssimata al crescere di n da una normale N (µ, σ 2 ) di media µ = np e varianza σ 2 = np oppure σ 2 = npq se p è molto piccola oppure se p ' q rispettivamente. 96 Passeggiate aleatorie (random walk). Consideriamo una successione Xk di v.a. Bernoulliane di parametro p ∈ (0, 1) e spet(Xk ) = {−1, 1} per ogni k ∈ N. In particolare, si ha che p, xk = +1 P (Xk = xk ) = ∀ k. q, xk = −1 La somma parziale Sn può essere vista come una passeggiata aleatoria, cioè come un movimento aleatorio (di una particella, di un animale, di una persona) che dipende da spostamenti in avanti (+1) e spostamenti in dietro (−1). La posizione raggiunta ad un certo istante dipende dal numero di spostamenti in avanti e in dietro. Provate a disegnare i punti (n, Sn ) per qualche n partendo da una realizzazione del vettore X = (X1 , X2 , . . .), ad esempio x = (1, 1, −1, 1, 1, −1, −1, 1, 1, . . .). Notiamo che il salto |Xk | = 1 può non essere unitario, si consideri ad esempio una successione di v.a. con spet(Xk ) = {−c, +c} e c > 0. 3.3.6 Somme aleatorie di variabili aleatorie Consideriamo la somma parziale SN = N X Xk , n∈N (3.46) k=1 dove N è a sua volta una v.a. oppure la forma più generale ZN . Le Xk possono essere discrete o continue mentre supporremo sempre che N sia una v.a. discreta. Inoltre, considereremo sempre N ⊥ Xk per ogni k. Se le Xk sono i.i.d, notiamo che d X1 + X 2 + . . . + XN = X {z. . . + X} | +X + N volte dove Xk ∼ X per qualche v.a. X con la stessa distribuzione di probabilità delle Xk (per ogni k). Da questa uguaglianza in legge ricaviamo l’identità di Wald ESN = EN X = EN EX. 3.3.7 Variabili aleatorie ordinate Consideriamo un vettore di v.a. X ed una sua realizzazione x dati da X = (X1 , X2 , . . . , Xn ), x = (x1 , x2 , . . . , xn ). In generale possiamo ottenere una realizzazione in n! modi diversi, cioè possiamo ordinare le n realizzazione in n! modi diversi. Possiamo poi considerare le realizzazioni Capitolo 3. Variabili Aleatorie 97 uguali e quindi i modi diversi in cui ordinare le n realizzazioni sono dati dalle permutazioni con ripetizioni, ad esempio se x1 si ripete k1 volte e k2 osservazioni sono uguali ad x2 , allora si possono considerare k1n! modi diversi di ordinare il vettore !k2 ! delle realizzazioni. Qui siamo interessati ad un solo ordinamento, dalla realizzazione minima a quella massima in ordine crescente. Consideriamo allora le v.a. ordinate ed il vettore diventa (X(1) , X(2) , . . . , X(n) ) dove con X(i) indichiamo la v.a. la cui realizzazione occuperà il posto i-esimo del campione x una volta ordinato dalla realizzazione minima alla massima. Quindi X(1) = min1≤j≤n {Xj } e X(n) = max1≤j≤n {Xj }. Cerchiamo la densità del massimo. Proposizione 11. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(n) la v.a. ordinata di posto n. Allora, FY (y) = [FX (y)]n , y ∈ supp(X). (3.47) Dimostrazione. Y = max {Xj } 1≤j≤n quindi supp(Y ) = supp(X). P (Y ≤ y) =P ( max {Xj } ≤ y) 1≤j≤n ma se il massimo non supera il livello y, allora nessuna v.a. lo supera P (Y ≤ y) =P (X1 ≤ y, X2 ≤ y, . . . , Xn ≤ y) = n Y P (Xj ≤ y) j=1 dove si è usato il fatto che le v.a. sono indipendenti. Considerando che Xj ∼ X, cioè sono identicamente distribuite, si ottiene P (Y ≤ y) = n Y P (X ≤ y) = [P (X ≤ y)]n j=1 ed otteniamo il risultato cercato. Cerchiamo ora la densità del minimo di n v.a. i.i.d.. Proposizione 12. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(1) la v.a. ordinata di posto 1. Allora FY (y) = 1 − [1 − FX (y)]n , y ∈ supp(X). (3.48) 98 Dimostrazione. Notiamo che FY (y) = P ( min {Xj } ≤ y) 1≤j≤n non è trattabile con la stessa comodità di 1 − FY (y) e ci concentriamo allora sulla probabilità P ( min {Xj } > y) =P (X1 > y, . . . , Xn > y) 1≤j≤n = = n Y j=1 n Y (tutte sono maggiori se lo è il minimo) P (Xj > y) (sono indipendenti) P (X > y) (sono identicamente distribuite) j=1 =[1 − FX (y)]n (per la definizione di FX ). Quindi si ottiene l’enunciato. In generale, diamo il seguente risultato senza dimostrazione. Proposizione 13. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(j) la v.a. ordinata di posto j. Allora n X n FY (y) = [FX (y)]k [1 − FX (y)]n−k . (3.49) k k=j Esercizio 70. Da precedenti studi, una società associa la legge distributiva dei tempi medi di utilizzo di suoi alcuni macchinari alla legge esponenziale, Exp(λ) con λ ∈ (2, 3). Inoltre, misurando gli utilizzi di tali macchinari in unità di tempo, si chiede: 1. con quale probabilità la durata minima sia maggiore di 8 unità di tempo, 2. se si sono osservate le durate x = (4, 7, 2, 5, 3, 4), si può fornire una stima per λ? Esercizio 71. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1). Studiare la v.a. min1≤k≤n {Xk } , n ∈ N. Zn = max1≤k≤n {Xk } Esercizio 72. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e Exp(λ), λ > 0. Studiare la v.a. Zn = max {Xk } − min {Xk }, 1≤k≤n 1≤k≤n n ∈ N. Esercizio 73. Sia n = 2 nei precedenti esercizi. Studiare le v.a. Z2 . Capitolo 3. 3.3.8 Variabili Aleatorie 99 Successioni monotone di variabili aleatorie Consideriamo una successione di v.a. in cui l’ordinamento è dato, cioè la successione {Xk }k∈I con I ⊆ N, può essere: • monotona non-decrescente se X1 ≤ X2 ≤ X3 ≤ . . ., • monotona non-crescente se X1 ≥ X2 ≥ X3 ≥ . . .. Sia K` con ` ∈ R la v.a. per cui è vera la relazione P (K` ≤ k) =P (Xk ≥ `) (se {Xk } è non-decrescente), P (K` ≤ k) =P (Xk ≤ `) (se {Xk } è non-crescente). Supponiamo che k ∈ I rappresenti l’istante in cui si osserva la variabile allo studio. Allora, la v.a. K` può essere vista come un tempo ovvero come il tempo di attesa per il raggiungimento del livello ` della successione Xk . Ad esempio, se la successione è non-crescente, l’evento (K` ≥ k) indica che la successione Xk raggiunge il livello ` ad un istante successivo (non precisato) a k. Aspettare k realizzazioni non bastano per raggiungere (dal basso) il livello `. Analogamente, se la successione è non-crescente, (K` ≥ k) indica che k realizzazioni non sono sufficienti per raggiungere (dall’alto) il livello `. Inoltre, se le v.a. Xk sono continue allora ` ∈ supp(Xk ); se le v.a. sono discrete, allora ` ∈ spet(Xk ). Esempio 22. Sia Xk ∼ P ois(λk), sappiamo che Xk può essere vista come la somma di k v.a. di Poisson indipendenti di parametro λ > 0 (chiusura rispetto alla somma). Ovviamente Xk è non-decrescente, allora vogliamo trovare la distribuzione K` del numero di addendi necessari per superare il livello `. Si ha che P (K` ≤ k) =P (Xk ≥ `) ∞ X = P (Xk = x) x=` =e −λk ∞ X (λk)x x! x=` ` −λk =(λk) e ∞ X (λk)x . (x + `)! x=0 La densità discreta di una Poisson somma ad uno su N e allora P (K` ≤ k) =e −λk ∞ X (λk)x x=` x! −λk −e ∞ X (λk)x x=0 x! +1 100 =1 − e −λk `−1 X (λk)x x! x=0 (che è 1 − P (Xk < `)). Notiamo che ` − 1 (` − x − 1)! 1 = x! x (` − 1)! dove (si veda la funzione Gamma) Z ∞ u`−x−1 e−u du, (` − x − 1)! = Γ(` − x) = x ≥ 0. 0 Allora, possiamo scrivere `−1 X (λk)x x=0 x! `−1 1 X `−1 Γ(` − x) (λk)x = x Γ(`) x=0 =[ per la linearità e la positività degli addendi17 ] ! Z ∞ `−1 x X 1 ` − 1 (λk) = u`−1 e−u du Γ(`) 0 x ux x=0 =[ per il binomio di Newton ] `−1 Z ∞ 1 λk `−1 −u u e = 1+ du Γ(`) 0 u Z ∞ 1 e−u (u + λk)`−1 du = Γ(`) 0 =[ pongo y = u + λk ] Z ∞ eλk = y `−1 e−y dy. Γ(`) λk Riorganizzando i conti, si ottiene Z ∞ Z λk 1 1 `−1 −y P (K` ≤ k) = 1 − y e dy = y `−1 e−y dy, Γ(`) λk Γ(`) 0 k ∈ N. Esercizio 74. Consideriamo Xt ∼ P ois(λt), t > 0 (tempo continuo), allora K` è una v.a. continua. In maniera alternativa si dimostri che K` ∼ Gamma(1, `). [Suggerimento: si consideri FK0 ` (t) dove FK` (t) = e −λt ∞ X (λt)x x=` ed il fatto che si ottiene una serie telescopica]. x! Capitolo 3. Variabili Aleatorie 101 Osservazione 27. La collezione {Xt , t ≥ 0} in cui Xt ∼ P ois(λt) definisce il processo (aleatorio) di Poisson. Osservazione 28. Le somme parziali Sn con n ∈ N di v.a. non-negative sono successioni non-decrescenti. Esercizio 75. Siano Xj ∼ Ber(p), p ∈ (0, 1) con j ∈ N una successione di v.a. i.i.d. P e sia Sk = kj=1 Xj con k ∈ N la loro somma parziale. Trovare la f.r. della v.a. K` , cioè del minimo numero k di v.a. Bernoulliane necessarie per raggiungere il livello `. [Suggerimento: si ricordi che Xj ∈ {0, 1} e Sk è una successione non-decrescente per cui P (Sk ≥ `) = P (K` ≤ k)]. Esercizio 76. Nel precedente Esercizio 75, si scriva P (Sk = k). Esempio 23. Sia Sk , k ∈ N la somma parziale di Exp(λ), λ > 0. Si vuole studiare la v.a. K` . Subito possiamo dire che ` ∈ supp(Sk ), infatti la somma di v.a. continue è una v.a. continua, in questo caso in particolare ` ∈ (0, ∞). Allora, P (K` ≤ k) =P (Sk ≥ `) =P (Gamma(λ, k) ≥ `) Z ∞ λk uk−1 e−λu du. = Γ(k) ` Esercizio 77. Sia {Xj }j∈N una successione di v.a. indipendenti e Sk con k ∈ N la corrispondente successione delle somme parziali. Studiare la v.a. (tempo di attesa) K` nei seguenti casi: 1. Xj = |Y | dove Y ∼ N (0, 1), 2. Xj = |Y | dove Y ∼ N (µ, 1/2j ) con µ > 0, 3. Xj ∼ Gamma(λ, j) con λ ∈ (1, 2), 4. Xj ∼ Bin(j, p) con p ∈ (0, 1/3), per ogni j ∈ N. 3.3.9 Simulazione, generatori di numeri casuali Nelle tecniche di generazione (di numeri casuali) supporremo sempre di poter generare un vettore uniforme (cioè un vettore di realizzazioni indipendenti di una variabile aleatoria Uniforme in un certo intervallo, possiamo scegliere un intervallo che più si adatta alla nostre esigenze). È possibile generare numeri aleatori uniformi seguendo ben noti algoritmi oppure si possono utilizzare delle funzioni implementate in tutti i software esistenti. Dalla generazioni di numeri casuali uniformi si possono ottenere numeri casuali che seguono altre distribuzioni di frequenza (o di probabilità). 102 Proposizione 14. Sia g una funzione continua e differenziabile (monotona non decrescente) ed U ∼ U nif (a, b). Allora, la v.a. X = g −1 (U ) (3.50) ha legge di densità fX (x) = g 0 (x), g −1 (a) ≤ x ≤ g −1 (b) 0, altrimenti. (3.51) Dimostrazione. Per il Teorema 13, si ha che fX (x) = |g 0 (x)|fU (g(x)) = 1 0 g (x)1(a,b) (g(x)), b−a x∈R (3.52) con g non decrescente, quindi g 0 ≥ 0. Segue l’enunciato. La generazione di numeri casuali equivale ad estrarre palline numerate da una scatola in cui le palline sono state inserite seguendo una certa distribuzione. Se prendiamo una scatola vuota e inseriamo 90 palline numerate da 1 a 90, allora estraendo una pallina a caso, P (estrarre la pallina con il numero x) = 1 , 90 ∀ x ∈ {1, 2, . . . , 90}. Si sta estraendo da una distribuzione U nif {1, 2, . . . , 90}. Estraendo con ripetizione n volte, ottengo un vettore proveniente da una U nif {1, 2, . . . , 90}. Se avessi scelto di riempire la scatola con palline numerate ma facendo attenzione ad inserire più volte solo certi numeri, avrei ottenuto una distribuzione diversa da quella Uniforme. Di conseguenza, estraendo con ripetizione n palline, avrei ottenuto un vettore proveniente da una distribuzione diversa. Esercizio 78. Con quale trasformazione posso simulare una variabile aleatoria X con f.r. FX ? Svolgimento Esercizio 78. Sia U ∼ U nif (0, 1) e g = FX . Allora, P (g −1 (U ) ≤ x) = P (U ≤ g(x)) = g(x) implica che X = FX−1 (U ). Esercizio 79. Se il vettore X è stato ottenuto generando n valori U nif (0, 1), come ottengo il vettore Y con distribuzione U nif (0, a), a > 0? Capitolo 3. Variabili Aleatorie 103 Esercizio 80. Se g(x) = 1 − e−λx con x ≥ 0, determinare la distribuzione di X = g −1 (U ) e dire quali numeri aleatori posso generare. Esercizio 81. Scrivere un algoritmo che restituisca un vettore di realizzazioni N (0, 1). Esempio 24. Per generare una numero aleatorio in C si possono usare le chiamate void srand(unsigned seed); int rand(void); di stdlib.h e quindi il codice seguente: #include <stdio.h> #include <stdlib.h> #include <time.h> double simul(int a) { double x; int n; srand(time(0)); n = rand(); x = a*((double)n)/RAND_MAX; /* printf("Il numero estratto è %lf\n", x); return x; } */ La funzione restituisce (stampa a video) un numero aleatorio in (0, a) proveniente da una legge Uniforme. Ogni numero ha uguale probabilità di "essere estratto" dalla funzione rand. 3.4 Serie numeriche e di funzioni Si è accennato sopra alle somme parziali di v.a., come vedremo tali somme sono legate alle somme parziali di elementi di una successione numerica. Sembra quindi opportuno ricordare alcuni concetti base riguardanti le serie numeriche. Serie numeriche Sia {ak }k∈Z una successione (numerica) di valori in A. Si definisce serie numerica la somma X ak per qualche insieme di indici IK . (3.53) k∈IK 104 Serie armonica. Sia ak = k α . Per α < −1 si ha ∞ X kα < ∞ (3.54) k=1 mentre per α > −1 la serie non converge. Serie telescopica. Un esempio classico è dato dalla serie di Mengoli ∞ X k=1 1 . k(k + 1) Una serie di addendo generico ak è detta telescopica se ak = ±(bk − bk+1 ), se cioè ci si può ricondurre a due somme in cui gli addendi si elidono a k successivi. Nel caso della serie di Mengoli si ha che ∞ X k=1 ∞ X 1 = k(k + 1) k=1 1 1 − k k+1 =1− 1 1 1 + − + . . . = 1. 2 2 3 Serie di funzioni Sia {fk }k∈Z una successione di funzioni. Definiamo la somma parziale X fk (x). k∈IK Siamo interessati ai limiti per k → ∞ e |IK | → ∞ (spesso |IK | = n). In particolare, affrontiamo i problemi già accennati in Esempio 7 ed Esempio 8. Proposizione 15. Valgono le seguenti: i) (passaggio al limite sotto il segno di integrale) se fk è continua in [a, b] e fk (x) → f (x) uniformemente, allora Z b Z fk (x)dx → a b f (x)dx a (3.55) Capitolo 3. Variabili Aleatorie 105 ii) (integrazione per serie) se fk è continua in [a, b] e n X fk (x) → f (x) uniformemente, k=1 allora Z b f (x)dx = a ∞ Z X k=1 b fk (x)dx (3.56) a iii) (derivazione per serie) se fk è derivabile in [a, b] e se n X fk (x) → f (x) e k=1 n X fk0 (x) → g(x) uniformemente k=1 allora, f 0 (x) = g(x) in [a, b]. (3.57) Ricordiamo i seguenti sviluppi in serie f (x + z) = n X xk d k f k=0 k! dxk (z) + Rn (x + z) (serie di Taylor in z) oppure scriviamo f (x) = n X (x − z)k dk f k! k=0 dxk (z) + Rn (x) (serie di Taylor in z) dove Rn è il resto di ordine n e noi saremo quasi sempre interessati al caso in cui lim x→z Rn (x) =0 (x − z)n (cioè Rn (x) = o((x − z)n ) per x → z). (3.58) Considerando n → ∞ e quindi Rn → 0 per una funzione sufficientemente buona, ricordiamo anche il seguente sviluppo f (x) = ∞ X xk dk f k=0 k! dxk (0) (serie di Maclaurin - di Taylor in 0). Se f è derivabile n volte in z, allora Rn è infinitesimo in z di ordine superiore a (x − z)n (resto di Peano), vale quindi (3.58). Se f è derivabile n + 1 volte in [a, b] con derivata f (n+1) continua, allora possiamo scrivere il resto come segue Z x (x − y)n (n+1) Rn (x) = f (y) dy, ∀ x ∈ [a, b]. (3.59) n! z 106 Inoltre, sotto le stesse ipotesi (e richiedendo che z ∈ [a, b]), |Rn (x)| ≤ γn+1 |x − z|n+1 , (n + 1)! γn+1 = max{|f (n+1) (x)| : x ∈ [a, b]}. (3.60) Esercizio 82. Ricavare la formula del binomio di Newton espandendo in serie di Maclaurin la funzione f (x) = (1 + x)n . Serie di potenze. Poniamo fk (x) = ak xk con {ak } successione numerica. Si ottiene la serie di potenze X ak x k (3.61) k∈IK per la quale è utile ricordare che ∞ X k ak x + k=0 ∞ X k bk x = ∞ X k=0 ck x k dove c k = ak + b k (banale!) k=0 e ∞ X k=0 ! ak x k ∞ X ! bk x k k=0 = ∞ X ck x k dove ck = k X as bk−s (moltiplicazione). s=0 k=0 Osservazione 29. Si noti che tali risultati valgono per serie numeriche, basta porre x = 1. Inoltre, ricordiamo che n X xk = k=0 1 − xn+1 1−x per |x| < 1 (serie geometrica). Alcuni limiti notevoli: x k fk (x) = 1 + → ex k n X xk k=0 n X k! → ex per x ∈ R se k → ∞ se n → ∞. ∞ d X k kx → x dx k=1 k=1 k per |x| < 1 se n → ∞ (3.62) Capitolo 3. Variabili Aleatorie n X xk → k=1 x 1−x 107 per |x| < 1 se n → ∞ (verificare!!) Esercizio 83. Calcolare 1 E 1−X nei seguenti casi 1. X è una v.a. con momenti Mr (X) = r−α e α > 1, 2. X è una v.a. con momenti Mr (X) = 1/4r , 3. X è una v.a. con momenti Mr (X) = r−1/3 . 3.5 Trasformate di densità Funzione caratteristica Sappiamo trovare la soluzione per una equazione del tipo x2 + 1 = 0? Introduciamo a tale scopo il numero complesso z = a + ib ed il suo coniugato ∗ z = a − ib dove a = <(z) è la parte reale di z e b = =(z) è la parte immaginaria di z, i è il numero immaginario per cui i2 = −1. Parte reale e parte immaginaria di un numero complesso variano in R. Il valore assoluto o modulo di un numero complesso |z| è dato dalla seguente relazione |z|2 = z z ∗ = a2 + b2 . (3.63) Ricordiamo la scrittura in parte reale e immaginaria di un esponenziale complesso z = eix = cos x+i sin x, z ∗ = e−ix = cos x−i sin x (formule di Eulero). (3.64) Si vede subito che |e±ix | = 1 (verificate!). Sia X una v.a. con legge di densità fX e Z iξX φX (ξ) = Ee = eiξx fX (x)dx = F[fX ](ξ). (3.65) supp(X) Definizione 39. La funzione a valori complessi φX : R 7→ C è la funzione caratteristica della variabile aleatoria X (o associata alla v.a. X). 108 Definizione 40. La funzione F[fX ](ξ) : R 7→ C è la trasformata di Fourier della funzione fX (o associata alla funzione fX ). Consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX . Scriviamo X φX (ξ) = EeiξX = eiξxk pk = F[{pk }](ξ) k∈IX che è in linea con le (3.21) ed è la funzione caratteristica per v.a. discrete. In generale, la trasformata di Fourier di una funzione f : A → R è definita da Z eiξx f (x)dx F[f ](ξ) = A mentre F[{pk }](ξ) è una trasformata di Fourier discreta. Proposizione 16. Valgono le seguenti proprietà : 1. φX (0) = 1, 2. |φX (ξ)| ≤ 1 per ogni ξ (è limitata), 3. φX è uniformemente continua, P 4. se Y = nj=1 aj Xj dove le Xj , j = 1, 2, . . . , n sono v.a. indipendenti e aj ∈ R per ogni j, allora n Y φY (ξ) = φXj (aj ξ). j=1 Dimostrazione. Dimostriamo le proprietà appena introdotte. Dalla (3.65) si vede subito che: 1. segue immediatamente considerando P (X ∈ supp(X)) = 1, 2. dalle proprietà del modulo, si ottiene Z iξx |φX (ξ)| = e fX (x)dx = EeiξX Z supp(X) ≤ |eiξx fX (x)|dx Zsupp(X) = |eiξx |fX (x)dx = E eiξX supp(X) =1 infatti fX ≥ 0 è una legge di densità e |eiξx | = (cos2 ξx + sin2 ξx)1/2 = 1. Capitolo 3. Variabili Aleatorie 109 3. si deve considerare |φX (ξ + h) − φX (ξ)| =EeiξX+ihX − EeiξX =E eiξX+ihX − eiξX linearità della media ≤EeiξX+ihX − eiξX dis. di Hölder =E eiξX · eihX − 1 =EeihX − 1 si è usato cos2 ξX + sin2 ξX = 1 =Mh che non dipende da ξ e quindi |φX (ξ + h) − φX (ξ)| ≤ Mh . Si deve notare che qui con il simbolo Mh si sta indicando una costante18 . Volendo fornire una rappresentazione esplicita, si ha q Mh =E (cos hX − 1)2 + sin2 hX √ =E 2 − 2 cos hX =2E| sin(hX/2)| ≤ 2 dove si sono usate formule ben note di trigonometria ed il fatto che sin x è una funzione limitata. Potevamo anche considerare la dis. di Minkowski, |eihX − 1| ≤ |eihX | + |1| ≤ 1 + 1. 4. in questo caso dobbiamo considerare iξ Ee Pn j=1 aj Xj =E n Y eiξaj Xj j=1 = n Y Eeiξaj Xj per l’indipendenza delle v.a. eiξaj Xj j=1 = n Y φXj (aj ξ) per definizione. j=1 18 Dal contesto sarà sempre possibile capire quando invece ci si riferisce al momento di ordine r indicato con il simbolo Mr . 110 Proposizione 17. Se X ha momento di ordine n+1 finito, cioè Mn+1 (X) < ∞, allora n n+1 X (iξ)r ≤ |ξ| φX (ξ) − M (X) (3.66) r (n + 1)! Mn+1 (|X|) r! r=0 Dimostrazione. Consideriamo lo sviluppo in serie di eix , otteniamo dalla (3.60) che γn+1 = 1 e |x|n+1 . |Rn (ix)| = |Rn (x)| ≤ (n + 1)! Quindi si ha che ! n n r r X X (iξ) (iξ) r φX (ξ) − =E eiξX − M (X) X r r! r! r=0 r=0 n r iξX X (iξ) r ≤Ee − X r! r=0 =E|Rn (X)| e la dimostrazione è conclusa. Da quanto visto possiamo enunciare i seguenti risultati. Teorema 18. Se per ogni ξ, |ξ|r Mr (|X|) = 0, r→∞ r! lim (3.67) allora φX (ξ) = ∞ X (iξ)r r=0 r! Mr (X). (3.68) Lemma 1. Se X ha momento assoluto di ordine n finito, cioè Mn (|X|) < ∞, allora (n) φX (0) = Mn (X). in Diamo inoltre il seguente risultato senza dimostrarlo. Teorema 19. Se φX ∈ L1 (R), allora X ∼ fX e 1. fX è uniformemente continua, 2. vale (3.13) per ogni x, (3.69) Capitolo 3. Variabili Aleatorie 111 3. fX (x) = F −1 [φX ](x) dove F −1 1 [φX ](x) = 2π Z e−iξx φX (ξ)dξ R è la trasformata inversa di Fourier. Dal teorema precedente arriviamo alla proposizione che segue (si veda anche la formula (3.3)). Proposizione 18. Se φX ∈ L1 (R), allora non ci sono punti di massa positiva (di probabilità positiva). Vale a dire P (X = x) = 0 per ogni x. Infatti, se φX ∈ L1 allora fX ∈ C e lim|x|→∞ fX (x) = 0 (si ha kfX k∞ ≤ kφX k1 ). Si possono ottenere molte informazioni interessanti dallo studio della funzione caratteristica che non intendiamo approfondire ora. Ricordiamo però che le code della funzione caratteristica danno informazioni sulla regolarità della densità (sulla continuità) mentre le code della densità danno informazioni sulla regolarità (continuità) della funzione caratteristica. In particolare, code che decadono esponenzialmente determinano derivabilità di ogni ordine. Inoltre diciamo che due v.a. X e Y possono avere momenti di ogni ordine uguali ma non necessariamente condividono la stessa legge di densità. Infatti stessa densità significa stessa funzione caratteristica (perché la trasformata di Fourier è un isomorfismo) ma queste possono non esistere in termini di momenti, deve essere verificata per φX e φY la condizione (3.67). Quindi le v.a. hanno momenti uguali di ogni ordine ma la funzione caratteristica non può essere scritta come in (3.68). Ricordiamo anche che due v.a. possono avere la stessa densità ma essere diverse. Cioè possono avere marginali di ordine k diverse, nel senso che per x ∈ D, Z Z w2 (x, u)du = g(x) w1 (x, y)dy = f (x) = A B dove w1 e w2 sono due densità congiunte tali che w1 = 6 w2 mentre f e g sono due marginali (univariate, k = 1 in questo caso!) tali che f = g. Esercizio 84. Sia X una v.a. tale che EX r = Γ(r + 1) r r! r a 1(r pari) = r a 1(r pari) , (r/2)! Γ( 2 + 1) Scrivere la funzione caratteristica di X. Esempio 25. Sia Zn = n X Xk , n ∈ N. k=1 Scrivere la funzione caratteristica φZn nei seguenti casi: a > 0, r > 0. 112 1. Xk ∼ N (0, 2−k ), 2. Xk ∼ N (2−k , σk2 ), 3. Xk ∼ N (n−1 , 3−k ). Si scrive subito iξ φZn (ξ) = Ee Pn k=1 Xk = n Y φXk (ξ) k=1 che diventa nei diversi casi Q 1 1 2 1 1 2 1. φZn (ξ) = nk=1 e− 2 2k ξ = e− 2 (1− 2n )ξ , ξ ∈ R 1 1 1 2 2 1 2. φZn (ξ) = Qn ei 2k ξ− 2 σk ξ = ei(1− 2n )ξ− 2 σn ξ , ξ ∈ R dove σn2 = 3. φZn (ξ) = Qn ei n ξ− 2 3k ξ = eiξ− 2 2 (1− 3n )ξ , ξ ∈ R k=1 k=1 1 1 1 2 1 1 1 2 2 Pn k=1 σk2 2 e allora 1. Zn ∼ N (0, σn2 ) dove σn2 = (1 − 2−n ) 2. Zn ∼ N (µn , σn2 ) dove µn = (1 − 2−n ), σn2 = Pn k=1 σk2 3. Zn ∼ N (1, σn2 ) dove σn2 = (1 − 3−n ). Funzione generatrice dei momenti La funzione generatrice dei momenti è definita dalla media EeξX con ξ ∈ R. Seguendo argomenti analoghi a quanto detto sopra per la funzione caratteristica si arrivano a determinare interessanti proprietà se tale media esiste. Il problema principale è che g(x) = eξx non è limitata. Non approfondiremo questi aspetti ma definiremo la funzione generatrice dei momenti, per ξ ≥ 0, come segue Z −ξX ψX (ξ) = Ee = e−ξx fX (x)dx = L[fX ](ξ). (3.70) supp(X) dove L[fX ](ξ) è la trasformata di Laplace di fX . Segue quindi che se X ≥ 0, ψX esiste sempre. In particolare, si ottiene: 1. ψX (0) = 1, (n) 2. (−1)n ψX (0) = Mn (X), Capitolo 3. Variabili Aleatorie 113 3. se per ogni ξ, ξk Mk (X) = 0 k→∞ k! lim allora " −ξX ψX (ξ) = Ee =E ∞ X (−ξX)k k=0 # k! = ∞ X (−ξ)k k=0 k! Mk (X). (3.71) Se consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX , scriveremo X Ee−ξX = e−ξxk pk k∈IX che è ancora in linea con le (3.21). Funzione dei momenti generalizzati Sia X ≥ 0 con densità fX . Definiamo la trasformata Z ∞ η−1 ϕX (η) = EX = xη−1 fX (x)dx = M[fX ](η) 0 dove M[fX ](η) è la trasformata di Mellin di fX . Funzione generatrice delle probabilità Sia X una v.a., allora GX (u) = EuX , |u| < 1 è detta funzione generatrice delle probabilità di X. Osservazione 30. Ogni variabile è identificata in maniera univoca dalla sua trasformata. 3.6 Alcune disuguaglianze fondamentali Teorema 20. (Dis. di Jensen) Sia g una funzione convessa e X una v.a. con valore atteso finito, allora Eg(X) ≥ g(EX). 114 Dimostrazione. Si deve applicare il Teorema 2. Dalla disuguaglianza appena introdotta e dalla Proposizione 9 si vede che, g ∈ Cb funzione convessa, g(EX) ≤ Eg(X) ≤ M. Teorema 21. (Dis. di Markov) Sia X una v.a. non negativa, allora ∀ > 0 P (X > ) ≤ EX Dimostrazione. Si utilizza la proprietà i) della media. Per ogni > 0 X X 1(,∞) (X) ≤ E . P (X > ) = E1(,∞) (X) = E X La dimostrazione è conclusa. Se X ∼ fX è una v.a. non negativa (X ≥ 0), possiamo dimostrare la disuguaglianza di Markov come segue. Dimostrazione alternativa. Dalla definizione di media per v.a. continue, scriviamo Z xfX (x)dx EX = supp(X) Z ≥ xfX (x)dx (X è positiva e l’integrale è non decrescente) {x∈supp(X) : x>} Z x = fX (x)dx (moltiplico e divido per ) {x∈supp(X) : x>} Z x ≥ fX (x)dx = P (X > ). {x∈supp(X) : x>} Notiamo che {x ∈ supp(X) : x > } = supp(X) ∩ (, ∞) Teorema 22. (Dis. di Chebyshev) Sia X una v.a., ∀ > 0 P (|X| > ) ≤ E|X|r , r r > 0. Capitolo 3. Variabili Aleatorie 115 Dimostrazione. Per ogni > 0, P (Y > ) = E1(,∞) (Y ) dove Y = |X| è una v.a. non negativa. Si applica allora la disuguaglianza di Markov moltiplicando e dividendo per Y r . Otteniamo r r Y Y E 1(,∞) (Y ) ≤ E r . r Y La dimostrazione è conclusa. Dimostrazione alternativa. Consideriamo X ∼ fX . Otteniamo Z r E|X| = |x|r fX (x)dx (definizione) Zsupp(X) Z r |x| fX (x)dx + |x|r fX (x)dx = {x∈supp(X):|x|>} Z{x∈supp(X):|x|≤} |x|r fX (x)dx (somma di quantità positive) ≥ {x∈supp(X):|x|>} Z |x|r r = fX (x)dx r {x∈supp(X):|x|>} ≥ P (|X| > ) (sto integrando sulle x : |x| > ⇒ |x|/ > 1). Consideriamo ora X ∼ (xk , pk ), k ∈ IX . Allora, X X |xk |r pk ≥ E|X|r = k∈IX |xk |r pk . k∈IX : |xk |> Seguendo passaggi simili a quelli considerati nel caso continuo si conclude la dimostrazione. Ricordiamo alcuni risultati sulle somme di v.a. (si veda la Sezione 3.3.5) senza dare le dimostrazioni. Teorema 23. (Dis. di Lévy) P max Sk ≥ β ≤ 2P (Sn ≥ β). 1≤k≤n Teorema 24. (Dis. di Doob) P max Xk ≥ β 1≤k≤n dove Xn+ = max{0, Xn } e β > 0. EXn+ ≤ β 116 Teorema 25. (Prima dis. di Kolmogorov) V ar Sn P max |Sk | ≥ β ≤ . 1≤k≤n β2 Teorema 26. (Seconda dis. di Kolmogorov) (β + 2a)2 . P max |Sk − ESk | ≥ β ≥ 1 − 1≤k≤n V ar Sn Teorema 27. (Dis. di Marshall) P max Sk ≥ β ≤ 1≤k≤n 3.7 3.7.1 β2 V ar Sn . + V ar Sn Convergenza di variabili aleatorie Convergenza, definizioni e discussione Sia Xn , n = 1, 2, . . . una successione di v.a. e sia fXn la successione delle leggi di densità delle Xn . Sia X una v.a. tale che Xn → X quando n → ∞. Dobbiamo caratterizzare il senso della convergenza. Si deve quindi dire in che senso Xn → X. Definizione 41. Xn → X in distribuzione e scriviamo d Xn → X (3.72) se P (Xn ≤ x) → P (X ≤ x) per n → ∞ (3.73) per ogni punto x in cui la funzione limite x 7→ P (X ≤ x) è continua. Se vale la (3.73) possiamo dire che Xn converge ad X in distribuzione (in distribution), in legge (in law), debolmente (weakly). Notiamo che la definizione appena data è in realtà il teorema di Helly-Bray e che la convergenza in distribuzione non riguarda direttamente la v.a. X ma la sua distribuzione di probabilità o appunto, la funzione di ripartizione (si veda ad esempio l’Esercizio 18). La convergenza in distribuzione non implica quindi la convergenza della funzione di densità! Si consideri anche la successione Xn con 1, x = 2 + n1 P (Xn = x) = 0, altrimenti. Il lemma che segue ci fornisce definizioni equivalenti di convergenza debole. Capitolo 3. Variabili Aleatorie 117 Lemma 2. (Portmanteau) Siano Xn ed X vettori di v.a., sono affermazioni equivalenti: d i) Xn → X, ii) Eg(Xn ) → Eg(X) per ogni funzione continua e limitata, ∀ g ∈ Cb , iii) Eg(Xn ) → Eg(X) per ogni funzione limitata e di Lipschitz, ∀ g ∈ Lipb , iv) P (Xn ∈ B) → P (X ∈ B) per ogni insieme di Borel B tale che P (X ∈ ∂B) = 0 dove ∂B è la frontiera di B. Osservazione 31. Consideriamo un intervallo della retta dei reali. La frontiera di [a, b] è costituita dall’insieme {a, b}. Sia X ∼ fX , allora sappiamo che P è assolutamente continua rispetto alla misura di Lebesgue e la misura di Lebesgue di ∂[a, b] = {a, b} = {a} ∪ {b} è zero. Dire che una v.a. converge in legge equivale a dire che la sua densità (funzione di ripartizione) converge debolmente, cioè se Xn → X in distribuzione, allora Eg(Xn ) → R Eg(X) dove g = 1B è la funzione indicatrice (infatti Eg(Xn ) = g dFXn ). Se g è una funzione semplice, per la linearità dell’integrale, continua a valere la convergenza debole. Se g è una funzione misurabile non negativa, continua a valere per la convergenza monotona19 e per linearità, continua a valere per una arbitraria funzione misurabile. d Osservazione 32. Se Xn → X non è detto che EXn → EX. Infatti la funzione g(x) = x non è limitata. In realtà, g(x) = xr con r > 0 non è limitata e allora d Xn → X 6⇒ Mr (Xn ) → Mr (X). Indichiamo con |Xn | ≤ M il fatto che, data una costante M > 0, P (|Xn | ≤ M ) = 1 e diciamo che Xn è uniformemente limitata (cioè, per ogni n). Teorema 28. Se la successione Xn è uniformemente limitata, allora d Xn → X ⇒ Mr (Xn ) → Mr (X) < ∞. 19 Sia {fn }n∈N una successione non decrescente di funzioni non negative su (Ω, A, µ). Se fn → f puntualmente, allora f è misurabile (f ∈ L1 ) e Z Z lim fn (x)dµ(x) = f (x)dµ(x). n→∞ Ω Ω 118 Dimostrazione. Consideriamo r = 1 e assumiamo che Xn ≥ 0, inoltre ricordiamo che P (Xn > M ) = P (X > M ) = 0, allora Z ∞ [P (Xn > x) − P (X > x)] dx |M1 (Xn ) − M1 (X)| = Z0 M = [P (Xn > x) − P (X > x)] dx 0 Z M P (Xn > x) − P (X > x)dx → 0, n → ∞ ≤ 0 dove il limite si ottiene dalla convergenza in distribuzione. Infatti, P (Xn > x) → P (X > x) per ogni punto di continuità di P (X > x) e l’integrale è finito per ogni n. Considerando la parte positiva e negativa di Xn si ottiene il risultato generale per r = 1. Dalle proprietà del valore medio si ottiene il risultato per r > 1 seguendo la stessa linea indicata sopra. Definizione 42. Xn → X in probabilità e scriviamo P Xn → X (3.74) se ∀ > 0 lim P (|Xn − X| > ) = lim P (ω : |Xn (ω) − X(ω)| > ) = 0 n→∞ n→∞ oppure ∀ > 0 lim P (|Xn − X| ≤ ) = lim P (ω : |Xn (ω) − X(ω)| ≤ ) = 1. n→∞ n→∞ La convergenza in probabilità richiede che asintoticamente l’insieme {ω : |Xn (ω)− X(ω)| > } diventi un insieme trascurabile, cioè di misura P nulla (si considera una distanza). La convergenza in probabilità implica la convergenza in distribuzione, non è sempre vero il contrario. In particolare, la convergenza in distribuzione implica la convergenza in probabilità solo se il limite X è una v.a. degenere. Definizione 43. Una v.a. X si dice degenere se è identicamente uguale ad una costante quasi certamente (q.c.), cioè se P (X = costante) = 1. La convergenza in probabilità non implica la convergenza dei momenti P Xn → X 6⇒ Mr (Xn ) → Mr (X). d Basta considerare la successione Xn per cui Xn = n × Ber(1/n) per ogni n, 1 1 → 1 e P (Xn = n) = → 0 n n quindi Xn → 0 in probabilità ma Mr (Xn ) = nr−1 e Mr (X) = 0. P (Xn = 0) = 1 − Capitolo 3. Variabili Aleatorie 119 Definizione 44. Xn → X in media r-esima e scriviamo M Xn →r X (3.75) se E|Xn − X|r → 0, r > 0, per n → ∞. Dalla disuguaglianza di Chebyshev P (|Xn − X| > ) ≤ E|Xn − X|r r si vede subito che la convergenza in media r-esima implica la convergenza in probabilità. Osserviamo inoltre che, per r pari (si veda la formula del binomio di Newton), r r X X r r k r−k |Xn − X| = ak [Xn ] [X] = ak [X]k [Xn ]r−k k k k=0 k=0 r dove ak = (−1)k (per r dispari basta considerare il corrispondente ak che tenga conto del modulo). Quindi si ottiene convergenza in media r-esima se esistono i momenti 1 ≤ k ≤ r di Xn e X. Se r = 1, parleremo semplicemente di convergenza in media. Se cioè E|Xn | < ∞, si deve verificare lim E|Xn − X| = 0. n→∞ Se ogni elemento della successione Xn ha momento secondo finito, allora Xn converge M in media quadratica a X, cioè Xn →2 X se lim E|Xn − X|2 = 0. n→∞ Le convergenze in media r-esima appena viste implicano la convergenza del corrispondente momento r-esimo, cioè se r = 1, 2 M Xn →r X ⇒ Mr (Xn ) → Mr (X) inoltre, la convergenza in media quadratica implica la convergenza in media, M2 (Xn − X) → 0 ⇒ M1 (Xn − X) → 0. 120 Basta considerare la disuguaglianza di Hölder (per p = 2, cioè la disuguaglianza di Cauchy-Schwarz) p E|Yn 1| ≤ E|Yn |2 · E|1|2 = (M2 (Yn ))1/2 per Yn = Xn − X. La convergenza in media r-esima implica la convergenza in probabilità, P M Xn →r X ⇒ Xn → X infatti, dalla disuguaglianza di Chebyshev, per r ≥ 1 Mr (Xn − X) → 0 ⇒ P (|Xn − X| > ) → 0 ∀ > 0. Osservazione 33. Sia X ∼ U nif (a, b) ed {fn } ∈ Lr ((a, b)) una successione. Notiamo che Z b 1 r E|fn (X) − f (X)| = |fn (x) − f (x)|r dx → 0 se n → ∞ (3.76) b−a a collega la convergenza in media r-sima con la convergenza nello spazio di Lebesgue Lr . Si consideri Yn = fn (X) e Y = f (X). La convergenza in Lp si può formalizzare come segue, se Yn ∈ Lr per ogni n, Y ∈ Lr e r ≥ 1, diciamo che Lr Yn → Y se lim E|Yn − Y |r = 0 n→∞ Definizione 45. Xn → X con probabilità 1 (o quasi certamente) e scriviamo q.c. Xn → X se P ( lim Xn = X) = P (ω : lim Xn (ω) = X(ω)) = 1. n→∞ n→∞ q.c. Notiamo che Xn → X significa P (| lim Xn − X| > 0) = P (ω : | lim Xn (ω) − X(ω)| > 0) = 0 n→∞ n→∞ oppure P (| lim Xn − X| ≤ 0) = P (ω : | lim Xn (ω) − X(ω)| ≤ 0) = 1. n→∞ n→∞ (3.77) Capitolo 3. Variabili Aleatorie 121 Si vede subito che la convergenza quasi certa è più forte della convergenza in probabilità. La convergenza q.c. implica quindi una convergenza puntuale (pointwise) in ω, cioè per ogni ω ∈ Ω \ N , Xn (ω) → X(ω), cioè a meno di un insieme N ⊂ Ω di misura nulla e quindi trascurabile per cui P (N ) = 0. Inoltre la convergenza q.c. implica la convergenza in probabilità (Lemma di Fatou). La convergenza quasi certa (almost sure) è anche detta convergenza quasi ovunque (almost everywhere), con probabilità uno (with probability one), in senso forte (strongly). Raramente ci si riferisce alla convergenza certa (o ovunque) in cui si ha convergenza quasi certa (quasi ovunque) a meno di insiemi di misura nulla. Esempio 26. La funzione fn (x) = xn converge punto per punto a 0 in [0, 1) ma non uniformemente. La convergenza non è puntuale in [0, 1]. Inoltre, converge q.o. in [0, 1] a 0 rispetto alla misura di Lebesgue, visto che µ({1}) = 0 se µ è la misura di Lebesgue. Esempio 27. Il limite puntuale di una successione di funzioni continue può essere una funzione discontinua solo se la convergenza non è uniforme. Si consideri fn (x) = (cos πx)2n . Esercizio 85. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1). Studiare la convergenza della successione di v.a. Zn = max {Xk }, 1≤k≤n n ∈ N. Esercizio 86. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a. Zn = X n , n ∈ N. Esercizio 87. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a. Zn = (−X)n , n ∈ N. Esercizio 88. Siano X, Y due v.a. in D ⊆ R, studiare la convergenza della successione di v.a. 1 Zn = X + Y, n ∈ N. n P q.c. Proposizione 19. Se Xn → X, allora esiste una sotto-successione tale che Xnk → X. Definizione 46. (Convergenza quasi completa) Diciamo che Xn → X quasi completamente se X ∀ > 0, P (ω : |Xn (ω) − X(ω)| > ) < ∞, k > 0. (3.78) n>k 122 Si ha quindi convergenza quasi completa se fissato (piccolo a piacere), la somma (3.78) è finita indipendentemente da quale k scelgo (grande a piacere). Se Xn converge quasi completamente allora converge quasi certamente, cioè converge così velocemente da assicurare la convergenza q.c. (Lemma di Borel-Cantelli). Definizione 47. (Convergenza stabile) Sia Xn una successione di v.a. definite in d (Ω, A, P ) e sia G ⊂ A. Diciamo che Xn → X stabilmente in G (G-stably in distribution) se E[Zf (Xn )] → E[Zf (X)] per ogni funzione f limitata e continua (f ∈ Cb ) e per ogni v.a. Z limitata e Gmisurabile. Osservazione 34. Per la convergenza in media o in probabilità dobbiamo conoscere le congiunte delle v.a. interessate mentre per la convergenza in distribuzione basta conoscere la marginale di ordine k se si studia la convergenza di una successione Xn ∈ R k . Teorema 29. Sia g : Rn 7→ Rm una funzione continua in ogni punto x ∈ D per cui si ha P (X ∈ D) = 1 (deve quindi essere che D = supp(X)). Valgono le seguenti : d d P P q.c. q.c. i) Xn → X, implica g(Xn ) → g(X), ii) Xn → X, implica g(Xn ) → g(X), iii) Xn → X, implica g(Xn ) → g(X). Osservazione 35. Notiamo che per una funzione g di Lipschitz, g ∈ Lip, vale la seguente P P • Xn → X, implica g(Xn ) → g(X). Si vede che g ∈ Lip implica che Ag ⊂ A, dove Ag ={ω ∈ Ω : |g(Xn (ω)) − g(X(ω))| ≤ M |Xn (ω) − X(ω)| < } } A ={ω ∈ Ω : |Xn (ω) − X(ω)| < M e quindi P (|g(Xn ) − g(X)| < ) ≤ P (|Xn − X| < P perché vale Xn → X. ) → 1 se n → ∞ M Capitolo 3. Variabili Aleatorie 123 Teorema 30. Siano {Xn }n , X e {Yn }n v.a., allora q.c. P P d i) Xn → X implica Xn → X, ii) Xn → X implica Xn → X, P d iii) Xn → c se e solo se Xn → c dove c è una costante, d P d iv) Xn → X e |Xn − Yn | → 0 implica Yn → X. Lemma 3. (Lemma di Slutsky) Siano {Xn }n , X e {Yn }n v.a. e c una costante. Se d Xn → X d e Yn → c, allora d i) Xn + Yn → X + c; d ii) Yn Xn → cX; d iii) Yn−1 Xn → c−1 X se c 6= 0. Teorema 31. (Teorema di continuità di Lévy) Siano {Xn }n e X v.a. in Rd . Allora d i) Xn → X se e solo se φXn (ξ) = Eeiξ TX n → Eeiξ TX = φX (ξ), ∀ ξ ∈ Rd se n → ∞ (3.79) ii) Inoltre, se la convergenza di φXn ad una funzione φ è puntuale e φ(ξ) è continua d in zero, allora φ = φX è la funzione caratteristica di X e Xn → X. Teorema 32. (Scheffé)20 Se {fn }n∈N è una successione di densità di probabilità con supporto in D ⊂ Rd tale per cui lim fn (x) = f (x) n→∞ q.o. in D, allora una condizione sufficiente affinché Z Z lim fn (x)dx = f (x)dx n→∞ B B per ogni Boreliano B è che f sia una densità di probabilità. 20 Attribuiamo il risultato a Sheffé perché è una sua formulazione ma ricordiamo, come anche lui ha fatto, che si poteva ottenere come caso particolare di risultati noti più generali. 124 Il teorema autorizza il passaggio al limite sotto il segno di integrale. Proposizione 20. Sono equivalenti i seguenti limiti: i) FXn (x) → FX (x) per ogni x ∈ E : FX ∈ C(E), ii) fXn (x) → fX (x) per ogni x ∈ E : fX ∈ L1 (E), iii) φXn (ξ) → φX (ξ) in accordo con il Teorema 31. Dimostrazione. Osserviamo che vale la doppia implicazione i) ⇔ ii). Infatti, se vale i), dalla 3.13 si ottiene ii). Inoltre, ii) ⇒ i) per il Teorema 32. Le implicazioni con la iii) sono ovvie. Esempio 28. Riprendiamo l’Esempio 25 e studiamo la convergenza in distribuzione della variabile Zn . Si devono considerare nei diversi casi lim µn = µ n→∞ e lim σn2 = σ 2 n→∞ e allora 1. Zn → Z ∼ N (0, 1) 2. Zn ∼ N (1, σ 2 ) dove σ 2 = P∞ k=1 σk2 (se finita!) 3. Zn ∼ N (1, 1). I seguenti esercizi sono estremamente istruttivi. Esercizio 89. Studiare la convergenza di Xn ∼ U nif (−n, n) con n ∈ N. Una v.a. univariata U nif ([0, `]) avrà densità 1/` dove ` è la lunghezza del supporto. Sembra ovvio che se ` → ∞ la densità tende a zero, tutti i punti hanno eguale probabilità di essere considerati ed è nulla. Allo stesso tempo però la f.r. può non essere nulla come nel precedente esercizio. Quindi l’operazione di passaggio al limite sotto il segno di integrale può condurre a situazioni da analizzare con cura. Esercizio 90. Studiare la convergenza di Xn ∼ fXn con n ∈ N dove fXn (x) = 2n2 x1(0,1/n) (x), x ∈ R. Capitolo 3. Variabili Aleatorie 125 Divergenza di variabili aleatorie. Ci siamo sempre interessati alla convergenza in R = (−∞, +∞) di una successione di v.a. {Xn }n∈N , diamo una definizione di divergenza. Definizione 48. La successione {Xn }n∈N a valori in R∗ = [−∞, +∞] diverge q.c. se ∀ M > 0, ∃ n∗ ∈ N : ∀ n > n∗ , P (|Xn | > M ) = 1. Se scelgo un M grande a piacere, allora |Xn | > M q.c. da qualche n∗ in poi se e solo se Xn → ±∞ quasi certamente. Esercizio 91. Siano Xj , j = 1, 2, . . . , n v.a. i.i.d. tali che E[Xj ]k = 1 1(k=2) , n k ≥ 1, 1. determinare la funzione caratteristica di Xj , 2. determinare la funzione caratteristica di Zn = Pn j=1 Xj , 3. determinare la legge di densità della v.a. Z∞ e dire che tipo di convergenza si ottiene. 3.7.2 Teoremi limite Studiamo il limite della v.a. somma parziale Sn = n X Xj (3.80) j=1 e della v.a. media campionaria n 1X 1 X̄n = Xj = S n . n j=1 n (3.81) dove la successione Xj , j = 1, 2, . . . deve essere caratterizzata opportunamente. Teorema 33. (Legge debole dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione di v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ e V ar(Xj ) = σ 2 < ∞ per ogni j. Allora P X̄n → µ se n → ∞. (3.82) 126 Dimostrazione. Scegliamo r = 2 per comodità, dalla disuguaglianza di Chebyshev, P (|X̄n − µ| > ) ≤ E|X̄n − µ|2 V ar(X̄n ) = 2 2 dato che E X̄n = µ. La varianza di X̄n si calcola come segue V ar(X̄n ) = n 1 X 1 V ar(Xj ) = σ 2 2 n j=1 n dato che le Xj sono i.i.d., segue dunque che P (|X̄n − µ| > ) ≤ σ2 →0 n 2 se n → ∞. Dalla definizione di convergenza in probabilità segue l’enunciato. Osserviamo che non è importante conoscere σ 2 . Infatti basta sapere che V ar(Xj ) < ∞ per ogni j. Dire che la varianza e finita vale a dire che esiste una costante M > 0 tale per cui V ar(Xj ) ≤ M per ogni j e quindi n 1 X nM V ar(X̄n ) = 2 V ar(Xj ) ≤ 2 . n j=1 n Si ottiene P (|X̄n − µ| > ) ≤ M →0 n 2 se n → ∞ e allora possiamo riformulare la legge debole dei grandi numeri come segue: Sia {Xj }j∈N una successione di v.a. indipendenti con EXj = µ e varianza finita P per ogni j. Allora X̄n → µ. Diamo ora una formulazione forte senza dimostrarla. Teorema 34. (Legge forte dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione di v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ e V ar(Xj ) = σ 2 < ∞ per ogni j. Allora q.c. X̄n → µ se n → ∞. (3.83) Capitolo 3. Variabili Aleatorie 127 Teorema 35. (Limite centrale) Sia Xj , j = 1, 2, . . ., una successione di v.a. i.i.d. con EXj = µ e V ar(Xj ) = σ 2 per ogni j. Allora, Sn − nµ d √ → N (0, 1) σ n e se n → ∞ X̄ − E X̄n d pn → N (0, 1) V ar(X̄n ) se n → ∞ (3.84) (3.85) dove E X̄n = µ e V ar(X̄n ) = σ 2 /n. Esercizio 92. Sia X ∼ U nif (0, 1) ed α > 1. Studiare la convergenza della v.a. Yn = (n(1 − X 1/n ))1/α con α > 0. Esercizio 93. Sia Xk , k ≥ 1 una successione di v.a. i.i.d. e U nif (0, 1/n). Studiare la convergenza della v.a. Yn = max0≤k≤n {Xk }. Esercizio 94. Sia Xk , k ∈ N una successione di v.a. i.i.d con media µ e varianza σ 2 per ogni k. Studiare la convergenza della successione Yn = n X (Xk − µ) σ k=1 n ∈ N. , Esercizio 95. Siano Xk ∼ U nif {−1, 1} v.a. indipendenti. Determinare il limite in distribuzione della v.a. −1/2 Zn = n n X Xk . k=1 Esercizio 96. Siano Xk ∼ P ois(λ), λ > 0 v.a. indipendenti e Yk = Xk −λ per k ∈ N. Si vuole studiare la distribuzione limite della v.a. Zn = (nλ) −1/2 n X Yk . k=1 Esercizio 97. Siano Xk ∼ Exp(λ), λ > 0 v.a. indipendenti e Yk = Xk − 1/λ per k ∈ N. Si vuole studiare la distribuzione limite della v.a. −1/2 Zn = n n X Yk . k=1 Osservazione 36. Si veda il test di Kolmogorov-Smirnov a pag. 166. 128 3.7.3 Metodi Monte Carlo Data una v.a. X ∼ fX ed una successione di v.a. Xj ∼ X, j = 1, 2, . . ., sotto le condizioni della legge dei grandi numeri sappiamo che Z n 1X P Xj → µ = EX = xfX (x)dx se n → ∞. n j=1 supp(X) Inoltre, se Xn → X in probabilità, vale P g(Xn ) → g(X) per ogni funzione continua e limitata g. Otteniamo allora n 1X P g(Xj ) → Eg(X) = n j=1 Z g(x)fX (x)dx. supp(X) Se X ∼ U nif (a, b), allora n 1 1X P g(Xj ) → n j=1 b−a Z b g(x)dx. a Possiamo quindi considerare una successione {Xj }j∈N con componenti i.i.d e ognuna convergente ad una v.a. Uniforme; di questa prendere solo una realizzazione finita, data del vettore X = (X1 , X2 , . . . , Xn ) per n sufficientemente grande; passare quindi alla v.a. media campionaria Ȳn relativa al vettore Y = (g(X1 ), g(X2 ), . . . , g(Xn )). La v.a. Ȳn torna utile nel calcolare un integrale di g numericamente complicato (di elevata complessità computazionale ad esempio). Le convergenze di cui si sta parlando si ottengono per n → ∞ ma in realtà si ottengono buone approssimazioni per n sufficientemente grande (a volte può essere sufficiente n = 30, 100, 1000.). La funzione somma in C: #include <stdio.h> #include <stdlib.h> Capitolo 3. Variabili Aleatorie 129 double sum(double v[]) { int i; int s; s=0; for(i=1; i<length(v)+1; i++) { s=s+v[i]; } return s; } Definiamo inoltre la seguente funzione #include <stdio.h> /* altre librerie se necessario */ #include <stdlib.h> double dist(double v) { double val; ...... /* il codice */ return val; } che restituisce un valore secondo la trasformazione della Proposizione 14. Il Metodo Monte Carlo (MMC in breve) in C: #include <stdio.h> #include <stdlib.h> void MMC(void) { double v[500]; double V[500]; int i; for(i=1; i<=500; i++) { v[i]=simul(1); v[i]=dist(v[i]); /* qui cambiamo distribuzione al vettore v che era uniforme */ 130 } /* supponiamo di inserire qui il codice che restitutisce il vettore V=g(v) */ printf("il valore dell’integrale è %lf\n", sum(V)/500); } dove sum(V)/500 restituisce la media campionaria (avendo simulato V che può essere visto come una realizzazione di un vettore aleatorio). Esercizio 98. Si verifichi che il codice non restituisce errori. Esempio 29. Si vuole trovare la successione di v.a. {Xj }j∈N tale da approssimare con il MMC l’integrale Z 2 g(x)e−x dx. (3.86) R Si vede subito che Z 2 g(x)e−x dx = √ πE[g(X)] dove X ∼ N (0, 1/2) R e allora √ X n π g(Xj ) dove Xj ∼ N (0, 1/2) n j=1 (3.87) è la v.a. media campionaria cercata. Ci riferiremo al problema appena affrontato come al problema MC. Quindi, seguendo il precedente Esempio 29 diremo che la caratterizzazione (3.87) di una v.a. media campionaria è soluzione MC per l’integrale (3.86), cioè (3.87) è soluzione del problema MC per l’integrale (3.86). Se la funzione g non è specificata, allora la soluzione del problema MC sarà data dalla caratterizzazione del tipo (3.87) ed una forma esplicita per la funzione g. Esempio 30. Trovare una soluzione MC per l’integrale Z ∞ β xα e−x dx, α, β > 0. 0 Si ottiene n βX α X n j=1 j e quindi g(x) = βxα . Xj ∼ Exp(1) Capitolo 3. Variabili Aleatorie 131 Esercizio 99. Trovare una soluzione MC per i seguenti integrali: R 2 1. R x3 e−x dx, R∞ 2 2. 0 x3 e−x dx, R 3. R (1 + x2 )−1/2 dx Stima per intervalli. Dal teorema del limite centrale sappiamo che, per n → ∞, Pn 1 d j=1 g(Xj ) − Eg(X) √ n p n → N (0, 1) Zn = V ar(g(X)) ed è quindi possibile identificare un intervallo di confidenza21 del tipo σ σ Eg(X) − zα/2 √ , Eg(x) + z1−α/2 √ n n dove σ 2 = V ar(g(X)) e z1−α/2 = −zα/2 = zα∗ , per il quale P | lim Zn | ≤ zα∗ = P −zα∗ ≤ lim Zn ≤ zα∗ = 1 − α. n→∞ n→∞ Il percentile zα∗ può essere individuato dalla tavola dei percentili in Tabella 7.1. 3.8 Processi aleatori I processi aleatori si possono classificare per spazio e tempo. Una realizzazione del processo Xt rappresenta un osservazione al tempo t di un fenomeno che può essere continuo o discreto, in relazione a questo diciamo che il processo a valori in uno spazio continuo o discreto (o semplicemente Xt è a spazio continuo o discreto). Il tempo t può essere continuo ma se pensiamo che le osservazioni siano possibili solo a tempi discreti, allora possiamo caratterizzare Xt dicendo che può essere a tempo continuo o discreto. Spazio continuo e tempo continuo La soluzione del problema di Cauchy ∂u ∂ 2u (x, t) = (x, t), ∂t ∂x2 21 Si veda il Capitolo 5. x ∈ R, t > 0 (3.88) 132 u(x, 0) = g(x) si può scrivere come (supponiamo g ∈ Cb ) w2 e− 4t u(x, t) = Eg(x + Bt ) = g(x + w) √ dw = 4πt R Z Z (w−x)2 4t e− g(w) √ R 4πt dw dove Bt , t ≥ 0 è un moto Browniano con legge di probabilità Z P (Bt ∈ A) = A w2 e− 4t √ dw. 4πt (3.89) Il moto Browniano è un processo aleatorio ”elementare” (volendo semplificare) nel senso che rappresenta la base di partenza nello studio di processi aleatori molto più generali e guidati dalle Stochastic differential equations o dalle più complicate Stochastic partial differential equations (il lettore interessato è invitato a fare una ricerca in rete, ad esempio utilizzando Google!). Il moto Browniano rappresenta il movimento di una particella, la diffusione del calore, l’andamento di un oggetto finanziario e molto altro ed è associato alla equazione (3.88). È quindi di interesse in Fisica, Economia, Finanza e tutte le scienze applicate. Al variare del tempo, rappresenta un fenomeno di evoluzione governato dalla equazione del calore. La (3.89) può quindi essere letta come la probabilità che al tempo t una particella (o altro) si trovi in A (o occupi una delle posizioni contenute nell’insieme A, un punto di A). La soluzione del problema di Cauchy ∂ 2u ∂u (x, t) = (x, t), ∂t ∂x2 u(x, 0) = g(x) x ∈ D, t > 0 (3.90) si può scrivere come u(x, t) = E[g(x + Bt ), t < τD ], x ∈ D, t > 0 (3.91) dove τD = inf{s ≥ 0 : Bs ∈ / D} è il primo istante in cui il moto Browniano Bs esce da D. Si noti come oggetti aleatori possano essere utilizzati per fornire interessanti spunti nello studio delle equazioni a derivate parziali e quindi nei vari modelli (o fenomeni) collegati. Esercizio 100. Sia u(x, t) la soluzione di (3.88). Scrivere il problema associato a v(x, t) = u(x, 2t). Capitolo 3. Variabili Aleatorie 133 Esempio 31. La Figura 3.4 da un idea di traiettoria del moto Browniano, mentre nella Figura 3.3 si è rappresentata una realizzazione di un vettore (sempre di dimensione 300) di v.a. Xi con ti = i, i = 1, 2, . . . , 300. È stata ottenuta considerando >rnorm(n, media, varianza) di R che genera un vettore con componenti Xi ∼ N (0, ti ), i = 1, 2, . . . , 300. Il moto Browniano Bi è stato ottenuto dalle v.a. Xj ∼ N (0, 1) dove Bi = i X Xj , i = 1, 2. . . . , 300. j=1 Si è considerata la funzione di R >cumsum(vector) che restituisce un vettore la cui componente i-esima è data dalla somma delle prime i componenti. Esercizio 101. Scrivere una soluzione MC per l’integrale Z 2 f (y)e−ay dy, f ∈ Cb (R), a > 0. R Spazio continuo e tempo discreto Si supponga di dover analizzare delle osservazioni che dipendono dal tempo, che sono state osservate non allo stesso istante ma in un arco di tempo. Supponiamo che tali osservazioni siano state effettuate nei tempi t = (t1 , t2 , . . . tn ) dove ovviamente 0 ≤ t1 < t2 < · · · < tn < ∞. Tali osservazioni sono tra loro legate, nel senso che rappresentano lo stesso fenomeno e la sua evoluzione nel tempo. Noi però conosciamo di tale fenomeno solo quello che abbiamo osservato. Possiamo allora pensare che le osservazioni fatte siano realizzazioni di uno stesso oggetto aleatorio ad istanti dati dal vettore t. In particolare tale oggetto è un processo aleatorio, diciamo Xt indicizzato da t ∈ t e la collezione di dati {Xt , t ∈ t} è una serie storica. Il processo è a tempo discreto e le equazioni governanti sono discrete. 200 0 −400 −200 rnorm(300, 0, c(1:300)) 400 600 134 0 50 100 150 200 250 300 Index −5 −10 −15 cumsum(rnorm(300, 0, 1)) 0 Figura 3.3: Collezione di Xi ∼ N (0, ti ). 0 50 100 150 200 250 300 Index Figura 3.4: Esempio di traiettoria di un moto Browniano. Capitolo 3. Variabili Aleatorie 135 Processi multi-parametro Sia {Xz , z ∈ Rn } con n > 1 un processo a valori reali. Il processo è indicizzato dalla variabile z ∈ Rn che gioca il ruolo di multi-parametro. La realizzazione di X può dipendere dai parametri z = (z1 , . . . , zn ) e X viene anche chiamato campo aleatorio. Se z ∈ R2 , possiamo considerare il processo come un campo aleatorio sul piano, se z ∈ R3 pensiamo ad un campo nello spazio etc., in ogni caso rappresenta un oggetto molto utile nello studio di fenomeni ambientali (statistica ambientale/statistica spaziale). 136 Capitolo 4 Gli universi campionari 4.1 Popolazioni finite Supponiamo d’ora in avanti che la popolazione allo studio sia in corrispondenza biunivoca con un insieme delle etichette P = {1, 2, . . . , i, . . . , N } e che possiamo dunque riferirci alla unità i − esima della popolazione considerando la etichetta i − esima di tale insieme, diremo anche che l’insieme P rappresenta la popolazione allo studio. Ogni campione c di dimensione n sarà allora esprimibile con cs = {ki1 , ki2 , . . . , kij , . . . , kin } ed s = {i1 , i2 , . . . , ij , . . . , in } dove si è osservata la caratteristica k per ognuna delle n unità i di P appartenente al sottoinsieme s ∈ Sn e Sn rappresenta l’insieme dei campioni di dimensione n che è possibile costruire a partire dalle unità (etichette) di P, Sn è detto universo campionario. Introduciamo la notazione seguente P (cs ) = P (ki ∈ cs ) = P (i ∈ s) = πi P ({ki , kj } ∈ cs ) = P ({i, j} ∈ s) = πi,j dove P (cs ) è la probabilità di osservare il campione cs e πi , πi,j sono le probabilità del primo e secondo ordine rispettivamente, cioè le probabilità che in s sia compresa l’etichetta i o siano comprese entrambe le etichette i, j. Inoltre, X P (cs ) = 1. s∈Sn 137 138 Introduciamo anche la variabile indicatrice δ(i, s) = 1(i∈s) = 1, i ∈ s 0, altrimenti e la media E A [g], che è la media di g(x) per tutti i valori x ∈ A (data una opportuna funzione g del campione). è il caso di notare che (media sullo spazio campionario) X X E Sn [δ(i, s)] = δ(i, s)P (cs ) = δ(i, s)P (i ∈ s) = P (δ(i, s) = 1) = πi s∈Sn s∈Sn che è la probabilità di considerare proprio l’unità i-esima e E Sn [δ 2 (i, s)] = E Sn [δ(i, s)]. Se invece si considera (media sulle etichette o sulla popolazione) E P [δ(i, s)] = N 1 X ν(s) ν(cs ) n = = δ(i, s) = N i=1 N N N dove ν(·) è l’ampiezza effettiva di s o di cs . Le probabilità di inclusione del secondo ordine sono date da E Sn [δ(i, s)δ(j, s)] = πi,j . Definiamo disegno campionario la coppia (Sn , P (·)) ed introduciamo la funzione di riduzione r(s) del campione s, in particolare s? = r(s) è il campione ottenuto da s privandolo della ripetizione e dell’ordine sulle unità campionarie. Per un campionamento non ordinato senza ripetizione sarà allora s? = s ed in generale δ(i, s) = δ(i, r(s)) quindi presi s ∈ S e s? ∈ S ? si ha P (δ(i, s) = 1) = P (δ(i, s? ) = 1). Universi dei campioni con ripetizione Universo Bernoulliano È l’universo dei campioni ordinati, con ripetizione e a probabilità costanti caratterizzato da: 1 P (cs ) = n , N 1 πi =1 − (1 − )n , N 1 2 πi,j =1 − 2(1 − )n + (1 − )n . N N Capitolo 4. Gli universi campionari 139 Distribuzione della n-upla (x1 , x2 , . . . , xn ): f (x1 , x2 , . . . , xn ) = n Y fi (xi ) i=1 e µ̂X = x̄ Distribuzione della variabile P 2 σX̄ = 2 σX n xi : La legge distributiva è N k n−k f (k) = p q n e quindi la legge binomiale, si ha E[K] = np E[P ] = p σk2 = npq, pq σp2 = n dove P = K/n. Distribuzione della r-upla (n1 , n2 , . . . , nr ): f (n1 , n2 , . . . , nr ) = Qr r Y n! i=1 ni ! pni i i=1 Osserviamo che considerata la variabile n n X X (nfi − npi )2 (fi − pi )2 2 χ = =n npi pi i=1 i=1 (dove fi sono frequenze) possiamo scrivere 1 f (n1 , n2 , . . . , nr ) ∝ exp − χ2 . 2 Osservazione 37. Introduciamo una variante dell’universo Bernoulliano. Prescindendo dalla permutazione sulle etichette si ottiene: P (cs ) = , n , N +n−1 N −1 (N − 2)(N − 1) =1 − 2 + . N + n − 1 (N + n − 2)(N + n − 1) πi = πi,j 1 N +n−1 n 140 Universi dei campioni senza ripetizione Si considerano qui gli universi campionari che differiscono solo per l’ordine delle unità, in sostanza quindi dalle permutazioni n! delle unità campionarie. Universo esaustivo È l’universo dei campioni ordinati, senza ripetizione e a probabilità costanti caratterizzato da: 1 , n! P (cs ) = N n n , N n(n − 1) = . N (N − 1) πi = πi,j Universo in blocco È l’universo dei campioni non ordinati, senza ripetizione e a probabilità costanti caratterizzato da: 1 P (cs ) = N n , n , N n(n − 1) = . N (N − 1) πi = πi,j Osserviamo che N −1 n−1 N n πi = X s∈S s3i P (s) = N −2 n−2 N n e πi,j = X s∈S s3i,j P (s) = . Distribuzione della n-upla (x1 , x2 , . . . , xn ). Le stime valgono per entrambi gli universi campionari visto che si distinguono solo per l’ordine. Otteniamo µ̂X = x̄ ⇒ E[X̄] = µX 2 σ̂X̄ = 2 N −n σX n N −1 Capitolo 4. Gli universi campionari 141 n 1X N n−1 2 s = (xi − x̄)2 ⇒ E[S 2 ] = σX n i=1 N −1 n 2 n N −1 1 X 2 s = (xi − x̄)2 ⇒ E[S 2 ] = σX N n − 1 i=1 2 n 1X r x̄r = x ⇒ E[X̄r ] = µX r n i=1 i N −n1 (µX 2r − µ2X r ). N −1n r Si sta usando la notazione Y = X e quindi µY = EY . 2 σX̄ = r P Distribuzione della variabile xi . Dobbiamo distinguere tra i due casi in cui X è una variabile quantitativa oppure dicotomica, nel primo caso parliamo quindi della distribuzione dei totali T , mentre nel secondo della distribuzione della variabile k. Iniziamo dalla descrizione della variabile k. La v.a. X può assumere solo i valori 0 oppure 1, i campioni sono senza ripetizione e possiamo prescindere dall’ordine visto che dipende solo dalla permutazione n!, otteniamo quindi la legge ipergeometrica a due modalità N2 N1 f (k) = k n−k N n dove, al denominatore, abbiamo le combinazioni di N = N1 + N2 elementi in classi di n in cui k sono presi tra N1 di essi e n − k tra N2 , ad esempio N1 sono gli X = 1 ed N2 sono gli X = 0. Allora E[K] = np 2 σK = N −n npq N −1 ed ovviamente per P = K/n E[P ] = p σP2 = N − n pq . N −1 n Si poteva scrivere f (k) = f (k, n − k) = f (n1 , n0 ) e p1 = k n1 = . n n 142 Distribuzione della r-upla (n1 , n2 , . . . , nr ). diventa La legge ipergeometrica ad r modalità Qr N i f (n1 , n2 , . . . , nr ) = i=1 ni N n con Pi = Ni /n, allora E[Ni ] = npi e 4.2 N −n npi qi N −1 N − n p i qi . N −1 n 1 χ2 f (n1 , n2 , . . . , nr ) ∝ exp − . 2 (1 − Nn ) E[Pi ] = pi Osserviamo che 2 σN = i σP2 i = Popolazioni virtuali Semplificando molto, diremo solo che ad una popolazione potrà sempre essere associata una legge di probabilità. Tale legge sarà una legge di densità. Diremo quindi che una popolazione P è rappresentata dalla v.a. X, alternativamente diremo che X è la popolazione oggetto di studio. Se X è la popolazione oggetto di studio, allora ogni realizzazione delle v.a. X è legata alla f.r. FX e quindi alla sua legge di densità fX . In questo caso, cioè quando X è continua, parleremo di popolazione continua. Scriveremo P∼X dove P è la popolazione oggetto di studio. Noi ci occuperemo solo di popolazioni virtuali per pura comodità di trattazione, nelle applicazioni invece si è condotti a considerare tale popolazioni perché non sempre si è in grado di identificare tutti gli elementi di una popolazione oggetto di studio. Funzione di verosimiglianza Sia X la popolazione oggetto di studio ed x un campione osservato. Si definisce funzione di verosimiglianza la funzione L(θ; x) = L(θ; x1 , . . . , xn ) = n Y fX (xi ; θ). (4.1) i=1 Si osservi che la legge distributiva della popolazione fX (x; θ) è funzione di x (di parametro θ) mentre nel definire la funzione di verosimiglianza si definisce una funzione Capitolo 4. Gli universi campionari 143 di θ in cui i dati campionari svolgono il ruolo di parametri (infatti sono dati, una volta osservato il campione). A questo punto la variabile di interesse è θ. Dobbiamo inoltre osservare che si è introdotta implicitamente la condizione di indipendenza nelle realizzazioni di X. Infatti, per x ∈ Rn , la legge di densità del vettore X si può fattorizzare come segue fX (x) = fX1 ,...,Xn (x1 , . . . , xn ) = n Y fXi (xi ) i=1 solo se le componenti di X sono indipendenti a due a due. Si assume quindi che le osservazioni fatte siano realizzazioni indipendenti della stessa variabile. Si noti inoltre che nella formula (4.1) si è assunto anche che la v.a. fossero identicamente distribuite, cioè Xi ∼ X per ogni i = 1, 2, . . . , n. Vogliamo introdurre una notazione compatibile con una trattazione unificata di funzione di verosimiglianza e quindi trattare allo stesso modo variabili continue e discrete. Si è già introdotta la scrittura dP = f · dµ (4.2) dove P è la probabilità associata ad una v.a. X. Quindi, scriviamo Z Z f · dµ = 1B f · dµ = per il Boreliano B ∈ B P (X ∈ B) = B dove f è detta densità di P e µ è la misura rispetto alla quale si sta calcolando la probabilità P (quindi f è la densità di P rispetto alla misura µ). Caratterizzare X, significa anche caratterizzare µ e di conseguenza f . Se X è una variabile continua, allora µ è la misura di Lebesgue e f = fX è una densità continua o integrabile. Se invece X è una v.a. discreta, allora f sarà una densità discreta e µ dovrà essere tale da associare massa di probabilità solo ai valori di X in B, cioè solo ai punti x ∈ spet(X) che si trovano anche in B. Scriveremo, come già introdotto nei capitoli precedenti, Lebesgue, se X ∼ fX e quindi è continua dµ = Dirac relativa a spet(X), se X ∼ (xk , pk ), k ∈ IX e quindi è discreta e di conseguenza Z 1B (x) fX (x)dx, supp(X) X P (X ∈ B) = 1B (xk ) pk , k∈IK se X è continua, se X è discreta. . 144 La legge di densità f è uguale rispettivamente a f (x) = fX (x) o f (xk ) = P (X = xk ) = pk se X è continua o discreta. Se le pk dipendono da un parametro θ, scriviamo f (xk ; θ) = pk . Si consideri ad esempio X ∼ P ois(λ), allora f (xk ; θ) = f (k; λ) = e−λ λk . k! Se la v.a. allo studio è una Gaussiana, allora x2 k e− 2σ2 f (xk , θ) = f (xk ; µ, σ 2 ) = √ 2πσ 2 dove θ = (µ, σ 2 ) è un vettore. Si deve notare che qui µ ∈ R è la media teorica della variabile X (non la misura di cui sopra). Si ottiene quindi, per una v.a. X che caratterizza la popolazione allo studio ed un campione x di dimensione n, che n Y fXj (xj ) se X è continua, n Y j=1 L(θ; x) = f (xi ; θ) = n Y i=1 pk se X è discreta. k=1 Osservazione 38. Indipendentemente dal fatto che X sia continua o discreta (e quindi che la densità sia continua, integrabile o discreta) si deve notare che L(θ; x) è una funzione continua e derivabile in θ. Capitolo 5 Inferenza statistica 5.1 Stima parametrica - Il problema di stima parametrica puntuale è quello di stimare un parametro incognito θ ∈ Rm della legge distributiva di una popolazione X legata al campione, potremmo anche essere interessati non alla stima di θ ma di una sua funzione τ (θ) oppure ad una stima intervallare di θ o τ (θ). Diciamo statistica una funzione g dei dati campionari come ad esempio g(x) = n X xi g(x) = i=1 n X x2i , i=1 dato il campione empirico x. Il campione x è una realizzazione del vettore aleatorio X ∈ Rn che rappresenta la popolazione oggetto di studio. La legge di X, diciamo fX (x; θ), dipende da un parametro θ. Si chiama stimatore di un parametro θ ∈ Rm una statistica θ̂ opportunamente individuata e funzione dei dati campionari θ̂ = g(x1 , x2 , . . . , xn ) dove x = (x1 , x2 , . . . , xn ) ∈ U ⊂ Rn è il campione osservato ed U l’universo campiocθ ∈ Rm costituito dai valori dello stimatore θ̂ nario, al variare di x in U resta definito U ottenuti per i diversi campioni x ∈ U . In particolare, sia g : Rn 7→ Rm , allora cθ ={θ̂; θ̂ = g(x), x ∈ U ⊆ Rn } U con m ≥ 1. Dato lo stimatore θ̂ = g(x) dove x è una realizzazione del vettore aleatorio X, allora sembra immediata la definizione di v.a. stimatore Θ̂ = g(X)1 . Nel seguito Pn Se g(x) = n1 i=1 xi allora Θ̂ = X n è la v.a. media campionaria. Così per altre g corrispondenti ad altre v.a. definite nei capitoli precedenti. 1 145 146 scriveremo anche Z X g(x) dFX (x) = E[g(X)] E [g] = (5.1) supp(X) (come già definito, si è solo introdotto il simbolo E X ) e X E U [g] = g(x) f req{x ∈ U } (5.2) x∈U che equivale a scrivere cθ U Z E [g] = θ̂ dFΘ̂ (θ̂) = E[Θ̂]. (5.3) cθ U cθ , allora E A [g] sarà la media di tutti i valori che θ̂ = g(x) assume al Quindi se A ∈ U variare di θ̂ ∈ A o equivalentemente al variare di x ∈ g −1 (A). Si noti che (X = x) ≡ (Θ̂ = θ̂) (i due eventi sono equivalenti) e allora E[Θ̂] = E[g(X)]. 5.1.1 Proprietà desiderabili di uno stimatore Assumiamo ora per comodità che θ ∈ R sia il parametro oggetto di stima e che sia nota la forma distributiva di X nella popolazione2 . Dato che θ̂ è scritto in funzione di c g, la (5.3) si può anche scrivere come E Uθ [θ̂] ed ovviamente intendiamo la media di cθ . tutti i valori θ̂ di U Correttezza. Uno stimatore Θ̂ si dice corretto se vale E Uθ [θ̂] = θ c o equivalentemente E[Θ̂] = θ mentre si dice distorto nel caso Dn = E[Θ̂] − θ 6= 0 2 Con il termine popolazione si è qui rappresentato l’insieme delle unità statistiche sulle quali osservare la caratteristica X (o la caratteristica espressa dalla v.a. X) ma ci si poteva anche riferire alla popolazione X visto che esiste un isomorfismo che collega ogni sottoclasse delle unità statistiche aventi stessa caratteristica Xi ad una densità di tale sottoclasse. Capitolo 5. Inferenza statistica 147 dove Dn è detta distorsione dello stimatore Θ̂ ed n in pedice indica la numerosità campionaria di x. La distorsione Dn può essere tale per cui lim Dn = 0 n→∞ e allora diciamo che Θ̂ è asintoticamente corretto. Esercizio 102. Verificare se la v.a. varianza campionaria n Sn2 = 1X (Xk − X̄)2 n k=1 è uno stimatore corretto. Esercizio 103. Si consideri n 2 Sn−1 1 X (Xk − X̄)2 . = n − 1 k=1 Verificare se è uno stimatore corretto. Esercizio 104. Verificare che lo stimatore (v.a.) media campionaria è uno stimatore corretto. Indicheremo in generale la v.a. varianza campionaria con S 2 e con s2 la sua realizzazione (o varianza campionaria osservata). Più in dettaglio indicheremo con Sn2 la v.a. varianza campionaria scritta sopra (e con s2 o s2n la sua realizzazione) mentre indicheremo con 2 Sn−1 = n S2 n−1 n la v.a. varianza campionaria corretta (e con s2 o s2n−1 la sua realizzazione). Consistenza. Ipotizziamo ora che alla simulazione i-esima si sia osservato un campione xi ∈ Rn di dimensione campionaria n e si abbia la stima θ̂i di θ ∈ R inoltre supponiamo di aver effettuato un numero I di simulazioni ovviamente rispettando la natura campionaria di xi . Considerando cioè che l’universo campionario U 3 sia lo 3 In realtà in situazioni come questa l’universo campionario è effettivamente lo stesso mentre ogni simulazione va pensata come una estrazione di un diverso campione da uno stesso contenitore U . In linea teorica quindi simulando campioni all’infinito si potrebbe ricreare lo stesso U e di fatto procedendo ad un numero opportunamente grande di simulazioni possiamo costruire un ottimo banco di prova per le proprietà desiderabili di uno stimatore. 148 stesso in ognuna delle I simulazioni e sia quindi la stessa anche la legge fX (x; θ) della popolazione X oggetto di studio (pensiamo ad esempio alle simulazioni fatte partendo dalla stessa legge distributiva in cui θ = µ, media della popolazione). Otteniamo così un insieme cθ (I, n) = {θ̂i ; θ̂i = g(xi ), xi ∈ U, i = 1, 2, . . . , I} U indicizzato rispetto ad n per via della numerosità campionaria di xi . Sia Θ̂ uno stimatore corretto, diciamo che è consistente se per piccolo a piacere si ha cθ (I, n) : |θ̂i − θ| < } = 1 lim f req{θ̂i ∈ U n→∞ postulando in questo modo la convergenza in probabilità dello stimatore Θ̂ al valore vero θ e affermando che uno stimatore consistente aumenta in stabilità all’aumentare della numerosità campionaria. Teorema 36. Sia Θ̂ uno stimatore corretto o asintoticamente corretto, allora condizione sufficiente affinché Θ̂ sia consistente4 è che 2 lim σΘ̂ = 0. n→∞ Esercizio 105. Dimostrare che lo stimatore media campionaria è consistente. Efficienza. Dobbiamo innanzitutto distinguere tra efficienza relativa ed efficienza assoluta. Dati due stimatori corretti si dice efficiente (in senso relativo) quello dei due con varianza minima. Siano allora Θ̂1 e Θ̂2 corretti, se vale 2 2 σΘ̂ ≤ σΘ̂ 1 2 diciamo che Θ̂1 è efficiente rispetto a Θ̂2 . Dato uno stimatore corretto Θ̂e si dice efficiente (in senso assoluto) se è lo stimatore di varianza minima nella classe degli stimatori corretti del parametro θ. Siano Θ̂e , Θ̂ ∈ Cθ e sia Cθ la classe degli stimatori corretti di θ, allora 2 2 ∀ Θ̂ ∈ Cθ . σΘ̂ e ≤ σΘ̂ Teorema 37. (Disuguaglianza di Cramer-Rao) Considerato un campione x ∈ Rn estratto da una popolazione con funzione di densità fX (x; θ) e θ ∈ Θ, se valgono: i) il campo di definizione5 della v.a. X non dipende da θ, ii) la funzione di verosimiglianza L(θ; x) ammette derivata prima e seconda rispetto a θ, 4 5 2 Considerato θ0 il valore vero ( da stimare ) e E[Θ̂] = θ, otteniamo E[Θ̂ − θ0 + θ0 − θ]2 = σΘ̂ + Dn2 . Si intende lo spettro o il supporto a seconda della natura della v.a. X. Capitolo 5. Inferenza statistica 149 iii) Θ̂ è uno stimatore corretto di θ ( cioè Θ̂ ∈ Cθ ), allora si ha 2 E[Θ̂ − θ]2 = σΘ̂ ≥ E 1 d log L 2 . dθ Esercizio 106. Siano X ∼ P ois(λ) e Y ∼ U nif (0, a) due v.a. indipendenti. Si vogliono trovare le stime λ̂ e â di λ e di a. Scrivere il campo di definizione di entrambe le v.a. e dire se vale il punto i) del teorema precedente. Il teorema ci consente quindi di individuare l’estremo inferiore della varianza di 2 uno stimatore appartenente alla classe Cθ e se tale estremo coincide con σΘ̂ ? allora ? Θ̂ è più efficiente (in senso assoluto) se esiste, può capitare cioè che non esista uno stimatore con varianza uguale all’estremo indicato dalla disuguaglianza di Cramer-Rao mentre se esiste è unico. Sembra utile ricordare inoltre che dalla relazione n Y L(θ; x1 , . . . , xn ) = fX (xi ; θ) i=1 e dalla v.a. L(θ; X) = n Y fX (Xi ; θ) i=1 (dove le Xi sono i.i.d.) seguono le quantità 2 2 U d log fX U d log L = nE E dθ dθ che è detta informazione di Fisher espressa dal campione mentre 2 U d log fX E dθ è detta informazione di Fisher espressa da X (quindi dalla popolazione). Inoltre, " #2 d log f ( θ̂; θ) c X E Uθ dθ è l’informazione di Fisher espressa dallo stimatore. Vale la seguente rappresentazione che lega momenti e derivate 2 2 d log L(θ; X) d log L(θ; X) I(θ) = E = −E dθ dθ2 e risulta verificata solo sotto le ipotesi di Cramer-Rao e dove I(θ) è detta informazione di Fisher (attesa). 150 Sufficienza. Sia dato un campione x ∈ Rn con densità fX (x; θ), θ ∈ Θ ed una statistica g ? : Rn 7→ Rm . Si vuole stimare il parametro θ, può essere anche m ≥ 1 ma non m > n. Supponiamo che al fine di ottenere una stima di θ costituisca la stessa informazione considerare il campione x o il valore assunto da g ? (x), allora g ? è detta statistica sufficiente per θ. Quanto abbiamo appena detto ci consente di passare da Rn ad Rm trattando quindi con dimensioni minori o addirittura scalari (cioè m = 1) rappresentando così una prima utilità espressa da tali statistiche. Un ulteriore definizione di statistica sufficiente è dovuta al seguente teorema di fattorizzazione di Neyman. Teorema 38. Sia x ∈ U ⊆ Rn un campione di dimensione n e X con densità fX (x; θ), θ ∈ Θ, date due funzioni non negative γ : U 7→ R e ϕ : Θ × G? 7→ R, una statistica sufficiente g ? : Rn 7→ G∗ ⊆ Rm , allora la verosimiglianza può scriversi L(θ; x) = γ(x) · ϕ(θ, g ? (x)). La funzione di verosimiglianza può essere quindi ricostruita a meno di un fattore inessenziale γ(·) indipendente da θ a partire dal nucleo ϕ(·) e che a parità del valore g0? = g ? (x0 ) per qualche x0 ∈ U della statistica sufficiente si ottiene equivalenza in verosimiglianza. Quindi, diversi campioni x0 producono lo stesso g0∗ . Di fatto vale il ragionamento inverso, se la verosimiglianza può decomporsi come sopra allora resta definita una statistica sufficiente g ? . Come tutte le statistiche campionarie le statistiche sufficienti effettuano una classificazione per livelli dei campioni di U a partire da tutti i campioni x ∈ Ugi? tali per cui g ? (x) = gi∗ e i = 1, 2, . . . , I ( può essere anche I = 1 ), individuando così I insiemi di livello in ognuno dei quali si può avere o meno equivalenza in verosimiglianza ( verosimiglianza proporzionale per i campioni appartenenti allo stesso insieme di livello e per livello si intende appunto il livello della verosimiglianza ). La sufficienza comporta che dato gi? (e quindi tutto un insieme di livello Ugi? ) la distribuzione delle n-ple x ∈ Ugi? è indipendente da θ e si ottiene fX (x; θ|gi? ) = γ(x), ∀ x ∈ Ugi? che è funzione della sola n-upla campionaria per tutti gli i ∈ {1, 2, . . . , I}. Sembra logico pensare quindi che il passaggio da Ugi? ad U sia definito in termini di verosimiglianza dalla fattorizzazione di Neyman-Pearson. Basta ricordare che fX (x; θ) = L(θ; x). Consideriamo ora due campioni xa , xb ∈ U ⊆ Rn ed osserviamo che γ(xa ) ϕ(θ, g ? (xa )) L(θ; xa ) γ(xa )/γ(xb ), g ? (xa ) = g ? (xb ) = = c(xa , xb ), g ? (xa ) 6= g ? (xb ) L(θ; xb ) γ(xb ) ϕ(θ, g ? (xb )) (5.4) Capitolo 5. Inferenza statistica 151 dove in generale, c(·, ·) può dipendere da θ. Si vede quindi che la partizione su U indotta da una statistica sufficiente g ? è tale per cui campioni appartenenti allo stesso insieme di livello (xa , xb ∈ Ugi? ) sono equivalenti in verosimiglianza. Non è in generale vero il contrario visto che può verificarsi c(xa , xb ) = γ(xa )/γ(xb ) a meno che g ? non sia minimale, come vedremo! Osserviamo che log L(θ; x) = log γ(x) + log ϕ(θ; g ? (x)) per cui si ottiene d log ϕ(θ; g ? (x)) d log L(θ; x) = dθ dθ e quindi ai fini dell’inferenza su θ, l’informazione espressa dalla statistica g ? sufficiente per θ è equivalente a quella espressa dal campione x. Teorema 39. (Blackwell-Rao) Sia x ∈ Rn un campione causale, fX (x; θ) con θ ∈ Θ la densità per X. Se g ? : U ⊆ Rn 7→ G? è una statistica sufficiente per θ e g uno stimatore corretto di θ, che non dipende da θ, allora per ? g ?? (g0? ) = E U |g0 [g|g ? = g0? ] valgono le seguenti : ? i) E G [g ?? (g0? )] = θ , (sempre ricordando che g0? è funzione di (x1 , . . . , xn ) ) ? ii) V arG [g ?? (g0? )] ≤ V arUθ [g] c ? e possiamo riferirci a g ?? (g0? ) = E U |g0 [g|g ? = g0? ] come allo stimatore migliorato. Per ricollegarci al formalismo già usato consideriamo il caso in cui lo stimatore Θ̂ cθ = G? . sia una statistica sufficiente per θ, quindi se Θ̂ = g ? (x1 , x2 , . . . , xn ), si ha U Indichiamo con Ug0? = U |g0? = {x ∈ Rn t.c. g ? (x) = g0? } un insieme di livello per la statistica sufficiente g ? . Vediamo allora che le proprietà dello stimatore migliorato sono ottenute come media su tutti gli insiemi di livello delle medie in ogni insieme di livello6 . Sembra utile chiarire quanto esposto per le applicazioni pratiche, osservato il campione x0 ∈ Rn e considerato uno stimatore migliorato g ? ? di θ otteniamo θ̂ = g ?? (g0? ) Si effettua la media tra i campioni di U che determinano un certo valore g0? della statistica sufficiente g ? (per i campioni che appartengono quindi a quell’insieme di livello) ed otteniamo lo stimatore migliorato, il condizionamento rappresenta qui una regola di inclusione per i campioni di U , inclusione in U |g0? . Le proprietà vanno verificate per ogni insieme di livello (quindi possiamo condizionare per ogni g0? ∈ G? al fine di individuare tutte le partizioni U |g0? e quindi tutti i valori per g ?? ) o meglio per tutti i campioni di U . 6 152 che è funzione dei dati campionari attraverso g0? = g ? (x0 ). Esempio 32. Quanto visto vale anche per le popolazioni (virtuali) discrete. Dato un campione x ∈ Rn estratto da una popolazione Bernoulliana X con densità (discreta) fX (xi ; θ) = θxi (1 − θ)1−xi , xi ∈ {0, 1}, θ ∈ (0, 1) e lo stimatore non distorto g(x) = xP 1 (o g(x) = xi per qualche i = 1, 2, . . . che è lo ? stesso) di θ con la statistica g (x) = ni=1 xi sufficiente per θ, lo stimatore migliorato è " n # X g ?? (x) = E ?? [g|g ? (x)] = E {0,1} g| xi = k . i=1 Si ottiene P P n X ! P P (x1 = 0, ni=1 xi = k) n−k Pn = , x1 = 0| xi = k = P ( i=1 xi = k) n i=1 ! P n X P (x1 = 1, ni=1 xi = k) k Pn x1 = 1| xi = k = = , P ( i=1 xi = k) n i=1 " n # X k g ?? (x) = E ?? g| xi = k = , n i=1 e σg2 = θ(1 − θ), σg2?? = θ(1 − θ) n quindi g ?? è uno stimatore corretto di varianza minima rispetto a g. Statistiche sufficienti minimali. Si dice minimale la statistica sufficiente che produce la partizione con il minor numero di insiemi rispetto a tutte le altre statistiche sufficienti per lo stesso parametro. Per tali statistiche si possono osservare alcune particolarità di natura funzionale: 1. una statistica sufficiente h? è minimale se dati due campioni questi sono equivalenti in verosimiglianza se e solo se presentano lo stesso valore, in altri termini se si considera una statistica sufficiente minimale insiemi di livello diversi producono funzioni di verosimiglianza sostanzialmente diverse e dalla 5.4 scriviamo c(xa , xb ) 6= γ(xa )/γ(xb ), Capitolo 5. Inferenza statistica 153 2. la caratteristica di dar luogo ad una partizione perfettamente coincidente con quella dei campioni equivalenti in verosimiglianza, ci dice che ciascun insieme della partizione associata ad una statistica sufficiente è necessariamente compresa interamente in un insieme della partizione indotta da una statistica sufficiente minimale. In sostanza allora possiamo dire che la statistica sufficiente minimale è funzione di quella statistica sufficiente, 3. se esistono due statistiche sufficienti minimali queste condurrebbero alla stessa partizione di U quindi si potrebbe individuare una relazione biunivoca tra le due statistiche. Diciamo allora che a meno di una relazione biunivoca la statistica sufficiente minimale è unica. Completezza. Teorema di Lehmann-Scheffé. Una statistica (o stimatore) θ̂ = h(·) è completa se è completa la legge distributiva f (θ̂, θ) e cioè se è tale per cui data una qualsiasi funzione reale g(θ̂) di θ̂, indipendente da θ, l’uguaglianza Z g(θ̂)f (θ̂; θ)dθ̂ = 0 E[g(Θ̂)] = cθ U implica necessariamente che sia sempre g(θ̂) = 0 per ogni θ̂, quindi se g(·) è una funzione nulla ovunque. Possiamo allora ricondurci anche allo studio della legge f (·) ed in realtà ci potremmo riferire anche a particolari famiglie di distribuzioni complete, ad esempio se f (·) è normale, sapendo che qualunque sia g(·) si avrà E[g] = 0 ⇔ g = 0 ovunque. Teorema 40. Sia x un campione estratto da una popolazione con densità f (X; θ) e come al solito θ ∈ Θ, se h?,c è una statistica sufficiente e completa per θ e se h = g(h?,c ) è uno stimatore corretto di θ, allora h è unico ed ha varianza non superiore a quella di ogni altro stimatore. Ancillarità. Teorema di Basu. Una statistica la cui distribuzione non dipende dal parametro θ di interesse è chiamata statistica ancillare. In sostanza quindi tale statistica non fornisce informazioni su θ, resta comunque interessante il loro utilizzo nella pratica, considerando ad esempio il condizionamento parziale. Teorema 41. Se hm,c è una statistica completa e sufficiente minimale, allora hm,c è indipendente da ogni statistica ancillare. Si può così provare l’indipendenza di due statistiche senza dover passare per le rispettive distribuzioni e quindi quella congiunta, resta però impegnativo (almeno a volte) dover dimostrare la completezza. 154 In Breve. Possiamo sintetizzare quanto appena detto come segue: i) la dis. di Cramer-Rao ci dice quale è l’estremo inferiore della varianza di uno stimatore corretto che non necessariamente esiste, se non esiste tale estremo non può essere raggiunto e lo stimatore corretto di varianza minima per il parametro di interesse ha varianza maggiore dell’estremo trovato, ii) il Teorema di Blacwell-Rao ci permette di individuare uno stimatore funzione di una statistica sufficiente che è corretto e di varianza minima. In particolare, preso uno stimatore Θ̂ ed una statistica sufficiente g ∗ , allora lo stimatore Θ̂∗ = Θ̂|g ∗ è detto stimatore migliorato ed ha varianza minore o uguale della varianza dello stimatore Θ̂ (detto originale o di partenza). iii) Inoltre, ricordiamo che θ : il parametro da stimare, θb : lo stimatore per θ, b : la v.a. stimatore per θ, Θ x : campione osservato (denotato anche xoss ), realizzazione di X, X : v.a. (in particolare, un vettore di n v.a.), dove x = (x1 , x2 , . . . , xn ) e X = (X1 , X2 , . . . , Xn ), θb = g(x) b = g(X), e Θ g è una statistica. Esempio 33. Consideriamo media e varianza: θ = µ, µ̂ = x̄ e la v.a. è X̄; θ = σ 2 , σ̂ 2 = s2 e la v.a. è S 2 . Capitolo 5. 5.1.2 Inferenza statistica 155 Metodi di stima Stima di massima verosimiglianza. Lo stimatore di massima verosimiglianza θ̂M V è tale per cui L(θ̂M V ) = max. Deve quindi soddisfare le condizioni d L(θ; x) =0 dθ θ=θ̂M V d2 L(θ; x) <0 dθ2 θ=θ̂M V dove x = xoss rappresenta il campione osservato ed L(θ; x) deve essere massimizzata rispetto a θ e dato il campione osservato. Risulta: 1. (invarianza degli stimatori MV) Sia θ̂M V lo stimatore di massima verosimiglianza di θ, se ψ è una funzione che ammette la funzione inversa lo stimatore di massima verosimiglianza di λ = ψ(θ) è dato da λ̂ = ψ(θ̂M V ), 2. Se esiste per θ una statistica sufficiente h? , allora uno stimatore di massima verosimiglianza di θ se esiste, è funzione di h? e θ̂M V = g(h? ), 3. Se esiste per θ uno stimatore corretto ed efficiente θ̂, allora è anche stimatore di massima verosimiglianza, θ̂ = θ̂M V , 4. Se per la fX (x; θ) valgono le condizioni di regolarità ed inoltre per ogni x e θ ∈ Ω esiste ed è continua e limitata la derivata terza di fX (x; θ), lo stimatore di massima verosimiglianza è asintoticamente corretto e consistente e ha distribuzione asintotica di tipo normale Θ̂ ∼ N (θ, 1/I(θ)). Inoltre L(Θ; x) ∼ N (θ̂, 1/I(θ̂; x)) dove I(θ̂; x) è l’informazione di Fisher osservata. All’aumentare della numerosità campionaria Θ̂M V ha varianza sempre più vicina al limite di Cramèr-Rao ed è corretto. Esercizio 107. Sia P ∼ N (µ, σ 2 ), e sia x = (x1 , . . . , xn ) il campione osservato. Determinare lo stimatore MV per la media della popolazione. Esercizio 108. Sia P ∼ N (µ, σ 2 ) la popolazione allo studio e sia x = (x1 , . . . , xn ) il campione osservato. Determinare lo stimatore MV per la varianza della popolazione. 156 Esercizio 109. Dire se la v.a. varianza campionaria trovata nel precedente esercizio è uno stimatore corretto per la varianza della popolazione. Esercizio 110. Sia P una popolazione in cui il fenomeno oggetto di studio X segue una legge distributive uniforme, X ∼ U nif (0, θ) con θ > 0. Scrivere la funzione di log-verosimiglianza. Stima per intervalli. Supponiamo che si voglia ottenere la stima θ̂ di un parametro θ da una osservazione campionaria, diciamo dal campione x ∈ Rn . Si possono costruire degli intervalli per θ̂ se si conosce la legge distributiva fΘ̂ (·) di tale stimatore. Dalla relazione Z θ1 fΘ̂ (u)du = 1 − α P (θ0 ≤ Θ̂ ≤ θ1 ) = θ0 standardizzando secondo una trasformazione G(·), si ricava P G(θ0 ) ≤ G(Θ̂) ≤ G(θ1 ) = 1 − α dove G(θ0 ) = gα/2 e G(θ1 ) = g1−α/2 sono i percentili della fG(Θ̂) (·) che una volta calcolati o individuati (ad esempio attraverso le tavole dei percentili) consentono di scrivere −1 −1 P G (gα/2 ) ≤ Θ̂ ≤ G (g1−α/2 ) = 1 − α. Se ad esempio Θ̂ = X̄n è la v.a. media campionaria ed X ∼ N (µ, σ 2 ) con varianza σ 2 nota, allora X̄n − µ √ n ∼ N (0, 1) G(X̄n ) = σ e dai passaggi visti sopra con α = 0.05 (si vedano le tavole dei percentili della normale) scriveremo P G−1 (g1−α/2 ) ≤ Θ̂ ≤ G−1 (gα/2 ) = P G−1 (−1.96) ≤ Θ̂ ≤ G−1 (1.96) = 0, 95. Se invece θ̂ = σ 2 e X ∼ N (µ, σ 2 ) con media µ nota, si ottiene G(S 2 ) = (n − 1)S 2 ∼ χ2(n) σ2 dove S 2 è la v.a. varianza campionaria corretta n 1 X S = (Xi − µ)2 . n − 1 i=1 2 Capitolo 5. Inferenza statistica 157 Inoltre G(S 2 ) ∼ χ2(n−1) se µ non è nota e la v.a. varianza campionaria diventa n 1 X S = (Xi − X̄n )2 . n − 1 i=1 2 Numerosità ottima del campione. Ricorriamo ancora alla trasformazione G vista sopra e supponiamo che sia G(·; n), sottolineando cioè la dipendenza da n. Una simile trasformata non è certo difficile da trovare poiché standardizzando è facile ricorrere a grandezze che dipendono dalla numerosità campionaria n. Possiamo scegliere un θ0 per cui G(θ0 ; n) = g1−α/2 = f (n) sia funzione di n, quindi esplicitando rispetto ad n troveremo n = f −1 (g1−α/2 ; θ0 , . . .). Consideriamo ad esempio X ∼ N (µ, σ 2 ) ed il campione x ∈ Rn , supponiamo σ 2 nota, standardizziamo ed otteniamo G(x̄; n, σ) = x̄ − µ √ n ∼ N (0, 1) σ per cui g1−α/2 = z1−α/2 e z è il percentile della N (0, 1). Si ha per un certo livello 1 − α ed un errore e = x̄ − µ che G(e; n, σ) = f (n) = z1−α/2 ed ancora, calcolando la funzione inversa n= 2 σ z1−α/2 e2 (dove considererò la parte intera se voglio che n ∈ N) si è ottenuta la numerosità ottima per cui al livello 1 − α possiamo ottenere un intervallo di stima per µ di ampiezza 2e. Osserviamo che e = x̄−µ può essere scelto piccolo a piacere, tale valore dipenderà dal grado di accostamento che vogliamo ottenere essendo incognita la media µ della popolazione. Come si è già osservato, il valore n trovato non è intero, infatti si deve considerare il più piccolo n tra quelli che soddisfano alla condizione richiesta. In altre parole, cerchiamo il più piccolo n per il quale n≥ 2 z1−α/2 σ e2 che corrisponde alla parte intera superiore n= 2 z1−α/2 σ e2 . 158 Esercizio 111. Sia P la popolazione oggetto di studio, il fenomeno oggetto di studio è ben rappresentato dalla v.a. X ∼ N (µ, σ 2 ). Vogliamo stimare la media µ del fenomeno X della popolazione. In particolare, si vuole trovare la numerosità campionaria n del campione x ∈ Rn tale per cui, con probabilità pari al 95%, si commette un errore minore di una quantità nella stima di µ. Trovare il minimo n. Osservazione 39. Trovare il minimo n nel precedente esercizio significa anche trovare il più piccolo n per cui |X̄n − µ| < nel 95% dei casi, cioè pensando di considerare 100 campioni, 95 di questi restituiscono una stima che non si discosta più di dal valore vero µ (P (|b µ − µ| < ) = 95%). Stima dei minimi quadrati. Supponiamo di osservare la variabile dipendente Y e le variabili esplicative X = (X1 , X2 , . . . , Xk ) dalla popolazione ed otteniamo un campione di numerosità n (ossia n unità statistiche) della forma {(yi , xi ); yi ∈ R, xi ∈ Rk , i = 1, 2, . . . , n}. Ipotizzando una relazione lineare tra le variabili potremmo scrivere k X yi = aj xi,j j=1 ed in termini matriciali Y = Xa dove X è una matrice n × k ed ovviamente Y ∈ Rn (si veda il Capitolo 6). Se in generale esiste tra la variabile dipendente e le variabili esplicative una relazione del tipo Y = f (X; a) + dato il campione (y, x) troviamo i valori ŷ = f (x; â) in modo che n X (yi − ŷi )2 = min, i=0 in particolare cerchiamo il vettore â ∈ Rk tale che per ei = yi − ŷi si possa scrivere n X e2i = min i=1 ed ei rappresenta l’errore che si commette approssimando gli yi con la relazione f (x; â), diverso quindi dal significato di che rappresenta una v.a. qualunque (di media nulla) e quindi il grado di incertezza o di imprecisione inevitabile nella realtà fattuale ( è interessante per il confronto con la verosimiglianza il caso in cui ∼ N (µ, σ 2 ) ). è il caso di notare che il metodo dei MQ prescinde dalla conoscenza delle forme distributive Capitolo 5. Inferenza statistica 159 mentre si dovrà conoscere o identificare la relazione f (·; a) o meglio la dipendenza funzionale tra i dati. Il metodo dei MQ trova la sua piú naturale applicazione nelle relazioni f (·; a) che siano lineari o linearizzabili quindi nei modelli lineari. Stima dei momenti. Il metodo dei momenti conduce a stimatori consistenti ed è il piú semplice metodo di stima, consiste nello stimare caratteristiche della popolazione a partire dalle relazioni teoriche tra i momenti e supponendole valide anche per i momenti campionari. Indichiamo un momento di ordine r con Z Mr = xr fX (x; θ)dx, U 2 è di immediata comprensione il fatto che la relazione teorica σX = M2 − M12 porti, n dato un campione x ∈ R , a stimare la quantità n 1X 2 2 σ̂X = m2 − m21 = x − n i=1 i n 1X xi n i=1 !2 P oppure µ̂X = m1 = n1 ni=1 xi ottenute appunto dai momenti campionari m1 e m2 in questo caso del primo e del secondo ordine rispettivamente. In generale quindi si dovranno conoscere le relazioni teoriche tra i momenti che non prescindono sempre dalla legge distributiva come invece accade nel caso sopra illustrato. Se si devono stimare k parametri della popolazione, diciamo θ ∈ Rk sarà possibile impostare un sistema di k equazioni del tipo Mr = mr , r = 1, 2, . . . , k dove Mr = g(θ) dipende da θ = (θ1 , . . . , θk ) e risolvendo il sistema si trova θ̂ ∈ Rk . Indichiamo lo stimatore dei momenti con il simbolo θbM . Osservazione 40. Si osservi che si sta impostando un sistema di k equazioni in k incognite. Esercizio 112. Determinare lo stimatore dei momenti per il parametro θ = (µ, σ 2 )t da una popolazione X ∼ N (µ, σ 2 ). Stima bayesiana. Nella logica Bayesiana sappiamo che assegnata una legge di probabilità iniziali π(θ) per il parametro θ ∈ Uθ ed osservato il campione x ∈ Rn , possiamo calcolare la legge delle probabilità a posteriori π(θ|x) = c L(θ; x) π(θ) 160 dove ovviamente L(θ; x) = f (x; θ) è la verosimiglianza e Z −1 L(θ; x) π(θ)dθ. c = Uθ Sembra allora ovvio, dato x ottenere una stima θ̂ di θ dalla Z Uθ θ π(θ|x) dθ. θ̂ = h(x) = E [θ|x] = Uθ Possiamo iterare il calcolo delle probabilità a posteriori (aggiornare le π(θ|·) per successivi campioni x) un certo numero di volte e giungere a nuove stime Bayesiane di θ. 5.2 5.2.1 Verifica delle ipotesi statistiche Test parametrici Parleremo di ipotesi parametriche quando ci si riferisce ad un vettore incognito θ mentre chiameremo ipotesi funzionali quelle relative ad una forma f (x; θ), θ ∈ Θ, ci occuperemo delle ipotesi funzionali nel paragrafo che segue. Un ipotesi si dice semplice se specifica completamente la f (x; θ) altrimenti si dice composta. Un ipotesi che consideri un solo parametro θ può essere semplice se è della forma θ = θ0 , può essere unilaterale se è del tipo θ > θ0 o θ ≥ θ0 oppure sostituendo con < o ≤, può essere bilaterale se è del tipo θ 6= θ0 . Possiamo dire formalizzando il problema che un test di ipotesi è del tipo θ ∈ Θ0 dove Θ0 rappresenta un insieme che può essere costituito da un solo elemento, caso in cui l’ipotesi si dice semplice oppure può essere costituito da più elementi, il caso delle ipotesi composte. Il test di ipotesi è strutturato in modo da testare una certa congettura, solitamente l’ipotesi detta alternativa ed indicata con H1 mentre si descrive la situazione di base con l’ipotesi detta appunto di base o nulla H0 . In linea di principio quindi si avrà a che fare con un test del tipo H0 : θ ∈ Θ0 H1 : θ ∈ Θ1 , un campione x = (x1 , . . . , xn ) verrà osservato (estratto) da una popolazione X con densità fX (x; θ), verrà scelta una opportuna funzione dei dati campionari che potrà essere una funzione test o uno stimatore, indichiamo tale funzione con g(x) e si potrà individuare una distribuzione per g(X) a partire dalla densità fX (·|H0 ) e quindi valida se θ ∈ Θ0 (o equivalentemente se è vera l’ipotesi di base) ed una distribuzione per g(X) a partire dalla densità fX (·|H1 ) se θ ∈ Θ1 (o se è vera l’ipotesi alternativa). Si devono introdurre gli errori Capitolo 5. Inferenza statistica 161 di prima specie: la decisione di rifiutare l’ipotesi nulla quando questa è vera, di seconda specie: la decisione di rifiutare l’ipotesi alternativa quando questa è vera. Si deve notare che si stanno considerando gli oggetti Y = g(X) e y = g(x). Indichiamo rispettivamente con Z fg(X) (g(x)|H0 )dg, θ̂ = g(x) α= R|H0 e Z β= fg(X) (g(x)|H1 )dg, θ̂ = g(x) A|H1 le probabilità di commettere un errore di prima specie e di seconda specie rispettivamente. Risulta anche P (g(X) ∈ R|H0 ) = P (R|H0 ) = α e P (g(X) ∈ A|H1 ) = P (A|H1 ) = β dove R|H0 è la regione di rifiuto sotto l’ipotesi di base ed A|H1 è la regione di accettazione sotto l’ipotesi alternativa. La funzione h(x) è qui presentata nella notazione piú usuale per uno stimatore del parametro θ piuttosto che per una funzione test, ovviamente sempre funzione dei dati campionari, θ̂ = h(x), il valore θ? in questo caso delinea le regioni di accettazione e di rifiuto sotto entrambe le ipotesi. Sono importanti anche le probabilità P (A|H0 ) = 1 − α detta livello di fiducia, mentre α è detta livello di significatività e la probabilità P (R|H1 ) = 1 − β detta potenza del test. Il test migliore si ottiene rendendo piccole le probabilità di ottenere un errore (quindi α e β), di norma si fissa α essendo strutturato il test in modo da rendere preferibile mantenere l’ipotesi di base7 e si cerca di massimizzare la potenza del test ovvero la probabilità di non commettere errori di seconda specie (la situazione ottimale può essere ottenuta fissando entrambe le probabilità degli errori piccole a piacere o secondo le necessità del caso). Se le ipotesi sono composte si avranno diversi valori di tali probabilità e fissata α avremo una funzione di potenza da massimizzare. 7 Ad esempio se si sta testando l’affidabilità di un prodotto alternativo (espresso appunto dall’ipotesi alternativa) contro l’ipotesi nulla secondo cui il prodotto cosí come è proposto risulta il piú affidabile, sarà certamente meno auspicabile commettere un errore di seconda specie perché evidentemente comporterebbe ammodernamenti nel meccanismo di produzione e quindi delle spese che non rappresenterebbero un buon investimento. 162 Ipotesi di base semplici Nel caso in cui entrambe le ipotesi siano semplici il test assume la forma H0 : θ = θ0 H1 : θ = θ1 , θ0 < θ1 se X ∼ N (µ, σ 2 ) ed osserviamo un campione x di dimensione n, possiamo voler verificare due stime campionarie, la media θ = µ oppure la varianza θ = σ 2 . Ipotesi sulla media, θ = µ. Il test assume la forma H0 : µ = µ0 H1 : µ = µ1 , µ0 < µ1 P 2 sappiamo che µ̂ = x̄, quindi h(x) = n1 ni=1 xi ed inoltre X̄ ∼ N (µ, σn ), quindi x̄ è una realizzazione della v.a. media campionaria X̄ = h(X). Conosciamo la fX̄ (·) ed in particolare le distribuzioni X̄|H0 ∼ N (µ0 , σ 2 /n), X̄|H1 ∼ N (µ1 , σ 2 /n) 2 condizionate alle ipotesi da verificare. Si è comunque supposto che σP fosse noto, 1 2 altrimenti bisogna ricorrere ad una stima campionaria corretta, s = n−1 ni=1 (xi −x̄)2 e si ottiene X̄|H0 ∼ N (µ0 , s2 /n), X̄|H1 ∼ N (µ1 , s2 /n). Note le distribuzioni diciamo che x̄oss è la stima ottenuta (osservata) dal campione, x̄oss = h(x), dobbiamo verificare se tale valore cade nella regione di accettazione o di rifiuto dell’ipotesi di base. Al fine di individuare tali regioni fissiamo il livello di significatività α (ad esempio α = 0.05) e standardizziamo le distribuzioni viste sopra relativamente alla sola ipotesi nulla e al caso in sui σ 2 sia noto oppure no, si ottiene rispettivamente X̄ − µ0 X̄ − µ0 √ ∼ N (0, 1), √ ∼ t(n−1) σ/ n s/ n ed ancora, preso α ed x̄oss σ x̄? = µ0 + z1−α √ n oppure s x̄? = µ0 + t(n−1), 1−α √ n ed A = (−∞, x̄? ), R = (x̄? , ∞) quindi x̄oss < x̄? ⇒ acettiamo H0 x̄oss > x̄? ⇒ rifiutiamo H0 . Capitolo 5. Inferenza statistica 163 Conclusioni simili si otterrebbero calcolando i percentili osservati x̄oss − µ0 √ = zoss , σ/ n x̄oss − µ0 √ = t(n−1),oss s/ n e successivamente le probabilità osservate αoss = 1 − FN (zoss ) oppure αoss = 1 − FT (t(n−1),oss ) ovviamente αoss < α ⇒ al 1 − αoss % rifiutiamo H0 αoss > α ⇒ accettiamo H0 . Il test così strutturato prescinde dall’ipotesi alternativa ed in effetti si sarebbe ovviamente giunti a regioni differenti ponendo H1 : θ < θ0 o H1 : θ > θ0 o ancora H1 : θ 6= θ0 ma sempre seguendo la stessa procedura infatti questo è un test uniformemente più potente8 . La funzione di potenza nel caso H1 : θ > θ0 è data da P (X̄ > x̄oss |H1 ) mentre se H1 : θ < θ0 è data da P (X̄ < x̄oss |H1 ). Verifica P (X̄ ∈ W |H1 ). Ipotesi sulla varianza, θ = σ 2 . Supponendo µ nota il test assume la forma H0 : σ 2 = σ02 H1 : σ 2 = σ12 sappiamo che la varianza campionaria e la varianza campionaria corretta9 sono rispettivamente date da n n 1X 1 X 2 2 2 S = (xi − x̄) e s = (xi − x̄)2 n i=1 n − 1 i=1 8 Un test in cui l’ipotesi di base è semplice, quindi la forma distributiva della v.a. X è completamente specificata da un solo parametro, l’ipotesi alternativa H1 è invece composta e sia individuata da ogni ipotesi semplice H1 ∈ H1 , si dice uniformemente più potente se per ogni ipotesi H1 ∈ H1 non variano le regioni di accettazione e di rifiuto individuate mediante la procedura di Neyman e Pearson. Tali test non sono molto frequenti ed in particolare non esistono, in condizioni regolari, se l’ipotesi alternativa è parametrica bilaterale. 2 Pn Pn 9 L’espressione i=1 xiσ−ξ ∼ χ2(v) è giustificata dal fatto che i=1 Ui2 ∼ χ2(n) dove le Ui sono normali standardizzate, dobbiamo però precisare che v = n nel caso ξ = µ ovvero è nota, se Pn invece ξ = x̄ = n1 i=1 xi , funzione dei dati campionari, allora v = n − 1 perché non si ha più una combinazione lineare dei dati indipendente. 164 mentre una stima corretta di σ 2 è σ̂ 2 = s2 , inoltre sotto l’ipotesi nulla si ha nS 2 (n − 1)s2 = ∼ χ2(n−1) 2 2 σ0 σ0 quindi dato il campione x di dimensione n calcoliamo s2oss ed il percentile χ2oss , dalle tavole dei percentili risulta 1 − Fχ2(n) (χ2oss ) = αoss e come sopra, fissato il livello di significatività αoss > α oppure χ2oss < χ2α ⇒ accetto H0 . Si sono introdotti i valori osservati x̄oss e s2oss , in realtà entrambi sono delle stime campionarie quindi usando una notazione più coerente si sarebbe scritto x̄ˆ e ŝ2 . Il test ottimo. La procedura di Neyman-Pearson. La procedura di N-P consente di individuare, fissato α, quel test per cui è massima la potenza 1 − β, quindi individua le regioni di accettazione e di rifiuto di quei test detti piú potenti. In termini più o meno pratici il problema può essere cosí rappresentato, sia U = {xi }i=1,...,N l’universo campionario di interesse, il test sia del tipo H0 : θ = θ0 H1 : θ = θ1 ovviamente θ̂ = h(xi ) e vogliamo costruire un test più potente di dimensione α (o fissato α). Le probabilità dei campioni siano espresse da P (xi |H0 ) e P (xi |H1 ) rispet(xi |H1 ) tivamente in H0 o H1 e si definisca il rapporto Λ(xi ) = PP (x , allora la regione i |H0 ) di rifiuto sotto l’ipotesi nulla sarà costruita prendendo quei campioni di rapporto Λ(·) massimo e via via inferiore fino ad ottenete un insieme Iα di campioni per cui si abbia X P (xi |H0 ) ' α ed ovviamente xi ∈Iα X P (xi |H1 ) = 1 − β xi ∈Iα quindi fissato α inseriamo campioni in Iα fino ad ottenere un valore prossimo o uguale ad α e troviamo la potenza 1 − β, vale α ≤ 1 − β , inoltre il test è coerente nel senso che la potenza del test relativa ad un campione di n unità è non superiore, fissato α, a quella di un campione di n + 1 unità . La procedura operativa si basa sul fatto che il lemma di N-P (in letteratura indicato anche come tale oltre che come procedura) dice che il test piú potente è quello che si basa sulla regione di rifiuto W = Iα nella quale per ogni n-upla campionaria è massimo il rapporto delle verosimiglianze Λ(xi ) = L(θ1 ; xi ) ≥ Cα L(θ0 ; xi ) Capitolo 5. Inferenza statistica 165 dove ovviamente, per il test dato sopra, P (xi |Hj ) = L(θj ; xi ) e Cα = max Λ(xi ). xi ∈U \Iα Bisogna fare delle precisazioni, la procedura garantisce l’esistenza del test ottimo ma può capitare che la regione W non sia unica inoltre Λ(·) è un rapporto di verosimiglianze e se esiste una statistica sufficiente per θ, tale rapporto può scriversi come funzione della statistica sufficiente evitando di considerare ulteriormente le n-ple campionarie. Nota Bene. In linea di principio si tende sempre a considerare vera l’ipotesi di base ma ogni volta si procede come per accettare l’ipotesi alternativa, lo spirito che spinge quindi al test, in sostanza, è quello di poter considerare un’alternativa all’ipotesi di base essendo però quest’ultima sempre preferita. Seguendo queste considerazioni si sceglie α sempre più piccolo se si vuole rendere difficile commettere un errore di prima specie, in questo modo se le risultanze campionarie conducessero al rifiuto dell’ipotesi nulla, ”nulla” si potrebbe dire sul tentativo di mantenerla valida, in altre parole deve necessariamente essere rifiutata. Sullo stesso principio ci si basa quando si sceglie la regione di potenza minima tra quelle ottime (o con massima potenza), si vuole rendere meno agevole il rifiuto dell’ipotesi di base. Ipotesi di base composte Lo scenario è rappresentato, nel semplice caso discreto, da una collezione di ipotesi semplici H0 ∈ H0 che esauriscono l’ipotesi composta H0 , sembra quindi difficile dover mantenere la porzione α per ognuna delle H0 ∈ H0 , si ricerca allora per ogni H1 ∈ H1 l’insieme delle regioni ottime (di potenza massima) per ogni H0 ∈ H0 e tra le |H0 | × |H1 | regioni (con |A| si è indicata la cardinalità dell’insieme A) si sceglie la regione di rifiuto W 10 di potenza minima. 5.2.2 Test non parametrici Tratteremo test su P o sulla sua densità f . In particolare, vogliamo confrontare la distribuzione di probabilità teorica di una certa variabile con la distribuzione di frequenze (e quindi osservate). Test del χ2 . Siano X ∼ (xk , pk ), k ∈ IX una v.a. e fk , k ∈ IX una successione di frequenze osservate per il fenomeno oggetto di studio. Vogliamo vedere quanto X 10 Nel caso di ipotesi composte se tale regione non cambia al variare di H1 ∈ H1 si tratta di una regione W che determina un test uniformemente piú potente. 166 descriva bene tale fenomeno. Una misura della distanza tra le distribuzioni è data da X (fk − pk )2 χ2oss = pk k∈I X che può essere vista come una realizzazione della v.a. χ2 (|IX |−1), cioè una χ-quadrato con |IX | − 1 gradi di libertà. Il test ci permette di individuare un p-value e quindi una regione di rifiuto/accettazione per l’ipotesi nulla H0 : χ2 = 0 (stesse distribuzioni) (5.5) che corrisponde all’ipotesi che X descriva bene il fenomeno oggetto di studio. Se χ2oss = 0 allora fk = pk per ogni k ma se χ2oss > 0 dobbiamo individuare una soglia (il p-value) al di sotto della quale si possa ancora accettare (con un certo livello di significatività) l’ipotesi H0 . È stata già introdotta la tabella di contingenza, in quel caso si voleva studiare la dipendenza di due variabili osservate. Se si considera χ2oss = X (fk,s − pk,s )2 pk,s (k,s)∈I con distribuzione teorica pk,s = pk ps si sta considerando l’ipotesi H0 : χ2 = 0 (variabili indipendenti). (5.6) Inoltre, bisogna notare che le osservazioni riguardano un fenomeno in cui X e Y (e quindi la variabile doppia (X, Y ) con frequenze fk,s , (k, s) ∈ I = IX × IY ) rappresentano due caratteristiche di tale fenomeno. Allora l’ipotesi nulla da verificare è se le due caratteristiche sono indipendenti o meno. Test di Kolmogorov-Smirnov. Sia X ∼ fX e Xi ∼ X v.a. i.i.d. con i = 1, 2, . . . , n. Definiamo la funzione di ripartizione empirica n 1X Fn (x) = 1(−∞,x] (Xi ). n k=1 Il test prevede l’utilizzo della distanza Dn = kFn − FX k∞ = sup |Fn (x) − FX (x)|. x q.c. Dal teorema di Glivenko-Cantelli, Dn → 0, soddisfa cioè la legge forte dei grandi numeri. In maniera analoga a quanto accade per la v.a. media campionaria, si ha che q.c. Fn (x) → E1(−∞,x] (X) = FX (x), x ∈ R. Capitolo 5. Inferenza statistica 167 Inoltre, fissato x, notiamo che EFn (x) = FX (x), e V ar(Fn (x)) = 1 FX (x) (1 − FX (x)) n ed in particolare Fn (x) ∼ Bin(n, FX (x)). Dal teorema del limite centrale si ottiene che √ d Un (x) = (Fn (x) − FX (x)) n → N 0, FX (x) (1 − FX (x)) . 5.3 Stima in presenza di parametri di disturbo Ci troviamo nel caso in cui oggetto di stima è il parametro λ = g(θ) e g(·) non ammette la funzione inversa oppure nel caso in cui θ = (λ, µ) e µ è un parametro di disturbo per l’inferenza su λ. Il problema quindi nasce quando si ha un esperimento del tipo e = {X , Pθ , θ ∈ Θ} in cui, poniamoci nel caso piú comune, θ = (λ, µ) ed oggetto di interesse è il parametro ( di interesse ) λ, allora se possiamo individuare una funzione h(·) per cui µ = h(λ) allora possiamo anche scrivere θ = (λ, h(λ)) ed ottenere nella formalizzazione quello che si dice ”eliminazione del parametro di disturbo”, altrimenti possiamo comunque scegliere h(·) liberamente e con lo stesso obbiettivo, quello dell’eliminazione di µ, nel seguito consideriamo due varianti di h, h1 ed h2 allo stesso scopo. Diamo allora la seguente Definizione 49. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono parametri complementari se si ha una corrispondenza biunivoca tra gli insiemi Θ e Θ0 = {(λ, µ) : λ = h1 (θ), µ = h2 (θ), θ ∈ Θ}. Potremmo anche scrivere Θ0 = Λθ × Mθ , θ ∈ Θ in cui ovviamente Λθ = {λ : λ = h1 (θ)} e Mθ = {µ : µ = h2 (θ)}. Inoltre Definizione 50. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono parametri a variazione indipendente se si ha una corrispondenza biunivoca tra gli insiemi Θ e Θ0 = Λ × M dove Λ = {λ : λ = h1 (θ), θ ∈ Θ} e M = {µ : µ = h2 (θ), θ ∈ Θ}. L-indipendenza Diamo la seguente 168 Definizione 51. Dato l’esperimento e, i parametri complementari λ e µ si dicono L-indipendenti se esistono due funzioni l1 ed l2 tali che, per ogni x ∈ X sia l(λ, µ; x) = l1 (λ; x)l2 (µ; x). Si presenta quindi come una caratteristica strettamente legata alla verosimiglianza ( Lik-indipendenza ) ed è piuttosto estrema, si può verificare sostanzialmente nel caso si considerino due esperimenti distinti o nel caso i parametri si riferiscano ad aspetti essenzialmente differenti. Profilo della verosimiglianza Dato l’esperimento e, tale procedura consiste essenzialmente nel calcolare, fissato x ∈ X , la verosimiglianza lmax per ogni λ ∈ Λ massimizzando ogni volta rispetto a µ ∈ M , la soluzione sarà ovviamente data da λ per cui lmax è massima. Scriviamo l(λ̂; x) = sup{lmax (λ)} λ∈Λ dove lmax (λ) = max{l(λ, µ; x)}, µ∈M λ ∈ Λ. Esperimenti marginali Abbiamo un esperimento marginale quando si considera come risultato dell’esperimento non x0 ∈ X ma h0 = h(x0 ) ∈ H. Definizione 52. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→ H ⊆ Rm con 1 ≤ m ≤ n, allora si chiama esperimento marginale basato su h l’esperimento eh = {H, Pθh , θ ∈ Θ} dove Pθh è la legge di probabilità indotta su H da Pθ e la funzione di verosimiglianza associata a (eh , h0 ) è detta verosimiglianza marginale. La verosimiglianza e la verosimiglianza marginale sono in generale diverse a meno che h non sia sufficiente per θ, la marginalizzazione allora comporta in generale una perdita di informazione. La statistica h ha qui il compito di generare una verosimiglianza ( quella marginale ) che dipende dal solo parametro di interesse, caso in cui si dice che h è orientata a λ ( λ = g(θ) ad esempio ). Capitolo 5. Inferenza statistica 169 Esperimenti condizionati Definizione 53. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→ H ⊆ Rm , si chiama esperimento condizionato ad h l’esperimento aleatorio eh = {X , Pθ,h , θ ∈ Θ} dove Pθ,h è la legge di probabilità su X calcolata per θ fissato e condizionatamente al valore h0 = h(x0 ). La funzione di verosimiglianza sarà detta verosimiglianza condizionata. 5.4 Inferenza su particolari parametri Diamo ora alcuni esempi sulla verifica di ipotesi in casi particolari di stima, si adotterà sempre la regola αoss ≷ α dove αoss come sappiamo è dato dal percentile calcolato in base ai risultati campionari ed α è il livello di significatività dato al test di ipotesi, considereremo qui solo la individuazione dell’ αoss e della distribuzione della v.a. in questione quindi si parlerà della sola ipotesi di base lasciando al lettore la costruzione vera e propria del test anche in relazione alla ipotesi alternativa. Dove non specificato si assumerà inoltre che X ∼ N (µ, σ 2 ) ed otteniamo: 1. H0 : µ = µ0 e σ 2 nota µ̂ = x̄ X̄ ∼ N (µ, σ 2 /n) X̄−µ0 √ n ∼ N (0, 1) sotto H0 σ √ x̄oss −µ0 n = zαoss σ 2. H0 : µ = µ0 e σ 2 non è nota µ̂ = x̄ X̄ ∼ N (µ, σ 2 /n) σ̂ 2 = s2 , varianza campionaria corretta (n−1)s2 σ2 ∼ χ2(n−1) X̄−µ0 √ n ∼ t(n−1) s √ x̄oss −µ0 n = t(n−1), oss s 170 0.0 0.1 0.2 0.3 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −3 −2 −1 0 1 2 3 Figura 5.1: La densità in grassetto è di Student mentre l’altra è normale. Per entrambe le situazioni viste sopra possiamo generalizzare alla normale se la numerosità del campione e grande, otteniamo che zα < t(n),α e per n sempre maggiore t(n),α → zα (o meglio t(n) → N (0, 1) per n → ∞) quindi passare alla normale equivale a restringere la regione di accettazione del test se n non è sufficientemente grande. 3. H0 : µ1 = µ2 , varianze note. Esistono due popolazioni X1 ed X2 , entrambe supposte normali e due campioni x1 e x2 osservati per cui X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 ) µ̂1 = x̄1 e µ̂2 = x̄2 X̄1 −µ1 √ n1 ∼ N (0, 1) e σ1 √ X̄1 −X̄2 σ12 /n1 +σ22 /n2 X̄2 −µ2 √ n2 σ2 ∼ N (0, 1) ∼ N (0, 1) sotto H0 x̄1, oss −x̄2, oss √ = zoss 2 2 σ1 /n1 +σ2 /n2 4. H0 : µ1 = µ2 , varianze non note. Verifichiamo innanzitutto se le due varianze possono considerarsi uguali oppure no. Supponiamo che σ12 = σ22 = σ 2 allora σ̂ 2 = (n1 − 1)s21 + (n2 − 1)s22 n1 + n2 − 2 e possiamo verificare H0 : σ12 = σ12 = σ 2 considerando F(n1 −1), (n2 −1) = s21 (n1 − 1)s21 (n2 − 1)σ 2 = (n1 − 1)σ 2 (n2 − 1)s22 s22 che è una Fisher-Snedecor. Supposte allora uguali otteniamo Capitolo 5. Inferenza statistica √X̄1 −X̄2 σ̂ 1/n1 +1/n2 x̄1, oss −x̄2, oss √ σ̂ 1/n1 +1/n2 171 ∼ t(n1 +n2 −2) = t(n1 +n2 −2), oss Se invece le varianza delle due popolazioni non possono considerarsi uguali sorgono non pochi problemi, la distribuzione della variabile che si verrebbe a considerare è X̄ − X̄2 q 12 s1 s22 + n1 n2 che è detta di Behrens-Fisher. Avendo considerato la sola ipotesi nulla è il caso di notare che l’aggiunta di un ipotesi alternativa composta comporta le valutazioni operative che ora andiamo a vedere. Si è sempre arrivati a considerare una v.a. standardizzata, diciamo Q con una sua distribuzione, si è inoltre individuato un percentile in base al quale discriminare in relazione all ’ipotesi nulla, diciamo qα al livello di significatività α. Essendo l’ipotesi nulla semplice e del tipo (o riconducibile a) θ = θ0 e non essendo sempre simmetrica la distribuzione in esame (o a valori tutti positivi dei percentili) ci avvaliamo di un percentile di riferimento, quello modale che indichiamo con qM (ovviamente se la distribuzione fosse discreta si avrebbe Q(qM ) = max). Diciamo che in generale si avranno le seguenti situazioni a) H1 : θ > θ0 , allora si ha un solo percentile di riferimento qα > qM per cui 1 − Q(qα ) = α, b) H1 : θ < θ0 , allora si ha ancora un unico percentile qα < qM e per cui Q(qα ) = α, c) H1 : θ 6= θ0 , in questo caso abbiamo due percentili q1, α/2 < qM e q2, α/2 > qM tale che Q(q1, α/2 ) = α/2 e 1 − Q(q2, α/2 ) = α/2 quindi, ovviamente, Q(q2, α/2 ) − Q(q1, α/2 ) = 1 − α e rappresenta l’area sottesa alla curva di probabilità relativa alla regione di accettazione. Si è sempre considerato ovviamente che la distribuzione Q fosse del tipo Q|H0 , il caso in cui Q|H1 dovrà essere considerato al fine di investigare sulla potenza del test. Esercizio 113. Dato il campione x ∈ Rn con x̄ = 4/5 e n = 30, verificare l’ipotesi che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di significatività α = 0.05. Esercizio 114. Dato il campione x ∈ Rn con x̄ = 3/5 e n = 30, verificare l’ipotesi che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di significatività α = 0.05. 172 5.5 Logiche inferenziali Il principio della verosimiglianza La funzione di verosimiglianza nasce dal presupposto che un evento verificatosi può considerarsi l’evento con la probabilità maggiore di verificarsi ed infatti massimizziamo tale funzione. Il principio di base quindi è sviluppato attorno alla realizzazione o all’evento realizzato, al risultato della prova o come diremo nel capitolo che segue al risultato dell’esperimento Definizione 54. Principio della verosimiglianza. Siano dati due esperimenti e0 ed e00 in cui l’ipotesi vera sia la stessa. Se per due risultati x0 e x00 le corrispondenti funzioni di verosimiglianza l0 e l00 soddisfano la condizione di equivalenza l0 (θ) = c · l00 (θ) θ∈Θ dove c può dipendere dai risultati campionari ma non da θ, allora gli esperimenti (e0 , x0 ) ed (e00 , x00 ) forniscono la stessa informazione riguardo alle ipotesi. In altre parole le due funzioni di verosimiglianza sono equivalenti (equivalenza in verosimiglianza) per il parametro θ. Il principio del campionamento ripetuto Il principio del campionamento ripetuto si pone in modo diverso da quello della verosimiglianza in quanto il risultato ottenuto assume qui importanza solo dopo che si siano considerati tutti i risultati possibili o meglio la procedura statistica che meglio si adatta a tali risultati. Per procedura intendiamo ad esempio una statistica e per miglior adattamento ai dati intendiamo, ad esempio, miglior prestazioni della statistica: Definizione 55. Principio del campionamento ripetuto. Le procedure statistiche devono essere valutate per il loro comportamento in ripetizioni ipotetiche dell’esperimento che si suppongono eseguite sempre nelle stesse condizioni. Nei problemi di stima parametrica diciamo quindi che il risultato campionario si rende utile non appena si sappia individuare nello scenario d’analisi una statistica che sia non distorta e di varianza minima, potremmo poi desiderare ancora delle altre proprietà. Esercizio 115. 1. Sia x = (1, 4, 1, 5, 2, 2, 3, 9) un campione proveniente da una popolazione P (supposta) Esponenziale di parametro λ. Determinare lo stimatore λ̂M con il metodo dei momenti e λ̂M V di massima verosimiglianza. Capitolo 5. Inferenza statistica 173 2. Sia P una popolazione normale di media µ e varianza σ 2 = 1. Determinare la numerosità campionaria n per cui stimando la media si commette un errore minore con probabilità P (|X̄ − µ| < ) > 86%. Esercizio 116. Sia P una popolazione in cui il fenomeno oggetto di studio X ha densità normale di media µX e varianza σ 2 = 1. Si supponga inoltre di conoscere la relazione Y = aX in cui a > 0 ed Y è una seconda variabile di interesse. Dato il campione x = (x1 , . . . , xn ) a) si trovi una stima di massima verosimiglianza per la media µY di Y b) si trovi una stima della media µY di Y con il metodo dei momenti c) si trovi il minimo n tale per cui con probabilità maggiore del 95% si commette un errore minore di nella stima della media di Y (si consideri |Ȳ − µY | < ). Esercizio 117. 1. Sia x = (1, 4, −1, 5, 2, −2, −3, 9) un campione proveniente da una popolazione P (supposta) di Poisson di parametro λ. Determinare lo stimatore λ̂M con il metodo dei momenti. 2. Sia x = (x1 , . . . , xn ) un campione proveniente da una P con legge f (xi ; θ, λ) = κ θxi e−λxi 1(0,∞) (xi ), 0 < θ < eλ , λ > 0, – determinare κ, – determinare lo stimatore θ̂M V di MV per θ se λ = log √ θ. i = 1, 2, . . . 174 Capitolo 6 I modelli lineari 6.1 Il modello lineare generale Il modello lineare o qualunque modello linearizzabile assume la forma matriciale Y = Xβ + dove X ∈ Rn×k+1 e la prima colonna è costituita dal vettore unità, i vettori Y, ∈ Rn e il secondo è costituito da componenti aleatorie, β ∈ Rk+1 è il vettore dei coefficienti da stimare, le assunzioni di base che si fanno sono 1. E[] = 0, 2. Σ = E[t ] = σ2 In dette anche ipotesi interne e determinano appunto il modello lineare generale (MLG). Tale modello prende il nome di modello lineare normale se in aggiunta a tali ipotesi si assume ∼ M N (0, Σ ). Bisogna notare che in generale tra le Y e le X (qui intendiamo X = {X1 , X2 , . . .} variabili osservate) si ipotizza una relazione del tipo Y = f (X) + in cui è comunque un termine residuale aleatorio mentre la forma della f (·) dipenderà dalla natura delle X, sia per quanto riguarda la linearizzabilità che la trasformazione necessaria nel caso si passi da variabili a mutabili (vedi modelli anova ad esempio). In breve si otterrà E[Y|X] = f (X) = Aβ dove A è una matrice strutturale del modello e β è ancora un vettore dei coefficienti, entrambi saranno individuati diversamente nei tre casi in cui 175 176 • le X sono tutte quantitative ⇒ si ha un modello di regressione, • le X sono tutte qualitative ⇒ si ha un modello di analisi della varianza, • le X sono in parte quantitative ed in parte qualitative ⇒ si ha un modello di analisi della covarianza e Y è una variabile quantitativa continua o discreta, l’obbiettivo dell’analisi è quello di studiare la dipendenza tra la variabile dipendente Y e le variabili esplicative X. 6.2 Stima dei parametri Stima dei minimi quadrati Il modello da identificare è il MLG (a rango pieno, detto così per questioni chiarite sotto) quindi senza assunzioni sulla forma distributiva di , le stime sono date da Ŷ = Xβ̂ e l’idea è quella di minimizzare la forma quadratica M Q(β̂) = (Y − Xβ̂)t (Y − Xβ̂) = et e. La soluzione è data dal vettore β̂ = (Xt X)−1 Xt Y. Teorema 42. (Gauss-Markov). Sotto le ipotesi interne 1. e 2. sopra specificate per v.a. qualunque si ha che β̂ è l’unica stima lineare non distorta di β di varianza minima nella classe degli stimatori lineari non distorti. Osserviamo che affinché esista l’inversa (Xt X)−1 deve essere det(Xt X) 6= 0, deve essere cioè rango(Xt X) = k + 1 (rango pieno). Una tale condizione è verificata se non ci sono colonne di X correlate tra loro (per cui quindi ρ2 ' 1, massima correlazione) cosa che risulta anche scomoda sul piano logico visto che una forte correlazione tra due variabili indurrebbe ad escludere dal modello una di esse (essendo di pari informazione) stando però di fatto molto attenti agli effetti finali. La stima della varianza di è data dalla formula σ̂2 = 1 et e (Y − Xβ̂)t (Y − Xβ̂) = . n−k−1 n−k−1 Elenchiamo alcune proprietà: Capitolo 6. I modelli lineari 177 1. gli stimatori dei MQ β̂ e σ̂2 sono corretti, 2. lo stimatore dei MQ β̂ ha varianza uniformemente minima nella classe degli stimatori lineari di β, 3. la varianza dello stimatore è σβ̂2 = σ 2 (Xt X)−1 , 4. si ha il vettore dei residui e = [In − X(Xt X)−1 Xt ] ed inoltre - E[e] = 0 - E[et e] = σ 2 (n − k − 1) 5. si ha σ 2 = σY2 = σ2 . Riguardo alle proprietà appena elencate osserviamo soltato che E β̂ =E[(Xt X)−1 Xt Y] =E[(Xt X)−1 Xt (Xβ + )] =E[(Xt X)−1 Xt Xβ] + E[(Xt X)−1 Xt ] =E[β] + (Xt X)−1 Xt E[] =β, σβ̂2 =E[(β̂ − β)(β̂ − β)t ] h i t −1 t t −1 t t =E (X X) X (X X) X = (Xt X)−1 Xt E[t ] X(Xt X)−1 =σ 2 (Xt X)−1 dove si è usato il fatto che E[t ] = σ 2 In . Notiamo che e rappresenta l’errore osservato mentre è una v.a. che rappresenta il modello non deterministico (possiamo dire che e è una possibile realizzazione del vettore aleatorio ). Stima di massima verosimiglianza Sappiamo che gli stimatori di massima verosimiglianza possono non essere corretti o unici comunque risultano legati attraverso la sufficienza a molte proprietà importanti tanto da poter dire che se esiste uno stimatore corretto ed efficiente, allora è di massima verosimiglianza. Resta poi aperta la questione riguardante la forma distributiva dei dati (o meglio degli errori) dalla quale non si può prescindere nella verosimiglianza 178 come invece avviene nei minimi quadrati, in generale le due stime coincidono ma assumendo che gli errori si distribuiscano normalmente otteniamo che le stime dei minimi quadrati non saranno piú non distorti di varianza minima (corretti ed efficienti) nella classe degli stimatori (corretti) lineari ma nella classe di tutte le stime possibili. Notiamo che lo stimatore di massima verosimiglianza σ̃2 = 1 (Y − Xβ̂)t (Y − Xβ̂) n non è corretto mentre lo è β̃ che coincide con lo stimatore dei MQ ( β̃ = β̂ ), scriviamo allora n σ̃ 2 σ̂2 = n−k−1 e lo stimatore corretto coincide con lo stimatore dei MQ. Elenchiamo i seguenti fatti: 1. β̂ e σ̂2 sono corretti, 2. β̂ e σ̂2 sono congiuntamente sufficienti per β e σ2 quindi sono di varianza uniformemente minima nella classe degli stimatori di β e σ2 , 3. β̂ ∼ M N (β, σ2 (Xt X)−1 ), 4. (n−k−1)σ̂2 σ2 ∼ χ2(n−k−1) , 5. β̂ e σ̂2 sono stocasticamente indipendenti. Ricordiamo che parleremo di modello lineare normale nel caso la forma distributiva di sia nota e Normale mentre parleremo di modello lineare generale quando non si fanno assunzioni sulla forma distributiva della tranne quelle fatte nel teorema di Gauss-Markov. 6.3 Il caso di una variabile esplicativa Sia osservato un campione del tipo (y, x) con y, x ∈ Rn , il modello lineare (detto modello lineare semplice) sia yi = β0 + β1 xi + i con i ∼ N (0, σ2 ) ∀i ∈ {1, . . . , n}. Le stime dei coefficienti lineari sono date da β̂0 = ȳ − β̂1 x̄, β̂1 = σ bXY , 2 σ bX Capitolo 6. I modelli lineari 179 e sono le stesse sia con il metodo dei MQ che con la MV; inoltre sono corretti. Si ottiene poi P 2 xi 2 2 σβ0 = σ P n (xi − x̄)2 σ2 σβ21 = P n (xi − x̄)2 dalla matrice della varianza (o delle covarianze) E β̂02 E β̂0 β̂1 2 t −1 σ (X X) = . E β̂1 β̂0 E β̂12 Esercizio 118. Dimostrare che βb = (βb0 , βb1 ) è uno stimatore MQ . Uno stimatore corretto della varianza σ2 è dato da P (yi − ŷi )2 2 σ̂ = n−2 2 ed infine, ricordando che i ∼ N (0, σ ), si ha β̂0 ∼ N (β0 , σβ20 ) β̂1 ∼ N (β1 , σβ21 ) (n − 2)σ̂2 ∼ χ2(n−2) σ2 se σ2 è nota quindi possiamo dire che la standardizzazione dei coefficienti porta alla distribuzione N (0, 1) altrimenti si ha β̂0 − β0 ∼ t(n−2) σ̂β0 β̂1 − β0 ∼ t(n−2) . σ̂β0 Tornando alla formulazione matriciale scriviamo σβ̂2 = σ2 (Xt X)−1 β̂j ∼ N (βj , σ2 [(Xt X−1 )]j+1,j+1 ) La devianza totale campionaria (DT) può essere così decomposta n X i=1 2 (yi − ȳ) = n X i=1 2 (ŷi − ȳ) + n X (yi − ŷi )2 i=1 i cui addendi a secondo membro corrispondono rispettivamente alla DR (devianza di regressione) e alla DE (devianza dell’errore), quindi 180 DT = DR + DE ed è possibile esplicitare una misura della bontà di adattamento del modello attraverso il coefficiente di determinazione così definito R2 = DR DE =1− . DT DT Si vede subito che: 1. 0 ≤ R2 ≤ 1, 2. R2 = 1 ⇒ DE = 0: tutte le yi giacciono sulla retta di regressione, 3. R2 = 0: non vi è relazione lineare tra x e y, 4. tanto più R2 → 1, tanto più l’accostamento è migliore, 5. R2 è il quadrato del coefficiente di Bravais-Pearson. 6.4 Modelli lineari generalizzati Sia dato il campione {(yi , xi ), i = 1, 2, . . . , n} in cui yi ∈ R e xi ∈ Rn , allora il modello postula l’uguaglianza E[Yi |Xi ] = µi ed in generale µi non potrà essere ritenuta lineare. Al fine di ottenere una relazione lineare interveniamo su µi attraverso la riparametrizzazione indotta da una funzione link g(·) che ammette la funzione inversa g(µi ) = xti β e µi = g −1 (xti β), al variare di tale funzione otterremo modelli diversi, lineari generalizzati. Alcuni esempi sono dati dalle seguenti funzioni: 1. funzione identità: g(µi ) = µi , E[Yi |Xi ] = xti β ed è il caso del modello lineare generale, 2. funzione logit: g(µi ) = logit(µi ), exp{xti β} E[Yi |Xi ] = 1 + exp{xti β} Capitolo 6. I modelli lineari 181 dove la funzione link è data da logit(µi ) = ln µi 1 − µi ed è il caso del modello logistico lineare, 3. funzione logaritmo: g(µi ) = ln(µi ), E[Yi |Xi ] = exp{xti β} ed otteniamo un modello loglineare. Il modello logistico lineare A differenza del modello lineare classico nel quale si studia la dipendenza di una variabile quantitativa da un insieme di variabili quantitative e/o qualitative, il modello logistico lineare costituisce uno strumento utile per lo studio della dipendenza tra una variabile qualitativa e un insieme di variabili quantitative e/o qualitative. La variabile dipendente non è più quantitativa ma qualitativa, può essere dicotomica o no. Assumiamo che la variabile di interesse sia Bernoulliana quindi di tipo dicotomico ed in particolare dato il campione x di dimensione n si ha P (Y = 1|X = x) = π(x) mentre il rapporto odds è dato da odds(x) = P (Y = 1|X = x) π(x) = . P (Y = 0|X = x)) 1 − π(x) Considerata la probabilità π(x) = exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ) 1 + exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ) si ottiene odds(x) = exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ), il modello logit, ossia il logaritmo dell’odds, diventa allora una funzione lineare logit(x) = ln odds(x) = β0 + β1 x1 + β2 x2 + . . . + βk xk e possiamo dire che βj rappresenta l’influenza della variabile Xj finalizzato ad ottenere Y = 1. 182 è evidente ora che se P (Y = y) = θy (1 − θ)1−y ( quindi se Y è Bernoulliana ) si ha E[Y ] = θ e se Y = {Y1 , . . . , Yn } e θ = {θ1 , . . . , θn } si ha P (Y|θ) = n Y θiYi (1 − θi )1−Yi i=1 e molto importante V ar(Yi ) = θi (1 − θi ) quindi non si possono fare le assunzioni di omoschedasticità. La riparametrizzazione che adottiamo è la seguente E[Yi ] = θi = π(xi ), i = 1, . . . , n e θi logit(θi ) = ln 1 − θi = logit(xi ) π(xi ) = ln 1 − π(xi ) = β0 + β1 xi1 + β2 xi2 + . . . + βk xik = xti β Capitolo 7 Distribuzioni di probabilità elementari 7.1 Variabili discrete - Ricordiamo che una v.a. discreta X è caratterizzata dalla coppia (xk , pk ), k ∈ IX dove, per comodità, spesso potremo scrivere xk = k per ogni k in un opportuno insieme di indici ottenuto da IX . Uniforme. Sia X ∼ U nif ({1, 2, . . . , n}) con n ∈ N. La distribuzione di probabilità della v.a. X è pk = P (X = k) = 1 , n k ∈ IX = {1, 2, . . . , n}. (7.1) Si vede subito che 1. pk ≥ 0, Pn 1 n 2. k=1 n = n . La funzione di ripartizione è data da 0, x < 1 X x pk = , x ∈ [1, n] FX (x) = n {k≥1 : k≤x} 1, x ≥ n Esercizio 119. Siano X ∼ U nif ({1, 2, 3, 4}) e Y ∼ U nif ({1, 2}) e X ⊥ Y . Calcolare la f.r. FZ della v.a. Z = X + Y . 183 184 Esercizio 120. Calcolare la funzione caratteristica di X. Osservazione 41. Sia X ∼ U nif (0, n). Osserviamo che µ] ({1, 2, n − 1}) |{1, 2, n − 1}| = n n cioè numero di casi favorevoli su numero di casi possibili. P (X ∈ {1, 2, n − 1}) = Zeta o Zipf. Se X ∼ Zipf , si definisce la successione pk = P (X = k) = C k α+1 , k≥1 detta anche legge di Zipf (vedi Zipf, Mandelbrot e Shannon), strettamente legata alla funzione Zeta di Riemann. Esercizio 121. Determinare C. Esercizio 122. Determinare P (X > 4). Esercizio 123. Calcolare la funzione caratteristica di X. Geometrica. Sia X ∼ Geo(p) con p ∈ [0, 1]. La distribuzione delle probabilità di X è data da pk = P (X = k) = (1 − p)k−1 p, k ∈ IX = {1, 2, . . .} = N. La v.a. X rappresenta la probabilità di avere il primo successo esattamente alla kesima prova, cioè dopo k − 1 insuccessi (con prove indipendenti). Ogni insuccesso ha probabilità (1 − p) di verificarsi. Se indichiamo con S il successo, P (S) = p e ovviamente P (S̄) = 1 − p. Allora, (X = k) ="primo successo alla k-esima prova" = S̄ {z· · · ∩ S̄} ∩S | ∩ S̄ ∩ k−1 volte ed essendo le prove indipendenti, k−1 P (X = k) = P (S̄) · · · P (S̄) ·P (S) = P (S̄) · P (S) = (1 − p)k−1 p. | {z } k−1 volte Possiamo quindi associare alla distribuzione di probabilità Geometrica la v.a. X = "istante di primo successo" se P (S) = p oppure la v.a. X = "istante di primo insuccesso" se P (S̄) = p. Verifichiamo che pk sia effettivamente una distribuzione di probabilità. Dobbiamo verificare Capitolo 7. Distribuzioni di probabilità elementari 185 1. (1 − p)k−1 p ≥ 0 infatti 0 ≤ p ≤ 1, 2. X pk =p k≥1 ∞ X (1 − p)k−1 k=1 =p ∞ X (1 − p)s (si è posto s = k − 1) s=0 =p 1 =1 1 − (1 − p) (somma notevole di una serie geometrica). Si vede che EX =p ∞ X kq k−1 k=1 ∞ X d k =p q dq k=1 (q = 1 − p) ∞ d X k =p q dq k=1 (derivazione per serie) d =p dq ∞ X ! qk − 1 k=0 d 1 1 =p −1 = . dq 1 − q p Esercizio 124. Calcolare V ar(X) se X ∼ Geo(p) definita sopra. La funzione di ripartizione è data da FX (x) = X 0, x < 1 pk , x ≥ 1 {k≥1 : k≤x} Esercizio 125. Siano X1 ∼ Geo(θ1 ) e X2 ∼ Geo(θ2 ) due v.a. indipendenti. Caratterizzare Z = X1 + X2 . Esercizio 126. Calcolare la funzione caratteristica di X. 186 Bernoulli e Binomiale. Sia X ∼ Ber(θ) con parametro θ ∈ [0, 1] una v.a. di Bernoulli o Bernoulliana. Allora, la distribuzione di Bernoulli è data da P (X = x) = θx (1 − θ)1−x , x ∈ {0, 1}. Notiamo che X è dicotomica, può assumere solo due valori con probabilità P (X = 1) = θ e P (X = 0) = 1 − θ. Quindi, se scegliamo IX = {1, 2} potremmo scrivere x1 = 0 e x2 = 1 con le rispettive probabilità. Otteniamo EX = θ, 2 σX = M2 − M12 = θ(1 − θ). Se il campione x ∈ {0, 1}n è dato da n osservazioni su v.a. Bernulliane indipendenti, diciamo {Xi }i=1,...,n , otteniamo (grazie all’indipendenza delle v.a.) P (X1 = x1 , . . . , Xn = xn ) = θ Pn i=1 xi Pn (1 − θ)n− i=1 xi e se volessimo che esattamente k tra di loro rappresentino un successo (Xi = 1) n X n P Xi = k = P (X1 = x1 , . . . , Xn = xn ), 0 ≤ k ≤ n k i=1 ovvero, per le probabilità totali, basta che si osservi uno degli n n! = k!(n − k)! k campioni in cui k su n osservazioni sono dei successi, ognuno ovviamente con probabilità P (X1 = x1 , . . . , Xn = xn ). Chiamiamo K la v.a. K= n X Xi ∼ Bin(n, θ) i=1 che è una Binomiale di parametri n e θ dove le Xi ∼ Ber(θ) sono indipendenti (le Xi sono i.i.d.). Otteniamo EK = n X E[Xi ] = nθ, V ar(K) = i=1 n X 2 σX = nθ(1 − θ) i i=1 ed ovviamente per ogni Xi vale Xi ∼ Bin(1, θ). Si può considerare una v.a. Q costruita a partire da Q = EQ = EK = θ = q, n V ar(Q) = K n e per cui 1 2 θ(1 − θ) q(1 − q) σ = = . k n2 n n Capitolo 7. Distribuzioni di probabilità elementari 187 Se K rappresenta il numero di successi in n prove indipendenti, allora Q rappresenta la frequenza dei successi (ed è una v.a.). Concludiamo ricordando che se X ∼ Bin(n, p) con p ∈ [0, 1] e n ∈ N, allora n k pk = P (X = k) = p (1 − p)n−k , k ∈ IX = {s ∈ N ∪ {0} : s ≤ n} (7.2) k e la distribuzione Binomiale può essere associata alla v.a. X = "numero di successi in n prove " se P (Successo) = p. Si vede subito che 1. pk ≥ 0, Pn 2. k=0 pk = 1. Per verificare la somma ad uno si è usata una somma notevole, la formula del binomio di Newton n X n k n−k a b = (a + b)n . k k=0 La funzione di ripartizione è data da 0, x < 0 X pk , 0 ≤ x ≤ n FX (x) = 0≤k≤n : k≤x 1, x ≥ n Osservazione 42. Lo schema detto Bernoulliano è uno schema in cui si prevedono prove (esperimenti, lanci, estrazioni, selezioni o campionamenti) indipendenti. Esempio 34. Se un determinato pezzo prodotto da un macchinario è difettoso con probabilità p = 0.03, come possiamo determinare la probabilità che una scatola di 10 pezzi ne contenga esattamente k difettosi con k ∈ N ∪ {0}. Si deve considerare " numero di pezzi difettosi in una scatola" = X ∼ Bin(10, 0.03) quindi, segue che 10 (0.03)k (0.97)n−k , k ∈ IX = {0, 1, 2, . . . , 10} P (X = k) = k 0, k∈ / IX . Esercizio 127. Dimostrare che la Binomiale è chiusa rispetto alla somma. Cioè, se X1 ∼ Bin(n, p) e X2 ∼ Bin(m, p), allora X1 + X2 ∼ Bin(n + m, p). Esercizio 128. Calcolare la funzione caratteristica di X. 188 Multinomiale. Sia X ∼ M N om({pi }) dove le pi , i = 1, 2, . . . , n sono probabilità. Allora, dato il vettore x = (x1 , x2 , . . . , xn ) con xi ∈ {0, 1, . . . , N } per ogni i = 1, 2, . . . , n, si ha 0, xi < 0 per qualche i Pn N! x1 FX (x) = p1 · · · pxnn , i=1 xi = N x ! · · · xn ! 1 1, x ≥ N per ogni i i La Multinomiale generalizza la Binomiale (potremmo dire che una Binomiale a più alternative) e l’evento che si vuole considerare prevede la realizzazione di xi volte la caratteristica i-esima per ottenere N caratteristiche totali su n prove totali. Nello schema Binomiale si avevano k e n − k realizzazioni delle caratteristiche "successo" ed "insuccesso" su un totale di n prove. Si pensi ad un vettore V = (](X1 ), ](X2 ), . . . , ](Xn )) in cui le variabili Xi sono i.i.d. dove ](Xi ) ="il numero di volte che si è verificato Xi " e la v.a Xi si verifica con probabilità pi . L’evento (](Xi ) = xi ) = "Xi si verifica xi volte" ha probabilità pxi i di verificarsi (oppure P (](Xi ) = k) = pki ). La probabilità di ottenere la n-upla x = (x1 , x2 , . . . , xn ), vista l’indipendenza, è data dal prodotto P (V = x) = n Y pxi i . i=1 Di tutte le n-upla che si possono ottenere, vogliamo tenere solo quelle per cui N . Allora la v.a. X si può ottenere considerando dove |V | = Pn i=1 xi = P (X = x) = P (V = x, |V | = N ) Pn i=1 xi . In quanti modi si può ottenere |V | = N ? In i=1 ](Xi ) = Pn N! = |PxN1 ,...,xn | x1 ! · · · xn ! modi, cioè il vettore (xi1 , xi2 , . . . xin ) può permutare in N ! modi mantenendo però lo stesso numero di ripetizioni per ogni caratteristica xi . Ogni permutazione ha la stessa probabilità di realizzarsi e quindi n P (X = x) = P (V = (x1 , . . . , xn ), |V | = N ) = Y N! pxi = FX (x). x1 ! · · · xn ! i=1 i Nel caso n = 2, si ha che N = x1 + x2 e 1 = p1 + p2 , quindi N ! x1 x2 N x1 P (X = x) = p1 p2 = p (1 − p1 )N −x1 = P (V1 = x1 , V2 = N − x1 ) x1 !x2 ! x1 1 con x1 ∈ {0, 1, . . . , N }. Quindi P (X = x) = P (Bin(N, p1 ) = x1 ). Capitolo 7. Distribuzioni di probabilità elementari 189 Ipergeometrica. Sia X ∼ Iperg(M1 , M2 ) M1 M2 m1 m2 M1 +M2 m1 +m2 pm1 ,m2 = cioè la probabilità di estrarre (ad esempio da una scatola) un gruppo di m1 +m2 oggetti prendendone m1 dal gruppo di M1 ed m2 dal gruppo di M2 . Possiamo semplificare scrivendo X ∼ Iperg(K, N − K) e K N −K pk,n−k = k n−k N n = pk . Esercizio 129. Si consideri X ∼ Iperg(K, N − K). Determinare spet(X). La v.a. Ipergeometrica viene utilizzata negli schemi di campionamento (o scelta) in blocco, dove cioè non è previsto il reimbussolamento (schema senza ripetizione). Inoltre, rappresenta la probabilità di estrarre da un urna in cui sono inseriti oggetti divisi in gruppi (due in questo caso, n nel caso delle Ipergeometrica a n alternative). Se in un scatola ci sono K palline rosse e N −K palline nere per un totale di N palline, allora estraendo n palline a caso, P (estrarne k rosse) = P (estrarne k rosse e n − k nere) = pk . Osservazione 43. Lo schema detto in blocco è uno schema in cui le prove (esperimenti, lanci, estrazioni, selezioni o campionamenti) sono dipendenti. Nella Ipergeometrica a più alternative si considerano n gruppi di numerosità M = M1 +M2 +. . .+Mn , di ogni gruppo si vogliono estrarre mi oggetti (con i = 1, 2, . . . , n) per un totale di m = m1 + m2 + . . . + mn oggetti (la cardinalità degli oggetti estratti, ad esempio da una scatola). La probabilità di effettuare una simile estrazione è data da Q n Mi i=1 mi M m che è la densità discreta di una Ipergeometrica a n alternative. Per n = 2 si ottiene pm1 ,m2 introdotta sopra. Poisson. Sia X ∼ P ois(λ) con λ > 0. Allora pk = P (X = k) = λk −λ e , k! k ∈ IX = N ∪ {0}. 190 Notiamo che si sta usando la scrittura xk = k con k ∈ IX = N∪{0} per pura comodità, in generale avremmo scritto pk = P (X = xk ) = λxk −λ e , xk ! k ∈ IX = N ∪ {0}. Verifichiamo che sia una distribuzione di probabilità: 1. pk ≥ 0, 2. X −λ pk =e k≥0 ∞ X λk k=0 k! =1 (espansione di Maclaurin) Si ottiene EX = X xk p k k≥0 =e −λ ∞ X λk (k − 1)! k=1 ∞ X −λ =λe k=1 =λe−λ (per k = 0 il primo addendo è nullo) λk−1 (k − 1)! ∞ X λs s=0 s! =λ (espansione in serie della funzione esponenziale). e V ar(X) = EX 2 − (EX)2 = λ. Infatti, 2 EX = e −λ ∞ X k=0 k 2λ k k! =e −λ ∞ X ∞ X λk−1+1 λs+1 −λ k (s + 1) =e = λEX + λ. (k − 1)! s! s=0 k=1 La funzione di ripartizione è data da FX (x) = X k≥0 : k≤x 0, x < 0 pk , x ≥ 0 Capitolo 7. Distribuzioni di probabilità elementari 191 Esercizio 130. Dimostrare che una v.a. di Poisson è chiusa rispetto alla somma, che vale cioè X1 + X2 ∼ P ois(λ1 + λ2 ), se X1 ∼ P ois(λ1 ) e X2 ∼ P ois(λ2 ). Esercizio 131. Calcolare la funzione caratteristica di X. La v.a. di Poisson viene anche detta legge degli eventi rari perché, fissato λ, si ha la convergenza in legge Bin(n, λ/n) → P ois(λ) per n→∞ partendo quindi da successi legati alla probabilità p = λ/n che decresce al crescere delle prove. 7.2 Variabili continue - Consideriamo alcune distribuzioni di probabilità FX (x) = P (X ≤ x) per le quali possiamo calcolare la corrispondente legge di densità fX . Uniforme. Sia X ∼ U nif (a, b) con a < b ed a, b ∈ R. Allora fX (x) = 1 1[a,b] (x), b−a x ∈ R. Se (a, b) = (0, 1) otteniamo che P (X ≤ x) = µ((a, x]) è la misura di Lebesgue dell’insieme (a, x] ⊂ (0, 1). EX = 1 b 2 − a2 a+b = b−a 2 2 che è la media aritmetica di a e b, V ar(X) = (b − a)2 12 x≤a 0, (x − a)/(b − a), a ≤ x ≤ b . FX (x) = 1, x≥b Esercizio 132. Siano X, Y due v.a. U nif (0, 1) i.i.d., caratterizzare Z = X + Y . Esercizio 133. Una v.a. Uniforme è continua o assolutamente continua? Esercizio 134. Calcolare la funzione caratteristica di X. 192 Osservazione 44. Siano X1 , X2 due v.a. indipendenti e uniformi in (0, 1), allora X = (X1 , X2 ) è uniforme in Q = (0, 1) × (0, 1) e scriveremo X ∼ U nif (Q). Se invece R = (0, a) × (0, b) è un rettangolo con a, b > 0 e X ∼ U nif (R), cioè il vettore X è uniforme in R, allora fX (x) = fX1 ,X2 (x1 , x2 ) = 1 1 1R (x1 , x2 ) = 1R (x), |R| |R| x = (x1 , x2 ) dove |R| = area(R) = ab. Si vede subito che 1 1 1 1R (x1 , x2 ) = 1(0,a) (x1 ) · 1(0,b) (x2 ). |R| a b Inoltre, vale una forma continua di impostazione classica della probabilità , cioè se X ∼ U nif (R), per ogni A ⊆ R, si ha P (X ∈ A) = |A| . |R| Esponenziale. Sia X ∼ Exp(λ) con λ > 0. Allora fX (x) = λe−λx 1[0,∞) (x), EX = 1 λ V ar(X) = FX (x) = x ∈ R. 1 λ2 0, x≤0 −λ x 1−e , x≥0 λ > 0. Esercizio 135. Siano X, Y esponenziali di parametro λ > 0 e X ⊥ Y . Calcolare fZ dove Z = X + Y . Esercizio 136. Calcolare la funzione caratteristica di X. Gamma. Sia X ∼ Gamma(λ, ν) con parametri λ, ν > 0. Allora fX (x) = λν ν−1 −λx x e 1[0,∞) (x), Γ(ν) x∈R Capitolo 7. Distribuzioni di probabilità elementari dove 193 ∞ Z uz−1 e−u du, Γ(z) = z>0 (7.3) 0 è la funzione Gamma. Si ottiene che EX = ν λ V ar(X) = FX (x) = ν λ2 0, x≤0 Γ(x, λ, ν), x > 0 dove Z Γ(x, λ, ν) = 0 x λν ν−1 −λu u e du Γ(ν) è la Gamma incompleta. Esercizio 137. Dimostrare che la Gamma è chiusa rispetto alla somma. Esercizio 138. Calcolare la funzione caratteristica di X. Diamo alcune proprietà molto importanti della funzione Gamma: • (la formula di duplicazione) per m ∈ N, z > 0, si ha che m Y m−1 1 k−1 Γ z+ = (2π) 2 m 2 −mz Γ(mz). m k=1 (7.4) • (la formula di riflessione) per z > 0, si ha che π . sin πz (7.5) per z ∈ N, (7.6) Γ(z)Γ(1 − z) = • (la funzione fattoriale) per z > 0, si ha che Γ(z + 1) = z!, Γ(z + 1) = zΓ(z), per z ∈ R. 194 Dalle proprietà del fattoriale, Γ(1) = Γ(2) = 1. Inoltre, per m = 2, si ottiene √ 1 4π Γ(z)Γ z + = z Γ(2z) 2 4 dalla quale si vede subito che √ 1 Γ = π, 2 3 1√ Γ = π, 2 2 ... . Esercizio 139. Dimostrare che Γ(z) = (z − 1)! se z ∈ N. Cauchy. Se X ∼ Cauchy, fX (x) = 1 , π(1 + x2 ) x ∈ R. EX =∞ FX (x) = 1 1 + arctan(x), 2 π x ∈ R. Esercizio 140. Calcolare EX r per r ∈ (0, 1) ∪ [1, ∞). Esercizio 141. Quale trasformata associamo ai momenti della Cauchy e per quali valori è definita? La funzione caratteristica di una Cauchy è data da φX (ξ) = e−|ξ| , ξ ∈ R. Normale e Normale standard (Gaussiana). Sia X ∼ N (µ, σ 2 ) con µ ∈ R e σ 2 > 0. Allora (x−µ)2 1 fX (x) = √ e− 2σ2 , 2πσ 2 EX =µ x∈R Capitolo 7. Distribuzioni di probabilità elementari 195 V ar(X) =σ 2 FX (x) = √ 1 2σ 2 Φ x−µ √ 2σ 2 , x∈R dove Φ(x) = −∞ x 2 e−u √ du, x≤0 e −∞ Z π √ du = x −u2 π e 1 + √ du, x ≥ 0 2 π 0 −u2 x Z Z è la funzione degli errori. Se µ = 0 e σ 2 = 1, allora X ∼ N (0, 1) è detta Normale standard. Se X ∼ N (0, 1) e Y = aX + b, si ottiene Y ∼ N (b, a2 ). Inoltre, se X1 , . . . , Xn sono v.a. indipendenti tali che Xi ∼ N (µi , σi2 ) per ogni i, allora ! X X X a+ bi X i ∼ N a + bi µ i , b2i σi2 . i i i La funzione caratteristica di una Normale standard è data da ξ2 φX (ξ) = e− 2 , ξ ∈ R. (7.7) Infatti, φX (ξ) = ∞ X (iξ)r r! r=0 Mr (X) dove Mr (X) = EX 2k , r = 2k EX 2k+1 = 0, r = 2k + 1 k∈N e 2 Z − x2 2k e Z ∞ 2 − x2 2k e Γ(k + 1/2) √ x √ dx = 2k x √ dx = 2 π 2π 2π R 0 √ dove si è posto x = y (ricordiamo anche che Γ(1/2) = π 1/2 ). Dalla formula di duplicazione della Gamma, si ottiene per r = 2k √ 4π Γ(2k) k 1 Mr (X) =2 √ π 4k Γ(k) EX 2k = 196 1 2k Γ(2k) 2k k Γ(k) 1 Γ(2k + 1) = k 2 Γ(k + 1) 1 (2k)! = k 2 (k)! = e Mr (X) = 0 per r = 2k + 1. Si ottiene la (7.7) dalla serie ∞ X (iξ)2k 1 (2k)! φX (ξ) = , (2k)! 2k (k)! k=0 ξ∈R e ricordando che i2 = −1. Esercizio 142. Dimostrare che Mr (X) = 0 per r = 2k + 1, k ∈ N. Esercizio 143. Calcolare la funzione caratteristica di Y ∼ N (µ, σ 2 ). Normale Multidimensionale. Sia X = (X1 , . . . , Xn ) un vettore di v.a. Gaussiane (non necessariamente indipendenti!!), allora X è detta v.a. Normale (o v.a. Gaussiana) multidimensionale. La densità di X è la densità multidimensionale 1 1 −1 T exp − (x − µ)Σ (x − µ) fX (x) = p 2 (2π)n |Σ| dove x = (x1 , . . . , xn ) ∈ Rn , µ = (µ1 , . . . , µn ) ∈ Rn , (x − µ)T è il vettore (x − µ) trasposto, |Σ| e Σ−1 sono rispettivamente il determinante e la matrice inversa di σ1,1 σ1,2 . . . σ1,n σ2,1 σ2,2 . . . σ2,n Σ = .. .. .. .. = {σi,j } con 1 ≤ i, j ≤ n. . . . . σn,1 σn,2 . . . σn,n La matrice Σ è detta matrice di varianze e covarianze (o semplicemente, delle covarianze) di X e σi,j = Cov(Xi , Xj ) = Cov(Xj , Xi ) = σj,i per cui la matrice è simmetrica. Si vede subito che σi,i = V ar(Xi ), quindi la diagonale di Σ è costituita dalle varianze degli elementi del vettore X. Ovviamente se le componenti sono indipendenti si ottiene Σ = diag{σi,i }1≤i≤n mentre se le componenti sono indipendenti e di varianza σi,i = σ 2 per ogni i, Σ = σ2I dove I è la matrice identità. Capitolo 7. Distribuzioni di probabilità elementari 197 Weibull. Sia X ∼ W eibull(λ, n) con parametri λ > 0 e n ∈ N. Allora fX (x) = λn xn−1 e−λx 1[0,∞) (x), (n − 1)! x∈R che è quindi una Gamma Pn con ν = n. Inoltre, se X1 , . . . , Xn ∼ Exp(λ) sono v.a. indipendenti, allora i=1 Xi ∼ W eibull(λ, P n). Inoltre,P per quanto appena detto, la Weibull è chiusa rispetto alla somma, infatti ni=1 Xi + m j=1 Xj ∼ W eibull(λ, n + m). Beta. Sia X ∼ Beta(α, γ) con parametri α, γ > 0. Allora fX (x) = 1 xα−1 (1 − x)γ−1 1[0,1] (x), B(α, γ) x∈R Chi-quadrato, χ2 . Sia X ∼ χ2 (ν) dove ν (non necessariamente intero) sono detti gradi di libertà. Allora ν ν −1 ν x x 2 −1 e− 2 x ≥ 0, ν > 0 fX (x) = 2 2 Γ 2 e si ha: EX = ν e V ar(X) = 2ν, P se N1 , . . . , Nn ∼ N (0, 1) e indipendenti, allora ni=1 Ni2 ∼ χ2 (n), P P se X1 , . . . , Xn ∼ χ2 (νi ) e indipendenti, allora ni=1 Xi ∼ χ2 ( ni=1 νi ), se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora X1 X1 +X2 se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora X1 /ν1 X2 /ν2 ∼ Beta(ν1 /2, ν2 /2), ∼ F (ν1 , ν2 ). T di Student. La variabile prende il nome da Gosset, ingegnere presso Guinnes che si firmava come Student. Se X ∼ T , fX (x) = 1 B 1 ν , 2 2 √ 1 ν 1− x2 ν ν+1 2 x ∈ R, ν > 0 che è simmetrica e tende alla normale al crescere di n, si ha: √ se Z ∼ N (0, 1) e G ∼ Gamma ν2 , ν2 sono indipendenti, allora Z/ G ∼ T (ν), T 2 ∼ F (1, ν), T (1) = Cauchy(0, 1). 198 La variabile F. La variabile di Fisher-Snedecor ha legge di densità µ ν µ x 2 −1 µ2 ν 2 fX (x) = µ+ν , B µ2 , ν2 (µx + ν) 2 x ≥ 0, µ, ν > 0 Quartile, decile, centile Data una distribuzione di probabilità, diciamo della v.a. X, su D ⊆ R sappiamo che P (X ∈ D) = 1. Supponiamo ora di dividere D in intervalli disgiunti Dj tali che D = ∪j Dj e P (X ∈ Dj ) = α costante. Allora: si definiscono quartili, quei valori per cui α = 1/4 ed in particolare Dj = [dj , dj+1 ), j = 0, 1, 2, 3 dove d1 , d2 , d3 sono detti quartili; si definiscono decili, quei valori per cui α = 1/10 e Dj = [dj , dj+1 ), j = 0, 1, . . . , 9 dove d1 , . . . , d9 sono detti decili; si definiscono centili o percentili, quei valori per cui α = 1/100 e Dj = [dj , dj+1 ), j = 0, 1, . . . , 99 dove d1 , . . . , d99 sono detti centili o percentili. Si possono definire tutti i quantili di ordine α = 1/n. Il quantile di ordine 1/2 è la mediana. Capitolo 7. Distribuzioni di probabilità elementari 199 Tabella 7.1: Tavola della funzione di ripartizione Φ(z) di una N (0, 1). z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 0.00 0.50000 0.53983 0.57926 0.61791 0.65542 0.69146 0.72575 0.75804 0.78814 0.81594 0.84134 0.86433 0.88493 0.90320 0.91924 0.93319 0.94520 0.95543 0.96407 0.97128 0.97725 0.98214 0.98610 0.98928 0.99180 0.99379 0.99534 0.99653 0.99744 0.99813 0.99865 0.99903 0.99931 0.99952 0.99966 0.99977 0.99984 0.99989 0.99993 0.99995 0.01 0.50399 0.54380 0.58317 0.62172 0.65910 0.69497 0.72907 0.76115 0.79103 0.81859 0.84375 0.86650 0.88686 0.90490 0.92073 0.93448 0.94630 0.95637 0.96485 0.97193 0.97778 0.98257 0.98645 0.98956 0.99202 0.99396 0.99547 0.99664 0.99752 0.99819 0.99869 0.99906 0.99934 0.99953 0.99968 0.99978 0.99985 0.99990 0.99993 0.99995 0.02 0.50798 0.54776 0.58706 0.62552 0.66276 0.69847 0.73237 0.76424 0.79389 0.82121 0.84614 0.86864 0.88877 0.90658 0.92220 0.93574 0.94738 0.95728 0.96562 0.97257 0.97831 0.98300 0.98679 0.98983 0.99224 0.99413 0.99560 0.99674 0.99760 0.99825 0.99874 0.99910 0.99936 0.99955 0.99969 0.99978 0.99985 0.99990 0.99993 0.99996 0.03 0.51197 0.55172 0.59095 0.62930 0.66640 0.70194 0.73565 0.76730 0.79673 0.82381 0.84849 0.87076 0.89065 0.90824 0.92364 0.93699 0.94845 0.95818 0.96638 0.97320 0.97882 0.98341 0.98713 0.99010 0.99245 0.99430 0.99573 0.99683 0.99767 0.99831 0.99878 0.99913 0.99938 0.99957 0.99970 0.99979 0.99986 0.99990 0.99994 0.99996 0.04 0.51595 0.55567 0.59483 0.63307 0.67003 0.70540 0.73891 0.77035 0.79955 0.82639 0.85083 0.87286 0.89251 0.90988 0.92507 0.93822 0.94950 0.95907 0.96712 0.97381 0.97932 0.98382 0.98745 0.99036 0.99266 0.99446 0.99585 0.99693 0.99774 0.99836 0.99882 0.99916 0.99940 0.99958 0.99971 0.99980 0.99986 0.99991 0.99994 0.99996 0.05 0.51994 0.55962 0.59871 0.63683 0.67364 0.70884 0.74215 0.77337 0.80234 0.82894 0.85314 0.87493 0.89435 0.91149 0.92647 0.93943 0.95053 0.95994 0.96784 0.97441 0.97982 0.98422 0.98778 0.99061 0.99286 0.99461 0.99598 0.99702 0.99781 0.99841 0.99886 0.99918 0.99942 0.99960 0.99972 0.99981 0.99987 0.99991 0.99994 0.99996 0.06 0.52392 0.56356 0.60257 0.64058 0.67724 0.71226 0.74537 0.77637 0.80511 0.83147 0.85543 0.87698 0.89617 0.91308 0.92785 0.94062 0.95154 0.96080 0.96856 0.97500 0.98030 0.98461 0.98809 0.99086 0.99305 0.99477 0.99609 0.99711 0.99788 0.99846 0.99889 0.99921 0.99944 0.99961 0.99973 0.99981 0.99987 0.99992 0.99994 0.99996 0.07 0.52790 0.56749 0.60642 0.64431 0.68082 0.71566 0.74857 0.77935 0.80785 0.83398 0.85769 0.87900 0.89796 0.91466 0.92922 0.94179 0.95254 0.96164 0.96926 0.97558 0.98077 0.98500 0.98840 0.99111 0.99324 0.99492 0.99621 0.99720 0.99795 0.99851 0.99893 0.99924 0.99946 0.99962 0.99974 0.99982 0.99988 0.99992 0.99995 0.99996 0.08 0.53188 0.57142 0.61026 0.64803 0.68439 0.71904 0.75175 0.78230 0.81057 0.83646 0.85993 0.88100 0.89973 0.91621 0.93056 0.94295 0.95352 0.96246 0.96995 0.97615 0.98124 0.98537 0.98870 0.99134 0.99343 0.99506 0.99632 0.99728 0.99801 0.99856 0.99896 0.99926 0.99948 0.99964 0.99975 0.99983 0.99988 0.99992 0.99995 0.99997 0.09 0.53586 0.57535 0.61409 0.65173 0.68793 0.72240 0.75490 0.78524 0.81327 0.83891 0.86214 0.88298 0.90147 0.91774 0.93189 0.94408 0.95449 0.96327 0.97062 0.97670 0.98169 0.98574 0.98899 0.99158 0.99361 0.99520 0.99643 0.99736 0.99807 0.99861 0.99900 0.99929 0.99950 0.99965 0.99976 0.99983 0.99989 0.99992 0.99995 0.99997 Come si legge una tavola? Se voglio calcolare z tale P (Z ≤ z) = Φ(z) = 0.95 devo cercare 0.9500 nella tavola, mi accorgo che non c’è ma posso considerare il valore più vicino che è 0.95053. Tale valore corrisponde alla riga 1.6 e alla colonna 0.05. Allora, z = 1.6 + 0.05 = 1.65 è il valore cercato. 200 Appendice A Esercizi Esercizio 144. In una stanza ci sono 100 persone che devono essere visitate da due medici. Il primo medico arriva alle 8:00 AM e inizia le visite, osservati tutti i pazienti arriva alla conclusione che 10 di loro sono affetti da crioglobulinemia. Il secondo medico arriva alle 2:00 PM e non trova il primo medico, decide di iniziare le visite. Preso un paziente a caso, con quale probabilità è affetto da crioglobulinemia? Esercizio 145. Si consideri il precedente esercizio. Se il medico scegliesse a caso 3 pazienti, con quale probabilità tutti sono affetti da crioglobulinemia? Esercizio 146. Da precedenti osservazioni una società ha registrato una perdita maggiore del 5% del fatturato nel 3% delle sue agenzie in un anno. Calcolare la probabilità che nel prossimo anno la società registri una perdita maggiore del 5% in almeno una delle sue 20 agenzie. Esercizio 147. Da precedenti osservazioni una società ha registrato una perdita maggiore del 5% del fatturato nel 3% delle sue agenzie in un anno. Calcolare la probabilità che nel prossimo anno la società non registri una perdita maggiore del 5% in almeno una delle sue 20 agenzie. Esercizio 148. Due fabbriche locali, diciamo A e B, producono telefoni cellulari e la percentuale di telefoni difettosi è uguale al 5% per la ditta A e al 1% per la ditta B. Il mercato è chiuso e si possono acquistare telefoni solo da queste due fabbriche. Inoltre, A e B immettono sul mercato locale lo stesso numero di prodotti. Calcolare la probabilità di acquistare un telefono difettoso. Dopo aver acquistato due telefoni vedo che provengono dalla stessa fabbrica (senza sapere se è A oppure B). Se il primo telefono è difettoso, con quale probabilità sarà difettoso anche il secondo? Esercizio 149. Si consideri la situazione del precedente Esercizio 148 nel caso in cui il mercato non è chiuso ed A immette sul mercato il 60% dei prodotti dei B. Inoltre, i prodotti di entrambe le fabbriche rappresentano il 20% della domanda. 201 202 Esercizio 150. Una fabbrica produce sensori laser che escono da due linee di produzione, diciamo linea A e linea B. Dalla linea A escono il 30% dei prodotti. Si riscontra che la percentuale di pezzi difettosi nelle due linee è pari al 15% e 12% rispettivamente. Calcolare: 1. P (un sensore scelto a caso sia difettoso), 2. P (il sensore difettoso e scelto a caso provenga dalla linea A). I sensori vengono confezionati in scatole da 10 pezzi della stessa linea. Viene ispezionata una scatola a caso e k sensori risultano difettosi (si noti che k ≤ 10). Calcolare: 3. P (la scatola proviene dalla linea A), 4. P (la scatola proviene dalla linea B) Esercizio 151. In una slot machine si vincono 10 euro con una puntata di 1 euro. Si vince una volta su dieci. Avendo a disposizione 10 euro, calcolare la probabilità di vincere per la prima volta al decimo tentativo. Calcolare la probabilità di vincere 10 euro. Esercizio 152. Siano X, Y due v.a. indipendenti e Z = g(X, Y ) con g(x, y) = x/y. Caratterizzare Z nei seguenti casi: 1. X ∼ U nif (0, 1) e Y ∼ U nif (0, 2), 2. X ∼ U nif (0, 1) e Y ∼ Exp(λ), 3. X ∼ Exp(λ) e Y ∼ Exp(λ). Esercizio 153. Siano X, Y due v.a. indipendenti e Z = g(X, Y ) con g(x, y) = xy. Caratterizzare Z nei seguenti casi: 1. X ∼ U nif (0, 1) e Y ∼ U nif (0, 2), 2. X ∼ U nif (0, 1) e Y ∼ Exp(λ), 3. X ∼ Exp(λ), λ > 0 e Y ∼ U nif (0, 1), 4. X ∼ Exp(λ) e Y ∼ Exp(λ). Esercizio 154. Siano X ∼ U nif (0, 1) e Y ∼ P ois(λ), λ > 0 due v.a. indipendenti. Scrivere la f.r. della v.a. Z = X + Y . Esercizio 155. Siano X ∼ U nif (0, 1) e g(x) = |x − 1|−1 . Studiare Y = g(X). Appendice A. Esercizi 203 Esercizio 156. Siano X ∼ U nif (0, 1) e Y ∼ U nif (0, 1) tali che X ⊥ Y . Sia g(x, y) = |x − y|. Studiare Z = g(X, Y ). Esercizio 157. Siano X ∼ Exp(λ), λ > 0 e U ∼ U nif (0, 1) due v.a. indipendenti. Studiare la v.a. s 1 Y = X − ln U . λ Esercizio 158. Sia {Xk }k∈N una successione di v.a. indipendentiP ognuna esponenziale di parametro λk > 0. Si dimostri che X(1) ∼ Exp(λ) dove λ = nk=1 λk . Si scriva la densità di Z = X(n) . Esercizio 159. Sia {Xk }k∈N una successione di v.a. i.i.d. e U nif (0, 1). Studiare la convergenza della v.a. Zn = min {Xk }. 1≤k≤n Esercizio 160. Sia {Xk }k∈N una successione di v.a. i.i.d. e U nif (0, 1) e Zn = min1≤k≤n {Xk } . Studiare la convergenza della v.a. Yn = n · Zn . 204 Appendice B Alcune somme notevoli n X c=c+ k=0 n X k= k=0 n X 2 k = k=0 n X n X k=0 n(n + 1) 2 k= k2 = k=1 3 k = n X c = c(n + 1) (banale!) k=1 k=1 n X n X (somma dei primi n numeri) n(n + 1)(2n + 1) 6 3 k = k=1 n X n(n + 1) 2 (somma dei primi n quadrati) 2 (somma dei primi n cubi) (2k − 1) = n2 (verificare!) k=1 n X n k=0 k = 2n ∞ X 1 =e k! k=0 (verificare!) (verificare!) 205 206 ∞ X (−1)k k=0 k! ∞ X k=1 n X xk = k=m n X k=1 !2 xk = 1 e (verificare!) k =1 (k + 1)! xm − xn−1 1−x n X k=1 = xk n X s=1 xs = (verificare!) n X k=1 x2k + X 0≤k≤n 0≤s≤n k6=s xk xs Formulario 207 208 Appendice C Svolgimenti Svolgimento Esercizio 12. Dal vettore x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62) ricaviamo media x̄ e varianza σ̄ 2 . La stima puntuale del prezzo medio è la media campionaria. Non interviene la varianza campionaria che invece risulta essere un informazione importante. Per tale motivo cerchiamo una stima intervallare e rispondiamo al secondo punto. Supponiamo che X ="prezzo" si distribuisce come una normale di media µ e varianza σ 2 , le stime trovate sono µ̂ = x̄ e σ̂ 2 = σ̄ 2 quindi la variabile standardizzata Z= X −µ σ per cui si ha X = µ + σZ ci consente di definire gli estremi di interesse per l’intervallo che stiamo cercando. La variabile Z è la normale standard, le quantità zα codificati nelle tavole dei percentili della Z secondo la relazione P (z α2 < Z ≤ z1− α2 ) = 1 − α ci consentono di trovare x1 , x2 tale che P (x1 < X ≤ x2 ) = 1 − α dalle relazioni x1 = x̄ + σ̄z α2 e x2 = x̄ + σ̄z1− α2 . (C.1) Richiedendo una probabilità del 95% si deve scegliere α = 0.05 e per i percentili che ci interessano vale z ∗ = zα/2 = −z1−α/2 essendo Z simmetrica e centrata in zero. Si osserva che P (Z ≤ zα/2 ) = α/2 = P (Z > z1−α/2 ). Soluzione Esercizio 28. Dato Ω = B ∪ B̄, si ottiene P (A ∩ Ω) = P (A ∩ B) + P (A ∩ B̄) = P (A)P (B) + P (A ∩ B̄) dove si sono considerate l’intersezione con un evento e l’indipendenza di A e B. Allora, P (A ∩ B̄) = P (A) 1 − P (B) = P (A)P (B̄). 209 210 Soluzione Esercizio 31. a) P (tutte minori o uguali ad n) = n!(13 − n)! 1 = 13 , 13! n n = 1, 2, . . . , 13 b) 13−n n 13 n P (tutte maggiori di n) = n ≤ 13 − n , (C.2) e P (tutte maggiori di n) = 0, c) P (tutte di cuori) = n > 13 − n (C.3) 1 4 Soluzione Esercizio 32. 1. (4/9)4 + 2[(4/9)2 · (5/9)2 ] + (5/9)4 2. (5/9)2 · (4/9)2 3. 0 ⇔ (vince M ario) ∩ (vince P iero) = {∅} 4. 2 · [(5/9)2 · (4/9)2 ] − 2 · 0 5. 2 · (5/9)2 · (4/5)2 Svolgimento Esercizio 44. Si deve considerare Z ∞ Z ∞ P (X ∈ (x, ∞))µ(dx) P (X > x)µ(dx) = 0 0 Z ∞ = E1(x,∞) (X)µ(dx) 0 Z ∞ = E1(0,X) (x)µ(dx) 0 Z ∞ =E 1(0,X) (x)µ(dx) (linearità media/intergale) 0 Z X =E µ(dx) 0 =EX Appendice C. Svolgimenti 211 infatti Z X Z dx = X e 0 X µδ (dx, spet(X)) = X ∈ spet(X). 0 Soluzione Esercizio 48. 1. Passando alle coordinate polari si ha che x ρ cos θ = lim = 0 uniformemente z→∞ x2 + y 2 ρ→∞ ρ2 lim cioè per ogni angolo θ. Quindi il limite è 0. 2. Passando alle coordinate polari e considerando che la funzione è positiva si trova che diverge positivamente (verificare!!). Inoltre, si poteva osservare che 3x2 + 2y 2 = (x2 + y 2 )2 2 3 xy2 + 2 x2 y2 +2+ y2 x2 1 x2 e quindi 5 1 3x2 + 2y 2 = lim = +∞. 2 2 2 x→0 4 x2 (x,y)→(0,0) (x + y ) lim 3. Si può passare alle coordinate polari, vedere che si ottiene una forma indeterminata (ma non uniformemente e questo già è sufficiente) e quindi usare la regola di de l’Hôpital per vedere che il limite diverge ma non per tutti i valori di θ (non per θ = π/4). Oppure si può vedere cosa succede sulle rette, basta considerare y = mx per ottenere x2 (1 + m2 )(1 − m) + (1 − m) =∞ x→0 2x(1 + m2 ) lim ma non uniformemente (cioè, non per m = 1). Il limite non esiste, la funzione in (0, 0) non ammette limite. 2 2 2 2 Soluzione Esercizio 50. Basta osservare che e−(x1 +x2 ) = e−x1 e−x2 e riconoscere la normale multidimensionale. Quindi κ = 1/π e 2 e−xj fXj (xj ) = √ , π j = 1, 2. 212 Soluzione Esercizio 54. Conosco la v.a. X e la sua legge di densità definita su supp(X), devo trovare la densità della v.a. Y = g(X). Se g è invertibile, allora X = g −1 (Y ) e posso usare le informazioni in mio possesso, i dati del problema. Essendo g(x) = x2 continua e X v.a. continua, allora Y è continua e supp(Y ) = supp(X 2 ). In particolare vale il teorema fondamentale del calcolo integrale e fY (y) = FY0 (y). Dalla f.r. FY (y) =P (Y ≤ y) =P (X 2 ≤ y) √ =P (|X| ≤ y) √ √ =P (− y ≤ X ≤ y) Z √y = √ fX (x)dx − y e dalla formula (54), ricaviamo 1 √ √ fY (y) = √ fX ( y) + fX (− y) 1supp(X 2 ) (y). 2 y Soluzione Esercizio 56. Conosco fX e fY , voglio trovare fZ . Le v.a. X, Y sono continue, la funzione g(x, y) = x/y è continua, la composizione di funzioni continue Z = g(X, Y ) è continua, allora fZ = FZ0 . Il supporto della v.a. Z può essere ricostruito a partire dai limiti lim g(x, y0 ), x→0+ lim g(x0 , y), y→0+ lim g(x, y0 ), fissato y0 ∈ (0, 1) lim g(x0 , y), fissato x0 ∈ (0, ∞) x→∞ x→1− e si ottiene supp(Z) = (0, ∞). Inoltre la coppia (Y, X) ∈ D dove il dominio D = (0, 1) × (0, ∞) è una striscia infinita e rappresenta la regione del piano ammissibile per il problema dato, posso considerare solo i punti in D ⊂ R2 . La f.r. si ottiene considerando la probabilità FZ (z) =P (Z ≤ z) =P (X ≤ zY ) moltiplico per Y ≥ 0 e non cambio il verso della dis. e quindi tutti i punti Az = {(y, x) ∈ R2 : x ≤ zy}, z ∈ supp(Z). Appendice C. Svolgimenti 213 Si vede subito che per ogni z ∈ (0, ∞), Az ∩ D è una regione del piano che identifica sempre la stessa figura geometrica, ho una sola figura e un solo caso per z, cioè z > 0. Considerando un riferimento cartesiano (di assi y, x invertiti), rappresentando Az ∩ D e quindi la retta X = zY , vedo che per ogni z > 0 Z 1 Z zy dy dxf(Y,X) (y, x) P (X ≤ zY ) = 0 0 dove f(Y,X) (y, x) = fX (x)fY (y) per il fatto che X ⊥ Y . Sostituendo si ottiene Z 1 Z zy P (X ≤ zY ) = dy1(0,1) (y) dxλe−λx 0 Z0 1 = dy 1 − e−λzy 0 =1 − 1 − e−λz , λz z>0 ed avendo una sola figura geometrica, 0, z<0 FZ (z) = P (Z ≤ zY ), z > 0. Si vede che lim FZ (z) = 0, z↑0 lim FZ (z) = lim 1 − z→0 z↓0 1 − e−λz λe−λz = lim 1 − =0 z→0 λz λ e scriviamo FZ (z) = 0, 1− z≤0 −λz 1−e λz , z > 0. Inoltre, limz→∞ FZ (z) = 1. Derivando la f.r. si ottiene la densità 1 fZ (z) = 2 1 − e−λz − λze−λz 1(0,∞) (z), z ∈ R. λz Soluzione Esercizio 63. 1. κ = θ/aθ e θ > 0 2. si ottiene V ∈ (0, log(1 + a)1/2 ) e v<0 0, θ 2v FV (v) = , 0 ≤ v ≤ log(1 + a)1/2 1 − 1 + 1−ea 1, v > log(1 + a)1/2 214 3. θ 1 fZ (z) = θ 2 a z θ−1 1 a− 1(1/a,∞) (z) z Soluzione Esercizio 64. Si vede subito che supp(Z) = (0, +∞). Passiamo al secondo punto dell’ Esempio 19: si vede che D = (0, +∞) × (0, +∞) = D1 , non occorre costruire una partizione di D che identifichi diverse forme geometriche per D1 ∩ Az , z > 0. Infatti, per ogni z > 0, D1 ∩ Az è sempre un triangolo. Si noti che Az è costituito da tutti i punti (x, y) del piano tali che x + y ≤ z, cioè anche dai punti con x e y negativi. Invece, D1 ∩ Az è costituito dai soli punti di coordinate x > 0 e y > 0 (si ricordi che z > 0). Si ottiene la f.r. z≤0 0, P (T ), z ∈ (0, ∞) FZ (z) = 1, z = ∞ (in questo caso non va considerato) dove T = D1 ∩ Az è (sempre) un triangolo di vertici T1 = (0, 0), T2 = (0, z), T3 = (z, 0). L’evento certo, non va considerato perché, in casi come questo, può essere ricondotto a P (T ) con z → ∞. Si costruisca il grafico e si verifichi quanto appena detto. Dal grafico se vede che Z z Z z−x P (T ) = P ((X, Y ) ∈ T ) = dx dyfX (x)fY (y)dxdy 0 0 e quindi Z z P (T ) = dxλe−λx 1 − e−µ(z−x) dx 0 =1 − e−λz − λ e−µz − e−λz = P (Z ≤ z). λ−µ Si ottiene la densità fZ (z) = λe−λz − 0, λ λe−λz − µe−µz , z ∈ (0, ∞), λ−µ z∈ / (0, ∞). Soluzione Esercizio 67. Si disegni il grafico. a) P (Z < z) =P (X + Y < z) = P (Y < z − X) Appendice C. Svolgimenti 215 Si deve osservare che 0 < X < z se X + Y = z ∈ (0, 1) mentre 0 < X < 1 se X + Y = z > 1. Quindi si ottiene 0, z≤0 R R z−x −λy z dx λe dy = z − e−λz (eλz − 1)/λ, z ∈ (0, 1] P (Z < z) = 0 0 R 1 R z−x −λy dx 0 λe dy = 1 − e−λz (eλ − 1)/λ, z > 1 0 La legge di densità è quindi 1 − e−λz , z ∈ (0, 1] e−λz (eλ − 1), z > 1 fZ (z) = 0, altrove b) FW (w) = P (W < w) = P (λZ < w) = P (Z < w/λ) = FZ (w/λ). c) La somma di due esponenziali di parametro λ è una gamma di parametri (2, λ), quindi fZ (z) = λ2 ze−λz 1(0,∞) (z) Svolgimento Esercizio 69. 1. Si vede che f > 0 se κ > 0. Inoltre Z 1 1= f (x)dx se θ = 2 ≥ 0 2σ R r κ= θ ≥0 π Quindi κ ∈ (0, ∞) e θ ∈ (0, ∞). 2. X ∼ N (0, 1/2θ) 3. Volendo fissare due valori (per semplificare i conti) si può scegliere θ = 1 e di √ conseguenza κ = 1/ π. Si ottiene e−y y 1/2−1 −y fY (y) = √ = e , yπ Γ(1/2) y≥0 che è una Gamma(1/2, 1). 4. Z ∼ Gamma(n/2, 1), quindi fZ (z) = z n/2−1 −z e , Γ(n/2) z≥0 216 Svolgimento Esercizio 73. Si consideri Ω = (X1 ≤ X2 ) ∪ (X1 > X2 ). Svolgimento Esercizio 76. Si deve considerare che la somma di k Bernoulliane indipendenti di parametro p è una Bin(k, p). Svolgimento Esercizio 84. Dallo sviluppo in serie della funzione caratteristica e dal fatto che X X X = + r r pari r dispari si vede che (ponendo r = 2k con k ∈ N, cioè r pari) ∞ ∞ X X (−ξ 2 a)k (iξ)r r! r 2 a 1(r pari) = = e−aξ = φX (ξ). r! (r/2)! k! r=0 k=0 Soluzione Esercizio 86. Si deve considerare che X ∈ (0, 1) q.c., infatti P (X = 1) = 0. Quindi, X n → 0 q.c., cioè ∀ω ∈ Ω, (X(ω))n → 0 e si ha convergenza q.c. puntuale in Ω. Si conclude che Zn → 0. Soluzione Esercizio 87. Come nel precedente Esercizio 86 X ∈ (0, 1) q.c., cioè q.c. P (X ∈ (0, 1)) = 1 e xn → 0 se x ∈ (−1, 1). Quindi, Zn → 0. Soluzione Esercizio 88. Un occhio attento vede subito che non conviene considerare altre forme (più deboli) di convergenza, si può verificare subito la convergenza quasi certa. In particolare, Y ∈ D è una v.a. finita e 1 ∀ ω ∈ Ω Zn (ω) = X(ω) + Y (ω) → X(ω) n q.c. (convergenza puntuale in Ω) e quindi Zn → X. Soluzione Esercizio 89. Si vede subito che fXn → 0 uniformemente mentre la f.r. x < −n 0, x+n FXn (x) = , x ∈ [−n, +n) 2n 1, x≥n converge a FX (x) = converge in R1 . 1 1 2 per ogni x ∈ R (puntualmente). Diciamo allora che Xn non Potremmo dire però che Xn diverge con probabilità 1 (q.c.) ad X ”degenere” ed in particolare P (X = −∞) = P (X = +∞). In questo caso P (X ∈ R∗ ) = 1 dove R∗ = R ∪ {−∞} ∪ {+∞} è l’estensione di R (il completamento dei reali). Appendice C. Svolgimenti Soluzione Esercizio 90. f.r. 217 Si vede che fXn → 0 per ogni x ∈ R (puntualmente) e la x<0 0, n2 x2 , x ∈ [0, n1 ) FXn (x) = 1, x ≥ n1 converge a FX (x) = 0, x < 0 1, x ≥ 0. Concludiamo che Xn → 0 in legge e quindi Xn → 0 in probabilità. Svolgimento Esercizio 91. Si deve sfruttare iξX Ee = ∞ X (iξ)k k=0 k! EX k per una v.a. X e i2 = −1. Allora si ha che 2 ξ 1. φXj (ξ) = 1 − 2n n ξ2 2. φZn (ξ) = 1 − 2n ξ2 3. φZ∞ (ξ) = e− 2 e quindi x2 e− 2 fZ∞ (x) = √ , 2π x ∈ R. Soluzione Esercizio 92. n yα α → P (X ≥ e−y ) P (Yn ≤ y) =P X ≥ 1 − n da cui si ricava FY (y) = d 0, y≤0 . −y α 1−e , y >0 Si noti che per α = 1, Yn → Y ∼ Exp(1). 218 Soluzione Esercizio 93. fXk (x) = n1(0,1/n) (x), x ∈ R, 0, x ≤ 0 nx, 0 < x ≤ 1/n FXn (x) = 1, x > 1 si vede che lim FXn (x) = n→∞ 0, x < 0 1, x ≥ 0 e Xn → 0 in distribuzione (e quindi anche in probabilità). Inoltre, Yn → 0 in distribuzione essendo il massimo di una successione infinitesima (e quindi anche in probabilità). Soluzione Esercizio √ 95. EXk = 0 e V ar(Xk ) = 1 per ogni k allora EZn = 0 e V ar(X̄n ) = 1/ n. Si può applicare il teorema del limite centrale e Zn → Z ∼ N (0, 1) in distribuzione. Infatti Zn 1/n X̄n − 0 √ . = 1/n 1/ n Soluzione Esercizio 96. EXk = λ e EYk = 0, V ar(Yk ) = V ar(Xk ) = λ. Inoltre, V ar(Ȳn ) = λ/n. Posso applicare il teorema del limite centrale considerando che Ȳn − 0 Zn = p . λ/n Soluzione Esercizio 97. EYk = 0 e E[ n/λ2 , quindi Zn = Pn Ȳn √1 n k=1 = P Yk ] = 0, V ar(Yk ) = 1/λ2 e V ar( nk=1 Yk ) = 1 Ȳn − 0 λ λ√1 n e applicando il teorema del limite centrale Zn → in distribuzione. 1 Z ∼ N (0, 1/λ2 ) λ Appendice C. Svolgimenti 219 Soluzione Esercizio 99. 1. 0, 2. Bisogna osservare che l’integrale si riduce a MC è data da 1 2 R∞ 0 ye−y dy e quindi la soluzione n 1 X Xj , 2n j=1 Xj ∼ Exp(1), 3. Si vede che Z 1 √ dx = 1 + x2 R e quindi una soluzione MC è Z √ 1 + x2 dx 2 R 1+x n π Xq 1 + Xj2 , n j=1 Xj ∼ Cauchy. In alternativa, si può considerare che 1 1 √ = Γ(1/2) 1 + x2 Z ∞ 1 2 u 2 −1 e−u(1+x ) du 0 e quindi Z R Z ∞ 1 1 2 u 2 −1 e−u(1+x ) du dx R Γ(1/2) 0 Z −x2 Y e dx =E 1 √ dx = 1 + x2 Z R dove Y ∼ Gamma(1, 1/2). Osservando che (integrale della densità N (0, (2a)−1 )) Z Z p p x2 1 −x2 a p e dx = π/a e− 1/a dx = π/a π/a R R si ottiene Z R p 1 √ dx = E π/Y 1 + x2 che introduce una soluzione MC per il problema dato, cioè √ X n π 1 , Yk ∼ Gamma(1, 1/2). n k=1 Yk 220 Soluzione esercizio 102. Il vettore (X1 , . . . , Xn ) è costituito da v.a. i.i.d., cioè sono n copie di una stessa variabile X che rappresenta la popolazione di interesse. La v.a. varianza campionaria è data dalla somma n n 1X 1 X (Xk − µ)2 − 2(Xk − µ)(X̄ − µ) + (X̄ − µ)2 (Xk − µ + µ − X̄)2 = n k=1 n k=1 n = 1X (Xk − µ)2 − (X̄ − µ)2 . n k=1 Passando al valor medio si vede che " n # n 1X 1X 2 E (Xk − µ) = E(Xk − µ)2 n k=1 n k=1 (linearità della media) n = 1X V ar(Xk ) n k=1 2 =σX (le v.a. sono identicamente distribuite) e E(X̄ − µ)2 = V ar(X̄) = 2 σX . n Infatti, n 1 X 2 1 X X̄ = 2 Xk Xs Xk + 2 n k=1 n 0≤k,s≤n 2 k6=s 2 2 per ogni k e Cov(Xk , Xs ) = 0 per ogni k 6= s. Quindi E X̄ 2 = σX /n. dove EXk2 = σX Si ottiene che " n # 1X n−1 2 E (Xk − X̄)2 = σX n k=1 n e lo stimatore non è corretto. Si vede però che è asintoticamente corretto. Soluzione esercizio 103. Dal precedente Esercizio 102 si vede che " n # X n 1 2 2 ESn−1 = E (Xk − X̄)2 = σX n−1 n k=1 quindi lo stimatore è corretto. Appendice C. Svolgimenti 221 Svolgimento Esercizio 104. La v.a. media campionaria n 1X X̄n = Xk n k=1 n 1X ha media E X̄n = EXk n k=1 per la linearità della media. Le variabili Xk , per ogni k, sono supposte essere copie (indipendenti, ma in questo caso non importa) di una v.a. X che descrive una certa popolazione oggetto di studio. Quindi, se Xk ∼ X per ogni k (sono i.d.), allora EXk = EX per ogni k. sia µ = EX la media vera della popolazione. Otteniamo che µ b = x̄ è lo stimatore per il parametro µ, X̄ (o X̄n ) è la v.a. stimatore per µ e E X̄ = µ. Lo stimatore X̄ è corretto. Svolgimento Esercizio 105. Si è già visto che la v.a. X̄ è uno stimatore corretto, calcoliamo la sua varianza. Sia µ la media teorica, lo scostamento attorno al suo valore centrale (cioè, il valore medio) è data da 2 σX̄ = E(X̄ − µ)2 = E X̄ 2 − µ2 dove (per la linearità della media ed il quadrato di una somma, Appendice B) n n 1 XX E[Xk Xs ]. E X̄ = 2 n k=1 s=1 2 A questo punto è importante ricordare che le osservazioni sono realizzazione di v.a. supposte indipendenti (le Xk , k = 1, . . . , n sono i.i.d) e quindi di covarianza nulla. Inoltre Cov(Xk , Xs ) = E[Xk Xs ] − µ2 e si ottiene n n n 2 1 XX 2 n2 2 σX 1 X 2 2 E X̄ = 2 σXk 1(s=k) + µ = 2 σX + 2 µ = + µ2 . n k=1 s=1 n k=1 n n 2 La varianza cercata è 2 σX̄ = 2 σX n cioè la varianza teorica (finita) della popolazione caratterizzata dalla v.a. X diviso la numerosità campionaria n. Come al solito, volendo sottolineare la dipendenza da n scriviamo X̄n invece di X̄. Si vede subito che 2 σX̄ = n 2 σX → 0 quando n → ∞. n 222 Svolgimento Esercizio 107. La v.a. allo studio è il vettore X = (X1 , . . . , Xn ) le cui componenti sono Xk ∼ N (µ, σ 2 ) per ogni k = 1, 2, . . . , n e indipendenti (sono i.i.d.). La realizzazione di X è il campione x. La densità della v.a. multidimensionale X, essendo le componenti i.i.d., è data dal prodotto 1 n Y Pn 2 e− 2σ2 k=1 (xk −µ) p fX (x) = fXk (xk ) = (2πσ 2 )n k=1 dove fX (x) = fX (x; µ) dipende ovviamente dai parametri µ e σ 2 ma a noi interessa, in questo caso, sottolineare il fatto che dipende da µ. La funzione di verosimiglianza è data dalla relazione L(µ; x) = fX (x; µ) ed il suo logaritmo restituisce la funzione n 1 X n 2 (xk − µ)2 . log L(µ; x) = − log(2πσ ) − 2 2 2σ k=1 Si ottiene µ bM V = x̄. Svolgimento Esercizio 108. Dalla log-verosimiglianza calcolata nel precedente esercizio n 1 X n 2 (xk − µ)2 log L(µ; x) = − log(2πσ ) − 2 2 2σ k=1 si ottiene subito che n 2 σ bM V 1X (xk − µ)2 , = n k=1 la varianza campionaria è stimatore di MV per la varianza della popolazione. Svolgimento Esercizio 109. Si veda il precedente Esercizio 102. Svolgimento Esercizio 110. Per il vettore X = (X1 , . . . , Xn ) in cui Xj ∼ U nif (0, θ) per ogni j (variabili i.i.d.) si ha che fX (x) = n Y 1 θ j=1 1[0,θ] (xj ) con x = (x1 , . . . , xn ) ∈ [0, θ]n . La funzione di log-verosimiglianza si ottiene come al solito dalla relazione L(θ; x) = fX (x; θ) e quindi L(θ; x) = n 1 Y 1[x ,∞) (θ) θn j=1 j Appendice C. Svolgimenti 223 ed ovviamente log L(θ; x) = −n log θ + n X log 1[xj ,∞ (θ). j=1 Svolgimento Esercizio 111. Si deve considerare √ |X̄ − µ| = P |N (0, 1)| ≤ P |X̄ − µ| ≤ = P ≤ n . σX̄ σX̄ σ Osservando che P (|N (0, 1)| ≤ z) = P (−z ≤ N (0, 1) ≤ z) = 0.95 ⇔ z = z0.975 , cioè 1.96 è il percentile z0.975 della tavola in Tabella 7.1 (si noti che 0.975 = 0.95 + 0.025 dove 0.025 = P (N (0, 1) ≤ −z) = Φ(−z)). Possiamo a questo punto sfruttare l’identità √ n = 1.96 ⇒ n = (1.96σ/)2 oppure n ≥ (1.96σ/)2 . σ 2 Ovviamente, nella relazione2 n ≥ (1.96σ/) sceglierò il più piccolo n, cioè la parte intera superiore (1.96σ/) . Svolgimento Esercizio 112. incognite µ, σ 2 (θ ∈ R2 ), Si deve impostare un sistema di due equazioni nelle due EX =x̄ EX 2 =x̄2 dal quale si ottiene, µ b = x̄ e σ b2 = x̄2 − (x̄)2 . Lo stimatore dei momenti è quindo dato dal vettore θbM = (b µ, σ b2 )t . Svolgimento Esercizio 113. Il test consiste nel formalizzare le ipotesi H0 : µ = 1 e quindi H1 : µ 6= 1 conoscendo la varianza σ 2 = 1 e la forma distributiva della X. Ci interessa solo H0 . In particolare, per la v.a. media campionaria sotto l’ipotesi nulla si ha che X̄n |H0 ∼ N (1, 1/n) con n = 30, quindi P (a ≤ Z ≤ b|H0 ) = 1 − α = 0.95 224 dove la v.a. (standardizzata) in questione è Z|H0 = X̄n − 1 √ ∼ N (0, 1) 1/ n si ottiene dai percentili a = z0.025 = −1.96 e b = z0.975 = 1.96 ottenuti dalla Tabella 7.1. Dal campione osservato si ha che 1√ x̄ − 1 30 < 1.96 −1.96 < √ = 5 1/ 30 e quindi si conclude che il valore stimato standardizzato (cioè zoss ) cade nella regione di accettazione per H0 : µ = 1. Possiamo accettare, al 95% (o al livello di significatività α = 0.05), l’ipotesi che X ∼ N (1, 1). Svolgimento Esercizio 114. Riprendiamo quanto visto nell’Esercizio 113. In questo caso si deve considerare un valore zoss diverso e per quale 2√ x̄ − 1 zoss = √ = 30 > 1.96 5 1/ 30 e si conclude che il valore stimato standardizzato sotto H0 cade nella regione di rifiuto per H0 . Non possiamo accettare l’ipotesi nulla. Svolgimento Esercizio 115. 1. λ̂M = 1/x̄ = λ̂M V . Infatti, il sistema di una sola equazione da risolvere è EX = x̄ mentre lo stimatore di massima verosimiglianza si calcola dalla L(λ; x) = λn e−λnx̄ e log L(λ; x) = −λnx̄ + n log λ 2. si deve osservare che P (|X̄ − µ| ≤ ) = P (− ≤ |X̄ − µ| ≤ ) dove X̄ ∼ N (µ, 1/n) quindi √ √ √ P (− ≤ |X̄ − µ| ≤ ) =P (− n ≤ n|X̄ − µ| ≤ n) √ √ =P (− n ≤ Z < n) dove Z ∼ N (0, 1) e dalle tavole si vede che P (−z ≤ Z ≤ z) > 0.86 o P (Z ≤ z) > 0.93 se z > 1.48. √ Quindi n > 1.48 e n > (1.48/)2 . Appendice C. Svolgimenti 225 Soluzione Esercizio 116. a) Dalla trasformazione lineare Y = aX si ottiene che Y ∼ N (aµX , a2 ) quindi la stima per µY è la media campionaria del vettore y = ax = (ax1 , . . . , axn ). Ovvero µ bX = ȳ = ax̄ essendo x̄ uno stimatore di massima verosimiglianza per µX . b) Con il metodo dei momenti otteniamo ȳ = EY = aEX = aµX e x̄ = EX = µX quindi µ bX = x̄ ⇒ µ bY = ax̄ c) Si deve calcolare la probabilità P (|Ȳ − µY | < ) ≥ 0.95. Quindi √ |Ȳ − µX | √ √ √ P n< n =P − n < N (0, 1) < n = 0.95 a a a a dove P (N (0, 1) < z) ≥ 0.975 z ≥ 1.96 per ed otteniamo √ n ≥ 1.96 a ⇒ n≥ a 2 1.96 . Svolgimento Esercizio 117. P 1. λ̂ = x̄ = n1 ni=1 xi = conti 2. κ = λ−log θ > 0, basta osservare che θx = ex log θ . Inoltre θ̂M V = exp(−2/x̄) ∈ (0, 1) 226 Svolgimento Esercizio 118. Sia y = (y1 , . . . , yn )t il vettore da stimare e yb = xβb una stima per y dove x = (x1 , . . . , xn )t . Dobbiamo minimizzare la quantità (y − yb)2 = b 2 rispetto al vettore βb = (βb0 , βb1 ), ovvero βb tale che Q(β) b = min dove (y − xβ) b = Q(β) n X (yi − βb0 − βb1 xi )2 . i=1 Si arriva al sistema 1 dQ = ȳ − βb1 x̄ − βb0 = 0 2n dβb0 n 1X 1 dQ = xi yi − βb1 x̄2 − βb0 x̄ = 0 − 2n dβb1 n i=1 − che è un sistema di due equazioni in due incognite. La soluzione è unica ed è quella cercata. Infatti dalla prima equazione si ricava subito βb0 . Sostituendo nella seconda ed 2 2 ) e che (è la varianza campionaria, cioè una stima di σX osservando che x̄2 − x̄2 = σ bX P b bXY (una stima della covarianza σXY ), si ricava β1 . Si verifica poi i xi yi − x̄ȳ = σ che il punto trovato è effettivamente un punto di minimo per Q. Soluzione Esercizio 120. n 1 X iξk eiξn 1 − eiξ φX (ξ) = , e = n k=1 n 1 − eiξn ξ ∈ R. Soluzione Esercizio 123. φX (ξ) = C ∞ X k −α−1 eiξk , ξ ∈ R. k=1 Soluzione Esercizio 124. V ar(X) = q/p2 . Soluzione Esercizio 126. φX (ξ) = q ∞ X peiξ k=1 k = pqeiξ , 1 − eiξ ξ ∈ R. Soluzione Esercizio 128. φX (ξ) = n X n k=0 k peiξ k q n−k = q + peiξ n , ξ ∈ R. Appendice C. Svolgimenti 227 Soluzione Esercizio 131. φX (ξ) = e−λ ∞ X k 1 iξ λeiξ = e−λ(1−e ) , k! k=0 ξ ∈ R. Soluzione Esercizio 134. φX (ξ) = eibξ − eiaξ , ibξ − iaξ ξ ∈ R. Soluzione Esercizio 136. φX (ξ) = λ , λ − iξ ξ ∈ R. Soluzione Esercizio 138. φX (ξ) = λ λ − iξ ν , ξ ∈ R. Soluzione Esercizio 143. φY (ξ) = Eeiξµ+iξσX = eiξµ EeiξσX = eiξµ− σ 2 ξ2 2 , ξ ∈ R. Svolgimento Esercizio 144. Le visite effettuate dal primo medico evidenziano una distribuzione di frequenze relative: • il 10% delle persone è affetto da crioglobulinemia, • il 90% delle persone non è affetto da crioglobulinemia. Il medico ha osservato ed ha ottenute delle frequenze. Il secondo medico sceglie a caso, quindi per gli eventi • A ="persona affetta da crioglobulinemia", • Ac ="persona non affetta da crioglobulinemia", si ha P (A) = 0.1 che sono probabilità. P (Ac ) = 0.9 228 Svolgimento Esercizio 145. Se sceglie 3 pazienti, P (A, A, A) = 10 9 8 . 100 99 98 Svolgimento Esercizio 146. Se indichiamo che A ="Agenzia con perdita maggiore del 5%", allora sappiamo che presa una agenzia a caso, P (A) = 0.03. Inoltre, se B ="almeno una delle sue 20 agenzie è in perdita", P (B) = 1 − P (B c ) dove B c =" nessuna agenzia della società è in perdita". Considerando i due eventi, otteniamo 20 1− (0.03)0 (0.97)20−0 = 1 − (0.97)20 0 che è la probabilità cercata. Infatti, se Ak = "k agenzie su 20 registrano una perdita maggiore del 5% " allora 20 P (Ak ) = (0.03)k (0.97)20−k , k k = 0, 1, . . . , 20 e Ak ∼ Binom(n, p) con n = 20 e p = 0.03. Svolgimento Esercizio 147. 20 1− (0.97)0 (0.03)20−0 = 1 − (0.03)20 . 0 Si deve considerare Ack = "k agenzie su 20 registrano una perdita minore del 5% ". Allora P (Ack ) 20 = (0.97)k (0.03)20−k , k e Ack ∼ Binom(n, p) con n = 20 e p = 0.97. k = 0, 1, . . . , 20 Appendice C. Svolgimenti 229 Svolgimento Esercizio 148. Indichiamo con Di l’evento "telefono i-esimo difettoso" con i = 1, 2. Allora 1 1 1 6 P (Di ) = P (Di ∩ A) + P (Di ∩ B) = P (Di |A) + P (Di |B) = 2 2 2 100 e P (D1 ) è la probabilità di acquistare un telefono difettoso (il primo!). Si deve ora calcolare P (D2 |D1 ) = P (D1 ∩ D2 ) P (D1 ) dove P (D1 ∩ D2 ) =P (D1 ∩ D2 ∩ A) + P (D1 ∩ D2 ∩ B) =P (D1 ∩ D2 |A)P (A) + P (D1 ∩ D2 |B)P (B) 2 2 1 5 1 1 + = 100 2 100 2 1 26 . = 2 1002 Quindi si ottiene P (D2 |D1 ) = 2 26 100 13 = . 2 2 100 6 300 Svolgimento Esercizio 149. Dai dati del problema si evince che 60 100 20 P (A) + P (B) = 100 P (A) = P (B) e risolvendo (sistema di due equazioni in due incognite, la soluzione è unica!) 12 160 20 P (B) = . 160 P (A) = Seguendo la linea del precedente esercizio, P (D1 ) =P (D1 ∩ A) + P (D1 ∩ B) + P (D1 ∩ (A ∪ B)c ) =P (D1 |A)P (A) + P (D1 |B)P (B) + P (D1 ∩ (A ∪ B)c ) 230 12 5 20 1 + +x 160 100 160 100 80 + x, = 160 · 100 con x ∈ (0, 1) variabile incognita, = P (D1 ∩ D2 ) =P (D1 ∩ D2 |A)P (A) + P (D1 ∩ D2 |B)P (B) + P (D1 ∩ D2 ∩ (A ∪ B)c ) 2 2 5 12 1 20 = + +y 100 160 100 160 con y ∈ (0, 1) variabile incognita. Osserviamo che x = P (D1 ∩ (A ∪ B)c ) = P (D1 |(A ∪ B)c ) P ((A ∪ B)c ), y =P (D1 ∩ D2 ∩ (A ∪ B)c ) =P (D1 ∩ D2 |(A ∪ B)c ) P ((A ∪ B)c ) =P (D1 |(A ∪ B)c ) P (D2 |(A ∪ B)c ) P ((A ∪ B)c ) e ponendo z = P (D|(A ∪ B)c ), otteniamo x= 128 z, 160 y= 128 2 z . 160 Allora, P (D2 |D1 ) = 1 + 4000z 2 , 25 + 4000z z ∈ (0, 1). Se P (D|(A ∪ B)c ) = 0 (cioè per z → 0), P (D2 |D1 ) = 0.04 mentre per P (D|(A ∪ B)c ) ≈ 1, P (D2 |D1 ) ≈ 0.99 è prossima ad uno. Svolgimento Esercizio 150. 1. Sia D =”il sensore è difettoso”. Si ha che P (A) = 0.3 P (B) = 1 − P (A) = 0.7 P (D|A) = 0.15 P (D|B) = 0.12 Quindi, osservando che A∩B = {∅} e A∪B = Ω, dalla formule delle probabilità totali e composta si ottiene P (D) = P (D∩(A∪B)) = P ((D∩A)∪(D∩B)) = P (D|A)P (A) + P (D|B)P (B) Appendice C. Svolgimenti 231 2. Si utilizza la formula di Bayes P (A|D) = P (D|A)P (A) P (D|A)P (A) = P (D|A)P (A) + P (D|B)P (B) P (D) 3. e 4. I sensori sono difettosi in maniera indipendente quindi P (k su 10|A) =P (su 10 sensori provenienti dalla linea A, k sono difettosi) 10 k = p (1 − pA )10−k k A dove pA = P (D|A) e P (k su 10|A) è una Bin(10, pA ). Allo stesso modo si considera Bin(10, pB ) dove pB = P (D|B) per calcolare P (k su 10|B). Quindi si usa la formula di Bayes e si ottiene P (A|k su 10) = P (k su 10|A)P (A) P (T ) P (B|k su 10) = P (k su 10|B)P (B) P (T ) dove P (T ) = P (k su 10|A)P (A) + P (k su 10|B)P (B) = P (k su 10). Svolgimento Esercizio 151. Sia p = P (vincere) = 0.1, allora P (vincere per la prima volta al decimo tentativo) = (0.9)9 (0.1) mentre 10 P (vincere 10 euro) = (0.1)(0.9)9 . 1 Svolgimento Esercizio 152. individuata dalla probabilità Come già visto nel precedente Esercizio 56 la f.r. è FZ (z) = P (X ≤ zY ), z > 0. 1. Il dominio della coppia (Y, X) è D = (0, 2) × (0, 1) è un rettangolo. Disegnando il rettangolo in un sistema (Y, X) e disegnando la retta X = zY si deve identificare Az = {(y, x) ∈ R2 : x ≤ zy}, z ∈ supp(Z) = (0, ∞) e la f.r. si deve ottenere considerando la probabilità P (X ≤ zY ) = P (D ∩ Az ) z > 0. 232 L’insieme D ∩ Az identifica due figure geometriche distinte al variare di z ∈ (0, 1/2) e z ∈ (1/2, ∞) quindi, se z < 1/2 Z 2 Z zy P (X ≤ zY ) = dy dxf(X,Y ) (x, y) 0 mentre per z > 1/2 Z P (X ≤ zY ) = 1/z 0 zy Z Z dxf(X,Y ) (x, y) dy 0 1/z 0 1 Z dyf(X,Y ) (x, y) + dy 0 2 dove il punto 1/z dell’asse Y è il punto in cui la retta di equazione X = 1 interseca la retta di equazione X = zY (e quindi 1 = zy). La densità congiunta si fattorizza per il fatto che X ⊥ Y e quindi si ottiene Z Z zy 1 2 P (X ≤ zY ) = dy dx, z ∈ (0, 1/2) 2 0 0 e 1 P (X ≤ zY ) = 2 Z 1/z Z dy 0 0 zy 1 dx + 2 Z 2 Z 1/z 1 dx, dy z > 1/2. 0 Quindi ( P (X ≤ zY ) = z, 0 < z < 1/2 1 1 1− + , 1/2 < z < ∞ 2z 4z 2 che è continua nel punto z = 1/2 (e nel punto z = 0) lim P (X ≤ zY ) = lim P (X ≤ zY ) = z↑1/2 z↓1/2 1 2 (come ci si aspettava, infatti Z è una v.a. continua) e la f.r. diventa z≤0 0, z, 0 < z ≤ 1/2 FZ (z) = 1 1 − , z > 1/2 4z Si osservi che P (X ≤ zY ) = P (U ∈ Az ∩ D) = dove U ∼ U nif (D) e |A| = area(A). |Az ∩ D| |D| Appendice C. Svolgimenti 233 2. Il dominio della coppia (Y, X) è D = (0, ∞) × (0, 1), basta invertire gli assi nell’Esercizio 56. 3. Il dominio D = R2+ è dato da tutto il primo quadrante e Az ∩ D identifica una sola figura geometrica (un triangolo) per ogni valore di z > 0. Si deve calcolare Z ∞ Z zy dy dxf(X,Y ) (x, y), P (X ≤ zY ) = 0 0 con z ∈ supp(Z) = (0, ∞) e per il fatto che X ⊥ Y , Z ∞ Z zy −λy P (X ≤ zY ) = dyλe dxλe−λx , 0 Z0 ∞ = dyλe−λy 1 − e−λzy Z0 ∞ Z ∞ −λy dyλe − dyλe−λy−λzy = 0 0 Z λ ∞ 0 −λ0 y =1 − 0 λe dove si è posto λ0 = λ(1 + z) λ 0 1 =1 − , z > 0. 1+z Quindi ( FZ (z) = 0, z<0 1 , z>0 1− 1+z I controlli da fare sono lim FZ (z) = lim FZ (z) = 0, z↑0 z↓0 lim FZ (z) = 1. z↑∞ La densità è data da fZ (z) = (1 + z)−2 1(0,∞) (z), z ∈ R. Svolgimento Esercizio 153. Si deve calcolare la f.r. FZ (z) = P (XY ≤ z) = P (Y ≤ z/Y ) non cambio il verso della dis. perché Y > 0. 1. la coppia (X, Y ) varia in D = (0, 1) × (0, 2), la f.r. si ricava dalla probabilità P (D ∩ Az ), z ∈ supp(Z) = (0, 2) 234 dove Az = {(x, y) ∈ R2 : y ≤ z/x}. Dal grafico della funzione Y = z/X si vede subito che D ∩ Az identifica una sola figura geometrica al variare di z e allora si deve calcolare, per z fissato, Z z/x Z 1 Z z/2 Z 2 dyf(X,Y ) (x, y) dx dyf(X,Y ) (x, y) + dx P (D ∩ Az ) = 0 z/2 0 0 dove il punto z/2 sull’asse X è il punto in cui la retta Y = 2 interseca la curva Y = z/X (cioè 2 = z/X). Per il fatto che X ⊥ Y la congiunta è data dal prodotto delle marginali, Z Z 2 Z Z z/x 1 z/2 1 1 P (D ∩ Az ) = dx dy + dx dy 2 0 2 z/2 0 0 Z Z z/2 z 1 dx = dx + 2 z/2 x 0 x=1 z z = + log x 2 2 x=z/2 z z = 1 − log , z ∈ (0, 2). 2 2 Inoltre, −2/z = 0, z→0 −2/z 2 lim P (D ∩ Az ) = lim z↓0 lim P (D ∩ Az ) = 1. z↑2 Quindi, z≤0 0, P (D ∩ Az ), z ∈ (0, 2] FZ (z) = 1, z>2 dove si sono considerati i limiti lim FZ (z) = 0, z↑0 lim FZ (z) = 1. z↓2 Derivando la f.r. si ottiene fZ (z) = z 1 − log 2 2 1(0,2) (z), Si osservi che fZ (z) ≥ 0 per ogni z ∈ (0, 2). z ∈ R. Appendice C. Svolgimenti 235 2. Si ha (X, Y ) ∈ D = (0, 1) × (0, ∞) e Az = {(x, y) ∈ R2 : y ≤ z/x}, z ∈ supp(Z) = (0, ∞). Come si vede dal grafico, Az ∩ D identifica una sola figura geometrica e quindi, per ogni z > 0, 1 Z FZ (z) = P (Az ∩ D) = z/x Z dyf(X,Y ) (x, y) dx 0 0 dove (X ⊥ Y ) f(X,Y ) (x, y) = fX (x)fY (y) = 1(0,1) (x)λe−λy 1(0,∞) (y). Quindi, per ogni z > 0 Z 1 P (Az ∩ D) = z/x Z λe−λy dx 0 Z0 1 z dx 1 − e−λ x 0 Z 1 z dx e−λ x =1 − = 0 e FZ (z) = 0, z≤0 P (Az ∩ D), z > 0 con Z fZ (z) = − 1 dx 0 d −λ z e x dz Z 1 =λ z e−λ x 0 dx . x Inoltre, FZ (0+ ) = 0, limz→∞ FZ (z) = 1. 3. Si ha che (X, Y ) ∈ D = (0, ∞) × (0, 1) e Az = {(x, y) ∈ R2 : y ≤ z/x} con Az ∩ D che identifica sempre una sola figura geometrica al crescere di z ∈ supp(Z) = (0, ∞). Si deve fare attenzione al punto di intersezione della retta Y = 1 con la curva Y = z/X, cioè nel punto z della retta X (1 = z/X), infatti Z P (Az ∩ D) = z Z dx 0 1 Z dyf(X,Y ) (x, y) + 0 ∞ Z dx z z/x dyf(X,Y ) (x, y). 0 236 Utilizzando l’indipendenza delle v.a. ed esplicitando Z z Z ∞ z x Z0 z Zz ∞ dy = dxλe−λx + λze−λzy y 0 1 P (Az ∩ D) = dxλe −λx dxλe−λx + (dove si è posto x = zy nel secondo integrale) e per z ∈ R 0, z≤0 . P (Az ∩ D), z > 0 FZ (z) = Si vede che Z lim FZ (z) = 0, ∞ lim FZ (z) = 1 + z→0 z→∞ 1 lim λze−λzy z→∞ dy y =1 dove si è usata la convergenza dell’integrale ed il limite uniforme in y (per ogni y, la funzione esponenziale decresce più velocemente di ogni polinomio come z → ∞). Inoltre, si ricava FZ0 (z) Z ∞ λe−λx =fX (z) + z 1 dx − z fX (z) x z e Z fZ (z) = ∞ −λx dx λe z x 1(0,∞) (z), z ∈ R. 4. si veda l’Esercizio 64 per µ = λ, in particolare λ λ λe−λz − µe−µz = lim µze−µz − e−µz µ→λ λ − µ µ→λ −1 =λe−λz − λ2 ze−λz lim e fZ (z) = λ2 ze−λz 1(0,∞) (z) = Quindi Z ∼ Gamma(λ, 2). λ2 2−1 −λz z e 1(0,∞) (z), Γ(2) z ∈ R. Appendice C. Svolgimenti 237 Svolgimento Esercizio 155. La v.a. Y ∈ supp(Y ) = (1, ∞) è continua quindi consideriamo la f.r. FY (y) =P (|X − 1|−1 ≤ y) tutte quantità positive 1 =P ≤ |X − 1| y 1 1 =P (X − 1 ≤ − ) ∪ (X − 1 ≥ ) y y 1 1 =P (X ≤ 1 − ) ∪ (X ≥ 1 + ) y y 1 1 +P X ≥1+ =P X ≤ 1 − y y 1 =P X ≤ 1 − + P (∅) y 1 =1 − , y > 1. y Si vede subito che FY (y) → 0 se y → 1 e FY (y) → ∞ se y → 0. Inoltre fY (y) = FY0 (y) 1(1,∞) (y), y ∈ R. Svolgimento Esercizio 156. Si deve considerare la f.r. di Z e l’evento certo ΩX = (X ≤ Y ) ∪ (X > Y ). Otteniamo FZ (z) =P (|X − Y | ≤ z) =P (|X − Y | ≤ z) ∩ [(X ≤ Y ) ∪ (X > Y )] =P [(|X − Y | ≤ z) ∩ (X ≤ Y )] ∪ [(|X − Y | ≤ z) ∩ (X > Y )] = [gli eventi sono incompatibili, legge delle prob. totali] =P (|X − Y | ≤ z) ∩ (X ≤ Y ) + P (|X − Y | ≤ z) ∩ (X > Y ) = [utilizzo le informazioni X ≤ Y e X > Y ] =P (Y − X ≤ z) ∩ (X ≤ Y ) + P (X − Y ≤ z) ∩ (X > Y ) =P (Y ≤ z + X) ∩ (X ≤ Y ) + P (X ≤ z + Y ) ∩ (Y < X) =P X ≤ Y ≤ z + X + P Y < X ≤ z + Y =2P X ≤ Y ≤ z + X (entrambe le v.a. sono uniformi). Dal grafico sul piano (X, Y ) si vede quindi che per z ∈ supp(|X − Y |) = (0, 1), Z 1−z Z z+x Z 1 Z 1 FZ (z) =2 dx dy + dx dy 0 x 1−z x 238 =2z − z 2 e quindi fZ (z) = FZ0 (z)1(0,1) (z), z ∈ R. Per verificare che FZ sia una f.r. basta osservare che fZ ≥ 0 (la f.r. è non decrescente) e FZ (z) → 0 se z → 0, FZ (z) → 1 se z → 1. Inoltre, potevamo ricavare la f.r. FZ considerando le aree del quadrato unitario sopra e sotto la retta Y = z + X, ovvero il triangolo superiore del quadrato ha area 1/2 mentre il triangolo sopra la retta Y = z + X ha area (1 − z)2 /2. Quindi tra le due rette troviamo un area pari a z2 1 (1 − z)2 − =z− . 2 2 2 Dovendo calcolare due aree uguali, si moltiplica per 2 e si ottiene il risultato cercato. Svolgimento Esercizio 157. La v.a Y è continua e quindi studiamo la f.r. FY (y) = P (Y ≤ y), dove y ∈ supp(g(X, U )) s 1 g(x, u) = x − ln u, λ x ≥ 0, 0 ≤ u ≤ 1. In particolare, supp(Y ) = (0, ∞). Si può procedere in diversi modi, ad esempio 1 2 2 FY (y) =P − y ≤ X − ln U ≤ y λ 1 1 2 2 =P − y ≤ X − ln U, X − ln U ≤ y λ λ 1 1 2 2 =P X ≥ −y + ln U, X ≤ y + ln U λ λ 1 = essendo ln u < 0 per ogni u ∈ (0, 1) λ 1 2 =P X ≥ 0, X ≤ y + ln U λ = [essendo (X ≥ 0) = ΩX ] 1 2 =P X ≤ y + ln U . λ Appendice C. Svolgimenti 239 Dal grafico si ottiene Z 1 Z 1 y2 + λ ln u du FY (y) = e−λy2 dxλe−λx . 0 Vogliamo mostrare un procedimento più immediato, si deve notare che 1 P − ln U ≤ z = P (U ≥ e−λz ) = 1 − e−λz , z > 0. λ Quindi la v.a. Z = 1/λ ln U è una esponenziale di parametro λ > 0 e Z ⊥ X per il fatto che U ⊥ X. Sappiamo che la somma di due esponenziali di parametro λ è una Gamma, in particolare Z + X ∼ Gamma(λ, 2), quindi |X + Z| = X + Z e Z 2 y2 FY (y) = P (X + Z ≤ y ) = λ2 w2−1 e−λw dw, y > 0. 0 Si ricava, 2 fY (y) = 2λ2 y 3 e−λy 1(0,∞) (y), Svolgimento Esercizio 158. Sia λ = P (X(1) > z) = n Y Pn k=1 y ∈ R. λk . Per il minimo di v.a. si ha P (Xk > z) = n Y e−λk z = e−λz k=1 k=1 quindi X(1) ∼ Exp(λ). Inoltre, P (Z ≤ z) = n Y P (Xk ≤ z) = n Y FXk (z), z>0 k=1 k=1 per cui fZ (z) = n X fXk (z) k=1 Y FXs (z)1(0,∞) (z), z ∈ R. s6=k Svolgimento Esercizio 159. 1 − FZn (z) =P (Zn > z) = P (X1 > z, . . . , Xn > z) Z 1 n = 1(0,1) (u)du z 240 da cui si ricava z≤0 0, n 1 − (1 − z) , 0 < z ≤ 1 FZn (z) = 1, z>1 che tende, per n → ∞, FZ (z) = 0, z < 0 1, z ≥ 0 Diciamo che Zn → 0 in distribuzione che implica Zn → 0 in probabilità perché Z = 0 è una v.a. degenere. Inoltre si vede che il minimo di v.a. in (0, 1) converge q.c. a 0. Svolgimento Esercizio 160. vede inoltre che La v.a. Zn è stata studiata nel precedente esercizio. Si y≤0 0, 1 − (1 − y/n)n , 0 < y ≤ n FYn (y) = 1, y>n da cui Yn → Exp(1) in distribuzione. Bibliografia [1] P. Baldi. Calcolo delle probabilità. McGraw Hill, 2011. [2] K. L. Chung. A Course in Probability Theory. Academic Press, 2000. [3] E. Giusti. Analisi matematica 2. Bollati Boringhieri, 1994. [4] E. Giusti. Analisi matematica 1. Bollati Boringhieri, 1996. [5] I. S. Gradshteyn and I. M. Ryzhik. Tables of integrals, series, and products. Academic Press, Elsevier Inc., 2007. [6] E. Orsingher and L. Beghin. Introduzione alla probabilità. Dalle nozioni fondamentali alle applicazioni. Carocci editore, 2009. [7] S. M. Ross. Calcolo delle probabilità. Apogeo, ultima versione. [8] S. M. Ross. Probabilità e statistica per l’ingegneria e le scienze. Apogeo, ultima versione. [9] W. Rudin. Real and complex analysis. McGraw-Hill, 1987. [10] A. Tesei. Istituzioni di analisi superiore. Bollati Boringhieri, 1997. [11] A. W. van der Vaart. Asymptotic Statistics. Cambridge University Press., 2006. 241 Indice analitico approssimazioni di v.a., 95 covarianza, 66 decile, 198 dipendenza, 79 binomio di Newton, 187 disposizioni con ripetizione, 47 calcolo combinatorio, 46 semplici, 47 campione disuguaglianza grande, approssimazioni, 95 di Boole, 36 numerosità ottima, 157 di Chebyshev, 114 centile, 198 di Doob, 116 combinazioni di Hölder, 34 con ripetizione, 48 di Jensen, 34 semplici, 10 di Kolmogorov, 116 continuità di Lévy, 115 di funzioni, 56 di Markov, 114 separata, 75 di Marshal, 116 convergenza p di Minkowski, 34 in L , 30, 120 in distribuzione, in legge, debole, 116 divergenza di v.a., 125 in media, 119 eventi in media quadratica, 119 compatibili, 36 in misura, 30 complementari, 36 in probabilità, in misura, 118 incompatibili, 36 pointwise, 29 indipendenti, 40 puntuale, 29 quasi certa, forte, 120 formula quasi completa, 121 di Bayes, 42 quasi ovunque, q.o., 30 di duplicazione, 193 stabile, 122 di riflessione, 193 uniforme, 29 funzione convergenze, 29 caratteristica, 107 convoluzione, 88 continua, 56 correlazione, 77 convessa, 33 242 INDICE ANALITICO dei momenti generalizzati, 113 di Lipschitz (o Lipshitziana), 60 di verosimiglianza, 142, 155 Gamma, 193 generatrice dei momenti, 112 generatrice delle probabilità, 113 limitata, 60 uniformemente limitata, 60 identità di Wald, 96 indice di Bravais-Pearson, 77 indicie di correlazione, 77 legge debole dei grandi numeri, 125 delle pr. composte a più alternative, 42 delle probabilità composte, 38 delle probabilità totali, 38 forte dei grandi numeri, 126 limite centrale, 126 limiti notevoli, 106 mancanza di memoria, 77 media, 66 media campionaria, 2 memoria, 77 metodo dei minimi quadrati, 158 dei momenti, 159 di massima verosimiglianza, 155 Monte Carlo, 128 misura di conteggio, 25 di Dirac, 26 di Lebesgue, 24 243 modello aleatorio, 66 deterministico, 66 lineare, 70, 77 momenti, 66 numeri casuali generatori, 101 passeggiata aleatoria, 96 percentile, 198 permutazioni con ripetizione, 47 semplici, 9 popolazione finita, 137 virtuale, 142 problema MMC, 130 quantile, 198 quartile, 198 random walk, 96 regola del ne fisso uno, 12 procedo per iterazioni successive, 14 serie armonica, 104 di funzioni, 104 di Maclaurin, 105 di potenze, 106 di Taylor, 105 geometrica, 106 numerica, 103 telescopica, 104 simulazione, 101 soluzione MMC, 130 somme aleatorie, 96 di v.a., 88 spettro, 63–65 244 statistica descrittiva, 1 funzione, 1 inferenziale, 15, 145 stima dei minimi quadrati, 158 dei momenti, 159 di Bayes, 159 di massima verosimiglianza, 155 per intervalli, 156 successioni monotone di v.a., 99 supporto, 55, 57, 64, 65 tabella di contingenza, 79 tempi di attesa, 99 test del χ2 , 165 di Kolmogorov-Smirnov, 166 valore atteso, 66 medio, 66 variabile χ-quadrato, 82 Bernoulli, 186 Beta, 197 Binomiale, 186 Cauchy, 194 Chi-quadrato, 197 degenere, 118 di Fisher-Snedecor, 198 di Poisson, 189 di Student, 197 Esponenziale, 192 Gamma, 192 Geometrica, 184 Ipergeometrica, 189 media campionaria, 6 Multinomiale, 188 Normale, 194 Normale Multidimensionale, 196 Uniforme continua, 191 Uniforme discreta, 183 varianza campionaria corretta, 82 Weibull, 197 Zipf, 184 variabili i.i.d., 72 indipendenti, 72 ordinate, 96, 99 varianza, 66 varianza campionaria, 2 campionaria corretta, 82 INDICE ANALITICO Finito di stampare (ultima modifica) il 5 maggio 2015 utilizzando LATEX 2ε 245