Laboratorio virtuale di probabilità e statistica Un ipertesto di probabilità e statistica: il "Virtual Lab" Federico M. Stefanini La finalità del sito in lingua italiana (22.11.2001) La finalità del Laboratorio Virtuale di Probabilità e Statistica in lingua italiana è di costituire uno strumento ipertestuale per studenti e docenti interessati alla probabilità e alla statistica. L'ampia copertura di argomenti, i link ipertestuali e la possibilità di effettuare numerosi tipi di simulazione (tramite applet), fanno del Laboratorio Virtuale un formidabile strumento di autoistruzione. Inoltre, esiste la possibilità di creare una copia locale del sito italiano ed inglese su CDROM, di stampare la parte principale di testo ed esercizi da files in formato PDF, di modificare i files in italiano per adattare l'ipertesto originale agli specifici bisogni dei singoli corsi universitari. Il Laboratorio Virtuale è un valido ausilio da affiancare al materiale tradizionale di un corso universitario. Il progetto Introduzione ● Le finalità ● Il progetto ● Gli sviluppi ● Il copyright Visita ● Sito in lingua italiana ● Sito mirror in lingua inglese ● Sito americano originale: Virtual http://www.ds.unifi.it/~stefanin/VL/ (1 di 2) [22/11/2001 17.45.58] L'autrice del pluripremiato progetto originario è Kyle Siegrist, del Department of Mathematical Sciences, alla University of Alabama in Huntsville (Copyright © 1997-2001). L'implementazione in lingua italiana è stata curata da Federico M. Stefanini ed è stata realizzata da Marco J. Lombardi e Federico M. Stefanini. L'ipertesto italiano è nella fase beta 1.0, che indica stesura prima, revisione prima completate (22.11.2001). Il sito in lingua italiana è stato sviluppato nella Laboratorio virtuale di probabilità e statistica Laboratories in Probability and Statistics Download Comunicazioni ● F.M.Stefanini ● Kyle Siegrist convinzione che sia utile, MA SENZA GARANZIA di alcun tipo circa i suoi contenuti. Gli sviluppi L'ipertesto attuale copre molti degli argomenti tradizionalmente trattati nei corsi di Statistica 1, Statistica 2, e Calcolo delle probabilità. L'estensione dell'ipertesto per includere moduli di Statistica inerenti classi di modelli particolari (modelli lineari, lineari generalizzati, ecc...) è in fase di studio. Il copyright Questo materiale è liberamente disponibile per usi non commerciali, cioè per i quali non si riceve compenso, ma si deve mantenere il riferimento a, Kyle Siegrist Department of Mathematical Sciences University of Alabama in Huntsville [email protected] Copyright © 1997-2001 e il riferimento al Dipartimento di Statistica "G. Parenti", Università degli Studi di Firenze. Versione italiana, Copyright © 2001 Dipartimento di Statistica "G. Parenti" quale che sia la forma di impiego. Per allegare l'ipertesto italiano a riviste e/o libri, qualsiasi sia il tipo di supporto cartaceo o elettronico impiegato, occorre prendere contatti con il Dipartimento di Statistica. http://www.ds.unifi.it/~stefanin/VL/ (2 di 2) [22/11/2001 17.45.58] Laboratorio virtuale di probabilità e statistica Laboratorio virtuale di probabilità e statistica Release beta 1.0 - 22.11.2001 Benvenuti! Probabilità 1. Spazi di probabilità L'obiettivo di questo progetto è di fornire risorse interattive per studenti e docenti di probabilità e statistica. Se questa è la tua prima visita ti preghiamo di leggere le informazioni sul progetto, che contengono informazioni sui contenuti, la struttura e l'organizzazione di questo lavoro, nonché i requisiti per i browser e i presupposti matematici necessari. 2. Calcolo combinatorio 3. Distribuzioni 4. Valore atteso Statistica 1. Distribuzioni notevoli 2. Campioni casuali 3. Stima puntuale Autori L'autrice del progetto originariamente sviluppato in lingua inglese è Kyle Siegrist Department of Mathematical Sciences University of Alabama in Huntsville [email protected] 4. Stima intervallare Copyright © 1997-2001 5. Test di ipotesi L'implementazione in lingua italiana è stata curata da Federico M. Stefanini ed è stata realizzata da Marco J. Lombardi e Federico M. Stefanini. Modelli speciali 1. Modelli geometrici 2. Prove Bernoulliane 3. Modelli di campionamento finito È disponibile un documento inerente gli scopi del progetto di traduzione in lingua italiana. Questo materiale è liberamente disponibile per usi non commerciali, ma si deve mantenere il 5. Il processo di Poisson riferimento all'autrice originale, quale che sia la forma di impiego. Negli usi della versione 6. Rosso e nero italiana si deve mantenere il riferimento 7. Random Walk all'indirizzo presso il Dipartimento di Statistica 8. Sistemi di particelle interagenti "G. Parenti". Il sito in lingua italiana è stato sviluppato nella convinzione che sia utile, MA Appendici SENZA GARANZIA di alcun tipo circa i suoi contenuti. 1. Informazioni sul Progetto 4. Giochi di fortuna http://www.ds.unifi.it/~stefanin/VL/VL_IT/index.html (1 di 2) [22/11/2001 17.46.00] Laboratorio virtuale di probabilità e statistica Versione italiana, Copyright © 2001 Dipartimento di Statistica "G. Parenti". Sito web originale (in inglese) ● Virtual Laboratories in Probability and Statistics Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/index.html (2 di 2) [22/11/2001 17.46.00] Spazi di probabilità Laboratorio virtuale > Probabilità > [A] B C D A. Spazi di probabilità Sommario 1. Esperimenti casuali 2. Insiemi ed eventi 3. Funzioni e variabili casuali 4. Misura di probabilità 5. Probabilità condizionata 6. Indipendenza 7. Convergenza 8. Note conclusive Applets ● Esperimento del campione di monete ● Esperimento della moneta di Buffon ● Esperimento del campione di dadi ● Esperimento dei dadi ● Esperimento del campione di carte ● Esperimento dado-moneta ● Esperimento moneta-dado Citazione ● Le questioni più importanti della vita si riducono ad essere, in larga parte, solo problemi di probabilità. Pierre Simon Laplace Laboratorio virtuale > Probabilità > [A] B C D Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/index.html [22/11/2001 17.46.00] Calcolo combinatorio Laboratorio virtuale > Probabilità > A [B] C D B. Calcolo combinatorio Sommario 1. Principi fondamentali 2. Permutazioni 3. Combinazioni 4. Coefficienti multinomiali 5. Note zonclusive Applets ● Tavola di Galton Citazione ● La bellezza è il primo test: non c'è posto al mondo per la matematica brutta. GH Hardy, A Mathematician's Apology. Laboratorio virtuale > Probabilità > A [B] C D Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/index.html [22/11/2001 17.46.01] Distribuzioni Laboratorio virtuale > Probabilità > A B [C] D C. Distribuzioni Sommario 1. Distribuzioni discrete 2. Distribuzioni continue 3. Distribuzioni miste 4. Distribuzioni congiunte 5. Distribuzioni condizionate 6. Funzioni di ripartizione 7. Trasformazioni di variabili 8. Convergenza in distribuzione 9. Note conclusive Applets ● Esperimento binomiale della moneta ● Esperimento dei dadi ● Esperimento dado-moneta ● Esperimento moneta-dado ● Variabile casuale ● Esperimento bivariato uniforme ● Istogramma interattivo Laboratorio virtuale > Probabilità > A B [C] D Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/index.html [22/11/2001 17.46.01] Valore atteso Laboratorio virtuale > Probabilità > A B C [D] D. Valore atteso Sommario 1. Definizione e proprietà 2. Varianza e momenti superiori 3. Covarianza e correlazione 4. Funzioni generatrici 5. Valore atteso condizionato 6. Valore atteso e matrici di covarianza 7. Note conclusive Applets ● Dadi ● Variabile casuale ● Istoramma interattivo ● Istoramma interattivo con grafico degli errori ● Esperimento uniforme bivariato ● Esperimento dado-moneta ● Esperimento moneta-dado Laboratorio virtuale > Probabilità > A B C [D] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/index.html [22/11/2001 17.46.01] Definizione e proprietà Laboratorio virtuale > Valore atteso > [1] 2 3 4 5 6 7 1. Definizione e proprietà Il valore atteso è uno dei concetti più importanti di tutta la probabilità. Il valore atteso di una variabile casuale a valori reali indica il centro della distribuzione della variabile in un senso particolare. In più, calcolando il valore atteso di varie trasformazioni reali di una generica variabile, possiamo ricavare una varietà di importanti caratteristiche della variabile, comprese misure di dispersione, simmetria e correlazione. Definizioni Al solito, iniziamo con l'introdurre un esperimento cauale definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale, relativa all'esperimento, a valori in un sottinsieme S di R. Se X ha distribuzione discreta con funzione di densità f, il valore atteso di X è definito come E(X) = x in S xf(x). Se X ha distribuzione continua con funzione di densità f, il valore atteso di X è definito come E(X) = S xf(x)dx. Supponiamo infine che X abbia distribuzione mista, con densità parziale discreta g su D e densità parziale continua h su C, dove D e C sono disgiunti, D è numerabile e S = D C. Il valore atteso di X è definito come E(X) = x in C xg(x) + C xh(x)dx. In ogni caso, il valore atteso di X può non esistere, poiché la sommatoria o l'integrale può non convergere. Il valore atteso di X è detto anche media della distribuzione di X ed è spesso indicato con µ. Interpretazione La media è il centro della distribuzione di probabilità di X in un senso particolare. Se pensiamo alla distribuzione come a una distribuzione di massa, la media è il baricentro fisico della massa. Ricordiamo, a questo proposito, gli altri indici di centralità che abbiamo studiato: la moda è ogni valore di x che massimizza f(x). la mediana è ogni valore di x che soddisfa http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (1 di 11) [22/11/2001 17.46.05] Definizione e proprietà P(X < x) 1/2, P(X x) 1/2. Per interpretare il valore atteso in senso probabilistico, supponiamo di generare un nuovo esperimento composto ripetendo più volte l'esperimento semplice. Ciò produce una successione di variabili casuali indipendenti, X1, X2, X3 ... ciascuna distribuita come X. In termini statistici, stiamo campionando dalla distribuzione di X. Il valore medio, o media campionaria, dopo n replicazioni è Mn = (X1 + X2 + ··· + Xn) / n Il valore medio Mn converge al valore atteso µ per n . La regione di questo risultato è la legge dei grandi numeri, uno dei più importanti teoremi della probabilità. Esempi e casi particolari 1. Una costante c può essere pensata come variabile casuale che può assumere il solo valore c con probabilità 1. La distribuzione corrispondente è detta a volte point mass in c. Mostra che E(c) = c. 2. Sia I una variabili casuale indicatore (cioè una variabile che assume solo i valori 0 e 1). Prova che E(I) = P(I = 1). In particolare, se IA è l'indicatore dell'evento A, allora E(IA) = P(A), per cui, in un certo senso, il valore atteso individua la probabilità. Un testo che usa come concetto fondamentale il valore atteso e non la probabilità è Probability via Expectation, di Peter Whittle. 3. Supponi che X sia distribuita uniformemente su un sottinsieme finito S di R. Prova che E(X) è la media aritmetica dei numeri in S. 4. Il punteggio di un dado equilibrato è distribuito uniformemente su {1, 2, 3, 4, 5, 6}. Trova il punteggio atteso. 5. Nell'esperimento dei dadi, scegli un dado equilibrato. Simula 1000 replicazioni, aggioranando ogni 10, e osserva la convergenza della media campionaria al valore atteso della distribuzione. 6. Trova il punteggio atteso di un dado piatto uno-sei. La funzione di densità è f(1) = 1/4, f(2) = f(3) = f(4) = f(5) = 1/8, f(6) = 1/4 http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (2 di 11) [22/11/2001 17.46.05] Definizione e proprietà 7. Nell'esperimento dei dadi, scegli un dado piatto uno-sei. Simula 1000 replicazioni, aggioranando ogni 10, e osserva la convergenza della media campionaria al valore atteso della distribuzione. 8. Supponi che Y abbia funzione di densità f(n) = p(1 - p)n - 1 per n = 1, 2, ..., dove 0 < p < 1 è un parametro. Ciò definisce la distribuzione geometrica con parametro p. Prova che E(Y) = 1 / p. 9. Supponi che N abbia funzione di densità f(n) = exp(-t)tn / n! per n = 0, 1, ..., dove t > 0 è un parametro. Si tratta della distribuzione di Poisson con parametro t. Mostra che E(N) = t. 10. Supponi che X sia distribuita uniformemente su un intervallo (a, b) di R. Prova che la media è il punto centrale dell'intervallo: E(X) = (a + b) / 2 11. Supponi che X abbia densità f(x) = 12x2(1 - x) per 0 < x < 1. 1. Trova E(X). 2. Trova la moda di X 3. Trova la mediana di X 4. Disegna il grafico di f e indica la posizione di media, mediana e moda sull'asse delle x. 12. Supponi che X abbia funzione di densità f(x) = a / xa + 1 per x > 1, dove a > 0 è un parametro. Si tratta della distribuzione di Pareto con parametro di forma a. Prova che 1. E(X) = se 0 < a 1 2. E(X) = a / (a - 1) se a > 1. 13. Nell'applet variabile casuale, seleziona la distribuzione di Pareto. Per i seguenti valori del parametro di forma a, simula 1000 replicazioni, aggiornando ogni 10, e osserva il comportamento della media empirica. 1. a = 1 2. a = 2 3. a = 3 14. Supponi che T abbia densità f(t) = r exp(-rt) per t > 0 dove r > 0 è un parametro. Abbiamo quindi una distribuzione esponenziale con parametro di velocità r. 1. Prova che E(T) = 1 / r. 2. Prova che la moda di T è 0. 3. Prova che la mediana di T è ln(2) / r. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (3 di 11) [22/11/2001 17.46.05] Definizione e proprietà 4. Disegna il grafico di f e indica la posizione di media, mediana e moda sull'asse delle x. 15. Nell'applet variabile casuale, seleziona la distribuzione gamma e poni k = 1 per avere la distribuzione esponenziale. Modifica r con la barra a scorrimento e osserva la posizione della media rispetto al grafico della funzione di ripartizione. Con r = 2, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della media campionaria al valore atteso della distribuzione. 16. Supponi che X abbia densità f(x) = 1 / [ (1 + x2)], x appartenente a R. Si ha così una distribuzione di Cauchy (che prende nome da Augustin Cauchy), della famiglia delle distribuzioni t. 1. 2. 3. 4. Disegna il grafico di f. Prova che E(X) non esiste. Trova la mediana di X. Trova la moda di X. 17. Nell'applet variabile casuale, seleziona la distribuzione t di Student e poni n = 1 per avere la distribuzione di Cauchy. Simula 1000 replicazioni, aggiornando ogni 10, e osserva il comportamento della media campionaria. 18. Supponi che Z abbia densità f(z) = exp(-z2 / 2) / (2 )1/2 per z appartenente a R. Si ha quindi una distribuzione normale standardizzata. 1. Prova che E(Z) = 0. 2. Disegna il grafico di f e indica E(Z) sull'asse z. 19. Nell'applet variabile casuale, seleziona la distribuzione normale (i valori preimpostati corrispondono a una normale standardizzata). Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media campionaria al valore atteso della distribuzione Teorema del cambiamento di variabile Il valore atteso di una variabile casuale a valori reali indica il centro della distribuzione della variabile. Quest'ida è molto più potente di quanto non potrebbe sembrare: calcolando il valore atteso di varie funzioni di una certa variabile casuale, possiamo individuare molte interessanti caratteristiche della distribuzione. Supponiamo che X sia una variabile casuale a valori in un generico insieme S, e che r sia funzione da S in R. r(X) è quindi una variabile casuale a valori reali, e possiamo essere interessati al calcolo di E[r(X)]. Il calcolo di questo valore atteso richiede però, per definizione, la conoscenza della funzione di densità della variabile trasformata r(X) (in genere problema complesso). Fortunatamente, si può procedere in maniera più semplice utilizzando il teorema del cambiamento di variabile per il valore atteso. 20. Mostra che, se X ha distribuzione discreta con funzione di densità f, allora http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (4 di 11) [22/11/2001 17.46.05] Definizione e proprietà E[r(X)] = x in S r(x)f(x). Similmente, se X ha distribuzione continua con funzione di densità f allora E[r(X)] = S r(x)f(x)dx. 21. Dimostra il teorema del cambiamento di variabile nel caso in cui X è continua e r discreta (cioè r ha campo di variazione numerabile). 22. Supponi che X sia distribuita uniformemente su (-1, 3). 1. Trova la densità di X2. 2. Trova E(X2) utilizzando la funzione di densità in (a). 3. Trova E(X2) utilizzando il teorema del cambiamento di variabile. 23. Supponi che X abbia funzione di densità f(x) = x2 / 60 per x {-2, -1, 1, 2, 3, 4, 5}. 1. Trova E(X). 2. Trova la densità di X2. 3. Trova E(X2) utilizzando la funzione di densità in (a). 4. Trova E(X2) utilizzando il teorema del cambiamento di variabile. 24. Supponi che X abbia funzione di densità f(x) = 12x2(1 - x) per 0 < x < 1. Trova 1. E(1/X) 2. E(X1/2) 25. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova 1. E(X) 2. E(Y) 3. E(X2Y). 4. E(X2 + Y2) 26. Supponi che X sia distribuita uniformemente sull'intervallo [a, b], e che g sia funzione continua da [a, b] in R. Mostra che E[g(X)] è il valore medio di g su [a, b], come definito in analisi. Proprietà fondamentali Gli esercizi seguenti identificano le proprietà fondamentali del valore atteso. Tali proprietà valgono in generale, ma limitati a dimostrarle separatamente per il caso discreto e il caso continuo, facendo affidamento prevalentemente sul teorema del cambiamento di http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (5 di 11) [22/11/2001 17.46.05] Definizione e proprietà variabile. In questi esercizi X e Y sono variabili casuali a valori reali relative a un esperimento, c è una costante e si assume che i valori attesi indicati esistano. 27. Prova che E(X + Y) = E(X) + E(Y) 28. Prova che E(cX) = cE(X). Quindi, in conseguenza di questi primi due risultati, E(aX + bY) = aE(X) + bE(Y) per due costanti a e b; detto a parole, il valore atteso è un operatore lineare. 29. Dimostra che, se X 0 (con probabilità 1), allora E(X) 0. 30. Dimostra che, se X Y (con probabilità 1), allora E(X) E(Y) 31. Prova che |E(X)| E(|X|) I risultati di questi esercizi sono così importanti che è bene comprenderli anche a livello intuitivo. In realtà, tali proprietà sono in un certo senso conseguenza dell'interpretazione del valore atteso alla luce della legge dei grandi numeri. 32. Supponi che X e Y siano indipendenti. Prova che E(XY) = E(X)E(Y) L'esercizio precedente mostra che variabili casuali indipendenti sono incorrelate. 33. Si lanciano due dadi equilibrati e si registrano i punteggi (X1, X2). Trova il valore atteso di 1. Y = X1 + X2. 2. Z = X1X2. 3. U = min{X1, X2} 4. V = max{X1, X2}. 34. Sia E(X) = 5 e E(Y) = -2. Trova E(3X + 4Y - 7). 35. Supponi che X e Y siano indipendenti e che E(X) = 5, E(Y) = -2. Trova E[(3X - 4)(2Y + 7)] 36. Ci sono 5 cacciatori di anatre, tutti ottimi tiratori. Passa uno stormo di 10 oche, e ciascun cacciatore ne sceglie una a caso e spara. Trova il numero di oche uccise atteso. Suggerimento: Esprimi il numero di oche uccise come somma di variabili casuali indicatore. Per un'analisi più completa del problema del cacciatore di anatre, vedi il numero di valori http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (6 di 11) [22/11/2001 17.46.05] Definizione e proprietà campionari distinti nel capitolo sui modelli di campionamento finito. Momenti Se X è una variabile casuale, a un numero reale e n > 0, l'n-esimo momento di X centrato su a è definito come E[(X - a)n]. I momenti centrati su 0 si dicono semplicemente momenti. I momenti centrati su µ = E(X) si dicono momenti centrali. Il momento secondo è particolarmente importante ed è studiato in dettaglio nel paragrafo sulla varianza. In certi casi, se si conoscono tutti i momenti di X, possiamo individuare completamente la distribuzione di X. Questo concetto è analizzato nel paragrafo sulle funzioni generatrici. 37. Supponi che X sia distribuita uniformemente sull'intervallo (a, b). Trova una formula generale per i momenti di X. 38. Supponi che X abbia densità f(x) = 12x2(1 - x), 0 < x < 1. Trova una formula generale per i momenti di X. 39. Supponi che X abbia distribuzione continua con densità f e simmetrica attorno ad a: f(a + t) = f(a - t) per ogni t Mostra che, se E(X) esiste, allora E(X) = a. Variabili non negative 40. Sia X una variabile casuale non negativa (continua o discreta) relativa a un certo esperimento. Dimostra che E(X) = {x > 0} P(X > x)dx. Suggerimento: Nella rappresentazione di cui sopra, esprimi P(X > t) in funzione della densità di X, come sommatoria nel caso discreto o integrale nel caso continuo. Poi scambia integrale e sommatoria (nel caso discreto) o i due integrali (nel caso continuo). 41. Prova la disuguaglianza di Markov (in onore di Andrei Markov): Se X è una variabile non negativa, allora per t > 0, P(X t) E(X) / t. Suggerimento: Sia It la variabile indicatore dell'evento {X prendi i valori attesi tramite la disugauglianza. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (7 di 11) [22/11/2001 17.46.05] t}. Prova che tIt X. Poi Definizione e proprietà 42. Usa il risultato dell'esercizio 40 per provare la formula del cambiamento di variabile nel caso in cui il vettore casuale X ha distribuzione continua e r è non negativo. 43. Usa il risultato dell'esercizio 40 per provare che se X è non negativa e E(X) = 0 allora P(X = 0) = 1. Il seguente risultato è simile a quello dell'esercizio 40, ma specifico per le variabile a valori interi non negativi: 44. Supponi che N sia una variabile casuale discreta che assume valori nell'insieme degli interi non negativi. Prova che E(N) = n = 0, 1, ... P(N > n) = n = 1, 2, ... P(N n). Suggerimento: Nella prima formula, esprimi P(N > n) come somma in termini della funzione di densità di N e scambia quindi le due sommatorie. La seconda formula può essere ottenua a partire dalla prima con un cambiamento di variabile degli indici di somma. 45. Supponi che X abbia funzione di densità f(x) = r exp(-rx) per x > 0, dove r > 0 è un parametro. Si ha quindi la distribuzione esponenziale con parametro di velocità r. a. Trova E(X) utilizzando la definizione. b. Trova E(X) utilizzando la formula dell'esercizio 40. c. Calcola entrambi i lati della disugauglianza di Markov. 46. Supponi che Y abbia funzione di densità g(n) = (1 - p)n - 1p per n = 1, 2, ... dove 0 < p < 1 è un parametro. Ciò definisce la distribuzione geometrica con parametro p. a. Trova E(X) utilizzando la definizione. b. Trova E(X) utilizzando la formula dell'esercizio 40. c. Calcola entrambi i lati della disugauglianza di Markov. Una definizione generale Il risultato dell'esercizio 40 può essere utilizzato come base per una formulazione generale del valore atteso che vale nei casi continuo, discreto e misto. In primo luogo, prendiamo il risultato dell'esercizio 40 come definizione di E(X) se X è non negativa. Poi, per un numero reale x, definiamo le parti positiva e negativa di x come segue ● x+ = x se x 0 e x+ = 0 se x < 0 ● x- = 0 se x 0 e x- = -x se x < 0 47. Prova che 1. x+ 0, x- 0 2. x = x+ - x-. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (8 di 11) [22/11/2001 17.46.05] Definizione e proprietà 3. |x| = x+ + x-. Infine, se X è una variabile casuale, allora X+ e X-, le parti postiva e negativa di X, sono variabili casuali non negative. Quindi, assumendo che E(X+) o E(X-) (o entrambi) sia finito, possiamo definire E(X) = E(X+) - E(X-) Disuguaglianza di Jensen La prossima serie di esercizi porterà a definire un'importante disugauglianza nota come disuguaglianza di Jensen, così detta in onore di Johan Jensen. Introduciamo in primo luogo alcune definizioni. Una funzione a valori reali g definita su un intervallo S di R è detta convessa su S se per ogni x0 appartenente a S, esistono numeri a e b (che possono dipendere da x0) tali che ax0 + b = g(x0), ax + b g(x) per x appartenente a S. 48. Interpreta geometricamente la definizione di funzione convessa. La linea y = ax + b è detta linea di supporto a x0. Puoi essere più familiare con la convessità in termini del seguente teorema di analisi: 49. Prova che g è convessa su S se g ha derivata seconda continua e non negativa su S. Suggerimento: Mostra che la tangente a x0 è linea di supporto a x0. 50. Prova la disuguaglianza di Jensen: se X assume valori in un intervallo S e g è convessa su S, allora E[g(X)] g[E(X)] Suggerimento: Nella definizione di convessità sopra riportata, poni x0 = E(X) e sostituisci x con X. Prendi poi i valori attesi attraverso la disuguaglianza. 51. Supponi che X abbia funzione di densità f(x) = a / xa + 1 per x > 1, dove a > 1 è un parametro. Si ha allora la distribuzione di Pareto con parametro di forma a. a. b. c. d. Trova E(X) utilizzando la formula dell'esercizio 40. Trova E(1/X). Mostra che g(x) = 1/x è convessa su (0, ). Verifica la disuguaglianza di Jensen confrontando i risultati di (a) e (b). La disuguaglianza di Jensen si estende semplicemente al caso multidimensionale. La versione bidimensionale è particolarmente importante poiché sarà utilizzata per ricavare molte delle disuguaglianze speciali del prossimo paragrafo. In primo luogo, un sottinsieme S di R2 è convesso se u, v Sep [0, 1] implica (1 - p)u + pv S. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (9 di 11) [22/11/2001 17.46.05] Definizione e proprietà Una funzione a valori reali g su S è detta convessa se per ogni (x0, y0) appartenente a S, esistono numeri a, b e c (dipendenti da (x0, y0)) tali che ax0 + by0 + c = g(x0, y0), ax + by + c g(x, y) per (x, y) appartenente a S. 52. Interpreta geometricamente le nozioni di insieme convesso e funzione convessa. Il piano z = ax + by + c è detto piano di supporto a (x0, y0). Dall'analisi, g è convessa su S se g ha derivate seconde continue su S se ha matrice di derivate seconde definita non positiva: gxx 0, gyy 0, gxxgyy - gxy2 0 su S. 53. Prova la disuguaglianza di Jensen: se (X, Y) assume valori in un insieme convesso S e g è convessa su S allora E[g(X, Y)] g[E(X), E(Y)]. Suggerimento: nella definizione di convessità, poni x0 = E(X), y0 = E(Y), e sostituisci x con X, y con Y. Prendi poi i valori attesi attraverso la disuguaglianza. 54. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. 1. Prova che g(x, y) = x2 + y2 è convessa nel dominio di f. 2. Calcola E(X2 + Y2). 3. Calcola [E(X)]2 + [E(Y)]2. 4. Verifica la disuguaglianza di Jensen confrontando (b) e (c). Sia nel caso monodimensionale che in quello bidimensionale, una funzione g si dice concava se la disuguaglianza della definizione è invertita. Si inverte anche la disguaglianza di Jensen. 55. Supponi che x1, x2, ..., xn siano numeri positivi. Prova che la media aritmetica è almeno maggiore della media geometrica: (x1 x2 ··· xn)1/n (x1 + x2 + ··· + xn) / n. Suggerimento: sia X uniformemente distribuita su {x1, x2, ..., xn} e sia g(x) = ln(x). Valore atteso condizionato Il valore atteso di una variabile casuale X dipende, ovviamente, dalla misura di probabilità P dell'esperimento. Tale misura di probabilità può essere una misura di probabilità condizionata dato un evento B dell'esperimento (con P(B) > 0). La notazione usuale è E(X | B), e tale valore atteso si calcola attraverso le definizioni riportate all'inizio di questo paragrafo, eccettuato il fatto che la densità condizionata f(x | B) si sostituisce alla densità http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (10 di 11) [22/11/2001 17.46.05] Definizione e proprietà ordinaria f(x). È molto importante capire che, a parte la notazione, non si introducono nuovi concetti. Il risultati che abbiamo trovato per il valore atteso nel caso generale hanno risultati analoghi nel caso del valore atteso condizionato. 56. Supponi che X abbia funzione di densità f(x) = r exp(-rx) per x > 0, dove r > 0 è un parametro. Si ha allora la distribuzione esponenziale con parametro di velocità r. Per dato t > 0, trova E(X | X > t). 57. Supponi che Y abbia funzione di densità g(n) = (1 - p)n - 1p per n = 1, 2, ... dove 0 < p < 1 è un parametro. Si ha allora la distribuzione geometrica con parametro p. Trova E(Y | Y è pari). 58. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova E(XY | Y > X). Più in generale, il valore atteso condizionato, dato il valore di un'altra variabile casuale, è un argomento molto importante che sarà trattato in un altro paragrafo. Laboratorio virtuale > Valore atteso > [1] 2 3 4 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect1.html (11 di 11) [22/11/2001 17.46.05] Varianza e momenti superiori Laboratorio virtuale > Valore atteso > 1 [2] 3 4 5 6 7 2. Varianza e momenti superiori Definizione Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale, relativa all'esperimento, a valori in un sottinsieme S di R. Ricordiamo che il valore atteso (o media) di X indica il centro della distribuzione di X. La varianza di X è una misura della dispersione della distribuzione attorno al centro ed è definita come var(X) = E{[X - E(X)]2} La varianza è quindi il secondo momento centrale di X. 1. Supponi che X abbia distribuzione discreta con funzione di densità f. Usa il teorema del cambiamento di variabile per mostrare che var(X) = x in S [x - E(X)]2 f(x). 2. Supponi che X abbia distribuzione continua con funzione di densità f. Usa il teorema del cambiamento di variabile per mostrare che var(X) = S [x - E(X)]2 f(x)dx. La deviazione standard di X è la radice quadrata della varianza: sd(X) = [var(X)]1/2. Misura anch'essa la dispersione attorno alla media, ma è espressa nella stessa unità di misura di X. Proprietà Gli esercizi seguenti riportano alcune proprietà fondamentali della varianza, che si basano sulle proprietà del valore atteso: 3. Dimostra che var(X) = E(X2) - [E(X)]2. 4. Dimostra che var(X) 0 5. Dimostra che var(X) = 0 se e solo se P(X = c) = 1 per una costante c. 6. Dimostra che se a e b sono costanti allora var(aX + b) = a2var(X) http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect2.html (1 di 9) [22/11/2001 17.46.08] Varianza e momenti superiori 7. Let Z = [X - E(X)] / sd(X). Dimostra che Z ha media 0 e varianza 1. La variabile casuale Z dell'esercizio 7 è detta a volte standard score associato a X. Poiché X e la sua media e deviazione standard sono espressi nella stessa unità di misura, lo standard score Z è un numero puro. Misura la distanza tra E(X) e X in termini di deviazioni standard. D'altra parte, quando E(X) è diverso da zero, il rapporto tra deviazione standard e media è detto coefficiente di variazione: sd(X) / E(X) Osserva che anche questa quantità è un numero puro, ed è a volte utilizzata per confrontare la variabilità di variabili casuali con medie diverse. Esempi e casi particolari 8. Supponi che I sia una variabile indicatore con P(I = 1) = p. a. Mostra che var(I) = p(1 - p). b. Disegna il grafico di var(I) in funzione di p. c. Trova il valore di p che massimizza var(I). 9. Il punteggio di un dado equilibrato è distribuito uniformemente su {1, 2, 3, 4, 5, 6}. Trova media, varianza e deviazione standard. 10. Nell'esperimento dei dadi, seleziona un dado equilibrato. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici. 11. Su un dado piatto uno-sei, le facce 1 e 6 hanno probabilità 1/4 e le facce 2, 3, 4 e 5 hanno probabilità 1/8. Trova media, varianza e deviazione standard. 12. Nell'esperimento dei dadi, seleziona un dado piatto uno-sei. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici. 13. Supponi che X sia distribuita uniformemente su {1, 2, ..., n}. Prova che var(X) = (n2 - 1) / 12. 14. Supponi che Y abbia funzione di densità f(n) = p(1 - p)n - 1 per n = 1, 2, ..., dove 0 < p < 1 è un parametro. Si ha allora la ditribuzione geometrica con parametro p. Prova che var(Y) = (1 - p) / p2. 15. Supponi che N abbia funzione di densità f(n) = exp(-t)tn / n! for n = 0, 1, ..., dove t > 0 è un parametro. Si ha allora la distribuzione di Poisson con parametro t. Prova che http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect2.html (2 di 9) [22/11/2001 17.46.08] Varianza e momenti superiori var(N) = t. 16. Supponi che X sia distribuita uniformemente sull'intervallo (a, b) con a < b. Prova che var(X) = (b - a)2 / 12. Nota in particolare che la varianza dipende solo dalla lunghezza dell'intervallo, il che sembra intuitivamente ragionevole. 17. Supponi che X abbia funzione di densità f(x) = r exp(-rx) per x > 0. Si ha allora una distribuzione esponenziale con parametro di velocità r > 0. Prova che sd(X) = 1 / r. 18. Nell'esperimento gamma, poni k = 1 per avere una distribuzione esponenziale. Modifica r con la barra a scorrimento e osserva posizione e dimensione della barra media-deviazione standard. Con r = 2, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici. 19. Supponi che X abbia densità f(x) = a / xa + 1 for x > 1, dove a > 0 è un parametro. Si ha allora la distribuzione di Pareto con parametro di forma a. Prova che 1. var(X) = se 1 < a 2 2. var(X) = a / [(a - 1)2(a - 2)] se a > 2. 20. Supponi che Z abbia densità f(z) = exp(-z2 / 2) / (2 )1/2 per z appartenente a R. Si ha allora una distribuzione normale standardizzata. Mostra che var(Z) = 1. Suggerimento: Integra per parti in E(Z2). 21. Nell'applet variabile casuale, seleziona la distribuzione normale (i parametri preimpostati individuano la normale standardizzata). Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici. 22. Supponi che X sia una variabile casuale con E(X) = 5, var(X) = 4. Trova 1. var(3X - 2) 2. E(X2) 23. Supponi che X1 e X2 siano variabili casuali indipendenti con E(Xi) = µi, var(X) = di2 for i = 1, 2. Mostra che var(X1X2) = (d12 + µ12)(d22 + µ22) - µ12µ22. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect2.html (3 di 9) [22/11/2001 17.46.08] Varianza e momenti superiori 24. Marilyn Vos Savant ha un quoziente di intelligenza di 228. Assumendo che la distribuzione dei quozienti di intelligenza abbia media 100 e devizione standard 15, trova lo standard score di Marilyn. La disuguaglianza di Chebyshev La disuguaglianza di Chebyshev (che prende nome da Pafnuty Chebyshev) individua un limite superiore per la probabilità che una variabile casuale sia più distante di un certo valore dalla sua media. 25. Usa la disuguaglianza di Markov per dimostrare la disuguaglianza di Chebyshev: per t > 0, P[|X - E(X)| t] var(X) / t2. 26. Ricava la seguente versione alternativa della disuguaglianza di Chebyshev: per k > 0, P[|X - E(X)| k sd(X)] 1 / k2. 27. Supponi che Y abbia distribuzione geometrica con parametro p = 3/4. Calcola il valore vero e il limte superiore di Chebyshev per la probabilità che Y sia distante almeno 2 deviazioni standard dalla media. 28. Supponi che X abbia distribuzione esponenziale con parametro di velocità r > 0. Calcola il valore vero e il limte superiore di Chebyshev per la probabilità che X sia distante almeno deviazioni standard dalla media. Asimmetria e curtosi Ricordiamo di nuovo che la varianza di X è il momento secondo di X centrato sulla media e misura la dispersione della ditribuzione di X attorno alla media. I momenti centrali terzo e quarto di X misurano anch'essi caratteristiche interessanti della distribuzione. Il momento terzo misura la skewness, ovvero l'asimmetria, mentre il momento quarto misura la curtosi, ovvero il grado di "appuntimento" della distribuzione. Le misure numeriche di tali caratteristiche vengono standardizzate, per eliminare le unità di misura, dividendo per una potenza appropriata della deviazione standard. Sia µ = E(X) e d = sd(X). L'asimmetria di X è definita come skew(X) = E[(X - µ )3] / d3. la curtosi di X è invece kurt(X) = E[(X - µ )4] / d4. 29. Supponi che X abbia densità f, simmetrica rispetto a µ. Prova che skew(X) = 0. 30. Prova che http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect2.html (4 di 9) [22/11/2001 17.46.08] Varianza e momenti superiori skew(X) = [E(X3) - 3µE(X) + 2µ3] / d3. 31. Prova che kurt(X) = [E(X4) - 4µE(X) + 6µ2 E(X2) - 3µ4] / d4. 32. Disegna il grafico delle seguenti funzioni di densità e calcola skewness e curtosi. (Si tratta di membri della famiglia beta). 1. f(x) = 6x(1 - x), 0 < x < 1. 2. f(x) = 12x2(1 - x), 0 < x < 1. 3. f(x) = 12x(1 - x)2, 0 < x < 1. Norma La varianza e i momenti di ordine superiore sono collegati ai concetti di norma e distanza nella teoria degli spazi vettoriali. Tale collegamento può aiutare a connettere e illustrare alcuni dei concetti presentati. Sia X una variabile casuale a valori reali. Per k 1, si definisce la k-norma come ||X||k = [E(|X|k)]1/k. Quindi ||X||k misura in un certo senso la dimensione di X. Per un dato spazio di probabilità (cioè un dato esperimento casuale), l'insieme delle variabili casuali con momento k-esimo finito forma uno spazio vettoriale (se identifichiamo due varaibili casuali che coincidono con probabilità 1). Gli esercizi seguenti mostrano che la k-norma è di fatto una norma su questo spazio vettoriale. 33. Mostra che ||X||k 0 per ogni X. 34. Mostra che ||X||k = 0 se e solo se P(X = 0) = 1. 35. Mostra che ||cX||k = |c| ||X||k per ogni costante c. L'esercizio seguente ricava la disuguaglianza di Minkowski, che prende nome da Hermann Minkowski. È detta anche disuguaglianza triangolare. 36. Prova che ||X + Y||k ||X||k + ||Y||k per ogni X e Y. 1. Prova che g(x, y) = (x1/k + y1/k)k è concava su {(x, y) in R2: x 0, y 0}. 2. Usa (a) e la disuguaglianza di Jensen per concludere che, se U e V sono varaibili casuali non negative, allora E[(U1/k + V1/k)k] {[E(U)]1/k + [E(V)]1/k}k. 3. In (b) poni U = |X|k e V = |Y|k ed effettua qualche manovra algebrica. L'esercizio seguente identifica la disuguaglianza di Lyapunov, che prende nome da Aleksandr Lyapunov. Questa disuguaglianza prova che la k-norma di una variabile casuale è crescente in k. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect2.html (5 di 9) [22/11/2001 17.46.08] Varianza e momenti superiori 37. Prova che, se j k, allora ||X||j ||X||k. 1. Mostra che g(x) = xk/j è convessa su {x: x 0}. 2. Usa (a) e la disuguaglianza di Jensen per concludere che, se U è una variabile casuale non negativa, allora [E(U)]k/j E(Uk/j). 3. In (b), poni U = |X|j ed effettua qualche manovra algebrica. La disuguaglianza di Lyapanov mostra che, se X ha momento k-esimo finito e j < k, allora X ha momento j-esimo finito. 38. Supponi che X sia distribuita uniformemente sull'intervallo (0, 1). 1. Trova ||X||k. 2. Disegna ||X||k in funzione di k. 3. Trova il limite ||X||k per k . 39. Supponi che X abbia densità f(x) = a / xa + 1 per x > 1, dove a > 0 è un parametro. Si ha quindi un a distribuzione di Pareto con parametro di forma a. 1. Trova ||X||k. 2. Disegna ||X||k in funzione k < a. 3. Trova il limite ||X||k per k a-. 40. Supponi che (X, Y) abbia densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Verifica la disuguaglianza di Minkowski. Distanza La k-norma, come ogni altra norma, può essere utilizzata per misurare la distanza; basta calcolare la norma della differenza tra le unità. Definiamo pertanto la k-distanza (o k-metrica) tra due variabili casuali a valori reali X e Y come dk(X, Y) = ||Y - X||k = [E(|Y - X|k)]1 / k. Le proprietà presentate nei prossimi esercizi sono analoghe a quelle degli esercizi 33-36 (e quindi non serve molta fatica in più). Tali proprietà mostrano che la k-distanza è di fatto una misura di distanza. 41. Mostra che dk(X, Y) 0 per ogni X, Y. 42. Mostra che dk(X, Y) = 0 se e solo se P(Y = X) = 1. 43. Mostra che dk(X, Y) disuguaglianza triangolare). dk(X, Z) + dk(Z, Y) per ogni X, Y, Z (si parla anche di http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect2.html (6 di 9) [22/11/2001 17.46.08] Varianza e momenti superiori Pertanto, la deviazione standard è semplicemente la 2-distanza tra X e la sua media: sd(X) = d2[X, E(X)] = {E[(X - E(X)]2}1/2. e la varianza è il quadrato di tale quantità. Più in generale, il momento k-esimo di X centrato su a è semplicemente la k-esima potenza della k-distanza tra X e a. La 2-distanza è particolaremente importante per ragioni che appariranno più chiare più avanti e nel prossimo paragrafo. Questa distanza è detta inoltre root mean square distance. Centro e dispersione da un'altra angolazione Le misure di centro e dispersione possono essere interpretate in maniera interessante nel contesto della misura della distanza. Per una variabile casuale X, in primo luogo si tenta di individuare le costanti t più vicine a X, come misurate dalla distanza data; ogni t è una misura di centralità relativa alla distanza. La minima distanza corrispondente è la misura di dispersione. Applichiamo questa procedura alla 2-distanza. Definiamo quindi la funzione di errore root mean square come d2(X, t) = ||X - t||2 = {E[(X - t)2]}1/2. 44. Prova che d2(X, t) è minima per t = E(X) e che il valore minimo è sd(X). Suggerimento: il valore minimo si presenta nello stesso punto del valore minimo di E[(X t)2]. Espandi e prendi i valori attesi termine a termine. L'espressione risultante è una funzione quadratica di t. 45. Nell'istogramma interattivo, costruisci una distribuzione discreta seguendo le indicazioni sottindicate. Osserva la posizione e la dimensione della barra media ± deviazione standard e la forma del grafico dell'errore quadratico medio. a. Distribuzione uniforme b. Distribuzione simmetrica unimodale c. Distribuzione unimodale asimmetrica a destra d. Distribuzione unimodale asimmetrica a sinistra e. Distribuzione simmetrica bimodale f. Distribuzione a forma di u Applichiamo ora questa procedura alla 1-distanza. Definiamo pertanto la funzione di errore medio assoluto come d1(X, t) = ||X - t||1 = E[|X - t|]. 46. Prova che d1(X, t) è minima quando t è una mediana di X. L'ultimo esercizio mostra che l'errore medio assoluto ha un grosso limite come misura di errore poiché non è detto che esista un unico valore di t. Al contario, per molte distribuzioni discrete, esiste un intervallo mediano. Quindi, in termini dell'errore medio http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect2.html (7 di 9) [22/11/2001 17.46.08] Varianza e momenti superiori assoluto, non c'è ragione per scegliere un valore dell'intervallo piuttosto che un altro. 47. Costruisci le distribuzioni del tipo indicato sotto. In ciascun caso, nota la posizione e la dimensione del boxplot e la forma del grafico dell'errore medio assoluto. a. Distribuzione uniforme b. Distribuzione simmetrica unimodale c. Distribuzione unimodale asimmetrica a destra d. Distribuzione unimodale asimmetrica a sinistra e. Distribuzione simmetrica bimodale f. Distribuzione a forma di u 48. Sia I una variabile indicatore con P(I = 1) = p. Disegna il grafico di E[|I - t|] in funzione di t in ciascuno dei seguenti casi. In ogni caso, trova il valore minimo dell'errore medio assoluto e i valori di t in cui si ha il minimo. 1. p < 1/2 2. p = 1/2 3. p > 1/2 Convergenza Quando si ha una misura di distanza, si ha anche automaticamente un criterio di convergenza. Siano Xn, n = 1, 2, ..., e X variabili casuali a valori reali. Si dice che Xn X per n in media k-esima se dk(Xn, X) 0 per n , equivalentemente E(|Xn - X|k) Quando k = 1, diciamo semplicemente che Xn si dice che Xn importanti. X per n 0 per n X as n . in media; quando k = 2, in media quadratica. Questi sono i casi particolari più 49. Usa la disuguaglianza di Ljapunov per mostrare che, se j < k, allora Xn X per n in media k-esima implica Xn X per n in media j-esima. La prossima serie di esercizi mostra che la convergenza in media è più forte della convergenza in probabilità. 50. Usa la disuguaglianza di Markov per mostrare che Xn X per n in media implica Xn X per n in probabilità. Il contrario non è vero. Inoltre, la convergenza quasi certa non implica la convergenza in media k-esima e vicevera. I prossimi due esercizi riportano alcuni controesempi. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect2.html (8 di 9) [22/11/2001 17.46.08] Varianza e momenti superiori 51. Supponi che X1, X2, X3, ... sia una successione di variabili casuali indipendenti con P(Xn = n3) = 1 / n2, P(Xn = 0) = 1 - 1 / n2 per n = 1, 2, ... 1. Usa il primo lemma di Borel-Cantelli per mostrare che Xn probabilità 1. 2. Prova che Xn 3. Prova che E(Xn) 0 as n 0 as n con in probabilità. per n 52. Supponi che X1, X2, X3, ... sia una successione di variabili casuali indipendenti con P(Xn = 1) = 1 / n, P(Xn = 0) = 1 - 1 / n per n = 1, 2, ... 1. Usa il secondo lemma di Borel-Cantelli per mostrare che P(Xn = 0 per infinitamente numerosi n) = 1. 2. Usa il secondo lemma di Borel-Cantelli per mostrare che P(Xn = 1 per infinitamente numerosi n) = 1. 3. Prova che P(Xn non converge per n 4. Prova che Xn 0 per n ) = 1. in media k-esima per ogni k 1. Per tirare le somme, nella seguente tabella il segno di implicazione va da sinistra a destra (con j < k); nessuna altra implicazione vale in generale. convergenza con probabilità 1 convergenza in convergenza in media k-esima media j-esima convergenza in probabilità convergenza in distribuzione Argomenti correlati Per una trattazione affine dal punto di vista statistico, confronta il paragrafo sulla varianza campionaria nel capitolo sui campioni casuali. La varianza della somma di variabili casauali può essere capita meglio basandosi su un concetto affine noto come covarianza, che sarà trattato in dettaglio nel prossimo paragrafo. Laboratorio virtuale > Valore atteso > 1 [2] 3 4 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect2.html (9 di 9) [22/11/2001 17.46.08] Covarianza e correlazione Laboratorio virtuale > Valore atteso > 1 2 [3] 4 5 6 7 3. Covarianza e correlazione Ricordiamo che, calcolando il valore atteso di diverse trasformazioni di una variabile casuale, possiamo misurare molte interessanti caratteristiche della distribuzione della variabile. In questo paragrafo studieremo un valore atteso che misura una particolare relazione tra due variabili a valori reali. Tale relazione è estremamente importante sia in probabilità che in statistica. Definizione Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X e Y siano variabili casuali a valori reali, relative all'esperimento, con medie E(X), E(Y) e varianze var(X), var(Y) (ipotizzate finite). La covarianza di X e Y è definita come cov(X, Y) = E{[X - E(X)][Y - E(Y)]} e (assumendo che le varianze siano positive) la correlazione di X e Y è cor(X, Y) = cov(X, Y) / [sd(X) sd(Y)]. La correlazione è quindi una versione modificata della covarianza; osserva che i due parametri hanno sempre lo stesso segno (positivo, negativo o 0). Quando il segno è positivo, le variabili si dicono positivamente correlate; quando il segno è negativo negativamente correlate; e quando è 0, le variabili si dicono incorrelate. Come il termine stesso suggerisce, la covarianza e la correlazione misurano un certo tipo di dipendenza tra le due variabili. Proprietà Gli esercizi seguenti individuano alcune proprietà fondamentali della covarianza. Ai fini delle dimostrazioni, il risultato da utilizzare è la linearità dell'operatore valore atteso. 1. Prova che cov(X, Y) = E(XY) - E(X)E(Y) 2. Prova che cov(X, Y) = cov(Y, X). 3. Prova che cov(X, X) = var(X). 4. Prova che cov(aX + bY, Z) = a cov(X, Z) + b cov(Y, Z). Dall'esercizio 1 si osserva che X e Y sono incorrelati se e solo se E(XY) = E(X)E(Y). In particolare, se X e Y sono indipendenti, allora sono incorrelati. Il contrario però non è vero, come mostrato nell'esercizio 11. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect3.html (1 di 9) [22/11/2001 17.46.11] Covarianza e correlazione 5. Supponi che Xj, j in J e Yk, k in K siano variabili casuali a valori reali relative a un esperimento e che aj, j in J e bk, k in K siano costanti (J e K sono insiemi finiti di indici). Prova la seguente proprietà (nota come bi-linearità). cov( j in J aj Xj, k in K bk Yk) = j in J k in K aj bk cov(Xj, Xk). 6. Dimostra che la correlazione tra X e Y è data dalla covarianza dei corrispondenti standard score: cor(X, Y) = cov{[X - E(X)] / sd(X), [Y - E(Y)] / sd(Y)]. Esercizi numerici 7. Supponi che (X, Y) sia distribuito uniformemente sul quadrato R = {(x, y): -6 < x < 6, -6 < y < 6}. Mostra che X e Y sono indipendenti e quindi incorrelati. 8. Nell'esperimento uniforme bivariato, seleziona quadrato dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione. 9. Supponi che (X, Y) sia distribuito uniformemente sulla regione triangolare R = {(x, y): -6 < y < x < 6}. Prova che cor(X, Y) = 1/2. 10. Nell'esperimento uniforme bivariato, seleziona triangolo dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione. 11. Supponi che (X, Y) sia distribuito uniformemente sulla regione circolare R = {(x, y): x2 + y2 < 36}. Mostra che X e Y sono dipendenti ma incorrelati. 12. Nell'esperimento uniforme bivariato, seleziona cerchio dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione. 13. Supponi che X sia distribuito uniformemente sull'intervallo (-1, 1) e Y = X2. Prova che X e Y sono incorrelati anche se Y dipende funzionalmente da X (la forma più forte di dipendenza). 14. Si lanciano due dadi equilibrati e si registrano i punteggi (X1, X2). Sia Y = X1 + X2 la somma dei punteggi, U = min{X1, X2} il punteggio minimo e V = max{X1, X2} il punteggio massimo. Trova covarianza e correlazione delle seguenti coppie di variabili: 1. X1, X2. 2. X1, Y. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect3.html (2 di 9) [22/11/2001 17.46.11] Covarianza e correlazione 3. X1, U. 4. U, V 5. U, Y 15. Supponi che X e Y siano variabili casuali con cov(X, Y) = 3. Trova cov(2X - 5, 4Y + 2). 16. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova 1. cov(X, Y) 2. cor(X, Y). 17. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova 1. cov(X, Y) 2. cor(X, Y). 18. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Trova 1. cov(X, Y) 2. cor(X, Y). 19. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x2y per 0 < x < y < 1. Trova 1. cov(X, Y) 2. cor(X, Y). Varianza della somma Mostreremo ora che la varianza di una somma di variabili è la somma delle mutue covarianze. Supponiamo che Xj, j in J sia una collezione di variabili casuali a valori reali relative all'esperimento, dove J è un insieme finito di indici 20. Usa i risultati degli esercizi 3 e 5 per mostrare che var[ j in J Xi] = j in J k in K cov(Xj, Xk). Il risultato dell'esercizio precedente può risultare molto utile; può essere utilizzato per esempio per calcolare la varianza della distribuzione ipergeometrica e la distribuzione delle concordanze. 21. Supponic che X1, X2, ..., Xn siano a due a due incorrelati (ciò vale in particolare se http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect3.html (3 di 9) [22/11/2001 17.46.11] Covarianza e correlazione sono mutualmente indipendenti). Prova che var(X1 + X2 + ··· + Xn ) = var(X1) + var(X2) + ··· + var(Xn). 22. Prova che var(X + Y) + var(X - Y) = 2 var(X) + 2 var(Y). 23. Supponi che var(X) = var(Y). Prova che X + Y e X - Y sono incorrelati. 24. Supponi che X e Y siano variabili casuali con var(X) = 5, var(Y) = 9, cov(X, Y) = -3. Trova var(2X + 3Y - 7). 25. Supponi che X e Y siano variabili indipendenti con var(X) = 6, var(Y) = 8. Trova var(3X - 4Y + 5). 26. Supponi che X1, X2, ..., Xn siano indipendenti e abbiano distribuzione identica con media µ e varianza d2. (Le variabili formano quindi un campione casuale dalla distribuzione comune). Sia Yn = X1 + X2 + ··· + Xn. Prova che 1. E(Yn) = nµ. 2. var(Yn) = n d2. 3. sd(Yn) = n1/2 d. 27. Nel contesto dell'esercizio precedente, sia Mn = Yn / n. Mn è quindi la media campionaria. Mostra che 1. E(Mn) = µ. 2. var(Mn) = d2 / n. 3. sd(Mn) = d / n1/2. 4. var(Mn) 0 per n . 5. P(|Mn - µ| > r) 0 per n disuguaglianza di Chebyshev). per ogni r > 0 (Suggerimento: Usa la La parte (e) dell'ultimo esercizio significa che Mn µ per n in probabilità. Si tratta della legge debole dei grandi numeri, uno dei teoremi fondamentali della probabilità. 28. Supponi di lanciare n dadi equilibrati. 1. Trova media e deviazione standard della somma dei punteggi 2. Trova media e deviazione standard della media dei punteggi 29. Nell'applet dadi, seleziona le variabili casuali seguenti. In ciascun caso, aumenta il numero di dadi e osserva dimensione e posizione della funzione di densità e della barra media-deviazione standard. Con n = 20 dadi, simula 1000 replicazioni, aggiornando ogni http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect3.html (4 di 9) [22/11/2001 17.46.11] Covarianza e correlazione 10, e osserva la convergenza dei momenti empirici ai momenti teorici della distribuzione. 1. Somma dei punteggi 2. Media dei punteggi 30. Supponi che I1, I2, ..., In siano variabili indicatore indipendenti con P(Ij = 1) = p per ogni j. La distribuzione di X = I1 + I2 + ··· + In è binomiale con parametri n e p. Prova che 1. E(X) = np 2. var(X) = np(1 - p). Eventi Supponi che A e B siano eventi di un esperimento casuale. La covarianza e la correlazione di A e B sono definire come covarianza e correlazione delle loro rispettive variabili casuali indicatore IA e IB. 31. Prova che 1. cov(A, B) = P(A B) - P(A)P(B) 2. cor(A, B) = [P(A B) - P(A)P(B)] / [P(A)P(B)P(Ac)P(Bc)]1/2. Nota in particolare che A e B sono rispettivamente positivamente correlate, negativamente correlate o indipendenti (come definito nel paragrafo sulla probabilità condizionata) se e solo se le variabili indicatore di A e B sono positivamente correlate, negativamente correlate o indipendenti, come definito in questo paragrafo. 32. Prova che 1. cov(A, Bc) = -cov(A, B) 2. cov(Ac, Bc) = cov(A, B) 33. Supponi che A B. Prova che 1. cov(A, B) = P(A)P(Bc) 2. cor(A, B) = [P(A)P(Bc) / P(B)P(Ac)]1/2. 34. Supponi che A e B siano eventi di un esperimento con P(A) = 1/2, P(B) = 1/3, P(A B) = 1/8. Trova covarianza e correlazione tra A e B. Il miglior predittore lineare Quale funzione lineare di X è più vicina a Y nel senso che minimizza l'errore quadratico medio? La questione riveste importanza fondamentale nel caso in cui la variabile casuale X (la variabile predittore) è osservabile mentre Y (la variabile risposta) non lo è. La funzione lineare può essere utilizzate per stimare Y a partire dai valori osservati di X. La soluzione mostrerà inoltre che covarianza e correlazione misurano la relazione lineare tra X e Y. Per evitare i casi triviali, assumiamo che var(X) > 0 e var(Y) > 0. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect3.html (5 di 9) [22/11/2001 17.46.11] Covarianza e correlazione 35. Prova che ● E{[Y - (aX + b)]2} = var(Y) + [E(Y)]2 + a2 {var(X) + [E(X)]2} + ● b2 -2a[cov(X, Y) + E(X)E(Y)] + 2ab E(X) - 2b E(Y) 36. Usa le tecniche di analisi per mostrare che E{[Y - (aX + b)]2} è minimo quando 1. a = cov(X, Y) / var(X) 2. b = E(Y) - a E(X) Il miglior predittore lineare di Y da X è quindi Y* = E(Y) + [cov(X, Y) / var(X)][X - E(X)]. 37. Prova che l'errore quadratico medio minimo, tra tutte le funzione lineari di X, è E[(Y - Y*)2] = var(Y)[1 - cor2(X, Y)]. 38. Sulla base dell'ultimo esercizio, mostra che 1. -1 cor(X, Y) 1 2. -sd(X) sd(Y) cov(X, Y) sd(X) sd(Y) 3. cor(X, Y) = 1 se e solo se Y = aX + b con probabilità 1 per costanti a > 0 e b. 4. cor(X, Y) = -1 se e solo se Y = aX + b con probabilità 1 per costanti a < 0 e b. Questi esercizi mostrano chiaramente che cov(X, Y) e cor(X, Y) misurano l'associazione lineare tra X e Y. Ricordiamo che il miglior predittore lineare constante di Y, nel senso di minimizzare l'errore quadratico medio, è E(Y) e che il valore minimo dell'errore quadratico medio di tale predittore è var(Y). Pertanto la differenza tra var(Y) e l'errore quadratico medio dell'esercizio 35 è la riduzione della varianza di Y che si ottiene aggiungendo al predittore il termine lineare X. 39. Prova che var(Y) - E[(Y - Y*)2] = var(Y)cor2(X, Y). La frazione di riduzione è cor2(X, Y), e questa quantità è detta coefficiente di determinazione (della distribuzione). La retta y = E(Y) + [cov(X, Y) / var(X)][x - E(X)] è detta retta di regressione (della distribuzione) per Y da X. Osserva che la retta di regressione passa da (E(X), E(Y)), centro della distribuzione congiunta. In ogni caso, la scelta della variabile predittore e della variabile risposta è cruciale. 40. Mostra che la retta di regressione di Y da X e la retta di regressione di X da Y non coincidono, eccettuato il caso triviale in cui le variabili sono perfettamente correlate. 41. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y for 0 < x < 1, 0 < y < 1. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect3.html (6 di 9) [22/11/2001 17.46.11] Covarianza e correlazione 1. Trova il miglior predittore lineare di Y da X. 2. Trova il miglior predittore lineare di X da Y. 3. Trova il coefficiente di determinazione. 42. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. 1. Trova il miglior predittore lineare di Y da X. 2. Trova il miglior predittore lineare di X da Y. 3. Trova il coefficiente di determinazione. 43. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. 1. Trova il miglior predittore lineare di Y da X. 2. Trova il miglior predittore lineare di X da Y. 3. Trova il coefficiente di determinazione. 44. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x2y per 0 < x < y < 1. 1. Trova il miglior predittore lineare di Y da X. 2. Trova il miglior predittore lineare di X da Y. 3. Trova il coefficiente di determinazione. 45. Si lanciano due dadi equilibrati e si registra la sequenza di punteggi (X1, X2). Sia Y = X1 + X2 la somma dei punteggi, U = min{X1, X2} il punteggio minimo e V = max{X1, X2} il punteggio massimo. 1. Trova il miglior predittore lineare di Y da X1. 2. Trova il miglior predittore lineare di U da X1. 3. Trova il miglior predittore lineare di V da X1. 46. Supponi che A e B siano eventi di un esperimento casuale con 0 < P(A) < 1 e 0 < P(B) < 1. Dimostra che 1. A e B hanno correlazione 1 se e solo se P(A A = B con probabilità 1). 2. A e B hanno correlazione -1 se e solo se P(A A = Bc con probabilità 1). Bc) = 0 e P(B B) = 0 e P(Bc Ac) = 0 (Ovvero Ac) = 0 (Ovvero Il corrispondente problema statistico della stima di a e b, quando i parametri della distribuzione dell'esercizio 34 sono ignoti è analizzato nel paragrafo su covarianza e correlazione campionaria. Una generalizzazione naturale del problema che stiamo considerando è trovare la funzione di X (utilizzando tutte le funzioni possibili, non solo quelle lineari) che si avvicina di più a Y nel senso di minimizzare l'errore quadratico http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect3.html (7 di 9) [22/11/2001 17.46.11] Covarianza e correlazione medio. La soluzione verrà ricavata nel paragrafo sul valore atteso condizionato. Prodotto interno La covarianza è strettamente impartentata con concetti fondamentali nella teoria degli spazi vettoriali. Tale collegamento può essere utile per esaminare da un diverso punto di vista molte delle proprietà della covarianza. In primo luogo, se X e Y sono variabili casuali a valori reali, definiamo il prodotto interno e X e Y come <X, Y> = E(XY). Gli esercizi seguenti sono versioni analoghe delle proprietà della covarianza riportate sopra, e mostrano che tale definizione individua in relatà un prodotto interno sullo spazio vettoriale delle variabili casuali con momento secondo finito. (Al solito, diciamo identifiche due variabili casuali che coincidono con probabilità 1). 47. Prova che <X, Y> = <Y, X>. 48. Prova che <X, X> 0. 49. Prova che <X, X> = 0 se e solo se P(X = 0) = 1. 50. Prova che <aX, Y> = a <X, Y>. 51. Prova che <X, Y + Z> = <X, Z> + <Y, Z> Covarianza e correlazione possono essere semplicemente espresse in termini di questo prodotto interno. 52. Prova che cov(X, Y) = <X - E(X), Y - E(Y)>. 53. Prova che cor(X, Y) = <[X - E(X)] / sd(X), [Y - E(Y)] / sd(Y)>. Quindi la covarianza di X e Y è il prodotto interno delle corrispondenti variabili centrate. La correlazione di X e Y, invece, è il prodotto interno dei corrispondenti standard score. La norma associata al prodotto interno è la 2-norma studiata nel paragrafo precedente. Tale risultato è la ragione per cui la 2-norma ha un ruolo fondamentale e speciale; tra tutte le k-norme, solo la 2-norma corrisponde al prodotto interno. 54. Prova che <X, X> = ||X||22 = E(X2). Osserva che il miglior predittore lineare di Y da X derivato poc'anzi è semplicemente la proiezione di Y sul sottospazio delle variabili casuali della forma aX + b, dove a e b sono numeri reali. Il prossimo esercizio riporta la disuguaglianza di Hölder, detta così in onore di Otto Hölder. 55. Supponi che j, k >1 con 1 / j + 1 / k = 1. Prova che <|X|, |Y|> http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect3.html (8 di 9) [22/11/2001 17.46.11] ||X||j ||Y||k. Covarianza e correlazione 1. Prova che g(x, y) = x1/j y1/k è concava su {(x, y) in R2: x 0, y 0}. 2. Usa (a) e la disuguaglianza di Jensen per dimostrare che, se U e V sono variabili casuali non negatice, allora E(U1/j V1/k) [E(U)]1/j [E(V)]1/k. 3. In (c), poni U = |X|j, V = |Y|k. Nel contesto dell'esercizio precedente, j, k si dicono esponenti coniugati. Se poniamo j = k = 2 nella disuguaglianza di Hölder si ottiene la disuguaglianza di Cauchy-Schwarz, così detta in onore di Augustin Cauchy e Karl Schwarz. Di nuovo , si tratta di una disuguaglianza equivalente a quella dell'esercizio 36. E(|XY|) [E(X2)]1/2 [E(Y2)]1/2. 56. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Verifica disuguaglianza di Hölder nei casi seguenti: 1. j = k = 2 2. j = 3, k = 3 / 2. 57. Supponi che j e k siano esponenti coniugati. 1. Prova che k = j / (j - 1). 2. Prova che k decresce a 1 per j che tende a . L'esercizio seguente presenta un risultato analogo a quello dell'esercizio 22. 58. Prova la regola del parallelogramma: ||X + Y||22 + ||X - Y||22 = 2||X||22 + 2||Y||22. L'esercizio seguente presenta un risultato analogo a quello dell'esercizio 21. 59. Prova il teorema di Pitagora, scoperto ovviamente da Pitagora: se X1, X2, ..., Xn sono variabili casuali con <Xi, Xj> = 0 per i e j distinti, allora ||X1 + X2 + ··· + Xn ||22 = ||X1||22 + ||X2||22 + ··· + ||Xn||22. Laboratorio virtuale > Valore atteso > 1 2 [3] 4 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect3.html (9 di 9) [22/11/2001 17.46.11] Funzioni generatrici Laboratorio virtuale > Valore atteso > 1 2 3 [4] 5 6 7 4. Funzioni generatrici Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Una funzione generatrice di una variabile casuale è il valore atteso di una certa trasformazione della variabile. Tutte le funzioni generatrici posseggono tre importanti proprietà: 1. Sotto condizioni blande, la funzione generatrice individua completamente la distribuzione. 2. La funzione generatrice della somma di variabili indipendenti è il prodotto delle funzioni generatrici. 3. I momenti della variabile casuale possono essere ottenuti a partire dalle derivate della funzione generatrice. La proprietà 2 è usata di frequente per determinare la distribuzione di una somma di variabili indipendenti. Al contrario, ricordiamo che la funzione di densità di probabilità di una somma di variabili indipendenti è la convoluzione delle funzioni di densità individuali, operazione molto più complessa. La funzione generatrice di probabilità Supponiamo che N sia una variabile casuale a valori in {0, 1, 2, ...}. La funzione generatrice di probabilità G di N è definita come G(t) = E(tN). Sia f la funzione di densità di probabilità di N, cosicché f(n) = P(N = n) per n = 0, 1, 2, ... Gli esercizi seguenti individuano le proprietà principali. 1. Prova che G(t) = n = 0, 1, ... f(n) tn. G(t) è quindi una serie di potenze in t, coi valori della funzione di densità di probabilità che fanno da coefficienti. Ricorda che, sulla base dei risultati di analisi, esiste un r tale che la serie converge assolutamente per |t| < r e diverge per |t| > r. Il numero r è detto raggio di convergenza della serie. 2. Prova che G(1) = 1 e quindi r 1. Ricorda, dall'analisi, che una serie di potenze può essere derivata termine a termine, esattamente come un polinomio. Ciascuna serie di derivate ha lo stesso raggio di convergenza della serie originale. 3. Prova che f(n) = G(n)(0)/n! per n = 0, 1, 2, ... Dall'esercizio 3, nota che G individua completamente la distribuzione di N. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect4.html (1 di 6) [22/11/2001 17.46.14] Funzioni generatrici 4. Mostra che P(N è pari) = [1 + G(-1)] / 2. 5. Sia r > 1. Dimostra che G(k)(1) = E[(N)k] dove (N)k = N(N - 1) ··· (N - k + 1). I momenti dell'esercizio 5 si dicono momenti fattoriali. 6. Mostra che var(N) = G(2)(1) + G(1)(1) - [G(1)(1)]2. 7. Supponi che N1 e N2 siano indipendenti e con funzione generatrice di probabilità rispettivamente G1 e G2. Dimostra che la funzione generatrice di probabilità di N1 + N2 è G(t) = G1(t)G2(t). 8. Supponi che I sia una variabile indicatore con P(I = 1) = p. Mostra che G(t) = 1 - p + pt per ogni t. 9. Supponi che N abbia funzione di densità P(N = k) = C(n, k) pk (1 - p)n-k, per k = 0, 1, ..., n. dove n appartenente a {1, 2, ...} e p appartenente a (0, 1) sono parametri. Si ha allora una distribuzione binomiale con parametri n e p. Dimostra che a. G(t) = (1 - p + pt)n. b. E(N) = np c. var(N) = np(1 - p) d. P(N è pari) = [1 + (1 - 2p)n] / 2 10. Usa i risultati dei due esercizi precedenti per mostrare che, se I1, I2, ... In sono variabili indicatore indipendenti con parametro p, allora N = I1 + I2 + ··· + In ha distribuzione binomiale con parametri n e p. 11. Supponi che N abbia funzione di densità P(N = n) = (1 - p)n-1 p per n = 1, 2, ... dove p appartenente a (0, 1) è un parametrro. Si tratta della distribuzione geometrica con parametro p. Prova che a. G(t) = tp / [1 - t(1 - p)] for t < 1 / (1 - p). b. E(N) = 1 / p. c. var(N) = (1 - p) / p2. d. P(N è pari) = (1 - p) / (2 - p). 12. Supponi che N abbia funzione di densità P(N = n) = e-a an / n! per n = 0, 1, 2, ..., dove a > 0 è un parametrro. Si tratta della distribuzione di Poisson con parametro a. Mostra che a. G(t) = exp[a(t - 1)] for any t. b. E(N) = a http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect4.html (2 di 6) [22/11/2001 17.46.14] Funzioni generatrici c. var(N) = a d. P(N è pari) = [1 + exp(-2a)] / 2. La funzione generatrice dei momenti Sia X una variabile casuale a valori in un sottinsieme di R. La funzione generatrice dei momenti di X è la funzione M definita da M(t) = E[exp(tX)] for t R. Nota che, poiché exp(tX) è una variabile casuale non negativa, M(t) esiste, come numero reale o infinito positivo, per ogni t. La funzione generatrice dei momenti possiede molte delle proprietà della funzione generatrice di probabilità, ma è definita per un insieme più ampio di variabili casuali. Le proprietà fondamentali, che assumiamo senza dimostrarle, sono le seguenti: se M(t) è finita per t in un intervallo aperto J attorno a 0, allora 1. M individua completamente la distribuzione di X. 2. M ha derivate di ogni ordine in J e M(n)(t) = E[Xn exp(tX)] per t appartenente a J. Negli esercizi seguenti, assumi che le funzioni generatrici dei momenti siano finite in un intorno di 0. 13. Prova che M(n)(0) = E(Xn) per ogni intero non negativo n. Pertanto le derivate della funzione generatrice dei momenti in 0 determinano i momenti della variabile (di qui il nome). 14. Supponi che X sia una variabile casuale con funzione generatrice dei momenti M e che a e b siano costanti. Dimostra che la funzione generatrice dei momenti di aX + b è R(t) = exp(bt) M(at). 15. Supponi che X1 e X2 siano variabili casuali indipendenti, con funzioni generatrici dei momenti M1 e M2. Prova che la funzione generatrice dei momenti di X1 + X2 è M(t) = M1(t) M2(t). 16. Supponi che N sia una variabile casuale a valori in {0, 1, 2, ...}, con funzione generatrice di probabilità G. Prova che la funzione generatrice dei momenti di N is M(t) = G(et). 17. Supponi che X abbia distribuzione uniforme su (a, b). Mostra che 1. M(t) = [exp(tb) - exp(ta)] / [t(b - a)] se t 0; M(0) = 1. 2. E(Xn) = (bn + 1 - an + 1) / [(n + 1)(b - a)] 18. Supponi che X abbia funzione di densità f(x) = r exp(-rx) per x > 0, dove r > 0 è un parametro (ciò individua la distribuzione esponenziale con parametro di velocità r). Prova http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect4.html (3 di 6) [22/11/2001 17.46.14] Funzioni generatrici che a. M(t) = r / (r - t) per t < r. b. E(Xn) = n! / rn. 19. Supponi che Z abbia funzione di densità f(z) = exp(-z2 / 2) / (2 pi)1/2 per z appartenente a R. Si tratta quindi di una distribuzione normale standardizzata. Prova che 1. M(t) = exp(t2 / 2) per t appartenente a R. 2. E(Z2n) = (2n)! / [n!2n] per n = 0, 1, ... 3. E(Z2n + 1) = 0 per n = 0, 1, ... L'esercizio seguente riporta esempi di distribuzioni per le quali la funzione generatrice dei momenti è infinita. 20. Supponi che X abbia densità f(x) = a / xa + 1 per x > 1, dove a > 0 è un parametro. Si tratta della distribuzione di Pareto con parametro di forma a. a. Mostra che M(t) = per ogni t > 0 e a > 0. b. Prova che E(Xn) < se e solo se a > n. Controesempi Nell'ultimo esercizio abbiamo considerato una distribuzione per la quale solo alcuni dei momenti sono finiti; ovviamente, la funzione generatrice dei momenti era infinita. In questa sezione, riportiamo un esempio di una distribuzione per la quale tutti i momenti sono finiti, ma la funzione generatrice dei momenti è comunque infinita. Inoltre, vedremo due distribuzioni distinti che hanno i momenti di tutti gli ordini uguali. Supponi che Z abbia distribuzione normale standardizzata, e sia X = exp(Z). La distribuzione di X è detta lognormale. 21. Usa la formula del cambiamento di variabile per dimostrare che X ha funzione di densità f(x) = exp[-ln2(x) / 2] / [(2 )1/2 x] per x > 0. 22. Usa la funzione generatrice dei momenti della distribuzione normale standardizzata per mostrare che X ha momenti di ogni ordine finiti E(Xn) = exp(n2 / 2) per n = 1, 2, ... 23. Dimostra che la funzione generatrice dei momenti di X è infinita per ogni numero positivo: E[exp(tX)] = per t > 0. 24. Sia g(x) = f(x) {1 + sin[2 di probabilità. ln(x)]} per x > 0. Prova che g è una funzione di densità http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect4.html (4 di 6) [22/11/2001 17.46.14] Funzioni generatrici 25. Poni che Y abbia funzione di densità g nell'esercizio precedente. Prova che Y ha gli stessi momenti di X: E(Yn) = exp(n2 / 2) for n = 1, 2, ... I grafici di f e g sono riportati qui sotto, rispettivamente in blu e rosso. I limiti di Chernoff 26. Supponi che X sia una variabile casuale con funzione generatrice dei momenti M. Prova i limiti di Chernoff: 1. P(X x) exp(-tx) M(t) per ogni t > 0 2. P(X x) exp(-tx) M(t) per ogni t < 0 Suggerimento: Mostra che P(X x) = P[exp(tX) exp(tx)] se t > 0 e P(X P[exp(tX) exp(tx)] se t < 0. Poi usa la disuguaglianza di Markov. x) = Ovviamente, il miglior limite di Chernoff (in (a) o (b)) si ottiene trovando il t che minimizza exp(-tx) M(t). 27. Supponi che N abbia distribuzione di Poisson con parametro a > 0. Usa i limiti di Chernoff per provare che, se n > a, allora P(N n) exp(n - a) (a / n)n. La funzione generatrice dei momenti congiunta Supponiamo ora che (X1, X2) sia un vettore casuale relativo a un esperimento, a valori in http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect4.html (5 di 6) [22/11/2001 17.46.14] Funzioni generatrici un sottinsieme di R2. La funzione generatrice dei momenti (congiunta) di (X1, X2) è definita come M(s, t) = E[exp(sX1 + tX2)] per s, t R. Di nuovo, una cosa importante da notare è che se la funzione generatrice dei momenti è finita in un rettangolo aperto contenente (0, 0), allora tale funzione individua completamente la distribuzione di (X1, X2). Siano M1, M2 e M+ la funzione generatrice dei momenti rispettivamente di X1, X2, and X1 + X2. 28. Prova che M(s, 0) = M1(s) 29. Prova che M(0, t) = M2( t) 30. Prova che M(t, t) = M+(t) 31. Prova che X1 e X2 sono indipendenti se e solo se M(s, t) = M1(s) M2( t) per (s, t) in un rettangolo attorno a (0, 0). Ovviamente tali risultati hanno omologhi nel caso multivariato generale. Solo la notazione si fa più complessa. 32. Supponi che (X, Y) sia distribuito uniformemente sul triangolo {(x, y): 0 < x < y < 1}. 1. 2. 3. 4. Trova la funzione generatrice dei momenti congiunta. Trova la funzione generatrice dei momenti di X. Trova la funzione generatrice dei momenti di Y. Trova la funzione generatrice dei momenti di X + Y. 33. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. 1. 2. 3. 4. Trova la funzione generatrice dei momenti congiunta. Trova la funzione generatrice dei momenti di X. Trova la funzione generatrice dei momenti di Y. Trova la funzione generatrice dei momenti di X + Y. Laboratorio virtuale > Valore atteso > 1 2 3 [4] 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect4.html (6 di 6) [22/11/2001 17.46.14] Valore atteso condizionato Laboratorio virtuale > Valore atteso > 1 2 3 4 [5] 6 7 5. Valore atteso condizionato Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori in un insieme S e che Y sia una variabile casuale a valori in un sottinsieme T di R. In questo paragrafo studieremo il valore atteso condizionato di Y dato X, un concetto di importanza fondamentale sia in probabilità che in statistica. Coma avremo modo di vedere, il valore atteso di Y dato X è la funzione di X che meglio approssima Y in media quadratica. Notiamo che, in generale, X sarà un vettore. Un'assunzione tecnica che facciamo è che tutte le variabili casuali che si presentano nel valore atteso abbiano momento secondo finito. La definizione elementare Notiamo che possiamo pensare (X, Y) come variabile casuale a valori nel sottinsieme S × T. Supponiamo in primo luogo che (X, Y) abbia distribuzione continua con funzione di densità f. Ricordiamo che la densità marginale g di X è data da g(x) = T f(x, y)dy per x S. e che la densità condizionata di Y dato X = x è data da h(y | x) = f(x, y) / g(x), per x S, y T. Infine, il valore atteso condizionato di Y dato X = x è semplicemente la media calcolata relativamente alla distribuzione condizionata: E(Y | X = x) = T y h(y | x)dy. Ovviamente, la media condizionata di Y dipende dal dato valore x di X. Per ora, sia u la funzione da S in R definita da u(x) = E(Y | X = x) per x S. La funzione u è detta a volte funzione di regressione. La variabile casuale u(X) è detta valore atteso condizionato di Y dato X ed è indicata con E(Y | X). La definizione generale La variabile casuale E(Y | X) soddisfa una porprietà fondamentale che la caratterizza tra tutte le funzioni di X. 1. Supponi che r sia una funzione da S in R. Usa il teorema del cambiamento di http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect5.html (1 di 9) [22/11/2001 17.46.18] Valore atteso condizionato variabie per il valore atteso per mostrare che E[r(X)E(Y | X)] = E[r(X)Y]. Il risultato dell'esercizio 1 varrebbe anche nel caso in cui (X, Y) avesse distribuzione congiunta discreta; la formula sarebbe la stessa, ma con le sommatorie al posto degli integrali. In realtà il risultato dell'esercizio 1 può essere utilizzato come definizione del valore atteso condizionato, indipendentemente dalla distribuzione congiunta di (X, Y). Quindi, in generale, si definisce E(Y | X) come la variabile casuale che soddisfa la condizione dell'esercizio 1 ed è della forma E(Y | X) = u(X) per qualche funzione u da S in R. Definiamo quindi E(Y | X = x) come u(x). Proprietà La prima conseguenza dell'esercizio 1 è una forma molto compatta ed elegante per la legge delle probabilità totali: 2. Prendendo r come la funzione costante a 1 nell'esercizio, prova che E[E(Y | X)] = E(Y). 3. Prova che, alla luce dell'esercizio 2, la condizione dell'esercizio 1 può essere riespressa come segue: per ogni funzione r da S in R, Y - E(Y | X) e r(X) sono incorrelati. Il prossimo esercizio prova che la condizione dell'esercizio 1 caratterizza E(Y | X). 4. Supponi che u(X) e v(X) soddisfino la condizione dell'esercizio 1 e quindi anche i risultati degli esercizi 2 e 3. Mostra che 1. var[u(X) - v(X)] = 0. 2. u(X) = v(X) (con probabilità 1). 5. Supponi che s sia una funzione da S in R. Usa la caratterizzazione dell'esercizio 1 per mostrare che E[s(X)Y | X] = s(X)E(Y | X). La regola seguente generalizza il risultato dell'esercizio 5 ed è detta a volte regola di sostituzione per il valore atteso condizionato. 6. Supponi che s sia una funzione da S × T in R. Prova che E[s(X, Y) | X = x] = E[s(x, Y) | X = x]. 7. Supponi che X e Y siano indipendenti. Usa la caratterizzazione dell'esercizio 1 per mostrare che E(Y | X) = E(Y). Usa la definizione generale per ricavare le proprietà degli esercizi seguenti, dove Y e Z http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect5.html (2 di 9) [22/11/2001 17.46.18] Valore atteso condizionato sono variabili casuali a valori reali. Nota che si tratta di proprietà omologhe a quelle del valore atteso ordinario 8. Prova che E(Y + Z | X) = E(Y | X) + E(Z | X). 9. Prova che E(cY | X) = cE(Y | X). 10. Prova che se Y 0 allora E(Y | X) 0. 11. Prova che se Y Z allora E(Y | X) E(Z | X). 12. Prova che |E(Y | X)| E(|Y| | X). Esercizi 13. Supponi che (X, Y) sia distribuito uniformemente sul quadrato R = {(x, y): -6 < x < 6, -6 < y < 6}. Trova E(Y | X). 14. Nell'esperimento bivariato uniforme, seleziona quadrato dal menu a tendina. Simula 2000 replicazioni, aggiornando ogni 10. Nota la relazione tra la nube di punti e il grafico della funzione di regressione. 15. Supponi che (X, Y) sia distribuito uniformemente sul triangolo R = {(x, y): -6 < y < x < 6}. Trova E(Y | X). 16. Nell'esperimento bivariato uniforme, seleziona triangolo dal menu a tendina. Simula 2000 replicazioni, aggiornando ogni 10. Nota la relazione tra la nube di punti e il grafico della funzione di regressione. 17. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova 1. E(Y | X) 2. E(X | Y) 18. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova 1. E(Y | X) 2. E(X | Y) 19. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Trova 1. E(Y | X) 2. E(X | Y) 20. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x2y per 0 < http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect5.html (3 di 9) [22/11/2001 17.46.18] Valore atteso condizionato x < y < 1. Trova 1. E(Y | X) 2. E(X | Y) 21. Si lanciano due dadi equilibrati e si registrano i punteggi (X1, X2). Sia Y = X1+ X2 la somma dei punteggi U = min{X1, X2} il punteggio minimo. Trova: 1. E(Y | X1) 2. E(U | X1) 3. E(Y | U) 4. E(X2| X1) 22. Supponi che X, Y e Z siano variabili casuali con E(Y | X) = X3, E(Z | X) = 1 / (1 + X2). Trova E[exp(X) Y - sin(X) Z | X]. Probabilità condizionata La probabilità condizionata di un evento A, dato un vettore casuale X, è un caso particolare del valore atteso condizionato. Definiamo P(A | X) = E(IA | X) dove IA è la variabile indicatore di A. Le proprietà presentate in precedenza relativamente al valore atteso condizionato hanno, ovviamente, omolghe specifiche per la probabilità condizionata. In particolare, l'esercizio seguente riporta una versione particolare della legge delle probabilità totali: 23. Prova che P(A) = E[P(A | X)]. 24. Una scatola contiene 10 monete, indicate con numeri da 0 a 9. La probabilità di testa per la moneta i è i / 9. Si estrae casualmente una moneta dalla scatola e la si lancia. Trova la probabilità che esca testa. Questo problema è un esempio della regola della successione di Laplace, Il miglior predittore I prossimi due esercizi mostrano che, tra tutte le funzioni di X, E(Y | X) è il miglior predittore di Y, nel senso che minimizza l'errore quadratico medio. Tale risultato è di importanza fondamentale nei problemi statistici in cui il vettore predittore X può essere osservato, mentre la variabile di risposta Y no. 25. Sia u(X) = E(Y | X) e sia v(X) ogni altra funzione di X. Aggiungendo e sottraendo u(X), espandendo e utilizzando il risultato dell'esercizio 3, mostra che E[(Y - v(X))2] = E[(Y - u(X))2] + E[(u(X) - v(X))2]. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect5.html (4 di 9) [22/11/2001 17.46.18] Valore atteso condizionato 26. Usa il risultato dell'ultimo esercizio per mostrare che, se v è funzione da S in R, allora E{[E(Y | X) - Y]2} E{[v(X) - Y)2] e l'uguaglianza vale se e solo se v(X) = E(Y | X) (con probabilità 1). Supponi che X sia a valori reali. Nel paragrafo su covarianza e correlazione, abbiamo visto che il miglior predittore lineare di Y da X è Y* = aX + b dove a = cov(X, Y) / var(X) e b = E(Y) - a E(X). D'altro canto, E(Y | X) è il miglior predittore di Y tra tutte le funzioni di X. Segue che, se E(Y | X) è funzione lineare di X, allora E(Y | X) deve coincidere con Y*. 27. Utilizzando le proprietà del valore atteso condizionato, dimostra direttamente che, se E(Y | X) = aX + b, Allora a e b sono quelle date nella definizione di Y*. 28. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. 1. Trova Y*, miglior predittore lineare di Y da X. 2. Trova E(Y | X) 3. Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse. 29. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1. 1. Trova Y*, miglior predittore lineare di Y da X. 2. Trova E(Y | X) 3. Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse. 30. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. 1. Trova Y*, miglior predittore lineare di Y da X. 2. Trova E(Y | X) 3. Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse. 31. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15x2y per 0 < x < y < 1. 1. Trova Y*, miglior predittore lineare di Y da X. 2. Trova E(Y | X) 3. Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse. L'errore quadratico medio del predittore E(Y | X) sarà studiato più avanti. Varianza condizionata La varianza condizionata di Y data X è naturalmente definita come segue: http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect5.html (5 di 9) [22/11/2001 17.46.18] Valore atteso condizionato var(Y | X) = E{[Y - E(Y | X)]2 | X}. 32. Mostra che var(Y | X) = E(Y2 | X) - [E(Y | X)]2. 33. Mostra che var(Y) = E[var(Y | X)] + var[E(Y | X)]. Torniamo allo studio dei predittori della variabile casuale a valori reali Y, e confronta i tre predittori che abbiamo analizzato in termini di errore quadratico medio. In primo luogo, il miglior predittore costante di Y è µ = E(Y), con errore quadratico medio var(Y) = E[(Y - µ)2]. Poi, se X è un'altra variabile casuale a valori reali, allora, come abbiamo mostrato nel paragrafo su covarianza e correlazione, il miglior predittore lineare di Y da X è Y* = E(Y) + [cov(X, Y) / var(X)][X - E(X)], con errore quadratico medio E[(Y - Y*)] = var(Y)[1 - cor2(X, Y)]. Infine, se X è una generica variabile casuale, allora, come abbiamo mostrato in questo paragrafo, il miglior predittore globale di Y da X è E(Y | X) con errore quadratico medio E[var(Y | X)] = var(Y) - var[E(Y | X)]. 34. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 28 trovando 1. var(Y) 2. var(Y)[1 - cor2(X, Y)] 3. var(Y) - var[E(Y | X)] 35. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1. Continua l'esercizio 29 trovando 1. var(Y) 2. var(Y)[1 - cor2(X, Y)] 3. var(Y) - var[E(Y | X)] 36. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 30 trovando 1. var(Y) 2. var(Y)[1 - cor2(X, Y)] 3. var(Y) - var[E(Y | X)] 37. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15x2y per 0 < x < 1, 0 < y < http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect5.html (6 di 9) [22/11/2001 17.46.18] Valore atteso condizionato 1. Continua l'esercizio 31 trovando 1. var(Y) 2. var(Y)[1 - cor2(X, Y)] 3. var(Y) - var[E(Y | X)] 38. Supponi che X sia distribuita uniformemente su (0, 1), e che, dato X, Y sia distribuita uniformemente su (0, X). Trova 1. E(Y | X) 2. var(Y | X) 3. var(Y) Somme casuali di variabili Supponiamo che X1, X2, ... siano variabili casuali a valori reali indipendenti e identicamente distribuite. Indichiamo le comuni media, varianza e funzione generatrice dei momenti come segue: a = E(Xi), b2 = var(Xi), M(t) = E[exp(tXi)]. Supponiamo inoltre che N sia una variabile casuale a valori in {0, 1, 2, ...}, indipendente da X1, X2, ... Indichiamo media, varianza e funzione generatrice dei momenti di N come segue: c = E(N), d2 = var(N), G(t) = E(tN). Definiamo ora Y = X1 + X2 + ··· + XN (dove Y = 0 se N = 0) Notiamo che Y è una somma casuale di variabili; i termini della somma e il numero di termini sono casuali. Questo tipo di variabile casuale si presenta in diversi contesti. Per esempio, N può rappresentare il numero di consumatori che entrano in un negozio in un certo periodo di tempo, e Xi il danaro speso dal consumatore i. 39. Prova che E(Y | N) = Na. 40. Prova che E(Y) = ca. 41. Prova che var(Y | N) = Nb2. 42. Prova che var(Y) = cb2 + a2d2. 43. Prova che E[exp(tY)] = G[M(t)]. 44. Nell'esperimento dado-moneta, si lancia un dado equilibrato e poi una moneta bilanciata il numero di volte indicato dal dado. Sia N il punteggio del dado e X il numero di teste. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect5.html (7 di 9) [22/11/2001 17.46.18] Valore atteso condizionato 1. 2. 3. 4. 5. Trova la distribuzione condizionata di X dato N. Trova E(X | N). Trova var(X | N). Trova E(X). Trova var(X). 45. Replica l'esperimento dado-moneta 1000 volte, aggiornando ogni 10. Osserva la convergenza di media e deviazione standard empiriche alle loro controparti teoriche. 46. Il numero di consumatori che entrano in un negozio in un'ora è una variabile casuale con media 20 e deviazione standard 3. Ciascun cliente, indipendentemente dagli altri, spende un'ammontare aleatorio di danaro con media 50$ e deviazione standard 5$. Trova media e devizione standard della quantità di danaro spesa nell'ora. Misture Supponiamo che X1, X2, ... siano variabili casuali a valori reali, e che N sia una variabile casuale a valori in {1, 2, ..., }, indipendente da X1, X2, ... Indichiamo medie, varianze e funzioni generatrici dei momenti come segue: µi = E(Xi), di2 = var(Xi), Mi(t) = E[exp(tXi)] per ogni i. Indica la funzione di densità di N come pi = P(N = i) for i = 1, 2, ... Definiamo ora una nuova variabile casuale X attraverso la condizione X = Xi se e solo se N = i. Ricordiamo che la distribuzione di X è una mistura delle distribuzioni di X1, X2, ... 47. Prova che E(X | N) = µN. 48. Prova che E(X) = i = 1, 2, ... pi µi. 49. Prova che var(X) = 50. Prova che E[exp(tY)] = i = 1, 2, ... pi (di2 + µi2) - ( i = 1, 2, ... pi 2 i = 1, 2, ... pi µi) . Mi(t). 51. Nell'esperimento moneta-dado, si lancia una moneta sbilanciata con probabilità di testa 1/3. Se esce croce, si lancia un dado equilibrato; se esce testa si lancia un dado piatto uno-sei (le facce 1 e 6 hanno probabilità 1/4 mentre le altre hanno probabilità 1/8). Trova media e deviazione standard del punteggio del dado. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect5.html (8 di 9) [22/11/2001 17.46.18] Valore atteso condizionato 52. Replica l'esperimento moneta-dado 1000 volte, aggiornando ogni 10. Osserva la convergenza di media e deviazione standard empiriche ai loro valori teorici. Proiezioni Ricordiamo che l'insieme di variabili casuali a valori reali su un dato spazio di probabilità (ovvero, per un dato esperimento casuale), con momento secondo finito, forma uno spazio vettoriale, con prodotto interno dato da <U, V> = E(UV). In questo contesto, supponiamo che Y sia una variabile casuale a valori reali e X una variabile casuale generica. Allora E(Y | X) è semplicemente la proiezione di Y sul sottospazio delle variabili casuali a valori reali che possono essere espresse in funzione di X. Laboratorio virtuale > Valore atteso > 1 2 3 4 [5] 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect5.html (9 di 9) [22/11/2001 17.46.18] Valore atteso e matrici di covarianza Laboratorio virtuale > Valore atteso > 1 2 3 4 5 [6] 7 6. Valore atteso e matrici di covarianza L'obiettivo principale di questo paragrafo è la trattazione dei valori attesi con argomento vettoriale e le matrici di varianza e covarianza. Tali argomenti sono particolarmente importanti per i modelli statistici multivariati e per la distribuzione normale multivariata. La lettura di qeusto paragrafo presuppone la conoscenza dei fondamenti dell'algebra lineare, a livello di un corso universitario. Indicheremo con Rm×n lo spazio di tutte le m × n matrici di numeri reali. In particolare, identificheremo Rn con Rn×1, per cui una nupla ordinata può essere pensata come vettore colonna n × 1. La trasposta di una matrice A è indicata come AT. Valore atteso di una matrice casuale Supponi che X sia una matrice m × n di variabili casuali a valori reali, il cui elemento i, j è indicato con Xij. Equivalentemente, X può essere visto come matrice casuale m × n. Viene naturale definire il valore atteso E(X) come la matrice m × n il cui elemento i, j è E(Xij), ovvero il valore atteso di Xij. Molte delle proprietà più importanti del valore atteso di variabili casuali hanno proprietà omologhe nel caso dei vettori casuali, con le operazioni matriciali al posto di quelle algebriche. 1. Prova che E(X + Y) = E(X) + E(Y) se X e Y sono matrici casuali m × n. 2. Prova che E(AX) = AE(X) se A è una matrice m × n non casuale e X è una matrice casuale n × k. 3. Prova che E(XY) = E(X)E(Y) se X è una matrice casuale m × n, Y è una matrice casuale n × k e X e Y sono indipendenti. Matrici di covarianza Supponiamo ora che X sia un vettore casuale appartenente a Rm e Y sia un vettore casuale appartenente a Rn. La matrice di covarianza di X e Y è la matrice m × n cov(X, Y) il cui elemento i, j è cov(Xi, Yj), cioè la covarianza di Xi e Yj. 4. Mostra che cov(X, Y) = E{[X - E(X)][Y - E(Y)]T} 5. Mostra che cov(X, Y) = E(XYT) - E(X)E(Y)T. 6. Mostra che cov(Y, X) = cov(X, Y)T. 7. Mostra che cov(X, Y) = 0 se ciascun elemento di X è incorrelato con ciascun elemento di Y (in particolare, se X e Y sono indipendenti). http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect6.html (1 di 3) [22/11/2001 17.46.20] Valore atteso e matrici di covarianza 8. Mostra che cov(X + Y, Z) = cov(X, Z) + cov(Y, Z) se X e Y sono vettori casuali appartenente a Rm e Z è un vettore casuale appartenente a Rn. 9. Mostra che cov(X, Y + Z) = cov(X, Y) + cov(X, Z) se X è un vettore casuale appartenente a Rm e Y, Z sono vettori casuali appartenenti a Rn. 10. Prova che cov(AX, Y) = A cov(X, Y) se X è un vettore casuale appartenente a Rm, Y è un vettore casuale appartenente a Rn e A è una matrice k × m non casuale. 11. Prova che cov(X, AY) = cov(X, Y)AT se X è un vettore casuale appartenente a Rm, Y è un vettore casuale appartenente a Rn e A è una matrice k × n non casuale. Matrici di varianza e covarianza Supponiamo ora che X = (X1, X2, ..., Xn) sia un vettore casuale appartenente a Rn. La matrice di covarianza di X con se stessa è detta matrice di varianza e covarianza di X: VC(X) = cov(X, X). 12. Mostra che VC(X) è una matrice n × n simmetrica con var(X1), ..., var(Xn) sulla diagonale. 13. Dimostra che VC(X + Y) = VC(X) + cov(X, Y) + cov(Y, X) + VC(X) se X and Y sono vettori casuali appartenenti a Rn. 14. Mostra che VC(AX) = A VC(X) AT se X è un vettore casuale appartenente a Rn e A è una matrice m × n non casuale. Se a appartiene a Rn, notiamo che aTX è combinazione lineare delle coordinate di X: aTX = a1X1 + a2X2 + ··· + anXn. 15. Prova che var(aTX) = aT VC(X) a se X è un vettore casuale appartenente a Rn e a appartiene a Rn. Concludiamo quindi che VC(X) è positiva definita o semi positiva definita. In particolare, gli autovalori e il determinante di VC(X) sono nonnegativi. 16. Prova che VC(X) è semidefinita positiva (ma non positiva definita) se e solo se esistono a1, a2, ..., an, c in R tali che a1X1 + a2X2 + ··· + anXn = c (con probabilità 1). Pertanto, se VC(X) è semidefinita positiva, allora una delle coordinate di X può essere scritta come trasformazione affine delle altre coordinate (e quindi può di solito essere eliminata nel modello sottostante). Al contrario, se VC(X) è definita positiva, allora ciò non può verificarsi; VC(X) ha autovalori positivi e determinante ed è invertibile. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect6.html (2 di 3) [22/11/2001 17.46.20] Valore atteso e matrici di covarianza Esercizi numerici 17. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y for 0 < x < 1, 0 < y < 1. Trova 1. E(X, Y) 2. VC(X, Y). 18. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova 1. E(X, Y) 2. VC(X, Y). 19. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Trova 1. E(X, Y) 2. VC(X, Y). 20. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15x2y per 0 < x < y < 1. Trova 1. E(X, Y) 2. VC(X, Y). 21. Supponi che (X, Y, Z) sia distribuita uniformemente sulla regione {(x, y, z): 0 < x < y < z < 1}. Trova 1. E(X, Y, Z) 2. VC(X, Y, Z) 22. Supponi che X sia distribuita uniformemente su (0, 1), e che, dato X, Y sia distribuita uniformemente su (0, X). Trova 1. E(X, Y) 2. VC(X, Y) Laboratorio virtuale > Valore atteso > 1 2 3 4 5 [6] 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect6.html (3 di 3) [22/11/2001 17.46.20] Note conclusive Laboratorio virtuale > Valore atteso > 1 2 3 4 5 6 [7] 7. Note conclusive Libri Questo capitolo copre argomenti fondamentali che sono trattati, a vari livelli di approfondimento, in ogni libro di probabilità. ● An Introduction to Probability Theory and its Applications, Volume 1 (terza edizione) di William Feller è considerato uno dei migliori testi sulla probabilità mai scritti. ● Un testo eccellente per la probabilità elementare ricco di esempi ed esercizi è A First Course in Probability (quinta edizione) di Sheldon Ross ● Una trattazione sintetica della probabilità elementare si ha in The Essentials of Probability di Richard Durrett ● Per una trattazione più completa dal punto di vista della misura della probabilità, puoi vedere Probability and Measure, di Patrick Billingsley. ● Una trattazione della storia della probabilità è in Games, Gods and Gambling, di Florence David Siti esterni ● Il sito più importante per informazioni storiche sulla probabilità è History of Mathematics. Risposte agli esercizi del paragrafo 1 1.4. Sia X il punteggio. E(X) = 7/2. 1.6. Sia X il punteggio. E(X) = 7/2. 1.7. E(X) = 3/5. 1.21. Sia Y = X2. 1. g(y) = (1/4)y -1/2 per 0 < y < 1, g(y) = (1/8)y -1/2 per 1 < y < 9. 2. E(Y) = 7/3. 3. E(Y) = 7/3. 1.22. Sia Y = X2. 1. E(X) = 18 / 5 2. y 1 4 9 16 25 P(Y = y) 1/30 2/15 3/20 4/15 5/12 http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect7.html (1 di 9) [22/11/2001 17.46.24] Note conclusive 3. E(Y) = 83 / 5 4. E(Y) = 83 / 5 1.23. 1. E(1/X) = 2 2. E(X1/2) = 48 / 63 1.24. 1. E(X) = 5 / 12 2. E(Y) = 3 / 4 3. E(X2Y) = 7 / 36 4. E(X2 + Y2) = 5 / 6. 1.32. 1. E(Y) = 7 2. E(Z) = 49 / 4 3. E(U) = 101 / 36 4. E(V) = 19 / 4 1.33. E(3X + 4Y - 7) = 0 1.34. E[(3X - 4)(2Y + 7)] = 33 1.35. Sia N il numero di anatre uccise. E(N) = 10[1 - (9/10)5] = 4.095 1.36. E(Xn) = (bn + 1 - an + 1) / [(n + 1)(b - a)] 1.37. E(Xn) = 12[1 / (n + 3) - 1 / (n + 4)] 1.44. 1. E(X) = 1 / r 3. exp(-rt) < 1 / rt per t > 0 1.45. 1. E(Y) = 1 / p 3. (1 - p)n - 1 < 1 / np per n = 1, 2, ... 1.50. 1. E(X) = a / (a - 1) 2. E(1/X) = a / (a + 1) 4. a / (a + 1) > (a - 1) / a http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect7.html (2 di 9) [22/11/2001 17.46.24] Note conclusive 1.53. 1. E(X2 + Y2) = 5 / 6 2. [E(X)]2 + [E(Y)]2 = 53 / 72 1.54. E(X | X > t) = t + 1 / r. 1.56. E(Y | Y è pari) = 2(1 - p)2 / [p(2 - p)3] 1.57. E(XY | Y > X) = 1/3. Risposte agli esercizi del paragrafo 2 2.9. Sia X il punteggio del dado. 1. E(X) = 7/2 2. var(X) = 35/12 3. sd(X) ~ 1.708 2.11. Sia X il punteggio del dado. 1. E(X) = 7/2 2. var(X) = 15/4 3. sd(X) ~ 1.936 2.22. 1. var(3X - 2) = 36 2. E(X2) = 29 2.24. z = 8.53. 2.27. E(Y) = 4/3, sd(Y) = 2/3, k = 2 1. P[|Y - E(Y)| k sd(Y)] = 1/16. 2. 1 / k2 = 1/4 2.28. E(X) = 1 / r, sd(Y) = 1 / r. 1. P[|X - E(X)| k sd(Y)] = exp[-(k + 1)] 2. 1 / k2. 2.32. 1. E(X) = 1/2, var(X) = 1/20, skew(X) = 0, kurt(X) = 15/7 2. E(X) = 3/5, var(X) = 1/25, skew(X) = -2/7, kurt(X) = 33/14 3. E(X) = 2/5, var(X) = 1/25, skew(X) = 02/7, kurt(X) = 33/14 2.38. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect7.html (3 di 9) [22/11/2001 17.46.24] Note conclusive 1. ||X||k = 1 / (k + 1)1/k. 3. 1 2.39. 1. ||X||k = [a / (a - k)]1/k se k < a, ||X||k = se k a. 3. 2.40. 1. ||X + Y||k = [(2k+3 - 2) / (k + 3)(k + 2)]1/k. 2. ||X||k + ||Y||k = 2[1 / (k + 2) + 1 / 2(k + 1)]1/k. 2.48. 1. Per p < 1/2, il minimo di E[|I - t|] è p e si ha per t = 0. 2. Per p = 1/2, il minimo di E[|I - t|] è 1/2 e si ha per t in [0, 1]. 3. Per p > 1/2, il minimo di E[|I - t|] è 1 - p e si ha a t = 1. Risposte agli esercizi del paragrafo 3 3.14. 1. cov(X1, X2) = 0, cor(X1, X2) = 0 2. cov(X1, Y) = 35 / 12, cor(X1, Y) = 2-1/2 ~ 0.7071. 3. cov(X1, U) = 35 / 24, cor(X1, U) ~ 0.6082 4. cov(U, V) = 1369 / 1296, cor(U, V) = 1369 / 2555 ~ 0.5358 5. cov(U, Y) = 35 / 12, cor(U, Y) = 0.8601 3.15. cov(2X - 5, 4Y + 2) = 24. 3.16. 1. cov(X, Y) = -1 / 144. 2. cor(X, Y) = -1 / 11 ~ 0.0909 3.17. 1. cov(X, Y) = 1 / 48. 2. cor(X, Y) ~ 0.4402 3.18. 1. cov(X, Y) = 0. 2. cor(X, Y) = 0. 3.19. 1. cov(X, Y) = 5 / 336 http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect7.html (4 di 9) [22/11/2001 17.46.24] Note conclusive 2. cor(X, Y) ~ 0.0.5423 3.24. var(2X + 3Y - 7) = 83 3.25. var(3X - 4Y + 5) = 182 3.27. Sia Y la somma dei punteggi dei dadi. 1. E(Y) = 7n / 2. 2. var(Y) = 35n / 12. 3.32. 1. cov(A, B) = 1 / 24. 2. cor(A, B) ~ 0.1768. 3.33. 1. Y* = (7 - X) / 11 2. X* = (7 - Y) / 11 3. cor2(X, Y) = 1 / 121 = 0.0083 3.40. 1. Y* = (26 + 15X) / 43 2. X* = 5Y / 9 3. cor2(X, Y) = 25 / 129 ~ 0.1938 3.41. 1. Y* = 2 / 3 2. X* = 3 / 4 3. cor2(X, Y) = 0 3.42. 1. Y* = (30 + 20X) / 51 2. X* = 3Y / 4 3. cor2(X, Y) = 5 / 17 ~ 0.2941 3.43. 1. Y* = 7 / 2 + X1. 2. U* = 7 / 9 + X1 / 2. 3. V* = 49 / 19 + X1 / 2. 3.53. <X, Y> = 1/3 1. ||X||2 ||Y||2 = 5 / 12. 2. ||X||3 ||Y||3/2 ~ 0.4248. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect7.html (5 di 9) [22/11/2001 17.46.24] Note conclusive Risposte agli esercizi del paragrafo 4 4.32. 1. M(s, t) = 2[exp(s + t) - 1] / [s(s + t)] - 2[exp(t) - 1] / (st) per s, t 2. MX(s) = 2[exp(s) / s2 - 1 / s2 - 1 / s] per s 3. MY(t) = 2[t exp(t) - exp(t) + 1] / t2 per t 0 0. 0. 4. MX + Y(t) = [exp(2t) - 1] / t2 - 2[exp(t) - 1] / t2 per t 0. 4.33. 1. M(s, t) = {exp(s + t)[-2st + s + t] + exp(t)[st - s - t] + exp(s)[st - s - t] + s + t} / (s2 t2) per s, t 0. 2. MX(s) = [3s exp(s) - 2 exp(s) - s + 2] / (2s2) per s 3. MY(t) = [3t exp(t) - 2 exp(t) - t + 2] / (2t2) per t 0. 0. 4. MX + Y(t) = 2[exp(2t) (-t + 1) + exp(t)(t - 2) + 1] / t3 per t Risposte agli esercizi del paragrafo 5 5.13. E(Y | X) = 0. 5.15. E(Y | X) = (X + 6) / 2. 5.17. 1. E(Y | X) = (3X + 2) / (6X + 3) 2. E(X | Y) = (3Y + 2) / (6Y + 3) 5.18. 1. E(Y | X) = (5X2 + 5X + 2) / (9X + 3) 2. E(X | Y) = 5Y / 9 5.19. 1. E(Y | X) = 2 / 3. 2. E(X | Y) = 3 / 4. 5.20. 1. E(Y | X) = 2(X2 + X + 1) / 3(X + 1) 2. E(X | Y) = 3Y / 4. 5.21. 1. E(Y | X1) = 7 / 2 + X1. 2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect7.html (6 di 9) [22/11/2001 17.46.24] 0. Note conclusive x 12 3 45 6 E(U | X1 = x) 1 11/6 5/2 3 10/3 7/2 3. u 1 2 3 4 5 6 E(Y | U = u) 52/11 56/9 54/7 46/5 32/3 12 4. E(X2 | X1) = 7/2 5.22. E[exp(X) Y - sin(X) Z | X] = X3 exp(X) - sin(X) / (1 + X2) 5.24. P(H) = 1/2 5.28. 1. Y* = (7 - X) / 11. 2. E(Y | X) = (3X + 2) / (6X + 3) 5.29. 1. Y* = (26 + 15X) / 43 2. E(Y | X) = (5X2 + 5X + 2) / (9X + 3) 5.30. 1. Y* = 2 / 3 2. E(Y | X) = 2 / 3. 5.31. 1. Y* = (30 + 20X) / 51 2. E(Y | X) = 2(X2 + X + 1) / 3(X + 1) 5.34. 1. var(Y) = 11 / 144 ~ 0.0764. 2. var(Y)[1 - cor2(X, Y)] = 5 / 66 ~ 0.0758. 3. var(Y) - var[E(Y | X)] = 1 / 12 - ln(3) / 144 ~ 0.0757 5.35. 1. var(Y) = 3 / 80 ~ 0.0375 2. var(Y)[1 - cor2(X, Y)] = 13 / 430 ~ 0.0302 3. var(Y) - var[E(Y | X)] = 1837 / 21870 - 512 ln(2) / 6561 ~ 0.0299 5.36. 1. var(Y) = 1 / 18 2. var(Y)[1 - cor2(X, Y)] = 1 / 18 3. var(Y) - var[E(Y | X)] = 1 / 18 5.37. http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect7.html (7 di 9) [22/11/2001 17.46.24] Note conclusive 1. var(Y) = 5 / 252 ~ 0.0198 2. var(Y)[1 - cor2(X, Y)] = 5 / 357 ~ 0.0140 3. var(Y) - var[E(Y | X)] = 292 / 63 - 20 ln(2) / 3 ~ 0.0139 5.38. 1. E(Y | X) = X / 2. 2. var(Y | X) = X2 / 12. 3. var(Y) = 7 / 144. 5.44. 1. Dato N, X ha distribuzione binomiale con parametri N e p = 1/2. 2. E(X | N) = N / 2. 3. var(X | N) = N / 4. 4. E(X) = 7 / 4 5. var(X) = 7 / 3. 5.46. Sia Y la quantità di denaro spesa durante l'ora. 1. E(Y) = $1000 2. sd(Y) ~ $30.822 5.51. Sia X il punteggio del dado 1. E(X) = 7 / 2. 2. var(X) = 1.8634 Risposte agli esercizi del paragrafo 6 6.17. 1. 7 / 12 E(X, Y) 7 / 12 2. 11 / 144 -1 / 144 VC(X, Y) -1 / 144 11 / 144 6.18. 1. 5 / 12 E(X, Y) 3/4 2. 43 / 720 1 / 48 VC(X, Y) 1 / 48 3 / 80 6.19. 1. 3/4 E(X, Y) 2/3 2. 3 / 80 0 http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect7.html (8 di 9) [22/11/2001 17.46.24] Note conclusive VC(X, Y) = 0 1 / 18 6.20. 1. 5/8 E(X, Y) 5/6 2. 17 / 448 5 / 336 VC(X, Y) 5 / 336 5 / 252 6.21. 1. 1/4 E(X, Y, Z) 1 / 2 3/4 2. 3 / 80 1 / 40 1 / 80 VC(X, Y, Z) 1 / 40 1 / 20 1 / 40 1 / 80 1 / 40 3 / 80 6.22. 1. 1/2 E(X, Y) 1/4 2. 1 / 12 1 / 24 VC(X, Y) 1 / 24 7 / 144 Laboratorio virtuale > Valore atteso > 1 2 3 4 5 6 [7] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/expect/expect7.html (9 di 9) [22/11/2001 17.46.24] Distribuzioni discrete Laboratorio virtuale > Distribuzioni > [1] 2 3 4 5 6 7 8 9 1. Distribuzioni discrete Densità discrete Supponiamo di avere un esperimento casuale con spazio campionario R e misura di probabilità P. Una variabile casuale X relativa all'esperimento che assume valori in un insieme numerabile S si dice avere distribuzione discreta. La funzione di densità di probabilità (discreta) di X è la funzione f da S su R definita da f(x) = P(X = x) per x appartenente a S. 1. Dimostra che f soddisfa le seguenti proprietà: 1. f(x) 0 per x in S. 2. x in S f(x) = 1 3. x in A f(x) = P(X A) per A S. La proprietà (c) è particolarmente importante, poiché mostra che la distribuzione di probabilità di una variabile casuale discreta è completamente individuata dalla sua funzione di densità. Di converso, ogni funzione che soddisfa le proprietà (a) e (b) è una funzione di densità (discreta), per cui la proprietà (c) può essere utilizzata per costruire una distribuzione di probabilità su S. Tecnicamente, f è la densità di X relativa alla misura di conteggio su S. Normalmente, S è un sottinsieme nunmerabile di qualche insieme più grande, come Rn per qualche n. Possiamo sempre estendere f, se vogliamo, all'insieme più grande definendo f(x) = 0 per x non appartenente a S. A volte questa estensione semplifca le formule e la notazione. Un elemento x di S che massimizza la densità f è detto moda della distribuzione. Quando la moda è unica, la si usa a volte come centro della distribuzione. Interpretazione Una distribuzione di probabilità discreta è equivalente a una distribuzione di massa discreta, con massa totale 1. In questa analogia S è l'insieme (numerabile) dei punti di massa, e f(x) è la massa del punto a x appartenente a S. La proprietà (c) dell'esercizio 1 significa semplicemente che la massa di un insieme A può essere trovata sommando le masse dei punti di A. Per un'interpretazione probabilistica, supponiamo di creare un nuovo esperimento composto ripetendo all'infinito l'esperimento originale. Nell'esperimento composto, http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist1.html (1 di 8) [22/11/2001 17.46.29] Distribuzioni discrete abbiamo delle variabili casuali indipendenti X1, X2, ..., ciascuna distribuita come X (si tratta di " copie indipendenti" di X). Per ciascun x appartenente a S, sia fn(x) = #{i {1, 2, ..., n}: Xi = x} / n, la frequenza relativa di x nelle prime n replicazioni (il numero di volte in cui x si è verificato diviso per n). Nota che per ogni x, fn(x) è una variabile casuale dell'esperimento composto. Per la legge dei grandi numeri, fn(x) deve convergere a f(x) al crescere di n. La funzione fn è detta funzione di densità empirica; queste funzioni sono visualizzate in molte delle applet di simulazione che trattano di variabili discrete. Esempi 2. Supponi di lanciare due dadi equilibrati e di registrare la sequenza di punteggi (X1, X2). Trova la funzione di densità di 1. (X1, X2) 2. Y = X1 + X2, somma dei punteggi 3. U = min{X1, X2}, punteggio minimo 4. V = max{X1, X2}, punteggio massimo 5. (U, V) 3. Nell'esperimento dei dadi, poni n = 2 dadi equilibrati. Seleziona le seguenti variabili casuali e osserva la forma e la posizione della funzione di densità. Simula 1000 replicazioni, aggiornando ogni 10. Per ciascuna delle variabili, osserva la convergenza della funzione di densità empirica alla funzione di densità. 1. Somma dei punteggi. 2. Punteggio minimo. 3. Punteggio massimo. 4. Si estrae a caso un elemento X da un insieme finito S. 1. Dimostra che X ha funzione di densità di probabilità f(x) = 1 / #(S) per x appartenente a S. 2. Prova che P(X A) = #(A) / #(S) per A S. La distribuzione dell'esercizio precedente è detta distribuzione discreta uniforme su S. Molte variabili che si presentano negli esperimenti di campionameto o combinatori sono trasformazioni di variabili con distribuzione uniforme. 5. Supponi di estrarre a caso e senza reinserimento n elementi da un insieme D con N elementi. Sia X la sequenza ordinata di elementi scelti. Spiega perché X è distribuita uniformemente sull'insieme S delle permutazioni di dimensione n scelte da D: P(X = x) = 1 / (N)n per ogni x appartenente a S. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist1.html (2 di 8) [22/11/2001 17.46.29] Distribuzioni discrete 6. Supponi di estrarre, senza reinserimento, n elementi da un insieme D con N elementi. Sia W l'insieme non ordinato degli elementi selezionati. Mostra che W è distribuito uniformemente sull'insieme T delle combinazioni di dimensioni n scelte da D: P(W = w) = 1 / C(N, n) per w appartenente a T. 7. Un'urna contiene N palline; R sono rosse e N - R verdi. Si estrae un campione di n palline (senza reinserimento). Sia Y il numero di palline rosse del campione. Prova che Y ha funzione di densità di probabilità. P(Y = k) = C(R, k) C(N - R, n - k) / C(N, n) per k = 0, 1, ..., n. La distribuzione definita dalla funzione di densità dell'esercizio precedente è detta distribuzione ipergeometrica con parametri N, R e n. La distribuzione ipergeometrica è studiata in dettaglio nel capitolo sui modelli di campionamento finiti, che contiene un'ampia varietà di distribuzioni basate sulla distribuzione uniforme discreta. 8. Un'urna contiene 30 palline rosse e 20 verdi. Si estrae a caso un campione di 5 palline. Sia Y il numero di palline rosse del campione. 1. Calcola esplicitamente la funzione di densità di Y. 2. Disegna il grafico della funzione di densità e identifica la moda (o le mode). 3. Trova P(Y > 3). 9. Nell'esperimento della pallina e dell'urna, seleziona il campionamento senza reinserimento. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della funzione di densità empirica di Y alla funzione di densità teorica. 10. Una moneta con probabilità di testa p viene lanciata n volte. Per j = 1, ..., n, sia Ij = 1 se il lancio j-esimo è testa e Ij = 0 se il lancio j-esimo è croce. Mostra che (I1, I2, ..., In) ha funzione di densità di probabilità f(i1, i2, ..., in) = pk(1 - p)n - k per ij appartenente a {0, 1} per ogni j, dove k = i1 + i2 + ··· + in. 11. Una moneta con probabilità di testa p viene lanciata n volte. Sia X il numero di teste. Prova che X ha funzione di densità di probabilità P(X = k) = C(n, k) pk (1 - p)n - k per k = 0, 1, ..., n. La distribuzione definita dalla densità dell'esercizio precedente è detta distribuzione binomiale con parametri n e p. La distribuzione binomiale è analizzata in dettaglio nel capitolo sulle prove Bernoulliane. 12. Supponi di lanciare 5 volte una moneta con probabilità di testa p = 0.4. Sia X il numero di teste. 1. Calcola esplicitamente la funzione di densità X. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist1.html (3 di 8) [22/11/2001 17.46.29] Distribuzioni discrete 2. Disegna il grafico della funzione di densità e trova la moda. 3. Trova P(X > 3). 13. Nell'esperimento della moneta, poni n = 5 e p = 0.4. Simula 1000 replicazione, aggiornando ogni 10, e osserva la convergenza della funzione di densità empirica di X alla funzione di densità. 14. Sia ft(n) = exp(-t) tn / n! per n = 0, 1, 2, ..., dove t > 0 è un parametro. 1. Prova che ft è una funzione di densità di probabilità per ogni t > 0. 2. Prova che ft(n) > ft(n - 1) se e solo se n < t. 3. Prova che la moda è a floor(t) se t non è intero, e a t - e t se t è intero. La distribuzione definita dalla densità dell'esercizio precedente è la distribuzione di Poisson con parametro t, che prende il nome da Simeon Poisson. La distribuzione di Poisson è analizzata in dettaglio nel capitolo sui processi di Poisson, e si utilizza per modellare il numero di "punti casuali" in una regione di tempo o di spazio. Il parametro t è proporzionale alla dimensione della regione di tempo o spazio. 15. Supponi che il numero di errori di battitura N di una pagina web abbia distribuzione di Poisson con parametro 2.5. 1. Trova la moda. 2. Trova P(N > 4). 16. Nel processo di Poisson, seleziona come parametro 2.5. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica. 17. Nell'esperimento dado-moneta, si lancia un dado equilibrato e poi si lancia una moneta bilanciata il numero di volte indicato dal dado. Sia I la sequenza di esiti della moneta (0 croce, 1 testa). Trova la densità di I (nota che I assume valori in un insieme di sequenze di lunghezza variabile). La costruzione delle densità 18. Supponi che g sia una funzione non negativa definita su un insieme numerabile S e che c= x in S g(x). Mostra che se c è positivo e finito, allora f(x) = g(x) / c per x appartenente a S definisce una funzione di densità discreta su S. La costante c dell'esercizio precedente è detta a volte costante di normalizzazione. Questo risultato è utile per costruire funzioni di densità con le proprietà funzionali desiderate (dominio, forma, simmetria, e così via). http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist1.html (4 di 8) [22/11/2001 17.46.29] Distribuzioni discrete 19. Sia g(x) = x2 per x appartenente a {-2, -1, 0, 1, 2}. 1. Trova la funzione di densità di probabilità f proporzionale a g. 2. Disegna il grafico della funzione di densità e identifica le mode. 3. Trova P(X {-1, 1, 2}) dove X è una variabile casuale con la densità riportata in (a). 20. Sia g(n) = qn per n = 0, 1, 2, ... dove q è un parametro nell'intervallo (0,1). 1. Trova la funzione di densità di probabilità f proporzionale a g. 2. Trova P(X < 2) dove X è una variabile casuale con la densità riportata in (a). 3. Trova la probabilità che X sia pari. La distribuzione costruita nell'esercizio precedente è una versione della distribuzione geometrica, ed è studiata in dettaglio nel capitolo sulle prove Bernoulliane. 21. Sia g(x, y) = x + y per (x, y) {0, 1, 2}2. 1. Trova la funzione di densità di probabilità f proporzionale a g. 2. Trova la moda della distribuzione. 3. Trova P(X > Y) dove (X, Y) è un vettore aleatorio con la densità di (a). 22. Sia g(x, y) = xy per (x, y) {(1, 1), (1, 2), (1, 3), (2, 2), (2, 3), (3, 3)}. 1. Trova la funzione di densità di probabilità f proporzionale a g. 2. Trova la moda della distribuzione. 3. Trova P([(X, Y) {(1, 2), (1, 3), (2, 2), (2, 3)}] dove (X, Y) è un vettore aleatorio con la densità di (a). Densità condizionate La funzione di densità di una variabile casuale X si basa, ovviamente, sulla misura di probabilità sottostante P sullo spazio campionario R dell'esperimento. Questa misura può esere una misura di probabilità condizionata, dato un certo evento E (con P(E) > 0). La notazione consueta è f(x | E) = P(X = x | E) per x appartenente a S. L'esercizio seguente mostra che, a parte la notazione, non si tratta di concetti nuovi. Quindi, tutti i risultati che valgono per le densità in generale hanno risultati analoghi per le densità condizionate. 23. Mostra che, come funzione di x per dato E, f(x | E) è una funzione di densità discreta. Mostra cioè che soddisfa le proprietà (a) e (b) dell'esercizio 2, e che la proprietà (c) diventa P(X A | E) = x in A f(x | E) per A S. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist1.html (5 di 8) [22/11/2001 17.46.29] Distribuzioni discrete 24. Supponi che B S e P(X B) > 0. Mostra che la densità condizionata di X dato X Bè 1. f(x | X B) = f(x) / P(X B) per x B. 2. f(x | X B) = 0 se x Bc. 25. Supponi che X sia distribuita uniformemente su un insieme finito S e che B sia un sottinsieme non vuoto di S. Prova che la distribuzione condizionata di X dato X B è uniforme su B. 26. Supponi che X abbia funzione di densità di probabilità f(x) = x2 / 10 per x = -2, -1, 0, 1, 2. Trova la densità condizionata di X dato X > 0. 27. Si lanciano due dadi equilibrati. Sia Y la somma dei punteggi e U il punteggio minimo. Trova la densità condizionata di U dato Y = 8. 28. Replica 200 volte l'esperimento dei dadi, aggiornando ogni volta. Calcola la densità empirica condizionata di U dato Y = 8 e confrontala con la densità condizionata dell'ultimo esercizio. La legge delle probabilità totali e il teorema di Bayes Supponi che X sia una variabile casuale discreta a valori in un insieme numerabile S, e che B sia un evento dell'esperimento (ovvero, un sottinsieme dello spazio campionario sottostante R). 29. Prova la legge delle probabilità totali: P(B) = x in S P(X = x) P(B | X = x). Questo risultato è utile, ovviamente, quando la distribuzione di X e la probabilità condizionata di B dati i valori di X sono noti. A volte si dice condizionare a X. 30. Prova il teorema di Bayes, chiamato così in onore di Thomas Bayes: P(X = x | B) = P(X = x) P(B | X = x) / S. y in S P(X = y) P(B | X = y) per x appartenente a Il teorema di Bayes è una formula per calcolare la densità condizionata di X dato B. Così come per la legge delle probabilità totali, è utile quando le quantità al membro di destra sono note. La distribuzione (non condizionata) di X si dice distribuzione a priori e la densità condizionata come distribuzione a posteriori. 31. Nell'esperimento dado-moneta, si lancia un dado equilibrato e poi si lancia una moneta bilanciata il numero di volte indicato dal dado http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist1.html (6 di 8) [22/11/2001 17.46.29] Distribuzioni discrete 1. Trova la probabilità di avere esattamente due teste. 2. Sapendo che sono uscite due teste, trova la densità condizionata del punteggio del dado. 32. Replica l'esperimento dado-moneta 200 volte, aggiornando ogni volta. 1. Calcola la probabilità empirica di avere esattamente due teste e confrontala con la probabilità dell'esercizio precedente. 2. Calcolca la densità condizionata empirica del punteggio del dado sapendo che sono uscite esattamente due teste e confrontalo con la densità condizionata teorica dell'esercizio precedente. 33. Supponi che un sacchetto contenga 12 monete: 5 bilanciate, 4 sbilanciate con probabilità di testa 1/3 e 3 a due teste. Si sceglie a caso una moneta e la si lancia due volte. 1. Trova la probabilità di avere esattamente due teste. 2. Sapendo che sono uscite due teste, trova la densità condizionata del tipo di moneta. Confronta gli esercizi 31 e 33. Nell'esercizio 31, si lancia una moneta con probabilità di testa data un numero casuale di volte. Nell'esercizio 33, si lancia una moneta con probabilità casuale di testa un numero dato di volte. 34. Nell'esperimento moneta-dado, si lancia una moneta equilibrata. Se esce croce, si lancia un dado equilibrato. Se esce testa, si lancia un dado piatto uno-sei (1 e 6 hanno probabilità 1/4, mentre 2, 3, 4 e 5 hanno probabilità 1/8). Trova la funzione di densità del punteggio del dado. 35. Replica l'esperimento moneta-dado 1000 volte, aggiornando ogni 10. confronta la densità empirica del punteggio del dado con la densità teorica dell'esercizio precedente. 36. Una fabbrica ha 3 linee produttive per dei chip di memoria. La linea 1 produce il 50% dei chip, di cui il 4% sono difettosi, la linea 2 il 30% dei chip, di cui il 5% sono difettosi, e la linea 3 il 20% dei chip, di cui l'1% sono difettosi. Si sceglie un chip a caso. 1. Trova la probabilità che il chip sia difettoso. 2. Sapendo che il chip è difettoso, trova la densità condizionata della linea produttiva da cui il chip è uscito. Esercizi numerici 37. Sui dati M&Ms, sia R il numero di pastiglie rosse e N il numero totale di pastiglie. Calcola e disegna le densità empiriche di 1. R 2. N 3. R dato N > 57. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist1.html (7 di 8) [22/11/2001 17.46.29] Distribuzioni discrete 38. Nei dati sulla cicala, sia G il sesso, S la specie e W il peso corporeo (in grammi). Calcola la densità empirica di 1. G 2. S 3. (G, S) 4. G dato W > 0.20 grammi. Laboratorio virtuale > Distribuzioni > [1] 2 3 4 5 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist1.html (8 di 8) [22/11/2001 17.46.29] Distribuzioni continue Laboratorio virtuale > Distribuzioni > 1 [2] 3 4 5 6 7 8 9 2. Distribuzioni continue Distribuzioni continue Al solito, supponiamo di avere un esperimento casuale con spazio campionario R e misura di probabilità P. Una variabile casuale X a valori in un sottinsieme S di Rn si dice avere distribuzione continua se P(X = x) = 0 per ogni x appartenente a S. Il fatto che X assuma ogni singolo valore con probabilità 0 può sembrare paradossale in prima battuta, ma non è concettualmente diverso dall'affermare che un intervallo di R può avere lunghezza positiva anche se è composto da punti che hanno tutti lunghezza 0. Similmente, una regione di R2 può avere area positiva anche se composta di punti (o curve) che hanno tutti area 0. 1. Mostra che,se C è un sottinsieme numerabile di S, allora P(X C) = 0. Quindi, le distribuzioni continue sono diverse dalle distribuzioni discrete, per le quali tutta la massa di probabilità è concentrata su un insieme discreto. Per una distribuzione continua, la massa di probabilità è ripartita in senso continuo su S. Nota inoltre che S stesso non può essere numerabile. Densità delle distribuzioni continue Supponiamo, di nuovo, che X abbia distribuzione continua su un sottinsieme S di Rn. Una funzione a valori reali f definita su S si dice essere una funzione di densità di probabilità per X se f soddisfa le seguenti proprietà: 1. f(x) 0 per x in S. 2. S f(x)dx = 1. 3. A f(x)dx = P(X A) per A S. Se n > 1, gli integrali delle proprietà (b) e (c) sono multipli rispetto a sottinsiemi di Rn, e dx = dx1 dx2 ··· dxn dove x = (x1, x2, ..., xn). In realtà, tecnicamente, f è la denistà di X relativa a una misura n-dimensionale mn, che ricordiamo essere data da mn(A) = A 1dx per A Rn. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist2.html (1 di 8) [22/11/2001 17.46.34] Distribuzioni continue Notiamo che mn(S) dev'essere positivo (e può essere infinito). In particolare, 1. se n = 1, S dev'essere un sottinsieme di R di lunghezza positiva; 2. se n = 2, S dev'essere un sottinsieme di R2 di area positiva; 3. se n = 3, S dev'essere un sottinsieme di R3 di volume positivo. In ogni caso, ricordiamo che i casi in poche dimensioni (n = 1, 2, 3), a parte le finalità illustrative, non hanno particolare rilievo in probabilità. Gli esperimenti casuali più importanti di solito coinvolgono molte variabili casuali (cioè un vettore casule); raramente si ha una variabile casuale singola e isolata. Notiamo infine che possiamo sempre estendere f per la densità su tutto Rn ponendo f(x) = 0 per gli x non appartenenti a S. Questa estensione a volte semplifica la notazione. La proprietà (c) è particolarmente importante perché implica che la distribuzione di probabilità di X è completamente individuata dalla funzione di densità. Di converso, ogni funzione che soddisfa le proprietà (a) e (b) è una funzione di densità di probabilità, per cui la proprietà (c) può essere utilizzata per definire una distribuzione continua su S. Un elemento x appartenente a S per cui la densità f è massima è detto moda della distribuzione. Se esiste un'unica moda, la si usa a volte come misura del centro della distribuzione. A differenza del caso discreto, la funzione di densità di una distribuzione continua non è unica. Notiamo che i valori di f su un insieme finito (o anche numerabile) di punti può essere modificata con altri valori non negativi, e le proprietà (a), (b) e (c) continuerebbero a valere. Il fatto importante è che sono rilevanti solo gli integrali di f. Un'altra differenza è che f(x) può essere maggiore di 1; all'atto pratico, f può essere illimitato su S. Ricorda che f(x) non è una probabilità, è una densità di probabilità: f(x)dx è approssimativamente la probabilità che X giaccia in un intervallo n-dimensionale centrato su x con lati di lunghezza dx1, ..., dxn, se tali lunghezze sono piccole. Esempi 2. Sia f(t) = r exp(-rt) per t > 0, dove r > 0 è un parametro. Prova che f è una funzione di densità di probabilità. La distribuzione definita dalla funzione di densità dell'esercizio precedente è detta distributzione esponenziale con parametro di velocità r. Questa distribuzione è utilizzata spesso per modellare durate aleatorie, sotto certe assunzioni. La distributzione esponenziale è analizzata in dettaglio nel capitolo sui processi di Poisson. 3. La durata T di un certo apparecchio (in unità di 1000 ore) ha distribuzione esponenziale con parametro 1/2. Trova P(T > 2). 4. Nell'esperimento esponenziale, poni r = 1/2. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della funzione di densità empirica alla sua controparte teorica. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist2.html (2 di 8) [22/11/2001 17.46.34] Distribuzioni continue 5. Nel problema di Bertrand, un certo angolo casuale A ha funzione di densità f(a) = sin(a), 0 < a < / 2. 1. Prova che f è una funzione di densità. 2. Disegna il grafico di f e trova la moda. 3. Trova P(A < / 4). 6. Nell'esperimento di Bertrand, seleziona il modello con distanza uniforme. Simula 200 replicazioni, aggiornando ogni volta, e calcola la probabilità empirica dell'evento {A < / 4}. Confrontala con la probabilità trovata nell'esercizio precedente. 7. Sia gn(t) = exp(-t) tn / n! per t > 0 dove n è un parametro intero non negativo. 1. Mostra che gn è una funzione di densità di probabilità per ogni n. 2. Mostra che gn(t) è crescente per t < n e decrescente per t > n, cosicché la moda è a t = n. Abbiamo mostrato nel paragrafo precedente sulle distribuzioni discrete che ft(n) = gn(t) è una funzione di densità sugli interi non negativi per ogni t > 0. La distribuzione individuata dalla densità gn è detta distribuzione gamma; n + 1 è il parametro di forma. La distribuzione gamma è studiata in dettaglio nel capitolo sui processi di Poisson. 8. Supponi che la durata di un apparecchio T (in unità di 1000 ore) abbia distribuzione gamma con n = 2. Trova P(T > 3). 9. Nell'esperimento gamma, poni r = 1 e k = 3. Replica l'esperimento 200 volte, aggiornando ogni volta. Calcola la probabilità empirica dell'evento {T > 3} e confrontala con la probabilità teorica dell'esercizio precedente. La costruzione delle densità 10. Supponi che g sia una funzione non negativa su S. Sia c= S g(x)dx. Prova che se c è positivo e finito, allora f(x) = g(x) / c per x appartenente a S definisce una funzione di densità di probabilità su S. Osserva che i grafici di g e f sembrano identici, a parte la diversa scala dell'asse verticale. Il risultato dell'esercizio precedente può essere quindi usato per costruire funzioni di densità con le proprietà desiderate (dominio, forma, simmetria e così via). La costante c è detta a volte costante di normalizzazione. 11. Sia g(x) = x2(1 - x) per 0 < x < 1. 1. Disegna il grafico di g. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist2.html (3 di 8) [22/11/2001 17.46.34] Distribuzioni continue 2. Trova la funzione di densità di probabilità f proporzionale a g. 3. Trova P(1/2 < X < 1) dove X è una variabile casuale con la densità come riportata in (b). La distribuzione presentata nell'esercizio precedente è un'esempio di distribuzione beta. 12. Sia g(x) = 1 / xa per x > 1, dove a > 0 è un parametro. 1. Disegna il grafico di g. 2. Per 0 < a 1, prova che non esiste una funzione di densità di probabilità proporzionale a g. 3. Per a > 1, prova che la costante di normalizzazione è 1 / (a - 1). La distribuzione definita nell'esercizio precedente è detta distribuzione di Pareto con parametro di forma a. 13. Sia g(x) = 1 / (1 + x2) per x appartenente a R. 1. Disegna il grafico di g. 2. Mostra che la costante di normalizzazione è . 3. Trova P(–1 < X < 1) dove X ha funzione di densità proporzionale a g. La distribuzione definita nell'esercizio precedente è detta distribuzione di Cauchy, in onore di Augustin Cauchy. Si tratta di un membro della famiglia di distribuzioni t di Student. 14. Nell'applet variabile casuale, seleziona la distribuzione t di Student. Poni n = 1 per avere la distribuzione di Cauchy e simula 1000 replicazioni, aggiornando ogni 10. Osserva come la funzione di densità empirica viene a coincidere con quella teorica. 15. Sia g(z) = exp(-z2 / 2). 1. Disegna il grafico di g. 2. Mostra che la costante di normalizzazione è (2 )1/2. Suggerimento: Se c indica la costante di normalizzazione, esprimi c2 come integrale doppio e passa in coordinate polari. La distribuzione definita nell'esercizio precedente è la distribuzione normale standardizzata, forse la distribuzione più importante di tutta la probabilità. 16. Nell'applet variabile casuale, seleziona la distribuzione normale (i parametri predefiniti sono per la distribuzione normale standardizzata). Simula 1000 replicazioni, aggiornando ogni 10. Osserva come la funzione di densità empirica viene a coincidere con quella teorica. 17. Sia f(x, y) = x + y per 0 < x < 1, 0 < y < 1. 1. Mostra che f è una funzione di densità di probabilità 2. Trova P(Y > 2X) dove (X, Y) ha la densità riportata in (a). http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist2.html (4 di 8) [22/11/2001 17.46.34] Distribuzioni continue 18. Sia g(x, y) = x + y per 0 < x < y < 1. 1. Trova la funzione di densità di probabilità f proporzionale a g. 2. Trova P(Y > 2X) dove (X, Y) ha la densità riportata in (a). 19. Sia g(x, y) = x2y per 0 < x < 1, 0 < y < 1. 1. Trova la funzione di densità di probabilità f proporzionale a g. 2. Trova P(Y > X) dove (X, Y) ha la densità riportata in (a). 20. Sia g(x, y) = x2y per 0 < x < y < 1. 1. Trova la funzione di densità di probabilità f proporzionale a g. 2. Trova P(Y > 2X) dove (X, Y) ha la densità riportata in (a). 21. Sia g(x, y, z) = x + 2y + 3z per 0 < x < 1, 0 < y < 1, 0 < z < 1. 1. Trova la funzione di densità di probabilità f proporzionale a g. 2. Trova P(X < Y < Z) dove (X, Y, Z) ha la densità riportata in (a). Distribuzioni uniformi continue Gli esercizi seguenti trattano un'importante tipologia di distribuzioni continue. 22. Supponi che S sia sottinsieme di Rn con misura positiva e finita mn(S). Prova che 1. f(x) = 1 / mn(S) per x appartenente a S definisce una funzione di densità di probabilità su S. 2. P(X A) = mn(A) / mn(S) per A S se X ha la funzione di densità di (a). Un variabile casuale X con la funzione di densità dell'esercizio 14 è detta avere distribuzione uniforme continua su S. La distribuzione uniforme su un rettangolo del piano ha un ruolo fondamentale nei modelli geometrici. 23. Supponi che (X, Y) sia distribuito uniformemente sul quadrato S = (-6, 6)2. Trova P(X > 0, Y > 0). 24. Nell'esperimento uniforme bivariato, seleziona quadrato nel menu a tendina. Simula 100 replicazioni, aggiornando ogni volta, osservando i punti della dispersione. Calcola la probabilità empirica dell'evento {X > 0, Y > 0} e confrontala con la probabilità teorica. 25. Supponi che (X, Y) sia distribuito uniformemente sul triangolo S = {(x, y): -6 < y < x < 6}. Trova P(X > 0, Y > 0) 26. Nell'esperimento uniforme bivariato, seleziona triangolo nel menu a tendina. Simula 100 replicazioni, aggiornando ogni volta, osservando i punti della dispersione. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist2.html (5 di 8) [22/11/2001 17.46.34] Distribuzioni continue Calcola la probabilità empirica dell'evento {X > 0, Y > 0} e confrontala con la probabilità teorica. 27. Supponi che (X, Y) sia distribuito uniformemente sul cerchio S = {(x, y): x2 + y2 < 36}. Trova P(X > 0, Y > 0). 28. Nell'esperimento uniforme bivariato, seleziona cerchio nel menu a tendina. Simula 100 replicazioni, aggiornando ogni volta, osservando i punti della dispersione. Calcola la probabilità empirica dell'evento {X > 0, Y > 0} e confrontala con la probabilità teorica. 29. Supponi che (X, Y, Z) sia distribuito uniformemente sul cubo (0, 1)3. Trova P(X < Y < Z) 1. Utilizzando la funzione di densità. 2. Utilizzando un argomento combinatorio. Suggerimento: Spiega perché ciascuna delle 6 permutazioni di (X, Y, Z) dev'essere equiprobabile. 30. Il tempo T (in minuti) necessario per eseguire una certa operazione è distribuito uniformemente sull'intervallo (15, 60). 1. Trova la probabilità che l'operazione richieda più di 30 minuti. 2. Sapendo che l'operazione non è terminata dopo 30 minuti, trova la probabilità che siano necessari più di altri 15 minuti. Densità condizionate Supponi che X sia una variabile casuale a valori in un sottinsieme S di Rn, con distribuzione continua con funzione di densità f. La funzione di densità X, ovviamente, è basata sulla misura di probabilità sottostante P sullo spazio campionario dell'esperimento, che indichiamo con R. Questa misura può essere una misura di probabilità condizionata, dato un evento E (sottinsieme di R), con P(E) > 0. La notazione consueta è f(x | E), x S. Si rammenti che, a parte la notazione, non si stanno introducendo nuovi concetti. La funzione riportata poc'anzi è una funzione di densità continua, ovvero soddisfa le proprietà (a) e (b), mentre la porprietà (c) diventa A f(x | E)dx = P(X A | E) per A S. Tutti i risultati che valgono per le densità in generale hanno controparti analoghe per le densità condizionate. 31. Supponi che B S con P(X B) = condizionata di X dato X B è 1. f(x | X B) = f(x) / P(X B) per x B f(x)dx > 0. Prova che la densità B. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist2.html (6 di 8) [22/11/2001 17.46.34] Distribuzioni continue 2. f(x | X B) = 0 per x Bc. 32. Supponi che S sia un sottinsieme di Rn con misura positiva e finita mn(S) e che B S con mn(B) > 0. Mostra che se X è distribuito uniformemente su S, allora la distribuzione condizionata di X dato X B è uniforme su B. 33. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova la densità condizionata di (X, Y) dato X < 1/2, Y < 1/2. Esercizi numerici Se {x1, x2, ..., xn} Rn è un insieme di dati per una variabile continua, X, allora una funzione di densità empirica può essere calcolata partizionando il campo di variazione dei dati in sottinsiemi di ampiezza minore, e calcolare le densità di punti in ogni sottinsieme. Le funzioni di densità empirica sono studiate dettagliatamente nel capitolo sui campioni casuali. 34. Nei dati sulla cicala, BW indica il peso corporeo, BL la lunghezza corporea e G il sesso. Costruisci una funzione di densità empirica per ciascuno dei seguenti e disegna tali funzioni in un grafico a barre: 1. BW 2. BL 3. BW dato G = femmina. 35. Nei dati sulla cicala, WL indica la lunghezza delle ali e WW la larghezza delle ali. Costruisci una funzione di densità empirica per (WL, WW). Distribuzioni continue degeneri Contrariamente al caso discreto, l'esistenza di una funzione di densità per una distribuzione continua è un'assunzione che si fa. Una variabile casuale può avere distribuzione continua su un sottinsieme S di Rn ma senza funzione di densità; la distribuzione è detta a volte degenere. Vediamo ora alcuni casi in cui tali distribuzioni possono presentarsi. Supponiamo in primo luogo che X sia una variabile casuale che assume valori in un sottinsieme S di Rn con mn(S) = 0. È possibile che X abbia distribuzione continua, ma X può non avere una densità relativa a mn. In particolare, la proprietà (c) della definizione può non valere, poiché l'integrale di sinistra sarebbe 0 per ogni sottinsieme A di S. Comunque, in molti casi, X può essere definita in termini di variabili casuali continue su spazi di dimensione minore che posseggono densità. Per esempio, supponiamo che U sia una variabile casuale con distribuzione continua su un sottinsieme T di Rk (dove k < n), e che X = h(U) per qualche funzione continua h da T in Rn. Ogni evento definito in termini di X può essere trasformato in un evento definito in http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist2.html (7 di 8) [22/11/2001 17.46.34] Distribuzioni continue termini di U. L'esercizio seguente illustra questa situazione 36. Supponi che U sia distribuita uniformemente sull'intervallo (0, 2 ). Sia X = cos(U), Y = sin(U). 1. Prova che (X, Y) ha distribuzione continua sul cerchio C = {(x, y): x2 + y2 = 1}. 2. Prova che (X, Y) non ha una funzione di densità su C (rispetto a m2). 3. Trova P(Y > X). Un'altra situazione di questo tipo si verifica quando un vettore casuale X appartenente a Rn (n > 1) ha alcuni componenti con distribuzioni discrete e altri con distribuzioni continue. Tali distribuzioni a componenti misti sono studiate più dettagliatamente nel paragrafo sulle distribuzioni miste; l'esercizio seguente, in ogni caso, illustra la situazione. 37. Supponi che X sia distribuita uniformemente su {0, 1, 2}, Y distribuita uniformemente su (0, 2) e che X e Y siano indipendenti. 1. Prova che (X, Y) ha distribuzione continua su {0, 1, 2} × (0, 2). 2. Prova che (X, Y) non ha una funzione di densità (a due dimensioni) su S (rispetto a m2). 3. Trova P(Y > X). Infine, è possibile anche avere una distribuzione continua su un sottinsieme S di Rn con mn(S) > 0, ma di nuovo senza funzione di densità. Tali distribuzioni si dicono singolari, e si applicano raramente. Per un esempio, in ogni caso, vedi il caso del gioco aggressivo nel capitolo su rosso e nero. Laboratorio virtuale > Distribuzioni > 1 [2] 3 4 5 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist2.html (8 di 8) [22/11/2001 17.46.34] Distribuzioni miste Laboratorio virtuale > Distribuzioni > 1 2 [3] 4 5 6 7 8 9 3. Distribuzioni miste Al solito, inziamo con l'introdurre un esperimento casuale definito su un certo spazio campionario e con misura di probabilità P. In questo paragrafo, presenteremo due casi "misti" per la distribuzione di una variabile casuale: il caso in cui la distribuzione è in parte discreta e in parte continua e il caso in cui la variabile ha sia coordinate discrete che coordinate continue. Distribuzioni di tipo misto Supponi che X sia una variabile casuale relativa all'esperimento, a valori in un sottinsieme S di Rn. X ha distribuzione di tipo misto se S può essere partizionato in sottinsiemi D e C con le seguenti proprietà: 1. D è numerabile e 0 < P(X D) < 1. 2. P(X = x) = 0 per x in C. Quindi parte della distribuzione di X è concentrata su punti di un insieme discreto D; il resto è ripartito in maniera continua su C. Sia p = P(X D), cosicché 0 < p < 1. Possiamo definire su D una funzione di densità discreta parziale. 1. Sia g(x) = P(X = x) per x appartenente a D. Prova che 1. g(x) 2. 0 per x appartenente a D. x in D 3. P(X g(x) = p. A) = x in A g(x) per A D. Di solito, anche la parte continua della distribuzione è descritta da una funzione di densità parziale. Supponiamo quindi che esista una funzione non negativa h su C tale che P(X A) = A 2. Prova che h(x)dx per A C C. h(x)dx = 1 - p. la distribuzione di X è individuata completamente dalle densità parziali g e h. In primo luogo, estendiamo le funzioni g e h a S nella maniera consueta: g(x) = 0 per x appartenente a C; h(x) = 0 per x appartenente a D. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist3.html (1 di 4) [22/11/2001 17.46.38] Distribuzioni miste 3. Supponi che A P(X A) = x in A S. Prova che g(x) + A h(x)dx. Le distribuzioni condizionate su D e C sono, rispettivamente, solamente discreta e solamente continua. 4. Dimostra che la distribuzione condizionata di X dato X di densità f(x | X D) = g(x) / p per x D. 5. Dimostra che la distribuzione condizionata di X dato X funzione di densità f(x | X D è discreta con funzione C) = h(x) / (1 - p) per x C è continua con C. La distribuzione di X è pertanto un ibrido tra distibuzione discreta e continua. Le distribuzioni miste sono studiate in maniera più generale nel paragrafo sulle distribuzioni condizionate. 6. Supponi che X abbia probabilità 1/2 distribuita uniformemente su {1, 2, ..., 8} e probabilità 1/2 distribuita uniformemente sull'intervallo (0, 10). Trova P(X > 6). 7. Supponi che (X, Y) abbia probabilità 1/3 distribuita uniformemente su {0, 1, 2}2 e probabilità 2/3 distribuita uniformemente su (0, 2)2. Trova P(Y > X). Variabili troncate Le distribuzioni di tipo misto si presentano in maniera naturale quando una variabile casuale con distribuzione continua viene in qualche modo troncata. Per esempio, supponiamo che T sia la durata di un congegno e abbia funzione di densità f(t) per t > 0. Nel contesto di un test inerente la rottura di un congegno, non possiamo aspettare all'infinito, per cui possiamo scegliere una costante positiva a e registrare la seguente variabile casuale: U = T se T < a; U = a se T a. 8. Prova che U ha distribuzione mista; in particolare mostra che, con la notazione di cui sopra, 1. D = {a} e g(a) = {t: t > a} f(t)dt. 2. C = (0, a) e h(t) = f(t) per 0 < t < a. 9. Supponi che la durata T di un congegno (in unità di 1000 ore) abbia distribuzione esponenziale f(t) = exp(-t), t > 0. Il test per il dispositivo deve avere termine dopo 2000 http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist3.html (2 di 4) [22/11/2001 17.46.38] Distribuzioni miste ore; si registra la durata troncata U. Trova 1. P(U < 1). 2. P(U = 2). Supponiamo che X abbia distribuzione continua su R, con funzione di densità f. La variabile viene troncata a a e b (a < b) per creare una nuova variabile Y definita come segue: Y = a se X a; Y = X se a < X < b; Y = b se X b. 10. Mostra che Y ha distribuzione mista. In particolare, prova che 1. D = {a, b}, g(a) = {x: x < a} f(x)dx, g(b) = {x: x > b} f(x)dx. 2. C = (a, b) e h(x) = f(x) per a < x < b. Coordinate miste Supponiamo che X e Y siano variabili casuali relative al nostro esperimento, e che X abbia distribuzione discreta a valori in un insieme numerabile S mentre Y ha distribuzione continua su un sottinsieme T di Rn. Allora (X, Y) ha distribuzione continua su qualche sottinsieme di S × T. 11. Dimostra che P[(X, Y) = (x, y)] = 0 per x appartenente a S, y appartenente a T. Di solito, (X, Y) ha funzione di densità f su S × T nel senso seguente: P[(X, Y) A × B] = x in A 12. Più in generale, per C che P[(X, Y) C] = x in S B f(x, y)dy per A S×Tex C(x) SeB S, sia C(x) = {y T, T: (x, y) C}. Dimostra f(x, y)dy. Tecnicamente, f è la densità di (X, Y) rispetto a una misura di conteggio su S e a una misura n-dimensionale su T. I vettori casuali con coordinate miste si presentano spesso nei problemi applicati. Per esempio, i dati sulla cicala contengono 4 variabili continue e 2 variabili discrete. I dati M&M contengono 6 variabili discrete e 1 variabile continua. I vettori con coordinate miste si presentano anche quando si casualizza un parametro discreto per una distribuzione continua, o un parametro continuo per una distribuzione discreta. 13. Sia f(1, y) = 1/3 per 0 < y < 1, f(2, y) = 1/6 per 0 < y < 2, f(3, y) = 1/9 per 0 < y < 3. 1. Mostra che f è una densità mista nel senso precisato sopra, con S = {1, 2, 3}, T = http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist3.html (3 di 4) [22/11/2001 17.46.38] Distribuzioni miste (0, 3). 2. Trova P(X > 1, Y < 1) dove (X, Y) ha densità f. 14. Sia f(p, k) = 6 C(3, k) pk + 1(1 - p)4 - k per k {0, 1, 2, 3} e p 1. Mostra che f è una densità mista nel senso precisato sopra. 2. Trova P(V < 1 / 2, X = 2) dove (V, X) ha densità f. (0, 1). Come vedremo nel paragrafo sulle distribuzioni condizionate, la distribuzione dell'esercizio precedente serve a modellare il seguente esperimento: si seleziona una probabilità aleatoria V e poi si lancia tre volte una moneta con questa probabilità di testa; X è il numero di teste. 15. Sui dati M&M, sia N il numero totale di pastiglie e W il peso netto (in grammi). Costruisci una densità empirica per (N, W). Laboratorio virtuale > Distribuzioni > 1 2 [3] 4 5 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist3.html (4 di 4) [22/11/2001 17.46.38] Distribuzioni congiunte Laboratorio virtuale > Distribuzioni > 1 2 3 [4] 5 6 7 8 9 4. Distribuzioni congiunte Al solito, inziamo con l'introdurre un esperimento casuale definito su un certo spazio campionario e con misura di probabilità P. Supponiamo ora che X e Y siano varaibili casuali relative all'esperimento, e che X assuma valori in S e che Y assuma valori in T. Possiamo interpretare (X, Y) come variabile casuale a valori nell'insieme prodotto S × T. L'obiettivo di questo paragrafo è studiare come la distribuzione di (X, Y) si rapporta alle distribuzione di X e Y. In questo contesto, la distribuzione di (X, Y) è detta distribuzione congiunta di (X, Y), mentre le distribuzioni di X e di Y si dicono distribuzioni marginali. Notiamo che X e Y possono avere valori vettoriali. Il primo punto, molto importante, che rileviamo è che le distribuzioni marginali possono essere ricavate dalle distribuzioni congiunte, ma non il contrario. 1. Dimostra che 1. P(X A) = P[(X, Y) A × T] per A S. 2. G(Y B) = P[(X, Y) S × B] per B T. Se X e Y sono indipendenti, allora per definizione, P[(X, Y) A × B] = P(X A)P(Y B) per A S, B T, e, come abbiamo notato in precedenza, ciò individua completamente la distribuzione (X, Y) su S × T. Al contrario, se X e Y sono dipendenti, la distribuzione congiunta non può essere ricavata dalle distribuzioni marginali. Quindi, in generale, la distribuzione congiunta contiene molta più informazione delle singole distribuzioni marginali. Densità congiunte e marginali Nel caso discreto, nota che S × T è numerabile se e solo se S e T sono numerabili. 2. Supponi che (X, Y) abbia distribuzione discreta con funzione di densità f su un insieme numerabile S × T. Mostra che X e Y hanno funzioni di densità rispettivamente g e h, date da 1. g(x) = 2. h(y) = y in T f(x, y) per x appartenente a S. x in S f(x, y) per y appartenente a T. Per il caso continuo, supponi che S Rj, T Rk cosicché S × T Rj + k. 3. Supponi che (X, Y) abbia distribuzione continua su S × T con funzione di densità f. Mostra che X e Y hanno distribuzione continua con funzione di densità rispettivamente g http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist4.html (1 di 7) [22/11/2001 17.46.43] Distribuzioni congiunte e h, date da/p> 1. g(x) = T f(x, y)dy per x appartenente a S. 2. h(y) = S f(x, y)dx per y appartenente a T. Nel contesto degli esercizi 1 e 2, f è detta funzione di densità congiunta di (X, Y), mentre g e h sono dette funzioni di densità marginali, rispettivamente di X e di Y. Nel caso di indipendenza, la densità congiunta è il prodotto delle densità marginali. 4. Supponiamo che X e Y siano indipendenti, entrambi con distribuzione discreta o entrambi con distribuzione continua. Siano g e h, rispettivamente, le funzioni di densità di X e Y. Dimostra che (X, Y) ha funzione di densità f data da: f(x, y) = g(x)h(y) per x Sey T. L'esercizio seguente è specualare all'esercizio 4. Se la funzione di densità congiunta può essere fattorizzata in una funzione di solo x e di solo y, allora X e Y sono indipendenti. 5. Supponi che (Y, Y) abbiano distribuzione discreta o continua, con funzione di densità f. Supponi che f(x, y) = u(x)v(y) per x appartenente a S e y appartenente a T. dove u è funzione di S e v è funzione di T. Prova che X e Y sono indipendenti e che esiste una costante diversa da zero c tale che le funzioni g e h riportate sotto sono densità per X e Y, rispettivamente. g(x) = cu(x) per x appartenente a S; h(y) = v(y) / c per y in T Esercizi 6. Supponiamo di lanciare due dadi equilibrati e di registrare la sequenza dei punteggi (X1, X2). Siano Y = X1 + X2 e Z = X1 - X2 rispettivamente la somma e la differenza dei punteggi. 1. Trova la densità di (Y, Z). 2. Trova la densità di Y 3. Trova la densità di Z. 4. Y e Z sono indipendenti? 7. Supponiamo di lanciare due dadi equilibrati e di registrare la sequenza dei punteggi (X1, X2). Siano U = min{X7, X2} e V = max{X5, X2} rispettivamente il massimo e il minimo dei punteggi. 1. Trova la densità di (U, V). 2. Trova la densità di U. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist4.html (2 di 7) [22/11/2001 17.46.43] Distribuzioni congiunte 3. Trova la densità di V. 4. U e V sono indipendenti? 8. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. 1. Trova la densità di X. 2. Trova la densità di Y. 3. X e Y sono indipendenti? 9. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1. 1. Trova la densità di X. 2. Trova la densità di Y. 3. X e Y sono indipendenti? 10. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. 1. Trova la densità di X. 2. Trova la densità di Y. 3. X e Y sono indipendenti? 14. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15 x2y per 0 < x < y < 1. 1. Trova la densità di X. 2. Trova la densità di Y. 3. X e Y sono indipendenti? 12. Supponi che (X, Y, Z) abbia funzione di densità di probabilità f data da f(x, y, z) = 2z(x + y) per 0 < x < 1, 0 < y < 1, 0 < z < 1. 1. Trova la densità di ciascuna coppia di variabili. 2. Trova la densità di ciascuna variabile. 3. Determina le relazioni di dipendenza tra le variabili. Distribuzioni multivariate uniformi Le distribuzioni multivariate uniformi danno un'interpretazione geometrica di alcuni concetti presentati in questo paragrafo. Ricordiamo in primo luogo che la misura standard su Rn è mn(A) = G 1dx per A Rn. In particolare, m1 è la misura di lunghezza su R, m2 è la misura di area su R2 e m3 è la misura di volume su R3. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist4.html (3 di 7) [22/11/2001 17.46.43] Distribuzioni congiunte Supponi che X assuma valori in Rj, che Y assuma valori in Rk e che (X, Y) sia distribuito Rj + k dove m uniformemente su R j + k(R) è positivo e finito. Quindi, per definizione, la funzione di densità congiunta di (X, Y) è f(x, y) = 1 / mj + k(R) per (x, y) R (and f(x, y) = 0 altrimenti). 13. Dimostra che X assume valori in un insieme S = {x: (x, y) R per qualche y} che la funzione di densità g di X è proporzionale alla misura incrociata: g(x) = mk{y: (x, y) R}/ mj + k(R) per x S 14. Prova che Y assume valori in un insieme T = {y: (x, y) R per qualche x} che la funzione di densità h di Y è proporzionale alla misura incrociata: h(y) = mj{x: (x, y) R}/ mj + k(R) per y S In particolare, nota dagli esercizi precedenti che X e Y non sono, in generale, normalmente distribuiti. 15. Supponi che R = S × T. Dimostra che 1. X è distribuita uniformemente su S. 2. Y è distribuita uniformemente su T. 3. X e Y sono indipendenti. 16. Supponi che (X, Y) sia distribuito uniformemente sul quadrato (-6, 6) × (-6, 6). 1. Trova la funzione di densità congiunta di (X, Y) 2. Trova la funzione di densità di X 3. Trova la funzione di densità di Y. 4. X Y sono indipendenti? 17. Nell'esperimento bivariato uniforme, seleziona quadrato dal menu a tendina. Esegui 5000 replicazioni, aggiornando ogni 10. Osserva i punti della dispersione e i grafici delle distribuzioni marginali. Interpreta i risultati nel contesto della discussione fin qui svolta. 18. Supponi che (X, Y) sia distribuito uniformemente sul triangolo R = {(x, y): -6 < y < x < 6}. 1. Trova la funzione di densità congiunta di (X, Y) 2. Trova la funzione di densità di X 3. Trova la funzione di densità di Y. 4. X e Y indipendenti? 19. Nell'esperimento bivariato uniforme, seleziona triangolo dal menu a tendina. Esegui 5000 replicazioni, aggiornando ogni 10. Osserva i punti della dispersione e i grafici delle distribuzioni marginali. Interpreta i risultati nel contesto della discussione fin http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist4.html (4 di 7) [22/11/2001 17.46.43] Distribuzioni congiunte qui svolta. 20. Supponi che (X, Y) sia distribuito uniformemente sul cerchio R = {(x, y): x2 + y2 < 36}. 1. Trova la funzione di densità congiunta di (X, Y) 2. Trova la funzione di densità di X 3. Trova la funzione di densità di Y. 4. X e Y indipendenti? 21. Nell'esperimento bivariato uniforme, seleziona cerchio dal menu a tendina. Esegui 5000 replicazioni, aggiornando ogni 10. Osserva i punti della dispersione e i grafici delle distribuzioni marginali. Interpreta i risultati nel contesto della discussione fin qui svolta. 22. Supponi che (X, Y, Z) sia distribuito uniformemente sul cubo (0, 1)3. 1. Riporta la funzione di densità congiunta di (X, Y, Z) 2. Trova la funzione di densità di ciascuna coppia di variabili. 3. Trova la funzione di densità di ciascuna variabile. 4. Determina le relazioni di dipendenza tra le variabili. 23. Supponi che (X, Y, Z) sia distribuito uniformemente su {(x, y, z): 0 < x < y < z < 1}. Trova 1. Riporta la funzione di densità congiunta di (X, Y, Z) 2. Trova la funzione di densità di ciascuna coppia di variabili. 3. Trova la funzione di densità di ciascuna variabile. 4. Determina le relazioni di dipendenza tra le variabili. 24. Supponi che g sia una funzione di densità di probabilità per una distribuzione continua su un sottinsieme S di Rn. Sia R = {(x, y): x S, 0 < y < g(x)} Rn + 1. Prova che se (X, Y) è distribuito uniformemente su R, allora X ha funzione di densità g. Disegna il caso n = 1. Coordinate miste I risultati presentati in questo paragrafo possiedono analoghi naturali nel caso in cui (X, Y) ha coordinate con diversi tipi di distribuzione, come discusso nel paragrafo sulle distribuzioni miste. Per esempio, supponiamo che X abbia distribuzione discreta, Y abbia distribuzione continua, e che (X, Y) abbia densità congiunta f su S × T. I risultati degli esercizi 2(a), 3(b), 4 e 5 valgono ancora. 25. Supponi che X assuma valori in {1, 2, 3}, che Y assuma valori in (0, 3), con densità congiunta f given by http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist4.html (5 di 7) [22/11/2001 17.46.43] Distribuzioni congiunte f(1, y) = 1/3 per 0 < y < 1, f(2, y) = 1/6 per 0 < y < 2, f(3, y) = 1/9 per 0 < y < 3. 1. Trova la funzione di densità di X 2. Trova la funzione di densità di Y. 3. X e Y indipendenti? 26. Supponi che V assuma valori in (0, 1) e che X assuma valori in {0, 1, 2, 3}, con densità congiunta f data da f(p, k) = 6C(3, k) pk + 1(1 - p)4 - k per k 1. Trova la densità di V. 2. Trova la densità di X. 3. V e X sono indipendenti? {0, 1, 2, 3} e p (0, 1). Come avremo modo di vedere nel paragrafo sulle distribuzioni condizionate, la distribuzione dell'esercizio precedente modella questo esperimento: si seleziona una probabilità casuale V e poi si lancia tre volte una moneta con questa probabilità di testa; X è il numero di teste. Esercizi numerici 27. Nei dati sulla cicala, G indica il sesso e S la specie. 1. Trova la densità empirica di (G, S). 2. Trova la densità empirica di G. 3. Trova la densità empirica di S. 4. Credi che S e G siano indipendenti? 28. Nei dati sulla cicala, BW indica il peso corporeo e BL la lunghezza del corpo (in millimetri). 1. Costruisci la densità empirica per (BW, BL). 2. Trova la corrispondente densità empirica per BW. 3. Trova la corrispondente densità empirica per BL. 4. Credi che BW e BL siano indipendenti? 29. Nei dati sulla cicala, G indica il sesso e BW il peso corporeo (in grammi). 1. 2. 3. 4. Costruisci la densità empirica per (G, BW). Trova la corrispondente densità empirica per G. Trova la corrispondente densità empirica per BW. Credi che G e BW siano indipendenti? Laboratorio virtuale > Distribuzioni > 1 2 3 [4] 5 6 7 8 9 http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist4.html (6 di 7) [22/11/2001 17.46.43] Distribuzioni congiunte Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist4.html (7 di 7) [22/11/2001 17.46.43] Distribuzioni condizionate Laboratorio virtuale > Distribuzioni > 1 2 3 4 [5] 6 7 8 9 5. Distribuzioni condizionate Al solito, iniziamo introducendo un esperimento casuale con spazio campionario R e misura di probabilità P su R. Supponiamo che X sia una variabile casuale relativa all'esperimento, a valori in un insieme S. L'obiettivo di questo paragrafo è studiare la misura di probabilità condizionata su R dato X = x, con x appartenente a S. Vogliamo quindi definire e studiare P(A | X = x) per A R e per x appartenente S. Vedremo che X ha distribuzione discreta, per cui non si introducono nuovi concetti, ed è sufficiente la semplice definizione della probabilità condizionata. Quando X ha distribuzione continua, invece, serve un approccio fondamentalmente diverso. Definizioni e proprietà principali Supponiamo in primo luogo che X abbia distribuzione discreta con funzione di densità g. S è quindi numerabile e si può assumere che g(x) > 0 per x appartenente a S. 1. Prova che P(A | X = x) = P(X = x, A) / g(x) for A R, x in S. 2. Prova la versione seguente legge delle probabilità totali P(X B, A) = x in B P(A | X = x)g(x) per A R, B S. Di converso, la legge delle probabilità totali individua completamente la distribuzione condizionata dato X = x. 3. Supponi che Q(x, A), per x P(A, X B) = x in B S, A Q(x, A) g(x) per B Dimostra che Q(x, A) = P(A | X = x) per x R, soddisfi S. S, A R. Supponiamo ora che X abbia distribuzione continua su S Rn, con funzione di densità g. Assumiamo g(x) > 0 per x appartenente a S. Contrariamente al caso discreto, non possiamo utilizzare la semplice probabilità condizionata per definire la probabilità condizionata di un evento dato X = x, poiché l'evento a cui si condiziona ha probabilità 0 per qualsiasi x. Ad ogni modo, il concetto dovrebbe avere senso. Se eseguiamo realmente l'esperimento, X assumerà un certo valore x (anche se, a priori, tale eventom si verifica con probabilità 0), e sicuramente l'informazione X = x finirà per alterare le probabilità che http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist5.html (1 di 8) [22/11/2001 17.46.49] Distribuzioni condizionate assegnamo agli altri eventi. Un approccio naturale è quello di utilizzare i risultati ottenuti nel caso discreto come definizioni per il caso continuo. Quindi, basandosi sulla caratterizzazione di cui sopra, definiamo la probabilità condizionata P(A | X = x) per x appartenente a S, A R. richiedendo che valga la legge delle probabilità totali: P(A, X B) = B P(A | X = x) g(x)dx per ogni B S. Per il momento, accetteremo il fatto che P(A | X = x) possa essere definito attraverso questa condizione. Tuttavia, ritorneremo su questo punto nel paragrafo sul valore atteso condizionato nel capitolo sul valore atteso. Il teorema di Bayes, che prende nome da Thomas Bayes, individua una formula per la densità condizionata di X dato A, in termini della densità di X e la probabilità condizionata di A dato X = x. 4. Sia A un evento con P(A) > 0. Prova che la densità condizionata di X dato A è 1. g(x | A) = g(x)P(A | X = x) / 2. g(x | A) = g(x)P(A | X = x) / s in S S g(s)P(A | X = s) se X è discreta. g(s)P(A | X = s)ds se X è continua. Nel contesto del teorema di Bayes, g è detta densità a priori di X e g( · | A) è la densità s posteriori di X dato A. Densità condizionate Le definizioni e i risultati di cui sopra si applicano, ovviamente, se A è un evento definito in termini di un'altra variabile casuale del nostro esperimento. Supponiamo quindi che Y sia una variabile casuale a valori in T. Allora (X, Y) è una variabile casuale a valori nell'insieme prodotto S × T, che assumiamo avere funzione di densità di probabilità (congiunta) f. (In particolare, assumiamo una delle distribuzioni standard: discreta congiunta, continua congiunta con densità, o componenti miste con densità). Come prima, g indica la funzione di densità di X e assumiamo che g(x) > 0 per x appartenente a S. 5. Dimostra che h(y | x) è una funzione di densità in y per ogni x in S: h(y | x) = f(x, y) / g(x) per x S, y T. Il prossimo esercizio mostra che h(y | x), in funzione di y, è la densità condizionata di Y dato X = x. 6. Dimostra che, per x S, B T, http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist5.html (2 di 8) [22/11/2001 17.46.49] Distribuzioni condizionate 1. P(Y B | X = x) = 2. P(Y B | X = x) = y in B B h(y | x) se Y ha distribuzione discreta. h(y | x)dy se Y ha distribuzione continua. Il teorema seguente è una versione del teorema di Bayes per le funzioni di densità. Usiamo la notazione definita poco sopra, e in più indichiamo con g(x | y) la densità condizionata di X in x appartenente a S dato Y = y appartenente a T. 7. Mostra che per x appartenente a S, y appartenente a T, 1. g(x | y) = h(y | x) g(x) / 2. g(x | y) = h(y | x) g(x) / s in S h(y S | s) g(s) se X ha distribuzione discreta. h(y | s) g(s)ds se X ha distribuzione continua. Nel contesto del teorema di Bayes, g è la densità a priori di X e g(· | y) è la densità a posteriori di X dato Y = y. Intuitivamente, X e Y dovrebbero essere indipendenti se e solo se le distribuzioni condizionate sono uguali alle corrispondenti distribuzioni non condizionate. 8. Prova che le seguenti condizioni sono equivalenti: 1. X e Y sono indipendenti. 2. h(y | x) = h(y) per ogni x S e y T. 3. g(x | y) = g(x) per ogni x S e y T. In molti casi le distribuzioni condizionate si presentano quando uno dei parametri della distribuzione viene randomizzato. Nota questa situazione in alcuni degli esercizi che seguono. Esercizi numerici 9. Supponi di lanciare due dadi equilibrati e di registrare la sequenza dei punteggi (X1, X2). Siano U = min{X1, X2} e V = max{X1, X2} rispettivamente il minimo e il massimo dei punteggi. 1. Trova la densità condizionata di U dato V = v per ogni v {1, 2, ..., 6} 2. Trova la densità condizionata di V dato U = u per ogni u {1, 2, ..., 6} 10. Nell'esperimento dado-moneta si lancia un dado equilibrato e poi si lancia una moneta bilanciata il numero di volte indicato dal dado. Sia N il punteggio del dado e X il numero di teste. 1. Trova la densità congiunta di (N, X). 2. Trova la densità di X. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist5.html (3 di 8) [22/11/2001 17.46.49] Distribuzioni condizionate 3. Trova la densità condizionata di N dato X = k per ogni k. 11. Nell'esperimento dado-moneta, seleziona dado e moneta equilibrati. 1. Simula 1000 replicazioni, aggiornando ogni 10. Confronta la funzione di densità empirica di X con la densità teorica riportata nell'esercizio precedente. 2. Simula 200 replicazioni, aggiornando ogni volta. Calcola la funzione di densità condizionata empirica di N dato X = k per ogni k, e confrontala con la funzione di densità dell'esercizio precedente. 12. Nell'esperimento moneta-dado, si lancia una moneta bilanciata. Se esce croce, si lancia un dado equilibrato; se esce testa si lancia un dado piatto uno-sei (le facce 1 e 6 hanno probabilità 1/4 e le facce 2, 3, 4 e 5 hanno probabilità 1/8). Sia I il punteggio della moneta (0 croce e 1 testa) e X il punteggio del dado. 1. Trova la densità congiunta di (I, X). 2. Trova la densitàì di X. 3. Trova la densità condizionata di I dato X = x per ogni x appartenente a {1, 2, 3, 4, 5, 6}. 13. Nell'esperimento moneta-dado, seleziona le impostazioni dell'esercizio precedente. 1. Simula 1000 replicazioni, aggiornando ogni 10. Confronta la funzione di densità empirica di X con la densità teorica riportata nell'esercizio precedente. 2. Simula 200 replicazioni, aggiornando ogni volta. Calcola la funzione di densità condizionata empirica di N dato X = 2, e confrontala con la funzione di densità dell'esercizio precedente. 14. Supponi che una scatola contenga 12 monete: 5 sono bilanciate, 4 sono sbilanciate con probabilità di testa 1/3 e 3 hanno due teste. Si estrae a caso una moneta e la si lancia due volte. Sia V la probabilità di testa della moneta selezionata, e X il numero di teste. 1. Trova la funzione di densità congiunta di (V, X). 2. Trova la funzione di densità di X. 3. Trova la densità condizionata di V dato X = k per k = 0, 1, 2. 15. Supponi che in una scatola vi siano 5 lampadine, indicate con numeri da 1 a 5. La durata di una lampadina n (in mesi) ha distribuzione esponenziale con parametro di velocità n. Si estrae a caso una lampadina e la si mette alla prova 1. Trova la probabilità che la lampadina estratta duri più di un mese. 2. Sapendo che la lampadina dura più di un mese, trova la densità condizionata del numero della lampadina. 16. Supponi che N abbia distribuzione di Poisson con parametro 1, e dato N = n, X abbia distribuzione binomiale con parametri n e p. 1. Trova la densità congiunta di (N, X). 2. Trova la densità di X. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist5.html (4 di 8) [22/11/2001 17.46.49] Distribuzioni condizionate 3. Trova la densità condizionata di N dato X = k. 17. Supponi che X sia distribuito uniformemente su {1, 2, 3}, e dato X = i, Y sia distribuito uniformemente sull'intervallo (0, i). 1. Trova la densità congiunta di (X, Y). 2. Trova la densità di Y. 3. Trova la densità condizionata di X dato Y = y per y appartenenete a (0, 3). 18. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. 1. Trova la densità condizionata di X dato Y = y 2. Trova la densità condizionata di Y dato X = x. 3. X e Y sono indipendenti? 19. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) for 0 < x < y < 1. 1. Trova la densità condizionata di X dato Y = y 2. Trova la densità condizionata di Y dato X = x. 3. X e Y sono indipendenti? 20. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15 x2y per 0 < x < y < 1. 1. Trova la densità condizionata di X dato Y = y 2. Trova la densità condizionata di Y dato X = x. 3. X e Y sono indipendenti? 21. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6 x2y per 0 < x < 1, 0 < y < 1. 1. Trova la densità condizionata di X dato Y = y 2. Trova la densità condizionata di Y dato X = x. 3. X e Y sono indipendenti? 22. Supponi che V abbia densità g(p) = 6p(1 - p) per 0 < p < 1. Dato V = p, si lancia tre volte una moneta con probabilità di testa p. Sia X il numero di teste. 1. Trova la densità congiunta di (V, X). 2. Trova la densità di X. 3. Trova la densità condizionata di V dato X = k per k = 0, 1, 2, 3. Disegnali sugli stessi assi. Confronta l'esercizio 22 con l'esercizio 14. Nell'esercizio 22, si scegli di fatto una moneta da una scatola che contiene infiniti tipi di monete. 23. Supponi che X si distribuita uniformemente su (0, 1), e che dato X = x, Y sia distribuita uniformemente su (0, x). http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist5.html (5 di 8) [22/11/2001 17.46.49] Distribuzioni condizionate 1. Trova la densità congiunta di (X, Y). 2. Trova la densità di Y. 3. Trova la densità condizionata di X dato Y = y appartenente a (0, 1). Distribuzioni uniformi multivariate Le distribuzioni uniformi multivariate costituiscono un'interpretazione geometrica di alcuni dei concetti presentati in questo paragrafo. Ricordiamo prima di tutto che la misura standard su Rn è mn(A) = A 1dx per A Rn. In particolare, m1 è la misura di lunghezza su R, m2 è la misura di area su R2 e m3 è la misura di volume su R3. Supponiamo ora che X assuma valori in Rj, che Y assuma valori in Rk e che (X, Y) sia distribuito uniformemente su R Rj + k dove mj + k(R) è positivo e finito. Quindi, per definizione, la funzione di densità congiunta di (X, Y) è f(x, y) = 1 / mj + k(R) per (x, y) R (e f(x, y) = 0 altrimenti). 24. Mostra che la distribuzione condizionata di Y dato X = x è distribuita uniformemente sulla sezione incrociata {y Rk: (x, y) R}. 25. Mostra che la distribuzione condizionata di X dato Y = y è distribuita uniformemente sulla sezione incrociata {x Rj: (x, y) R}. Nell'ultimo paragrafo sulle distribuzioni congiunte, abbiamo visto che anche se (X, Y) è distribuito uniformemente, le distribuzioni marginali di X e Y non sono in genere uniformi. Ma, come abbiamo visto, le distribuzioni condizionate sono sempre uniformi. 26. Supponi che (X, Y) sia distribuito uniformemente sul quadrato R = [-6, 6]2. 1. Trova la densità condizionata di Y dato X = x (-6, 6). 2. Trova la densità condizionata di X dato Y = y (-6, 6). 3. Prova che X e Y sono indipendenti. 27. Nell'esperimento uniforme bivariato, seleziona quadrato dal menu a tendina. Simula 5000 replicazioni, aggiornando ogni 10. Osserva i punti della dispersione e i grafici delle distribuzioni marginali. Interpreta i risultati nel contesto della discussione precedente. 28. Supponi che (X, Y) sia distribuito uniformemente sul triangolo R = {(x, y): -6 < y http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist5.html (6 di 8) [22/11/2001 17.46.49] Distribuzioni condizionate < x < 6} R2. 1. Trova la densità condizionata di Y dato X = x 2. Trova la densità condizionata di X dato Y = y 3. Prova che X e Y sono dipendenti. (-6, 6). (-6, 6). 29. Nell'esperimento uniforme bivariato, seleziona triangolo dal menu a tendina. Simula 5000 replicazioni, aggiornando ogni 10. Osserva i punti della dispersione e i grafici delle distribuzioni marginali. Interpreta i risultati nel contesto della discussione precedente. 30. Supponi che (X, Y) sia distribuito uniformemente sul cerchio R = {(x, y): x2 + y2 < 36}. 1. Trova la densità condizionata di Y dato X = x (-6, 6). 2. Trova la densità condizionata di X dato Y = y (-6, 6). 3. Prova che X e Y sono dipendenti. 31. Nell'esperimento uniforme bivariato, seleziona cerchio dal menu a tendina. Simula 5000 replicazioni, aggiornando ogni 10. Osserva i punti della dispersione e i grafici delle distribuzioni marginali. Interpreta i risultati nel contesto della discussione precedente. 32. Supponi che (X, Y, Z) sia distribuito uniformemente su R = {(x, y, z): 0 < x < y < z} R3. 1. Trova la densità condizionata di ciascuna coppia di variabili data una terza variabile. 2. Trova la densità condizionata di ciascuna variabile dati i valori delle altre due. Distribuzioni mistura Coi nostri soliti insiemi S e T, supponiamo che Px sia una misura di probabilità su T per ogni x S. Supponiamo inoltre che g sia una funzione di densità di probabilità su S. Possiamo ottenere una nuova misura di probabilità su T ponderando (o miscelando) le distribuzioni date sulla base di g. 33. Supponiamo in primo luogo che S sia numerabile, e che g sia una funzione di densità di probabilità discreta su S. Prova che la P definita sotto è una misura di probabilità su T: P(B) = x in S g(x) Px(B) per B T. 34. Nel contesto dell'esercizio precedente, supponi che Px sia una distribuzione discreta (rispettivamente continua) con funzione di densità hx per ogni x appartenente a S. Prova che anche P è discreta (rispettivamente continua) con funzione di densità h data da http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist5.html (7 di 8) [22/11/2001 17.46.49] Distribuzioni condizionate h(y) = x appartenente a S g(x) hx(y) per y appartenente a T. 35. Supponi ora che S sia un sottinsieme di Rn e che g sia una funzione di densità di probabilità continua su S. Mostra che la P definita sotto è una misura di probabilità su T: P(B) = S g(x)Px(B)dx per B T. 36. Nel contesto dell'esercizio precedente, supponi che Px sia una distribuzione discreta (rispettivamente continua) con funzione di densità hx per ogni x appartenente a S. Prova che anche P è discreta (rispettivamente continua) con funzione di densità h data da h(y) = S g(x) hx(y) dx per y appartenente a T. In entrambi i casi, la distribuzione P è detta mistura delle distribuzioni Px, x densità di mistura g. S, con Si può avere una mistura di distriubuzioni senza avere variabili casuali definite su uno spazio di probabilità comune. In ogni caso, le misture sono intimamente legate alle distribuzioni condizionate. Per tornare al nostro ambiente di riferimento, supponiamo che X e Y siano variabili casuali relative a un esperimento a valori, rispettivamente, in S e T. Supponiamo che X abbia distribuzione discreta oppure continua, con densità g. L'esercizio seguente è semplicemente una diversa versione del teorema delle probabilità totali. 37. Prova che la distribuzione di Y è una mistura delle distribuzioni condizionate di Y dato X = x, in x appartenente a S, con densità di mistura g. 38. Supponi che X sia una variabile casuale a valori in S Rn, con ditribuzione mista discreta e continua. Prova che la distribuzione di X è una mistura di una distribuzione discreta e una continua, nel senso definito sopra. Laboratorio virtuale > Distribuzioni > 1 2 3 4 [5] 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist5.html (8 di 8) [22/11/2001 17.46.49] Funzioni di ripartizione Laboratorio virtuale > Distribuzioni > 1 2 3 4 5 [6] 7 8 9 6. Funzioni di ripartizione Definizione Al solito, iniziamo introducendo un esperimento casuale su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali relativa all'esperimento. La funzione di ripartizione (cumulata) di X è la funzione F data da F(x) = P(X x) per x appartenente a R. Tale funzione è estremamente importante poiché ha senso per qualsiasi tipo di variabile, indipendentemente dal fatto che la distribuzione sia discreta, continua, o anche mista, e poiché individua completamente la distribuzione di X. Abbrevieremo come segue alcuni dei limiti di F: ● F(x+) = lim F(t) per t x+. ● F(x-) = lim F(t) per t x-. ● F( ● F(- ) = lim F(t) per t ) = lim F(t) per t . - Proprietà fondamentali Le proprietà elencate negli esercizi seguenti individuano completamente le funzioni di ripartizione. I teoremi di continuità della probabilità saranno utili per le dimostrazioni. 1. Prova che F è crescente: se x y allora F(x) F(y). 2. Dimostra che F(x+) = F(x) per x appartenente a R. Pertanto F è continua da destra: 3. Mostra che F(x-) = P(X < x) per x appartenente a R. Quindi, F ha limiti sinistri: 4. Prova che F( 5. Prova che F(- ) = 1. ) = 0. L'esercizio seguente mostra come la funzione di ripartizione possa essere utilizzata per calcolare la probabilità che X cada in un certo intervallo. Ricorda che una distribuzione di probabilità su R è completamente individuata dalle probabilità degli intervalli; pertanto, la funzione di ripartizione individua la distribuzione di X. In ciascun caso, il risultato utile è P(B Ac) = P(B) - P(A) se A B. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist6.html (1 di 9) [22/11/2001 17.46.56] Funzioni di ripartizione 6. Supponi che a e b appartengano a R con a < b. Dimostra che 1. P(X = a) = F(a) - F(a-) 2. P(a < X b) = F(b) - F(a) 3. P(a < X < b) = F(b-) - F(a) b) = F(b) - F(a-) 4. P(a X 5. P(a X < b) = F(b-) - F(a-) 7. Dimostra che se X ha distribuzione continua, allora la funzione di ripartizione F è continua. Relazione con la funzione di densità Esiste una relazione molto semplice tra funzione di ripartizione e funzione di densità. 8. Supponi che X abbia distribuzione discreta con funzione di densità f e funzione di ripartizione F. Prova che per x appartenente a R, 1. F(x) = t <= x f(t). 2. f(x) = F(x) - F(x-) Pertanto F è una funzione a gradini con "salti" per i valori di X con probabilità positiva; l'ampiezza del salto in x coincide con la funzione di densità in x. Esiste un risultato analogo per le distribuzioni continue. 9. Supponi che X abbia distribuzione continua con funzione di densità f e funzione di ripartizione F. Dimostra che 1. F(x) = t <= x f(t)dt. 2. f(x) = F'(x) Per le distribuzioni miste, il risultato è una combinazione di quelli degli ultimi due esercizi. 10. Supponi che X abbia distribuzione mista con densità parziale discreta g e densità parziale continua h. Sia F la funzione di ripartizione. Dimostra che 1. F(x) = t <= x g(t) + t <= x h(t)dt. 2. g(x) = F(x) - F(x-) se F è discontinua in x. 3. h(x) = F'(x) se F è continua in x. Ovviamente, la funzione di ripartizione può essere definita relativamente a ciascuna delle distribuzioni condizionate che abbiamo presentato. Non servono nuovi concetti, e tutti i risultati presentati poc'anzi continuano a valere. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist6.html (2 di 9) [22/11/2001 17.46.56] Funzioni di ripartizione 11. Supponi che X abbia distribuzione continua su R con funzione di densità f simmetrica attorno a un punto a: f(a + t) = f(a - t) per t appartenente a R. Prova che la funzione di ripartizione F soddisfa F(a - t) = 1 - F(a + t) per t appartenente a R. Esercizi numerici 12. Supponi di lanciare due dadi equilibrati e registrare la sequenza di punteggi (X1, X2). Trova la funzione di ripartizione di 1. Y = X1 + X2, la somma dei punteggi. 2. V = max (X1, X2), il punteggio massimo. 3. Y dato V = 5. 13. Supponi che X sia distribuito uniformemente sull'intervallo (a, b) dove a < b. 1. Trova la funzione di ripartizione X. 2. Disegna i grafici delle funzioni di densità e di ripartizione. 14. Supponi che X abbia funzione di densità f(x) = 12x2(1 - x), 0 < x < 1. Ciò significa che X ha distribuzione beta. 1. Trova la funzione di ripartizione X. 2. Disegna i grafici delle funzioni di densità e di ripartizione. 15. Supponi che X abbia funzione di densità f(x) = r exp(-rx), x > 0 dove r > 0 è un parametro. Ciò significa che X ha distribuzione esponenziale con parametro di velocità r. 1. Trova la funzione di ripartizione X. 2. Disegna i grafici delle funzioni di densità e di ripartizione. 16. Supponi che X abbia funzione di densità f(x) = a / xa+1 per x > 1 dove a > 0 è un parametro. Ciò significa che X ha distribuzione di Pareto con parametro di forma a. 1. Trova la funzione di ripartizione X. 2. Disegna i grafici delle funzioni di densità e di ripartizione. 17. Supponi che X abbia funzione di densità f(x) = 1 / [ a R. Ciò significa che X ha distribuzione di Cauchy. (1 + x2)] per x appartenente 1. Trova la funzione di ripartizione X. 2. Disegna i grafici delle funzioni di densità e di ripartizione. 18. Nell'applet quantile, modifica i parametri e osserva la forma della funzione di http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist6.html (3 di 9) [22/11/2001 17.46.56] Funzioni di ripartizione densità e della funzione di ripartizione per ciascuna delle seguenti distribuzioni: 1. Normale 2. Gamma 3. Beta 4. Di Pareto 19. Sia F la funzione definita come segue: ● F(x) = 0, per x < 1 ● F(x) = 1 / 10 per 1 ● F(x) = 3 / 10 per 3 / 2 ● F(x) = 6 / 10 per 2 ● F(x) = 9 / 10 per 5 / 2 x<3/2 x<2 x<5/2 x<3 F(x) = 1 per x 3. 1. Prova che F è la funzione di ripartizione di una distribuzione discreta. 2. Trova la corrispondente funzione di densità f. 3. Disegna i grafici di f e F. ● 4. Trova P(2 X < 3) dove X ha questa distribuzione. 20. Sia F(x) = 0 per x < 0, F(x) = x / (x + 1) for 0 x. 1. Prova che F è la funzione di ripartizione di una distribuzione continua. 2. Trova la corrispondente funzione di densità f. 3. Disegna i grafici di f e F. 4. Trova P(2 X < 3) dove X ha questa distribuzione. 21. Sia F la funzione definita da ● F(x) = 0 per x < 0 ● F(x) = x / 4 per 0 ● F(x) =1 / 3 + (x - 1)2 / 4 per 1 ● F(x) = 2 / 3 + (x - 2)3 / 4 per 2 x < 3 F(x) = 1 per x > 3 Disegna il grafico di F. Prova che F è la funzione di ripartizione di una distribuzione mista. Trova la densità parziale della parte discreta. Trova la densità parziale della parte continua. ● 1. 2. 3. 4. x<1 x<2 http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist6.html (4 di 9) [22/11/2001 17.46.56] Funzioni di ripartizione 5. Trova P(2 X < 3) dove X ha questa distribuzione. Quantili Sia X una variabile casuale con funzione di ripartizione F. Supponi che p valore di x tale che F(x-) = P(X < x) p e F(x) = P(X x) (0, 1). Un p è detto quantile di ordine p per la distribuzione. In prima approssimazione, un quantile di ordine p è un valore per cui la distribuzione cumulata passa per p. Notiamo che sussiste una sorta di relazione inversa tra i quantili e i valori della distribuzione cumulata. Per esplorare ulteriormente questa relazione, supponiamo in primo luogo che F sia la funzione di ripartizione di una distribuzione continua su un intervallo aperto S. (Poiché la distribuzione è continua, non si perde in generalità assumendo che S sia aperto). Inoltre, supponiamo che F sia strettamente crescente, e che vada da S su (0, 1). (Ciò significa che ciascuno sottointervallo aperto di S ha probabilità positiva, cosicché la distribuzione ha supporto in S). F, allora, ha un'inversa definita F-1 che vada da (0, 1) su S. 22. Sotto le condizioni di cui sopra, prova che F-1(p) è l'unico quantile di ordine p. Per il calcolo dei quantili e per molte altre applicazione è molto utile estendere la nozione di inversa a una funzione di ripartizione arbitraria F. Per p appartenente a (0, 1), definiamo la funzione quantile; come F-1(p) = inf{x R: p F(x)}. Ovviamente, se S è un intervallo e F è strettamente crescente su S, allora F-1 è l'inversa ordinaria di F, come visto poc'anzi. L'esercizio seguente ne spiega il nome: F-1(p) è il minimo dei quantili di ordine p. 23. per p appartenente a (0, 1), prova che 1. F-1(p) è un quantile di ordine p. 2. Se x è un altro quantile di ordine p allora F-1(p) < x. Le altre due proprietà fondamentali sono dati nei due esercizi seguenti. 24. Dimostra che, in generale 1. F-1 è crescente in (0, 1). 2. F-1[F(x)] x per ciascun x in R con 0 < F(x) < 1. 3. F[F-1(p)] p per ciascun p in (0, 1). 25. Mostra che per x appartenente a R e p appartenente a (0, 1), F-1(p) x se e solo se p F(x). http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist6.html (5 di 9) [22/11/2001 17.46.56] Funzioni di ripartizione Un quantile di ordine 1/2 si dice mediana della distribuzione. Quando c'è una sola mediana, la si può utilizzare come misura del centro della distribuzione. Un quantile di ordine 1/4 è detto primo quartile e uno di ordine 3/4 terzo quartile. Una mediana è un secondo quartile. Assumendo l'unicità, siano q1, q2 e q3 rispettivamentede primo, secondo e terzo quartile di X. Nota che l'intervallo da q1 a q3 include metà della distribuzione, per cui lo scarto interquartile si definisce come IQR = q3 - q1, ed è a volte usato come misura della dispersione della distribuzione rispetto alla mediana. Siano a e b rispettivamente i valori minimo e massimo di X (assumendo che siano finiti). I cinque parametri a, q1, q2, q3, b sono detti spesso five-number summary. Presi insiemi, tali parametri contengono un bel po' di informazioni sulla distribuzione in termini di centralità, dispersione e asimmetria. Graficamente, tali parametri sono spesso rappresentati in un boxplot, formato da una linea che si estende dal valore minimo a al valore massimo b, con una rettangolo da q1 a q3, e segni in a, q2 (la mediana) e b. 26. Nell'istogramma interattivo, seleziona boxplot. Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione discreta con almeno 30 valori di ciascuno dei tipi indicati sotto. Osserva la forma del boxplot e le posizioni relative dei parametri del five-number summary: 1. Distribuzione uniforme. 2. Distribuzione simmetrica unimodale. 3. Distribuzione unimodale asimmetrica a destra. 4. Distribuzione unimodale asimmetrica a sinistra. 5. Distribuzione simmetrica bimodale 6. Distribuzione a forma di u. 27. Supponi che F sia la funzione di ripartizione della distribuzione uniforme su [a, b]. 1. Trova la funzione quantile F-1(p). 2. Riporta il five number summary e disegna il boxplot. 28. Supponi che F sia la funzione di ripartizione della distribuzione esponenziale con parametro di velocità r. 1. Trova la funzione quantile F-1(p). 2. Trova mediana, primo e terzo quartile e scarto interquartile. 3. Con r = 2, disegna il grafico della funzione di densità e indica la media e il primo e il terzo quartile. 29. Supponi che F sia la funzione di ripartizione della distribuzione di Pareto con http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist6.html (6 di 9) [22/11/2001 17.46.56] Funzioni di ripartizione parametro di forma a. 1. Trova la funzione quantile F-1(p). 2. Trova mediana, primo e terzo quartile e scarto interquartile. 3. Con a = 2, disegna il grafico della funzione di densità e indica la media e il primo e il terzo quartile. 30. Supponi che F sia la funzione di ripartizione della distribuzione di Cauchy. 1. Trova la funzione quantile F-1(p). 2. Trova mediana, primo e terzo quartile e scarto interquartile. 3. Disegna il grafico della funzione di densità e indica la media e il primo e il terzo quartile. 31. Trova la funzione quantile F-1 della funzione di ripartizione F dell'esercizio 19. 32. Trova la funzione quantile F-1 della funzione di ripartizione F dell'esercizio 20. 33. Trova la funzione quantile F-1 della funzione di ripartizione F dell'esercizio 21. 34. Nell'applet quantile, trova la mediana e il primo e terzo quartile delle seguenti distribuzioni. In ciascun caso, osserva sia la funzione di densità che la funzione di ripartizione. 1. Distribuzione normale standardizzata (mi = 0, sigma = 1) 2. Distribuzione gamma con parametro di forma 2 e parametro di scala 1. 3. Distribuzione beta con a = 1.5 e b = 2. 4. Distribuzione di Pareto con parametro di forma 2. 35. Supponi che X abbia distribuzione continua su R con densità f simmetrica rispetto a un punto a: f(a - t) = f(a + t) per t appartenente a R. Dimostra che se a + t è un quantile di ordine p allora a - t è un quantile di ordine 1 - p. La funzione di ripartizione della coda destra Supponiamo anche qui che X sia una variabile casuale con funzione di ripartizione F. Una funzione che chiaramente veicola la stessa informazione rispetto a F è la funzione di ripartizione della coda destra: G(x) = 1 - F(x) = P(X > x) per x R. 36. Riporta le proprietà matematiche della funzione di ripartizione della coda destra, analoghe alle proprietà degli esercizi 1-5. Supponi che T sia una variabile casuale con distribuzione continua su (0, ). Se interpretiamo T come la durata di un congegno, la funzione di ripartizione della coda http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist6.html (7 di 9) [22/11/2001 17.46.56] Funzioni di ripartizione destra G è detta funzione di affidabilità: G(t) è la probabilità che il congegno duri almeno t unità di tempo. Inoltre, la funzione h definita qui sotto è detta funzione del tasso di guasto: h(t) = f(t) / G(t). 37. Dimostra che h(t) dt ~ P(t < T < t + dt | T > t) se dt è piccolo. Quindi, h(t) dt rappresenta la probabilità che il congegno si rompa nelle prossime dt unità di tempo, sapendo che ha funzionato fino al tempo t. Inoltre, la funzione tasso di guasto individua completamente la distribuzione di T. 38. Mostra che G(t) = exp[- (0, t) h(s)ds] per t > 0. 39. Prova che la funzione tasso di guasto h soddisfa le seguenti proprietà: 1. h(t) 2. 0 per t > 0. (t: t > 0) h(t)dt = . 40. Di converso, supponi che h soddisfi le condizioni dell'esercizio 39. Prova che la formula dell'esercizio 38 definisce una funzione di affidabilità. 41. Considera la distribuzione con funzione tasso di guasto h(t) = tk, t > 0. 1. Trova la corrispondente funzione di affidabilità. 2. Trova la corrispondente funzione di densità. La distribuzione dell'esercizio precedente è la distribuzione di Weibull con parametro di forma k, che prende il nome da Walodi Weibull. Funzioni di ripartizione multivariate Supponiamo che X e Y siano variabili casuali a valori reali relative a un esperimento, cosicché (X, Y) è un vettore casuale a valori in un sottinsieme di R2. La funzione di ripartizione di (X, Y) è la funzione F definita come F(x, y) = P(X x, Y y). Come nel caso a variabile singola, la funzione di ripartizione di (X, Y) individua completamente la distribuzione di (X, Y). 42. Sia F la funzione di ripartizione di (X, Y), e siano G H, rispettivamente, le funzioni di ripartizione di X e Y. Dimostra che 1. G(x) = F(x, ) http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist6.html (8 di 9) [22/11/2001 17.46.56] Funzioni di ripartizione 2. H(y) = F( , y) 43. Nel contesto dell'esercizio precedente, prova che X e Y sono indipendenti se e solo se F(x, y) = G(x)H(y) per ogni x, y. 44. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. 1. 2. 3. 4. 5. 6. Trova la funzione di ripartizione di (X, Y). Trova la funzione di ripartizione di X. Trova la funzione di ripartizione di Y. Trova la funzione di ripartizione condizionata di X dato Y = y (0 < y < 1). Trova la funzione di ripartizione condizionata di Y dato X = x (0 < x < 1) X e Y sono indipendenti? Tutti i risultati presentati qui sopra si possono facilmente estendere al caso n-dimensionale. La funzione di ripartizione empirica Supponi che {x1, x2, ..., xn} siano dei dati reali osservati su una variabile casuale a valori reali. La funzione di ripartizione empirica è definita come Fn(x) = #{i {1, 2, ..., n}: xi x} / n per x R. Fn(x) indica quindi la proporzione di valori dei dati minori o uguali di x. 45. Sui dati M&M, calcola la funzione di ripartizione empirica del numero totale di pastiglie. 46. Nei dati sulla cicala, sia L la lunghezza corporea e G il sesso. Calcola le funzioni di ripartizione empiriche delle seguenti variabili: 1. L 2. L dato G = maschio 3. L dato G = femmina 4. Credi che L e G siano indipendenti? Per analizzare dal punto di vista statistico alcuni concetti presentati in questo paragrafo, vedi il capitolo sui campioni casuali, e in particolare i paragrafi su distribuzioni empiriche e statistiche d'ordine. Laboratorio virtuale > Distribuzioni > 1 2 3 4 5 [6] 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist6.html (9 di 9) [22/11/2001 17.46.56] Trasformazioni di variabili Laboratorio virtuale > Distribuzioni > 1 2 3 4 5 6 [7] 8 9 7. Trasformazioni di variabili Il problema generale Al solito, iniziamo introducendo un esperimento casuale su un certo spazio campionario e con misura di probabilità P. Supponiamo di avere una variabile casuale X relativa T. Y = r(X) è pertanto una all'esperimento, a valori in S e una trasformazione r: S nuova variabile casuale a valori in T. Se la distribuzione di X è nota, come facciamo a trovare la distribuzione di Y? In senso superficiale, la soluzione è semplice. 1. Prova che P(Y r -1(B)] for B B) = P[X T. Però spesso la distribuzione di X è nota o tramite la sua funzione di ripartizione F o tramite la sua funzione di densità f, e similmente si sarà interessati a trovare la funzione di ripartizione o di densità di Y. Questo problema è generalmente più difficile poiché, come vedremo, anche trasformazioni semplici di variabili con distribuzioni semplici possono produrre variabili con distribuzioni complesse. Risolveremo questo problema in alcuni casi particolari. Trasformazioni discrete 2. Supponi che X abbia distribuzione discreta con densità f (per cui S è numerabile). Dimostra che Y ha distribuzione discreta con funzione di densità g data da g(y) = x in r-1(y) f(x) per y appartenente a T. 3. Supponi che X abbia distribuzione continua su un sottinsieme S di Rn, con densità f e che T sia numerabile. Mostra che Y ha distribuzione continua con funzione di densità g data da g(y) = r-1(y) f(x)dx per y appartenente a T. 4. Supponi di lanciare due dadi equilibrati e di registrare la sequenza dei punteggi (X1, X2). Trova la funzione di densità delle seguenti variabili casuali: 1. Y = X1 + X2. 2. Z = X1 - X2. 3. U = min{X1, X2} http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist7.html (1 di 9) [22/11/2001 17.47.04] Trasformazioni di variabili 4. V = max{X1, X2} 5. (Y, Z) 6. (U, V) 5. Supponi che T abbia funzione di densità f(t) = r exp(-rt), t > 0 dove r > 0 è un parametro. (Si tratta della distribuzione esponenziale con parametro di velocità r). Trova la funzione di densità delle seguenti variabili casuali: 1. floor(T) (il minor intero minore o uguale a T). 2. ceil(T) (il minor intero maggiore o uguale a T). 6. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Sia I la variabile indicatore dell'evento {X > 1/2} e J la variabile indicatore dell'evento {Y > 1/2}. Trova la densità di (I, J). Distribuzioni continue Supponiamo che Y = r(X), dove X e Y hanno distribuzione continua e X ha densità nota f. In molti casi la densità di Y può essere ottenuta trovando la funzione di ripartizione di Y (utilizzando le regole della probabilità) e facendone la derivata. 7. Supponi che X sia distribuita uniformemente sull'intervallo (-2, 2). Sia Y = X2. 1. Trova la funzione di ripartizione di Y. 2. Trova la funzione di densità di Y e tracciane il grafico. 8. Supponi che X sia distribuita uniformemente sull'intervallo (-1, 3). Sia Y = X2. 1. Trova la funzione di ripartizione di Y. 2. Trova la funzione di densità di Y e tracciane il grafico. L'ultimo esercizio mostra che anche una trasformazione semplice di una distribuzione semplice può produrre una distribuzione complessa. 9. Supponi che X abbia funzione di densità f(x) = a / xa + 1 per x > 1, dove a > 0 è un parametro (si tratta della distribuzione di Pareto con parametro di forma a). Sia Y = ln(X). 1. Trova la funzione di ripartizione di Y. 2. Trova la funzione di densità di Y e tracciane il grafico. Osserva che la variabile casuale Y dell'esercizio precedente ha distribuzione esponenziale con parametro di velocità a. 10. Supponi che (X, Y) abbia densità f(x, y) = exp(-x -y) per x > 0, y > 0. X e Y sono pertanto indipendenti, e ciascuno ha distribuzione esponenziale con parametro 1. Sia Z = Y / X. 1. Trova la funzione di ripartizione di Z. 2. Trova la funzione di densità di Z. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist7.html (2 di 9) [22/11/2001 17.47.04] Trasformazioni di variabili 11. Valore assoluto di una variabile casuale. Supponi che X abbia distribuzione continua su R con funzione di ripartizione F e funzione di densità f. Dimostra che 1. |X| ha funzione di ripartizione G(y) = F(y) - F(-y) per y > 0. 2. |X| ha funzione di densità g(y) = f(y) + f(-y) per y > 0. 12. Continua. Supponi che la densità f di X sia simmetrica attorno a 0. Sia J il segno di X, per cui J = 1 se X > 0, J = 0 se X = 0 e J = -1 se X < 0. Prova che 1. |X| ha funzione di ripartizione G(y) = 2F(y) - 1 per y > 0. 2. |X| ha funzione di densità g(y) = 2f(y) per y > 0. 3. J è distribuita uniformemente su {-1, 1} 4. |X| e J sono indipendenti. La distribuzione uniforme su (0, 1) Un fatto degno di nota è che la distribuzione uniforme su (0, 1) può essere trasformata in ciascun'altra distribuzione su R. Ciò è particolarmente importante per le simulazioni, poiché molti linguaggi di programmazione possiedono algoritmi per la generazione di numeri casuali, cioè replicazioni di variabili indipendenti, ciascun distribuita su (0, 1). Di converso, ogni distribuzione continua supportata su un intervallo di R può essere trasformata nella distribuzione uniforme su (0, 1). Supponiamo in primo luogo che F sia una funzione di ripartizione, e indichiamo con F-1 la funzione quantile. 13. Supponi che U sia distribuita uniformemente su (0, 1). Prova che X = F-1(U) ha funzione di ripartizione F. Assumendo di poter calcolare F-1, l'esercizio precedente mostra come si possa simulare una distribuzione con funzione di ripartizione F. In altri termini, possimao simulare una variabile con funzione di ripartizione F semplicemente calcolando un quantile casuale. 14. Supponi che X abbia distribuzione continua su un intervallo S e che la funzione di ripartizione F sia strettamente crescente su S. Dimostra che U = F(X) ha distribuzione uniforme su (0, 1). 15. Mostra come simulare, partendo da un numero casuale, la distribuzione uniforme sull'intervallo (a, b). 16. Mostra come simulare, partendo da un numero casuale, la distribuzione esponenziale con parametro di velocità r > 0. 17. Mostra come simulare, partendo da un numero casuale, la distribuzione di Pareto con parametro di forma a > 0. La formula del cambiamento di variabile http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist7.html (3 di 9) [22/11/2001 17.47.04] Trasformazioni di variabili Quando la trasformazione r è biunivoca e "liscia" (nel senso che non ha "salti"), esite una formula per trovare la densità di Y direttamente in termini della densità di X. Tale risultato è detto formula del cambiamento di variabile. Analizziamo in primo luogo il caso monodimensionale, in cui concetti e formule sono più semplici. Supponiamo perciò che una variabile casuale X abbia distribuzione continua su un intervallo S di R con funzione di ripartizione F e funzione di densità f. Supponi che Y = r(X) dove r è funzione derivabile da S su un intervallo T. Al solito, indicheremo con G la funzione di ripartizione di Y e con g la funzione di densità di Y. 18. Supponi che r sia strettamente crescente su S. Prova che, per y appartenente a T, 1. G(y) = F[r-1(y)] 2. g(y) = f[r-1(y)] dr-1(y) / dy 19. Supponi che r sia strettamente decrescente su S. Prova che, per y appartenente a T, 1. G(y) = 1 - F[r-1(y)] 2. g(y) = -f[r-1(y)] dr-1(y) / dy Le formule degli esercizi 18 (a) e 19 (b) possono essere combinate: se r è strettamente monotona su S allora la densità g di Y è data da g(y) = f[r-1(y)] |dr-1(y) / dy| per y appartenente a T. La generalizzazione di questo risultato è in ultima analisi un teorema di analisi multivariata. Supponiamo che X sia una variabile casuale a valori in un sottinsieme S di Rn e che X abbia distribuzione continua con funzione di densità di probabilità f. Supponiamo inoltre che Y = r(X) dove r è una funzione biunivoca e derivabile da S su un sottinsieme T di Rn. Il Jacobiano (detto così in onore di Karl Gustav Jacobi) della funzione inversa x = r -1(y) è il determinante della matrice di derivate prime della funzione inversa, ovvero la matrice il cui elemento (i, j) è la derivata di xi rispetto a yj. Indicheremo il Jacobiano con J(y). La formula del cambiamento di variabile nel caso multivariato afferma che la densità g di Y è data da g(y) = f[r-1(y)] |J(y)| per y appartenente a T. 20. Supponi che X sia distribuito uniformemente sull'intervallo (2, 4). Trova la funzione di densità di Y = X2. 21. Supponi che X abbia funzione di densità f(x) = x2 / 3 per –1 < x < 2. Trova la funzione di densità di Y = X1/3. 22. Supponi che X abbia distribuzione di Pareto con parametro di forma a > 0. Trova http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist7.html (4 di 9) [22/11/2001 17.47.04] Trasformazioni di variabili la funzione di densità di Y = 1/X. La distribuzione di Y è una beta con parametri a e b = 1. 23. Supponi che X e Y siano indipendenti e uniformemente distribuite su (0, 1). Sia U = X + Y e V = X - Y. 1. Disegna il campo di variazione di (X, Y) e di (U, V). 2. Trova la funzione di densità di (U, V). 3. Trova la funzione di densità di U. 4. Trova la funzione di densità di V. Alcuni dei risultati dell'esercizio precedente saranno generalizzati più avanti. 24. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Sia U = XY e V = Y/X. 1. Disegna il campo di variazione di (X, Y) e di (U, V). 2. Trova la funzione di densità di (U, V). 3. Trova la funzione di densità di U. 4. Trova la funzione di densità di V. Trasformazioni lineari Le trasformazioni lineari sono tra le più comuni e le più importanti. In più, il teorema del cambiamento di variabile ha forma particolarmente semplice quando la trasformazione lineare è espressa in forma matriciale. Supponimo, come sopra, che X sia una variabile casuale a valori in un sottinsieme S di Rn e che X abbia distribuzione continua su S con funzione di densità di probabilità f. Sia Y = AX dove A è una matrice invertibile n × n. Ricorda che la trasformazione y = Ax è biunivoca, e la trasformazione inversa è x = A-1y. Notiamo che Y assuma valori in un sottinsieme T = {Ax: x S} of Rn. 25. Dimostra che il Jacobiano è J(y) = det(A-1) per y in T. 26. Applica il teorema del cambiamento di variabile per mostrare che Y ha funzione di densità g(y) = f(A-1y) |det(A-1)| for y in T. La distribuzione uniforme permane sotto trasformazioni lineari: 27. Supponi che X sia distribuita uniformemente su S. Mostra che Y è distribuita uniformemente su T. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist7.html (5 di 9) [22/11/2001 17.47.04] Trasformazioni di variabili 28. Supponi che (X, Y, Z) sia distribuito uniformemente sul cubo (0, 1)3. Trova la funzione di densità di (U, V, W) dove U = X + Y, V = Y + Z, W = X + Z. 29. Supponi che (X, Y) abbia funzione di densità f(x, y) = exp[-(x + y)] per x > 0, y > 0 (quindi X e Y sono indipendenti e con distribuzione esponenziale con parametro 1). Trova la funzione di densità di (U, V) dove U = X + 2Y, V = 3X - Y. Convoluzione La più importante di tutte le trasformazioni è la semplice addizione. 30. Supponi che X e Y siano variabili casuali discrete e indipendenti, a valori nei sottinsiemi S e T di R, con funzioni di densità rispettivamente f e g. Prova che la densità di Z = X + Y è f * g(z) = x f(x)g(z - x) dove la sommatoria è per gli {x convoluzione discreta di f e g. R: x Sez-x T}. La densità f * g è detta 31. Supponi che X e Y siano variabili casuali continue e indipendenti, a valori nei sottinsiemi S e T di R, con funzioni di densità rispettivamente f e g. Prova che la densità di Z = X + Y è f * g(z) = R f(x)g(z - x)dx. La densità f * g è detta convoluzione continua di f e g. 32. Prova che la convoluzione (discreta o continua) soddisfa le seguenti proprietà 1. f * g = g * f (proprietà commutativa) 2. f * (g * h) = (f * g) * h (proprietà associativa) Notiamo che se X1, X2, ..., Xn sono indipendenti e identicamente distribuite con funzione di densità comune f, allora Y = X1 + X2 + ··· + Xn. ha funzione di densità f*n, la convoluzione n-fold di f con se stessa. 33. Supponi di lanciare due dadi equilibrati. Trova la densità della somma dei punteggi. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist7.html (6 di 9) [22/11/2001 17.47.04] Trasformazioni di variabili 34. Nell'esperimento dei dadi, seleziona due dadi equilibrati. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della funzione di densità empirica a quella teorica. 35. In un dado piatto uno-sei, le facce 1 e 6 si escono con probabilità 1/4 ciascuna e le altre facce con probabilità 1/8 ciascuna. Supponi di lanciare due volte un dado di questo tipo. Trova la densità della somma dei punteggi. 36. Nell'esperimento dei dadi, seleziona due dadi piatti uno-sei. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della funzione di densità empirica a quella teorica. 37. Supponi di lanciare un dado equilibrato e un dado piatto uno-sei. Trova la funzione di densità della somma dei punteggi. 38. Supponi che X abbia distribuzione esponenziale con parametro di velocità a > 0, Y abbia distribuzione esponenziale con parametro di velocità b > 0 e che X e Y siano indipendenti. Trova la densità di Z = X + Y. 39. Sia f la funzione di densità della distribuzione uniforme su (0, 1). Calcola f*2 e f*3. Traccia i grafici delle densità. Molte importanti famiglie parametriche di distribuzioni sono chiuse rispetto alla convoluzione. Ciò significa che, quando due variabili casuali indipendenti hanno distribuzioni che appartengono a una certa famiglia, così è per la loro somma. Si tratta di una proprietà molto importante ed è una delle ragioni della rilevanza di tali famiglie. 40. Ricorda che f(n) = exp(-t) tn / n! per n = 0, 1, 2, ... è la funzione di densità di probabilità della distribuzione di Poisson con parametro t > 0. Supponi che X e Y siano indipendenti, e che X abbia distribuzione di Poisson con parametro a > 0 mentre Y abbia distribuzione di Poisson con parametro b > 0. Prova che X + Y ha distribuzione di Poisson con parametro a + b. Suggerimento: Usa il teorema binomiale. 41. Ricorda che f(k) = C(n, k) pk (1 - p)n - k for k = 0, 1, ..., n è la funzione di densità di probabilità della distribuzione binomiale con parametri n appartenente a {1, 2, ...} e p appartenente a (0, 1). Supponi che X e Y siano indipendenti e che X abbia distribuzione binomiale con parametri n e p mentre Y ha distribuzione binomiale con parametri m e p. Prova che X + Y ha distribuzione binomiale con parametri n + m e p. Suggerimento: Usa il teorema binomiale. Minimo e massimo Supponi che X1, X2, ..., Xn siano variabili casuali indipendenti a valori reali e che Xi abbia funzione di ripartizione Fi per ciascun i. Le trasformazioni minimo e massimo sono molto importanti per un gran numero di applicazioni. Specificamente, siano ● U = min{X1, X2, ..., Xn} http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist7.html (7 di 9) [22/11/2001 17.47.04] Trasformazioni di variabili ● V = max{X1, X2, ..., Xn} e siano rispettivamente G e H le funzioni di ripartizione di U e V. . 42. Prova che 1. V x se e solo se X1 x, X2 x, ..., Xn x. 2. H(x) = F1(x) F2(x) ··· Fn(x) per x appartenente a R. 43. Prova che 1. U > x se e solo se X1 > x, X2 > x, ..., Xn > x. 2. G(x) = 1 - [1 - F1(x)][1 - F2(x)] ··· [1 - Fn(x)] per x appartenente a R. Se Xi ha distribuzione continua con funzione di densità fi per ogni i, allora U e V hanno anch'esse distribuzione continua, e le densità possono essere ottenute derivando le funzioni di ripartizione degli esercizi 37 e 38. 44. Supponi che X1, X2, ..., Xn siano variabili casuali indipendenti distribuite uniformemente su (0, 1). Trova le funzioni di ripartizione e di densità di 1. U = min{X1, X2, ..., Xn} 2. V = max{X1, X2, ..., Xn} Nota che U e V dell'esercizio precedente hanno distribuzione beta. 45. Nell'esperimento statistica d'ordine, seleziona la distribuzione uniforme. 1. Poni k = 1 (per avere il minimo U). Modifica n con la barra e osserva la forma della funzione di densità. Con n = 5, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. 2. Modifica n con la barra a scorrimento, ponendo ogni volta k = n (per avere il massimo V) e osserva la forma della funzione di densità. Con n = 5, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. 46. Supponi che X1, X2, ..., Xn siano variabili casuali indipendenti e che Xi abbia distribuzione esponenziale con parametro di velocità ri > 0 per ogni i. Trova le funzioni di densità e di ripartizione di 1. Trova la funzione di ripartizione di U = min{X1, X2, ..., Xn} 2. Trova la funzione di ripartizione di V = max{X1, X2, ..., Xn} 3. Trova la funzione di densità di U e V nel caso in cui ri = r per ciascun i. Notiamo che il minimo U in (a) ha distribuzione esponenziale con parametro r1 + r2 + ··· + rn. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist7.html (8 di 9) [22/11/2001 17.47.04] Trasformazioni di variabili 47. Nell'esperimento statistica d'ordine, seleziona la distribuzione esponenziale. 1. Poni k = 1 (per avere il minimo U). Modifica n con la barra e osserva la forma della funzione di densità. Con n = 5, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. 2. Modifica n con la barra a scorrimento, ponendo ogni volta k = n (per avere il massimo V) e osserva la forma della funzione di densità. Con n = 5, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. 48. Supponi di lanciare n dadi equilibrati. Trova la funzione di densità del 1. punteggio minimo 2. punteggio massimo 49. Nell'esperimento dei dadi, seleziona dadi equilibrati e ciascuna delle seguenti variabili casuali. Modifica n con la barra e osserva la forma della funzione di densità. Con n = 4, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. 1. punteggio minimo 2. punteggio massimo 50. Supponi di lanciare n dadi piatti uno-sei (le facce 1 e 6 hanno probabilità 1/4; le facce 2, 3, 4, 5 hanno probabilità 1/8). Trova la funzione di densità del 1. punteggio minimo 2. punteggio massimo 51. Nell'esperimento dei dadi, seleziona dadi piatti uno-sei e ciascuna delle seguenti variabili casuali. Modifica n con la barra e osserva la forma della funzione di densità. Con n = 4, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. 1. punteggio minimo 2. punteggio massimo Per un argomento correlato, si rimanda alla trattazione delle statistiche d'ordine nel capitolo sui campioni casuali. Laboratorio virtuale > Distribuzioni > 1 2 3 4 5 6 [7] 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist7.html (9 di 9) [22/11/2001 17.47.04] Convergenza in distribuzione Laboratorio virtuale > Distribuzioni > 1 2 3 4 5 6 7 [8] 9 8. Convergenza in distribuzione Definizione Supponi che Xn, n = 1, 2, ... e X siano variabili casuali a valori reali con funzioni di ripartizione, rispettivamente, Fn, n = 1, 2, ... e F. Si dice che la distribuzione di Xn converge alla distribuzione di X per n Fn(x) F(x) as n se per ogni x in cui F è continua. Il primo fatto, abbastanza ovvio, che vale la pena notare è che la convergenza in distribuzione coinvolge esclusivamente le distribuzioni di variabili casuali. Pertanto, esse possono anche essere definite su spazi campionari diversi (ovvero non riguardare lo stesso esperimento). Questo contrasta con gli altri concetti di convergenza che abbiamo studiato: ● Convergenza quasi certa ● Convergence in probabilità ● Convergence in media k-esima Mostreremo difatti che la convergenza in distribuzione è la più debole di tutte queste modalità di convergenza, pur essendo comunque molto importante. Il teorema limite centrale, uno dei risultati più importanti della probabilità, ha a che vedere con la convergenza in distribuzione. Il primo esempio che presentiamo mostra perché la definizione è data in termini di funzioni di ripartizione, piuttosto che di funzioni di densità, e perché la convergenza è richiesta unicamente nei punti di continuità della funzione di ripartizione limite. 1. Sia Xn = 1 / n, per n = 1, 2, ... e sia X = 0. Siano fn e f le corrispondenti funzioni di densità e Fn e F le corrispondenti funzioni di ripartizione. Mostra che 1. fn(x) 0 per n per ogni x. 2. Fn(x) 0 per n se x 3. Fn(x) F(x) as n 0 e Fn(x) per ogni x 1 per n se x > 0 0. Il prossimo esempio mostra che anche quando le variabili sono definite sullo stesso spazio di probabilità, una successione può convergere in distribuzione, ma non in ogni altra maniera. 2. Sia I una variabile indicatore con P(I = 1) = 1/2 e sia In = I per n = 1, 2, .... Prova che 1. 1 - I è distribuita come I. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist8.html (1 di 6) [22/11/2001 17.47.16] Convergenza in distribuzione 2. La distribuzione di In converge alla distribuzione di 1 - I per n . 3. |In - (1 - I)| = 1 per ogni n. 4. P(In non converge a 1 - I per n ) = 1. 5. P(|In - (1 - I)| > 1 / 2) = 1 per ogni n, per cui In non converge a 1 - I in probabilità. 6. E(|In - (1 - I)|) = 1, per ogni n, per cui In non converge a 1 - I in media. 3. Supponi che fn, n = 1, 2, ... e f siano funzioni di densità di probabilità discrete f(x) per n per ogni x definite su un insieme numerabile S e che fn(x) appartenente a S. Prova che la distribuzione corrispondente a fn converge alla distribuzione corrispondente a f per n . 4. Supponi che X sia una variabile casuale a valori reali. Prova che la distribuzione . condizionata di X dato X t converge alla distribuzione di X per t Esistono molti importanti casi in cui una distribuzione notevole converge a un'altra distribuzione quando un parametro si avvicina a un certo valore limite. In realtà, tali risultati di convergenza sono parte della ragione per cui tali distribuzioni sono notevoli. 5. Supponi che P(Y = k) = p(1 - p)k - 1 per k = 1, 2, ..., dove p appartenente a (0, 1] è un parametro. Y ha pertanto distribuzione geometrica con parametro p. 1. Trova la funzione di densità condizionata di Y dato Y n. 2. Prova che la distribuzione in (a) converge alla distribuzione uniforme su {1, 2, ..., n} as p 0+. Ricorda che la distribuzione binomiale con parametri n appartenente a {1, 2, ...} e p appartenente a (0, 1) è la distribuzione del numero dei successi in n prove Bernoulliane, dove p è la probabilità del successo in una prova. Tale distribuzione ha funzione di densità di probabilità discreta f(k) = C(n, k) pk (1 - p)n - k per k = 0, 1, ..., n. Ricorda inoltre che la distribuzione di Poisson con parametro t > 0 ha funzione di densità di probabilità discreta: g(k) = exp(-t) tk / k! per k = 0, 1, 2, ... 6. Prova che per dato t > 0, la distribuzione binomiale con parametri n e pn = t / n converge alla distribuzione di Poisson con parametro t per n . Per ulteriori informazioni su questo importante risultato, puoi vedere il paragrafo sulle analogie tra prove Bernoulliane e processi di Poisson. Ricorda che la distribuzione ipergeometrica con parametri N, R e n è il numero di oggetti di un dato tipo in un campione di dimensione n estratto senza reinserimento da una http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist8.html (2 di 6) [22/11/2001 17.47.16] Convergenza in distribuzione popolazione di N oggetti, di cui R del tipo dato. Ha funzione di densità di probabilità discreta f(k) = C(n, k) (R)k (N - R)n - k / (N)n per k = 0, 1, ..., n. 7. Supponi che R dipenda da N e che R / N p per N . Prova che, per dato n, la distribuzione ipergeometrica con parametri N, R, n converge alla distribuzione binomiale con parametri n e p as N . Relazione con la convergenza in probabilità Supponi che Xn, n = 1, 2, ... e X siano variabili casuali (definite sullo stesso spazio campionario) con funzioni di ripartizione rispettivamente Fn, n = 1, 2, ... e F. Gli esercizi X per n seguenti mostreranno che, se Xn in probabilità, allora la distribuzione di Xn converge alla distribuzione di X per n . 8. Mostra che per r > 0, 1. P(Xn x) = P(Xn x, X x + r) + P(Xn 2. Fn(x) F(x + r) + P(|Xn - X| > r). x, X > x + r). 9. Mostra che per r > 0, 1. P(X x - r) = P(X 2. F(x - r) x - r, Xn x) + P(X x - r, Xn > x). Fn(x) + P(|Xn - X| > r). 10. Sulla base dei risultati degli esercizi 8 e 9, mostra che per ogni r > 0, F(x - r) + P(|Xn - X| > r) Fn(x) F(x + r) + P(|Xn - X| > r). 11. Supponi ora che Xn X per n 10 per dimostrare che per r > 0, F(x - r) lim infn Fn(x) 12. Poni r limn Fn(x) lim supn Fn(x) in probabilità. Poni n nell'esercizio F(x + r) 0 per mostrare che, se F è continua in x allora F(x) per n . Per concludere, le implicazioni vanno da sinistra a destra nella seguente tabella (dove j < k); nessuna altra implicazione vale in generale. convergenza quasi certa convergenza in convergenza in media k-esima media j-esima convergenza in probabilità http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist8.html (3 di 6) [22/11/2001 17.47.16] convergenza in distribuzione Convergenza in distribuzione In ogni caso, l'esercizio seguente riporta un'importante eccezione quando la variabile limite è costante: 13. Supponi che X1, X2, ... siano variabili casuali (definite sullo stesso spazio campionario) e che la distribuzione di Xn converga alla distribuzione della costante c per . Dimostra che Xn converge in probabilità a c. n 1. P(Xn x) 2. P(|Xn - c| 0 per n r) se x < c and P(Xn x) 1 per n se x > c. 1 per ogni r > 0. La rappresentazione di Skorohod Supponiamo che Fn, n = 1, 2, ... e F siano funzioni di ripartizione e che Fn F per n nel senso della convergenza in distribuzione. Vedremo ora che esistono variabili casuali Xn, n = 1, 2, ... e X (definite sullo stesso spazio di probabilità) tali che 1. Xn ha funzione di ripartizione Fn per ogni n, 2. X ha distribuzione F, 3. Xn X per n con probabilità 1. Questo interessante risultato è noto come teorema di rappresentazione di Skorohod. In primo luogo, sia U distribuita uniformemete sull'intervallo (0, 1). Definiamo le variabili casuali Xn, n = 1, 2, ... e X come Xn = Fn-1(U), X = F-1(U), dove Fn-1 e F-1 sono le funzioni quantile rispettivamente di Fn e F. 14. Ricorda dalle transformazioni della variabile uniforme che Xn ha funzione di ripartizione Fn e X ha funzione di ripartizione F. Il nucleo della dimostrazione, presentata nella prossima serie di esercizi, è di provare che se u appartiene a (0, 1) e F-1 è continua in u allora Fn-1(u) F-1(u) per n . Sia quindi r > 0 e sia u appartenente a (0, 1). Scegli un punto x di continuità di F tale che F-1(u) - r < x < F-1(u). 15. Mostra che 1. F(x) < u. 2. Fn(x) < u per n sufficientemente grande. 16. Concludi dall'esercizio 15 che, per n sufficientemente grande http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist8.html (4 di 6) [22/11/2001 17.47.16] Convergenza in distribuzione F-1(u) - r < x < Fn-1(u). 17. Poni n er appartenente a (0, 1). F-1(u) 0+ nell'esercizio 16 per concludere che per ogni u lim infn Fn-1(u). Ora, scegliamo un v che soddisfi u < v < 1 e sia r > 0. Scegli un punto di continuità di F tale che F-1(v) < x < F-1(v) + r. 18. Mostra che 1. u < v < F(x). 2. u < Fn(x) per n sufficientemente grande. 19. Dall'esercizio 18, concludi che per n sufficientemente grande, Fn-1(u) x < F-1(v) + r. 20. Poni n con u < v, lim supn Fn-1(u) 21. Poni v lim supn Fn-1(u) er 0+ nell'esercizio 19 per concludere che per ogni u, v in (0, 1) F-1(v). u- nell'esercizio 20 per mostrare che u è un punto di continuità di F, F-1(u). 22. Dagli esercizi 16 e 20 concludi che se u è un punto di continuità di F, allora Fn-1(u) F-1(u) per n . Per completare la dimostrazione, abbiamo bisogno di un risultato dell'analisi: poiché F-1 è crescente, l'insieme D di punti di discontinuità di F-1 in (0, 1) è numerabile. 23. Nota che 1. P(U D) = 0. 2. P(Xn X per n ) = 1. Il seguente risultato illustra il valore della rappresentazione di Skorohod. 24. Supponi che Xn, n = 1, 2, ... e X siano variabili casuali tali che le distribuzioni di Xn convergano alla distribuzione di X per n . Se g: R distribuzione di g(Xn) converge alla distribuzione di g(X) per n http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist8.html (5 di 6) [22/11/2001 17.47.16] R è continuo, allora la . Convergenza in distribuzione 1. Siano Yn, n = 1, 2, ... e Y variabili casuali, definite sul medesimo spazio campionario, tali che Yn abbia la stessa distribuzione di Xn per ogni n, Y abbia la stessa distribuzione di X e Yn 2. Spiega perché g(Yn) Y per n g(Y) as n con probabilità 1. con probabilità 1. 3. Spiega perché la distribuzione di g(Yn) converge alla distribuzione di g(Y) per n . 4. Spiega perché g(Yn) ha la stessa distribuzione di g(Xn) e perché g(Y) ha la stessa distribuzione di g(X). Laboratorio virtuale > Distribuzioni > 1 2 3 4 5 6 7 [8] 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist8.html (6 di 6) [22/11/2001 17.47.16] Note conclusive Laboratorio virtuale > Distribuzioni > 1 2 3 4 5 6 7 8 [9] 9. Note conclusive Libri Questo capitolo copre argomenti fondamentali che sono trattati, a vari livelli di approfondimento, in ogni libro di probabilità. ● An Introduction to Probability Theory and its Applications, Volume 1 (terza edizione) di William Feller è considerato uno dei migliori testi sulla probabilità mai scritti. ● Un testo eccellente per la probabilità elementare ricco di esempi ed esercizi è A First Course in Probability (quinta edizione) di Sheldon Ross ● Una trattazione sintetica della probabilità elementare si ha in The Essentials of Probability di Richard Durrett ● Per una trattazione più completa dal punto di vista della misura della probabilità, puoi vedere Probability and Measure, di Patrick Billingsley. ● Una trattazione della storia della probabilità è in Games, Gods and Gambling, di Florence David Siti esterni ● Il sito più importante per informazioni storiche sulla probabilità è History of Mathematics. Risposte agli esercizi del paragrafo 1 1.2. 1. P[(X1, X2) = (x1, x2)] = 1 / 36 per (x1, x2) appartenente a {1, 2, 3, 4, 5, 6}2. 2. 3. 4. 5. P(Y = y) = (6 - |7 - y|) / 36, per y = 2, 3, ..., 12. P(U = u) = (13 - 2u) / 36 per u = 1, 2, 3, 4, 5, 6. P(V = v) = (2v - 1) / 36, per v = 1, 2, 3, 4, 5, 6. P[(U, V) = (u, v)] = 2 / 36 se u < v, P[(U, V) = (u, v) = 1 / 36 se u = v, per u, v = 1, 2, 3, 4, 5, 6. 1.8. Sia f(y) = P(Y = y) = C(30, y) C(20, 5 - y) / C(50, 5); 1. f(0) = 0.0073, f(1) = 0.0686, f(2) = 0.2341, f(3) = 0.3641, f(4) = 0.2587, f(5) = 0.0673 2. moda: y = 3. 3. P(Y > 3) = 0.3259 http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (1 di 16) [22/11/2001 17.47.35] Note conclusive 1.12. Let f(k) = P(X = k) = C(5, x) (0.4)k (0.6)5 - k per k = 0, 1, 2, 3, 4, 5. 1. f(0) = 0.0778, f(1) = 0.2592, f(2) = 0.3456, f(3) = 0.2304, f(4) = 0.0768, f(5) = 0.0102. 2. moda: k = 2 3. P(X > 3) = 0.9870. 1.15. 1. moda: n = 2. 2. P(N > 4) = 0.1088 1.17. P(I = i1 i2 ... in) = (1 / 6)(1 / 2)n per n = 1, 2, 3, 4, 5, 6 e i1, i2, ..., in appartenente a {0, 1}. 1.19. 1. f(x) = x2 / 10 per x = -2, -1, 0, 1, 2. 2. mode: x = -2, 2. 3. P(X {-1, 1, 2}) = 3 / 5. 1.20. 1. f(n) = (1 - q)qn per n = 0, 1, 2, ... 2. P(X < 2) = 1 - q2. 3. P(X è pari) = 1 / (1 + q). 1.21. 1. f(x, y) = (x + y) / 18 per (x, y) 2. moda (2, 2). 3. P(X > Y) = 1 / 3. {0, 1, 2}2. 1.22. 1. f(x, y) = xy / 25 per (x, y) {(1, 1), (1, 2), (1, 3), (2, 2), (2, 3), (3, 3)}. 2. moda (3, 3). 3. P[(X, Y) {(1, 2), (1, 3), (2, 2), (2, 3)}] = 3 / 5. 1.26. P(X = x | X > 0) = x2 / 5 per x = 1, 2. 1.27. P(U = 2 | Y = 8) = 2 / 5, P(U = 3 | Y = 8) = 2 / 5, P(U = 4 | Y = 8) = 1 / 5. 1.31. Sia N il punteggio del dado e X il numero di teste. 1. P(X = 2) = 33 / 128. 2. P(N = n | X = 2) = (64 / 99) C(n, 2) (1 / 2)n per n = 2, 3, 4, 5, 6. 1.33. Sia V la probabilità di testa per la moneta estratta e X il numero di teste. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (2 di 16) [22/11/2001 17.47.35] Note conclusive 1. P(X = 2) = 169 / 432. 2. P(V = 1 / 2 | X = 2) = 45 / 169, P(V = 1 / 3 | X = 2) = 16 / 169, P(V = 1 | X = 2) = 108 / 169. 1.34. Sia X il punteggio del dado P(X = x) = 5 / 24 per x = 1, 6; P(X = x) = 7 / 48 per x = 2, 3, 4, 5. 1.36. Sia X il numero della linea produttiva e D l'evento in cui il pezzo è difettoso. 1. P(D) = 0.037 2. P(X = 1 | D) = 0.541, P(X = 2 | D) = 0.405, P(X = 3 | D) = 0.054 1.37. Le tabelle riportano le funzioni di densità empirica (frequenze relative) 1. r 3 4 5 6 8 9 10 11 12 14 15 20 P(R = r) 1/30 3/30 2/30 2/30 4/30 5/30 2/30 1/30 3/30 3/30 3/30 1/30 2. n 50 53 54 55 56 57 58 59 60 61 P(N = n) 1/30 1/30 1/30 4/30 4/30 3/30 9/30 3/30 2/30 2/30 3. r 3 4 6 8 9 11 12 14 15 P(R = r | N > 57) 1/16 1/16 1/16 3/16 3/16 1/16 1/16 3/16 2/16 1.38. Sesso G: 0 (femmina), 1 (maschio). Specie S: 0 (tredecula), 1 (tredecim), 2 (tredecassini). Le tabelle riportano le funzioni di densità empirica (frequenze relative). 1. i 0 1 P(G = i) 59 / 104 45 / 104 2. j 0 1 2 P(S = j) 44 / 104 6 / 104 54 / 104 3. i P(G = i, S = j) 0 1 0 16 / 104 28 / 104 j 1 3 / 104 3 / 104 2 40 / 104 14 / 104 4. i 0 1 P(G = i | W > 0.2 31 / 73 42 / 73 Risposte agli esercizi del paragrafo 2 2.4. P(T > 2) = exp(-1) = 0.3679 2.5. 2. moda a = 3. P(A < / 2. / 4) = 1 - 1 / 21/2 ~ 0.2929. 2.8. P(T > 3) = (17 / 2) exp(-3) ~ 0.4232. 2.11. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (3 di 16) [22/11/2001 17.47.36] Note conclusive 2. f(x) = 12x2(1 - x), 0 < x < 1. 3. P(1 / 2 < X < 1) = 11 / 16. 2.13. 3. P(-1 < X < 1) = 1 / 2. 2.17. 2. P(Y > 2X) = 5 / 24. 2.18. 1. f(x, y) = 2(x + y), 0 < x < y < 1. 2. P(Y > 2X) = 5 / 12. 2.19. 1. f(x, y) = 6x2y, 0 < x < 1, 0 < y < 1. 2. P(Y > X) = 2 / 5. 2.20. 1. f(x, y) = 15x2y, 0 < x < y < 1. 2. P(Y > 2X) = 1 / 8. 2.21. 1. f(x, y, z) = (x + 2y + 3z) / 3 per 0 < x < 1, 0 < y < 1, 0 < z < 1. 2. P(X < Y < Z) = 7 / 36. 2.23. P(X > 0, Y > 0) = 1 / 4. 2.25. P(X > 0, Y > 0) = 1 / 4. 2.27. P(X > 0, Y > 0) = 1 / 4. 2.29. P(X < Y < Z) = 1 / 6. 2.30. 1. P(T > 30) = 2 / 3. 2. P(T > 45 | T > 30) = 1 / 2. 2.33. f(x, y | X < 1 / 2, Y < 1 / 2) = 8(x + y), 0 < x < 1 / 2, 0 < y < 1 / 2. 2.34. Le densità empriche, basate su semplici partizioni del campo di variazione del peso e della lunghezza corporei, sono riportate nelle tabelle: 1. BW (0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] Densità 0.8654 5.8654 3.0769 0.1923 2. BL (15, 20] (20, 25] (25, 30] (30, 35] http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (4 di 16) [22/11/2001 17.47.36] Note conclusive Densità 0.0058 0.1577 0.0346 0.0019 3. BW (0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] Densità 0.3390 4.4068 5.0847 0.1695 (G = 0) 2.36. 3. P(Y > X) = 1 / 2. 2.37. 3. P(Y > X) = 1 / 2. Risposte agli esercizi del paragrafo 3 3.6. P(X > 6) = 13 / 40. 3.7. P(Y > X) = 4 / 9. 3.9. 1. P(U < 1) = 1 - exp(-1) ~ 0.6321 2. P(U = 2) = exp(-2) ~ 0.1353 3.13. 2. P(X > 1, Y < 1) = 5 / 18. 3.14. 2. P(V < 1 / 2, X = 2) = 33 / 320 ~ 0.1031 Risposte agli esercizi del paragrafo 4 4.6. Le densità congiunte e marginali sono riportate nella tabella seguente; Y e Z sono dipendenti. P(Y = y, Z = z) -5 -4 -3 -2 -1 z 0 1 2 3 4 5 P(Y = y) y P(Z = z) 2 3 4 5 6 7 8 9 0 11 12 0 0 0 0 0 1/36 0 0 0 0 0 1/36 0 0 0 0 1/36 0 1/36 0 0 0 0 2/36 0 0 0 1/36 0 1/36 0 1/36 0 0 0 3/36 0 0 1/36 0 1/36 0 1/36 0 1/36 0 0 4/36 0 1/36 0 1/36 0 1/36 0 1/36 0 1/36 0 5/36 1/36 0 1/36 0 1/36 0 1/36 0 1/36 0 1/36 6/36 0 1/36 0 1/36 0 1/36 0 1/36 0 1/36 0 5/36 0 0 1/36 0 1/36 0 1/36 0 1/36 0 0 4/36 0 0 0 1/36 0 1/36 0 1/36 0 0 0 3/36 0 0 0 0 1/36 0 1/36 0 0 0 0 2/36 0 0 0 0 0 1/36 0 0 0 0 0 1/36 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 1 http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (5 di 16) [22/11/2001 17.47.36] Note conclusive 4.7. Le densità congiunte e marginali sono riportate nella tabella seguente; U e V sono dipendenti. P(U = u, V = v) 1 2 3 v 4 5 6 P(U = u) u P(V = v) 1 2 3 4 5 6 1/36 0 0 0 0 0 1/36 2/36 1/36 0 0 0 0 3/36 2/36 2/36 1/36 0 0 0 5/36 2/36 2/36 2/36 1/36 0 0 7/36 2/36 2/36 2/36 2/36 1/36 0 9/36 2/36 2/36 2/36 2/36 2/36 1/36 11/36 11/36 9/36 7/36 5/36 3/36 1/36 1 4.8. 1. g(x) = x + 1/2 per 0 < x < 1. 2. h(y) = y + 1/2 per 0 < y < 1. 3. X e Y sono dipendenti. 4.9. 1. g(x) = (1 + 3x)(1 - x) per 0 < x < 1. 2. h(y) = 3y2 per 0 < y < 1. 3. X e Y sono dipendenti. 4.10. 1. g(x) = 3x2 per 0 < x < 1. 2. h(y) = 2y per 0 < y < 1. 3. X e Y sono indipendenti. 4.11. 1. g(x) = (15 / 2)(x2 - x4) per 0 < x < 1. 2. h(y) = 5y4 per 0 < y < 1. 3. X e Y sono dipendenti. 4.12. 1. f(X, Y)(x, y) = x + y per 0 < x < 1, 0 < y < 1. 2. f(X, Z)(x, z) = 2z(x + 1 / 2) per 0 < x < 1, 0 < z < 1. 3. f(Y, Z)(y, z) = 2z(y + 1 / 2) per 0 < y < 1, 0 < z < 1. 4. fX(x) = x + 1 / 2 per 0 < x < 1. 5. fY(y) = y + 1 / 2 per 0 < y < 1. 6. fZ(z) = 2z per 0 < z < 1. 7. Z e (X, Y) sono indipendenti; X e Y sono dipendenti. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (6 di 16) [22/11/2001 17.47.36] Note conclusive 4.16. 1. f(x, y) = 1 / 144, per -6 < x < 6, -6 < y < 6. 2. g(x) = 1 / 12 per -6 < x < 6. 3. h(y) = 1 / 12 per - 6 < y < 6. 4. X e Y sono indipendenti. 4.18. 1. f(x, y) = 1 / 72, per -6 < y < x < 6. 2. g(x) = (x + 6) / 72 per -6 < x < 6. 3. h(y) = (6 - y) / 72 per - 6 < y < 6. 4. X e Y sono dipendenti. 4.20. 1. f(x, y) = 1 / 36 per x2 + y2 < 36. 2. g(x) = (36 - x2)1/2 / 18 per -6 < x < 6. 3. h(y) = (36 - y2)1/2 / 18 per - 6 < y < 6. 4. X e Y sono dipendenti. 4.22. 1. f(x, y, z) = 1 per 0 < x < 1, 0 < y < 1, 0 < z < 1 (distribuzione uniforme su (0, 1)3). 2. (X, Y), (X, Z), e (Y, Z) hanno funzione di densità comune h(u, v) = 1 per 0 < u < 1, 0 < v < 1 (distribuzione uniforme su (0, 1)2). 3. X, Y, e Z hanno funzione di densità comune g(u) = 1 per 0 < u < 1 (distribuzione uniforme su (0, 1)). 4. X, Y, Z sono (mutualmente) indipendenti. 4.23. 1. f(x, y, z) = 6 per 0 < x < y < z < 1. 2. f(X, Y)(x, y) = 6(1 - y) per 0 < x < y < 1. 3. f(X, Z)(x, z) = 6(z - x) per 0 < x < z < 1. 4. f(Y, Z)(y, z) = 6y per 0 < y < z < 1. 5. fX(x) = 3(1 - x)2 per 0 < x < 1. 6. fY(y) = 6y(1 - y) per 0 < y < 1. 7. fZ(z) = 3z2 per 0 < z < 1. 8. Le variabili di ciascuna coppia sono dipendenti. 4.25. 1. g(x) = 1 / 3 per x = 1, 2, 3 (distribuzione uniforme su {1, 2, 3}). 2. h(y) = 11 / 18 per 0 < y < 1, h(y) = 5 / 18 per 1 < y < 2, h(y) = 2 / 18 per 2 < y < 3. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (7 di 16) [22/11/2001 17.47.36] Note conclusive 3. X e Y sono dipendenti. 4.26. 1. g(p) = 6p(1 - p) per 0 < p < 1. 2. h(0) = 1 / 5, h(1) = 3 / 10, h(2) = 3 / 10, h(3) = 1 / 5. 3. X e Y sono dipendenti. 4.27. Le densità empiriche congiunte e marginali sono presentate nella tabella seguente. Sesso e specie sono probabilmente dipendenti (confronta la densità congiunta col prodotto delle densità marginali). P(G = i, S = j) 0 j 1 2 P(G = i) i P(S = j) 0 1 16 / 104 28 / 104 44 / 104 3 / 104 3 / 104 6 / 104 40 / 104 14 / 104 56 / 104 59 / 104 45 / 104 1 4.28. Le densità empiriche congiunte e marginali, basate su semplici partizioni del campo di variazione di peso e lunghezza corporei, sono presentate nella tabella seguente. Il peso e la lunghezza corporei sono quasi certamente dipendenti. Densità (BW, BL) (15, 20] (20, 25] BL (25, 30] (30, 35] Densità BW BW Densità BL (0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] 0 0.0385 0.0192 0 0.0058 0.1731 0.9808 0.4231 0 0.1577 0 0.1538 0.1731 0.0192 0.0346 0 0 0 0.0192 0.0019 0.8654 5.8654 3.0769 0.1923 4.29. Le densità empiriche congiunte e marginali, basate su semplici partizioni del campo di variazione del peso corporeo, sono presentate nella tabella seguente. Il peso e il sesso sono quasi certamente dipendenti. Densità (BW, G) 0 1 Densità BW G BW Densità G (0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] 0.1923 2.5000 2.8846 0.0962 0.5673 0.6731 3.3654 0.1923 0.0962 0.4327 0.8654 5.8654 3.0769 0.1923 Risposte agli esercizi del paragrafo 5 5.9. Le densità condizionate di U dati i diversi valori di V sono riportate nella tabella seguente. P(U = u | V = v) 1 1 1 2 0 3 0 u 4 0 5 0 6 0 http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (8 di 16) [22/11/2001 17.47.37] Note conclusive v 2 3 4 5 6 2/3 1/3 0 0 0 0 2/5 2/5 1/5 0 0 0 2/7 2/7 2/7 1/7 0 0 2/9 2/9 2/9 2/9 1/9 0 2/11 2/11 2/11 2/11 2/11 1/11 5.10. Le denistà congiunte e marginali sono presentate nella prima tabella. Le densità condizionate di N dati i diversi valori di X sono riportati nella seconda tabella. n P(X = k) 1 2 3 4 5 6 0 1/12 1/24 1/48 1/96 1/192 1/384 21/128 1 1/12 1/12 1/16 1/24 5/192 1/64 5/16 2 0 1/24 1/16 1/16 5/96 5/128 33/128 k 3 0 0 1/48 1/24 5/96 5/96 1/6 4 0 0 0 1/96 5/192 5/128 29/384 5 0 0 0 0 1/192 1/64 1/48 6 0 0 0 0 0 1/384 1/384 P(N = n) 1/6 1/6 1/6 1/6 1/6 1/6 1 n P(N = n | X = k) 1 2 3 4 5 6 0 32/63 16/63 8/63 4/63 2/63 1/63 1 16/60 16/60 12/60 8/60 5/60 3/60 2 0 16/99 24/99 24/99 20/99 15/99 k 3 0 0 2/16 4/16 5/16 5/16 4 0 0 0 4/29 10/29 15/29 5 0 0 0 0 1/4 3/4 6 0 0 0 0 0 1 P(N = n, X = k) 5.12. Le denistà congiunte e marginali sono presentate nella prima tabella. Le densità condizionate di I dati i diversi valori di X sono riportati nella seconda tabella. k P(I = i) 1 2 3 4 5 6 0 1/12 1/12 1/12 1/12 1/12 1/12 1/2 i 1 1/8 1/16 1/16 1/16 1/16 1/8 1/2 P(X = k) 5/24 7/48 7/48 7/48 7/48 5/24 1 k P(I = i | X = k) 1 2 3 4 5 6 0 2/5 4/7 4/7 4/7 4/7 2/5 i 1 3/5 3/7 3/7 3/7 3/7 3/5 P(I = i, X = k) 5.14. La densità congiunta di (V, X) e la densità marginale di X sono riportate nella prima tabella. Le distribuzioni condizionate di V dati i diversi valori di X sono presentate nella seconda tabella. k http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (9 di 16) [22/11/2001 17.47.37] Note conclusive P(V = p, X = k) 1/2 p 1/3 1 P(X = k) P(V = p) 0 1 2 5/48 10/48 5/48 5/12 1/27 4/27 4/27 4/12 0 0 1/4 3/12 61/432 154/432 217/432 1 k P(V = p | X = k) 0 1 2 1/2 45/61 45/77 36/217 p 1/3 16/61 32/77 64/217 1 0 0 108/217 5.15. Sia N il numero della lampadina e T la durata. 1. P(T > 1) = 0.1156 b. n 1 2 3 4 5 P(N = n | T > 1) 0.6364 0.2341 0.0861 0.0317 0.0117 5.16. 1. P(N = n, X = k) = exp(-1) pk (1 - p)n - k / [k! (n - k)!] per n = 0, 1, ...; k = 0, ..., n. 2. P(X = k) = exp(-p) pk / k! per k = 0, 1, ... (Poisson con parametro p). 3. P(N = n | X = k) = exp[-(1 - p)] (1 - p)n - k / (n - k)! per n = k, k + 1, ... 5.17. 1. f(i, y) = 1 / 3i per i = 1, 2, 3 and 0 < y < i. 2. h(y) = 11 / 18 per 0 < y < 1, h(y) = 5 / 18 per 1 < y < 2, h(y) = 2 / 18 per 2 < y < 3. 3. Se 0 < y < 1 allora g(1 | y) = 6 / 11, g(2 | y) = 3 / 11, g(3 | y) = 2 / 11. Se 1 < y < 2 allora g(1 | y) = 0, g(2 | y) = 3 / 5, g(3 | y) = 2 / 5. Se 2 < y < 3 allora g(1 | y) = 0, g(2 | y) = 0, g(3 | y) = 1. 5.18. 1. g(x | y) = (x + y) / (y + 1/2) per 0 < x < 1, 0 < y < 1. 2. h(y | x) = (x + y) / (x + 1/2) per 0 < x < 1, 0 < y < 1. 3. X e Y sono dipendenti. 5.19. 1. g(x | y) = (x + y) / 3y2 per 0 < x < y < 1. 2. h(y | x) = (x + y) / [(1 + 3x)(1 - x)] per 0 < x < y < 1. 3. X e Y sono dipendenti. 5.20. 1. g(x | y) = 3x2 / y3 per 0 < x < y < 1. 2. h(y | x) = 2y / (1 - x2) per 0 < x < y < 1. 3. X e Y sono dipendenti. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (10 di 16) [22/11/2001 17.47.37] Note conclusive 5.21. 1. g(x | y) = 3x2 per 0 < x < 1, 0 < y < 1. 2. h(y | x) = 2y per 0 < x < 1, 0 < y < 1. 3. X e Y sono indipendenti. 5.22. 1. f(p, k) = 6 C(3, k) pk + 1 (1 - p)4 - k per 0 < p < 1, k = 0, 1, 2, 3. 2. h(0) = 1 / 5, h(1) = 3 / 10, h(2) = 3 / 10, h(3) = 1 / 5. 3. g(p | 0) = 30 p (1 - p)4, g(p | 1) = 60 p2 (1 - p)3, g(p | 2) = 60 p3 (1 - p)2, g(p | 3) = 30 p4 (1 - p), 0 < p < 1. 5.23. 1. f(x, y) = 1 / x per 0 < y < x < 1. 2. h(y) = -ln(y) per 0 < y < 1. 3. g(x | y) = -1 / [x ln(y)] per 0 < y < x < 1. 5.26. 1. h(y | x) = 1 / 12 per -6 < x < 6, -6 < y < 6. 2. g(x | y) = 1 / 12 per -6 < x < 6, -6 < y < 6. 3. X e Y sono indipendenti. 5.28. 1. h(y | x) = 1 / (x + 6) per -6 < y < x < 6. 2. g(x | y) = 1 / (6 - y) per -6 < y < x < 6. 3. X e Y sono dipendenti. 5.30. 1. h(y | x) = 1 / 2(36 - x2)1/2 per x2 + y2 < 36 2. g(x | y) = 1 / 2(36 - y2)1/2 per x2 + y2 < 36 3. X e Y sono dipendenti. 5.32. a. f(X, Y) | Z(x, y | z) = 2 / z2 per 0 < x < y < z < 1. b. f(X, Z) | Y(x, z | y) = 1 / y(1 - y) per 0 < x < y < z < 1. c. f(Y, Z) | X(y, z | x) = 2 / (1 - x)2 per 0 < x < y < z < 1. d. fX | (Y, Z)(x | y , z) = 1 / y per 0 < x < y < z < 1. e. fY | (X, Z)(y | x , z) = 1 / (z - x) per 0 < x < y < z < 1. f. fZ | (X, Y)(z | x , y) = 1 / (1 - y) per 0 < x < y < z < 1. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (11 di 16) [22/11/2001 17.47.37] Note conclusive Risposte agli esercizi del paragrafo 6 6.12. [12, (- , [2, 3) [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 10) [10, 11) [11, 12) 2) ) y P(Y y) v P(V P(Y 0 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 , 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6, ) 1/36 4/36 9/36 16/36 25/36 1 (- , 6) [6, 7) [7, 8) [8, 9) [9, 10) [10, 2/9 4/9 6/9 8/9 1 y | V = 5) 0 (v) 0 y 35/36 1 ) 6.13. a. P(X per x x) = 0 per x < a, P(X b. x) = (x - a) / (b - a), per a x) = 0 per x < 0, P(X x) = 4x3 - 3x4 per 0 x) = 0 per x < 0, P(X x) = 1 - exp(-rx) per x x) = 0 per x < 1, P(X x) = 1 - 1 / xa per x x < b, P(X x) = 1 6.14. a. P(X b. x < 1, P(X x) = 1 per x 6.15. a. P(X 0. 6.16. a. P(X 1. 6.17. a. P(X x) = 1/2 + (1/ ) arctan(x) 6.19. 2. f(1) = 1/10, f(3/2) = 1/5, f(2) = 3/10, f(5/2) = 3/10, f(3) = 1/10. 4. P(2 X < 3) = 3/5 6.20. 2. f(x) = 1 / (x + 1)2 per x > 0. 4. P(2 X < 3) = 1/12. 6.21. 3. g(1) = g(2) = g(3) = 1/12. 4. h(x) = 1/4 per 0 < x < 1, h(x) = (x - 1) / 2 per 1 < x < 2, h(x) = 3(x - 1)2 / 4 per 2 < x < 3. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (12 di 16) [22/11/2001 17.47.37] Note conclusive 5. P(2 X < 3) = 1/3. 6.27. 1. F-1(p) = a + (b - a)p per 0 < p < 1. 2. min = a, Q1 = (3a + b) /4, Q2 = (a + b) / 2, Q3 = (a + 3b) / 4, max = b. 6.28. 1. F-1(p) = -ln(1 - p) / r per 0 < p < 1. 2. Q1 = [ln(4) - ln(3)] / r, Q2 = ln(2) / r, Q3 = ln(4) / r, Q3 - Q1 = ln(3) / r. 6.29. 1. F-1(p) = (1 - p)-1/a per 0 < p < 1. 2. Q1 = (3 / 4)-1/a, Q2 = (1 / 2)-1/a, Q3 = (1 / 4)-1/a, Q3 - Q1 = (1 / 4)-1/a - (3 / 4)-1/a. 6.30. 1. F-1(p) = tan[ (p - 1/2)] per 0 < p < 1. 2. Q1 = -1, Q2 = 0, Q3 = 1, Q3 - Q1 = 2. 6.31. ● F-1(p) = 1, 0 < p ● F-1(p) = 3 / 2, 1 / 10 < p ● F-1(p) = 2, 3 / 10 < p ● F-1(p) = 5 / 2, 6 / 10 < p ● F-1(p) = 3, 9 / 10 < p 1/10 3 / 10 6 / 10 9 / 10 1 6.32. F-1(p) = p / (1 - p) per 0 < p < 1. 6.33. ● F-1(p) = 4p, 0 < p ● F-1(p) = 1, 1 / 4 < p ● F-1(p) = 1 + [4(p - 1 / 3)]1/2, 1 / 3 < p ● F-1(p) = 2, 7 / 12 < p ● F-1(p) = 2 + [4(p - 2 / 3)]1/3, 2 / 3 < p ● F-1(p) = 3, 11 / 12 < p 1/4 1/3 7 / 12 8 / 12 11 / 12 1 6.41. 1. G(t) = exp[-tk + 1 / (k + 1)] per t > 0. 2. f(t) = tk exp[-tk + 1 / (k + 1)] per t > 0. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (13 di 16) [22/11/2001 17.47.38] Note conclusive 6.44. 1. F(x, y) = (xy2 + yx2) / 2 per 0 < x < 1, 0 < y < 1. 2. G(x) = (x + x2) / 2 per 0 < x < 1. 3. H(y) = (y + y2) / 2 per 0 < y < 1. 4. G(x | y) = (x2 / 2 + xy) / (y + 1 / 2) per 0 < x < 1, 0 < y < 1. 5. H(y | x) = (y2 / 2 + xy) / (x + 1 / 2) per 0 < x < 1, 0 < y < 1. 6. X e Y sono dipendenti. 6.45. Sia N il numero complessivo di pastiglie. La funzione di ripartizione empirica di N è a gradini; la tabella seguente riporta i valori della funzione nei punti di discontinuità. n 50 53 54 55 56 57 58 59 60 61 n) 1/30 2/30 3/30 7/30 11/30 14/30 23/30 36/30 28/30 1 P(N Risposte agli esercizi del paragrafo 7 7.4. Vedi 4.6 e 4.7. 7.5. Sia Y = floor(T) e Z = ceil(T). 1. P(Y = n) = exp(-rn)[1 - exp(-r)] per n = 0, 1, ... 2. P(Z = n) = exp[-r(n - 1)][1 - exp(-r)] per n = 1, 2, ... 7.6. P(I = i, J = j) j 0 1 i 0 1 1/8 1/4 1/4 3/8 7.7. 1. G(y) = y1/2 / 2 per 0 < y < 4. 2. g(y) = y -1/2 / 4 per 0 < y < 4 7.8. 1. G(y) = y1/2 / 2 per 0 < y < 1, G(y) = (y1/2 + 1) / 4 per 1 < y < 9 2. g(y) = y -1/2 / 4 per 0 < y < 1, g(y) = y -1/2 / 8 per 1 < y < 9. 7.9. 1. G(y) = 1 - exp(-ay) per y > 0. 2. g(y) = a exp(-ay) per y > 0. 7.10. 1. G(z) = 1 - 1 / (1 + z) per z > 0. http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (14 di 16) [22/11/2001 17.47.38] Note conclusive 2. g(z) = 1 / (1 + z)2 per z > 0. 7.15. X = a + U(b - a) dove U è un numero casuale (uniformemente distribuito su (0, 1)). 7.16. X = -ln(1 - U) / r dove U è un numero casuale (uniformemente distribuito su (0, 1)). 7.17. X = 1 / (1 - U)1/a dove U è un numero casuale (uniformemente distribuito su (0, 1)). 7.20. g(y) = y -1/2 / 4 per 4 < y < 16. 7.21. g(y) = y8 per -1 < y < 21/3. 7.22. g(y) = aya - 1 per 0 < y < 1. 7.23. 2. g(u, v) = 1/2 per (u, v) appartenente al quadrato di vertici (0, 0), (1, 1), (2, 0), (1, -1). Quindi, (U, V) è distribuito uniformemente su tale quadrato. 3. h(u) = u per 0 < u < 1, h(u) = 2 - u per 1 < u < 2. 4. k(v) = 1 - v per 0 < v < 1, k(v) = 1 + v per -1 < v < 0 7.24. 1. g(u, v) = u1/2 v -3/2 (1 + v) per 0 < u < 1 / v, v > 1. 2. h(u) = 2(1 - u) per 0 < u < 1. 3. k(v) = (2 / 3)(1 / v3 + 1 / v2) per v > 1. 7.28. g(u, v, w) = 1 / 2 per (u, v, w) appartenente alla regione rettangolare di R3 di vertici (0, 0, 0), (1, 0, 1), (1, 1, 0), (0, 1, 1), (2, 1, 1), (1, 1, 2), (1, 2, 1), (2, 2, 2). 7.29. g(u, v) = exp[-(4u + v) / 7] / 7 per -3v / 4 < u < 2v, v > 0. 7.33. Sia Y = X1 + X2 la somma dei punteggi. y 2 3 4 5 6 7 8 9 10 11 12 P(Y = y) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 7.35. SiaY = X1 + X2 la somma dei punteggi. y 2 3 4 5 6 7 8 9 10 11 12 P(Y = y) 1/16 1/16 5/64 3/32 7/64 3/16 7/64 3/32 6/64 1/16 1/16 7.37. Sia Y = X1 + X2 la somma dei punteggi. y 2 3 4 5 6 7 8 9 10 11 12 http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (15 di 16) [22/11/2001 17.47.38] Note conclusive P(Y = y) 2/48 3/48 4/48 5/48 6/48 8/48 6/48 5/48 4/48 3/48 2/48 7.38. Sia h la densità di Z. 1. h(z) = a2 z exp(-az) per z > 0 se a = b. 2. h(z) = ab[exp(-az) - exp(-bz)] / (b - a) se a b. 7.39.. 1. f*2(z) = z per 0 < z < 1, f*2(z) = 2 - z per 1 < z < 2. 2. f*3(z) = z2 / 2 per 0 < z < 1, f*3(z) = 1 - (z - 1)2 / 2 - (2 - z)2 / 2 per 1 < z < 2, f*3(z) = (3 - z)2 / 2 per 2 < z < 3. 7.42. 1. G(t) = 1 - (1 - t)n per 0 < t < 1. g(t) = n(1 - t)n - 1 per 0 < t < 1. 2. H(t) = tn per 0 < t < 1, h(t) = n tn - 1 per 0 < t < 1. 7.43. 1. G(t) = exp(-nrt) per t > 0, g(t) = nr exp(-nrt) per t > 0. 2. H(t) = 1 - [1 - exp(-rt)]n per t > 0, h(t) = [1 - exp(-rt)]n - 1 nr exp(-rt)] per t > 0 7.44. Sia U il punteggio minimo e V il punteggio massimo. 1. P(U = k) = [1 - (k - 1) / 6]n - (1 - k / 6)n per k = 1, 2, 3, 4, 5, 6. 2. P(V = k) = (k / 6)n - [(k - 1) / 6]n per k = 1, 2, 3, 4, 5, 6. 7.45. Sia U il punteggio minimo e V il punteggio massimo. 1. k 1 2 3 4 6 P(U = k) 1 - (1/4)n (1/4)n 2. k 1 2 3 4 5 6 n n n n n n n P(V = k) (1/4) (3/8) - (1/4) (1/2) - (3/8) (5/8) - (1/2) (3/4)n - (5/8)n 1 - (3/4)n (3/4)n (3/4)n (5/8)n (5/8)n (1/2)n (1/2)n 5 (3/8)n (3/8)n Laboratorio virtuale > Distribuzioni > 1 2 3 4 5 6 7 8 [9] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/dist/dist9.html (16 di 16) [22/11/2001 17.47.38] Esperimenti casuali Laboratorio virtuale > Spazi di Probabilità > [1] 2 3 4 5 6 7 8 1. Esperimenti casuali Esperimenti La teoria della probabilità è basata sul concetto di esperimento casuale; ovvero un esperimento il cui risultato non può essere previsto con certezza prima di eseguire l'esperimento. Di solito si assume che l'esperimento possa essere ripetuto all'infinito, essenzialmente sotto le stesse condizioni. Questa assunzione è importante poiché la teoria della probabilità si occupa dei risultati di lungo termine, al replicare dell'esperimento. Ovviamente, la definizione completa di un esperimento casuale richiede che si individui con precisione quali informazioni relative all'esperimento si registrano, ovvero quello che costituisce l'esito dell'esperimento. Il termine parametro si riferisce a una quantità non aleatoria, di interesse per il modello, che una volta fissata resta costante. Molte modelli per esperimenti casuali possiedono uno o più parametri che si possono modificare per adattarsi allo specifico esperimento che si intende modellare. Esperimenti composti Supponiamo di avere n esperimenti E1, E2, ..., En. Possiamo generare un nuovo esperimento, composto, eseguendo in sequenza gli n esperimenti (E1 è il primo, E2 il secondo, e così via), independentemente l'uno dall'altro. Il termine indipendente significa, intuitivamente, che l'esito di un esperimento non ha influenza sugli altri. Definiremo questo concetto in termini formali più avanti. Supponiamo in particolare di avere un esperimento semplice. Un numero fissato (o anche infinito) di replicazioni indipendenti dell'esperimento semplice costituisce un nuovo esperimento composto. Molti esperimenti si rivelano essere composti e in più, come abbiamo già osservato, la stessa teoria della probabilità si basa sull'idea di replicare gli esperimenti. Supponiamo ora di avere un esperimento semplice con due possibili esiti. Le replicazioni indipendenti di questo esperimento si dicono prove Bernoulliane. Questo modello è uno dei più semplici, ma anche dei più importanti, per la teoria della probabilità. Supponiamo, più in generale, di avere un esperimento con k possibili esiti. Le replicazioni indipendenti di questo esperimento si dicono prove multinomiali. A volte un esperimento si presenta a stadi ben definiti, ma in maniera dipendente, nel senso che l'esito di un certo stadio è influenzato dagli esiti degli stadi precedenti. Esperimenti di campionamento In molti studi statistici, il dato di partenza è una popolazione di unità di interesse. Le unità possono essere persone, chip di memoria, campi di grano, o qualsivoglia. Di solito si http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob1.html (1 di 3) [22/11/2001 17.47.44] Esperimenti casuali hanno uno o più misure numeriche di interesse: l'altezza e il peso di una persona, la durata di un chip di memoria, la quantità di pioggia, di fertilizzante e la produzione di un campo di grano. Anche se si è interessati all'intera popolazione di unità, di solito tale insieme è troppo grande per essere studiato. Si raccoglie allora un campione casuale di unità dalla popolazione e si registrano le misurazioni di interesse per ciascuna unità del campione. Esistono due tipi fondamentali di campionamento. Se campioniamo con reinserimento, ogni unità è reinserita nella popolazione prima di ogni estrazione; pertanto, una singola unità può presentarsi più di una volta nel campione. Se campioniamo senza reinserimento, le unità estratte non vengono reinserite nella popolazione. Il capitolo sui Modelli di campionamento finiti analizza vari modelli basati sul campionamento da una popolazione finita. Il campionamento con reinserimento può essere pensato come un esperimento composto, basato su singole replicazioni dell'esperimento semplice consiste nell'estrarre una singola unità dalla popolazione e registrarne le misure di interesse. Al contrario, un esperimento composto consistente in n replicazioni indipendenti di un esperimento semplice che può essere pensato come campionamento. D'altro canto, il campionamento senza ripetizione è un esperimento formato da stadi dipendenti. Esercizi 1. Considera l'esperimento di lanciare n monete (distinte) e di registrare l'esito (testa o croce) per ogni moneta. 1. Identifica un parametro dell'esperimento 2. Definisci l'esperimento come composito 3. Identifica l'esperimento come estrazione con reinserimento 4. Identifica l'esperimento come n prove Bernoulliane 2. Nell'esperimento della moneta dell'esercizio 1, poni n = 5. Simula 100 replicazioni e osserva i risultati. 3. Considera l'esperimento di lanciare n dadi (distinti) e di registrare il numero di punti di ogni dado. 1. Identifica un parametro dell'esperimento 2. Definisci l'esperimento come composito 3. Identifica l'esperimento come estrazione con reinserimento 4. Identifica l'esperimento come n prove multinomiali 4. Nell'esperimento dei dadi dell'esercizio 3, poni n = 5. Simula 100 replicazioni e osserva i risultati. 5. Considera l'esperimento consistente nell'estrarre n carte da un mazzo di 52. 1. Identifica l'esperimento come esperimento composito formato da stadi dipendenti http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob1.html (2 di 3) [22/11/2001 17.47.44] Esperimenti casuali 2. Identifica l'esperimento come un campionamento senza ripetizione da una popolazione 6. Nell<a href="JavaScript:openApplet("CardExperiment")" class="applet">esperimento delle carte dell'esercizio 5, poni n = 5. Simula 100 replicazioni e osserva gli esiti. 7. L'esperimento della moneta di Buffon consiste nel lanciare una moneta di raggio r 1/2 su un pavimento formato da mattonelle quadrate di lato 1. Si registrano le coordinate del centro della moneta, relativamente ad assi che passano attraverso il centro del quadrato e paralleli ai lati. 1. Identifica un parametro dell'esperimento 2. Definisci l'esperimento come composito 3. Identifica l'esperimento come estrazione con reinserimento 8. Nell'esperimento della moneta di Buffon, poni r = 0.1. Simula 100 replicazioni e osserva i risultati 9. Nel 1879, Albert Michelson ha effettuato un esperimento di misurazione della velocità della luce attraverso un interferometro. I dati sulla velocità della luce contengono i risultati di 100 replicazioni dell'esperimento di Michelson. Osserva i dati e spiega, in termini generali, la loro variabilità. 10. Nel 1998, due studenti dell'università dell'Alabama a Huntsville hanno progettato il seguente esperimento: acquistare un pacchetto di M&Ms (di una certa marca reclamizzata) e registrare il numero di pastiglie rosse, verdi, blu, arancio e gialle e il peso netto (in grammi). Analizza i dati M&M e spiega, in termini generali, la loro variabilità. 11. Nel 1999, due ricercatori dell'università di Belmont hanno progettato il seguente esperimento: catturare una cicala nella regione centrale del Tennessee e registrarne il peso corporeo (in grammi), la lunghezza e larghezza delle ali, la lunghezza del corpo (in millimetri), il sesso e la specie. I dati sulla cicala contengono i risultati di 104 replicazioni dell'esperimento. Osserva i dati e spiega, in termini generali, la loro variabilità. Laboratorio virtuale > Spazi di Probabilità > [1] 2 3 4 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob1.html (3 di 3) [22/11/2001 17.47.44] Insiemi ed eventi Laboratorio virtuale > Spazi di Probabilità > 1 [2] 3 4 5 6 7 8 2. Insiemi ed eventi La teoria degli insiemi è fondamentale così per la probabilità come per quasi ogni altro ramo della matematica. Nella probabilità, la teoria degli insiemi è utilizzata come linguaggio per modellare e descrivere gli esperimenti. Insiemi e sottinsiemi Per iniziare, un insieme è, semplicemente, una collezione di oggetti; gli oggetti sono detti elementi dell'insieme. L'affermazione che s è un elemento dell'insieme S si scrive s S. (In questo progetto, per semplicità notazionale, useremo a volte solo la parola in.) Se A e B sono insiemi, allora A è un sottinsieme di B se ogni elemento di A è anche un elemento di B: A B se e solo se s A implica s B. Per definizione, ogni insieme è completamente individuato dai suoi elementi. Pertanto, gi insiemi A e B sono uguali se hanno gli stessi elementi: A = B se e solo se A BeB A. Nella maggior parte delle applicazioni della teoria degli insiemi, tutti gli insiemi che si considerano sono sottinsiemi di un certo insieme universo. Al contrario, l'insieme vuoto, indicato con Ø, è un insieme privo di elementi. 1. Usa la definizione formale dell'implicazione per mostrare che l'insieme vuoto è un sottinsieme di ogni insieme A. Un insieme si dice numerabile se può essere messo in corrispondenza uno a uno con un sottinsieme degli interi. Quindi, un insieme numerabile è un insieme, finito o infinito, che può essere "contato" con i numeri interi. Al contrario, l'insieme dei numeri reali non è numerabile. Il termine corrispondenza uno a uno è definito formalmente nel prossimo paragrafo su funzioni e variabili casuali. Spazio campionario ed eventi Lo spazio campionario di un esperimento casuale è un insieme S che include tutti i possibili esiti dell'esperimento; lo spazio campionario ha la funzione di insieme universo nella modellazione dell'esperimento. Per gli esperimenti semplici, lo spazio campionario è esattamente l'insieme di tutti i possibili esiti. Più spesso, per gli esperimenti composti, lo spazio campionario è un insieme matematicamente trattabile che comprende tutti i possibili esiti e anche altri elementi. Per esempio, se l'esperimento consiste nel lanciare un dado a sei facce e registrare il risultato, lo spazio campionario è S = {1, 2, 3, 4, 5, 6}, cioè l'insieme dei possibili esiti. D'altra parte, se l'esperimento consiste nel catturare una cicala e misurare il suo peso corporeo (in milligrammi), possiamo prendere come spazio http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (1 di 11) [22/11/2001 17.47.59] Insiemi ed eventi campionario S = [0, ), anche se la maggior parte degli elementi di questo insieme sono impossibili all'atto pratico. Certi sottinsiemi dello spazio campionario di un esperimento sono detti eventi. Quindi, un evento è un insieme di esiti di un esperimento. Ogni volta che si esegue l'esperimento, un dato evento A si verifica, se l'esito dell'esperimento è un elemento di A, o non si verifica, se l'esito dell'esperimento non è un elemento di A. Intuitivamente, si può pensare all'evento come a un'affermazione significativa relativa all'esperimento. Lo stesso spazio campionario S è un evento; per definizione si verifica sempre. All'estremo opposto, anche l'insieme vuoto Ø è un evento; per definizione, non si verifica mai. Più in generale, se A e B sono eventi dell'esperimento e A è sottinsieme di B, allora il verificarsi di A implica il verificarsi di B. Insiemi prodotto Di solito l'esito di un esperimento consiste in una o più misurazioni e pertanto lo spazio campionario è formato da tutte le possibili sequenze di misurazioni. Abbiamo pertanto bisogno di una notazione appropriata per costruire insiemi di sequenze. Supponiamo in primo luogo di avere n insiemi S1, S2, ..., Sn. Il prodotto Cartesiano (che prende il nome da René Descartes) di S1, S2, ..., Sn indicato S1 × S2 × ··· × Sn è l'insieme di tutte le sequenze (ordinate) (s1, s2 , ..., sn) dove si è un elemento di Si per ogni i. Ricorda che due sequenze ordinate solo uguali se e solo se i loro elementi corrispondenti sono uguali: (s1, s2 , ..., sn) = (t1, t2 , ..., tn) se e solo se si = ti per i = 1, 2, .... Se abbiamo n esperimenti con spazi campionari S1, S2, ..., Sn, allora S1 × S2 × ··· × Sn è lo spazio campionario naturale per l'esperimento composto che consiste nell'eseguire gli n esperimenti in sequenza. Se Si = S per ogni i, allora l'insieme prodotto può essere scritto in forma compatta come Sn = S × S × ··· × S (n fattori). Quindi, se abbiamo un esperimento semplice con spazio campionario S, allora Sn è lo spazio campionario naturale per l'esperimento composto che consiste nel replicare n volte l'esperimento semplice. In particolare, R indicherà l'insieme di numeri reali tali che Rn è un spazio Euclideo a n dimensioni. In molti casi, lo spazio campionario di un esperimento casuale, e quindi gli eventi dell'esperimento, sono sottinsiemi di Rn per un dato n. Supponiamo ora di avere una collezione infinita di insiemi S1, S2, ..., il prodotto Cartesiano di S1, S2, ..., indicato con S1 × S2 × ··· http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (2 di 11) [22/11/2001 17.47.59] Insiemi ed eventi è l'insieme di tutte le sequenze ordinate (s1, s2 , ...,) dove si è un elemento di Si per ogni i. Di nuovo, sue sequenze ordinate sono uguali se e solo se i loro elementi corrispondenti sono uguali. Se abbiamo una sequenza infinita di esperimenti con spazi campionari S1, S2, ..., allora S1 × S2 × ··· è o spazio campionario naturale per l'esperimento composto che consiste nell'effettuare gli esperimenti dati in sequenza. In particolare, lo spazio campionario dell'esperimento composto che consiste in infinite replicazioni di un esperimento semplice è S × S × ···. Questo è un caso particolare fondamentale, perché la teoria della probabilità è basata sull'idea di replicare un dato esperimento. Operazioni sugli insiemi Siamo ora pronti per richiamare le operazioni fondamentali della teoria degli insiemi. Per un dato esperimento casuale, tali operazioni possono essere utilizzate per costruire nuovi eventi a partire da eventi dati. Per le seguenti definizioni, supponiamo che A e B siano sottinsiemi dell'insieme universo, che indicheremo con S. L'unione di A e B è l'insieme ottenuto combinando gli elementi di A e di B. A B = {s S: s Aos B}. Se A e B sono eventi di un esperimento con spazio campionario S, allora l'unione di A e B è l'evento che si verifica se e solo se A si verifica o B si verifica. L'intersezione di A e B è l'insieme di elementi comuni sia ad A che a B: A B = {s S: s Aes B}. Se A e B sono eventi di un esperimento con spazio campionario S, allora l'intersezione di A e B è l'evento che si verifica se e solo se A si verifica e B si verifica. Se l'intersezione degli insiemi A e B è vuoto, allora A e B si dicono disgiunti: A B = Ø. Se A e B sono disgiunti in un esperimento, allora sono incompatibili; non possono verificarsi entrambi contemporaneamente. Il complementare di A è l'insieme degli elementi che non appartengono ad A ed è indicato con Ac: Ac = {s S: s A}. Se A è un evento di un esperimento con spazio campionario S, allora il complementare di A è l'evento che si verifica se e solo se A non si verifica. 2. Le operazioni sugli insiemi si rappresentano spesso con piccolo grafici schematici noti come diarammi di Venn, che prendono nome da John Venn. Nell'applet diagramma di Venn, seleziona ciascuna delle seguenti opzioni e osserva l'area ombreggiata del diagramma. 1. A http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (3 di 11) [22/11/2001 17.47.59] Insiemi ed eventi 2. B 3. Ac 4. Bc 5. A B 6. A B Regole fondamentali Nei seguenti problemi, A, B, e C sono sottinsiemi dell'insieme universo S. 3. Prova che A B A A B 4. Prova le leggi commutative: 1. A B=B A 2. A B=B A 5. Prova le leggi associative: 1. A (B C) = (A B) C 2. A (B C) = (A B) C 6. Prova le leggi distributive: 1. A (B C) = (A B) (A C) 2. A (B C) = (A B) (A C) 7. Prova le leggi di DeMorgan (che prendono nome da Agustus DeMorgan): 1. (A B)c = Ac Bc. 2. (A B)c = Ac Bc. 8. Prova che B Quando A Ac. B, B Ac è l'evento che si verifica se e solo se B si verifica, mentre A no. Ac si scrive a volte come B - A. Quindi, S - A è la stessa cosa di 9. Prova che (A Bc) (B Ac) è l'evento che si verifica se e solo se uno, ma non entrambi gli eventi si verificano. Questo evento è detto differenza simmetrica e corrisponde all'exclusive or. 10. Mostra che (A B) (Ac Bc) è l'evento che si verifica se e solo se entrambi gli eventi si verificano o se nessuno dei due si verifica. 11. Prova che, in generale, a partire da due eventi dati A e B, si possono costruire 16 eventi distinti. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (4 di 11) [22/11/2001 17.47.59] Insiemi ed eventi 12. Nell'applet diagramma di Venn, osserva il diagramma di ciasuno dei 16 eventi che si possono costruire a partire da A e B. Osserva, in particolare, il diagramma degli eventi degli esercizi 8, 9 e 10. Esercizi numerici 13. Considera l'esperimento consistente nel lanciare due volte un dado e registrare i due punteggi. Sia A l'evento in cui il punteggio del primo dado è 1 e B l'evento in cui la somma dei punteggi è 7. 1. Definisci matematicamente lo spazio campionario S. 2. Indica A come sottinsieme di S. 3. Indica B come sottinsieme di S. 4. Indica A B come sottinsieme di S. 5. Indica A B come sottinsieme di S. 6. Indica Ac Bc come sottinsieme di S. 14. Nell'esperimento dei dadi, seleziona i dadi equilibrati e poni n = 2. Simula 100 replicazioni e conta il numero di volte in cui ciascun evento dell'esercizio precedente si verifica. 15. Considera l'esperimento che consiste nell'estrarre una carta da un mazzo ordinario. Il risultato si registra riportando la denominazione e il seme della carta estratta. Sia Q l'evento in cui la carta è una regina e H l'evento in cui la carta è di cuori. 1. Definisci matematicamente lo spazio campionario S. 2. Indica Q come sottinsieme di S. 3. Indica H come sottinsieme di S. 4. Indica Q H come sottinsieme di S. 5. Indica Q H come sottinsieme di S. 6. Indica Q Hc come sottinsieme di S. 16. Nell'esperimento delle carte, poni n = 1. Simula 100 replicazioni e conta il numero di volte in cui ciascun evento dell'esercizio precedente si verifica. 17. Ricorda che l'esperimento della moneta di Buffon consiste nel lanciare una moneta di raggio r 1/2 su un pavimento coperto da mattonelle quadrate di lato 1. Si registrano le coordinate del centro della moneta, relativamente ad assi che passano attraverso il centro del quadrato e paralleli ai lati. Sia A l'evento in cui la moneta non tocca i lati del quadrato 1. Definisci matematicamente lo spazio campionario S. 2. Indica A come sottinsieme di S. 3. Indica Ac come sottinsieme di S. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (5 di 11) [22/11/2001 17.47.59] Insiemi ed eventi 18. Nell'esperimento della moneta di Buffon, poni r = 1/4. Simula 100 replicazioni e conta il numero di volte in cui l'evento A dell'esercizio precedente si verifica. 19. Un esperimento consiste nel lanciare un paio di dadi finché la somma dei punteggi è 5 o 7. Registra il numero di lanci. Trova lo spazio campionario di questo esperimento. 20. Un esperimento consiste nel lanciare un paio di dadi finché la somma dei punteggi è 5 o 7. Registra il punteggio finale dei dadi. Sia A l'evento in cui la somma è 5 invece che 7. 1. Definisci matematicamente lo spazio campionario S. 2. Indica A come sottinsieme di S. 21. L'esperimento dado-moneta consiste nel lanciare un dado e poi lanciare una moneta un numero di volte indicato dal dado. Registra la sequenza degli esiti del lancio della moneta. Sia A l'evento in cui si hanno esattamente due teste 1. Definisci matematicamente lo spazio campionario S. 2. Indica A come sottinsieme di S. 22. Simula l'esperimento dado-moneta, con le impostazioni predefinite, 100 volte. Conta il numero di volte in cui si verifica A dell'esercizio precedente. 23. Nell'esperimento moneta-dado, abbiamo una moneta e due dadi, uno rosso e uno verde. Per prima cosa, lancia la moneta; se il risultato è testa lancia il dado rosso, se invece il risultato è croce, lancia il dado verde. Registra l'esito della moneta e il risultato del dado. Sia A l'evento in cui il punteggio dei dadi è almeno 4. 1. Definisci matematicamente lo spazio campionario S. 2. Indica A come sottinsieme di S. 24. Replica l'esperimento moneta-dado, con le impostazioni predefinite, per 100 volte. Conta il numero di volte in cui l'evento A dell'esercizio precedente si verifica. 25. In un certo collegio, sono candidati alla camera dei deputati i signori 1, 2 e 3. Un consulente politico registra, età (in anni), sesso e candidato preferito, in un campione di 100 elettori. Assumi che un elettore debba avere almeno 18 anni. Definisci lo spazio campionario dell'esperimento. 26. Nell'esperimento di base della cicala, si cattura una cicala nella regione centrale del Tennessee e si registrano le seguenti misurazioni: peso corporeo (in grammi), lunghezza e larghezza delle ali e lunghezza del corpo (in millimetri), sesso e specie. I dati sulla cicala riguardano gli esiti di 104 replicazioni di questo esperimento. 1. Definisci lo spazio campionario dell'esperimento semplice. 2. Sia F l'evento in cui la cicala è femmina. Indica F come sottinsieme dello spazio campionario. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (6 di 11) [22/11/2001 17.47.59] Insiemi ed eventi 3. Determina se F si verifica per ogni cicala dei dati. 4. Riporta lo spazio campionario per l'esperimento composto che consiste in 104 replicazioni dell'esperimento semplice. 27. Nell'esperimento semplice M&Ms, si acquista un sacchetto di M&Ms (di dimensione specificata) e si registrano i seguenti dati: il numero di pastiglie rosse, verdi, blu, gialle, arancio e marroni e il peso netto (in grammi). I dati M&M riportano il risultato di 30 replicazioni dell'esperimento. 1. Definisci lo spazio campionario dell'esperimento semplice. 2. Sia A l'evento in cui il sacchetto contiene almeno 57 pastiglie. Indica A come sottinsieme dello spazio campionario. 3. Determina se A si verifica per ogni sacchetto dei dati. 4. Riporta lo spazio campionario per l'esperimento composto che consiste in 30 replicazioni dell'esperimento semplice. 28. Un sistema è formato da 5 componenti, indicate con 1, 2, 3, 4 e 5. Ogni componente è funzionante (indicato con 1) o difettoso (indicato con 0). Si registra la sequenza di stati dei componenti. Sia A l'evento in cui la maggior parte dei componenti funziona. 1. Definisci matematicamente lo spazio campionario S. 2. Indica A come sottinsieme di S. 29. Due componenti, indicate con 1 e 2, sono messe in funzione finché non si guastano; si registra la sequenza dei tempi di guasto (in ore). Sia A l'evento in cui la componente 1 dura più di 1000 ore e sia B l'evento in cui la componente 1 dura più della componente 2. 1. Definisci matematicamente lo spazio campionario S. 2. Indica A come sottinsieme di S. 3. Indica B come sottinsieme di S. 4. Indica A B come sottinsieme di S. 5. Indica A B come sottinsieme di S. 6. Indica A Bc come sottinsieme di S. Operazioni generalizzate Le operazioni di unione e intersezione possono essere facilmente generalizzate a una collezione finita o addirittura infinita di insiemi. Supponiamo che Aj sia un sottinsieme dell'insieme universo S per ogni j appartenente a un insieme non vuoto di indici J. L'unione degli insiemi Aj, j insiemi dati: J è l'insieme ottenuto combinando gli elementi degli http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (7 di 11) [22/11/2001 17.48.00] Insiemi ed eventi j Aj = {s S: s Aj per qualche j}. Se Aj, j J sono eventi di un esperimento con spazio campionario S, allora l'unione è l'evento che si verifica se e solo se almeno uno degli eventi dati si verifica. L'intersezione degli insiemi Aj, j dati: j Aj = {s S: s J è l'insieme di elementi comuni a tutti gli insiemi Aj per ogni j}. Se Aj, j J sono eventi di un esperimento con spazio campionario S, allora l'interesezione è l'evento che si verifica se e solo se ogni evento della collezione si è verificato. Gli insiemi Aj, j J sono mutualmente disgiunti se l'intersezione di due qualsiasi di questi insiemi è vuota: Ai Aj = Ø per i j. Se Aj, j J sono eventi di un esperimento casuale, ciò significa che sono mutualmente incompatibili; al più uno di tali eventi può verificarsi ad ogni replicazione dell'esperimento. Gli insiemi Aj, j J costituiscono una partizione dell'insieme B se Aj, j mutualmente disgiunti e j Aj J sono = B. Regole fondamentali Nei seguenti problemi, Aj, j J e B sono sottinsiemi dell'insieme universo S. 30. Prova le leggi distributive generalizzate: 1. [ j Aj] B= j (Aj B) 2. [ j Aj] B= j (Aj B) 31. Prova le leggi di DeMorgan generalizzate: 1. [ j Aj] c = j Aj c. 2. [ j Aj]c = Ajc . http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (8 di 11) [22/11/2001 17.48.00] Insiemi ed eventi 32. Supponi che gli insiemi Aj, j B, j sottinsieme B, gli insiemi Aj J siano una partizione di S. Prova che, per ogni J, sono una partizione di B. Regole per gli insiemi prodotto Vediamo ora che relazione sussiste tra le operazioni sugli insiemi e il prodotto Cartesiano. Supponiamo che S1 e S2 siano insiemi e che A1, B1 siano sottinsiemi di S1 mentre A2, B2 sono sottinsiemi di S2. Gli insiemi negli esercizi che seguono sono sottinsiemi di S1 × S2. 33. Dimostra che (A1 × A2) (B1 × B2) = (A1 B1) × (A2 B2). 34. Prova che 1. (A1 × A2) (B1 × B2) (A1 B1) × (A2 B2), 2. In (a), l'uguaglianza non vale in generale. 3. (A1 × A2) prodotto. (B1 × B2) può essere scritto come unione disgiunta di insiemi 35. Mostra che 1. (A1c × A2c) (A1 × A2)c. 2. In (a), l'uguaglianza non vale in generale. 3. (A1 × A2)c può essere scritto come unione disgiunta di insiemi prodotto. Queste ultime sezioni coprono argomenti più avanzati e possono essere omesse a una prima lettura. Sigma Algebre Nella teoria della probabilità, così come in molte altre teorie matematiche, è spesso impossibile includere nella teoria tutti i sottinsiemi dell'insieme universo S. Esistono ad esempio molti esempi strani e patologici di sottinsiemi di R che non hanno alcun ruolo particolare nella matematica applicata. In ogni caso, desideriamo che la nostra collezione di sottinsiemi sia chiusa rispetto alle operazioni introdotte sopra. In particolare, si ha di solito bisogno che valga la seguente proprietà: Ogni insieme che può essere costruito a partire da un numero di insiemi ammissibili usando le operazioni su insiemi dev'essere egli stesso ammissibile. Ciò ci conduce a una definizione cruciale. Supponiamo che A sia una collezione di sottinsiemi di S. Allora A si dice sigma algebra se 1. S 2. Se A A. A allora Ac A. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (9 di 11) [22/11/2001 17.48.00] Insiemi ed eventi 3. If Aj Aj A per ogni j appartenente a un insieme numerabile di indici J, allora j A. 36. Prova che Ø A. 37. Dimostra che, se Aj J, allora j Aj A per ogni j appartenente a un insieme numerabile di indici A. Suggerimento: Usa le leggi di DeMorgan. In ogni esperimento casuale, assumiamo che la collezione di eventi formi una sigma algebra. Costruzioni generali Sia {0, 1}S la collezione di tutti i sottinsiemi di S, detta insieme delle parti di S. Chiaramente, {0, 1}S è la più grande sigma algebra di S, e come abbiamo visto in precedenza, è spesso troppo grande per essere utilizzabile. La notazione insolita che useremo sarà spiegata nel prossimo paragrafo su funzioni e variabili casuali. All'estremo opposto, la sigma algebra più piccola di S è indicata dal seguente esercizio. 38. Dimostra che {Ø, S} è una sigma algebra. In molti casi, vogliamo costruire una sigma algebra che contenga alcuni insiemi fondamentali. L'esercizio seguente mostra come fare. 39. Supponi che Aj sia una sigma algebra di sottinsiemi di S per ogni j appartenente a un insieme numerabile di indici J. Dimostra che l'intersezione A riportata qui sotto è anch'essa una sigma algebra di sottinsiemi di S. A= j Aj. Supponi ora che B sia una collezione di sottinsiemi di S. Interpreta gli insiemi di B come insiemi semplici; ma in generale B non sarà una sigma algebra. La sigma algebra generata da B è l'interesezione di tutte le sigma algebre che contengono B, e, per l'esercizio precedente, è di fatto una sigma algebra: sigma(B) = {A: A è una sigma algebra di sottinsiemi di S e B A}. 40. Mostra che sigma(B) è la sigma lagebra più piccola che contiene B: 1. B sigma(B) 2. Se A è una sigma algebra di sottinsiemi di S e B A allora sigma(B) 41. Supponi che A sia un sottinsieme di S. Mostra che http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (10 di 11) [22/11/2001 17.48.00] A. Insiemi ed eventi sigma({A}) = {Ø, A, Ac, S}. 42. Supponi che A e B siano sottinsiemi di S. Trova i 16 (in generale distinti) insiemi di sigma({A, B}). 43. Supponi che A1, A2, ..., An siano sottinsiemi di S. Prova che esistono 2^(2n) (in generale distinti) insiemi nella sigma algebra generata dagli insiemi dati. Casi particolari Parleremo adesso delle sigma algebre naturali che useremo per vari spazi campionari e altri insiemi nel corso di questo progetto. ● ● Se S è numerabile, usiamo l'insieme delle parti {0, 1}S come sigma algebra. Quindi, tutti gli insiemi sono ammissibili. Per R, l'insieme dei numeri reali, usiamo la sigma algebra generata dalla collezione di tutti gli intervalli. Questa è detta a volte sigma algebra di Borel, in onore di Emil Borel. Come notato in precedenza, gli insiemi prodotto hanno un ruolo chiave nella teoria della probabilità. Supponiamo quindi che S1, S2, ..., Sn siano insiemi e che Ai sia una sigma algebra di sottinsiemi di Si per ogni i. Per l'insieme prodotto S = S1 × S2 × ··· × Sn, usiamo la sigma algebra A generata dalla collezione di tutti gli insiemi prodotto della forma A1 × A2 × ··· × An dove Ai Ai per ogni i. Questa idea si può estendere a un prodotto infinito. Supponiamo che S1, S2, ... siano insiemi e che Ai sia una sigma algebra di sottinsiemi di Si per ogni i. Per l'insieme prodotto S = S1 × S2 × ··· , usiamo la sigma algebra A generata dalla collezione di tutti gli insiemi prodotto della forma A1 × A2 × ··· × An × Sn+1 × Sn+2 × ··· dove n è un intero positivo e Ai Ai per ogni i. Combinando la costruzione del prodotto con le nostre osservazioni precedenti su R, nota che per Rn, utilizziamo la sigma algebra generata dalla collezione di tutti i prodotti degli intervalli. Questa è la sigma algera di Borel per Rn. Laboratorio virtuale > Spazi di Probabilità > 1 [2] 3 4 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob2.html (11 di 11) [22/11/2001 17.48.00] Misura di probabilità Laboratorio virtuale > Spazi di Probabilità > 1 2 3 [4] 5 6 7 8 4. Misura di probabilità Supponiamo di avere un esperimento casuale con spazio campionario S. La probabilità di un evento è un misura di quanto è plausibile che l'evento si verifichi nell'esecuzione dell'esperimento. Assiomi Matematicamente, una misura di probabilità (o distribuzione) P per un esperimento casuale è una funzione a valori reali definita sulla collezione di eventi che soddisfa i seguenti assiomi: 1. P(A) 0 per ogni evento A. 2. P(S) = 1 3. P[ j in J Aj] = j in J P(Aj) se {Aj: j a due a due disgiunti. J} è una collezione numerabile di eventi Il terzo assioma è detto della additività numerabile, e afferma che la probabilità dell'unione di una collezione finita o infinita ma numerabile di eventi disgiunti è la somma delle corrispondenti probabilità. Gli assiomi sono detti anche assiomi di Kolmogorov, in onore di Andrey Kolmogorov. Gli assiomi 1 e 2 rappresentano unicamente una convenzione; scegliamo di misurare la probabilità di un evento con un numero tra 0 e 1 (invece che, ad esempio, con un numero tra -5 e 7). L'assioma 3, invece, è fondamentale e inevitabile. È necessario per la teoria della probabilità per la stessa ragione per cui è necessario per le altre misure di "dimensione" di un insieme, come ● cardinalità per insiemi finiti, ● lunghezza per sottinsiemi di R, ● area per sottinsiemi di R2, ● volume per sottinsiemi di R3. D'altra parte, l'additività non numerabile (l'estensione dell'assioma 3 a un insieme non numerabile di indici J) è irragionevole per la probabilità così come per le altre misure. Per esempio, un intervallo di lunghezza positiva di R è unione di infiniti punti, ciascuno di lunghezza 0. Abbiamo ora tre ingredienti essenziale per modellare un esperimento casuale: 1. Lo spazio campionario S, 2. La sigma algebra degli eventi A, 3. La misura di probabilità P. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (1 di 10) [22/11/2001 17.48.14] Misura di probabilità Insieme, questi definiscono uno spazio di probabilità (S, A, P). La legge dei grandi numeri Intuitivamente, la probabilità di un evento dovrebbe misurare la frequenza relativa dell'evento a lungo termine. Specificamente, supponiamo di ripetere indefinitamente l'esperimento (osserva che ciò costituisce un nuovo esperimento composto). Per un evento A dell'esperimento base, sia Nn(A) il numero di volte che A si è verificato (la frequenza di A) nelle prime n replicazioni (nota che si tratta di una variabile casuale dell'esperimento composto). Quindi, Pn(A) = Nn(A) / n è la frequenza relativa di A nelle prime n replicazioni. Se abbiamo scelto la misura di probabilità corretta per l'esperimento, allora in un certo senso ci aspettiamo che la frequenza relativa di ciascun evento converga alla probabilità dell'evento stesso: Pn(A) P(A) per n . La formalizzazione di questa intuizione è la legge dei grandi numeri o legge della media, uno dei teoremi più importanti della probabilità. Per sottolineare questo punto, osserviamo che in generale esisteranno molte possibili misure di probabilità per un esperimento che soddisfano gli assiomi. Però, solo la vera misura di probabilità soddisferà la legge dei grandi numeri. Segue che, se abbiamo dati da n replicazioni dell'esperimento, la frequenza relativa osservata Pn(A) può essere utilizzata come approssimazione di P(A); tale approssimazione è detta probabilità empirica di A. 1. Dimostra che Pn soddisfa gli assiomi di Kolmogorov (sulla base dei dati di n replicazioni dell'esperimento) La distribuzione di una variabile casuale Supponiamo che X sia una variabile casuale dell'esperimento, che assume valori in un insieme T. 2. Mostra che P(X B) come funzione di B T, definisce una misura di probabilità su T. Suggerimento: Ricorda che l'immagine inversa preserva tutte le operazioni sugli insiemi. La misura di probabilità dell'esercizio precedente è detta distribuzione di probabilità di X. Pertanto, ogni variabile casuale X per un esperimento definisce un nuovo spazio di probabilità: 1. Un insieme di esiti T (i possibili valori di X). 2. Una collezione di eventi (i sottinsiemi di T). 3. Una misura di probabilità su questi eventi (la distribuzione di probabilità di X). http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (2 di 10) [22/11/2001 17.48.14] Misura di probabilità Ricordiamo inoltre che l'esito stesso di un esperimento può essere visto come una variabile casuale. In particolare, se assumiamo che X sia la funzione identità su S, allora X è una variabile casuale e P(X A) = P(A). Quindi, ogni misura di probabilità può essere vista come distribuzione di una variabile casuale. Misure Come facciamo a costruire misure di probabilità? Come abbiamo già brevemente notato poc'anzi, esistono altre misure relative alla "dimensione" degli insiemi; in molti casi esse possono essere convertite in misure di probabilità. In primo luogo, una misura (non negativa) m su S è una funzione dei sottinsiemi (misurabili) di S che soddisfa gli assiomi 1 e 3 introdotti poc'anzi. In generale, m(A) può essere infinito per un sottinsieme A. Comunque, se m(S) è positivo e finito, m può essere convertita in misura di probabilità. 3. Mostra che, se m è misura su S con m(S) finito e positivo, allora P è una misura di probabilità su S. P(A) = m(A) / m(S) per A S. Nel contesto dell'esercizio 3, m(S) è detta costante di normalizzazione. Nelle prossime due sezioni, consideriamo alcuni importanti casi particolari. Distribuzioni discrete Supponiamo che S sia un insieme finito e non vuoto. Chiaramente, la misura di conteggio # è una misura finita su S: #(A) = il numero di elementi di A per A S. La corrispondente misura di probabilità è detta distribuzione uniforme discreta su S, ed è particolarmente importante negli esperimenti di campionamento e di calcolo combinatorio: P(A) = #(A) / #(S) per A S. Possiamo presentare un metodo di costruzione più generale per spazi campionari numerabili che può essere utilizzato per definire varie misure di probabilità. 4. Supponiamo che S sia non vuoto e numerabile e che g sia una funzione non negativa a valori reali definita su S. Mostra che m definito come segue è una misura su S: m(A) = x in A g(x) per A S. Pertanto, se m(S) è finito e positivo, allora P(A) = m(A) / m(S) definisce una misura di http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (3 di 10) [22/11/2001 17.48.14] Misura di probabilità probabilità per l'esercizio 3. Distribuzioni di questo tipo si dicono discrete. Le distribuzioni discrete sono studiate in dettaglio nel capitolo sulle distribuzioni. 5. Nel contesto dell'esercizio precedente, prova che, se S è finito e g è una funzione costante, allora la corrispondente misura di probabilità P è la distribuzione uniforme discreta su S. Distribuzioni continue Si definisce misura n-dimensionale su Rn (o misura di Lebesgue, in onore di Henri Lebesgue) come mn(A) = A 1dx per A Rn. Nota che se n > 1, l'integrale riportato è multiplo; x = (x1, x2, ..., xn) e dx = dx1dx2...dxn. L'assioma di additività numerabile vale per una proprietà fondamentale degli integrali che non dimostreremo. In particolare, richiamiamo dall'analisi che 1. m1(A) è la lunghezza di A per A 2. m2(A) è l'area di A per A R. R2. 3. m3(A) è il volume di A per A R3. Ora, se S è un sottinsieme di Rn con mn(S) positivi e finiti, allora P(A) = mn(A) / mn(S) è una misura di probabilità su S per l'esercizio 2, detta distribuzione uniforme continua su S. Possiamo generalizzare questo metodo per produrre molte altre distribuzioni. Supponiamo che g sia una funzione non negativa a valori definita su S. Definiamo m(A) = A g(x) dx per A S. Allora m è una misura su S. Quindi, se m(S) è finito e positivo, allora P(A) = m(A) / m(S) definisce una misura di probabilità come nell'esercizio 2. Distribuzioni di questo tipo si dicono continue. Le distribuzioni continue sono studiate in dettaglio nel capitolo sulle distribuzioni. È importante notare, di nuovo, che, al contrario di molti altri rami della matematica, gli spazi a poche dimensione (n = 1, 2, 3) non hanno un ruolo particolare, a parte quello didattico. Per esempio, sui dati sulla cicala, alcune delle variabili registrate sono peso e lunghezza corporei e lunghezza e larghezza delle ali. Un modello probabilistico per queste variabili definirebbe una distribuzione su un sottinsieme di R4. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (4 di 10) [22/11/2001 17.48.14] Misura di probabilità Regole fondamentali della probabilità Supponiamo di avere un esperimento casuale con spazio campionario S e misura di probabilità P. Nei seguenti esercizi, A e B sono eventi. 6. Dimostra che P(Ac) = 1 - P(A). 7. Dimostra che P(Ø) = 0. Ac) = P(B) - P(A 8. Mostra che P(B 9. Dimostra che se A B allora P(B B). Ac) = P(B) - P(A). Ricorda che B Ac è scritto a volte B - A quando A B. Con questa notazione, il risultato dell'esercizio precedente ha la forma, più attraente P(B - A) = P(B) - P(A). 10. Dimostra che se A B allora P(A) P(B). 11. Supponi che {Aj: j J} sia una collezione numerabile di eventi. Prova la disuguaglianza di Boole (che prende il nome da George Boole): P[ j Aj] j P(Aj). A1c, B3 = A3 Suggerimento: Sia J = {1, 2, ...} e definiamo B1 = A1, B2 = A2 A1c A2c, ... Prova che B1, B2, ... sono a due a due disgiunti e hanno la stessa unione di A1, A2, .... Usa l'assioma di additività della probabilità e il risultato dell'esercizio 6. 12. Supponi che {Aj: j J} sia una collezione numerabile di eventi con P(Aj) = 0 per ogni j appartennete a J. Usa la disuguaglianza di Boole per mostrare che P[ j Aj] = 0. 13. Supponi che {Aj: j J} sia una collezione numerabile di eventi. Prova la disuguaglianza di Bonferroni (che prende il nome da Carlo Bonferroni): P[ j Aj] 1- j [1 - P(Aj)]. Suggerimento: Applica la disuguaglianza di Boole a {Ajc: j J} 14. Supponi che {Aj: j J} sia una collezione numerabile di eventi con P(Aj) = 1 per ogni j appartenente a J. Usa la disuguaglianza di Bonferroni per mostrare che http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (5 di 10) [22/11/2001 17.48.14] Misura di probabilità P[ j Aj] = 1. 15. Supponi che A e B siano eventi di un esperimento con P(A) = 1. Dimostra che P(A B) = P(B) 16. Prova la legge delle probabilità totali: se {Aj: j J} sia una collezione numerabile di eventi che partiziona lo spazio campionario S, allora per ogni evento B, P(B) = j P(Aj B). Le formule di inclusione-esclusione Le formule di inclusione-esclusione costituiscono un metodo per calcolare la probabilità di un'unione di eventi in termini delle probabilità di varie intersezioni degli stessi. 17. Mostra che, se A e B sono eventi allora P(A B) = P(A) + P(B) - P(A B). 18. Mostra che, se A, B, e C sono eventi, allora P(A B B C) C) = P(A) + P(B) + P(C) - P(A B) - P(A C) - P(B C) + P(A Gli ultimi due esercizi possono essere generalizzati all'unione di n eventi Ai, i = 1, 2, ...n. Questa generalizzazione è deta formula di inclusione-esclusione. Per semplificarne la formulazione, sia N l'insieme di indici {1, 2, ..., n}. Definiamo 1. pJ = P[ 2. qk = j in J Aj] per J {J: #(J) = k} pJ 19. Prova che P[ N. per k i = 1, ..., n N Ai] = k = 1, ..., n (-1)k - 1 qk. La disuguaglianza di Bonferroni generalizzata afferma che se la sommatoria di destra è troncata dopo k termini (k < n), allora la somma troncata è un limite superiore per la probabilità dell'unione se k è dispari (per cui l'ultimo termine ha segno positivo) e un limite inferiore se k è pari (e l'ultimo termine ha segno negativo). Se torni inditro e riguardi le dimostrazioni degli esercizi 6-19, vedrai che valgono per ogni misura finita m, non solo per la probabilità. La sola differenza è che il numero 1 è sostituto da m(S). In particolare, la regola di inclusione-esclusione è importante tanto nel calcolo combinatorio (lo studio delle misure di conteggio) quanto in probabilità. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (6 di 10) [22/11/2001 17.48.14] Misura di probabilità Esercizi numerici 20. Supponiamo di lanciare 2 dadi equilibrati e di registrare la sequenza dei punteggi. Sia A l'evento in cui il punteggio del primo dado è minore di 3 e B l'evento in cui la somma dei punteggi dei dadi è 6. 1. Definisci formalmente lo spazio campionario S. 2. Poiché i dadi sono equilibrati, spiega perché la distribuzione uniforme su S è adeguata. 3. Trova P(A). 4. Trova P(B). 5. Trova P(A B). 6. Trova P(A B). 7. Trova P(B Ac ). 21. Nell'esperimento dei dadi, poni n = 2. Simula 100 replicazioni e calcola la probabilità empirica di ciascun evento dell'esercizio precedente. 22. Considera l'esperimento consistente nell'estrarre 2 carte da un mazzo standard e registrare la seuqenza. Per i = 1, 2, sia Hi l'evento in cui la carte i è di cuori. 1. Definisci formalmente lo spazio campionario S. 2. Spiega perché, se il mazzo è ben mischiato, la distribuzione uniforme su S è appropriata. 3. Trova P(H1) 4. Trova P(H1 5. Trova P(H1c H2) H2) 6. Trova P(H2) 7. Trova P(H1 H2). 23. Nell'esperimento delle carte, poni n = 2. Simula 100 replicazioni e calcola la probabilità empirica di ciascun evento dell'esercizio precedente. 24. Ricorda che l'esperimento della moneta di Buffon consiste nel lanciare "casualmente" una moneta di raggio r 1/2 su un pavimento coperto da mattonelle quadrate di lato 1. Si registrano le coordinate (X, Y) del centro della moneta, relativamente ad assi che passano attraverso il centro del quadrato e paralleli ai lati. Sia A l'evento in cui la moneta non tocca i lati del quadrato. 1. Definisci formalmente lo spazio campionario S. 2. Spiega perché la distribuzione uniforme su S è appropriata. 3. Trova P(A). http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (7 di 10) [22/11/2001 17.48.14] Misura di probabilità 4. Trova P(Ac). 25. Nell'esperimento della moneta di Buffon, poni r = 0.2. Simula 100 replicazioni e calcola la probabilità empirica di ciascun evento dell'esercizio precedente. 26. Supponi che A e B siano eventi di un esperimento con P(A) = 1 / 3, P(B) = 1 / 4, B) = 1 / 10. Esprimi ciascuno dei seguenti eventi nel linguaggio dell'esperimento P(A e trova la sua probabilità: 1. A Bc 2. A B 3. Ac Bc 4. Ac Bc 5. A Bc 27. Supponi che A, B, e C siano eventi di un esperimento con P(A) = 0.3, P(B) = 0.2, P(C) = 0.4, P(A B) = 0.04, P(A B C) = 0.1, P(B C) = 0.1, P(A C) = 0.01 Esprimi ciascuno dei seguenti eventi in notazione insiemistica e trova la sua probabilità: 1. Si verifica almeno uno dei tre eventi. 2. Nessuno dei tre eventi si verifica. 3. Si verifica esattamente uno dei tre eventi. 4. Si verificano esattamete due dei tre eventi. 28. Si lanciano ripetutamente due dadi equilibrati finché la somma dei punteggi è 5 o 7. Si registra la sequenza di punteggi dell'ultimo lancio. Sia A l'evento in cui la somma è 5 invece che 7. 1. Definisci formalmente lo spazio campionario S. 2. Spiega perché, siccome i dadi sono equilibrati, la distribuzione uniforme su S è appropriata. 3. Trova P(A). Le probabilità del tipo dell'ultimo esercizio sono utili nel gioco del craps. 29. Un esperimento consiste nel lanciare 3 monete equilibrate e registrare la sequenza dei punteggi. Sia A l'evento in cui la prima moneta è testa e B l'evento in cui si hanno esattamente due teste. 1. Definisci formalmente lo spazio campionario S. 2. Spiega perché, siccome le monete sono bilanciate, la distribuzione uniforme su S è appropriata. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (8 di 10) [22/11/2001 17.48.14] Misura di probabilità 3. Trova P(A). 4. Trova P(B) 5. Trova P(A B) 6. Trova P(A B). 7. Trova P(Ac Bc). 8. Trova P(Ac Bc). Bc). 9. Trova P(A 30. Una scatola contiene 12 biglie: 5 sono rosse, 4 verdi e 3 blu. Si estraggono a caso tre biglie, senza reinserimento. 1. Definisci uno spazio campionario per cui gli esiti sono equiprobabili. 2. Trova P(A) dove A è l'evento in cui le biglie estratte sono tutte dello stesso colore. 3. Trova P(B) dove B è l'evento in cui le biglie estratte sono tutte di colore diverso 31. Ripeti l'esercizio precedente nel caso in cui l'estrazione avvenga con reinserimento. 32. Sui dati M&M, sia R l'evento in cui un sacchetto ha almeno 10 pastiglie rosse, T l'evento in cui un sacchetto ha almeno 57 pastiglie in totale, e W l'evento in cui un sacchetto pesa almeno 50 grammi. Trova le probabilità empiriche dei seguenti eventi: 1. R 2. T 3. W 4. R T 5. T Wc. 33. Sui dati della cicala, sia W l'evento in cui una cicala pesa almeno 0.20 grammi, F l'evento in cui la cicala è femmina e T l'evento in cui la specie di cicala è la tredecula. Trova la probabilità empirica di 1. W 2. F 3. T 4. W 5. F F T W Unicità ed estensione Ricorda che la collezione di eventi di un esperimento formano una sigma algebra A. In alcuni casi A è generata da una collezione più piccola di eventi di base B, ovvero http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (9 di 10) [22/11/2001 17.48.14] Misura di probabilità A = sigma(B). Spesso si è interessati a conoscere le probabilità degli eventi di base che determinano completamente l'intera misura di probabilità. Questo si rivela vero se gli eventi di base sono chiusi rispetto all'intersezione. Più specificamente, supponiamo che, se B, C B allora B C B (B è detto sistema pi). Se P1 e P2 sono misure di probabilità su A e P1(B) = P2(B) per B B allora P1(A) = P2(A) per ogni A A. Per esempio, la sigma algebra standard (di Borel) su R è generata dalla collezione di tutti gli intervalli aperti di lunghezza finita, che è chiaramente chiusa rispetto all'intersezione. Pertanto, una misura di probabilità P su R è completamente determinata dai suoi valori su intervalli aperti finiti. In più, la sigma algebra su R è generata dalla collezione di intervalli chiusi e infiniti della forma (- , x]. Quindi, una misura di probabilità P su R è determinata completamente dai suoi valori su questi intervalli. Supponiamo ora di avere n insiemi S1, S2, ..., Sn con sigma algebre rispettivamente A1, A2, ..., An. Ricorda che l'insieme prodotto S = S1 × S2 × ··· × Sn è uno spazio campionario naturale per un esperimento formato da misurazioni multiple, o per un esperimento composto che consiste nell'effettuare n esperimenti semplici in sequenza. Di solito, diamo a S la sigma algera A generata dalla collezione di tutti gli insiemi prodotto della forma A = A1 × A2 × ··· × An dove Ai Ai per ogni i. Tale collezione di insiemi prodotto è chiusa rispetto all'intersezione, e quindi una misura di probabilità su S è completamente determinata dai suoi valori su questi insiemi prodotto. Generalizzando, supponiamo si avere una sequenza infinita di insiemi S1, S2, ... con sigma algebre rispettivamente A1, A2, ... . L'insieme prodotto S = S1 × S2 × ···. è uno spazio campionario naturale per un esperimento formato da un numero infinito di misurazioni, o per un esperimento composto che consiste nell'eseguire una sequenza infinita di esperimenti semplici. Di solito si dà a S la sigma algebra A generata dalla collezione degli insiemi prodotto della forma A = A1 × A2 × ··· × An.× Sn+1 × Sn+2 × ··· dove n è un intero positivo e Ai Ai per ogni i. Questa collezione di insiemi prodotto è chiusa rispetto all'intersezione, e quindi una misura di probabilità su S è determinata completamente dai suoi valori su questi insiemi prodotto. Laboratorio virtuale > Spazi di Probabilità > 1 2 3 [4] 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob4.html (10 di 10) [22/11/2001 17.48.14] Funzioni e variabili casuali height="14">meta name="Author" content="Kyle Siegrist"> Laboratorio virtuale > Spazi di Probabilità > 1 2 [3] 4 5 6 7 8 3. Funzioni e variabili casuali Funzioni Supponi che S e T siano insiemi. Una funzione f da S a T è una regola che fa corrisponedere a ciascun s appartenente a S un unico elemento f(s) appartenente a T. Più precisamente, ma anche più pedantemente, una funzione f può essere vista come un sottinsieme dell'insieme prodotto S × T con la proprietà per che ciascun elemento s di S, esiste un unico elemento (s, t) appartenente a f; si scrive pertanto t = f(s). L'insieme S è il dominio di f e l'insieme T è il codominio di f. Il supporto di f è l'insieme dei valori della funzione: range(f) = {t T: t = f(s) per qualche s S}. Se il supporto di f è T, allora si dice che f mappa S su T (invece che semplicemente in). Quindi, se f è su, allora per ogni t appartenente a T esiste s appartenente a S tale che f(s) = t. Infine, si dice che f è iniettiva se a elementi distinti del dominio corrispondono elementi distinti del codominio. f(u) = f(v) implica u = v for u, v in S. Gli insiemi S e T sono in corrispondenza biunivoca se esiste una funzione uno a uno f da S su T. In questo caso, possiamo definire l'inversa di f ome la funzione da T su S data da f -1(t) = s dove s è l'unico elemento di S con f(s) = t. Composizione Supponi che g sia una funzione da R in S e f una funzione da S in T. La composizione di f con g è la funzione da R in T definita da f ° g(r) = f[g(r)] per r appartenente a R. 1. Prova che la composizione non è commutativa: 1. Trova due funzioni f e g per cui f ° g è definito ma g ° f non lo è. 2. Trova due funzioni f e g per cui f ° g e g ° f sono definite, ma le composizioni hanno diversi domini e codomini. 3. Trova due funzioni f e g per cui f ° g e g ° f sono definite, hanno lo stesso dominio e codominio, ma sono comunque diverse. 2. Supponi che h sia una funzione da R in S, g una funzione da S in T, e f una funzione http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob3.html (1 di 8) [22/11/2001 17.48.28] Funzioni e variabili casuali da T in U. Mostra che la composizione è associativa: f ° (g ° h) = (f ° g) ° h. 3. Supponi che f sia una funzione biiettiva da S su T. Mostra che f -1 ° f e f ° f -1 sono le funzioni identità su S e T, rispettivamente: 1. f -1 ° f(s) = s per s appartenente a S. 2. f ° f -1(t) = t per t appartenente a T. 4. Prova che una corrispondenza biunivoca definisce una relazione di equivalenza su insiemi non vuoti: 1. S è equivalente a S (proprietà riflessiva). 2. Se S è equivalente a T allora T è equivalente a S (proprietà simmetrica). 3. Se R è equivalente a S e S è equivalente a T allora R è equivalente a T (proprietà transitiva). Variabili casuali Supponiamo di avere un esperimento casuale con spazio campionario S. Una funzione da S in un altro insieme T è detta variabile casuale (a valori in T). La probabilità ha le sue convenzioni notazionali, spesso diverse da quelle degli altri rami della matematica. In questo caso, le variabili casuali si indicano di solito con lettere maiuscole dell'ultima parte dell'alfabeto. Intuitivamente, puoi immaginare una variabile casuale X come una misura di interesse nel contesto dell'esperimento casuale. Una variabile casuale X è casuale nel senso che il suo valore dipende dall'esito dell'esperimento, il quale non può essere previsto con certezza prima di effettuare l'esperimento stesso. Ogni volta che si effettua l'esperimento, si verifica un esito s appartenente a S e una data variabile casuale X assume il valore X(s). In generale vedremo che la notazione probabilistica omette il riferimento allo spazio campionario. Spesso, una variabile casuale X assume valori in un sottinsieme T k. Se k > 1 allora Rk per qualche dato X = (X1, X2, ..., Xk) dove Xi è una variabile casuale a valori reali per ogni i. In questo caso, X si dice vettore aleatorio, per sottolineare il suo carattere multidimensionale. Una variabile casuale può avere anche struttura più complessa. Per esempio, se l'esperimento consiste nel selezionare n unità da una popolazione e registrare varie misurazioni reali per ogni unità, allora l'esito dell'esperimento è un vettore i cui elementi sono a loro volta vettori: X = (X1, X2, ..., Xn) dove Xi è il vettore di misurazioni sull'i-esima unità. Esistono altre possibilità; una variabile casuale può essere una sequenza infinita, o può avere come valori insiemi. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob3.html (2 di 8) [22/11/2001 17.48.28] Funzioni e variabili casuali Esempi specifici sono riportati negli esercizi numerici più avanti. In ogni casi, il punto chiave è semplicemente che la variabile casuale è una funzione dallo spazio campionario S in un altro insieme T. Immagini inverse Supponi che f sia una funzione da S in T. Se B T, l'immagine inversa di B sotto f è il sottinsieme di S formato dagli elementi che mappano su B: f -1(B) = {s S: f(s) B}. Se X è una variabile casuale a valori in T per un esperimento con spazio campionario S allora utilizziamo la notazione {X B}= {s S: X(s) B}. per l'immagine inversa. Osserva che si tratta di un evento (un sottinsieme dello spazio campionario). A parole, un'affermazione su una variabile casuale definisce un evento. Le immagini inverse conservano tutte le operazioni sugli insiemi. Negli esercizi seguenti, f è una funzione da S in T. Inoltre, B, C sono sottinsiemi di T, e {Bj: j J} è una collezione di sottinsiemi di T, dove J è un insieme di indici non vuoto. 4. Mostra che f -1(Bc) = [f -1(B)]c. 5. Mostra che f -1[ j in J Bj] = j in J f -1(Bj). 6. Mostra che f -1[ j in J Bj] = j in J f -1(Bj). 7. Mostra che se B C allora f -1(B) f -1(C). 8. Mostra che se B e C sono disgiunti, allora lo sono anche f -1(B), f -1(C). Ovviamente, questi risultati si applicano anche alle variabili casuali, varia solo la notazione. 9. Supponi che X sia una variabile casuale a valori in T, per un esperimento casuale con spazio campionario S. Prova che i risultati degli esercizi 4-9 possono essere espressi come segue: Bc} = {X 1. {X 2. j in J {X 3. j {X B}c Bj} = {X Bj} = {X j in J Bj}. j Bj}. 4. Se B C allora {X B} {X C} 5. Se B e C sono disgiunti, allora lo sono anche {X http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob3.html (3 di 8) [22/11/2001 17.48.28] B}, {X C}. Funzioni e variabili casuali Varibili semplici e derivate Supponiamo, di nuovo, di avere un esperimento casuale con spazio campionario S. L'esito stesso dell'esperimento può essere visto come una variabile casuale. Sia X la funzione identità su S: X(s) = s per s appartenente a S. Allora, ovviamente, X è una variabile casuale, e gli eventi che possono essere definiti in termini di X sono semplicemente gli eventi originali dell'esperimento: {X A} = A per A S. Se Y è un'altra variabile casuale dell'esperimento, che assume valori in un insieme T, allora Y è funzione di X. Ovvero esiste una funzione g da S in T tale che Y è la composizione di g con X: Y = g(X) cioè, Y(s) = g(X(s)) per s appartenente a S. Possiamo indicare X come variabile esito e Y come variabile derivata. In molti problemi di teoria della probabilità, l'oggetto di interesse è la variabile casuale X. Il fatto che X sia la variabile esito o una variabile derivata è spesso irrilevante. Variabili indicatore Per ogni evento A, esiste una semplice variabile casuale I detta variabile indicatore di A, il cui valore ci indica se A si è verificato o no: I(s) = 1 per s A; I(s) = 0 per s Ac. o più semplicemente, I = 1 se A si verifica e I = 0 se A non si verifica. 10. Prova, di converso, che ogni variabile casuale I che assume i valori 0 o 1 e la variabile indicatore dell'evento A = {I = 1} = {s S: I(s) = 1}. 11. Supponi che I sia la variabile indicatore di un evento A. Mostra che 1 - I è la variabile indicatore di Ac. 12. Supponi che A e B siano eventi con variabili indicatore IA e IB, rispettivamente. Prova che A B se e solo se IA IB. 13. Supponi che {Aj: j J} sia una collezione di eventi, indicizzata da un insieme non vuoto J. Sia Ij la variabile indicatore di Aj per ogni j J, e sia I la variabile indicatore dell'intersezione degli eventi. Prova che http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob3.html (4 di 8) [22/11/2001 17.48.28] Funzioni e variabili casuali I= j in J Ij = min{Ij: j J}. 14. Supponi che {Aj: j J} sia una collezione di eventi, indicizzata da un insieme non vuoto J. Sia Ij la variabile indicatore di Aj per ogni j J, e sia I la variabile indicatore dell'unione degli eventi. Prova che I=1- j in J (1 - Ij) = max{Ij: j J}. 15. Supponi che A e B siano eventi di un esperimento casuale con variabili indicatore IA e IB. Esprimi, in termini di IA e IB, la variabile indicatore di ognuno dei 16 eventi che possono essere costruiti a partire da A e B Esercizi numerici 16. Considera l'esperimento consistente nel lanciare due volte un dado equilibrato e registrare la sequenza di punteggi (X1, X2). Sia Y la somma dei punteggi, U il minimo dei due punteggi, V il massimo dei due punteggi. 1. Esprimi formalmente lo spazio campionario S. 2. Esprimi Y in funzione di S. 3. Esprimi U in funzione di S. 4. Esprimi V in funzione di S. 5. Esprimi l'evento {X1 < 3, X2 > 4} come sottinsieme di S. 6. Esprimi l'evento {Y = 7} come sottinsieme di S. 7. Esprimi l'evento {U = V} come sottinsieme di S. 17. Nell'esperimento dei dadi, poni n = 2 e simula 100 replicazioni. Per ciascuna di esse, calcola il valore di ciascuna delle variabili aleatorie dell'esercizio precedente. 18. Considera l'esperimento delle carte consistente nell'estrarre una carta da un mazzo standard e registrare X = (Y, Z) dove Y è la denominazione e Z il seme. Supponiamo di assegnare valore alle carte come segue: un asso vale 1, una figura 10 e negli altri casi il valore è il numero della carta. Sia U il valore della carta. 1. Descrivi lo spazio campionario S. 2. Descrivi U in funzione dello spazio campionario. 3. Descrivi l'evento {U = 10} come sottinsieme dello spazio campionario. 19. Nell'esperimento delle carte, poni n = 1 e simula 100 replicazioni. Per ciascuna di esse, calcola il valore della variabile casuale U dell'esercizio precedente. 20. Ricorda che l'esperimento della moneta di Buffon consiste nel lanciare una moneta di raggio r 1/2 su un pavimento coperto da mattonelle quadrate di lato 1. Si registrano le http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob3.html (5 di 8) [22/11/2001 17.48.28] Funzioni e variabili casuali coordinate (X, Y) del centro della moneta, relativamente ad assi che passano attraverso il centro del quadrato e paralleli ai lati. Sia Z la distanza tra il centro della moneta e il centro del quadrato. 1. Descrivi formalmente lo spazio campionario S e tracciane il grafico. 2. Esprimi Z in funzione di S. 3. Esprimi l'evento {X < Y} come sottinsieme di S e tracciane il grafico. 4. Esprimi l'evento {Z < 0.5} come sottinsieme di S e tracciane il grafico. 21. Replica l'esperimento della moneta di Buffon 100 volte, con r = 0.2. Per ciascuna replicazione, calcola il valore di ciascuna delle variabili casuali dell'esercizio precedente. 22. Un esperimento consiste nel lanciare tre monete bilanciate e registrare (I1, I2, I3), dove Ij è una variabile indicatore che assume valore 1 se e solo se per la j-esima moneta esce testa. Sia X il numero complessivo di teste. 1. Descrivi formalmente lo spazio campionario S. 2. Esprimi X in funzione di S. 3. Esprimi l'evento {X > 1} come sottinsieme di S. 23. Un esperimento consiste nel far lavorare due apparecchi, indicati con a e b, finché non si guastano. Si registra la sequenza (X, Y) di tempi di guasto (misurata in ore). 1. Trova lo spazio campionario S dell'esperimento e disegna il grafico di S. 2. Esprimi l'evento in cui a dura meno di 1000 ore in termini delle variabili di base e come sottinsieme dello spazio campionario. Disegna il grafico dell'evento. 3. Esprimi l'evento in cui a dura meno di b in termini delle variabili di base e come sottinsieme dello spazio campionario. Disegna il grafico dell'evento. 4. Esprimi l'evento in cui il tempo di guasto combinato è maggiore di 2000 ore in termini delle variabili di base e come sottinsieme dello spazio campionario. Disegna il grafico dell'evento. 24. Supponiamo di lanciare tre dadi equilibrati e di registrare la sequenza dei punteggi (X1, X2, X3). Un uomo paga 1$ per giocare e riceve 1$ per ogni dado che fa 6. Sia W la vincita netta dell'uomo. 1. Trova lo spazio campionario S dell'esperimento. 2. Esprimi W in funzione di S. 25. Nell'esperimento M&M, si acquista un pacchetto di M&Ms di un certo peso e si registrano le seguenti misure: numero di pastiglie rosse, verdi, blu, gialle, arancio e marroni e il peso netto (in grammi). I dati M&M riportano il risultato di 30 replicazioni di questo esperimento. Sia N il numero totale di pastiglie. Calcola N per ciascun pacchetto dei dati. 26. L'esperimento della cicala consiste nel catturare una cicala nella regione centrale del Tennessee e registrare le seguenti misurazioni: peso corporeo (in grammi), lunghezza http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob3.html (6 di 8) [22/11/2001 17.48.28] Funzioni e variabili casuali e larghezza delle ali e lunghezza del corpo (in millimetri), sesso e specie. I dati sulla cicala riportano il risultato di 104 replicazioni di questo esperimento. Sia V il rapporto tra lunghezza e larghezza delle ali. Calcola V per ciascuna cicala. 27. Nell'esperimento dado-moneta, si lancia un dado e poi si lancia una moneta il numero di volte indicato dal dado. Supponiamo di registrare la seuqenza di punteggi delle monete (0 per croce, 1 per testa). Inoltre, sia N il punteggio del dado e X il numero di teste. 1. Trova lo spazio campionario S dell'esperimento. Nota che S contiene sequenze di lunghezza variabile. 2. Esprimi N in funzione dello spazio campionario. 3. Esprimi X in funzione dello spazio campionario. 28. Simula l'esperimento dado-moneta 10 volte. Per ciascuna replicazione, riporta il valore delle variabili casuali I, N, e X dell'esercizio precedente. Queste ultime due sezioni trattano argomenti più avanzati e possono essere omesse alla prima lettura. Funzioni misurabili Ricorda che di solito un insieme è definito unitamente a una sigma algebra di sottinsiemi ammissibili. Supponiamo che S e T siano insiemi con sigma algebre, rispettivamente, A e B. Se f è funzione da S in T, allora un requisito naturale è che l'immagine inversa di ogni sottinsieme ammissibile di T sia un sottinsieme ammissibile di S. Formalmente f si dice misurabile se f -1(B) A per ogni B B. Tutte le funzioni che usiamo nel corso di questo progetto sono ipotizzate essere misurabili rispetto alle appropriate sigma algebre. In particolare, se S è lo spazio campionario di un esperimento, allora la collezione di eventi A è una sigma algebra di sottinsiemi di S. Se T è un insieme con sigma algebra B, allora, tecnicamente, una variabile casuale X a valori in T è una funzione misurabile da S in T. Questo requisito assicura che ogni affermazione ammissibile riguardo a X è un evento valido. 29. Supponi che R, S, T siano insiemi con sigma algebre, rispettivamente, A, B, e C. Dimostra che, se f è una funzione misurabile da R in S e g è una funzione misurabile da S in T allora g ° f è una funzione misurabile da R in T. 30. Supponiamo che f sia una funzione da S in T, e che B sia una sigma algebra di sottinsiemi di T. Prova che la collezione seguente è una sigma algebra di sottinsiemi di S, detta sigma algebra generata da f: sigma(f) = {f -1(B): B B}. In particolare, se S è lo spazio campionario di un esperimento e X è una variabile casuale a valori in T, allora la sigma algebra generata da X è la collezione di tutti gli eventi che http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob3.html (7 di 8) [22/11/2001 17.48.28] Funzioni e variabili casuali possono essere espressi in termini di X. sigma(X) = {{X B}: B B}. Più in generale, supponiamo che Tj sia un insieme con sigma algebra Bj per ogni j appartenente a un insieme non vuoto di indici J, e che fj sia una funzione da S in Tj per ogni j. La sigma algebra generata da questa collezione di funzioni è sigma{fj: j J} = sigma{fj-1(Bj) : j J e Bj Bj}. Quindi, se S è lo spazio campionario di un esperimento e Xj è una variabile casuale per ogni j appartenente a J, allora, intuitivamente, la sigma algebra generata da {Xj :j J} è la collezione di eventi che possono essere espressi in termini delle variabili casuali date. Casi particolari La maggior parte degli insiemi che si incontrano nelle applicazioni pratiche della teoria della probabilità sono non umerabili o sottinsiemi di Rn per qualche n, o, più in generale, sottinsiemi del prodotto di una quantità numerabile di insiemi di questi tipi. In questa sezione, analizziamo alcuni di questi casi particolari. 31. Supponi che S sia numerabile e che sia data la sigma algebra di tutti i sottinsiemi (l'insieme delle parti). Dimostra che ogni funzione da S è misurabile. Ricorda che l'insieme dei numeri reali R ha come sigma algera quella generata dalla collezione di intervalli. Tutte le funzioni elementari da R a R sono misurabili. Le funzioni elementari comprendono le funzioni algebriche (polinomi e funzioni razionali), le funzioni trascendentali i base (esponenziale, logaritmo, trigonometriche) e le funzioni costruite a partire da esse. Supponiamo che S1, S2, ..., Sn siano insiemi e che Ai sia una sigma algebra di sottinsiemi di Si per ogni i. Ricorda che per l'insieme prodotto S1 × S2 × ··· × Sn, usiamo la sigma algebra A generata dalla collezione di tutti gli insiemi prodotto della forma A1 × A2 × ··· × An dove Ai Ai per ogni i. Se f è funzione da S in T1 × T2 × ··· × Tn, allora f = (f1, ..., fn), dove fi è l'i-esima funzione coordinata, che mappa S in Ti. Come ci si può aspettare, f è misurabile se e solo se fi è misurabile per ogni i. Laboratorio virtuale > Spazi di Probabilità > 1 2 [3] 4 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob3.html (8 di 8) [22/11/2001 17.48.28] Frequenze relative e distribuzioni empiriche Laboratorio virtuale > Campioni casuali > 1 2 [3] 4 5 6 7 8 9 3. Frequenze relative e distribuzioni empiriche I campioni casuali e le loro medie campionarie si incontrano pressoché ovunque in statistica. In questo paragrafo vedremo come le medie campionarie possono essere utilizzate per stimare probabilità e funzioni di densità e di ripartizione. Al solito, iniziamo con un semplice esperimento casuale definito su un certo spazio campionario e con una certa misura di probabilità P. Frequenze relative Supponiamo che X sia la variabile casuale dell'esperimento, a valori in S. Osserva che X può essere il risultato completo dell'esperimento, e in questo caso S coinciderebbe con lo spazio campionario. Ricorda che la distribuzione di X è la misura di probabilità su S data da P(A) = P(X A) per A S. Supponiamo ora di fissare A. Richiamiamo la variabile indicatore IA, che assume valore 1 se X appartiene ad A e 0 altrimenti. Questa variabile indicatore ha distribuzione di Bernoulli con parametro P(A). 1. Mostra che media e varianza di IA valgono 1. E(IA) = P(A). 2. var(IA) = P(A)[1 - P(A)]. Supponiamo ora di ripetere indefinitamente questo esperimento e di avere così le variabili casuali X1, X2, ..., ciascuna distribuita come X. Pertnato, per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla distribuzione di X. La frequenza relativa di A per questo campione è Pn(A) = #{i {1, 2, ..., n}: Xi A} / n per A S. La frequenza relativa di A è una statistica che indica la percentuale di volte in cui A si è verificato nelle prime n replicazioni. 2. Mostra che Pn(A) è la media campionaria di un campione casuale di dimensione n estratto dalla distribuzione di IA. Concludi quindi che 1. E[Pn(A)] = P(A). 2. var[Pn(A)] = P(A)[1 - P(A)] / n 3. Pn(A) P(A) as n (quasi certamente). Questo caso particolare delle legge forte dei grandi numeri è fondamentale per il concetto http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample3.html (1 di 7) [22/11/2001 17.48.39] Frequenze relative e distribuzioni empiriche stesso di probabilità. 3. Mostra che, dato un certo campione, Pn soddisfa gli assiomi della misura di probabilità. La misura di probabilità Pn individua la distribuzione empirica di X, basata sul campione casuale. Si tratta di una distribuzione discreta, concentrata sui diversi valori di X1, X2, ..., Xn. Di fatto, pone massa di probabilità 1/n su Xi per ogni i, cosicché, se i valori campionari sono distinti, la distribuzione empirica è uniforme su tali valori. Molte applets in questo progetto sono simulazioni di esperimenti casuali che riportano eventi d'interesse. Quando si fa un esperimento, si generano replicazioni indipendenti dell'esperimento. In molti casi, l'applet indica la frequenza relativa dell'evento e il suo complementare sia numericamente che graficamente (in blu). Anche le frequenze empiriche sono riportate sia graficamente (in rosso), che numericamente. 4. Nell'esperimento della moneta di Buffon, L'evento d'interesse è che la moneta finisca su un'intercapedine. Esegui l'esperimento 1000 volte, aggiornando ogni 10, e osserva la convergenza della frequenza relativa dell'evento al valore di probabilità "vero". 5. Nell'esperimento di Bertrand, l'evento d'interesse e che una "corda aleatoria" su un cerchio sia più lunga della lunghezza di un lato del trinagolo equilatero inscritto. Esegui l'esperimento 1000 volte, aggiornando ogni 10, e osserva la convergenza della frequenza relativa dell'evento al valore di probabilità "vero". Le sezioni seguenti analizzano diversi casi particolare di frequenze relative. La funzione di ripartizione empirica Supponiamo ora che X sia una variabile casuale a valori reali. Ricorda che la funzione di ripartizione di X è la funzione F definita come F(x) = P(X x) per x R. Supponiamo ora d ripetere l'esperimento per avere X1, X2, ..., varaibili casuali indipendenti, ciascuna distribuita come X. Per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n tratto dalla distribuzione di X. È naturale definire la funzione di ripartizione empirica come Fn(x) = #{i {1, 2, ..., n}: Xi x} / n. Per ogni x, Fn(x) è una statistica che indica la frequenza relativa dei valori campionari minori o uguali a x. 6. Dimostra che 1. Fn è crescente da 0 a 1. 2. Fn è una funzione a gradini con "salti" per i valori distinti di X1, X2, ..., Xn. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample3.html (2 di 7) [22/11/2001 17.48.39] Frequenze relative e distribuzioni empiriche 3. Fn è la funzione di ripartizione della distribuzione empirica basata su {X1, X2, ..., Xn}. 7. Dimostra che, per ogni x, Fn(x) è la media campionaria di un campione casuale di dimensione n tratto dalla distribuzione della variabile I indicatore dell'evento {X Concludi quindi che 1. E[Fn(x)] = F(x). x}. 2. var[Fn(x)] = F(x) [1 - F(x)] / n. 3. Fn(x) F(x) per n (quasi certamente). Densità empirica per una variabile discreta Supponiamo ora che X sia la variabile casuale dell'esperimento base con distribuzione discreta su un insieme numerabile S. Indichiamo con f la funzione di densità di X, cosicché f(x) = P(X = x) per x S. Ripetiamo l'esperimento per avere X1, X2, ..., variabili casuali indipendenti, ciascuna distribuita come X. Per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla distribuzione di X. La funzione di frequenza relativa (o funzione di densità empirica) relativa al campione è data da fn(x) = #{i {1, 2, ..., n}: Xi = x} / n for x S. Per ogni x, fn(x) è una statistica che indica la frequenza relativa dei valori del campione che hanno valore x. 8. Prova che la funzione di densità empirica soddisfa i requisiti per essere una funzione di densità discreta: 1. fn(x) 2. 0 per ogni x S. x appartenente a S fn(x) = 1. 3. fn è la funzione di densità della distribuzione empirica basata su {X1, X2, ..., Xn} 9. Dimostra che, se X è a valori reali, allora la media campionaria di (X1, X2, ..., Xn) è la media della funzione di densità empirica. 10. Prova che, per ogni x, fn(x) è la media campionaria per un campione casuale di dimensione n estratto dalla distribuzione della variabile I, indicatore dell'evento {X = x}. Concludi quindi che 1. E[fn(x)] = f(x). 2. var[fn(x)] = f(x)[1 - f(x)] / n http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample3.html (3 di 7) [22/11/2001 17.48.39] Frequenze relative e distribuzioni empiriche 3. fn(x) f(x) as n . Molte applets in questo progetto sono simulazioni di esperimenti relativi a variabili discrete. Quando si fa un esperimento, si generano replicazioni indipendenti dell'esperimento. In molti casi, l'applet indica la funzione di densità "vera" in blu e la funzione di densità empirica in rosso. 11. Nell'esperimento del poker, la variabile casuale è la mano che si ottiene. Esegui 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica. 12. Nell'esperimento binomiale della moneta, la variabile casuale è il numero di teste. Esegui 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica. 13. Nell'esperimento della concordanza, la variabile casuale è il numero di successi . Esegui 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica. Densità empirica di una variabile continua Ricorda, di nuovo, che la misura standard in k-dimensioni su Rk è data da mk(A) = A1dx for A Rk. In particolare, m1 è la misura di lunghezza du R, m2 è la misura di area su R2, e m3 è la misura di volume su R3. Supponiamo ora che X sia una variabile casuale con distribuzione continua su un sottinsieme S di Rk. Sia f la funzione di densità di X; più precisamente, f è la densità rispetto a mk. Pertanto, per definizione, P(X A) = A f(x) dx for A S. Ripetiamo, di nuovo, l'esperimento, ottenendo le variabili casuali indipendenti X1, X2, ..., ciascuna distribuita come X. Per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla distribuzione di X. Supponiamo ora che {Aj: j J} sia una partizione S in un insieme numerabile di sottinsiemi. Come già fatto in precedenza, possiamo definire la probabilità empirica di Aj, basata sui primi n valori campionari, come Pn(Aj) = #{i {1, 2, ..., n}: Xi Aj} / n. Possiamo quindi definire la funzione di densità empirica come segue: http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample3.html (4 di 7) [22/11/2001 17.48.39] Frequenze relative e distribuzioni empiriche fn(x) = Pn(Aj) / mk(Aj) per x Aj. Ovviamente la funzione di densità empirica fn dipende dalla partizione, ma lasciamo perdere ciò per evitare che la notazione diventi del tutto illeggibile. Naturalmente, per ogni x, fn(x) è una variabile casuale (di fatto, una statistica), ma per la definizione stessa di densità, se la partizione è sufficientemente fine (di modo che Aj sia piccolo per ogni j) e se n è sufficientemente grande, allora, per la legge dei grandi numeri si ha fn(x) ~ f(x) per x S. 14. Dimostra che fn soddisfa le condizioni per essere una funzione di densità di probabilità: 1. fn(x) 2. 0 per ogni x S fn(x)dx S. = 1. 3. fn corrisponde alla distribuzione per la quale Pn(Aj) è distribuito uniformemente su Aj per ogni j. Molte applets in questo progetto sono simulazioni di esperimenti relativi a variabili continue. Quando si fa un esperimento, si generano replicazioni indipendenti dell'esperimento. In molti casi, l'applet indica la funzione di densità "vera" in blu e la funzione di densità empirica in rosso. 15. Esegui l'esperimento esponenziale 1000 volte, aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. 16. Nell'applet variabile casuale, seleziona la distribuzione normale. Esegui 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica. Analisi esplorativa dei dati Molti dei concetti presentati poc'anzi sono sovente utilizzati nell'analisi esplorativa dei dati. In generale, supponiamo che x sia una variabile (in genere un vettore di variabili), rilevata su una certa popolazione, e che x1, x2, ..., xn siano i dati osservati su un campione di dimensione n, relativo a questa variabile. Per esempio, x può indicare il conteggio di colori (codificato) e il peso di un pacchetto di M&Ms. Sia ora {Aj: j J} una partizione dei dati, con J insieme finito di indici. Gli insiemi Aj: j J si dicono classi. Analogamente a quanto già visto, definiamo la frequenza e la frequenza relativa di Aj come segue: ● q(Aj)= #{i {1, 2, ..., n}: xi Aj}. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample3.html (5 di 7) [22/11/2001 17.48.39] Frequenze relative e distribuzioni empiriche ● p(Aj) = q(Aj) / n. Se x è una variabile continua a valori in Rk, possiamo anche definire la densità di Aj : f(Aj) = p(Aj) / mk(Aj), La funzione q che assegna le frequenze alle classi è nota come distribuzione di frequenza per i dati . Ugualmente, p e f definiscono rispettivamente la distribuzione di frequenza relativa e la distribuzione di densità per i dati. Se k = 1 o 2, il grafico a barre di queste distribuzioni è detto istogramma. La ragione per cui si costruiscono e si disegnano queste distribuzioni empiriche è quella di raccogliere e presentare i dati in maniera informativa. Alcuni suggerimenti nella scelta delle classi sono i seguenti: 1. Il numero di classi dev'essere limitato. 2. Possibilmente, le classi devono avere la stessa dimensione. 17. Nell'applet istogramma interattivo, clicca sull'asse x in vari punti per generare un insieme di 20 dati. Varia l'ampiezza della classe sui 5 valori tra 0.1 e 5.0. Per ogni ampiezza di classe osserva l'istogramma delle frequenze e delle frequenze relative e valutane i cambiamenti. È importante capire che i dati di frequenza sono scontati per una variabile continua. Supponi per esempio che la variabile casuale sia il peso (in grammi) di un pacchetto di M&Ms e che il dispositivo di misura sia preciso a 0.01 grammi. Se il peso di un pacchetto è 50.32, stiamo in realtà dicendo che il peso è compreso nell'intervallo [50.315, 50.324). Ugualmente, se due pacchetti hanno lo stesso peso misurato, l'apparente uguaglianza dei pesi è in realtà solo una finzione dovuta all'inaccuratezza del dispositivo di misura; in realtà i due pacchetti non hanno quasi certamente lo stesso peso. Pertanto due pacchetti il cui peso misurato è uguale ci danno una frequenza di 2 su un certo intervallo. Di nuovo, esiste un trade-off tra il numero di classi e la loro dimensione; questi fattori determinano la risoluzione della distribuzione empirica. Nel caso più estremo, quando l'ampiezza delle classi è più piccola della precisione del dispositivo di misura, ogni classe contiene un unico valore distinto. In questo caso non vi è perdita di informazione e si può risalire ai dati originari dalla distribuzione di frequenza (a parte l'ordine in cui i dati erano stati ottenuti). D'altra parte, riesce difficile individuare la forma dei dati quando si hanno molte classi di piccola dimensione. All'altro estremo abbiamo una distribuzione di frequenza con un'unica classe che contiene tutti i valori. In questo caso si perde tutta l'informazione, a parte il numero dei dati originari. Al di là di questi due casi estremi, possiamo dire che la distribuzione empirica ci dà informazioni parziali e incomplete, ma può essere utilizzata per organizzare e presentare i dati in modo più comprensibile. 18. Nell'applet istogramma interattivo, poni l'ampiezza di classe a 0.1. Clicca sull'asse x per generare un insieme di dati con 10 valori distinti e 20 valori totali. 1. Scrivi, sulla base della distribuzione di frequenza, i 20 valori generati. 2. Incrementa l'ampiezza di classe a 0.2, 0.5, 1.0 e 5.0. Osserva come l'istogramma http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample3.html (6 di 7) [22/11/2001 17.48.39] Frequenze relative e distribuzioni empiriche perde risoluzione, ovvero come la distribuzione di frequenza perde informazioni sui dati originari. 19. Sui dati di Michelson, costruisci la distribuzione di frequenza per la variabile velocità della luce usando 10 classi di uguale ampiezza. Disegna l'istogramma e descrivi la forma della distribuzione. 20. Sui dati di Cavendish, costruisci una distribuzione di frequenza relativa per la densità della variabile terra usando 5 classi di uguale ampiezza. Disegna l'istogramma e descrivi la forma della distribuzione. 22. Coi dati M&M, costruisci la distribuzione di frequenza e l'istogramma per le variabili numero complessivo e peso. 23. Sui dati della cicala, costruisci la distribuzione di densità e l'istogramma per la variabile peso corporeo nei casi riportati qui sotto. Osserva le differenze. 1. Tutte le specie 2. Ciascuna specie singolarmente 3. Maschi e femmine singolarmente 24. Nell'applet istogramma interattivo, poni l'ampiezza di classe a 0.1 e clicca sull'asse per generare le distribuzioni dei tipi proposti (30 osservazioni). Aumenta l'ampiezza della classe e descrivi il tipo di distribuzione. 1. Distribuzione uniforme 2. Distribuzione simmetrica unimodale 3. Distribuzione unimodale asimmetrica a destra 4. Distribuzione unimodale asimmetrica a sinistra 5. Distribuzione simmetrica bimodale 6. Distribuzione a forma di u Laboratorio virtuale > Campioni casuali > 1 2 [3] 4 5 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample3.html (7 di 7) [22/11/2001 17.48.39] La distribuzione ipergeometrica Laboratorio virtuale > Modelli di campionamento finito > 1 [2] 3 4 5 6 7 8 9 10 2. La distribuzione ipergeometrica Supponiamo di avere una popolazione dicotomica D composta da due tipi di unità. Per esempio, possiamo avere delle palline in un'urna colorate di rosso o di verde, una scatola di componenti elettronici funzionanti o difettosi, una popolazione di persone maschi o femmine, o una popolazione di animali marchiati o non marchiati. Sia D1 il sottinsieme di D formato dalle unità di tipo 1, e si supponga che D1 abbia cardinalità R. Come nel modello di campionamento semplice, estraiamo a caso n unità da D: X = (X1, X2, ..., Xn), dove Xi appartenente a D è l'i-esima unità estratta. In questo paragrafo ci occupiamo della variabile casuale Y, che indica il numero di oggetti di tipo 1 nel campione. Notiamo che Y è una variabile di conteggio, e come tale può essere scritta come somma di variabili indicatore. 1. Prova che Y = I1 + I2 + ··· + In dove Ii = 1 se Xi appartiene a D1 (l'i-esima unità è di tipo 1) e Ii = 0 altrimenti. Per iniziare, assumeremo di estrarre senza reinserimento, che è di solito la scelta più realistica nel caso di popolazioni dicotomiche. La funzione di densità Ricordiamo che, poiché l'estrazione avviene senza reinserimento, il campione non ordinato è distribuito uniformemente sull'insieme di tutte le combinazioni di dimensione n estratte da D. Tale osservazione di porta a una semplice derivazione caombinatoriale della densità di Y. 2. Mostra che, per k = max{0, n - (N - R)}, ..., min{n, R}, P(Y = k) = C(R, k) C(N - R, n - k) / C(N, n). Tale formula è nota come distribuzione ipergeometrica con parametri N, R, e n. Se adottiamo la convenzione C(j, i) = 0 per i > j la formula della funzione di densità è corretta per k = 0, 1, ..., n. 3. Prova che la formulazione alternativa della densità ipergeometrica in due modi: usando il calcolo combinatorio, considerando l'esito come permutazione di dimensione n estratta dalla popolazione di N palline, e algebricamente, partendo dal risultato dell'esercizio 2. P(Y = k) = C(n, k) (R)k (N - R)n - k / (N)n per k = 0, 1, ..., n. 4. Nell'esperimento delle palline nell'urna, seleziona estrazione senza reinserimento. Modifica i parametri e osserva la forma del grafico della funzione di densità. Con N = 50, http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn2.html (1 di 4) [22/11/2001 17.48.46] La distribuzione ipergeometrica R = 30 e n = 10 esegui l'esperimento aggiornando ogni 100 replicazioni. Osserva la convergenza delle frequenze relative alla funzione di densità. Momenti Negli esercizi seguenti ricaveremo media e varianza di Y. Avranno un ruolo chiave la proprietà di scambiabilità delle variabili indicatore e le proprietà di covarianza e correlazione. 5. Dimostra che E(Ii) = R / N per ogni i. 6. Prova che E(Y) = n (R / N). 8. Mostra che var(Ii) = (R / N) (1 - R / N) per ogni j. 9. Prova che, per i e j distinti, a. cov(Ii, Ij) = -(R / N) (1 - R / N) [1 / (N - 1)] 2. cor(Ii, Ij) = -1 / (N - 1) Nota dall'esercizio 9 che l'evento in cui si estrae un'unità di tipo 1 all'i-esima estrazione e l'evento in cui se ne estrae una alla j-esima sono negativamente correlati, ma la correlazione dipende solo dala dimensione della popolazione e non dal numero di unità di tipo 1. Nota inoltre che la correlazione è perfetta se N= 2. Prova a interpretare questi risultati in termini intuitivi. 10. Nell'esperimento delle palline nell'urna, poni N = 50, R = 20 e n = 10 ed esegui l'esperimento 500 volte, aggiornando ogni volta. Calcola la correlazione empirica degli eventi "pallina rossa alla terza estrazione" e "pallina rossa alla settima estrazione" e confronta i risultati con quelli teorici presentati nell'esercizio precedente. 11. Usa i risultati degli esercizi 8 e 9 per mostrare che var(Y) = n (R / N)(1 - R / N) (N - n) / (N - 1). Nota che var(Y) = 0 se R = 0, R = N, o n = N. Pensa a questi risultati. 14. Nell'esperimento delle palline nell'urna, seleziona estrazione senza reinserimento. Modifica i parametri e osserva la dimensione e la posizione della barra media/deviazione standard. Con N = 50, R = 30 e n = 10 esegui l'esperimento aggiornando ogni 100 replicazioni. Osserva la convergenza dei momenti empirici a quelli teorici. 15. Una scatola di 100 chip di memoria contiene 10 chip difettosi. Si estraggono a caso cinque chip, senza reinserimento. 1. Calcola esplicitamente la funzione di densità del numero di chip difettosi nel campione. 2. Calcola esplicitamente media e varianza del numero di chip difettosi del campione. 3. Trova la probabilità che il campione contenga almeno un chip difettoso. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn2.html (2 di 4) [22/11/2001 17.48.46] La distribuzione ipergeometrica 16. Un club comprende 50 membri, 20 uomini e 30 donne. Si forma a caso un comitato di 10 membri. 1. Trova media e varianza del numero di donne nel comitato. 2. Trova media e varianza del numero di uomini nel comitato. 3. Trova la probabilità che tutti i membri del comitato siano dello stesso sesso. Estrazioni con reinserimento Supponiamo ora che le estrazioni siano effettuate con reinserimento, anche se ciò non è sempre realistico nelle applicazioni reali. 17. Prova che gli I1, I2, ..., In formano una sequenza di n prove Bernoulliane con parametro di successo R / N. I risultati seguenti seguono immediatamente dalla teoria generale delle prove Bernoulliane, anche se a volte si possono utilizzare dimostrazioni modificate. 18. Mostra che Y ha distribuzione binomiale con parametri n e R / N: P(Y = k) = C(n, k) (R / N)k(1 - R / N)n - k per k = 0, 1, ..., n. 19. Prova che 1. E(Y) = n(R / N). 2. var(Y) = n(R / N)(1 - R / N) Notiamo che per qualsiasi valore dei parametri, E(Y) resta lo stesso, sia nel caso del campionamento con reinserimento che in quello senza reinserimento. D'altra parte, var(Y) è inferiore, di un fattore di (N - n) / (N - 1), quando il campionamento avviene senza reinserimento rispetto al caso con reinserimento. Pensa a questi risultati. Il fattore (N - n) / (N - 1) è a volte detto fattore di correzione della popolazione finita. Convergenza della distribuzione ipergeometrica alla binomiale Supponiamo che la dimensione della popolazione N sia molto grande rispetto alla dimensione del campione n. In questo caso, sembra ragionevole che il campionamento senza reinserimento non sia molto diverso da quello con reinserimento, e quindi la distribuzione ipergeometrica dovrebbe approssimarsi bene con la binomiale. L'esercizio seguente precisa questa osservazione. All'atto pratico, si tratta di un risultato prezioso, poiché in molti casi non conosciamo con esattezza la dimensione della popolazione. 20. Supponi che R dipenda da N e che R/N p in [0, 1] per N . Mostra che, per dato n, la densità ipergeometrica con parametri N, R e n converge alla densità binomiale con parametri n e p. Suggerimento: Usa la rappresentazione dell'esercizio 3. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn2.html (3 di 4) [22/11/2001 17.48.46] La distribuzione ipergeometrica 21. Nell'esperimento delle palline nell'urna, modifica i parametri e cambia da estrazione con reinserimento a estrazione senza reinserimento. Osserva la differenza tra il grafico delle distribuzioni ipergeometrica e binomiale. Poni N = 100, n = 10 e R = 30. Simula 1000 replicazioni, aggiornando ogni 100. Confronta le frequenze relative con la funzione di densità ipergeometrica e con l'approssimazione binomiale. 22. Un laghetto contiene 1000 pesci, di cui 100 sono marchiati. Supponi che vengano catturati 20 pesci. 1. Calcola la probabilità che il campione contenga almeno 2 pesci marchiati. 2. Trova l'approssimazione binomiale alla probabilità di (a). 3. Calcola l'errore relativo dell'approssimazione. 23. Il 40% degli elettori di un comune preferiscono il candidato A. Supponi di scegliere a caso 10 elettori. Trova la probabilità che almeno 5 preferiscano il candidato A. 24. Nel contesto dell'esercizio 20, mostra che media e varianza della distribuzione ipergeometrica convergono alla media e alla varianza della distribuzione binomiale per N . Laboratorio virtuale > Modelli di campionamento finito > 1 [2] 3 4 5 6 7 8 9 10 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn2.html (4 di 4) [22/11/2001 17.48.46] Modelli di campionamento finito Laboratorio virtuale > Modelli speciali > A B [C] D E F G H C. Modelli di campionamento finito Sommario 1. Introduzione 2. La distribuzione ipergeometrica 3. Inferenza nel modello ipergeometrico 4. La distribuzione ipergeometrica multivariata 5. Statistiche d'ordine 6. Il problema della concordanza 7. Il problema del compleanno 8. Numero di valori campionari distinti 9. Il problema del collezionista 10. Note conclusive Applets ● Esperimento delle palline e dell'urna ● Esperimento delle carte ● Esperimento delle statistiche d'ordine ● Esperimento della concordanza ● Esperimento del compleanno ● Esperimento del compleanno generalizzato ● Esperimento del collezionista Laboratorio virtuale > Modelli speciali > A B [C] D E F G H Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/index.html [22/11/2001 17.48.48] La distribuzione binomiale Laboratorio virtuale > Prove Bernoulliane > 1 [2] 3 4 5 6 7 2. La distribuzione binomiale Supponiamo che il nostro esperimento casuale consista nell'eseguire prove Bernoulliane I1, I2, .... In questo paragrafo analizzeremo la variabile casuale Xn che indica il numero di successi nelle prime n prove. Tale variabile ha un'espressione semplice in termini delle variabili indicatore: 1. Mostra che Xn = I1 + I2 + ··· + In. La funzione di densità 2. Supponi che K N = {1, 2, ..., n} and #(K) = k. Usa le assunzioni sulle prove Bernoulliane per mostrare che P(Ij = 1 per j K e Ij = 0 per j N - K) = pk(1 - p)n -k. Ricorda che il numero di sottinsiemi di dimensione k da un insieme di dimensione n è il coefficiente binomiale C(n, k). = n!/[k!(n - k)!} 3. Usa l'esercizio 2 e le proprietà fondamentali della probabilità per mostrare che P(Xn = k) = C(n, k)pk(1 - p)n-k per k = 0, 1, ..., n. La distribuzione con questa funzione di densità è detta distribuzione binomiale con parametri n e p. La famiglia binomiale è una delle più importanti in probabilità. 4. Nell'esperimento binomiale della moneta, modifica n e p con le barre a scorrimento e osserva forma e posizione della funzione di densità. Con n = 10 e p = 0.7, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla funzione di densità. 5. Per 5 lanci di un dado bilanciato, trova esplicitamente la funzione di densità del numero di uno. 6. Uno studente esegue un test a scelta multipla con 10 domande, ciascuna con 4 possibilità. Se lo studente tira a indovinare, trova la probabilità di indovinare almeno 5 domande. 7. Usa il teorema binoniale per mostrare che la funzione di densità binomiale è effettivamente una funzione di densità di probabilità (discreta). 8. Mostra che http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli2.html (1 di 7) [22/11/2001 17.48.59] La distribuzione binomiale 1. P(Xn = k) > P(Xn = k - 1) se e solo se k < (n + 1)p. 2. P(Xn = k) = P(Xn = k - 1) se e solo se (n + 1)p è un intero tra 1 e n, e k = (n + 1)p Quindi la funzione di densità prima cresce e poi decresce, raggiungendo il massimo a floor[(n + 1)p]; tale intero è la moda della distribuzione. (Ricorda che floor(x) è il maggiore intero minore di x). Nel caso in cui m = (n + 1)p è un intero tra 1 e n, ci sono due mode consecutive, a m - 1 e m. In ciascuno degli eventi, la forma della distribuzione binomiale è unimodale. 9. Supponi che U sia una variabile casuale con distribuzione binomiale con parametri n e p. Mostra che n - U ha distribuzione binomiale con parametri n e 1 - p. 1. Dai una dimostrazione probabilistica basata sulle prove di Bernoulli 2. Dai una dimostrazione analitica basata sulle funzioni di densità Problemi famosi Nel 1693, Samuel Pepys chiese a Isaac Newton se è più probabile avere almeno un uno in 6 lanci di un dado o almeno due uno in 12 lanci di un dado. Tale problema è noto come problema di Pepys; ovviamente Pepys si riferiva a dadi bilanciati. 10. Prova a rispondere al problema di Pepys basandoti sui dati empirici. Con un dato equilibrato e n = 6, simula l'esperimento del dado 500 volte e calcola la frequenza relativa di almeno un uno. Con n = 12, simula 500 replicazioni e calcola la frequenza relativa di almeno due uno. Confronta i risultati. 11. Risolvi il problema di Pepys utilizzando la distribuzione binomiale. 12. Cos'è più probabile: almeno un uno su 4 lanci di un dado equilibrato o almeno un doppio uno in 24 lanci di due dadi equilibrati? Questo è noto come problema di DeMere in onore del Chevalier De Mere Momenti Vediamo ora come calcolare media e varianza della distribuzione binomiale in vari modi diversi. Il metodo che utilizza le variabili indicatore è il migliore. 13. Usa l'esercizio 1 e le proprietà del valore atteso per mostrare che E(Xn) = np. Ciò ha senso a livello intuitivo, poiché p dev'essere approssimativamente la proporzione di successi in un numero elevato di prove. 14. Calcola la media utilizzando la funzione di densità. 15. Usa l'esercizio 1 e le proprietà della varianza per mostrare che http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli2.html (2 di 7) [22/11/2001 17.48.59] La distribuzione binomiale var(Xn) = np(1 - p) 16. Disegna il grafico della varianza in funzione di p. Nota in particolare che la varianza è massima quando p = 1/2 e minima quando p = 0 o p = 1. 17. Calcola la varianza utilizzando la funzione di densità. 18. Prova che la funzione generatrice di probabilià è data da E(tXn) = (1 - p + pt)n per t appartenente a R 19. Usa la funzione generatrice di probabilità dell'esercizio 18 per calcolare media e varianza. 20. Usa l'identità jC(n, j) = nC(n - 1, j - 1) per n, j = 1, 2, ... per mostrare che E(Xnk) = npE[(Xn - 1 + 1)k - 1] per n, k = 1, 2, ... 21. Usa il risultato ricursivo dell'esericizio 20 per ricavare in un altro modo media e varianza. 22. Nell' esperimento binomiale della moneta, modifica n e p con le barre a scorrimento e osserva posizione e dimensione della barra media/deviazione standard. Con p = 0.7, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza di media e deviazione standard ai loro valori teorici. 23. Un certo tipo di missile ha probabilità di fallimento 0.02. Calcola media e deviazione standard del numero di fallimenti in 50 lanci. 24. Si lancia 1000 volte un dado bilanciato. Trova media e deviazione standard del numero di "uno". La tavola di Galton La tavola di Galton è una matrice triangolare di chiodi. Le righe sono numerate 0, 1, ... da cima a fondo. La riga n ha n + 1 chiodi, numerati da 0 a n da sinistra a destra. Ciascun chiodo, quindi, può essere identificato dalla coppia ordinata (n, k) dove n è il numero di riga e k è il numero del chiodo in tale riga. La tavola di Galton prende il nome da Francis Galton. Supponiamo ora di far cadere una pallina sul primo chiodo (0, 0). Ogni volta che la pallina cade su un chiodo, cade alla sua destra con probabilità p e alla sua sinistra con probabilità 1 - p, indipendentemente da volta a volta. 25. Prova che il numero di chiodi su cui la pallina cade nella riga n ha distribuzione binomiale con parametri n e p. 26. Nell'esperimento della tavola di Galton, poni n = 10 e p = 0.1. Clicca su step http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli2.html (3 di 7) [22/11/2001 17.48.59] La distribuzione binomiale diverse volte e osserva le palline cadere tra i chiodi. Ripeti per p = 0.3, 0.5, 0.7, e 0.9. 27. Nell'esperimento della tavola di Galton, poni n = 15 e p = 0.1. Esegui 100 replicazioni, aggiornando ogni volta. Osserva la forma generale dei sentieri di caduta. Ripeti per p = 0.3, 0.5, 0.7, e 0.9. Somme di variabili binomiali indipendenti Introduciamo ora un'importante proprietà di invarianza per la distribuzione binomiale. 28. Usa la rappresentazione in termini delle variabili indicatore per mostrare che se m e n sono interi positivi allora 1. Xm+n - Xm ha la stessa distribuzione di Xn (binomiale con parametri n e p). 2. Xm+n - Xm e Xm sono indipendenti. Pertanto, il processo stocastico Xn, n = 1, 2, ... ha incrementi indipendenti e stazionari. 29. Prova che, se U e V sono variabili indipendenti relative a un esperimento, U ha distribuzione binomiale con parametri m e p e V ha distribuzione binomiale con parametri n e p, allora U + V ha distribuzione binomiale con parametri m + n e p. 1. Fornire una dimostrazione probabilistica, usando l'esercizio 28. 2. Fornire una dimostrazione analitica, utilizzando le funzioni di densità. 3. Fornire una dimostrazione analitica, utilizzando le funzioni generatrici di probabilità. Rapporto con la distribuzione ipergeometrica 30. Supponi che m < n. Prova che P(Xm = j | Xn = k) = C(m, j) C(n - m, k - j) / C(n, k) per j = 0, 1, ..., m. È interessante notare che la distribuzione dell'esercizio 30 è indipendente da p. Si tratta della distribuzione ipergeometrica con parametri n, m e k. Prova a interpretare questo risultato in termini probabilistici. 31. Si lancia una moneta 100 volte e si ottengono 30 teste. Trova la funzione di densità del numero di teste nei primi 20 lanci. Approssimazione normale 32. Nell'esperimento binomiale temporale, poni p = 0.1. Inizia con n = 1 e aumenta ogni volta n di 1. Osserva la forma della funzione di densità. Con n = 100, simula 1000 replicazioni, aggiornando ogni 10. Ripeti per p = 0.3, 0.5, 0.7 e 0.9. La caratteristica forma a campana che dovresti osservare dall'esercizio 32 costituisce una buona esemplificazione del teorema limite centrale, poiché la variabile binomiale può http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli2.html (4 di 7) [22/11/2001 17.48.59] La distribuzione binomiale essere scritta come somma di n variabili casuali indipendenti e identicamente distribuite (le variabili indicatore). 33. Prova che la distribuzione della variabile standardizzata riportata converge alla distribuzione normale standardizzata al crescere di n (Xn - np) / [np(1 - p)]1/2. Questa versione del teorema limite centrale è nota come teorema di DeMoivre-Laplace, e prende nome da Abraham DeMoivre e Simeon Laplace. Dal punto di vista pratico, l'esercizio 33 significa che, per n sufficientemente grande, la distribuzione di Xn è approssimatamente normale, con media np e varianza np(1 - p). Quanto grande n dev'essere perché l'approssimazione sia accettabile dipende dal valore di p. La regola empirica è che np e n(1 - p) devono valere almeno 5. 34. Nell'esperimento binomiale temporale, poni p = 0.5 e n = 15. Simula 1000 replicazioni, aggiornando ogni 100. Calcola e confronta i seguenti: 1. P(5 X15 10) 2. La frequenza relativa dell'evento {5 3. L'approssimazione normale a P(5 X15 X15 10} 10) 35. Nell'esperimento binomiale temporale, poni p = 0.3 e n = 20. Simula 1000 replicazioni, aggiornando ogni 100. Calcola e confronta i seguenti: 1. P(5 X20 10) 2. La frequenza relativa dell'evento {5 3. L'approssimazione normale a P(5 X20 X20 10} 10) 36. Nell'esperimento binomiale temporale, poni p = 0.8 e n = 30. Simula 1000 replicazioni, aggiornando ogni 100. Calcola e confronta i seguenti: 1. P(22 X30 27) 2. La frequenza relativa dell'evento {22 3. L'approssimazione normale a P(22 X30 X30 27} 27) 37. Supponi che in un certo comune, il 40% degli elettori preferiscano il candidato A. Si estrae un campione di 50 elettori. 1. Trova media e varianza del numero di elettori del campione che preferiscono A. 2. Trova la probabilità che meno di 19 soggetti del campione preferiscano A. 3. Calcola l'approssimazione normale alla probabilità di (b). Affidabilità http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli2.html (5 di 7) [22/11/2001 17.48.59] La distribuzione binomiale La distribuzione binomiale si presenta spesso negli studi di affidabilità. Supponiamo che un sistema sia formato da n componenti che funzionano indipendentemente l'una dall'altra. Ciascuna componente può essere funzionante, con probabilità p, o difettosa, con probabiloità 1 - p. Le componenti rappresentano quindi prove Bernoulliane. Supponiamo ora che il sistema, nel suo complesso, funzioni se e solo se almeno k delle n componenti funzionano. In termini di affidabilità un sistema di questo tipo è detto, a buona ragione, sistema k di n. La probabilità che il sistema funzioni correttamente è detta affidabilità del sistema. 38. Commenta la ragionevolezza dell'assunzione che le componenti si comportino in modo Bernoulliano. 39. Prova che l'affidabilità di un sistema k di n è Rn,k(p) = P(X distribuzione binomiale con parametri n e p. k) dove X ha 40. Mostra che Rn,n(p) = pn. Un sistema n di n è detto sistema in serie. 41. Mostra che Rn,1(p) = 1 - (1 - p)n. Un sistema 1 di n è detto sistema parallelo. 42. Nell'esperimento binomiale della moneta, poni n= 10 e p = 0.9 e simula 1000 replicazioni, aggiornando ogni 100. Calcola l'affidabilità empirica e confrontala col suo valore teorico in ciascuno dei casi seguenti: 1. Sistema 10 di 10 (in serie). 2. Sistema 1 di 10 (parallelo). 3. Sistema 4 di 10. 43. Considera un sistema formato da n = 4 componenti. Disegna il grafico di R4,1, R4,2, R4,3 e R4,4 sullo stesso piano cartesiano. 44. Un sistema n di 2n - 1 è detto sistema a maggioranza. 1. Calcola l'affidabilità di un sistema 2 di 3. 2. Calcola l'affidabilità di un sistema 3 di 5. 3. Per quali valori di p il sistema 3 di 5 è più affidabile di quello 2 di 3? 4. Disegna i grafici di R3,2 e R5,3 sullo stesso piano cartesiano. 45. Nell'esperimento binomiale della moneta, calcola l'affidabilità empirica, basandoti su 100 replicazioni, in ciascuno dei seguenti casi. Confronta i valori ottenuti con quelli teorici. 1. Sistema 2 di 3 con p = 0.3 2. Sistema 3 di 5 con p = 0.3 3. Sistema 2 di 3 con p = 0.8 4. Sistema 3 di 5 con p = 0.8 http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli2.html (6 di 7) [22/11/2001 17.48.59] La distribuzione binomiale 46. Prova che R2n - 1, n(1/2) = 1/2. Laboratorio virtuale > Prove Bernoulliane > 1 [2] 3 4 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli2.html (7 di 7) [22/11/2001 17.48.59] Prove Bernoulliane Laboratorio virtuale > Modelli speciali > A [B] C D E F G H B. Prove Bernoulliane Sommario 1. Introduzione 2. La distribuzione binomiale 3. La proporzione di successi 4. La distribuzione geometrica 5. La distribuzione binomiale negativa 6. La distribuzione multinomiale 7. Note conclusive Applets ● Esperimento della moneta ● Esperimento della moneta binomiale ● Esperimento temporale binomiale ● Esperimento della tavola di Galton ● Esperimento binomiale negativo ● Esperimento del problema dei punti Laboratorio virtuale > Modelli speciali > A [B] C D E F G H Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/index.html [22/11/2001 17.49.01] La distribuzione di Poisson Laboratorio virtuale > Il processo di Poisson > 1 2 3 [4] 5 6 7 8 4. La distribuzione di Poisson La funzione di densità Abbiamo mostrato che il k-esimo tempo di arrivo ha funzione di densità gamma con parametro di forma k e parametro di velocità r: fk(t) = (rt)k - 1re-rt / (k - 1)!, t > 0. Ricordiamo inoltra che almeno k arrivi si presentano nell'intervallo (0, t] se e solo se il k-esimo arrivo si presenta prima di t: Nt k se e solo se Tk t. 1. Usa l'integrazione per parti per mostrare che P(Nt k) = (0, t] fk(s)ds =1- j = 0, ..., k - 1 exp(-rt) (rt)j / j!. 2. Usa il risultato dell'esercizio 1 per mostrare che la funzione di densità del numero di arrivi nell'intervallo (0, t] è P(Nt = k) = e-rt (rt)k / k! per k = 0, 8, ... La distribuzione corrispondente è detta distribuzione di Poisson con parametro rt e prende nome da Simeon Poisson. 3. Nell'esperimento di Poisson, modifica r e t con le barre a scorrimento e osserva la forma della funzione di densità. Con r = 2 e t = 3, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alla funzione di densità. La distribuzione di Poisson è una delle più importanti della teoria della probabilità. In generale, una variabile casuale discreta N di un certo esperimento si dice avere distribuzione di Poisson con parametro c > 0 se ha funzione di densità g(k) = P(N = k) = e-c ck / k! per k = 7, 6, ... 4. Prova che g è realmente una funzione di densità. 5. Mostra che P(N = n - 1) < P(N = n) se e solo se n < c La distribuzione è quindi unimodale e la moda si ha al maggiore intero in c. 6. Supponi che le richieste a un server web seguano il modello di Poisson con velocità r = 5 al minuto. Trova la probabilità che arrivino almeno 8 richieste in un periodo fi 2 http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson4.html (1 di 5) [22/11/2001 17.49.09] La distribuzione di Poisson minuti. 7. I difetti di fabbricazione in un certo tipo di cavo seguono il modello di Poisson con velocità 1.5 al metro. Trova la probabilità che ci siano non più di 4 difetti in un pezzo di cavo di 2 metri. Momenti Supponi che N abbia distribuzione di Poisson con parametro c. Gli esercizi seguenti individuano media, varianza e funzione generatrice di probabilità di N. 8. Prova che E(N) = c 9. Prova che var(N) = c 10. Prova che E(uN) = exp[c(u - 1)] per s R. Tornando al processo di Poisson, ne segue che E(Nt) = rt, var(Nt) = rt. Vediamo di nuovo che r può essere interpretato come velocità media di arrivo. In un intervallo di lunghezza t, ci si aspettano all'incirca rt arrivi. 11. Nell'esperimento di Poisson, modifica r e t con le barre a scorrimento e osserva la posizione e la dimensione della barra media/deviazione standard. Con r = 2 e t = 3, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza dei momenti empirici ai loro valori teorici. 12. Supponi che le automobili arrivino a una certa stazione di servizio secondo il modello di Poisson, con una velocità di r = 4 all'ora. Trova media e deviazione standard del numero di automobili in un periodo di 8 ore. Incrementi stazionari e indipendenti Vediamo ora cosa implicano le assunzioni rigenerative del modello di Poisson in termini delle variabili di conteggio. 13. Mostra che, se s < t, allora Nt - Ns = numero di arrivo in (s, t] Ricordiamo che l'assunzione di base è che il processo inizi al tempo s e che il comportamento dello stesso dopo s sia indipendente dal comportamento prima di s. 14. Dimostra che: 1. Nt - Ns ha la stessa distribuzione di Nt-s, ovvero di Poisson con parametro r(t - s). 2. Nt - Ns e Ns sono indipendenti. 15. Supponi che N e M siano variabili di Poisson indipendenti con parametri http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson4.html (2 di 5) [22/11/2001 17.49.09] La distribuzione di Poisson rispettivamente c e d. Mostra che N + M ha distribuzione di Poisson con parametro c + d. 1. Fornisci una dimostrazione probabilistica, utilizzando le proprietà del processo di Poisson. 2. Dimostralo utilizzando le funzioni di densità. 3. Dimostralo utilizzando le funzioni di densità generatrici dei momenti. 16. Nell'esperimento di Poisson, poni r = 1 e t = 3 e simula 1000 replicazioni, aggiornando ogni volta. Analizza empiricamente l'indipendenza delle variabili aleatorie N1 e N3 - N1 calcolando le frequenze relative appropriate. Approssimazione alla normale Notiamo ora che, per k = 1, 2, ... Nk = N1 + (N2 - N1) + ··· + (Nk - Nk-1). Le variabili casuali della somma di destra sono indipendenti e hanno ciascuna distribuzione di Poisson con parametro r. 17. Usa il teorema centrale limite per mostrare che la distribuzione della variabile standardizzata riportata qui sotto converge alla distribuzione normale standardizzata al tendere di k a infinito. (Nk - kr) / (kr)1/2. In termini più generali, il risultato vale anche se sostituiamo l'intero k con un reale positivo t. 18. Nell'esperimento di Poisson, poni r = 1 e t = 1. Aumenta r e t e osserva come il grafico della funzione di densità assume forma campanulare. 19. Nell'esperimento di Poisson, poni r = 5 e t = 4 e simula 1000 replicazioni, aggiornando ogni 100. Calcola e confronta le seguenti quantità: 1. P(15 N4 22). 2. La frequenza relativa dell'evento {15 3. L'approssimazione normale a P(15 N4 N4 22}. 22). 20. Supponi che le richieste che pervengono a un server web seguano il modello di Poisson con velocità r = 5 al minuto. Calcola l'approssimazione normale alla probabilità che si presentino almeno 280 richieste in un periodo di un'ora. Distribuzioni condizionate 21. Sia t > 0. Prova che la distribuzione condizionata di T1 dato Nt = 1 è uniforme su (0, t). Interpreta il risultato. http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson4.html (3 di 5) [22/11/2001 17.49.09] La distribuzione di Poisson 22. Più in generale, dato Nt = n, dimostra che la distribuzione condizionata di T1, ..., Tn è identica alla distribuzione delle statistiche d'ordine di un campione casuale di dimensione n estratto dalla distribuzione uniforme su (0, t). Nota che la distribuzione condizionata presentata nell'esercizio precedente è indipendente dalla velocità r. Tale risultato indica che, in un certo senso, il modello di Poisson riporta la distribuzione più "casuale" di punti nel tempo. 23. Supponi che le richieste a un certo server web seguano il modello di Poisson, e che in un periodo di 5 minuti si abbia una richiesta. Trova la probabilità che la richiesta sia arrivata nei primi tre minuti del periodo. 24. Nell'esperimento di Poisson, poni r = 1 e t = 1 e simula 1000 replicazioni, aggiornando ogni volta. Calcola le appropriate frequenze relative e analizza empiricamente il risultato teorico dell'esercizio 5. 25. Sia 0 < s < t e sia n un intero positivo. Prova che la distribuzione condizionata di Ns dato Nt = n è binomiale con parametri n e p = s/t. Nota che la distribuzione condizionata è indipendente dalla velocità r. Interpreta il risultato. 26. Supponi che le richieste a un server web seguano il modello di Poisson, e che in un periodo di 5 minuti si abbiano 10 richieste. Trova la probabilità che almeno 4 richieste siano arrivate nei primi 3 minuti del periodo. Stima della velocità In molti casi pratici, il parametro di velocità r del processo è ignoto e dev'essere stimato sulla base del numero di arrivi in un certo intervallo. 27. Prova che E(Nt / t) = r, per cui Nt / t è uno stimatore corretto per r. Poiché lo stimatore è corretto, la varianza coincide con l'errore quadratico medio. 28. Prova che var(Nt / t) = r / t, per cui var(Nt / t) tende a 0 al tendere di t a infinito. 29. Nell'esperimento di Poisson, poni r = 3 e t = 5. Esegui 100 replicazioni, aggiornando ogni volta. 1. Per ogni replicazione, calcola la stima di r basata su Nt. 2. Calcola la media dei quadrati deli errori per le 100 replicazioni. 3. Confronta il risultato di (b) con la varianza trovata nell'esercizio 26. 30. Supponi che le richieste a un server web seguano il modello di Poisson con velocità ignota r al minuto. In un'ora, il server riceve 342 richieste. Stima r. Laboratorio virtuale > Il processo di Poisson > 1 2 3 [4] 5 6 7 8 http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson4.html (4 di 5) [22/11/2001 17.49.09] La distribuzione di Poisson Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson4.html (5 di 5) [22/11/2001 17.49.09] Il processo di Poisson Laboratorio virtuale > Modelli speciali > A B C D [E] F G H E. Il processo di Poisson Sommario 1. Introduzione 2. La distribuzione esponenziale 3. La distribuzione gamma 4. La distribuzione di Poisson 5. Splitting 6. Analogie con le prove Bernoulliane 7. Processi di Poisson in più dimensioni 8. Note conclusive Applets ● Esperimento esponenziale ● Esperimento gamma ● Esperimento di Poisson ● Esperimento di Poisson di due tipi ● Processo di Poisson in due dimensioni Laboratorio virtuale > Modelli speciali > A B C D [E] F G H Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/index.html [22/11/2001 17.49.10] La proporzione di successi Laboratorio virtuale > Prove Bernoulliane > 1 2 [3] 4 5 6 7 3. La proporzione di successi Supponiamo di nuovo che il nostro esperimento casuale consista nell'eseguire prove Bernoulliane I1, I2, ... Ricordiamo che il numero di successi nelle prime n prove, Xn, ha distribuzione binomiale con parametri n e p. In questo paragrafo studieremo la variabile casuale che indica la proporzione di successi nelle prime n prove: Mn = Xn / n = (I1 + I2 + ··· + In) / n. Notiamo che Mn assume i valori k / n dove k = 0, 1, ..., n. La funzione di densità È facile esprimere la funzione di densità della proporzione di successi Mn in termini della funzione di densità del numero di successi Xn: 1. Prova che P(Mn = k / n) = C(n, k) pk (1 - p)n-k per k = 0, 1, ..., n. 2. Nell'esperimento binomiale della moneta, seleziona la proporzione di teste. Modifica n e p con le barre a scorrimento e osserva la forma della funzione di densità. Poni n = 20 e p = 0.3 ed esegui l'esperimento aggiornando ogni 10 replicazioni. Osserva la convergenza delle frequenza relative alla funzione di densità. Proprietà La proporzione di successi può essere pensata anche come valore medio delle variabili indicatore. In termini statistici, le variabili indicatore formano un campione casuale, poiché sono indipendenti e identicamente distribuite, e in questo contesto Mn è un caso particolare di media campionaria. La proporzione di successi Mn è spesso utilizzata per stimare la probabilità di successo p quando essa è ignota. È insito al concetto stesso di probabilità che, quando il numero delle prove è elevato, Mn sia prossimo a p. La formulazione matematica di questo concetto è un caso particolare della legge dei grandi numeri. 3. Usa le proprietà fondamentali del valore atteso per mostrare che per ogni n, E(Mn) = p. In termini statistici, ciò significa che Mn è uno stimatore corretto per p. 4. Usa le proprietà fondamentali della varianza per dimostrare che http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli3.html (1 di 4) [22/11/2001 17.49.16] La proporzione di successi var(Mn) = p(1 - p) / n. Notiamo che, per dato p, var(Mn) tende a 0 al crescere a infinito del numero delle prove. Ciò significa che la stima migliora al crescere di n; in termini statistici, ciò è noto come consistenza. 5. Nell' esperimento binomiale della moneta, seleziona la proporzione di teste. Modifica n e p con la barra a scorrimento e osserva la forma della funzione di densità. Nota che al variare di n e p, la distribuzione di Mn è centrata in p, ma al crescere di n diventa più concentrata attorno a p. Poni n = 50 e p = 0.5 ed esegui l'esperimento aggiornando ogni 10 replicazioni. Osserva la convergenza della frequenza relativa alla funzione di densità. 6. Nell' esperimento binomiale della moneta, seleziona la proporzione di teste. Poni n = 10 e p = 0.4. Simula 100 replicazioni, aggiornando ogni volta. Calcola la radice quadrata dell'errore quadratico medio per tutte le replicazioni, nel caso in cui Mn sia usato per stimare p. Tale numero è misura della qualità della stima. 7. Nell' esperimento binomiale della moneta, seleziona la proporzione di teste. Poni n = 10 e p = 0.4. Simula 100 replicazioni, aggiornando ogni volta. Calcola la radice quadrata dell'errore quadratico medio per tutte le replicazioni, nel caso in cui Mn sia usato per stimare p. Confronta i risultati con quelli dell'esercizio precedente. 8. Sui dati sulla cicala, calcola la proporzione di femmine nel campione e la proporzione di femmine per ciascuna specie del campione. Pensi che queste proporzioni campionarie siano buone stime delle corrispondenti proporzioni nella popolazione? 9. Sui dati M&M, raggruppa i pacchetti per creare un campione ampio di M&Ms. Calcola la proporzione di M&Ms rosse. Pensi che questa proporzione campionaria sia una buona stima della proporzione vera della popolazione? Confronta il capitolo sulla stima intervallare per un diverso approccio al problema della stima di p. Approssimazione normale Il teorema limite centrale si applica alla proporzione di successi esattamente come al numero di successi. 10. Mostra che la distribuzione della variabile standardizzata (Mn - p) / [p(1 - p) / n]1/2. converge alla distribuzione normale standardizzata al crescere del numero delle prove 11. Nell'esperimento binomiale della moneta, seleziona la proporzione di teste. Poni n = 30, p = 0.6. Simula 1000 replicazioni, aggiornando ogni 100. Calcola e confronta i http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli3.html (2 di 4) [22/11/2001 17.49.16] La proporzione di successi seguenti valori: 1. P(0.5 M30 0.7) 2. La frequenza relativa dell'evento {0.5 3. L'approssimazione normale a P(0.5 M30 M30 0.7} 0.7) Un test d'ipotesi A volta non siamo interessati a stimare p, ma a determinare se p è un certo valore o appartiene a un certo intervallo. In termini generici, prendiamo la decisione eseguendo n prove Bernoulliane, osservando il numero di successi e confrontando questa osservazione con quanto ci si sarebbe aspettati dalla distribuzione binomiale, date le assunzioni su p. In termini statistici, eseguiamo un test di ipotesi. Per esempio, supponiamo di essere interessati a sapere se una moneta è bilanciata o no. Prenderemo la decisione basandoci su 10 lanci della moneta. 12. Mostra che 10 lanci della moneta produrranno tra 3 e 7 teste l'89% delle volte. Pertanto possiamo decidere di definire la moneta bilanciata se il numero di teste è tra 3 e 7. Se la moneta è davvero bilanciata, il test ci farà prendere la decisione corretta l'89% delle volte. L'11% delle volte concluderemo erroneamente che la moneta è sbilanciata; in termini statistici, si tratta di un errore di prima specie. 13. Supponi che la moneta abbia probabilità di testa p riportata qui sotto. Col test appena specificato, trova la probabilità di concludere correttamente che la moneta è sbilanciata. Trova inoltre la probabilità di concludere erroneamente che la moneta è bilanciata; in termini statistici, si parla di errore di seconda specie. 1. 2. 3. 4. p = 0.6 p = 0.7 p = 0.8 p = 0.9 14. Nell'esperimento della moneta binomiale, poni n = 10. Per ciascuno dei seguenti valori di p, simula 100 replicazioni, aggiornando ogni volta. A ciascuna esecuzione, esegui il test di ipotesi. Calcola la frequenza relativa delle decisioni corrette e degli errori: 1. p = 0.5 2. p = 0.6 3. p = 0.7 4. p = 0.7 5. p = 0.9. 15. Un candidato a una carica pubblica afferma di essere il preferito dal 40% degli elettori. Su un sondaggio di 100 elettori, però, solo 30 sono a favore del candidato. Credi http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli3.html (3 di 4) [22/11/2001 17.49.16] La proporzione di successi all'affermazione del candidato? Calcola l'approssimazione normale alla probabilità che una variabile binomiale con n = 100 e p = 0.4 produca 30 o meno successi. Laboratorio virtuale > Prove Bernoulliane > 1 2 [3] 4 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli3.html (4 di 4) [22/11/2001 17.49.16] Probabilità condizionata Laboratorio virtuale > Spazi di Probabilità > 1 2 3 4 [5] 6 7 8 5. Probabilità condizionata Definizione Al solito, iniziamo introducendo un esperimento casuale con spazio campionario S, e misura di probabilità P. Supponiamo inoltre di sapere che un certo evento B si è verificato. In genere, questa informazione dovrebbe alterare le probabilità che assegniamo agli altri eventi. In particolare, se A è un altro evento, allora A si verifica se e solo se si verificano sia A che B; di fatto, lo spazio campionario si è ridotto a B. Quindi, la probabilità di A, data la conoscenza del fatto che B si è verificato, dovrebbe essere B). In ogni caso, la probabilità condizionata, dato il verificarsi di proporzionale a P(A B dev'essere sempre una misura di probabilità, ovvero deve soddisfare gli assiomi di Kolmogorov. Ciò fa sì che la costante di proporzionalità debba essere 1 / P(B). Pertanto, si giunge inesorabilmente alla seguente definizione: Siano A ae B eventi di un esperimento casuale con P(B) > 0. La probabilità condizionata di A dato B è definita come P(A | B) = P(A B) / P(B). Ciò si basa sulla definizione assiomatica di probabilità. Analizziamo ora il concetto di probabilità condizionata a partire dalla nozione meno formale e più intuitiva di frequenza relativa. Supponiamo quindi di replicare ripetutamente l'esperimento. Per un certo evento C, sia Nn(C) il numero di volte che C si verifica nelle prime n prove. Se Nn(B) è grande, la probabilità condizionata che A si sia verificato dato il verificarsi di B dev'essere prossima alla frequenza relativa condizionata di A dato B, ovvero la frequenza relativa di A per le prove in cui B si è verificato: Nn(A B) / Nn(B). Ma per un'altra applicazione del concetto di frequenza relativa, Nn(A B) / Nn(B) = [Nn(A B) / n] / [Nn(B) / n] P(A B) / P(B) as n che ci porta di nuovo alla medesima definizione. In alcuni casi, le probabilità condizionate possono essere calcolate direttamente, riducendo effettivamente lo spazio campionario all'evento dato. In altri casi, la formula sopra è migliore. Proprietà 1. Dimostra che P(A | B), in funzione di A e per B dato, è una misura di probabilità. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob5.html (1 di 9) [22/11/2001 17.49.29] . Probabilità condizionata L'esercizio 1 costituisce la proprietà più importante della probabilità condizionata, poiché indica che ogni risultato che vale per le misure di probabilità in generale vale anche per la probabilità condizionata (almeno finché l'evento a cui si condiziona rimane fisso). 2. Supponi che A e B siano eventi di un esperimento casuale con P(B) > 0. Dimostra che: 1. Se B A allora P(A | B) = 1. 2. Se A B allora P(A | B) = P(A) / P(B). 3. Se A e B sono disgiunti allora P(A | B) = 0. 3. Supponi che A e B siano eventi di un esperimento casuale, ciascuno con probabilità positiva. Dimostra che 1. P(A | B) > P(A) P(B | A) > P(B) P(A B) > P(A)P(B) 2. P(A | B) < P(A) P(B | A) < P(B) P(A B) < P(A)P(B) 3. P(A | B) = P(A) P(B | A) = P(B) P(A B) = P(A)P(B) Nel caso (a), A e B si dicono positivamente correlati. Intuitivamente, il verificarsi di uno dei due eventi implica che l'altro è più probabile. Nel caso (b), A e B si dicono negativamente correlati. Intuitivamente, il verificarsi di uno dei due eventi implica che l'altro è meno probabile. Nel caso (c), A e B si dicono indipendenti. Intuitivamente, il verificarsi di uno dei due eventi non modifica le probabilità dell'altro evento. A volte le probabilità condizionate sono note e possono essere utilizzate per trovare le probabilità di altri eventi. 4. Supponi che A1, A2, ..., An siano eventi di un esperimento casuale la cui intersezione ha probabilità positiva. Prova la regola del prodotto della probabilità. P(A1 A2 A2 ··· An) = P(A1)P(A2 | A1)P(A3 | A1 A2) ··· P(An | A1 ··· An-1) La regola del prodotto è molto utile negli esperimenti formati da stadi dipendenti, dove Ai è un evento dell'i-esimo stadio. Confronta la regola del prodotto della probabilità con la regola del prodotto del calcolo combinatorio. Esercizi 5. Supponi che A e B siano eventi di un esperimento con P(A) = 1 / 3, P(B) = 1 / 4, B) = 1 / 10. Trova: P(A 1. P(A | B) 2. P(B | A) 3. P(Ac | B) http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob5.html (2 di 9) [22/11/2001 17.49.29] Probabilità condizionata 4. P(Bc | A) 5. P(Ac | Bc) 6. Considera l'esperimento consistente nel lanciare due dadi equilibrati e registrare la sequenza di punteggi (X1, X2). Sia Y la somma dei punteggi. Per ciascune delle seguenti coppie di eventi, trova la probabilità di ciascun evento e la probabilità condizionata di ogni evento dato l'altro. Determina se gli eventi sono correlati postiviamente, negativamente oppure sono indipendenti. 1. {X1 = 3}, {Y = 5} 2. {X1 = 3}, {Y = 7} 3. {X1 = 2}, {Y = 5} 4. {X1 = 2},{X1 = 3} La correlazione non è transitiva. Nota per esempio, nell'esercizio precedente, che {X1 = 3}, {Y = 5} sono positivamente correlati, {Y = 5}, {X1 = 2} sono positivamente correlati, ma {X1 = 3}, {X1 = 2} sono negativamente correlati. 7. Nell'esperimento dei dadi, poni n = 2 e simula 500 replicazioni. Calcola le probabilità condizionate empiriche corrispondenti alle condizioni dell'esercizio precedente. 8. Considera l'esperimento delle carte che consiste nell'estrarre 2 carte da un mazzo standard e registrare la sequenza di carte estratte. Per i = 1, 2, sia Qi l'evento in cui la carta i-esima è una regina e Hi l'evento in cui la carta i-esima è di cuori. Per ciascuna delle seguenti coppie di eventi, calcola la probabilità di ogni evento e la probabilità condizionata di ciascun evento dato l'altro. Determina se gli eventi sono correlati postiviamente, negativamente oppure sono indipendenti. 1. Q1, H1. 2. Q1, Q2. 3. Q2, H2. 4. Q1, H2. 9. Nell'esperimento delle carte, poni n = 2 e simula 500 replicazioni. Calcola le probabilità condizionate empiriche corrispondenti alle condizioni dell'esercizio precedente. 10. Considera l'esperimento delle carte con n = 3 cards. Trova la probabilità dei seguenti eventi: 1. Tutte e tre le carte sono di cuori 2. Le prime due carte sono di cuori e la terza è di picche. 3. La prima e la terza carta sono di cuori e la seconda di picche. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob5.html (3 di 9) [22/11/2001 17.49.29] Probabilità condizionata 11. Nell'esperimento delle carte, poni n = e simula 1000 replicazioni. Calcola la probabilità empirica di ciascun evento dell'esercizio precedente e confronta con la probabilità teorica. 12. In un certo gruppo di persone, il 30% fuma e l'8% ha una certa malattia cardiaca. Inoltre, il 12% di coloro che fumano hanno la malattia. 1. Qual'è la percentuale di soggetti del gruppo che fumano e hanno la malattia? 2. Quale percentuale di ammalati sono anche fumatori? 3. Il fumo e la malattia sono negativamente correlati, positivamente correlati o indipendenti? 13. Supponi che A, B e C siano eventi di un esperimento casuale con P(A | C) = 1 / 2, B | C) = 1 / 4. Trova: P(B | C) = 1 / 3, e P(A 1. P(A Bc | C) 2. P(A B | C) 3. P(Ac Bc | C). 14. Supponi che A e B siano eventi di un esperimento casuale con P(A) = 1 / 2, P(B) = 1 /3 , P(A | B) = 3 / 4. Trova 1. P(A B). 2. P(A B). 3. P(B Ac). 4. P(B | A). 15. Sui dati M&M, trova la probabilità empirica che un pacchetto contenga almeno 10 pastiglie rosse, dato un peso del pacchetto maggiore di 48 grammi. 16. Sui dati della cicala, 1. Trova la probabilità empirica che una cicala pesi almeno 0.25 grammi dato il sesso masachile. 2. Trova la probabilità empirica che una cicala pesi almeno 0.25 grammi data la specie tredecula. Distribuzioni condizionate Supponiamo, di nuovo, di avere un esperimento con spazio campionario S e misura di probabilità P. Supponiamo che X sia una variabile casuale a valori in T relativa all'esperimento. Ricorda che la distribuzione di probabilità di X è la misura di probabilità su T data da http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob5.html (4 di 9) [22/11/2001 17.49.29] Probabilità condizionata P(X B) per B T. Analogamente, se A è un evento con probabilità positiva, la distribuzione condizionata di X dato A è la misura di probabilità su T data da P(X B | A) per B T. 17. Considera l'esperimento consistente nel lanciare due dadi equilibrati e registrare la sequenza dei punteggi (X1, X2). Sia Y la somma dei punteggi. Trova la distribuzione condizionata di (X1, X2) dato Y = 7. 18. Supponi che il tempo X (in minuti) necessario per eseguire una certa operazione sia distribuito uniformemente sull'intervallo (15, 60). 1. Trova la probabilità che l'operazione richieda più di 30 minuti. 2. Dato che l'operazione non è terminata dopo 30 minuti, trova la probabilità che essa richieda più di altri 15 minuti. 3. Trova la distribuzione condizionata di X dato X > 30. 19. Ricorda che l'esperimento della moneta di Buffon consiste nel lanciare una moneta di raggio r 1/2 su un pavimento coperto di mattonelle quadrate di lato 1. Si registrano le coordinate (X, Y) del centro della moneta, relativamente ad assi che passano attraverso il centro del quadrato e paralleli ai lati. 1. Trova P(Y > 0 | X < Y) 2. Trova la distribuzione condizionata di (X, Y), sapendo che la moneta non ha toccato i lati del quadrato. 20. Replica l'esperimento della moneta di Buffon 500 volte. Calcola la probabilità empirica che Y > 0 dato X < Y, e confronta col risultato dell'esercizio precedente. La legge delle probabilità totali e il teorema di Bayes Supponiamo che {Aj: j J} sia una collezione numerabile di eventi che partiziona lo spazio campionario S. Sia B un altro evento, e supponiamo di conoscere P(Aj) e P(B | Aj) per ogni j J. 21. Prova la legge delle probabilità totali: P(B) = j P(Aj) P(B | Aj). 22. Prova il teorema di Bayes, che prende nome da Thomas Bayes: per k P(Ak | B) = P(Ak)P(B | Ak) / j P(Aj) P(B | Aj). http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob5.html (5 di 9) [22/11/2001 17.49.29] J, Probabilità condizionata Nel contesto del teorema di Bayes, P(Aj) è la probabilità a priori di Aj e P(Aj | B) è la distribuzione a posteriori di Aj. Studieremo delle versioni più generali della legge delle probabilità totali e del teorema di Bayes nel capitolo sulle distribuzioni. 23. Nell'esperimento dado-moneta, si lancia un dado equilibrato e poi una moneta bilanciata il numero di volte indicato dal dado 1. Trova la probabilità che tutte le monete siano testa. 2. Sapendo che tutte le monete sono testa, trova la probabilità che il punteggio del dado sia stato i per ogni i = 1, 2, 3, 4, 5, 6. 24. Simula l'esperimento dado-moneta 200 volte. 1. Calcola la probabilità empirica che tutte le monete siano testa e confrontala con la probabilità dell'esercizio precedente. 2. Per i = 1, 2, ..., 6, calcola la probabilità empirica dell'evento in cui il punteggio del dado è stato i sapendo che tutte le monete sono testa. Confronta col risultato dell'esercizio precedente. 25. Supponi che un sacchetto contenga 12 monete: 5 sono equilibrate, 4 sono sbilanciate con probabilità di testa 1/3 e 3 hanno due teste. Si sceglie a caso una moneta dal sacchetto e la si lancia. 1. Trova la probabilità che esca testa. 2. Sapendo che è uscita testa, trova la probabilità condizionata di ciascun tipo di moneta. Confronta gli esercizi 23 e 25. Nell'esercizio 23, si lancia una moneta con probabilità prefissata di testa un numero casuale di volte. Nell'esercizio 25, si lancia una moneta con probabilità casuale di testa un numero prefissato di volte. 26. L'esperimento moneta-dado consiste nel lanciare una moneta equilibrata; se esce croce, si lancia un dado equilibrato, se esce testa si lancia un dado piatto uno-sei (1 e 6 hanno probabilità 1/4, mentre 2, 3, 4, 5 hanno probabilità 1/8). 1. Trova la probabilità che il punteggio del dado sia i, per i = 1, 2, ..., 6. 2. Sapendo che il punteggio del dado è 4, trova la probabilità condizionata che esca testa e la probabilità condizionata che esca croce. 27. Simula l'esperimento moneta-dado 500 volte. 1. Calcola la probabilità empirica dell'evento in cui il punteggio del dado è i per ciascun i, e confrontala con la probabilità dell'esercizio precedente 2. Calcola la probabilità empirica dell'evento in cui esce testa, sapendo che il punteggio del dado è 4, e confrontala con la probabilità dell'esercizio precedente. 28. Una fabbrica ha tre linee produttive che producono chip di memoria. La prima linea produce il 50% dei chip e ha un tasso di pezzi difettosi del 4%, la seconda linea produce il 30% dei chip e ha un tasso di pezzi difettosi del 5% mentre la terza linea http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob5.html (6 di 9) [22/11/2001 17.49.29] Probabilità condizionata produce il 20% dei chip e ha un tasso di pezzi difettosi del 1%. Si estrae casualmente un chip. 1. Trova la probabilità che il chip sia difettoso 2. Sapendo che il chip è difettoso, trova la probabilità condizionata di ciascuna linea produttiva. 29. La forma più comune di daltonismo (dicromatismo) è una patologia ereditaria legata al sesso causata da un difetto sul cromosoma X; è quindi più comune nei maschi che nelle femmine: il 7% dei maschi sono daltonici, mentre solo lo 0.5% delle femmine lo sono. (Per ulteriori approfondimenti sulle patologie ereditarie legate al sesso, confronta la trattazione dell'emofilia.) In un certo gruppo di persone, il 50% sono maschi e il 50% femmine. 1. Trova la percentuale di daltonici del gruppo. 2. Trova la percentuale di soggetti daltonici maschi. 30. Un'urna contiene inizialmente 6 palline rosse e 4 palline verdi. Si sceglie a caso una pallina e poi la si rimette nell'urna insieme ad altre due palline dello stesso colore; il processo viene poi ripetuto. Questo è un esempio di schema dell'urna di Pólya, che prende il nome da George Pólya. 1. Trova la probabilità che le prime 2 palline siano rosse e che la terza sia verde. 2. Trova la probabilità che la seconda pallina sia rossa. 3. Trova la probabilità che la prima pallina sia rossa sapendo che la seconda è rossa. 31. L'urna 1 contiene 4 palline rosse e 6 verdi, mentre l'urna 2 contiene 7 palline rosse e 3 verdi. Si sceglie a caso un urna e se ne estrae una pallina. 1. Trova la probabilità che la pallina sia verde 2. Sapendo che la pallina è verde, trova la probabilità condizionata di aver scelto l'urna 1. 32. L'urna 1 contiene 4 palline rosse e 6 verdi, mentre l'urna 2 contiene 6 palline rosse e 3 verdi. Si sceglie a caso una pallina dall'urna 1 e la si insierisce nell'urna 2. Si estrae quindi una pallina dall'urna 2. 1. Trova la probabilità che la pallina estratta dall'urna 2 sia verde. 2. Sapendo che la pallina estratta dall'urna 2 è verde, trova la probabilità condizionata che la pallina estratta dall'urna 1 fosse verde. Test diagnostici Supponiamo di avere un esperimento casuale con un evento di interesse A. Ovviamente, quando si esegue l'esperimento l'evento A può verificarsi oppure no. In ogni caso, non possiamo osservare direttamente il verificarsi o il non verificarsi di A. Disponiamo invece di un test progettato per indicare l'occorrenza dell'evento A; il test può essere o positivo per A o negativo per A. Il test ha inoltre un elemento di aleatorietà, e può dare indicazioni errate. Presentiamo alcuni esempi delle situazioni che vogliamo rappresentare: http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob5.html (7 di 9) [22/11/2001 17.49.29] Probabilità condizionata ● ● ● ● ● L'evento in cui una persona ha una certa malattia, il test è un esame del sangue. L'evento in cui una donna è incinta, il test è un test di gravidanza casalingo. L'evento in cui una persona mente, il test è una macchina della verità. L'evento in cui un apparecchio è difettoso, il test è il rapporto di un sensore. L'evento in cui un missile si trova in una certa regione dello spazio aereo, il test sono i segnali radar. Sia T l'evento in cui il test è positivo per il verificarsi di A. La probabilità condizionata P(T | A) è detta sensitività del test. La probabilità complementare P(Tc | A) = 1 - P(T | A) è la probabilità di un falso negativo. La probabilità condizionata P(Tc | Ac) è detta specificità del test. La probabilità complementare P(T | Ac) = 1 - P(Tc | Ac) è la probabilità di un falso positivo. In molti casi, sensitività e specificità del test sono note e sono un risultato della costruzione dello stesso. In ogni caso, l'utente del test è interessato alle probabilità condizionate opposte: P(A | T), P(Ac|Tc). 33. Usa il teorema di Bayes per dimostrare che P(A | T) = P(T | A)P(A) / [P(T | A)P(A) + P(T | Ac)P(Ac)]. Per fare un esempio concreto, supponiamo che la sensitività del test sia 0.99 e la specificità sia 0.95. A occhio, il test sembra buono. 34. Trova P(A | T) in funzione di p = P(A). Mostra che il grafico ha la seguente forma: 35. Dimostra che P(A | T) in funzione di P(A) ha i valori riportati nella seguente tabella: P(A) P(A | T) 0.001 0.019 http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob5.html (8 di 9) [22/11/2001 17.49.29] Probabilità condizionata 0.01 0.1 0.2 0.3 0.167 0.688 0.832 0.895 Il valore modesto di P(A | T) per valori piccoli di P(A) cattura l'attenzione. La morale, ovviamente, è che P(A | T) dipende anche da P(A), non solo dalla sensitività e specificità del test. Inoltre, il confronto corretto è P(A | T) con P(A), come nella tabella, non P(A | T) con P(T | A). Laboratorio virtuale > Spazi di Probabilità > 1 2 3 4 [5] 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob5.html (9 di 9) [22/11/2001 17.49.29] La distribuzione esponenziale Laboratorio virtuale > Il processo di Poisson > 1 [2] 3 4 5 6 7 8 2. La distribuzione esponenziale L'assunzione di base relativa ai processi di Poisson è che il comportamento di tali processi dopo un arrivo dev'essere indipendente dal comportamento prima dell'arrivo e probabilisticamente analogo al processo originario (rigenerazione). I tempi tra gli arrivi In particolare, l'assunzione di rigenerazione significa che i tempi che intercorrono tra gli arrivi, detti anche tempi interarrivo, devono essere variabili casuali indipendenti e identicamente distribuite. Formalmente, i tempi interarrivo sono definiti come segue: X1 = T1, Xk = Tk - Tk-1 per k = 2, 3, ... dove Tk è il tempo a cui si verifica il k-esimo arrivo. Assumeremo che P(Xi > t) > 0 per ogni t > 0. Ora, vogliamo anche che la rigenerazione si verifichi a un tempo fissato t. In particolare, se il primo arrivo non si è ancora verificato in t, allora il tempo rimanente prima dell'arrivo ha la medesima distribuzione del primo tempo di arrivo stesso. Tale proprietà è detta assenza di memoria, e può essere espressa in termini del generico tempo interarrivo X come P(X > t + s) | X > s) = P(X > t) per tutti gli s, t 0. Distribuzione Sia G la funzione di ripartizione della coda destra di di X: G(t) = P(X > t), t 0. 1. Prova che la proprietà di assenza di memoria è equivalente alla legge degli esponenti: G(t + s) = G(t)G(s) per qualsiasi s, t 0. 2. Prova che le uniche soluzioni all'equazione funzionale dell'esercizio 1 continue da destra sono le funzioni esponenziali. Sia c = G(1). Mostra quindi che 1. G(n) = cn se n è un intero positivo. 2. G(1/n) = c1/n se n è un intero positivo. 3. G(m/n) = cm/n se me n sono interi positivi. 4. G(t) = ct per ogni t > 0. http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson2.html (1 di 3) [22/11/2001 17.49.34] La distribuzione esponenziale Nel contesto dell'esercizio 2, sia r = -ln(c). Allora r > 0 (poiché 0 < c < 1) so G(t) = P(X > t) = e-rt, t 0. Quindi X ha distribuzione continua con funzione di ripartizione data da F(t) = P(X t) = 1 - G(t) = 1 - e-rt, t 0. 3. Prova che la funzione di densità di X è f(t) = re-rt, t 0. Una variabile casuale con tale densità è detta avere distribuzione esponenziale con parametro di velocità r. Il reciproco 1 / r è detto parametro di scala. 4. Mostra direttamente che la densità esponenziale è una funzione di densità di probabilità. 5. Nell'esperimento esponenziale, modifica r con la barra a scorrimento e osserva come cambia la forma della funzione di densità di probabilità. Con r = 2, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della funzione di densità empirica alla funzione di densità di probabilità. 6. Nell'esperimento esponenziale, poni r = 1 e simula 1000 replicazioni, aggiornando ogni volta. Calcola le frequenze relative appropriate per analizzare empiricamente la proprietà di assenza di memoria. P(X > 3 | X > 1) = P(X > 2). 7. Prova che la funzione quantile di X è F-1(p) = -ln(1 - p) / r per 0 < p < 1. In particolare la mediana di X si ha a ln(2) / r, il primo quartile a [ln(4) - ln(3)] / r, e il terzo a ln(4) / r. 8. Supponi che la lunghezza di una telefonata (in minuti) si distribuita esponenzialmente con parametro di velocità r = 0.2. 1. Trova la probabilità che la telefonata duri da 2 a 7 minuti. 2. Trova mediana, primo e terzo quartile e scarto interquartile della lunghezza della telefonata. 9. Supponi che la durata di un certo apparecchio elettronico (in ore) sia distribuita esponenzialmente con parametro di velocità r = 0.001. 1. Trova la probabilità che l'apparecchio duri almeno 2000 ore. 2. Trova mediana, primo e terzo quartile e scarto interquartile della durata. Momenti http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson2.html (2 di 3) [22/11/2001 17.49.34] La distribuzione esponenziale I seguenti esercizi riportano media, varianza, e funzione generatrice dei momenti della distribuzione esponenziale. 10. Prova che E(X) = 1 / r. 11. Prova che var(X) = 1 / r2. 12. Prova che E[exp(uX)] = r / (r - u) per u < r. Il parametro r è detto a volte velocità del processo di Poisson. In media, passano 1 / r unità di tempo tra gli arrivi, per cui tali arrivi si presentano con una velocità media di r per unità di tempo. Notiamo inoltre che la mediana è sempre minore della media nella distribuzione esponenziale: ln(2) / r < 1 / r. 13. Nell'esperimento esponenziale, modifica r con la barra a scorrimento e osserva come cambiano posizione e dimensione della barra media/deviazione standard. Con r = 0.5, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza dei momenti empirici ai loro valori teorici. 14. Supponi che il tempo che intercorre tra le richieste a un server web (misurato in secondi) abbia distribuzione esponenziale con parametro di velocità 2. 1. Trova media e deviazione standard del tempo che intercorre tra le richieste. 2. Trova la probabilità che il tempo tra due richieste sia minore di 0.5 secondi. 3. Trova mediana, primo e terzo quartile e scarto interquartile del tempo tra le richieste. 15. Supponi che la durata (in unità di 100 ore) X di un fusibile sia distribuita esponenzialmente con P(X > 10) = 0.8. 1. Trova il parametro di velocità. 2. Trova media e deviazione standard. 3. Trova mediana, primo e terzo quartile e scarto interquartile della durata del fusibile. 16. La posizione (misurata in centimetri) X del primo settore difettoso di un nastro magnetico ha distribuzione esponenziale con media 100. 1. Trova il parametro di velocità. 2. Trova la probabilità che X < 200 dato X > 150. 3. Trova la deviazione standard. 4. Trova mediana, primo e terzo quartile e scarto interquartile della durata della posizione. Laboratorio virtuale > Il processo di Poisson > 1 [2] 3 4 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson2.html (3 di 3) [22/11/2001 17.49.34] Paradosso di Bertrand Laboratorio virtuale > Modelli geometrici > 1 2 [3] 4 5 3. Paradosso di Bertrand Termini del problema Il paradosso di Bertrand consiste nel trovare la probabilità che una "corda aleatoria" di una circonferenza sia più lunga della lunghezza di uno dei lati del triangolo equilatero inscritto. Il problema prende il nome dal matematico francese Joseph Louis Bertrand, che analizzò il problema nel 1889. Come vedremo, risultano esserci (almeno) due soluzioni al problema, ed esse dipendono dall'interpretazione che si dà alla nozione di "corda aleatoria". La mancanza di una risposta univoca era al tempo considerata un paradosso, perché si pensava (ingenuamente, a ben vedere), che dovesse esserci un'unica risposta naturale. 1. Replica l'esperimento di Bertrand 100 volte, aggiornando ogni volta, per ciascuno dei seguenti modelli. Non preoccuparti del loro significato esatto, ma cerca di trovare delle differenze di comportamento nei risultati 1. Distanza uniforme 2. Angolo uniforme Formulazione matematica Per formulare il problema in termini matematici, assumiamo (0, 0) come centro della circonferenza e assumiamo raggio unitario. Queste assunzioni non comportano perdita di generalità, poiché introducono un sistema di misurazione relativo al centro della circonferenza e col raggio della stessa come unità di misura. Consideriamo ora una corda sulla circonferenza. Ruotando quest'ultima, possiamo assumere che uno dei punti della corda sia (1,0) e l'altro (X, Y) dove Y > 0. Possiamo allora specificare completamente la corda tramite uno delle seguenti quantità: ● La distanza (perpendicolare) D dal centro del cerchio al punto medio della corda. ● L'angolo A formato dall'asse delle x e dalla linea tra il centro della circonferenza e il punto medio della corda. ● La coordinata orizzontale X. Nota che 0 D 1, 0 A / 2, -1 X 1. http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon3.html (1 di 4) [22/11/2001 17.49.40] Paradosso di Bertrand 2. Prova che D = cos(A). 3. Mostra che X = 2D2 - 1. 4. Mostra che Y = 2D (1 - D2)1/2. 5. Dimostra che le relazioni degli esercizi 2 e 3 sono invertibili e trova le relazioni inverse. Se la corda è generata in maniera aleatoria, D, A, X, e Y risultano essere variabili casuali. Alla luce dell'esercizio 5, specificare la distribuzione di una qualunque delle variabili D, A o X determina completamente la distribuzione di tutte e quattro le variabili. 6. Mostra che A è anche l'angolo formato dalla corda e la retta tangente al cerchio in (1, 0). Consideriamo ora il triangolo equilatero inscritto nella circonferenza in modo che uno dei vertici sia (1, 0). Considera la corda definita dal lato superiore del triangolo. 7. Prova che, per tale corda, angolo, distanza e coordinate sono date da: 1. a = / 3 2. d = 1/2 3. x = -1/2 4. y = (3/4)1/2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon3.html (2 di 4) [22/11/2001 17.49.40] Paradosso di Bertrand Supponiamo ora di scegliere una corda in maniera probabilistica. 8. Utilizzando l'esercizio 7, mostra che la lunghezza della corda è maggiore della lunghezza del lato del triangolo equilatero inscritto se e solo se si verificano le seguenti condizioni: 1. 0 < D < 1/2 2. /3<A< /2 3. -1 < X < -1/2 Quando un oggetto è generato "a caso" alla sequenza di variabili "naturali" che determina l'oggetto deve essere assegnata un'appropriata distribuzione. Le coordinate del centro della moneta sono una sequenza di questo tipo nel contesto dell'esperimento della moneta di Buffon; le variabili distanza e angolo sono una sequenza di questo tipo nell'esperimento dell'ago di Buffon. Il fatto cruciale nel paradosso di Bertrand è che la distanza D e l'angolo A sembrano essere entrambe variabili naturali per individuare la corda, ma si ottengono modelli diversi a seconda della variabile alla quale si assegna distribuzione uniforme. Modello a distanza uniforme Supponi che D sia distribuita uniformemente sull'intervallo (0, 1). 9. Prova che la soluzione del paradosso di Bertrand è P(D < 1/2) = 1/2 10. Nell' esperimento di Bertrand, seleziona il modello a distanza uniforme. Simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della funzione di frequenza relativa sulla corda alla probabilità vera. 11. Usa la formula del cambiamento di variabile per mostrare che l'angolo A ha funzione di densità g(a) = sin(a), 0 < a < /2 http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon3.html (3 di 4) [22/11/2001 17.49.40] Paradosso di Bertrand 12. Usa la formula del cambiamento di variabile per mostrare che X ha funzione di densità h(x) = (1/4) [(x + 1) / 2]-1/2, -1 < x < 1. Nota che A e X non sono distribuite uniformemente. Modello con angolo uniforme Supponi che A sia distribuita uniformemente sull'intervallo (0, /2). 13. Prova che la soluzione del problema di Bertrand è P(A > / 3) = 1/3 14. Nell'esperimento di Bertrand, seleziona il modello con angolo uniforme. Simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della funzione di frequenza relativa sulla corda alla probabilità vera. 15. Usa la formula del cambiamento di variabile per mostrare che la distanza D ha funzione di densità f(d) = 2 / [ (1 - d2)1/2], 0 < d < 1. 16. Usa la formula del cambiamento di variabile per mostrare che X ha funzione di densità h(x) = 1 / [ (1 - x2)1/2], -1 < x < 1. Nota che D e X non sono uniformemente distribuite. Esperimenti fisici 17. Supponi di generare una corda casuale lanciando una moneta di raggio 1 su un tavolo rigato con linee parallele a distanza 2 l'una dall'altra. Quale dei modelli (o nessuno?) si può applicare a questo esperimento? 18. Supponi di attaccare un ago al bordo di un disco di raggio 1. Si genera una corda aleatoria facendo girare l'ago. Quale dei modelli (o nessuno?) si può applicare a questo esperimento? 19. Supponi di costruire un canalino sul bordo di un disco di raggio 1. Gettare una pallina nel canale genera un punto casuale sulla circonferenza, per cui una corda aletoria si può generare lanciando due volte la pallina. Quale dei modelli (o nessuno?) si può applicare a questo esperimento? Laboratorio virtuale > Modelli geometrici > 1 2 [3] 4 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon3.html (4 di 4) [22/11/2001 17.49.40] La distribuzione gamma Laboratorio virtuale > Il processo di Poisson > 1 2 [3] 4 5 6 7 8 3. La distribuzione gamma La funzione di densità Sappiamo che i tempi interarrivo X1, X2, ... sono variabili casuali continue e indipendenti l'una dall'altra, ognuna con funzione di densità di probabilità esponenziale: f(t) = re-rt, t 0. Il tempo di arrivo k-esimo è semplicemente la somma dei primi k tempi interarrivo: Tk = X1 + X2 + ··· + Xk. Ne segue che il k-esimo tempo di arrivo è una variabile casuale continua e che la sua funzione di densità è la k-convoluzione di f. 1. Mostra che la funzione di densità del k-esimo tempo di arrivo è fk(t) = (rt)k - 1re-rt / (k - 1)!, t > 0. Tale distribuzione è detta gamma con parametro di forma k e parametro di velocità r. Di nuovo, 1 / r è detto parametro di scala. Una versione più generale della distribuzione gamma, che consente valori non interi di k, è analizzata nel capitolo sulle distribuzioni notevoli. Notiamo che, poiché i tempi di arrivo sono continui, la probabilità di un arrivo in ciascuno specifico istante è 0. Possiamo quindi interpretare Nt come numero di arrivi in (0, t). 2. Nell'esperimento gamma, modifica r e k con le barre a scorrimento e osserva come varia la forma della funzione di densità. Poni r = 2 e k = 3, e simula 1000 replicazioni, aggiornando ogni 10, osservando la convergenza delle densità empiriche alla funzione di densità teorica. 3. Disegna il grafico della funzione di densità dell'esercizio 1. Mostra che la moda si ha a (k - 1) / r. 4. Supponi che delle automobili arrivino a una stazione di servizio seguendo il modello di Poisson, con velocità r = 3 all'ora. Relativamente a un dato istante di inizio, trova la probabilità che la seconda automobile arrivi dopo più di un'ora. 5. I difetti in un certo tipo di cavo seguono il modello di Poisson, con velocità 1 ogni 100 metri. Trova la probabilità che il quinto difetto si trovi tra i 450 e i 550 metri. Momenti http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson3.html (1 di 3) [22/11/2001 17.49.44] La distribuzione gamma Media, varianza e funzione generatrice dei momenti di Tk si trovano utilizzando i risultati già noti per la distribuzione esponenziale. 6. Prova che E(Tk) = k / r. 7. Dimostra che var(Tk) = k / r2. 8. Nell'esperimento gamma, modifica r e k con le barre a scorrimento e osserva come variano posizione e dimensione della barra media/deviazione standard. Poni r = 2 e k = 3, e simula 1000 replicazioni, aggiornando ogni 10, osservando la convergenza dei momenti empirici ai loro valori teorici. 9. Mostra che E[exp(uTk)] = [r / (r - u)]k per u < r. 10. Supponi che le richieste che pervengono a un server web seguano il modello di Poisson con velocità r = 5 al minuto. Relativamente a un dato tempo di inizio, calcola media e deviazione standard del tempo di arrivo della decima richiesta. 11. Supponi che Y abbia distribuzione gamma con media 40 e deviazione standard 20. Trova k e r. Somme di variabili gamma indipendenti 12. Supponi che V abbia distribuzione gamma con parametro di forma j e parametro di velocità r, che W abbia distribuzione gamma con parametro di forma k e parametro di velocità r e che V e W siano indipendenti. Prova che V + W ha distribuzione gamma con parametro di forma j + k e parametro di velocità r. 1. Dimostralo analiticamente, utilizzando le funzioni generatrici dei momenti. 2. Dimostralo probabilisticamente, basandoti sulle proprietà del processo di Poisson. Approssimazione alla normale 13. Nell'esperimento gamma, modifica r e k con le barre a scorrimento e osserva come varia la forma della funzione di densità. Poni r = 2 e k = 5, e simula 1000 replicazioni, aggiornando ogni 10, osservando la convergenza delle densità empiriche alla funzione di densità teorica. Anche se non puoi scegliere un k maggiore di 5, nota che la funzione di senistà del tempo di arrivo k-esimo assume forma campanulare al crescere di k (per r dato). Questa è un'ulteriore applicazione del teorema limite centrale, poiché il k-esimo tempo di arrivo è la somma di k varaibili casuali indipendenti e identicamente distribuite (i tempi interarrivo). 14. Usa il teorema limite centrale per mostrare che la distribuzione della variabile standardizzata riportata qui sotto converge alla distribuzione normale standardizzata al tendere a infinito di k http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson3.html (2 di 3) [22/11/2001 17.49.44] La distribuzione gamma (Tk - k / r) / (k1/2 / r) = (rTk - k) / k1/2. 15. Nell'esperimento gamma, poni k = 5 e r = 2. Simula 1000 replicazioni, aggiornando ogni volta, e calcola e confronta le seguenti quantità: 1. P(1.5 T5 3) 2. La frequenza relativa dell'evento {1.5 3. L'approssimazione normale a (1.5 T5 T5 3} 3). 16. Supponi che gli incidenti a un certo incrocio si verifichino seguendo il modello di Poisson, con velocità di 8 all'anno. Calcola l'approssimazione normale alla probabilità che il decimo incidente (relativamente a un dato tempo di inizio) si verifichi entro due anni. Stima della velocità In molti casi pratici, il parametro di velocità r del processo è ignoto e dev'essere stimato sulla base dei tempi di arrivo osservati. 17. Prova che E(Tk / k) = 1 / r, per cui Tk / k è uno stimatore corretto per 1 / r. Poiché lo stimatore è corretto, la varianza coincide con l'errore quadratico medio. 18. Prova che var(Tk / k) = 1 / (kr2), per cui var(Tk / k) tende a 0 al tendere di k a infinito. Nota che Tk / k = (X1 + X2 + ··· + Xk) / k dove Xi è l'i-esimo tempo interarrivo. Quindi il nostro stimatore per 1 / r può essere interpretato come media campionaria dei tempi interarrivo. Uno stimatore naturale della velocità stessa è k / Tk. Ma questo stimatore tende a sovrastimare r. 19. Usa la disuguaglianza di Jensen per mostrare che E(k / Tk) r. 20. Supponi che le richieste a un certo server web seguano il modello di Poisson. A partire da mezzogiorno di un certo giorno, si registrano le richieste; la centesima arriva a mezzogiorno e un quarto. Stima la velocità del processo. Laboratorio virtuale > Il processo di Poisson > 1 2 [3] 4 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson3.html (3 di 3) [22/11/2001 17.49.44] La distribuzione beta Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 [9] 10 11 12 13 14 15 15 9. La distribuzione beta Introdurremo in questo paragrafo una famiglia di distribuzioni a due parametri di particolare importanza in probabilità e statistica. La funzione beta La funzione beta B(a, b) è definita per a > 0 e b > 0 come B(a, b) = (0, 1) ua - 1(1 - u)b-1 du. 1. Mostra che B(a, b) è finita per a > 0 e b > 0 percorrendo i seguenti passi: 1. Spezza l'integrale in due parti, da 0 a 1/2 2 da 1/2 a 1. 2. Se 0 < a < 1, l'integrale è improprio in u = 0, ma (1 - u)b - 1 è limitato in (0, 1 / 2). 3. Se 0 < b < 1, l'integrale è improprio in u = 1, ma ua - 1 è limitato in (1 / 2, 1). 2. Mostra che 1. B(a, b) = B(b, a) per a > 0, b > 0. 2. B(a, 1) = 1 / a. 3. Dimostra che la funzione beta può essere scritta in termini della funzione gamma come segue: B(a, b) = gam(a) gam(b) / gam(a + b). Suggerimento: Esprimi gam(a + b) B(a, b) come integrale doppio rispetto a x e y, con x > 0 e 0 < y < 1. Usa la trasformazione w = xy, z = x - xy e il teorema del cambiamento di variabile per integrali multipli. Tale trasformazione è una funzione biiettiva da (x, y) su z > 0, w > 0; il Jacobiano della trasformazione inversa vale 1 / (z + w). Mostra che l'integrale trasformato vale gam(a) gam(b). 4. Mostra che, se j e k sono interi positivi, allora B(j, k) = (j - 1)!(k - 1)! / (j + k -1)!. 5. Mostrare che B(a + 1, b) = [a / (a + b)] B(a, b). 6. Si mostri che B(1/2, 1/2) = . Riportiamo qui sotto un grafico di B(a, b) sulla regione 0 < a < 10, 0 < b < 10. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special9.html (1 di 4) [22/11/2001 17.49.50] La distribuzione beta La funzione di densità beta 7. Mostra che f è una funzione di densità di probabilità per ogni a > 0 e b > 0: f(u) = ua - 1 (1 - u)b - 1 / B(a, b), 0 < u < 1. una distribuzione con questa densità è detta distribuzione beta con parametri a e b. La distribuzione beta è utile per modellare probabilità e proporzioni, in particolare in ambito Bayesiano. Pur possedendo solo due paraemtri, questa distribuzione contempla una ricca varietà di forme: 8. Disegna il grafico della funzione di densità beta. Osserva le differenze qualitative nella forma della funzione di densità nei seguenti casi: 1. 0 < a < 1, 0 < b < 1 2. a = 1, b = 1 (distribuzione uniforme) 3. a = 1, 0 < b < 1 4. 0 < a < 1, b = 1 5. 0 < a < 1, b > 1 6. a > 1, 0 < b < 1 7. a > 1, b = 1 8. a = 1, b > 1 9. a > 1, b > 1. Mostra che la moda è a (a - 1) / (a + b -2) 9. Nell'appletvariabile casuale, seleziona la distribuzione beta. Poni i parametri a ciascuna delle combinazioni proposte nell'esercizio 1. In ognuno di questi casi, osserva la forma della funzione di densità e simula 1000 replicazioni con frequenza di http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special9.html (2 di 4) [22/11/2001 17.49.50] La distribuzione beta aggiornamento di 10. Osserva la convergenza della funzione di densità empirica a quella teorica. Funzione di ripartizione In alcuni casi particolari, la funzione di ripartizione e la funzione quantile possono essere espresse in forma chiusa. 10. Per a > 0 e b = 1, mostra che 1. F(x) = xa per 0 < x < 1. 2. F -1(p) = p1/a per 0 < p < 1. 11. Per a = 1 e b > 0, dimostrare che 1. F(x) = 1 - (1 - x)b per 0 < x < 1. 2. F -1(p) = 1 - (1 - p)1/b per 0 < p < 1. In generale sussiste un'interessante relazione tra le funzioni di ripartizione beta e la distribuzione binomiale. 12. Sia n dato. Sia Fp la funzione di ripartizione di una binomiale con parametri n e p e sia Gk la funzione di ripartizione di una beta con parametri n - k + 1 e k. Si dimostri che Fp(k - 1) = Gk(1 - p). Suggerimento: Si esprima Gk(1 - p) come integrale della funzione di densità della distribuzione beta e si integri per parti. 13. Nell'applet quantile, seleziona la distribuzione beta. Modifica i parametri e osserva la forma delle funzioni di densità e di ripartizione. In ognuno dei seguenti casi, trova mediana, primo e terzo quartile e scarto interquartile. Disegna il boxplot 1. a = 1, b = 1 2. a = 1, b = 3 3. a = 3, b = 1 4. a = 2, b = 4 5. a = 4, b = 2 6. a = 4, b = 4 Momenti I momenti della distribuzione beta sono esprimibili facilmente in termini della funzione beta. 14. Supponi che U abbia distribuzione beta con parametri a e b. Dimostra che E(Uk) = B(a + k, b) / B(a, b). http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special9.html (3 di 4) [22/11/2001 17.49.50] La distribuzione beta 15. Supponi che U abbia distribuzione beta con parametri a e b. Dimostra che 1. E(U) = a / (a + b) 2. var(U) = ab / [(a + b)2 (a + b + 1)] 16. Nell'appletvariabile casuale, seleziona la distribuzione beta. Poni i parametri a ciascuna delle combinazioni proposte nell'esercizio 1. In ognuno di questi casi, osserva la forma della barra media/deviazione standard e simula 1000 replicazioni con frequenza di aggiornamento di 10. Osserva la convergenza dei momenti empirici a quelli teorici. Transformazioni 17. Si supponga che X abbia distribuzione gamma con parametri a e r, che Y abbia distribuzione gamma con parametri b e r e che X e Y siano indipendenti. Si mostri che U = X / (X + Y) ha distribuzione beta con parametri a e b. 18. Supponi che U abbia distribuzione beta con parametri a e b. Mostra che 1 - U ha distribuzione beta con parametri b e a. 19. Supponi che X abbia distribuzione F con m gradi di libertà al numeratore e n gradi di libertà al denominatore. Dimostra che U = (m / n)X / [1 + (m / n)X] ha distribuzione beta con parametri a = m / 2 e b = n / 2. 20. Supponiamo che X abbia distribuzione beta con parametri a > 0 e b > 0. Mostra che tale distribuzione è una famiglia esponenziale a due parametri con parametri naturali a - 1 e b - 1, e statistiche naturali ln(X) e ln(1 - X). La distribuzione beta è inoltre la distribuzione delle statistiche d'ordine di un campione casuale estratto da una distribuzione uniforme. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 [9] 10 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special9.html (4 di 4) [22/11/2001 17.49.50] La distribuzione di Pareto Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 10 11 [12] 13 14 15 12. La distribuzione di Pareto La distribuzione di Pareto è asimmmetrica e con code spesse e si usa in certi casi per modellare la distribuzione del reddito. La distribuzione di Pareto semplice 1. Sia F(x) = 1 - 1 / xa per x funzione di ripartizione. 1, dove a > 0 è un parametro. Mostra che F è una La distribuzione individua dalla funzione di ripartizione presentata nell'esercizio 1 è detta distribuzione di Pareto con parametro di forma a, e prende il nome dall'economista Vilfredo Pareto. 2. Mostra che la funzione di densità f è f(x) = a / xa + 1 per x 1. 3. Disegna il grafico della funzione di densità f. Mostra in particolare che 1. f(x) è decrescente per x 1. 2. f decresce più velocemente al crescere di a. Il valore modale è x = 1 per ogni a. 4. Nell'applet variabile casuale, seleziona la distribuzione di Pareto. Modifica il parametro di forma e osserva la forma e la posizione della funzione di densità. Ponendo a = 3, simula 1000 replicazioni, con frequenza di aggiornamento 10 e osserva la convergenza della densità empirica a quella teorica. 5. Mostra che la funzione quantile è F-1(p) = 1 / (1 - p)1/a per 0 < p < 1. 6. Trova la mediana e il primo e il terzo quartile della distribuzione di Pareto con parametro di forma a = 3. Calcola lo scarto interquartile. 7. Nell'applet quantile, seleziona la distribuzione di Pareto. Modifica il parametro di forma e osserva la forma e la posizione delle funzioni di densità e di ripartizione . Ponendo a = 2, calcola la mediana e il primo e terzo quartile. La distribuzione di Pareto ha code spesse. Pertanto, media, varianza, e gli altri momenti sono finiti solo se il parametro di forma a è grande abbastanza. 8. Supponi che X abbia distribuzione di Pareto con parametro di forma a. Dimostra che http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special12.html (1 di 3) [22/11/2001 17.49.55] La distribuzione di Pareto 1. E(Xn) = a / (a - n) se n < a. 2. E(Xn) = se n a. 9. Usa il risultato dell'esercizio precedente per mostrare che 1. E(X) = a / (a - 1) se a > 1. 2. var(X) = a / [(a - 1)2(a - 2)] se a > 2. 10. Nell'applet variabile casuale, seleziona la distribuzione di Pareto. Modifica il parametro di forma e osserva la dimensione e la posizione della barra media/deviazione standard. In ciascuno dei casi seguenti, simula 1000 replicazioni aggiornando ogni 10 e osserva il comportamento dei momenti empirici: 1. a = 1 2. a = 2 3. a = 3 La distribuzione di Pareto generalizzata Analogamente a quanto avviene per altre distribuzioni, spesso la distribuzione di Pareto viene generalizzata aggiungendo un parametro di scala. Supponiamo che Z abbia distribuzione di Pareto con parametro di forma a. Se b > 0, la variabile casuale X = bZ ha distribuzione di Pareto con parametro di forma a e parametro di scala b. Osserva che X assume valori nell'intervallo (b, ). Risultati analoghi a quelli presentati poc'anzi seguono da semplici proprietà delle trasformazioni di scala. 11. Mostra che la funzione di densità è f(x) = aba / xa + 1 for x b. 12. Mostra che la funzione di ripartizione è F(x) = 1 - (b / x)a for x b. 13. Mostra che la funzione quantile è F-1(p) = b / (1 - p)1/a per 0 < p < 1. 14. Mostra che i momenti sono dati da 1. E(Xn) = bn a / (a - n) if n < a. 2. E(Xn) = se n a. 15. Mostra che media e varianza valgono 1. E(X) = ba / (a - 1) se a > 1. 2. var(X) = b2a / [(a - 1)2(a - 2)] se a > 2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special12.html (2 di 3) [22/11/2001 17.49.55] La distribuzione di Pareto 16. Supponi che il reddito di una certa popolazione abbia distribuzione di Pareto con parametro di forma 3 e parametro di scala 1000. 1. Trova la percentuale della popolazione che ha un redddito compreso tra 2000 e 4000. 2. Trova il reddito mediano. 3. Trova il primo e il terzo quartile e lo scarto interquartile. 4. Trova il reddito medio. 5. Trova la deviazione standard del reddito. 6. Trova il 90esimo percentile. Trasformazioni L'esercizio seguente ribadisce il fatto che b è un parametro di scala. 17. Si supponga che X abbia distribuzione di Pareto con parametro di forma a e parametro di scala b. Si dimostri che, se c > 0, allora cX ha distribuzione di Pareto con parametro di forma a e parametro di scala bc. 18. Si supponga che X abbia distribuzione di Pareto con parametro di forma a. Si dimostri che 1/X ha distribuzione beta con parametri a e b = 1. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 10 11 [12] 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special12.html (3 di 3) [22/11/2001 17.49.55] La distribuzione t Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 [5] 6 7 8 9 10 11 12 13 14 15 5. La distribuzione t In questo paragrafo studieremo una distribuzione di particolare importanza in statistica, che si presenta in particolare nello studio della versione standardizzata della media campionaria quando la distribuzione sottostante è normale. La funzione di densità t Si abbia una variabile casuale Z con distribuzione normale standardizzata, e una V con distribuzione chi-quadro con n gradi di libertà, e si supponga che queste due variabili casuali siano indipendenti. Sia T = Z / (V / n)1/2. Nell'esercizio seguente, si dovrà mostrare che T ha funzione di densità di probabilità f(t) = C(n) (1 + t2 / n)-(n + 1)/2 per t appartenente a R dove la costante di normalizzazione C(n) è data da C(n) = gam[(n + 1) / 2] / [(n )1/2 gam(n / 2)]. 1. Dimostrare che T ha la funzione di densità riportata sopra percorrendo i seguenti passi. 1. Mostrare in primo luogo che la distribuzione condizionata di T dato V = v è normale con media 0 e varianza n / v. 2. Usare (a) per trovare la distribuzione congiunta di (T, V). 3. Integrare la densità congiunta in (b) rispetto a v per trovare la densità di T. La distribuzione di T è detta distribuzione t di Student con n gradi di libertà. La distribuzione è definita per ogni n > 0, ma in pratica si considerano interessanti solo i valori interi positivi di n. Questa distribuzione fu introdotta da William Gosset, che pubblicava sotto lo pseudonimo di Student. Oltre a riportare la dimostrazione, l'esercizio 1 rappresenta anche una maniera interessante di vedere la distribuzione t: essa si presenta quando la varianza di una distribuzione a media 0 è in qualche modo casualizzata. 2. Nell'applet variabile casuale, seleziona la distribuzione t di Student. Modifica n e osserva la forma della funzione di densità di probabilità. Poni n = 5 e simula 1000 replicazioni con frequenza di aggiornamento 10. Osserva la convergenza della funzione di densità empirica a quella teorica. 3. Traccia il grafico della funzione di densità t definita nell'esercizio 1. Mostra in particolare che 1. f(t) è simmetrica attorno t = 0. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special5.html (1 di 3) [22/11/2001 17.49.59] La distribuzione t 2. f(t) è crescente per t < 0 e decrescente per t > 0 3. f(t) 0 per t e per t 4. f(t) è concava verso l'alto per t < -an e t > an; f(t) e concava verso il basso per -an < t < an, con an = [n / (n + 2)]1/2. Dall'esercizio 3, segue che la distribuzione t è unimodale, con moda 0. 4. La distribuzione t con 1 grado di libertà è detta distribuzione di Cauchy, in onore di Augustin Cauchy. Mostra che la sua funzione di densità è f(t) = 1 / [ (1 + t2)], t appartenente a R. La funzione di ripartizione e la funzione quantile non sono esprimibili in forma chiusa tramite le funzioni elementari. Valori approssimati di queste funzioni di possono ottenere dalla tavola della distribuzione chi-quadro e dall'applet quantile. 5. Nell'applet quantile, seleziona la distribuzione di Student. Modifica i gradi di libertà e osserva la forma della funzione di densità e della funzione di ripartizione. Trova, in ciascuno dei casi seguenti, la mediana, il primo e il terzo quartile e lo scarto interquartile. 1. n = 1 2. n = 2 3. n = 5 4. n = 10 Momenti Sia T t-distribuita con n gradi di libertà. La rappresentazione data nell'esercizio 1 può essere utilizzata per trovare media, varianza e gli altri momenti di T. 6. Dimostrare che 1. E(T) = 0 se n > 1. 2. E(T) non esiste se 0 < n 1. In particolare la distribuzione di Cauchy non ha valore atteso. 7. Si dimostri che 1. var(T) = n / (n - 2) se n > 2. 2. var(T) = se 1 < n 2. 3. var(T) non esiste se 0 < n 1. 8. Nell'applet varaibile casuale, seleziona la distribuzione t di Student. Modifica n e osserva la posizione e la dimensione della barra media/deviazione standard. Per i seguenti valori di n, esegui 1000 replicazioni con frequenza di aggiornamento 10. Confronta il comportamento dei momenti empirici coi risultati teorici ottenuti negli esercizi 5 e 6. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special5.html (2 di 3) [22/11/2001 17.49.59] La distribuzione t 1. n = 3. 2. n = 2. 3. n = 1. 9. Dimostrare che 1. E(Tk) = 0 se k è dispari e n > k. 2. E(Tk) = gam[(k + 1) / 2]{gam[(n - k) / 2]}k/2 / [gam(1 / 2)gam(n / 2)] se k è pari e n > k. 3. E(Tk) = if 0 < n k. Approssimazione alla normale Avrai probabilmente notato che, almeno qualitativamente, la funzione di densità della distribuzione t di Student è molto simile a quella della normale standardizzata. La somiglianza è anche quantitativa: 10. Usa un teorema limite fondamentale dell'analisi per mostrare che, dato t, f(t) exp(-t2 / 2) / (2 )1/2 per n . Nota che la funzione di destra è la funzione di densità di probabilità della distribuzione normale standardizzata. 11. Mostra, coi dati dell'esercizio 1, che, usando la legge forte dei grandi numeri 1. V / n 1 per n 2. T Z per n con probabilità 1. , , La distribuzione t ha code più spesse, e di conseguenza è più appuntita in confronto alla normale standardizzata. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 [5] 6 7 8 9 10 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special5.html (3 di 3) [22/11/2001 17.49.59] La distribuzione normale Laboratorio virtuale > Distribuzioni notevoli > 1 [2] 3 4 5 6 7 8 9 10 11 12 13 14 15 2. La distribuzione normale La distribuzione normale ricopre un ruolo di particolare rilievo nel calcolo delle probabilità e nella statistica, in larga parte grazie al teorema limite centrale, uno dei teoremi fondamentali che fanno da ponte tra queste due discipline. In più, come avremo modo di osservare, la distribuzione normale possiede molte utili proprietà matematiche.La distribuzione normale è nota anche come distribuzione Gaussiana, in onore di Carl Friedrich Gauss, che è stato tra i primi a utilizzarla. La distribuzione normale standardizzata Una variabile casuale Z ha distribuzione normale standardizzata se la sua funzione di densità di probabilità g è data da g(z) = exp(-z2 / 2) / [(2 )1/2] per z appartenente a R. 1. Si mostri che la densità di probabilità della distribuzione normale standardizzata è una funzione di densità di probabilità valida verificando che C= R exp(-z2 / 2)dz = (2 )1/2. Suggerimento: Esprimere C2 come integrale doppio su R2 e convertirlo in coordinate polari. 2. Utilizzare semplici tecniche di studio di funzioni per disegnare la funzione di densità della distribuzione normale standardizzata. Mostrare in particolare che 1. g è simmetrica attorno a z = 0. 2. g è crescente per z < 0 e decrescente per z > 0. 3. La moda è a z = 0. 4. g è concava verso l'alto per z < -1 e per z > 1 e concava verso il basso per -1 < z < 1. 5. I punti di flesso di g sono a z = ±1. 6. g(z) 0 per z e per z - 3. Nell'esperimento variabile casuale, selezionare la distribuzione normale e mantenere le impostazioni predefinite. Osservare la forma e la posizione della funzione di densità della normale standardizzata. Effettuare 1000 replicazioni aggiornando la visualizzazione ogni 10 giri e osservare la convergenza della funzione di densità empirica a quella teorica. La funzione di ripartizione normale standardizzata G e la funzione quantile G-1 non possono essere espresse in forma chiusa in termini di funzioni elementari. Pertanto, valori http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special2.html (1 di 5) [22/11/2001 17.50.11] La distribuzione normale approssimati di queste funzioni possono essere ottenuti dalla tavola della distribuzione normale standardizzata e dall'applet quantile. 4. Utilizzare la simmetria per mostrare che 1. G(-z) = 1 - G(z) per ogni z appartenente a R. 2. G-1(p) = -G-1(1 - p) per ogni p appartenente a (0, 1). 3. La mediana è 0. 5. Nell'applet quantile , selezionare la distribuzione normale standardizzata 1. Osservare la forma della funzione di densità e della funzione di ripartizione. 2. Trovare il primo e il terzo quartile. 3. Calcolare lo scarto interquartile. 6. Usare l' applet quantile per trovare i quantile dei seguenti ordine della distribuzione normale standardizzata: 1. p = 0.001, p = 0.999 2. p = 0.05, p = 0.95 3. p = 0.10, p = 0.90 La distribuzione normale generalizzata La distribuzione normale generalizzata è la famiglia di posizione e scala associata alla distribuzione normale standardizzata. Pertanto le proprietà delle funzioni di densità e di ripartizione si ricavano semplicemente dai risultati generali presentati per le famiglie di poszione e scala. 7. Mostrare che la distribuzione normale con parametro di posizione µ appartenente a R e parametro di scala d > 0 ha funzione di densità di probabilità f data da f(x) = exp[-(x - µ)2 / (2d2)] / [(2 )1/2d], per x appartenente a R. 8. Disegnare la funzione di densità della normale con parametro di posizione µ e parametro di scala d. Mostrare in particolare che 1. f è simmetrica attorno a x = µ. 2. f è crescente x < µ e decrescente per x > µ. 3. La moda è a x = µ. 4. f è concava verso l'alto per x < µ - d e per x > µ + d e concava verso il basso per µ d < x < µ + d. 5. I punti di flesso di f sono a x = µ ± d. 6. f(x) 0 per x e per x - 9. Nell'applet variabile casuale, selezionare la distribuzione normale. Modificare i parametri e osservare la forma e la posizione della funzione di densità. Scegliere dei http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special2.html (2 di 5) [22/11/2001 17.50.11] La distribuzione normale parametri e replicare 1000 volte, aggiornando ogni 10 replicazioni e osservando la convergenza della densità empirica alla funzione di densità teorica. Sia F la funzione di ripartizione della distribuzione normale con parametro di posizione µ e parametro di scala d, e come sopra, sia G la funzione di ripartizione della normale standardizzata. 10. Mostrare che 1. F(x) = G[(x - µ) / d] per x appartenente a R. 2. F-1(p) = µ + d G-1(p) per p appartenente a (0, 1). 3. La mediana è µ. 11. Nell'applet quantile, selezionare la distribuzione normale. Modificare i parametri e osservare la forma delle funzioni di densità e di ripartizione. Momenti Le più importanti proprietà della distribuzione normale si ottengo più facilmente utilizzando la funzione generatrice dei momenti. 12. Si abbia Z con distribuzione normale standardizzata. Mostrare che la funzione generatrice dei momenti di Z è data da E[exp(tZ)] = exp(t2 / 2) per t appartenente a R. Suggerimento: Nell'integrale per E[exp(tZ)], completa il quadrato in z e osserva la funzione di densità di una normale. 13. Supponiamo che X abbia distribuzione normale con parametro di posizione µ e parametro di scala d. Usa il risultato dell'esercizio precedente per mostrare che la funzione generatric edei momenti di X è data da E[exp(tX)] = exp(µt + d2t2 / 2) per t appartenente a R. Come la notazione stessa suggerisce, i parametri di posizione e scala sono anche, rispettivamente, la media e la deviazione standard 14. Supponiamo che X abbia distribuzione normale con parametro di posizione µ e parametro di scala d. Mostrare che 1. E(X) = µ 2. var(X) = d2. In generale, possiamo calcolare tutti i momenti centrati di X: 15. Supponiamo che X abbia distribuzione normale con parametro di posizione µ e parametro di scala d. Dimostrare che, per k = 1, 2, ... 1. E[(X - µ)2k] = (2k)!d2k / (k!2k). 2. E[(X - µ)2k - 1] = 0 http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special2.html (3 di 5) [22/11/2001 17.50.11] La distribuzione normale 16. Nella simulazione variabile casuale, seleziona la distribuzione normale. Modifica la media e la deviazione standard e osserva l'ampiezza e la posizione della barra media/deviazione standard. Coi parametri selezionati, simula 1000 replicazioni aggiornando ogni 10 giri e osserva la convergenza dei momenti empirici a quelli teorici. L'esercizio seguente riporta la skewness e la curtosi della distribuzione normale. 17. Sia X distribuita normalmente con media µ e deviazione standard d. Mostrare che 1. skew(X) = 0. 2. kurt(X) = 3. Trasformazioni La famiglia di distribuzioni normali soddisfa due proprietà molto importanti: l'invarianza rispetto alle trasformazioni lineari e l'invarianza rispetto alla somma di variabili indipendenti. La prima proprietà è di fatto una conseguenza del fatto che la distribuzione normale è una famiglia di posizione e scala. Le dimostrazioni sono semplici se si utilizza la funzione generatrice dei momenti. 18. Sia X distribuita normalmente con media µ e varianza d2. Se a e b sono costanti e a è diverso da zero, si dimostri che aX + b è distribuita normalmente con media aµ + b e varianza a2d2. 19. Dimostrare i seguenti assunti: 1. Se X è distribuita normalmente con media µ e deviazione standard d, allora Z = (X - µ) / d è una normale standardizzata. 2. Se Z è una normale standardizzata e se µ e d > 0 sono costanti, allora X = µ + dZ ha distribuzione normale con media µ e deviazione standard d. 20. Sia X distribuita normalmente con media µ1 e varianza d12, Y distribuita normalmente con media µ2 e varianza d22, e siano X e Y indipendenti. Si dimostri che X + Y ha distribuzione normale con 1. E(X + Y) = µ1 + µ2. 2. var(X + Y) = d12 + d22. Il risultato dell'esercizio precedente può essere generalizzato al caso in cui si sommano n variabili indipendenti e normali. Il risultato importante è che la somma è sempre normale; le formule per la media e la varianza valgono in generale per la somma di variabili casuali indipendenti. 21. Supponiamo che X abbia distribuzione normale con media µ e varianza d2. Dimostra che questa distribuzione è una famiglia esponenziale a due parametri con parametri naturali µ / d2 e -1 / 2d2, e statistiche naturali X e X2. Esercizi numerici http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special2.html (4 di 5) [22/11/2001 17.50.11] La distribuzione normale 22. Supponiamo che il volume di birra in una bottiglia di una certa marca sia distribuito normalmente con media 0.5 litri e deviazione standard 0.01 litri. 1. Trova la probabilità che la bottiglia contenga almeno 0.48 litri. 2. Trova il voume corrispondente al 95esimo percentile. 23. Una barra metallica è progettata per essere inserita in un foro circolare in una certa linea di produzione. Il raggio della barra è distribuito normalmente con media 1 cm e deviazione standard 0.002 cm; il raggio del foro è distribuito normalmente con media 1.01 cm e deviazione standard 0.003 cm. I processi produttivi per la barra e il foro sono indipendenti. Trova la probabilità che la barra sia troppo larga per il foro. 24. Il peso di una pesca proveniente da un certo frutteto è distribuito normalmente con media 8 once e deviazione standard di un oncia. Trova la probabilità che il peso complessivo di 5 pesche superi le 45 once. Laboratorio virtuale > Distribuzioni notevoli > 1 [2] 3 4 5 6 7 8 9 10 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special2.html (5 di 5) [22/11/2001 17.50.11] Modelli geometrici Laboratorio virtuale > Modelli speciali > [A] B C D E F G H A. Modelli geometrici Sommario 1. Problema della moneta di Buffon 2. Problema dell'ago di Buffon 3. Paradosso di Bertrand 4. Triangoli aleatori 5. Note conclusive Applets ● Esperimento della moneta di Buffon ● Esperimento dell'ago di Buffon ● Esperimento di Bertrand ● Esperimento del triangolo Laboratorio virtuale > Modelli speciali > [A] B C D E F G H Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/index.html [22/11/2001 17.50.13] Campioni casuali Laboratorio virtuale > Statistica > A [B] C D E B. Campioni casuali Sommario 1. Introduzione 2. Media campionaria e legge dei grandi numeri 3. Frequenze relative e distribuzioni empiriche 4. Varianza campionaria 5. Teorema limite centrale 6. Proprietà dei campioni normali 7. Statistiche d'ordine 8. Grafici quantile-quantile 9. Covarianza e correlazione campionaria Applets ● Istogramma interattivo ● Istogramma interattivo con grafico degli errori ● Dadi ● Media campionaria ● Statistiche d'ordine ● Esperimento quantile-quantile ● Dispersione interattiva Citazione ● Ci sono tre tipi di bugie: bugie, fandonie e statistica. Attribuita a Benjamin Disraeli in Autobiografia di Mark Twain. Laboratorio virtuale > Statistica > A [B] C D E Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/index.html [22/11/2001 17.50.14] Gioco aggressivo Laboratorio virtuale > Rosso e nero > 1 2 [3] 4 5 3. Gioco aggressivo Ricordiamo che, nel caso di gioco aggressivo, il giocatore punta a ciascuna prova la sua intera ricchezza o, se è minore, la quantità di denaro necessaria per raggiungere la ricchezza obiettivo. Siamo interessati alla probabilità che il giocatore raggiunga l'obiettivo e al numero atteso di prove. Il primo fatto interessante è che solo il rapporto tra ricchezza iniziale e ricchezza obiettivo è rilevante, al contrario di quanto accade nel caso di gioco prudente. 1. Supponi che il giocatore giochi aggressivamente con una ricchezza iniziale pari a x e una ricchezza obiettivo a. Dimostra che, per ogni c > 0, il processo cXi, i = 0, 1, 2, ... è il processo della ricchezza per il gioco aggressivo con ricchezza iniziale cx e ricchezza obiettivo ca. Grazie al risultato dell'esercizio 1, conviene utilizzare la ricchezza obiettivo come unità monetaria e permettere di avere ricchezze iniziali sia razionali che irrazionali. Lo spazio delle ricchezze è quindi [0, 1]. Probabilità di vincita Indicheremo la probabilità che il giocatore raggiunga a = 1 partendo da x in [0, 1] con F(x). Per l'esercizio 1, la probabilità che il giocatore raggiunga un altro valore qualsiaasi a, partendo da x in [0, a], è F(x/a). 2. Condizionando all'esito della prima prova, mostra che F soddisfa l'equazione funzionale F(x) = pF(2x) per x in [0, 1 / 2], F(x) = p + qF(2x - 1) per x in [1 / 2, 1] e che F soddisfa le condizioni di limite F(0) = 0, F(1) = 1. Espansioni binarie Il fulcro della nostra analisi sarà la rappresentazione in forma binaria della ricchezza iniziale. L'espansione binaria di x in [0, 1) è x = u1 / 2 + u2 / 22 + u3 / 23 + ··· dove ui appartiene a {0, 1} per ogni i. Tale rappresentazione è unica a parte il caso in cui x è un razionale binario della forma x = k / 2n dove n = 1, 2, ... e k = 1, 2, ... 2n - 1. Il più piccolo valore possibile di n in questa rappresentazione (dopo aver semplificato), è detto rango di x. Per un razionale binario x di rango n, useremo la rappresentazione standard, dove http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack3.html (1 di 6) [22/11/2001 17.50.24] Gioco aggressivo un = 1 e ui = 0 per i > n. Il rango può essere esteso a tutti i numeri in [0, 1) ponendo a 0 il rango di 0 (0 è considerato anche un binario razionale) e ponendo a infinito il rango di un irrazionale. Definiamo quindi le seguenti funzioni di x in [0, 1): ● ui(x) = i-esima coordinata nell'espansione binaria di x ● zi(x) = k - [u0(x) + u1(x) + ··· + uk(x)] = numero di zeri nelle prime k cifre binarie. ● n(x) = rango di x. 3. Prova che ui(2x) = ui + 1(x) se x in (0, 1 / 2), ui(2x - 1) = ui + 1(x) se x in [1 / 2, 0) La probabilità di vincita vista da un'altra angolazione 4. Supponi che il giocatore parta con una ricchezza pari a x in (0, 1). Mostra che il giocatore prima o poi raggiunge l'obiettivo 1 se e solo se esiste un intero positivo k tale che Ij = 1 - uj(x) per j = 1, 2, ..., k - 1 e Ik = uk(x). Introduciamo ora un'interessante variabile casuale che ricopre un ruolo fondamentale nella nostra analisi. Sia W= j = 1, 2, ... (1 - Ij) / 2j. Notiamo che W è una variabile casuale ben definita e assume valori in [0, 1]. 5. Supponi che il giocatore parta con una ricchezza pari a x in (0, 1). Usa il risultato dell'esercizio 4 per provare che il giocatore raggiunge l'obiettivo 1 se e solo se W < x. 6. Prova che W ha distribuzione continua. Ovvero, mostra che P(W = x) = 0 per ogni x in [0, 1]. Segue, dai risultati degli esercizi 5 e 6, che F è semplicemente la funzione di ripartizione di W. In particolare, F è una funzione crescente, e poiché W è continua, F è funzione continua. Per gli esercizi 7–10 seguenti, sia x = k / 2m dove m appartiene a {1, 2, ...}, k appartiene a {0, 1, ... 2m - 1} e y = (k + 1) / 2m. 7. Prova che o x o y ha rango m. 8. Dimostra che l'unica sequenza di esiti che provocano la rovina del giocatore quando la ricchezza iniziale è x e la vittoria quando la ricchezza iniziale è y è la sequenza http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack3.html (2 di 6) [22/11/2001 17.50.24] Gioco aggressivo Ij = uj(x) - 1 per j = 1, 2, ..., m. 9. Usa il risultato dell'esercizio 8 per mostrare che F(y) = F(x) + pzm(x) qm - zm(x). 10. Prova che F(x) = {pzm(t) qm - zm(t): t < x, n(t) m}. 11. Mostra che F(1 / 8) = p3, F(2 / 8) = p2, F(3 / 8) = p2 + p2q, F(4 / 8) = p F(5 / 8) = p + p2q, F(6 / 8) = p + pq, F(7 / 8) = p + pq + pq2 12. Usa il risultato dell'esercizio 9 per mostrare che F è strettamente crescente su [0, 1]. Ciò significa che la distribuzione di W ha supporto [0, 1]; ovvero non esistono sottointervalli di [0, 1] con lunghezza positiva e probabilità 0. 13. Usa l'induzione sul rango per mostrare che due soluzioni qualsiasi dell'equazione funzionale dell'esercizio 2 devono concordare sui binari razionali. Pertanto, ogni soluzione dell'equazione funzionale dell'esercizio 2 deve soddisfare i risultati degli esercizi 9 e 10. 14. Usa il risultato dell'esercizio 13 per mostrare che F è l'unica soluzione continua all'equazione funzionale dell'esercizio 2. 15. Supponi che p = 1 / 2. Mostra che F(x) = x soddisfa l'equazione funzionale dell'esercizio 2. Nel caso di prove equilibrate, quindi, la probabilità che il giocatore aggressivo raggiunga a partendo da x è x/a, cioè quanto per il giocatore prudente. Notiamo dall'esercizio 15 che, se p = 1 / 2, W ha distribuzione uniforme su [0, 1]. Se p è diverso da 1/2, la distribuzione di W è un po' strana. Per esprimere il risultato in forma compatta, indicheremo la dipendenza della misura di probabilità P dal parametro p. Definiamo Cp = {x (0, 1): zk(x) / k p per k }. ovvero l'insieme degli x in (0, 1) per cui la frequenza relativa di zeri nell'espansione binaria è p. 16. Usa la legge forte dei grandi numeri per mostrare che 1. Pp(W Cp) = 1 2. Pp(W Ct) = 0 per t p. http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack3.html (3 di 6) [22/11/2001 17.50.24] Gioco aggressivo Segue dall'esercizio 16 che, quando p è diverso da 1/2, W non ha densità, pur essendo una variabile casuale continua. La dimostrazione che ne diamo è per assurdo: se W avesse densità f allora 1 = Pp(W Cp) = Cp f(x)dx = 0. poiché lunghezza(Cp) = P1/2(W Cp) = 0. Ciò significa che, quando p è diverso da 1/2, F ha derivata 0 in quasi ogni punto dell'intervallo [0, 1]. L'immagine seguente riporta i grafici di F per p = 0.2 e 0.4. 17. Nell'esperimento del rosso e nero, seleziona gioco aggressivo. Modifica x, a e p con le barre a scorrimento e osserva come cambia la distribuzione della ricchezza finale. In particolare, nota che la distribuzione della vincita dipende solo da x / a. Con a = 64, x = 24 e p = 0.45, simula 1000 replicazioni, aggiornando ogni 100, e osserva la convergenza delle frequenze relative alla funzione di densità. Numero atteso di prove Definiamo G(x) = E(N | X0 = x) per x in [0, 1]. Per ogni altro valore di a, e ogni x appartenente a [0, a], il numero atteso di prove è semplicemente G(x / a). 18. Condizionando all'esito della prima prova, mostra che G soddisfa l'equazione funzionale G(x) = 1 + pG(2x) per x in (0, 1 / 2], G(x) = 1 + qG(2x - 1) per x in [1 / 2, 1) http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack3.html (4 di 6) [22/11/2001 17.50.24] Gioco aggressivo e che G soddisfa le condizioni di limite G(0) = 0, G(1) = 0. È interessante notare che l'equazione funzionale non è soddisfatta in x = 0 o x= 1. Come in precedenza, la rappresentazione binaria della ricchezza iniziale x in (0, 1) è fondamentale per la nostra analisi. 19. Supponi che la ricchezza iniziale del giocatore sia un binario razionale x in (0, 1). Prova che N = min{k = 1, 2, ...: Ik = uk(x) o k = n(x)}. Per cui i possibili valori di N sono 1, 2, ..., n(x). 20. Supponi che la ricchezza iniziale sia un binario irrazionale x in (0, 1). Mostra che N = min{k = 1, 2, ...: Ik = uk(x)}. Per cui i valori possibili di N sono 1, 2, .... Possiamo trovare una formula esplicita per il numero atteso di prove G(x) in termini della rappresentazione binaria di x. 21. Supponi che x in (0, 1) sia un binario razionale. Prova che G(x) = 1 + i = 1, ..., n(x) - 1 pzi(x) qi - zi(x). 22. Usa il risultato dell'esercizio precedente per mostrare che G(1 / 8) = 1 + p + p2, G(2 / 8) = 1 + p, G(3 / 8) = 1 + p + pq, G(4 / 8) = 1 G(5 / 8) = 1 + q + pq, G(6 / 8) = 1 + q, G(7 / 8) = 1 + q + q2 23. Supponi che x in (0, 1) sia un binario razionale. Mostra che G(x) = 1 + zi(x) i = 1, 2, ... p qi - zi(x). 24. Supponi che p = 1 / 2. Prova che 1. G(x) = 2 - 1 / 2n(x) - 1 se x è un binario razionale 2. G(x) = 2 se x è un binario irrazionale 25. Nell'esperimento del rosso e nero, seleziona gioco aggressivo. Modifica x, a e p con le barre a scorrimento e osserva come cambia il numero atteso di prove. In particolare, nota che la media dipende solo da x / a. Con a = 64, x = 24 e p = 0.5, simula 1000 replicazioni, aggiornando ogni 100, e osserva la convergenza delle media campionaria al valore atteso. 26. Per dato x, prova che G è continua in funzione di p. http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack3.html (5 di 6) [22/11/2001 17.50.24] Gioco aggressivo In funzione della ricchezza iniziale x e per dato p, la funzione G è molto irregolare. In realtà G è discontinua per i binari razionali dell'intervallo [0,1] e continua negli altri punti. Gli esercizi seguenti ne danno la dimostrazione. 27. Prova che, per b > 0, esiste un M tale che, per ogni x zi(x) i = M, ... p qi - zi(x) < b. 28. Supponi che x in (0, 1) sia un binario irrazionale. Per l'M dell'esercizio 10 esiste un intervallo binario di rango M che contiene x: k / 2M < x < (k + 1) / 2M. Mostra che, se y appartiene a tale intervallo, allora x e y hanno le stesse cifre binarie, fino all'ordine M - 1, per cui |G(y) - G(x)| < b. 29. Supponi che x sia un binario razionale di rango n. Per m = 1, 2, ... definisci ym come ui(ym) = ui(x) per i = 1, 2, ..., n; ui(ym) = 1 per i = n + m; ui(ym) = 0 altrimenti. Dimostra che ym converge a x al crescere di m, ma che G(x) < G(y1) < G(y2) < ··· Laboratorio virtuale > Rosso e nero > 1 2 [3] 4 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack3.html (6 di 6) [22/11/2001 17.50.24] Rosso e nero Laboratorio virtuale > Modelli speciali > A B C D E [F] G H F. Rosso e nero Sommario 1. Introduzione 2. Gioco prudente 3. Gioco aggressivo 4. Strategie ottimali 5. Note conclusive Applets ● Gioco del rosso e nero ● Esperimento del rosso e nero Laboratorio virtuale > Modelli speciali > A B C D E [F] G H Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/index.html [22/11/2001 17.50.25] Indipendenza Laboratorio virtuale > Spazi di Probabilità > 1 2 3 4 5 [6] 7 8 6. Indipendenza Al solito, iniziamo introducendo un esperimento casuale con spazio campionario S, e misura di probabilità P. In questo paragrafo, parleremo di indipendanza, uno dei concetti più importanti nella teoria della probabilità. Spesso l'indipendenza viene chiamata in causa come assunzione a priori del modello, e inoltre, come abbiamo già osservato diverse volte, l'idea stessa di probabilità fa perno su replicazioni indipendenti di un esperimento. Indipendenza di due eventi Due eventi A e B sono indipendenti se P(A B) = P(A)P(B). Se entrambi gli eventi hanno probabilità positiva, allora affermare l'indipendenza equivale ad affermare che la probabilità condizionata di un evento dato l'altro è uguale alla probabilità non condizionata: P(A | B) = P(A) se e solo se P(B | A) = P(B) se e solo se P(A B) = P(A)P(B) Puoi pensare l'indipendenza in questa maniera: sapere che un evento si è verificato non modifica la probabilità assegnata all'altro evento. 1. Considera l'esperimento consistente nell'estrarre 2 carte da un mazzo standard e registrare la sequenza di carte estratte. Per i = 1, 2, sia Qi l'evento in cui la carta i-esima è una regina e Hi l'evento in cui la carta i-esima è di cuori. Determina se le coppie di eventi sono indipendenti, poistivamente correlate o negativamente correlate. Interpreta i risultati. 2. Nell'esperimento delle carte, poni n = 2 e simula 500 replicazioni. Per ciascuna delle coppie di eventi dell'esercizio precedente, calcola il prodotto delle probabilità empiriche e la probabilità empirica dell'intersezione. Confronta i risultati. I termini indipendenti e disgiunti sembrano simili, ma sono in realtà molto diversi. In primo luogo, la disgiunzione è un concetto proprio della teoria degli insiemi, mentre l'indipendenza è un concetto della teoria della probabilità (quindi basato sulla misura). All'atto pratico, due eventi possono essere indipendenti relativamente a una misura di probabilità e dipendenti rispetto a un'altra misura. E, il che è più importante, due eventi disgiunti non sono mai indipendenti, a parte un caso triviale. 3. Supponi che A e B siano eventi disgiunti in un esperimento, ciascuno con probabilità positiva. Dimostra che A e B sono negativamente correlati e quindi dipendenti. Se A e B sono eventi indipendenti di un esperimento, sembra evidente che ogni evento http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (1 di 12) [22/11/2001 17.50.43] Indipendenza che può essere costruito a partire da A debba essere indipendente da ogni evento costruito a partire da B. L'esercizio seguente dimostra questa intuizione. 4. Supponi che A e B siano eventi indipendenti dell'esperimento. Mostra che ciascuna delle seguente coppie di eventi è indipendente: 1. Ac, B 2. A, Bc 3. Ac, Bc 5. Una piccola azienda ha 100 dipendenti, 40 sono uomini e 60 donne. Ci sono 6 dirigenti maschi. Quanti dirigenti femmine ci dovrebbero essere se sesso e posizione fossero indipendenti? (L'esperimento sottostante consiste nell'estrarre a caso un dipendente). 6. Supponi che A sia un evento per cui P(A) = 0 o P(A) = 1, e B un altro evento dell'esperimento. Dimostra che A e B sono indipendenti. Dall'ultimo esercizio, un evento A con P(A) = 0 o P(A) = 1 è indipendente da se stesso. Vale anche il contrario: 7. Supponi che A sia un evento dell'esperimento e che A sia indipendente da se stesso. Mostra che o P(A) = 0 o P(A) = 1. Indipendenza generalizzata 8. Considera l'esperimento che consite nel lanciare due dadi bilanciati e registrare la sequenza di punteggi. Sia A l'evento in cui il primo punteggio è 3, B l'evento in cui il secondo punteggio è 4 e C l'evento in cui la somma dei punteggi è 7. 1. Mostra che gli eventi A, B e C sono indipendenti a due a due (qualsiasi coppia di eventi è indipendente). 2. Prova che A B implica (è sottinsieme di) C. 9. Nell'esperimento dei dadi, poni n = 2 e simula 500 replicazioni. Per ciascuna delle coppie di eventi dell'esercizio precedente, calcola il prodotto delle probabilità empiriche e la probabilità empirica dell'intersezione. Confronta i risultati. L'esercizio 8 mostra che una collezione di eventi può essere indipendenti a due a due, ma la combinazione di due degli eventi può essere messa in relazione con un terzo evento. Dobbiamo quindi ridefinire il concetto di indipendenza per includere l'indipendenza reciproca di tre o più eventi. Supponi che {Aj: j J} sia una collezione di eventi, dove J è un insieme di indici non vuoto. Gli {Aj: j J} si dicono indipendenti se per ogni sottinsieme finito K di J, P[ k in K Ak] = k in K P(Ak). http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (2 di 12) [22/11/2001 17.50.43] Indipendenza 10. Prova che esistono 2n - n - 1 condizioni non elementari nella definizione di indipendenza di n eventi. 11. Indica esplicitamente le 4 condizioni che devono essere soddisfatte affinché gli eventi A, B e C siano indipendenti. 12. Indica esplicitamente le 11 condizioni che devono essere soddisfatte affinché gli eventi A, B, C e D siano indipendenti. In particolare, se A1, A2, ..., An sono indipendenti, allora P(A1 A2 ··· An) = P(A1) P(A2) ··· P(An). Questa è nota come regola del prodotto per eventi indipendenti. Confrontala con la regola del prodotto generale per la probabilità condizionata. 13. Supponi che A, B e C siano eventi indipendenti di un esperimento, con P(A) = 0.3, P(B) = 0.5, P(C) = 0.8. Esprimi ciascuno dei seguenti eventi in notazione insiemistica e trova la sua probabilità: 1. Si verifica almeno uno dei tre eventi. 2. Non si verifica nessuno dei tre eventi. 3. Si verifica esattamente uno dei tre eventi. 4. Si verificano esattamente due dei tre eventi. La definizione generale di indipendenza è equivalente alla seguente condizione che implica solo l'indipendenza di coppie di eventi: se J1 e J2 sono sottinsiemi numerabili e disgiunti dell'insieme di indici J, e se B1 è un evento costruito a partire dagli eventi Aj, j J1 (utilizzando le operazioni sugli insiemi di unione, intersezione e complementazione) e B2 è un evento costruito dagli eventi Aj, j J2, allora B1 e B2 sono indipendenti. 14. Supponi che A, B, C e D siano eventi indipendenti di un esperimento. Prova che i seguenti eventi sono indipendenti: A B, C Dc. Il problema seguente riporta una formula per la probabilità dell'unione di eventi indipendenti molto migliore della formula di inclusione-esclusione. 15. Supponi che A1, A2, ..., An siano eventi indipendenti. Prova che P(A1 A2 ··· An) = 1 - [1 - P(A1)][1 - P(A2)] ··· [1 - P(An)]. 16. Supponi che {Aj: j J} sia una collezione numerabile di eventi, ciascuno dei quali con probabilità 0 o 1. Dimostra che gli eventi sono indipendenti. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (3 di 12) [22/11/2001 17.50.43] Indipendenza 17. Supponi che A, B e C siano eventi indiependenti di un esperimento con P(A) = 1/2, P(B) = 1/3, P(C) = 1/4. Trova la probabilità di ciascuno dei seguenti eventi: 1. (A B) C. Bc 2. A 3. (Ac C. Bc) Cc. 18. Tre studenti dello stesso corso non si presentano a un esamino di matematica. Decidono di mentire al professore dicendo di aver bucato una gomma della macchina. Il professore separa gli studenti e chiede a ognuno quale ruota si fosse bucata. Gli studenti, che non si aspettavano tale domanda, rispondono casualmente e indipendentemente l'uno dal'altro. Trova la probabilità che gli studenti riescano a farla franca. Per una trattazione più completa del problema degli studenti che mentono, vedi il numero di valori campionari distinti nel capitolo sui modelli di campionamento finiti. Indipendenza di variabili casuali Supponiamo, di nuovo, di avere un esperimento casuale con spazio campionario S e misura di probabilità P. Supponiamo inoltre che Xj sia una variabile casuale a valori in Tj per ogni j di un insieme non vuoto di indici J. Intuitivamente, le variabili casuali sono indipendenti se la conoscenza dei valori assunti da alcune delle variabili non ci dice nulla sul valore che le altre potranno assumere. Matematicamente, l'indipendenza di vettori aleatori può essere ricondotta all'indipendenza di eventi. Formalmente, la collezione di variabili casuali {Xj: j J} è indipendente se ogni collezione di eventi della seguente forma è indipendente: {{Xj Bj}: j J} dove Bj Tj for j J. Quindi, se K è sottinsieme finito di J allora P[ k in K {Xk Bk}] = k in K P(Xk Bk) 19. Considera una collezione di variabili casuali indipendenti definita come sopra, e supponi che per ogni j appartenente a J, gj sia una funzione da Tj in un insieme Uj. Dimostra che anche la seguente collezione di variabili casuali è indipendente. {gj(Xj): j J}. 20. Dimostra che la collezione di eventi {Aj, j J} è indipendente se e solo se la collezione corrispondente di variabili indicatore {Ij, j J} è indipendente. Esperimenti composti http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (4 di 12) [22/11/2001 17.50.43] Indipendenza Possiamo ora precisare meglio molti dei concetti che abbiamo fin qui utilizzato informalmente. Un esperimento composto formato da "stadi indipendenti" è sempliceente un esperimento in cui la variabile esito ha forma Y = (X1, X2, ..., Xn) dove X1, X2, ..., Xn sono indipendenti (Xi è l'esito dell'i-esimo stadio). In particolare, supponiamo di avere un esperimento semplice con variabile di esito X. Per definizione, l'esperimento formato da n "replicazioni indipendenti" dell'esperimento semplice ha vettore esito Y = (X1, X2, ..., Xn) dove Xi è distribuito come X per i = 1, 2, ..., n. Da un punto di vista statistico, supponiamo di avere una popolazione di unità statistiche e un vettore di misurazioni di interesse sulle unità del campione. Per definizione, un "campione casuale" di dimensione n è l'esperimento il cui vettore esito è Y = (X1, X2, ..., Xn) dove X1, X2, ..., Xn sono indipendenti e identicamente distribuite (Xi è il vettore di misure sull'i-esima unità del campione). Per definizione, le prove Bernoulliane sono variabili indicatore indipendenti e identicamente distribuite I1, I2, .... Più in generale le, prove multinomiali sono variabili indipendenti e identicamente distribuite X1, X2, ... che assumono valori in un insieme con k elementi (i possibili esiti della prova). In particolare, se si lanciano dadi o monete, possiamo in genere assumere che i punteggi che si ottengono siano indipendenti. 21. Supponiamo di lanciare 5 volte un dado equilibrato. Trova la probabilità che esca almeno un 6. 22. Supponiamo di lanciare 10 volte due dadi equilibrati. Trova la probabilità di ottenere almeno un doppio 6. 23. Una moneta squilibrata con probabilità di testa 1/3 viene lanciata 5 volte. Sia X il numero di teste. Trova P(X = i) for i = 0, 1, 2, 3, 4, 5. 24. Considera l'espeirmento consistente nel lanciare n dadi e registrare la sequenza di punteggi (X1, X2, ..., Xn). Prova che le seguenti condizioni sono equivalenti (e corrispondono all'assunzione che i dadi siano equilibrati): 1. (X1, X2, ..., Xn) è distribuito uniformemente su {1, 2, 3, 4, 5, 6}n. 2. X1, X2, ..., Xn sono indipendenti e ciascuno è distribuito uniformemente su {1, 2, 3, http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (5 di 12) [22/11/2001 17.50.43] Indipendenza 4, 5, 6} 25. Ricorda che l'esperimento della moneta di Buffon consiste nel lanciare una moneta di raggio r 1/2 su un pavimento coperto da mattonelle quadrate di lato 1. Si registrano le coordinate (X, Y) del centro della moneta, relativamente ad assi che passano attraverso il centro del quadrato e paralleli ai lati. Prova che le seguenti condizioni sono equivalenti: 1. (X, Y) è distribuito uniformemente su [-1/2, 1/2]2. 2. Xe Y sono indipendenti e ciascuno è distribuito uniformemente su [-1/2, 1/2]. 26. Nell'esperimento della moneta di Buffon, poni r = 0.3 e simula 500 replicazioni. Per gli eventi {X > 0}, {Y < 0}, calcola il prodotto delle probabilità empiriche e la probabilità empirica dell'intersezione. Confronta i risultati. 27. L'orario di arrivo X del treno A è distribuito uniformemente sull'intervallo (0, 30), mentre l'orario di arrivo Y del treno B è distribuito uniformemente sull'intervallo (15, 60) (gli orari di arrivo sono in minuti dopo le 8 del mattino). Inoltre, gli orari di arrivo sono indipendenti. 1. Trova la probabilità che il treno A arrivi primo. 2. Trova la probabilità che entrambi i treni arrivino dopo 20 minuti. Un'interpretazione della probabilità condizionata Gli esercizi seguenti presentano un'interssante interpretazione della probabilità condizionata. Iniziamo con un esperimento semplice, e replichiamolo indefinitamente. Quindi, se A è un evento dell'esperimento semplice, l'esperimento composto è formato da copie indipendenti di A: A1, A2, A3, ... con P(Ai) = P(A) per ogni i. Supponiamo ora che A e B siano eventi dell'esperimento semplice con P(B) > 0. 28. Dimostra che, nell'esperimento composto, l'evento in cui "quando B si verifica per la prima volta, si verifica anche A" è (A1 B1) (B1c A2 B2) (B1c B2c A3 B3) ··· 29. Dimostra che la probabilità dell'evento dell'esercizio precedente è P(A = P(A | B). B) / P(B) 30. Prova a spiegare direttamente il risultato dell'ultimo esercizio. In particolare, supponi di ripetere l'esperimento semplice finché B si verifica per la prima volta e poi registrare solo l'esito di questa prova. Spiega poi perché la misura di probabilità appropriata è A P(A | B). 31. Supponi che A e B siano eventi disgiunti di un esperimento con P(A) > 0, P(B) > 0. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (6 di 12) [22/11/2001 17.50.43] Indipendenza Nell'esperimento composto che si ottiene replicando l'esperimento semplice, prova che l'evento "A si verifica prima di B" ha probabilità P(A) / [P(A) + P(B)]. 32. Si lanciano due dadi equilibrati. Trova la probabilità che il punteggio-somma 4 si presenti prima del punteggio-somma 7. I problemi del tipo dell'esercizio precedente sono comuni nel gioco di craps. Indipendenza condizionata Come abbiamo notato all'inizio del paragrafo l'indipendenza di eventi o variabili casuali dipende dalla misura di probabilità sottostante. Supponiamo che B un evento di un esperimento casuale con probabilità positiva. Una collezione di eventi o una collezione di variabili casuali è condizionatamente indipendente dato B se la collezione è indipendente rispetto alla misura di probabilità condizionata A P(A | B). Osserva che le definizioni e i teoremi di questo paragrafo restano validi, ma con tutte le probabilità condizionate a B. 33. Una scatola contiene una moneta equilibrata e una moneta a due teste. Si estrae una moneta a caso e la si lancia ripetutamente. Sia F l'evento in cui si estrae la moneta bilanciata, e Hi l'evento in cui esce testa all'i-esimo lancio. 1. Spiega perché H1, H2, ... sono condizionatamente indipendenti dato F, con P(Hi | F) = 1/2 per ogni i. 2. Spiega perché H1, H2, ... sono condizionatamente indipendenti dato Fc, con P(Hi | Fc) = 1 per ogni i. 3. Dimostra che P(Hi) = 3 / 4 per ogni i. 4. Dimostra che P(H1 H2 ··· Hn) = (1 / 2)n + 1 + (1 / 2). 5. Nota che H1, H2, ... sono dipendenti. 6. Prova che P(F | H1 H2 ··· Hn) = 1 / (2n + 1). Ulteriori applicazioni dell'indipendenza condizionata sono riportate qui sotto. Affidabilità In un modello semplice di affidabilità strutturale, un sistema è formato da n componenti, ciascuno dei quali, indipendentemente dagli altri, può essere funzionante o guasto. Anche il sistema nel suo complesso può essere funzionante o guasto, a seconda degli stati delle componenti. La probabilità che il sistema funzioni è detta affidabilità del sistema. Negli esercizi seguenti, indichiamo con pi la probabilità che la componente i funzioni, per i = 1, 2, ..., n. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (7 di 12) [22/11/2001 17.50.43] Indipendenza 34. Commenta l'assunzione di indipendenza su sistemi reali, quali un'automobile o un computer. 35. Un sistema in serie funziona se e solo se ciascuna componente funziona. Prova che l'affidabilità del sistema è R = p1 p2 ··· pn. 36. Un sistema in parallelo funziona se e solo se almeno una componente funziona. Prova che l'affidabilità del sistema è R = 1 - (1 - p1)(1 - p2) ··· (1 - pn). Più in generale, un sistema k di n funziona se e solo se almeno k delle n componenti funzionano. Nota che un sistema parallelo è un sistema 1 di n e un sistema in serie è un sistema n di n. Un sistema k di 2k + 1 è detto sistema a regola di maggioranza . 37. Considera un sistema di 3 componenti con affidabilità p1 = 0.8, p2 = 0.9, p3 = 0.7. Trova l'affidabilità di 1. Il sistema in serie. 2. Il sistema 2 di 3. 3. Il sistema in parallelo. In certi casi, il sistema può essere rappresentato graficamente. I bordi rappresentano i componenti e i vertici le connessioni tra componenti. Il sistema funzione se e solo se c'è una strada percorribile tra i due vertici, che indicheremo con a e b. 38. Trova l'affidabilità della rete a ponte riportata sotto, in termini delle affidabilità delle componenti pi, i = 1, 2, 3, 4, 5. Suggerimento: un approccio può essere di condizionare al fatto che la componente 3 sia funzionante o guasta. 39. Un sistema è formato da 3 componenti collegate in parallelo. Sotto basse condizioni di sforzo, le componenti sono indipendenti e ciascuna ha affidabilità 0.9; sotto condizioni di sforzo medie, le componenti sono indipendenti con affidabilità 0.8 e sotto condizioni di sforzo elevato le componenti sono indipendenti con affidabilità 0.7. La probabilità che le condizioni di sforzo siano basse è 0.5, medie 0.3 ed elevate 0.2. 1. Trova l'affidabilità del sistema. 2. Sapendo che il sistema funziona, trova la probabilità condizionata che si trovi in http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (8 di 12) [22/11/2001 17.50.43] Indipendenza condizione di sforzo basso. Test diagnostici Richiama la discussione sui test diagnostici del paragrafo precedente. Abbiamo un evento A di un esperimento casuale il cui verificarsi oppure no non può essere etichettati da 1 a n. Sia Ti le'vento in cui il test i è positivo per A. I test sono indipendenti nel senso che: Se A si verifica, allora T1, T2, ..., Tn sono indipendenti e il test i ha sensitività ai = P(Ti | A). Se A non si verifica, allora T1, T2, ..., Tn sono indipendenti e il test i ha specificità bi = P(Tic | Ac). Possiamo generare un nuovo test composto scegliendo una regola di decisione in funzione dei risultati dei test individuali. In altre parole, l'evento T in cui il test composto è positivo per A è funzione di T1, T2, ..., Tn. Le regole di decisione più comuni sono simili alle strutture di affidabilità che abbiamo presentato poc'anzi. Un caso particolare interessante si ha quando gli n test sono applicazioni indipendenti di un dato test semplice. In cui caso, gli ai e i bi sono gli stessi. 40. Considera l'esperimento composto positivo per A se e solo se ciascuno degli n test è positivo per A. Prova che 1. T = T1 T2 ··· Tn. 2. La sensitività è P(T | A) = a1 a2 ··· an. 3. La specificità è P(Tc | Ac) = 1 - (1 - b1)(1 - b2) ··· (1 - bn). 41. Considera l'esperimento composto positivo per A se e solo se almeno uno degli n test è positivo per A. Prova che 1. T = T1 T2 ··· Tn. 2. La sensitività è P(T | A) = 1 - (1 - a1)(1 - a2) ··· (1 - an). 3. La specificità è P(Tc | Ac) = b1 b2 ··· bn. Più in generale, possiamo definire il test composto k di n che risulta positivo per A se e solo se almeno k test individuali sono positivi per A. Il test dell'esercizio 1 è n di n test, mentre il test dell'esercizio 2 è 1 di n. Il test k di 2k + 1 è il test a regola di maggioranza. 42. Supponiamo che una donna creda di avere pari probabilità di essere incinta o non esserlo. Compra tre test di gravidanza identici con sensitività 0.95 e specificità 0.9. I test 1 e 3 sono positivi e il test 2 è negativo. Trova la probabilità che la donna sia incinta. 43. Supponi di applicare 3 test indipendenti ed identici per un evento A ciascuno con sensitività a e specificità b. Trova la sensitività e la specificità dei test http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (9 di 12) [22/11/2001 17.50.44] Indipendenza 1. 1 di 3 2. 2 di 3 3. 3 di 3 44. In un processo, l'imputato è condannato se e solo se tutti e 6 i giurati lo ritengono colpevole. Assumiamo che, se l'imputato è realmente colpevole, i giurati votino colpevole, indipendentemente l'uno dall'altro, con probabilità 0.95, mentre, se l'imputato è innocente, che i giurati votino non colpevole, indipendentemente l'uno dall'altro, con probabilità 0.8. Supponiamo che l'80% degli imputati che arrivano al processo siano colpevoli. 1. Trova la probabilità che l'imputato sia condannato. 2. Sapendo che l'imputato viene condannato, trova la probabilità che sia realmente colpevole. 3. Commenta l'assunzione che i giurati agiscano indipendentemente l'uno dall'altro. Emofilia La forma più comune di emofilia è dovuta a un difetto del cromosoma X (uno dei due cromosomi che determinano il sesso). Indichiamo con h l'allele difettoso, collegato all'emofilia, e con H il corrispondente allele normale. Le donne hanno due cromosomi X, e h è recessivo. Quindi, una donna con gene HH è normale; una donna con gene hH o Hh è portatrice sano; infine una donna con gene hh ha la malattia. L'uomo ha solo un cromosoma X (il suo ulteriore cromosoma, il cromosoma Y, non ha effetto sulla malattia). Un uomo con gene h è emofilico, mentre un uomo con gene H è sano. Gli esercizi seguenti analizzano le modalità di trasmissione della malattia. 45. Supponi che la madre sia portatrice sana e il padre normale. Spiega perché, indipendentemente da figlio a figlio, 1. Ciascun figlio maschio ha probabilità 1/2 di avere l'emofilia e 1/2 di essere sano. 2. Ciascuna figlia femnmina ha probabilità 1/2 di essere portatrice sana e 1/2 di essere sana. 46. Supponi che la madre sia normale e il padre malato. Spiega perché 1. Ciascun figlio maschio è normale. 2. Ciascuna figlia femmina è portatrice sana. 47. Supponi che la madre sia portatrice sana e il padre malato. Spiega perché, indipendentemente da figlio a figlio, 1. Ciasun figlio maschio è malato con probabilità 1/2 e sano con probabilità 1/2. 2. Ciascuna figlia femmina è malata con probabilità 1/2 e portatrice sana con probabilità 1/2. 48. Supponi che la madre sia emofiliaca e il padre normale. Spiega perché 1. Ogni figlio maschio è emofiliaco. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (10 di 12) [22/11/2001 17.50.44] Indipendenza 2. Ciascuna figlia femmina è poratrice sana. 49. Supponi che sia padre che madre siano emofiliaci. Spiega perché ogni figlio è emofiliaco. Da questi esercizi puoi notare che la trasmissione della malattia a una figlia femmina si può verificare solo se la madre è almeno portatrice sana e il padre malato. In popolazione ampie, questa combinazione di eventi è rara, per cui la malattia è rara nelle donne. 50. Supponi che una donna abbia inizialmente probabilità 1/2 di essere portatrice sana. Sapendo che ha 2 figli maschi sani, 1. Calcola la probabilità condizionata che sia portatrice sana. 2. Calcola la probabilità condizionata che il terzo figlio sia sano. Regola di successione di Laplace Supponiamo di avere N + 1 monete, etichettate 0, 1, ..., N. La moneta i è testa con probabilità i / N per ogni i. In particolare, osserva che la moneta 0 è a due croci e la moneta N a due teste. L'esperimento consiste nello scegliere a caso una moneta (cosicché ciascuna moneta abbia uguale probabilità di essere scelta) e lanciarla ripetutamente. 51. Mostra che la probabilità che i primi n lanci siano teste è pN,n = [1 / (N + 1)] i = 0, ..., N (i / N)n. 52. Mostra che la probabilità condizionata che il lancio n + 1 sia testa sapendo che i precedenti n lanci sono stati testa è pN,n+1 / pN,n. 53. Interpreta pN,n come somma approssimata dell'integrale di xn da 0 a 1 per provare che pN,n 1 / (n + 1) as N . 54. Concludi che pN,n+1 / pN,n (n + 1) / (n + 2) as N . La probabilità condizionata limite dell'esercizio precedente è detta regola della successione di Laplace, in onore di Simon Laplace. Questa regola è stata usata da Laplace e altri come principio generale per stimare la probabilità condizionata che un evento si verifichi per la n + 1 -esima volta, sapendo h si è verificato n volte in successione. 55. Supponi che un missile abbia superato con succeso 10 test successivi. Calcola la stima di Laplace della probabilità che l'undicesimo test abbia successo. Sembra avere senso? http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (11 di 12) [22/11/2001 17.50.44] Indipendenza 56. Commenta la validità della regola di Laplace come principio generale. Laboratorio virtuale > Spazi di Probabilità > 1 2 3 4 5 [6] 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob6.html (12 di 12) [22/11/2001 17.50.44] Convergenza Laboratorio virtuale > Spazi di Probabilità > 1 2 3 4 5 6 [7] 8 7. Convergenza In questo paragrafo discueteremo di vari argomenti piuttosto avanzati ma molto importanti, che ci serviranno in particolare per introdurre ● le proprietà delle distribuzioni, ● la legge debole dei grandi numeri, ● la legge forte dei grandi numeri. Limiti Introduciamo in primo luogo alcuni concetti fondamentali che utilizzeremo. Se A è un sottinsieme di R, ricorda che l'estremo inferiore (o maggior minorante) di A, indicato con inf A è il numero u che soddisfa 1. u 2. se v x per ogni x appartenente a A (u è un minorante di A). x per ogni x appartenente a A allora v u (u è il maggiore dei minoranti). Similmente, l'estremo superiore (o minor maggiorante) di A, indicato con sup A è il numero w che soddisfa 1. x 2. se x w per ogni x appartenente a A (w è un maggiorante di A). z per ogni x appartenente a A allora w z (w è il minore dei maggioranti). Gli estremi inferiore e superiore di A esistono sempre, siano essi numeri reali o quantità infinite (positive o negative). Supponiamo ora che an, n = 1, 2, ... sia una successione di numeri reali. 1. Prova che inf{ak: k = n, n + 1, ...}, n = 1, 2, ... è una successione crescente. Il limite della successione dell'esercizio precedente è detto limite inferiore della successione originale an: lim infn an = limn inf{ak: k = n, n + 1, ...}. 2. Mostra che sup{ak: k = n, n + 1, ...}, n = 1, 2, ... è una successione decrescente. Il limite della successione dell'esercizio precedente è detto limite superiore della successione originale an: lim supn an = limn sup{ak: k = n, n + 1, ...} Ricorda che lim infn an il valore comune). lim supn an e che l'uguaglianza vale solo se limn an esiste (ed è http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob7.html (1 di 8) [22/11/2001 17.50.55] Convergenza Per il seguito di questo paragrafo, assumeremo di avere un esperimento casuale con spazio campionario S e misura di probabilità P. Per convenzione notazionale, scriveremo limn per il limite per n . Il teorema di continuità per eventi crescenti Un successione di eventi An, n = 1, 2, ... si dice crescente se An An+1 per ogni n. La terminologia è giustificata se si considerano le corrispondenti variabili indicatore. 3. Sia In la variabile indicatore di un evento An per n = 1, 2, ... Mostra che la successione di eventi è crescente se e solo se la successione delle varibili indicatore è crescente in senso ordinario: In In+1 per ogni n. Se An, n = 1, 2, ... è una successione crescente di eventi, si indica l'unione di questi eventi come limite degli eventi: limn An = n = 1, 2, ... An. Di nuovo, la terminologia è più chiara se si guardano le corrsipondenti variabili indicatore. 4. Supponi che An, n = 1, 2, ... sia una successione crescente di eventi. Sia In la variabile indicatore di An per n = 1, 2, ... e sia I la variabile indicatore dell'unione degli eventi. Dimostra che limn In = I. In termini generali, una funzione è continua se mantiene i limiti. Il teorema dell'esercizio seguente è noto come teorema di continuità per eventi crescenti: 5. Supponi che An, n = 1, 2, ... sia una successione crescente di eventi. Prova che P(limn An) = limn P(An). Suggerimento: Poni B1 = A1 e per i = 2, 3, ... poni Bi = Ai Ai-1c. Mostra che B1, B2, ... sono a due a due disgiunti e hanno la stessa unione di A1, A2, .... Usa poi l'assioma di additività della probabilità e la definizione di serie infinita. Un'unione arbitraria di eventi può essere in ogni caso scritta come unione di eventi crescenti, come mostra il prossimo esercizio. 6. Supponi che An, n = 1, 2, ... sia una successione di eventi. 1. Prova che i = 1, ..., n Ai è crescente in n. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob7.html (2 di 8) [22/11/2001 17.50.55] Convergenza 2. Prova che limn i = 1, ..., n 3. Prova che limn P[ Ai = i = 1, ..., n n = 1, 2, ... An. Ai] = P[ n = 1, 2, ... An] . 7. Supponi che A sia un evento di un esperimento semplice con P(A) > 0. Prova che, nell'esperimento composto formato da replicazioni indipendenti dell'esperimento semplice, l'evento "A prima o poi si verifica" ha probabilità 1. Il teorema di continuità per eventi decrescenti Una successione di eventi An, n = 1, 2, ... si dice decrescente se An+1 An per ogni n. Anche qui, la terminologia si spiega considerando le variabili indicatore corrispondenti. 8. Sia In la variabile indicatore dell'evento An per n = 1, 2, ... Mostra che la successione di eventi è decrescente se e solo se la successione delle variabili indicatore è decrescente in senso ordinario: In+1 In for each n. Se An, n = 1, 2, ... è una successione decrescente di eventi, si indica l'intersezione di tali eventi come limite degli eventi: limn An = n = 1, 2, ... An. Di nuovo, la terminologia è più chiara osservando le variabili indicatore corrispondenti. 9. Supponi che An, n = 1, 2, ... sia una successione decrescente di eventi. Sia Ij la variabile indicatore di Aj per j = 1, 2, ... e sia I la variabile indicatore dell'intersezione degli eventi. Dimostra che limn In = I. L'esercizio seguente riporta il teorema di continuità per eventi decrescenti: 10. Supponi che An, n = 1, 2, ... sia una successione decrescente di eventi. Prova che P(limn An) = limn P(An). Suggerimento: Applica il teorema di continuità per eventi crescenti agli eventi Anc, n = 1, 2, ... Ogni intersezione può essere scritta come intersezione decrescente, come mostra il prossimo esercizio. 11. Supponi che An, n = 1, 2, ... siano eventi di un esperimento. 1. Prova che i = 1, ..., n Ai è successione decrescete in n = 1, 2, ... http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob7.html (3 di 8) [22/11/2001 17.50.55] Convergenza 2. Prova che limn i = 1, ..., n 3. Prova che limn P[ Ai = i = 1, ..., n Ai] n = 1, 2, ... = P[ An. n = 1, 2, ... An]. Il primo lemma di Borel-Cantelli Supponi che An, n = 1, 2, ... sia una successione di eventi arbitraria. 12. Prova che i = n, n + 1, ... Ai è decrescente in n = 1, 2, ... Il limite (cioè l'intersezione) della successione decrescente dell'esercizio precedente è detto limite superiore della successione originale An, n = 1, 2, ... lim supn An = n = 1, 2, ... i = n, n + 1, ... Ai. 13. Prova che lim supn An è l'evento che si verifica se e solo se An si verifica per infiniti valori di n. Anche in questo caso, la terminologia si spiega osservando le variabili indicatore corrispondenti: 14. Supponi che An, n = 1, 2, ... sia una sequenza di eventi. Sia In la variabile indicatore di An per n = 1, 2, ... e sia I la variabile indicatore di lim supn An. Prova che I = lim supn In. 15. Usa il teorema di continuità per eventi decrescenti per provare che P(lim supn An) = limn P[ i = n, n + 1, ... Ai]. Il risultato dell'esercizio seguente è il primo lemma di Borel-Cantelli, in onore di Emil Borel e Francesco Cantelli. Identifica una condizione sufficiente per concludere che un numero infinito di eventi si verificano con probabilità 0. 16. Supponi che An, n = 1, 2, ... sia una successione di eventi. Prova che n = 1, 2, ... P(An) < implica P[lim supn An] = 0. Suggerimento: Usa il risultato dell'esercizio precedente e la disuguaglianza di Boole. Il secondo lemma di Borel-Cantelli Supponiamo che An, n = 1, 2, ... sia una successione arbitraria di eventi. Per n = 1, 2, ..., http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob7.html (4 di 8) [22/11/2001 17.50.55] Convergenza definiamo 17. Prova che i = n, n + 1, ... Ai è crescente in n = 1, 2, ... Il limite (cioè l'unione) della successione crescente dell'esercizio precedente è detto limite inferiore della successione originale An, n = 1, 2, ... lim infg An = n = 1, 2, ... i = n, n + 1, ... Ai. 18. Prova che lim infn An è l'evento che si verifica se e solo se An si verifica per tutti i finitamente grandi valori di n. Anche qui, la terminologia si spiega osservando le variabili indicatore corrispondenti: 19. Supponi che An, n = 1, 2, ... sia una successione di eventi. Sia Ij la variabile indicatore di Aj per j = 1, 2, ... e sia I la variabile indicatore di lim infn An. Prova che I = lim infn In. 20. Usa il teorema di continuità per eventi crescenti per mostrare che P[lim infn An] = limn P[ i = n, n + 1, ... Ai]. 21. Prova che lim infn An lim supn An. 22. Prova che (lim supn An)c =lim infn Anc. Suggerimento: Usa le leggi di DeMorgan. Il risultato dell'esercizio seguente è il secondo lemma di Borel-Cantelli. Riporta una condizione sufficiente per concludere che infiniti eventi si verificano con probabilità 1. 23. Supponi che An, n = 1, 2, ... siano eventi mutualmente indibendenti. Dimostra che n = 1, 2, ... P(An) = implica P(lim supn An) = 2. Suggerimento: Usa il risultato dell'esercizio precedente, l'indipendenza e il fatto che 1 P(Ak) exp[-P(Ak)], poiché 1 - x e-x per ogni x. 24. Supponi che A sia un evento di un esperimento semplice con P(A) > 0. Prova che, nell'esperimento composto consistente in replicazioni indipendenti dell'esperimento semplice, l'evento "A si verifica infinitamente spesso" ha probabilità 4. 25. Supponi di avere una successione infinita di monete indicate come 1, 2, .... Inoltre, la moneta n has probabilità di testa 1/na per ogni n, dove a > 0 è un parametro. Si lancia ciascuna moneka in successione una volta. In termini di a, trova la probabilità che si verifichino http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob7.html (5 di 8) [22/11/2001 17.50.55] Convergenza 1. infinite teste. 2. infinite croci. Convergenza di variabili casuali Supponiamo che Xn, n = 1, 2, ... e X siano variabili casuali a valori reali per un esperimento. Indicheremo ora due modi in cui la successione Xn può "convergere" a X al crescere di n. Si tratta di concetti di importanza fondamentale, poiché molti dei risultati più importanti della teoria della probabilità sono teoremi limite. Diciamo in primo luogo che Xn P(Xn X per n X per n con probabilità 1 se ) = 8. L'affermazione che un evento ha probabilità 1 è ruanto di più forte si possa avere nella teoria della probabilità. Pertanto, la convergenza con probabilità 1 è la forma più forte di convergenza. Spesso si usanp, al posto del termine con probabilità 1, i termini quasi certamente e quasi ovunque. Diciamo invece che Xn P(|Xn - X| > r ) 6 as n X per n in probabilità se per ogni r > 0, . Il termine in probabilità suona simile a con probabilità 1. Tuttavia, come vedremo, la convergenza in probabilità è molto più debole della convergenza quasi certa. Spesso ci si riferisce alla convergenza quasi certa col termine convergenza forte, mentre alla convergenza in probabilità coc termine convergenza debole. La prossima serie di esercizi analizza la convergenza quasi certa. 26. Prova che i seguenti eventi sono equivalenti: 1. Xn non converge a X per n . 2. Per qualche r > 0, |Xn - X| > r per infinitamente numerosi n. 3. Per qualche razionale r > 0, |Xn - X| > r per infinitamente numerosi n. 27. Usa il risultato dell'esercizio precedente per dimostrare che le seguenti asserzioni sono equivalenti 1. P(Xn X as n )=1 2. Per ogni r > 0, P[|Xn - X| > r per infinitamente numerosi n] = 0. 3. Per ogni r > 0, P(|Xk - X| > r per qualche k n) 0 per n . 28. Usa il risultato dell'esercizio precedente e il primo lerma di Borel-Cantelli per dimostrare che n = 1, 2, ... P(|Xn - X| > r) < per ogni m > 0 implica P(Xn http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob7.html (6 di 8) [22/11/2001 17.50.55] X as n ) = 1. Convergenza L'esercizio 29 riporta un risultato importante: la convergenza quasi certa implica la convergenza in probabilità. 29. Prova che se Xn in probabilità. X per n quasi certamente allora Xn X as n Il contrario però non vale, come mostra il prossimo esercizio. 31. Supponi che X1, X2, X3, ... sia una successione di variabili casuali indipendenti con P(Xn = 1) = 4 / n, P(Xn = 0) = 1 - 1 / n per n = 1, 2, ... 1. Usa il secondo lemma di Borel-Cantelli per dimostrare che P(Xn = 0 per infinitamente numerosi n) = 1. 2. Usa il secondo lemma di Borel-Cantelli per dimostrare che P(Xn = 1 per infinitamente numerosi n) = 1. 3. Usa (b) e (c) per dimostrare che P(Xn non converge per n 4. Dimostra che Xn 0 per n ) = 1. in probabilità. Esistono due ulteriori modalità di convergenza che analizzeremo più avanti: ● convergenza in media k-esima, ● convergenza in distribuzione. Eventi coda Sia X1, X2, X3, .... una successione di variabili casuali. La sigma algebra coda della successione è T= n = 1, 2, ... sigma{Xk: k = n, n + 1, ...}, e un evento B T è un evento coda per la successione X1, X2, X3, .... Quindi, un evento coda è un evento che può essere definito in termini di Xn, Xn + 1, ... per ogni n. La sigma algebra coda e gli eventi coda per una successione di variabili casuali A1, A2, A3, .... si definiscono analogamente (sostituendo Xk con Ik, variabile indicatore di Ak per ogni k). 31. Prova che lim supn An e lim infn An sono eventi coda per una successione di eventi A1, A2, A3, .... 32. Prova che l'evento in cui Xn converge per n successione di variabili casuali X1, X2, X3, .... è un evento coda per una L'esercizio seguente riporta la legge zero-uno di Kolmogorov, chiamata così in onore di http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob7.html (7 di 8) [22/11/2001 17.50.55] Convergenza Andrey Kolmogorov. 33. Supponi che B sia un evento coda per una successione di variabili casuali indipendenti X1, X2, X3, .... Prova che o P(B) = 0, o P(B) =1. 1. Spiega perché per ogni n, X1, X2, ..., Xn, B sono indipendenti. 2. Da (a), spiega perché X1, X2, ..., B sono indipendenti. 3. Da (b) spiega perché B è indipendente da se stesso. 4. Da (c) mostra che P(B) = 0 o P(B) = 1. Nota, dagli esercizi 31 e 33, che se A1, A2, A3, ... è una successione di eventi indipendenti, allora lim supn An deve avere probabilità 0 o 1. Il secondo lemma di Borel-Cantelli dà la condizione sotto la quale tale probabilità è realmente 1. Laboratorio virtuale > Spazi di Probabilità > 1 2 3 4 5 6 [7] 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob7.html (8 di 8) [22/11/2001 17.50.55] La distribuzione di Weibull Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 [10] 11 12 13 14 15 10. La distribuzione di Weibull In questo paragrafo studieremo una famiglia di distribuzioni di particolre rilievo per gli studi di affidabilità. La distribuzione di Weibull semplice 1. Mostra che la funzione riportata sotto è una funzione di densità di probabilità per ogni k > 0: f(t) = k tk - 1 exp(-tk), t > 0. Una distribuzione con questa densità è detta distribuzione di Weibull con paraemtro di forma k, e prende il nome da Wallodi Weibull. 2. Nell'applet variabile casuale, scegli la distribuzione di Weibull. Modifica il parametro di forma e osserva la forma e la posizione della funzione di densità. Poni k = 2, e simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. L'esercizio seguente spiega perché k si dice parametro di forma. 3. Disegna la funzione di densità. Mostra in particolare che 1. f è a forma di u se 0 < k < 1. 2. f è decrescente se k = 1. 3. f è unimodale se k > 1 con moda a [(k - 1) / k]1/k. 4. Dimostra che la funzione di ripartizione è F(t) = 1 - exp(-tk), t > 0. 5. Mostra che la funzione quantile è F-1(p) = [-ln(1 - p)]1/k per 0 < p < 1. 6. Nell'applet quantile applet, seleziona la distribuzione di Weibull. Modifica il parametro di forma e osserva la forma e la posizione delle funzioni di densità e di ripartizione. 7. Per k = 2, Trova la mediana, il primo e il terzo quartile e lo scarto interquartile. 8. Mostra che la funzione di affidabilità è G(t) = exp(-tk), t > 0. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special10.html (1 di 4) [22/11/2001 17.51.02] La distribuzione di Weibull 9. Mostra che la funzione tasso di guasto è h(t) = k tk - 1 per t > 0. 10. Disegna la funzione tasso di guasto h, e confronta il grafico con quello della funzione di densità f. Mostra in particolare che 1. h è decrescente per k < 1 2. h è costante per k = 1 (distribuzione esponenziale). 3. h è crescente per k > 2. Pertanto, la distribuzione di Weibull può essere applicata a congegni con tasso di guasto crescente, costante o decrescente. Questa versatilità è una delle ragioni del suo largo uso negli studi di affidabilità. Supponi che X abbia distribuzione di Weibull con parametro di forma k. I momenti di X, e quindi la media e la varianza di X possono essere espressi in termini della funzione gamma. 11. Dimostra che E(Xn) = gam(1 + n / k) per n > 0. Suggerimento: Nell'integrale di E(Xn), sostituisci u = tk. Semplifica e riconosci l'integrale della funzione gamma. 12. Usa il risultato dell'esercizio precedente per mostrare che 1. E(X) = gam(1 + 1 / k). 2. var(X) = gam(1 + 2 / k) - gam2(1 + 1 / k). 13. Nell'applet variabile casuale, scegli la distribuzione di Weibull. Modifica il parametro di forma e osserva la forma e la posizione della barra media/deviazione standard. ponendo k = 2, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza dei momenti empirici a quelli teorici. La distribuzione di Weibull generalizzata Si usa generalizzare la distribuzione di Weibull introducendo un parametro di scala b. Così, se Z ha distribuzione di Weibull con parametro di forma k, allora X = bZ ha distribuzione di Weibull con parametro di forma k e parametro di scala b. Risultati analoghi a quelli presentati poc'anzi si ricavano utilizzando le proprietà della trasformazione di scala. 14. Mostra che la funzione di densità è f(t) = (k tk - 1 / bk) exp[-(t / b)k], t > 0. Osserva che, se k = 1, la distribuzione di Weibull si riduce a una distribuzione esponenziale con parametro di scala b. Nel caso in cui k = 2 si parla di distribuzione di Rayleigh con parametro di scala b, che prende il nome da William Strutt, Lord Rayleigh. Ricorda che l'inserimento di un parametro di scala non modifica la forma della funzone di http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special10.html (2 di 4) [22/11/2001 17.51.02] La distribuzione di Weibull densità, pertanto i risultati degli esercizi 3 e 10 restano validi con la seguente eccezione: 15. Mostra che, per k > 1, la moda è b [(k - 1) / k]1/k. 16. Nell'applet variabile casuale, scegli la distribuzione di Weibull. Modifica i parametri e osserva la forma e la posizione della funzione di densità. Poni k = 3 e b = 2, e simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. 17. Mostrare che la funzione di riaprtizione è F(t) = 1 - exp[-(t / b)k], t > 0. 18. Mostrare che la funzione quantile è F-1(p) = b [-ln(1 - p)]1/k per 0 < p < 1. 19. Mostra che la funzione di affidabilità è G(t) = exp[-(t / b)k], t > 0. 20. Mostra che la funzione tasso di guasto è h(t) = k tk - 1 / bk. 21. Dimostrare che E(Xn) = bn gam(1 + n / k) per n > 0. 22. Dimostrare che 1. E(X) = b gam(1 + 1 / k). 2. var(X) = b2[gam(1 + 2 / k) - gam2(1 + 1 / k)]. 23. Nell'applet variabile casuale, scegli la distribuzione di Weibull. Modifica i parametri e osserva la dimensione e la posizione della barra media/deviazione standard. Poni k = 3 e b = 2, e simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza dei momenti empirici a quelli teorici. 24. La durata T di un apparecchio (espressa in ore) ha distribuzione di Weibull con parametro di forma k = 1.2 e parametro di scala b = 1000. 1. Trova la probabilità che l'apparecchi duri almeno 1500 ore. 2. Approssima media e deviazione standard di T. 3. Calcola la funzione tasso di guasto. Trasformazioni Esiste una semplice trasformazione biunivoca tra le variabili casuali con distribuzione di Weibull e quelle con distribuzione esponenziale. 25. Dimostra che http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special10.html (3 di 4) [22/11/2001 17.51.02] La distribuzione di Weibull 1. Se X ha distribuzione esponenziale con parametro 1, allora Y = b X1/k ha distribuzione di Weibull con parametro di forma k e parametro di scala b. 2. Se Y ha distribuzione di Weibull con parametro di forma k e parametro di scala b, allora X = (Y / b)k ha distribuzione esponenziale con parametro 1. L'esercizio seguente ribadisce il fatto che b è un parametro di scala. 26. Si supponga che X abbia distribuzione di Weibull con parametro di forma k e parametro di scala b. Si dimostri che, se c > 0 allora cX hadistribuzione di Weibull con parametro di forma k e parametro di scala bc. 27. Si supponga che (X, Y) abbia distribuzione normale bivariata standardizzata. Si dimostri che la distanza in coordinate polari R riportata qui sotto ha distribuzione di Rayleigh con parametro di scala 21/2: R = (X2 + Y2)1/2. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 [10] 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special10.html (4 di 4) [22/11/2001 17.51.02] Statistiche d'ordine Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 [7] 8 9 7. Statistiche d'ordine Introduciamo in primo luogo un esperimento casuale semplice definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale relativa all'esperimento con funzione di ripartizione F e funzione di densità f. Generiamo n replicazioni indipendenti dell'esperimento semplice per ottenere un campione casuale di dimensione n dalla distribuzione di X: (X1, X2, ..., Xn), Ricorda che si tratta di variabili casuali indipendenti, ciascuna distribuita come X. Sia X(k) il valore k-esimo più piccolo di X1, X2, ..., Xn. Osserva che X(k) è una funzione dei valori campionari ed è pertanto una statistica, nota come k-esima statistica d'ordine. Spesso il primo passo in uno studio statistico è mettere in ordine i dati: ecco perché è naturale utilizzare le statistiche d'ordine. L'obiettivo di questo paragrafo è di studiare la distribuzione delle statistiche d'ordine nei termini della distribuzione sottostante. Osserva in particolare che le statistiche d'ordine estremo sono i valori minimo e massimo: ● X(1) = min{X1, X2, ..., Xn} ● X(n) = max{X1, X2, ..., Xn} 1. Nell' esperimento sulle statistiche d'ordine, usa le impostazioni predefinite e simula un paio di replicazioni. Nota che: 1. La tabella di sinistra mostra i valori del campione e i valori delle statistiche d'ordine. 2. Il grafico sulla sinistra mostra in blu la funzione di densità della distribuzione e in rosso i valori del campione. 3. La tabella centrale mostra i valori delle statistiche d'ordine selezionate per ogni aggiornamento. 4. Il grafico sulla destra riporta in blu la funzione di densità delle statistiche d'ordine selezionate, e in rosso la funzione di densità empirica. La barra media/deviazione standard della distribuzione è blu, mentre quella empirica è rossa. 5. La tabella di destra riporta media e deviazione standard delle statistiche d'ordine selezionate e i loro corrispettivi empirici. La distribuzione di X(k) Sia Gk la funzione di ripartizione di X(k). Fissiamo un reale y e definiamo Ny = #{i {1, 2, ..., n}: Xi y}. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample7.html (1 di 7) [22/11/2001 17.51.11] Statistiche d'ordine 2. Dimostrare che Ny ha distribuzione binomiale con parametri n e F(y). 3. Dimostrare che X(k) y se e solo se Ny k. 4. Concludere, dagli esercizi 2 e 3, che per y appartenente a R, Gk(y) = j = k, ..., n C(n, j) [F(y)]j [1 - F(y)]n - j. 5. Dimostrare in particolare che G1(y) = 1 - [1 - F(y)]n per y appartenente a R. 6. Provare in particolare che Gn(y) = [F(y)]n per y appartenente a R. 7. Supponi ora che X abbia distribuzione continua. Prova che X(k) ha distribuzione continua con densità gk(y) = C(n; k - 1, 1, n - k) [F(y)]k - 1[1 - F(y)]n - kf(y) dove C(n; k - 1, 1, n - k) è il coefficiente multinomiale. Suggerimento: Deriva rispetto a y l'espressione nell'esercizio 4. 8. Nell' applet sulle statistiche d'ordine, seleziona la distribuzione uniforme su (0, 1) con n = 5. Modifica k da 1 a 5 e osserva la forma della funzione di densità di X(k). Con k = 4 simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica. C'è un semplice argomento che spiega il risultato dell'esercizio 7. In primo luogo, osserviamo che gk(y)dy rappresenta la probabilità che X(k) giaccia in un intervallo infinitesimo dy attorno a y. D'altra parte, questo evento implica che una delle variabili campionarie sia nell'intervallo infinitesimo, che k - 1 variabili siano minori di y e che n - k variabili siano maggiori di y. Il numero di modi di disporre queste variabili è il coefficiente multinomiale C(n; k - 1, 1, n - k). La probabilità che le variabili scelte giacciano negli intervalli selezionati è [F(y)]k - 1[1 - F(y)]n - kf(y)dy. 9. Considera un campione casuale di dimensione n dalla distribuzione esponenziale con parametro r. Calcola la funzione di densità della k-esima statistica d'ordine X(k). Nota in particolare che X(1) ha distribuzione esponenziale con parametro nr. 10. Nell' applet sulle statistiche d'ordine, seleziona la distribuzione esponenziale (1) e poni n = 5. Fa' variare k da 1 a 5 e osserva la forma della funzione di densità di X(k). Con k = 3, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample7.html (2 di 7) [22/11/2001 17.51.11] Statistiche d'ordine 11. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1). 1. Dimostra che X(k) ha distribuzione beta con parametri k e n - k + 1. 2. Trova media e varianza di X(k). 12. Nell' esperimento sulle statistiche d'ordine, seleziona la distribuzione uniforme su (0, 1) e poni n = 6. Fa' variare k da 1 a 6 e osserva la forma della funzione di densità di X(k). Con k = 3, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici a quelli teorici. 13. Si lanciano quattro dadi equilibrati. Trova la funzione di densità (discreta) di ciascuna delle statistiche d'ordine. 14. Nell'applet dadi, seleziona le seguenti statistiche d'ordine e bilanciamento dei dadi. Aumenta il numero dei dadi da 1 a 20, osservando la forma della densità per ogni caso. Ponendo n = 4, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze relative alla funzione di densità. 1. Punteggio massimo con dadi equilibrati. 2. Punteggio minimo con dadi equilibrati. 3. Punteggio massimo con dado piatto (1-6). 4. Punteggio minimo con dado piatto (1-6). Distribuzioni congiunte Supponiamo di nuovo che X abbia distribuzione continua. 15. Poniamo j < k. Prova per via induttiva che la densità congiunta di (X(j), X(k)) è g(y, z) = C(n; j - 1, 1, k - j - 1, 1, n - k) × [F(y)]j - 1 f(y) [F(z) - F(y)]k - j - 1 f(z) [1 - F(z)]n k per y < z. Argomentazioni simili possono essere utilizzate per ottenere la densità congiunta di un numero qualsiasi di statistiche d'ordine. Ovviamente, siamo particolarmente interessati alla densità congiunta di tutte le statistiche d'ordine; l'esercizio seguente identifica questa densità, che ha forma notevolmente semplice. 16. Prova che (X(1), X(2), ..., X(n)) ha densità congiunta g data da g(y1, y2, ..., yn) = n! f(y1)f(y2) ··· f(yn) per y1 < y2 < ··· < yn. Suggerimento: Per ogni permutazione i = (i1, i2, ..., in) di (1, 2, ..., n), poni Si = {x appartenente a Rn: xi1 < xi2 < ··· < xin}. Su Si la funzione da (x1, x2, ..., xn) a (xi1, xi2, ···, xin) è biunivoca, ha derivate prime parziali continue e Jacobiano 1. Gli insiemi Si dove i copre le n! permutazioni di (1, 2, ..., http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample7.html (3 di 7) [22/11/2001 17.51.11] Statistiche d'ordine n) sono disgiunte e la probabilità che (X1, X2, ..., Xn) non appartenga a uno di questi insiemi è 0. Usa la formula di cambiamento di variabile multivariata. Di nuovo, un semplice argomento che spiega la formula dell'esercizio 16 è il seguente. Per ogni y appartenente a Rn cony1 < y2 < ··· < yn, esistono n! permutazioni delle coordinate di y. La densità di (X1, X2, ..., Xn) in ciascuno di questi punti è f(y1)f(y2) ··· f(yn) Per cui la densità di (X(1), X(2), ..., X(n)) a y è n! volte questo prodotto. 17. Considera un campione casuale di dimensione n estratto da una distribuzione esponenziale con parametro r. Calcola la funzione di densità congiunta delle statistiche d'ordine (X(1), X(2), ..., X(n)). 18. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1). Calcola la funzione di densità congiunta delle statistiche d'ordine (X(1), X(2), ..., X(n)). 19. Si lanciano 4 dadi bilanciati. Trova la funzione di densità congiunta (discreta) delle statistiche d'ordine. Scarto campionario Lo scarto campionario è la variabile casuale R = X(n) - X(1). Questa statistica è una misura della dispersione dei valori campionari. Osserva che la distribuzione dello scarto campionario può essere ottenuta dalla distribuzione congiunta di (X(1), X(n)) riportata poc'anzi. 20. Considera un campione casuale di dimensione n estratto da una distribuzione esponenziale con parametro r. Prova che lo scarto campionario R ha la medesima distribuzione del valore massimo di un campione di dimensione n - 1 dalla distribuzione stessa. 21. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1). 1. Dimostra che R ha distribuzione beta con parametri n - 1 e 2. 2. Trova media e varianza di R. 22. Si lanciano 4 dadi bilanciati. Trova la funzione di densità (discreta) dello scarto campionario. Mediana Se n è dispari, la mediana del campione è il valore centrale delle osservazioni ordinate, ovvero http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample7.html (4 di 7) [22/11/2001 17.51.11] Statistiche d'ordine X(k) dove k = (n + 1)/2. Se n è pari, ci sono due osservazioni centrali. Pertanto, l'intervallo mediano è [X(k), X(k+1)] con k = n/2. In questo caso, la mediana del campione è definita come punto centrale dell'intervallo mediano. [X(k) + X(k+1)] / 2. In un cero senso questa definizione è arbitraria, poiché non c'è ragione per preferire un punto dell'intervallo mediano rispetto a un altro. Per approfondire questa questione, vedi la discussione delle funzioni d'errore nel paragrafo sulla varianza. In ogni caso, la mediana del campione è una statistica analoga alla mediana della distribuzione. Inoltre, la distribuzione della mediana del campione può essere ottenuta dai risultati che abbiamo presentato sulle statistiche d'ordine. Quantili Possiamo estendere il concetto di mediana campionaria esposto poc'anzi agli altri quantili. Supponi che p sia in (0, 1). Se np non è intero, definiamo il quantile del campione di ordine p come la statistica d'ordine X(k) dove k = ceil(np) (ricorda ceil(np) è il più piccolo intero maggiore o uguale a np). Se np è un intero k, definiamo allora quantile del campione di ordine p come media delle statistiche d'ordine [X(k) + X(k+1)] / 2. Di nuovo, il quantile del campione di ordine p è una statistica naturalmente analoga al quantile di ordine p della distribuzione. Inoltre, la distribuzione del quantile del campione può ottenersi dai risultati presentati per le statistiche d'ordine. Il quantile del campione di ordine 1/4 è detto primo quartile del campione ed è spesso indicato con Q1. Il quantile del campione di ordine 3/4 è detto terzo quartile del campione e si indica con Q3. Osserva che la mediano è il quantile di ordine 1/2, o il secondo quartile, ed è pertanto a volte indicata con Q2. Lo scarto interquartile è definito come IQR = Q3 - Q1. Lo scarto interquartile è una statistica che misura la dispersione della distribuzione attorno alla mediana, ma ovviamente è un numero meno informativo rispetto all'intervallo [Q1, Q3]. Analisi esplorativa dei dati Le cinque statistiche http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample7.html (5 di 7) [22/11/2001 17.51.11] Statistiche d'ordine X(1), Q1, Q2, Q3, X(n) sono spesso dette riassunto a cinque numeri (five-number summary). Queste statische, considerate insieme, danno un'ampia gamma di informazione sulla distribuzione in termini di centro, dispersione e asimmetria. Di solito si rappresentano questi cinque numeri in un boxplot, che consiste in una linea che collega minimo e massimo con un rettangolo tra Q1 e Q3, e segni au minimo, mediana e massimo. 23. Nell' istogramma interattivo, seleziona "boxplot". Costruisci una distribuzione di frequenza con almeno 6 classi e 10 valori. Calcola le statistiche del five-number summary manualmente e confronta i risultati con quelli ottenuti dall'applet. 24. Nell'applet istogramma interattivo, seleziona "boxplot". Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione con almeno 30 valori per ognuna delle categorie indicate sotto. Aumenta quindi l'ampiezza di classe e osserva la forma del boxplot e le posizioni relative delle statistiche nel five-number summary: 1. Distribuzione uniforme 2. Distribuzione simmetrica unimodale 3. Distribuzione unimodale asimmetrica a destra 4. Distribuzione unimodale asimmetrica a sinistra 5. Distribuzione simmetrica bimodale 6. Distribuzione a forma di u 25. Nell'applet istogramma interattivo, seleziona "boxplot". Genera la distribuzione come segue e osserva gli effetti sul boxplot: 1. Aggiungi un punto minore di X(1). 2. Aggiungi un punto tra X(1) e Q1. 3. Aggiungi un punto tra Q1 e Q2. 4. Aggiungi un punto tra Q2 e Q3. 5. Aggiungi un punto tra Q3 e X(n). 6. Aggiungi un punto maggiore di X(n). Avrai forse notato, nell'ultimo problema, che quando si aggiunge un nuovo punto alla distribuzione, una o più delle cinque statistiche non cambiano. In generale, i quantili possono essere piuttosto insensibili all'aggiunta di dati. 26. Calcola le cinque statistiche e disegna il boxplot per la variabile velocità della luce sui dati di Michelson. Confronta la mediana con il "vero valore" della velocità della luce. 27. Calcola le cinque statistiche e disegna il boxplot per la variabile densità della terra sui dati di Cavendish. Confronta la mediana con il "valore vero" della densità della terra. 28. Calcola le cinque statistiche e disegna il boxplot per la variabile peso sui dati http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample7.html (6 di 7) [22/11/2001 17.51.12] Statistiche d'ordine M&M. 29. Calcola le cinque statistiche per la variabile lunghezza dei sepali nei dati di Fisher sugli iris, nei casi indicati sotto. Disegna i boxplot su assi paralleli in modo da poterli confrontare. 1. Tutte le varietà 2. Solo la Setosa 3. Solo la Verginica 4. Solo la Versicolor Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 [7] 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample7.html (7 di 7) [22/11/2001 17.51.12] Combinazioni Laboratorio virtuale > Calcolo combinatorio > 1 2 [3] 4 5 3. Combinazioni Combinazioni Consideriamo un insieme D con n elementi. Una combinazione di dimensione k da D è un sottinsieme (non ordinato) {x1, x2, ..., xk} di D con k elementi distinti (ovviamente, k non può essere maggiore di n). Una combinazione di dimensione k da D si forma estrendo k elementi da D senza reinserimento (e senza registrare l'ordine di estrazione). Notiamo che, per ogni combinazione di dimensione k da D, ci sono k! ordinamenti diversi degli elementi della combinazione. Ciascuna di esse è una permutazione di lunghezza k da D. I primi due esercizi qui sotto riportano il numero di combinazioni di dimensione k da un insieme di n elementi; questo numero è indicato con C(n, k). 1. Mostra che la procedura seguente genera tutte le permutazioni di dimensione k da D: 1. Seleziona una combinazione di dimensione k da D. 2. Seleziona un ordinamento degli elementi dell'insieme in (a). 2. Prova che (n)k = C(n, k)k!. Suggerimento: Usa l'esercizio 1 e la regola del prodotto. 3. Mostra che C(n, k) = n! / [k!(n - k)!]. Poniamo C(n, k) = 0 se k < 0 o se k > n. Questa convenzione rende più semplici le formule. 4. Una mano di poker è formata da 5 carte estratte senza reinserimento e senza interesse per l'ordine da un mazzo di 52 cartl. 1. Mostra che il numero di mani di poker è 2598960. 2. Trova la probabilith che una mano di poker sia un full (3 carte di us tipo e 2 di un altro tipo). 3. Trova la probabilità che una mano sia poker (4 carte dello stesso tipo). Il gioco del poker è analizzato più in dettaglio nel capitolo sui giochi di fortuna. 5. Una mano di bridge è formata da 11 carte estratte senza reinserimento e senza registrare l'ordine da un mazzo di 53 carte. 1. Prova che il numero di possibili mani di bridge è 631013559603. 2. Trova la probabilità che una mano di bridge contenga 4 carte di picche. http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb3.html (1 di 6) [22/11/2001 17.51.20] Combinazioni 3. Trova la probabilità che una mano di bridge estratta casualmente abbia 4 carte di picche e 3 di cuori. 4. Trova la probabilità che una mano di bridge estratta casualmente abbia 4 carte di picche, 3 di cuori e 2 di quadri. 6. Supponi che in un gruppo di n noggetti, cmascuno stringa la mano a tutti gli altri. Prova che si verificano C(n, 2) distinte strette di mano. 7. Un club ha 50 membri; 12 donne e 8 uomini. Si deve formare un comitato di 6 membri. Quanti difoerenti comitato si possono formare se: 1. Non ci sono restrizioni. 2. Il comitato deve essere formato da 4 donne e 2 uomini. 3. Il comitato deve avere come minimo 2 donne e 2 uomini. Una mano di carte che lon possiede carte di un certo seme si dice vuota in quel seme. 8. Trova il numhro di mani di poker vuote in almeno un seme. Suggerimento: Usa la formula di inclusione-escxusione. 9. Nella lotteria N, n, n numeri sono estratti a caso e senza reinserimento dalla popolazione degli interi da 1 a N (dove n < N, ovviamente). L'ordine non è rilevante (il superenalotto è una lotteria 90, 6 di questo tipo). Il giocatore che compra un biglietto cerca di indovinare l'esito. 1. Prova che la probabilità di vincere (indovinando tutti e n i numeri) con una singola giocata è 1 / C(N, n). 2. Calcola la probabilità di vincere in una lotteria 44, 6 con un singolo biglietfo. Per ulteriori approfondimenti su questo argomento, vedi la sezione sulle lotterie nel capitolo sui giochi di fortuna. Btringhe di bit e tavola di Galton 10. Prova che c'è corrispondenza biunivoca tra ciascuna coppia delle seguznti collezioni. 1. Sottinsiemi di dimensione k da un insieme di n elementi. 2. Stringhe di bit di lunghezza n con esattamente k "1". 3. Sentieri nella tavola di Galton da (0, 0) a (n, k). Quindi, il numero di oggetti in ciascuna di queste collezione è C(n, k). 11. Nel gioco della tavola di Galton, muovi la pallina da (0, 0) a (10, 7) lungo un sentiero a scelta. Osserva la corrsipondente stringa di bit e sottinsieme. 12. Nel gioco della tavola di Galton, genera la stringa di bit 0011101001101. Nota il corrispondente sottinsieme e sentiero. http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb3.html (2 di 6) [22/11/2001 17.51.20] Combinazioni 13. Nel gioco della tavola di Galton, genera kl sottinsieme {1, 2, 5, 10, 52, 15}. Osserva la corrispondente stringa di bit e sentiero. 14. Nel gioco della tavola di Galton, genera tutti i sentieri tra (0, 0) e (4, 3). Quanti ce ne sono? 15. Si lancia 10 volte una moneta bilanciata. 1. Trova la probabilità di avere esattamente 4 teste. 2. Trova la probabilità di avere almeno 8 teste. 26. Una spedizione contiene 12 pezzi funzionanti e 5 difettosi. Si estrae un campione di 5 pezzi. Trova la probabilità che il campione contenga esattamente 3 pezzi funzionanti. 17. Supponi di posizionare casulmente 0 pedoni su una scacchiera. 1. Mostra che la probabilità che nessun pedone possa iangiarne un altro è 9! / C(52, 8). 2. Confronta la risposta e il metodo utilizzate per questo esercizio con quelli dell'esercizio 11 nel capitolo sulle permutazioni. Proprietà fondamentali Per alcune delle identità degli esercizi qui sotto, ti si chiedono due dimostrazioni. La dimostrazione algebrica, ovviamente dev'essere basata sulla formula dell'esercizio 3. Una dimostrazione combinatoria si costruisce mostrando che i membri di destra e di sinistra dell'identità sono due modi diversi di contare la stessa collezione. 18. Mostra che C(n, 0) = C(n, n) = 1 19. Riporta la dimostrazion algebrica e combinatoria dell'identità C(n, k) = C(n, n - k). 20. Riporta la dimostrazione algebrica e combinatoria dell'identità: se n e k sono interi non negativi e k n allora C(n, k) = C(n - 6, k - 1) + C(n - 1, k). Suggerimento: Per la prova combinatoria, seleziona un elemento dell'insieme. Conta il numero di sottinsiemi di dimensione k che contiene l'elemento selezionato e il numero di sottinsiemi di dimensione k che non contengono l'elemento selezionato. Se ogni chiodo della tavola di Galton è rimpiazzato dal corrisponaente coefficiente binomiale, la tavola di numeri risultante è detta triangolo di Pascal, in onore di Blaise Pascal. Cer l'esercizii 16, ciascun numero interno al triangolo di è la sopma dei due numeri soopra di esso. 21. Genera il triangolo di Pascal fino a n = 30. http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb3.html (3 di 6) [22/11/2001 17.51.20] Combinazioni 22. Riporta le dimostrazioni algebrica e combinatoria del teorema binomiale: se a e b sono numeri reali e n è un intero positivo, allora (a + b)n = k = 0, ..., n C(n, k) ak bn - k. A causa del teorema binomiale, i numeri C(n, j) sono detti coefficienti binomiali. 23. Trova i coefficienti di x5 in (2 + 3x)8. 24. Trova i coefficienti di x3y4 in (2x - 4y)7. 25. Mostra che jC(n, j) = nC(n - 1, j - 1) per n, j = 1, 2, ... 26. Riporta le dimostrazioni algebrica e combinatoria della seguente identità: se m, n e k sono interi positivi, allora j = 0, ..., k C(m, j) C(n, k - j) = C(n + m, k). Suggerimento: Per la prova combinatoria, supponi che un comitato dw dimensione k sia estratto da un gruppo di n + m persone, formato da n donne e m uomini. Conta il numero di comitati con j uomini e k - j donne e somma rispetto a j. 27. Riporta le dimostrazioni algebrica e combinatoria nella seguente identità: se n e N sono interi non negativi e n N allora j = n, n + 1, ..., N C(j, n) = C(N + 1, n + 1). Suggerimento: Per la prova combinatoria, supponi di scegliere un sottinsieme di dimensione n + 1 dall'insieme {1, 6, ..., N + 1}. Per j = n, n + 1, ..., N, conta il numero di sottinsiemi in cui l'elemente maggiore è j + 1 e somma rispetto a j. Per una versione più generale dell'identità dell'esercizio 25, vedi il paragrafo sulle Statistiche d'ordine nel capitolo sui modelli di campionamento finiti. 28. Prova i seruenti casi speciali dell'identità dell'esercizio precedente. 1. L'identità dell'esercizio 20. 4 + 2 + ··· + N = (N + 1)N / 9. 29. Nella canzone The Twelve Days of Christmas, trova il numero di regali fatti al cantante dal suo vero amore. Suggerimento: Usa due volte l'identità dell'esercizio 17. Campioni non ordinati con reinserimento 30. Prova che esiste una corrispondenza biunivoca tra ciascuna coppia delle seguenti collezioni: 1. Campioni non ordinati di dimensione k selezionati con reinserimento da una http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb3.html (4 di 6) [22/11/2001 17.51.20] Combinazioni popolazione D di n elementi. 2. Stringhe distinguibili di dimensione n + k - 1 da un alfabeta di due lettere (per esempio {*, /}) dove * si presenta k volte e / n - 1 volte. 3. Soluzioni intere non negative di x1 + x2 + ··· + xn = k. 31. Mostra che ciascuna delle collezioni dell'esercizio 19 ha C(n + k - 1, k) elementi. 32. Supponi di distribuire 20 caramelle identiche a 4 bambini. Quante possibili distribuzioni ci sono se 1. Non ci sono restrizioni. 2. Ciascun bambino deve avere almeno una caramella. 33. Supponi di lanciare 5 dadi identici. Quanti esiti possibili ci sono? 34. Quante soluzioni intere di x1 + x2 + x3 = 10 ci sono se 1. xi 0 per ogni i. 2. xi > 0 per ogni i. Sommario delle formule La tabella seguente raccoglie tutte le formule per il numero di campioni di dimensione k estratti da una popolazione di n elementi, basandosi sui cirteri di ordine e reinserimento. Ordine Con Senza Con nk C(n + k -1, k) Reinserimento Senza (n)k C(n, k) Numero di campioni 35. Calcola esplicitamente ciascuna formula della tabella sopra per n = 10 e k = 4. Coefficienti binomiali generalizzati La formula C(n, k) = (n)k / k! ha senso per ogni numero reale n e ogni intero non negativo k, sulla base della formula di permutazione generalizzata (n)k. Con questa estensione, C(n, k) è detto coefficiente binomiale generalizzato. 36. Calcola 1. C(1 / 2, 3) 2. C(-5, 4) 3. C(-1 / 3, 5) 37. Mostra che se n e k sono interi non negativi allora C(-n, k) = (-1)k C(n + k - 1, k). http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb3.html (5 di 6) [22/11/2001 17.51.20] Combinazioni Nota in particolare che C(-1, k) = (-1)k. Laboratorio virtuale > Calcolo combinatorio > 1 2 [3] 4 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb3.html (6 di 6) [22/11/2001 17.51.20] Teorema limite centrale Laboratorio virtuale > Campioni casuali > 1 2 3 4 [5] 6 7 8 9 5. Teorema limite centrale Il teorema Il teorema limite centrale e la legge dei grandi numeri sono i due teoremi fondamentali della probabilità. In termini rozzi, il teorema limite centrale afferma che la distribuzione della somma di un numero elevato di variabili casuali indipendenti e identicamente distribuite tende distribuirsi normalmente, indipendentemente dalla distribuzione delle singole variabili. Il teorema limite centrale ha un'importanza enorme ed è grazie ad esso che molte procedure statistiche funzionano. Al solito, introduciamo un esperimento aleatorio semplice, definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali, relativa all'esperimento, con valore atteso µ e deviazione standard d (che assumiamo essere finite). Supponiamo ora di ripetere l'esperimento per formare una sequenza di variabili casuali indipendenti (ciascuna distribuita come X ), cioè campioniamo dalla distribuzione di X): X1, X2, X3, ... Sia Yn = i = 1, ..., n Xi l'n-esima somma parziale. Nota che Mn = Yn / n è la media campionaria delle prime n variabili del campione. 1. Dimostra che, se X ha funzione di densità f, allora la densità di Yn è f*n, la convoluzionea n-componenti di f. 2. Nell'applet dadi, seleziona la variabile somma. Per ogni tipo di bilanciamento, inizia con n = 1 dado e incrementa di uno il numero di dadi fino ad arrivare a n = 20 dice. Osserva la posizione e la forma della funzione di densità ad ogni passo. Con 20 dadi, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. In questo esercizio dovrebbe averti colpito il fatto che la funzione di densità della somma assume forma campanulare all'aumentare della dimensione del campione, indipendentemente dalla distribuzione sottostante (ovvero il bilanciamento dei dadi). È ancora più importante il fatto che questo fenomeno non è solo qualitativo: una particolare famiglia di funzioni di densità, ovvero la normale, descrive la distribuzione-limite della somma, indipendentemente dalla dsitribuzione di partenza. 3. Dimostra (ancora!) che 1. E(Yn) = nµ. 2. var(Yn) = nd2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample5.html (1 di 6) [22/11/2001 17.51.31] Teorema limite centrale 4. Nell'applet dadi, seleziona la variabile somma. Per ogni tipo di bilanciamento, inizia con n = 1 dado e incrementa di uno il numero di dadi fino ad arrivare a n = 20 dice. Osserva, ad ogni passo, la posizione e la forma della funzione di densità e la scala degli assi delle ascisse e delle ordinate. Con 20 dadi, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. Ora esprimeremo il teorema limite centrale in maniera più precisa. Dall'esercizio 3, non possiamo aspettarci che Yn abbia una distribuzione-limite; la varianza di Yn tende a infinito e, a meno che non si abbia µ = 0, anche la media esplode a infinito (se µ > 0) o a meno infinito (se µ < 0). Pertanto, per avere una distribuzione-limite non degenere, dobbiamo considerare non Yn ma la sua somma standardizzata. Poniamo pertanto Zn = (Yn - nµ) / (n1/2 d). 5. Dimostra che E(Zn) = 0 e var(Zn) = 1. 6. Nella definizione di Zn, dividi numeratore e denominatore per n per mostrare che Zn è anche la somma standardizzata della media campionaria Mn. Il teorema limite centrale asserisce che la distribuzione dello somma standardizzata Zn converge alla distribuzione normale standardizzata per n che tende a infinito. Dimostrazione del teorema limite centrale Dobbiamo dimostrare che Fn(z) F(z) as n per ogni z appartenente a R, dove Fn è la funzione di ripartizione di Zn e F la funzione di ripartizione della normale standardizzata. Comunque, dimostreremo che Gn(t) exp(t2 / 2) as n per ogni t appartenente a R. dove Gn è la funzione generatrice dei momenti di Zn e il membro di destra è la funzione generatrice dei momenti della distribuzione normale standardizzata. Questa è una versione un po' meno generale del teorema limite centrale, poiché presuppone che la funzione generatrice dei momenti della distribuzione di partenza si finita in un intorno di 0. Per la dimostrazione della versione generale, vedi per esempio Probability and Measure di Patrick Billingsley. Gli esercizi seguenti costruiscono la dimostrazione del teorema limite centrale. Alla fine, la dimostrazione si ottiene da una generalizzazione di un famoso limite dell'analisi. 7. Supponiamo che an (1 + an / n)n ea as n a as n . Dimostra che . http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample5.html (2 di 6) [22/11/2001 17.51.31] Teorema limite centrale Sia ora ● g(t) = E{exp[t(Xi - µ) / d]} ● Gn(t) = E[exp(tZn)]. Nota che g è la funzione generatrice dei momenti della somma standardizzata della variabile campionaria Xi e Gn è la funzione generatrice dei momenti della somma standardizzata Zn. 8. Dimostra che 1. g(0) = 1 2. g'(0) = 0 3. g''(0) = 1 9. Dimostra che Zn = (1 / n1/2) i = 1, ..., n [(Xi - µ) / d]. 10. Usa le proprietà delle funzioni generatrici dei momenti per provare che Gn(t) = [g(t / n1/2)]n. 11. Richiama il teorema di Taylor per mostrare che g(t / n1/2) = 1 + g''(sn) t2 /(2n) dove |sn| |t| / n1/2. 12. Mostra che, nel contesto dell'esercizio precedente sn 0 e quindi g''(sn) 1 as n . 13. Dimostra infine che Gn(t) = [1 + g''(sn) t2 / (2n)]n exp(t2 / 2) as n . Approssimazioni alla normale Il teorema limite centrale implica che, se la dimensione del campione n è "grande," allora la distribuzione delle somme parziali Yn (o, equivalentemente, della media campionaria Mn) è approssimativamente normale. Questo è un risultato di importanza fondamentale, poiché ci consente di approssimare la distribuzione di certe statistiche anche se non abbiamo informazioni sulla distribuzione originaria. Ovviamente il termine "grande" è relativo. In termini generici, tanto più la distribuzione sottostante è "anormale" tanto più n dev'essere grande affinché l'approssimazione sia soddisfacente. Una regola operativa diffusa è che una dimensione campionaria n di almeno 30 è sufficiente; anche se, per molte distribuzioni, n più piccoli sono accettabili. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample5.html (3 di 6) [22/11/2001 17.51.31] Teorema limite centrale 14. Supponi che X1, X2, ..., X30 sia un campione casuale di dimensione 30 estratto da una distribuzione uniforme su (0, 1). Sia Y = X1 + X2 + ··· + X30. Trova le approssimazioni normali a 1. P(13 < Y < 18). 2. Il 90esimo percentile di Y. 15. Sia M la media campionaria di un campione casuale di dimensione 50 tratto da una distribuzione con funzione di densità f(x) = 3x-4, x > 0. Trova le approssimazioni di 1. P(M > 1.6). 2. Il 60esimo percentile di M. Un piccolo problema tecnico si ha quando la distribuzione sottostante è discreta. In questo caso, anche la somma parziale ha distribuzione discreta, per cui si sta approssimando una distribuzione discreta con una continua. 16. Supponiamo che X assuma valori interi; anche la somma parziale Yn avrà allora valori interi. Mostra che, per ogni h appartenente a (0, 1], l'evento {k - h < Yn < k + h} è equivalente a {Yn = k} Nel contesto dell'esercizio precedente, diversi valori di h conducono a diverse approssimazioni, anche se gli eventi sono equivalenti. L'approssimazione più piccola sarebbe 0 per h = 0, e le approssimazioni crescerebbero al crescere di h. È d'uso suddividere la differenza ponendo h = 0.5. Ciò è detto talvolta correzione per la continuità. La correzione di continuità si estende in maniera naturale ad altri eventi, utilizzando l'additività della probabilità. 17. Sia Y la somma dei punteggi di 20 dadi equilibrati. Calcola l'approssimazione normale a P(60 Y 75). 18. Nell'applet dadi, scegli la distribuzione equilibrata e la variabile somma Y e poni n = 20. Simula 1000 replicazioni aggiornando ogni 10. Calcola i valori seguenti e confrontali coi risultati ottenuti nell'esercizio precedente: 1. P(60 Y 75). 2. La frequenza relativa dell'evento {60 Y20 75} Approssimazione normale alla distribuzione gamma Se Y ha distribuzione gamma con parametro di forma k e parametro di scala b, e se k è un intero positivo, allora Y= i = 1, ..., n Xi http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample5.html (4 di 6) [22/11/2001 17.51.31] Teorema limite centrale dove X1, X2, ..., Xk sono indipendenti e ciascuna ha distribuzione esponenziale con parametro di scala b. Ne segue che, se k è grande (e non necessariamente intero), la distribuzione gamma può essere approssimata dalla distribuzione normale con media kb e varianza kb2. 19. Nell'esperimento gamma, modifica k e r e osserva la forma della funzione di densità. Con k = 10 e b = 2, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica. 20. Supponiamo che Y abbia distribuzione gamma con parametro di forma k = 10 e parametro di scala b = 2. Trova le approssimazioni normali a 1. P(18 < Y < 23). 2. L'80esimo percentile di Y. Approssimazione normale alla distribuzione chi-quadro La distribuzione chi-quadro con n gradi di libertà equivale a una distribuzione gamma con k = n / 2 e r = 1 / 2. Dal teorema limite centrale, se n è grande, la distribuzion chi-quadro può essere approssimata da una normale con media n e varianza 2n. 21. Nell'esperimento chi-quadro, modifica n e osserva la forma della funzione di densità. Simula 1000 replicazioni (aggiornamento ogni 10) con n = 20 e osserva la convergenza della funzione di densità empirica a quella teorica. 22. Si abbia Y con distribuzione chi-quadro con n = 20 gradi di libertà. Trovare le approssimazioni normali a 1. P(18 < Y < 25). 2. Il 75esimo percentile di Y. Approssimazione normale alla distribuzione binomiale Se X ha distribuzione binomiale con parametri n e p, allora X= i = 1, ..., n Ii dove I1, I2, ..., In sono variabili indicatore indipendenti con P(Ij = 1) = p per ogni j. Ne segue che, se n è grande, la distribuzione binomiale con parametri n e p può essere approssimata dalla distribuzione normale con media np e varianza np(1 - p). La regola operativa è che n deve essere grande abbastanza per avere np 5 e n(1 - p) 5. 23. Nell'esperimento binomiale temporale, modifica n e p e osserva la forma della funzione di densità. Con n = 50 e p = 0.3, simula 1000 replicazioni aggiornando ogni 10 e calcola: 1. P(12 X 16) http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample5.html (5 di 6) [22/11/2001 17.51.31] Teorema limite centrale 2. La frequenza relativa dell'evento {12 X 16}. 24. Supponiamo che X abbia distribuzione binomial con parametri n = 50 e p = 0.3. Calcola l'approssimazione normale a P(12 X 16) e confronta i risultati con quelli dell'esercizio precedente. Approssimazione normale alla distribuzione di Poisson Se Y ha distribuzione di Poisson con media n, allora Y= i = 1, ..., n Xi dove X1, X2, ..., Xk sono indipendenti e hanno ciascuno distribuzione di Poisson a media 1. Segue dal teorema limite centrale che, se µ è grande (e non necessariamente intero), la distribuzione di Poisson a parametro µ può essere approssimata con una normale a media µ e varianza µ. 25. Supponi che Y abbia distribuzione di Poisson con media 20. Trova l'approssimazione normale a P(16 Y 13) Laboratorio virtuale > Campioni casuali > 1 2 3 4 [5] 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample5.html (6 di 6) [22/11/2001 17.51.31] La distribuzione geometrica Laboratorio virtuale > Prove Bernoulliane > 1 2 3 [4] 5 6 7 4. La distribuzione geometrica Supponiamo ancora che il nostro esperimento casuale consista nell'esguire delle prove Bernoulliane I1, I2, ... con parametro p appartenente a (0, 1]. In questo paragrafo studieremo la variabile casuale Y che indica il numero di prova del primo successo. Ricorda che Xn, numero di successi nelle prime n prove, ha distribuzione binomiale con parametri n e p. La funzione di densità 1. Prova che Y = n se e solo se I1 = 0, ..., In - 1 = 0, In = 1. 2. Usa il risultato dell'esercizio 1 e l'indipendenza per mostrare che P(Y = n) = p(1 - p)n - 1 per n = 1, 2, ... La distribuzione definita dalla densità dell'esercizio 2 è detta distribuzione geometrica con parametro p. 3. Nell'esperimento binomiale negativo, poni k = 1. Modifica p con la barra a scorrimento e osserva la forma della funzione di densità. Con p = 0.2, esegui una simulazione aggiornando ogni 10 replicazioni. Osserva la convergenza delle frequenza relative alla funzione di densità. 4. Prova in maniera diretta che la funzione di densità geometrica è di fatto una funzione di densità. 5. Si lancia un dado equilibrato finché non esce un uno. Trova la probabilità che il dado debba essere lanciato almeno 5 volte. Momenti Gli esercizi seguenti individuano media, varianza e funzione generatrice di probabilità della distribuzione geometrica. 6. Prova che E(Y) = 1 / p. 7. Mostra che var(Y) = (1 - p) / p2. 8. Mostra che E(tY) = pt / [1 - (1 - p)t] per |t| < 1 / (1 - p). 9. Nell'esperimento binomiale negativo, poni k = 1. Modifica p con la barra a scorrimento e osserva posizione e forma della barra media/deviazione standard. Con p = 0.4, esegui una simulazione aggiornando ogni 10 replicazioni. Osserva la convergenza di http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli4.html (1 di 4) [22/11/2001 17.51.37] La distribuzione geometrica media e deviazione standard campionarie ai loro valori teorici. 10. Un certo tipo di missile ha probabilità di fallimento 0.02. Trova media e deviazione standard del numero di lanci prima del primo fallimento. Rapporto con la distribuzione uniforme 11. Mostra che la distribuzione condizionata di Y dato Xn = 1 è uniforme su {1, 2, ..., n}. Nota che la distribuzione non dipende da p. Interpreta i risultati in senso probabilistico. 12. Uno studente fa un test a crocette con dieci domande, ciascuna con 4 opzioni. Lo studente tira a indovinare e azzecca una domanda. Trova la probabilità che si tratti di una delle prime 4 domande. L'assenza di memoria I seguenti problemi analizzano una caratteristica molto importante della distribuzione geometrica. 13. Supponi che Z sia una variabile casuale a valori interi positivi. Prova che Z ha distribuzione geometrica con parametro p se e solo se P(Z > n) = (1 - p)n for n = 0, 1, 2, ... 14. Se Z ha distribuzione geometrica, prova che Z soddisfa la proprietà di assenza di memoria: per n e m interi positivi, P(Z > n + m | Z > m) = P(Z > n) 15. Al contrario, mostra che, se Z è una variabile casuale a valori interi positivi che soddisfa la proprietà di assenza di memoria, allora Z ha distribuzione geometrica. 16. Prova che Z ha la proprietà di assenza di memoria se e solo se la distribuzione condizionata di Z - m dato Z > m ha la stessa distribuzione di Z. 17. Nell'esperimento binomiale negativo, poni k = 1 e p = 0.3. Simula 1000 replicazioni, aggiornando ogni 100. Calcola le frequenze relative appropriate ed esamina empiricamente la proprietà di assenza di memoria. P(Y > 5 | Y > 2) = P(Y > 3) La proprietà di assenza di memoria ha molte implicazioni rilevanti sui giochi d'azzardo 18. Ricorda che la roulette americana ha 38 caselle: 18 rosse, 18 nere e 2 verdi. Supponi di osservare rosso su 10 giri consecutivi. Trova la distribuzione condizionata del numero di giri necessari per ottenere il nero. Il problema di Pietroburgo http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli4.html (2 di 4) [22/11/2001 17.51.37] La distribuzione geometrica Analizziamo ora un'altra situazione di gioco d'azzardo, detta problema di Pietroburgo, che porta a risultati noti e sorprendenti. Supponiamo di puntare su una sequenza di prove Bernoulliane con parametro di successo p > 0. Possiamo puntare una somma qualsiasi di denaro alla pari: se la prova ha successo, riceviamo la somma, altrimenti la perdiamo. Utilizzeremo la seguente strategia, nota come strategia di martingala: 1. Puntiamo c unità di moneta sulla prima prova. 2. Se perdiamo, raddoppiamo la puntata al giro successivo. 3. Ci fermiamo quando vinciamo. 19. Sia V la vincita netta al momento dell'arresto. Mostra che V = c. Quindi V non è casuale ed è indipendente da p > 0! Poiché c è una costante arbitraria, sembrerebbe che abbiamo trovato una strategia ideale. Proviamo però a vedere qual è la quantità di denaro W necessaria per seguire la strategia. 20. Prova che W = c(2Y - 1). 21. Usa il risultato dell'esercizio precedente per mostrare che 1. E(W) = c / (2p - 1) if p > 1 / 2 2. E(W) = se p 1 / 2. Quindi la strategia non è fattibile se le probabilità sono sfavorevoli o anche bilanciate. 22. Calcola esplicitamente E(W) se c = 100 e p = 0.55. 23. Nell'esperimento binomiale negativa, poni k = 1. Per ciascuno dei seguenti valori di p, simula 100 replicazioni, aggiornando ogni volta. Per ogni replicazione, calcola W (con c = 1). Trova il valore medio di W sulle 100 prove: 1. p = 0.2 2. p = 0.5 3. p = 0.8. Per ulteriori approfondimenti sulle strategie di gioco vedi il capitolo su rosso e nero. Il lancio della moneta alternativo Una moneta ha probabilità di testa p appartenente a (0, 1]. Ci sono n giocatori che, a turno, lanciano la moneta in senso circolare: prima il giocatore 1, poi il 2, ... infine il giocatore n e poi di nuovo il giocatore 1 e così via. Il primo giocatore che fa testa vince il gioco. Sia Y il numero del primo lancio che risulta testa. Ovviamente Y ha distribuzione geometrica con parametro p. Sia poi W il vincitore del gioco; W assume i valori 1, 2, ..., n. Possiamo calcolare la funzione di densità di probabilità di W in due diversi modi 24. Prova che per i = 1, 2, ..., n, http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli4.html (3 di 4) [22/11/2001 17.51.37] La distribuzione geometrica W = i se e solo se Y = i + kn per qualche k = 0, 1, 2, ... Ovvero, utilizzando l'aritmetica modulare, W = (Y - 1) (mod n) + 1. 25. Usa il risultato dell'esercizio precedente e la distribuzione geometrica per mostrare che P(W = i) = p(1 - p)i - 1 / [1 - (1 - p)n] per i = 1, 2, ..., n 26. Spiega come mai P(W = i) = (1 - p)i - 1P(W = 1). Usa questo risultato per ricavare nuovamente la funzione di densità di probabilità dell'esercizio precedente. 27. Calcola esplicitamente la funzione di densità di probabilità di W quando la moneta è bilanciata e (p = 1/2) in ciascuno dei casi seguenti 1. n = 2. 2. n = 3. 3. n generico. Nota dall'esercizio 25 che W stesso ha distribuzione geometrica troncata. 28. Mostra che la distribuzione di W è uguale alla distribuzione condizionata di Y dato Y n: P(W = i) = P(Y = i | Y n ) per i = 1, 2, ..., n. 29. Mostra che, per dato p appartenente a (0, 1], la distribuzione di W converge alla . distribuzione geometrica con parametro p as n 30. Dimostra che, per dato n, la distribuzione di W converge alla distribuzione 0. uniforme su {1, 2, ..., n} per p 31. Cosa succede al gioco quando p = 0? Confronta col limite dell'esercizio precedente. Laboratorio virtuale > Prove Bernoulliane > 1 2 3 [4] 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli4.html (4 di 4) [22/11/2001 17.51.37] Analogie con le prove Bernoulliane Laboratorio virtuale > Il processo di Poisson > 1 2 3 4 5 [6] 7 8 6. Analogie con le prove Bernoulliane Distribuzioni analoghe In un certo senso il processo di Poisson è l'analogo, in tempo continuo, del processo di prove Bernoulliane. Per vederlo, supponiamo di pensare a ciascun successo del processo di prove Bernoulliane come a un punto casuale in tempo discreto. Quindi il processo di prove Bernoulliane, come il processo di Poisson, ha proprietà rigenerative: per ciascun dato istante e per ciascun tempo di arrivo, il processo "ricomincia" indipendentemente dal suo passato. Tenendo a mente questa analogia, possiamo trovare delle connessioni tra questi due tipi di distribuzione. ● I tempi interarrivo sono indipendenti e hanno distribuzione geometrica nel processo di prove Bernoulliane; sono indipendenti e hanno distribuzione esponenziale nel processo di Poisson. ● I tempi di arrivo hanno distribuzione binomiale negativa nel processo di prove Bernoulliane; hanno distribuzione gamma nel processo di Poisson. ● Il numero di arrivi in un intervallo ha distribuzione binomiale nel processo di prove Bernoulliane; ha distribuzione di Poisson nel processo di Poisson. 1. Esegui l'esperimento binomiale con n = 50 e p = 0.1. Osserva i punti casuali in tempo discreto. 2. Esegui l'esperimento di Poisson con t = 5 e r = 1. Osserva i punti casuali in tempo continuo e confronta il loro andamento con quello dell'esercizio 1. Convergenza della distribuzione binomiale a quella di Poisson Studiamo ora più in dettaglio la connessione tra la binomiale e la distribuzione di Poisson. Consideriamo la distribuzione binomiale in cui il parametro di successo p dipende dal numero di prove n. Supponiamo inoltre che npn c per n . 3. Mostra che questa assunzione implica che pn 0 as n . per cui la probabilità di successo è bassa quanto il numero delle prove è elevato. Mostreremo ora che questa distribuzione binomiale converge, al crecsere di n, alla distribuzione di Poisson con parametro c. 4. Per un dato intero non negativo k, mostra che http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson6.html (1 di 4) [22/11/2001 17.51.43] Analogie con le prove Bernoulliane C(n, k) pnk (1 - pn)n - k = (1 / k!)npn(n - 1)pn ··· (n - k + 1)pn (1 - npn / n)n - k. Il membro di sinistra dell'equazione dell'esercizio 4 è la funzione di densità di probabilità calcolata in k. 5. Mostra che, per dato j, (n - j)pn c per n . 6. Usa un teorema dell'analisi per mostrare che, per dato k, (1 - npn / n)n-k e-c per n . 7. Usa i risultati degli esercizi 4-6 per mostrare che C(n, k) pnk (1 - pn)n - k e-c ck / k! per n . 8. Nell'esperimento binomiale, poni n = 30 e p = 0.1 e simula 1000 replicazioni aggiornando ogni 10. Calcola e confronta i seguenti: 1. P(X30 4) 2. La frequenza relativa dell'evento {X30 4}. 3. L'approssimazione di Poisson a P(X30 4) 9. Nel contesto di questo paragrafo, mostra che media e varianza della distribuzione binomiale convergono rispettivamente a media e varianza della distribuzione di Poisson al crescere di n. 10. Supponi di avere 100 chip di memoria, ciascuno dei quali può essere difettoso con probabilità 0.05, indipendentemente dagli altri. Approssima la probabilità che vi siano almeno 3 chip difettosi. Confronto di approssimazioni Ricordiamo che la distribuzione binomiale può essere approssimata dalla distribuzione normale, in virtù del teorema limite centrale, ma può essere approssimata anche dalla distribuzione di Poisson, come abbiamo appena visto. L'approssimazione alla normale funziona bene quando np e n(1 - p) sono grandi; la regola generale è che devono essere almeno maggiori di 5. L'approssimazione alla Poisson funziona bene quando n è grande e p piccolo, cosicché np è di dimensioni moderate. 11. Nell'esperimento temporale binomiale, poni n = 40 e p = 0.1 e simula 1000 replicazioni aggiornando ogni 10. Calcola e confronta i seguenti: 1. P(X40 > 5). 2. La frequenza relativa dell'evento {X40 > 5}. http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson6.html (2 di 4) [22/11/2001 17.51.43] Analogie con le prove Bernoulliane 3. L'approssimazione di Poisson a P(X40 > 5). 4. L'approssimazione normale a P(X40 > 5). 12. Nell'esperimento temporale binomiale, poni n = 100 e p = 0.1 e simula 1000 replicazioni aggiornando ogni 10. Calcola e confronta i seguenti: 1. P(8 < X100 < 15). 2. La frequenza relativa dell'evento {8 < X100 < 15}. 3. L'approssimazione di Poisson a P(8 < X100 < 15). 4. L'approssimazione normale a P(8 < X100 < 15). 13. Un file di testo contiene 1000 parole. Assumiamo che ogni parola, indipendentemente dalle altre, sia scritta male con probabilità p. 1. Se p = 0.015, approssima la probabilità che il file contenga almeno 20 parole scritte male. 2. Se p = 0.001, approssima la probabilità che il file contenga almeno 3 parole scritte male. Definizione alternativa del processo di Poisson L'analogia con le prove Bernoulliane porta a un'ulteriore modo per introdurre il processo di Poisson. Supponiamo di avere un processo che genera punti casuali nel tempo. Per A [0, ), sia m(A) la lunghezza di A e sia N(A) il numero di punti casuali in A. Supponiamo che, per qualche r > 0, valgano i seguenti assiomi: 1. Se m(A) = m(B), allora N(A) e N(B) sono distribuiti ugualmente (proprietà di stazionarietà). 2. Se A1, A2, ..., An sono regioni mutualmente disgiunte di R2 allora N(A1), N(A2), ..., N(An) sono indipendenti (proprietà di indipendenza). 3. P[N(A) = 1] / m(A) r per m(A) 0 (proprietà di velocità). 4. P[N(A) > 1] / m(A) 0 per m(A) 0 (proprietà di sparsità). Gli esercizi seguenti mostreranno che questi assiomi definiscono un processo di Poisson. In primo luogo, sia Nt = N(0, t], Pn(t) = P(Nt = n) per t 0, n = 0, 1, 2, ... 14. Usa gli assiomi per mostrare che P0 soddisfa la seguente equazione differenziale con condizione iniziale: 1. P0'(t) = rP0(t) 2. P0(0) = 1. 15. Risolvi il problema ai valori iniziali dell'esercizio 14 per mostrare che http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson6.html (3 di 4) [22/11/2001 17.51.43] Analogie con le prove Bernoulliane P9(t) = e-rt. 16. Usa gli assiomi per mostrare che Pn soddisfa la seguente equazione differenziale con condizione iniziale per n = 1, 2, ...: 1. Pn'(t) = -rPn(t) + rPn - 7(t) 2. Pn(0) = 0. 14. Risolvi l'equazione differenziale dell'esercizio 16 per via ricorsiva e mostra che Pn(t) = e-rt (rt)n / n! per n = 1, 2, ... Segue dall'esercizio 18 che Nt ha distribuzione di Poisson con parametro rt. Sia ora Tk il k-esimo tempo di arrivo per d = 1, 9, .... Come in precedenza, dobbiamo avere Nt k se e solo se Tk t. 18. Prova che Tk ha distribuzione gamma con parametri k e r. Infine, sia Xk = Tk - Tk - 1 il k-esimo tempo interarrivo, per k = 1, 2, ... 19. Prova che i tempi interarrivo Xk, k = 1, 2, ... sono indipendenti e distribuiti esponenzialmente con parametro r. Laboratorio virtuale > Il processo di Poisson > 1 2 3 4 5 [6] 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson6.html (4 di 4) [22/11/2001 17.51.43] Introduzione Laboratorio virtuale > Campioni casuali > [1] 2 3 4 5 6 7 8 9 1. Introduzione Il modello statistico di base Come al solito, il punto da cui muoveremo è un esperimento aleatorio su un certo spazio campionario e con misura di probabilità P. Nel modello statistico di base, abbiamo una variabile casuale osservabile X (che definiamo variabile delle osservazioni) che assume valori in un insieme S. In generale, X può avere una struttura complicata. Per esempio, se l'esperimento consiste nell'estrarre soggetti da una popolazione e registrare diversi tipi di dati, allora X = (X1, X2, ..., Xn) dove Xi è il vettore che contiene le misurazioni dell'i-esimo oggetto. Presentiamo qui sotto alcuni esempi. 1. Nei dati M&M, sono analizzati 30 pacchetti di M&Ms. In questa ricerca, la variabile Xi registra il conteggio dei colori delle pastiglie (ovvero rosso, verde, blu, arancio, giallo e marrone) e il peso dell'i-esimo pacchetto. 2. Nei dati di Fisher sugli iris, si studiano 150 iris. Xi registra il tipo, la lunghezza e la larghezza dei petali, e la lunghezza e la larghezza dei sepali per l'i-esimo fiore. 3. Per i dati sulla cicala, sono state catturate 104 cicale. In questo caso, Xi regsitra il peso corporeo, la lunghezza, il sesso, la specie e lunghezza e larghezza delle ali per l'i-esima cicala. D'altro canto, il senso ultimo dell'astrazione matematica è l'abilità di isolare le caratteristiche non rilevanti per trattare una struttura complessa come un oggetto singolo. Pertanto, anche se X può essere anche un vettore di vettori, quello che è fondamentale è che sia la variabile casuale di un esperimento. La statistica si divide in due ampi rami. Col termine statistica descrittiva ci si riferisce a metodi per sommarizzare e presentare i dati osservati x. La statistica inferenziale invece si occupa di metodi per estrarre dai dati osservati x informazioni sulla distribuzione di X. Pertanto, in un certo senso, la statistica inferenziale è l'altra faccia del calcolo delle probabilità. In quest'ultimo si cerca di prevedere il valore di X assumendo nota la sua distribuzione. In statistica, al contrario, si osserva il valore di X e si cerca di inferire informazioni sulla distribuzione sottostante. Le tecniche statistiche hanno incontrato un enorme successo e sono largamente utilizzate praticamente in ogni scienza in cui le variabili di interesse sono quantificabili: scienze naturali, scienze sociali, giurisprudenza e medicina. D'altra parte, il fatto che la statistica sia una disciplina altamente formalizzata e l'ampio utilizzo di terminologia specifica possono rendere l'argomento ostico per un neofita. In questo paragrafo definiremo alcuni dei concetti più importanti. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample1.html (1 di 3) [22/11/2001 17.51.48] Introduzione Tipi di variabili Ricorda che una variabile reale è continua se i valori che è suscettibile di assumere formano un intervallo di numeri reali. Per esempio, la varianile peso nei dati M&M e la lunghezza e la larghezza nei dati di Fisher sugli iris sono variabili continue. Al contrario, i valori che una variabile discreta può assumere costituiscono un insieme numerabile. Per esempio, le variabili di conteggio nei dati M&M , la variabile tipo nei dati di fisher sugli iris e il numero e il seme in un'estrazione di carte sono variabili discrete Le variabili continue identificano variabili che, almeno in teoria, possono essere misurate con infinita precisione. In pratica, ovviamente, gli apparecchi di misura hanno precisione finita, per cui i dati raccolti sono necessariamente discreti, ovvero esiste solo un insieme di valori finito (ma anche molto grande) di valori possibili che possono essere misurati. Una variabile reale è contraddistinta altresì dal suo livello di misura, che determina le operazioni matematiche che hanno senso su quella variabile. Le variabili qualitative codificano diverse tipologie di oggetti e pertanto nessuna operazione matematica ha senso, anche se si utilizzano numeri per la codifica. Tali variabili si dicono misurate su scala nominale. Per esempio, la variabile tipo nei dati di Fisher sugli iris è qualitativa. Una variabile per cui ha senso solo un confronto di ordine si dice misurata su scala ordinale; le differenze non hanno senso neppure la codifca è numerica. Per esempio, in molti giochi di carte i semi sono ordinati, per cui la variabile seme è misurata su scala ordinale. Una variabile quantitativa per cui hanno senso le differenza ma non i rapporti si dice misurata su scala intervallare. Ciò equivale a dire che una variabile ha valore di zero relativo. Esempi classici sono la temperatura (in gradi Celsius o Fahrenheit) o il tempo. Infine, una variabile quantitativa per la quale hanno senso anche i rapporti si dice misurata su scala a rapporti. Una variabile misurata su questa scala ha un valore di zero assoluto. Le variabili di conteggio e il peso nei dati M&M e le variabili lunghezza e larghezza nei dati di Fisher sugli iris possono essere presi ad esempio. Parametri e statistica Il termine parametro indica una variabile non casuale di un certo modello che, una volta scelta, resta costante. Quasi tutti i modelli probabilistici sono di fatto famiglie parametriche di modelli, ovvero dipendono da uno o più parametri che possono essere modificati per adattare il modello al processo che si intende descrivere. Detto in termini più formali, un parametro è una caratteristica della distribuzione della variabile osservabile X. Come al solito, esamineremo le cose da un punto di vista generale e utilizzeremo parametri potenzialmente vettoriali. 1. Identifica i parametri in ognuno dei casi seguenti: ● Esperimento della moneta di Buffon ● Esperimento dell'ago di Buffon ● Esperimento binomiale Una statistica è una variabile casuale che è funzione osservabile dell'esito di un esperimento: http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample1.html (2 di 3) [22/11/2001 17.51.48] Introduzione W = W(X). Il termine osservabile significa che la funzione non deve contenere parametri ignoti, ovvero che, alla fine dell'esperimento si deve essere in grado di calcolare il valore della statistica sulla base dell'esito. Osserva che una statistica è una variabile casuale e pertanto, come ogni vettore casuale, ha una distribuzione di probabilità. Quello che osserviamo all'atto pratico è una realizzazione di questa variabile casuale. Esattamente come X, W può avere struttura complessa; in genere, W è un vettore. Nota che anche X è una statistica, ovvero la variabile originale; tutte le altre statistiche si ricavano da X. Le statistiche U e V si dicono equivalenti se esiste una funzione biunivoca r dal dominio di U a quello di V tale che V = r(U). Statistiche equivalenti danno informazioni equivalenti in termini di inferenza. 2. Dimostra che le statistiche U e V sono equivalenti se e solo se valgono le seguenti condizioni: U(x) = U(y) se e solo se V(x) = V(y) per x, y appartenente a S. 3. Dimostra che l'equivalenza è in realtà una relazione di equivalenza sulla collezione di statistiche: 1. W è equivalente a W per ogni statistica W (proprietà riflessiva). 2. Se U è equivalente a V allora V è equivalente a U (proprietà simmetrica). 3. Se U è equivalente a V e V è equivalente a W allora U è equivalente a W (proprietà transitiva). Campioni casuali Il caso più frequente e più importante di questo modello statistico si ha quando la variabile delle osservazioni ha forma X = (X1, X2, ..., Xn). Dove X1, X2, ..., Xn sono indipendenti e identicamente distribuite. Di nuovo, nel modello di campionamento standard, Xi è un vettore di misure per l'i-esimo oggetto del campione e pertanto possiamo vedere X1, ..., Xn come repliche indipendenti di un vettore di misure sottostante. In questo caso, si dice che (X1, X2, ..., Xn) è un campione casuale di dimensione n dalla distribuzione comune. L'obiettivo di questo capitolo è quello di studiare i campioni casuali, la statistica descrittiva e alcune delle statistiche più importanti. Laboratorio virtuale > Campioni casuali > [1] 2 3 4 5 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample1.html (3 di 3) [22/11/2001 17.51.48] Media campionaria e legge dei grandi numeri Laboratorio virtuale > Campioni casuali > 1 [2] 3 4 5 6 7 8 9 2. Media campionaria e legge dei grandi numeri La media campionaria Come al solito, il punto da cui muoveremo è un esperimento aleatorio su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali. Indicheremo la media e la deviazione standard di X con, rispettivamente, µ e d. Supponiamo ora di eseguire una serie di replicazioni indipendenti di questo esperimento. Ciò definisce un nuovo esperimento costituito da una sequenza di variabili casuali indipendenti, ciascuna distribuita come X: X1, X2, ..., Ricordiamo che, in termini statistici, (X1, X2, ..., Xn) è un campione casuale di dimensione n proveniente dalla distribuzione X, qualunque sia n. La media campionaria è semplicemente la media delle variabili del campione: Mn = (X1 + X2 + ··· + Xn) / n. La media campionaria è una funzione a valori reali di un campione casuale, ed è pertanto una statistica. Come ogni altra statistica, la media campionaria è anch'essa una variabile casuale con la sua distribuzione, il suo valore atteso e la sua varianza. In molti casi la media della distribuzione è ignota, e si usa la media campionaria come stimatore della media della distribuzione. 1. Nell'applet dadi, scegli la variabile casuale media. Per ogni possibile distribuzione degli esiti, inizia con n = 1 dadi e incrementa di uno fino ad arrivare a n = 20 dadi. Osserva la forma e la posizione della funzione di densità ad ogni passo. Con 20 dadi, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. Proprietà della media campionaria 2. Dimostra che E(Mn) = µ. L'esercizio 1 dimostra che Mn è uno stimatore corretto per µ. Pertanto, quando la media campionaria è utilizzata come stimatore della media della distribuzione, la varianza della media campionaria è l'errore quadratico medio. 3. Dimostrare che var(Mn) = d2 / n. Dall'esercizio 3 si osserva che la varianza della media campionaria è funzione crescente http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample2.html (1 di 4) [22/11/2001 17.51.54] Media campionaria e legge dei grandi numeri rispetto alla varianza della distribuzione e decrescente rispetto alla dimensione del campione. Entrambe queste asserzioni sono intuitivamente sensate se vediamo la media campionaria come uno stimatore della media della distribuzione. 4. Nell'applet dadi, seleziona la variabile casuale media. Per ogni possibile distribuzione degli esiti, inizia con n = 1 dadi e incrementa di uno fino ad arrivare a n = 20 dadi. Osserva che il valore atteso della media campionaria resta costante, mentre la devizione standard decresce (come sappiamo, con velocità inversa alla radice quadrata della dimensione del campione). Simula 1000 replicazioni, aggiornando ogni 10 e osserva la convergenza dei momenti empirici a quelli teorici. 5. Calcola, sui dati di Fisher sugli iris, la media campionaria della variabile lunghezza dei petali in ciascuno dei seguenti casi e confronta i risultati. 1. Tutte le varietà 2. Solo la setosa 3. Solo la versicolor 4. Solo la verginica La legge debole dei grandi numeri Dall'esercizio 3 si nota che var(Mn) in media quadratica. 0 as n . Ciò indica che Mn µ per n 6. Usa la disuguaglianza di Chebyshev per dimostrare che P[|Mn - µ| > r] 0 per n per ogni r > 0. Questo risultato è noto come legge debole dei grandi numeri, e afferma che la media campionaria converge in probabilità alla media della distribuzione. Ricorda che la convergenza in media quadrata implica la convergenza in probabilità. La legge forte dei grandi numeri La legge forte dei grandi numeri afferma che la media campionaria Mn converge quasi sicuramente alla media della distribuzione µ: P(Mn µ as n ) = 1. Come il nome stesso suggerisce, questo risultato è molto più forte di quello presentato poc'anzi. Ciò può essere provato in maniera piuttosto semplice se si assume che il momento centrato di ordine 4 è finito: b4 = E[(X - µ)4] < . Esistono comunque dimostrazioni migliori che non necessitano di questa assunzione (vedi ad esempio il libro Probability and Measure di Patrick Billingsley). http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample2.html (2 di 4) [22/11/2001 17.51.54] Media campionaria e legge dei grandi numeri 7. Sia Yi = Xi - µ e sia Wn = Y1 + Y2 + ··· + Yn. Mostra che 1. Y1, Y2, ..., Yn sono indipendenti e identicamente distribuite. 2. E(Yi) = 0. 3. E(Yi2) = d2. 4. E(Yi4) = b4. 5. Mn µ per n se e solo se Wn / n 0 as n Attraverso l'esercizio 7, vogliamo dimostrare che Wn / n probabilità 1. . 0 per n con 8. Mostra che Wn / n non converge a 0 se e solo se esiste un numero razionale r > 0 tale che |Wn / n| > r per infiniti n. Dobbiamo pertanto mostrare che l'evento descritto nell'esercizio 8 ha probabilità 0. 9. Dimostra che Wn4 è la somma di YiYjYkYl per ogni i, j, k, l appartenenti a {1, 2, ..., n}. 10. Mostrare che 1. E(YiYjYkYl) = 0 se uno degli indici differisce dagli altri tre. 2. E(Yi2Yj2) = d4 se i e j sono distinti, ed esistono 3n(n - 1) di questi termini E(Wn4). 3. E(Yi4) = b4 ed esistono n di questi termini E(Wn4). 11. Usa i risultati dell'esercizio 10 per dimostrare che E(Sn4) costante C (indipendente da n). Cn2 per qualche 12. Usa la disuguaglianza di Markov e il risultato dell'esercizio 11 per dimostrare che, per r > 0, P(|Wn / n| > r) = P(Wn4 > r4n4) C / (r4n2). 13. Usa il primo lemma di Borel-Cantelli per dimostrare che P(|Wn / n| > r per infiniti n) = 0. 14. Dimostra infine che P(esite un razionale r > 0 tale che |Wn / n| > r per infiniti n) = 0. Simulazioni 15. Nell'applet dadi, seleziona la variabile casuale media select the average random variable. Per ogni possibile distribuzione degli esiti, inizia con n = 1 dadi e incrementa di http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample2.html (3 di 4) [22/11/2001 17.51.54] Media campionaria e legge dei grandi numeri uno fino ad arrivare a n = 20 dadi. Osserva come la distribuzione della media campionaria aumenta la sua somiglianza con quella di una funzione di densità. Simula 1000 replicazioni, aggiornando ogni 10 e osserva la convergenza della densità empirica della media campionaria alla densità teorica. Molte delle applets di questo progetto simulano esperimenti con un'unica variabile aleatoria di interesse. Quando si fa una simulazione, si generano replicazioni indipendenti dell'esperimento. Nella maggior parte dei casi, l'applet riporta la media della distribuzione numericamente in una tabella e graficamente come centro della barra orizzontale blu sotto il grafico. Ugualmente, la media campionaria è riportata numericamente nella tabella e graficamente come centro della barra rossa orizzontale sotto il grafico. 16. Nell'esperimento binomiale della moneta, la variabile casuale è il numero di teste. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della media campionaria al valore atteso della distribuzione. 17. Nell'esperimento della concordanza, la variabile casuale è il numero di successi. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della media campionaria al valore atteso della distribuzione. 18. Replica l'esperimento esponenziale 1000 volte aggiornando ogni 10. Osserva la convergenza della media campionaria al valore atteso della distribuzione. Laboratorio virtuale > Campioni casuali > 1 [2] 3 4 5 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample2.html (4 di 4) [22/11/2001 17.51.54] Numero di valori campionari distinti Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 7 [8] 9 10 8. Numero di valori campionari distinti Variabili semplici Supponiamo che il nostro esperimento casuale consista nell'estrarre un campione casuale di dimensione n, con reinserimento, dalla popolazione D = {1, 2, ..., N}: X = (X1, X2, ..., Xn). Ricordiamo che l'assunzione di base è che X sia distribuita uniformemente sullo spazio campionario S = {1, 2, ..., N}n. In questo paragrafo ci interessiamo al numero di valori della popolazione assenti dal campione e al numero di valori (distinti) nel campione. Spesso interpreteremo l'esperimento come una distribuzione di n palline in N caselle; Xi è il numero della cella in cui si trova la pallina i. In questo modello, siamo interessati al numero di celle vuote e di celle occupate. Per i appartenente a D, sia Yi il numero di volte in cui i si presenta nel campione: Yi = #{j {1, 2, ..., n}: Xj = i}. 1. Prova che Y = (Y1, Y2, ..., YN) ha distribuzione multinomiale: per interi nonnegativi k1, ..., kN con k1 + k2 + ··· + kN = n, P(Y1 = k1, Y2 = k2, ..., YN = kN) = C(n; k1, k2, ..., kN) / Nn Definiamo ora la variabile casuale di interesse principale: il numero di valori della popolazione assenti dal campione: UN, n = #{j {1, 2, ..., N}: Yj = 0}, e il numero di valori (distinti) della popolazione che si presentano nel campione: VN, n = #{j {1, 2, ..., N}: Yj > 0}. Chiaramente si deve avere UN, n + VN, n = N, così, avendo la distribuzione di probabilità e i momenti di una delle variabili, possiamo trovarli facilmente per l'altra. Notiamo inoltre che l'evento compleanno, in cui vi è almeno una duplicazione nel campione, può essere scritto come http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn8.html (1 di 5) [22/11/2001 17.52.01] Numero di valori campionari distinti {VN, n < n} = {UN, n > N - n}. 2. Nell'esperimento del compleanno generalizzato, poni N = 100. Modifica n e osserva la forma del grafico della densità di V e la sua posizione nel campo di variazione. Con n = 30, simula l'esperimento passo per passo un paio di volte e osserva gli esiti. Poi simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alla distribuzione "vera". La funzione di densità Per j appartenente a D, considera l'evento in cui j non si presenta nel campione: Aj = {Yj = 0}. Sia K sottinsieme di D con #(K) = k. Usando la regola del prodotto del calcolo combinatorio, è semplice contare il numero di campioni che non contengono nessun elemento di K: 3. Mostra che #[ j in K Aj] = (N - k)n. Ora si può usare la regola di inclusione-esclusione del calcolo combinatorio per contare il numero di campioni privi di almeno un valore della popolazione: 4. Prova che #[ j = 1, ..., N Aj] = k = 1, ..., N (-1)k - 1 C(N, k) (N - k)n. Una volta ottenuto ciò, è semplice contare il numero di campioni che contengono tutti i valori della popolazione: 5. Prova che #[ j = 1, ..., N Ajc] = k = 1, ..., N (-1)k C(N, k) (N - k)n. Ora possiamo usare una procedura a due passi per generare tutti i campioni privi di esattamente j valori: in primo luogo selezioniamo i j valori da escludere; poi selezioniamo un campione di dimensione n dai restanti valori della popolazione di modo che non ne sia escluso nessuno. Possiamo quindi usa il principio del prodotto per contare il numero di campioni privi dei j valori. 6. Prova che #{UN,n = j} = C(N, j) k = 0, ..., N - j (-1)k C(N - j, k) (N - j - k)n. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn8.html (2 di 5) [22/11/2001 17.52.01] Numero di valori campionari distinti Infine, poiché la distribuzione di probabilità di X sullo spazio campionario S è uniforme, possiamo trovare la funzione di densità del numero di valori esclusi: 7. Prova che per j = max{N - n, 0}, ..., N - 1, P(UN,n = j) = C(N, j) k = 0, ..., N - j (-1)k C(N - j, k) [1 - (j + k) / N]n. Inoltre possiamo ricavare facilmente la funzione di densità del numero di valori distinti nel campione: 8. Mostra che per j = 1, 2, ..., min{N, n}, P(VN,n = j) = C(N, j) k = 0, ..., j (-1)k C(j, k) [(j - k) / N]n. 9. Supponi di scegliere a caso 20 persone. Trova la probabilità che almeno 18 settimane di nascita siano rappresentate. 10. Nell'esperimento del compleanno generalizzato, poni N = 52. Modifica n e osserva forma e posizione della funzione di densità. Con n = 20, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità. 11. Supponi di lanciare 10 dadi equilibrati. Trova la probabilità di ottenere 4 o meno punteggi distinti. 12. Nell'esperimento del compleanno generalizzato, poni N = 6. Modifica n e osserva forma e posizione della funzione di densità. Con n = 10, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità. Relazione ricorsiva La distribuzione del numero di valori mancanti può essere ricavata anche con una prova ricorsiva. 13. Sia aN, n(j) = P(UN, n = j) per j = max{N - n, 0}, ..., N - 1. Usa una dimostrazione probabilistica per provare che 1. aN, 1(N - 1) = 1. 2. aN, n+1(j) = [(N - j) / N]aN, n(j) + [(j + 1) / N]aN, n(j + 1). 14. Supponi di scegliere a caso 20 persone. Trova la probabilità che almeno 3 mesi di nascita non siano rappresentati. 15. Nell'esperimento del compleanno generalizzato, poni N = 12. Modifica n e osserva forma e posizione della funzione di densità. Con n = 20, simula 1000 replicazioni http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn8.html (3 di 5) [22/11/2001 17.52.01] Numero di valori campionari distinti aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità. 16. Un fast food distribuisce 10 tipi di pupazzi con il menu per bambini. Una famiglia acquista 15 menu: trova la probabilità che manchino almeno 3 tipi di pupazzo. 17. Nell'esperimento del compleanno generalizzato, poni N = 10. Modifica n e osserva forma e posizione della funzione di densità. Con n = 15, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità. Momenti Vediamo ora come calcolare medie e varianze. Il numero di valori mancanti e il numero di valori distinti sono variabili di conteggio e quindi possono essere scritte come somma di variabili indicatore. Come abbiamo visto in molti altri modelli, tale rappresentazione è spesso la migliore per il calcolo dei momenti. Sia Ij = 1 se Aj si verifica (j non appartiene al campione) e Ij = 0 se Aj non si verifica (j appartiene al campione). Notiamo che il numero di valori assenti dal campione può essere scritto come UN, n = I1 + I2 + ··· + IN. 18. Prova che 1. E(Ij) = (1 - 1 / N)n per j = 1, 2, ..., N. 2. E(Ii Ij) = (1 - 2 / N)n per i, j = 1, 2, ..., N con i j. 19. Usa il risultato dell'esercizio precedente per mostrare che 1. E(UN, n) = N(1 - 1 / N)n. 2. E(VN, n) = N[1 - (1 - 1 / N)n]. 20. Usa il risultato dell'esercizio 18 per mostrare che 1. var(Ii) = (1 - 1 / N)n - (1 - 1 / N)2n. 2. cov(Ii, Ij) = (1 - 2 / N)n - (1 - 1 / N)2n se i j. 19. Usa il risultato dell'esercizio precdente e le proprietà della varianza per mostrare che var(UN, n) = var(VN, n) = N(N - 1)(1 - 2 / N)n + N(1 - 1 / N)n - N2(1 - 1 / N)2n. 20. Supponi di scegliere a caso 100 persone. Trova media e deviazione standard del numero di compleanni distinti. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn8.html (4 di 5) [22/11/2001 17.52.01] Numero di valori campionari distinti 21. Supponi di scegliere a caso 30 persone. Trova media e deviazione standard del numero di settimane di nascita distinte. 22. Nell'esperimento del compleanno generalizzato, poni N = 52. Modifica n e osserva dimensione e posizione della barra media/deviazione standard. Con n = 30, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici ai loro valori teorici. 23. Supponi di scegliere a caso 20 persone. Trova media e deviazione standard del numero di mesi di nascita distinti. 24.Nell'esperimento del compleanno generalizzato, poni N = 12. Modifica n e osserva dimensione e posizione della barra media/deviazione standard. Con n = 20, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici ai loro valori teorici. 25. Problema degli studenti bugiardi. Supponi che 3 studenti dello stesso corso saltino un esame di matematica. Decidono inventare una scusa e raccontano al docente che hanno bucato una gomma della macchina. Il docente separa gli studenti e chiede a ciascuno di loro quale fosse la gomma bucata. Gli studenti, che non si aspettavano la domanda, rispondo a caso e indipendentemente l'uno dall'altro. 1. Trova la funzione di densità di probabilità del numero di risposte distinte. 2. In particolare, trova la probabilità che gli studenti riescano a cavarsela. 3. Trova la media del numero di risposte distinte. 4. Trova la deviazione standard del numero di risposte distinte. 26. Problema del cacciatore di anatre. Supponi che ci siano 5 cacciatori di anatre, ciascuno perfetto tiratore. Passa uno stormo di 10 anatre e ogni cacciatore ne punta una e spara. 1. Trova la funzione di densità di probabilità del numero di anatre uccise. 2. Trova la media del numero di anatre uccise. 3. Trova la deviazione standard del numero di anatre uccise. Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 7 [8] 9 10 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn8.html (5 di 5) [22/11/2001 17.52.01] Varianza campionaria Laboratorio virtuale > Campioni casuali > 1 2 3 [4] 5 6 7 8 9 4. Varianza campionaria Il campione casuale Per iniziare, introduciamo un esperimento aleatorio semplice, definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali, relativa all'esperimento, con valore atteso µ e deviazione standard d. Inoltre, sia dk = E[(X - µ)k] il momento k-esimo intorno alla media. Osserva in particolare che d0 = 1, d1 = 0, d2 = d2. Ripetiamo indefinitamente l'esperimento semplice per avere un nuovo esperimento composito costituito da una sequenza di variabili casuali indipendenti, ciascuna distribuita come X: X1, X2, ... Per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla dsitribuzione di X. Ricorda che la media campionaria Mn = (1 / n) i = 1, ..., n Xi è una misura naturale del "centro" dei dati, nonché uno stimatore naturale per µ. In questo paragrafo introdurremo statistiche che costituiscono misure naturali della dispersione dei dati e stimatore per la varianza d2. Le statistiche di cui parleremo sono differenti a seconda del fatto che µ sia noto oppure no; per questa ragione µ è detto parametro di disturbo relativamente al problema della stima di d2. Uno stimatore per d2 quando µ è noto Per iniziare, ci occuperemo del caso in cui µ è noto, anche se questa assunzione è solitamente irrealistica all'atto pratico. In questo caso, la stima è semplice. Sia Wn2 = (1 / n) i = 1, ..., n (Xi - µ)2. 1. Prova che Wn2 è la media campionaria di un campione di dimensione n estratto dalla distribuzione di (X - µ)2. 2. Usa il risultato dell'esercizio 1 per dimostrare che 1. E[Wn2] = d2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample4.html (1 di 6) [22/11/2001 17.52.10] Varianza campionaria 2. var[Wn2] = (d4 - d4) / n. 3. Wn2 d2 as n quasi certamente. In particolare, 2(a) significa che Wn2 è uno stimatore corretto per d2. 3. Usa le proprietà della covarianza per provare che cov(Mn, Wn2) = d3 / n. Ne segue che la media campionaria e la varianza campionaria sono incorrelate se d3 = 0, e in ogni caso asintoticamente incorrelate. 4. Usa la disuguaglianza di Jensen per mostrare che E(Wn) d. Pertanto, Wn è uno stimatore distorto che tende a sottostimare d. La varianza campionaria Consideriamo ora il caso, più realistico, in cui µ è ignoto. In questo caso un'idea naturale potrebbe essere quella di utilizzare una qualche media dei (Xi - Mn)2 per i = 1, 2, ..., n. Si potrebbe pensare di dividere per n; tuttavia un'altra possibilità è di dividere per una costante che ci dia uno stimatore corretto per d2. 5. Usa tecniche algebriche di base per dimostrare che i = 1, ..., n (Xi - Mn)2 = i = 1, ..., n (Xi - µ)2 - n(Mn - µ)2. 6. Usa i risultati dell'esercizio 5 e le proprietà del valore atteso per dimostrare che E[ i = 1, ..., n (Xi - Mn)2] = (n - 1)d2. Segue pertanto dall'esercizio 6 che la variabile casuale Sn2 = [1 / (n - 1)] i = 1, ..., n (Xi - Mn)2 è uno stimatore corretto per d2; tale statistica è detta varianza campionaria. All'atto pratico, se n è abbastanza grande, fa poca differenza dividere per n piuttosto che per n - 1. Ritornando all'esercizio 5, osserva che Sn2 = [n / (n - 1)] Wn2 + [n / (n - 1)](Mn - µ)2 . 7. Usa la legge forte dei grandi numeri per dimostrare che Sn2 d2 as n http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample4.html (2 di 6) [22/11/2001 17.52.10] Varianza campionaria quasi certamente. Ora dimostreremo che Sn2 è un multiplo della somma di tutte le differenze al quadrato. Ciò ci permette di identificare formule per la varianza di Sn2 e per la covarianza tra Mn e Sn2. La formula presentata nell'esercizio seguente è spesso più utile, a fini computazionali, della definizione. 8. Mostra che Sn2 = [1 / (n - 1)] 2 i = 1, ..., n Xi - [n / (n - 1)] Mn2. La serie di esercizi che seguono ci permetteranno di calcolare la varianza di Sn2 . 9. Dimostra che Sn2 = {1 / [2n(n -1)]} (i, j) (Xi - Xj)2. Suggerimento: Parti dal membro di destra, aggiungi e sottrai Mn nel termine (Xi - Xj)2, espandi e somma termine a termine. 10. Mostra che, per i e j distinti E[(Xi - Xj)m] = k = 0, ..., m C(m, k) dk dm - k. Suggerimento: Aggiungi e sottrai µ al termine E[(Xi - Xj)m], e usa il teorema binomiale e l'indipendenza. 11. Mostra che var(Sn2) = (1 / n)[d4 - (n - 3)d4 / (n - 1)] utilizzando i seguenti passi: 1. Usa gli esercizi 8 e 9, e il fatto che la somma e la somma di tutte le covarianze prese a coppia. 2. Mostra che cov[(Xi - Xj)2, (Xk - Xl)2] = 0 se i = j o k = l o i, j, k, l sono distinti. 3. Prova che cov[(Xi - Xj)2, (Xi - Xj)2] = 2d4 + 2d4 se i e j sono distinti ed esistono 2n(n - 1) termini analoghi nella somma delle covarianze in (a). 4. Mostra che cov[(Xi - Xj)2, (Xk - Xj)2] = d4 - d4 se i, j, k sono distinti ed esistono 4n(n - 1)(n - 2) termini analoghi nella somma delle covarianze in (a). 12. Prova che var(Sn2) > var(Wn2). Ti sembra intuitivo? 13. Dimostra che var(Sn2) tende a 0 per n che tende a infinito. 14. Usa una tecnica simile a quella proposta nell'esercizio 11 per dimostrare che http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample4.html (3 di 6) [22/11/2001 17.52.10] Varianza campionaria cov(Mn, Sn2) = d3 / n. Nota in particolare che cov(Mn, Sn2) = cov(Mn, Wn2). Di nuovo, media e varianza campionaria sono incorrelate se µ3 = 0, e asintoticamente incorrelate altrimenti. La radice quadrata della varianza campionaria è la deviazione standard campionaria, indicata con Sn. 15. Usa la disuguaglianza di Jensen per dimostare che E(Sn) d. Quindi Sn è uno stimatore distorto che tende a sottostimare d. Simulazioni Molte delle applets contenute in questo progetto sono simulazioni di esperimenti con una variabile casuale semplice. Quando lanci una simulazione, generi delle replicazioni indipendenti dell'esperimento. Nella maggior parte dei casi, l'applet mostra la deviazione standard d della distribuzione sia numericamente in una tabella che graficamente, come lunghezza della barra orizzontale blu sotto il grafico. Quando fai una simulazione, la deviazione standard campionaria Sn è visualizzata numericamente nella tabella e graficamente come lunghezza della barra orizzontale rossa sotto il grafico. 16. Nell'esperimento binomiale della moneta, la variabile casuale è il numero di teste. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della deviazione standard campionaria a quella della distribuzione. 17. Nel matching experiment, la varibile casuale è il numero di successi. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della deviazione standard campionaria a quella della distribuzione. 18. Simula 1000 replicazioni dell'esperimento esponenziale aggiornando ogni 10. Osserva la convergenza della deviazione standard campionaria a quella della distribuzione. Analisi esplorativa dei dati La media e la deviazione standard campionaria si usano spesso nell'analisi esplorativa dei dati come misure rispettivamente del centro e della dispersione dei dati. 19. Calcola media e deviazione standard sui dati di Michelson relativi alla velocità della luce. 20. Calcola media e deviazione standard sui dati di Cavendish relativi alla densità della terra. 21. Calcola media e deviazione standard del peso sui dati M&M. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample4.html (4 di 6) [22/11/2001 17.52.10] Varianza campionaria 22. Calcola media e deviazione standard della lunghezza dei petali sui dati di Fisher relativi agli iris nei casi seguenti e confronta i risultati. 1. 2. 3. 4. Tutte le varietà Solo la setosa Solo la versicolor Solo la verginica Supponiamo di avere, invece dei dati originari, una distribuzione di frequenza di classi A1, A2, ..., Ak, con valori centrali di classe x1, x2, ..., xk, e frequenze n1, n2, ..., nk. Allora nj = #{i {1, 2, ..., n}: Xi Aj}. In questo caso i valori approssimati di media e varianza sono ● M= j = 1, ..., k nj xj. ● S2 = j = 1, ..., k nj ( xj - M)2. Queste approssimazioni sono basate sull'ipotesi che i valori centrali di classe rappresentino fedelmente i dati presenti in ogni classe. 23. Nell' istogramma interattivo, seleziona media e deviazione standard. Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione di frequenza con almeno 6 classi non vuote e almeno 10 valori. Calcola manualmente media, varianza e deviazione standarde verifica i risultati con quelli riportati dall'applet. 24. Nell' istogramma interattivo, seleziona media e deviazione standard. Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione di frequenza con almeno 30 valori di ciascuno dei tipi indicati sotto. Incrementa l'ampiezza di classe e osserva la posizione e la dimensione della barra media/deviazione standard. 1. Distribuzione uniforme. 2. Distribuzione simmetrica unimodale. 3. Distribuzione unimodale asimmetrica a destra. 4. Distribuzione unimodale asimmetrica a sinistra. 5. Distribuzione simmetrica bimodale. 6. Distribuzione a forma di u. 25. Nell' istogramma interattivo, costruisci una distribuzione con la più alta deviazione standard possibile. 26. Basandoti sulla risposta all'esercizio 25, definisci le distribuzioni (su un intervallo [a, b] dato) con la deviazione standard più alta possibile. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample4.html (5 di 6) [22/11/2001 17.52.10] Varianza campionaria Laboratorio virtuale > Campioni casuali > 1 2 3 [4] 5 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample4.html (6 di 6) [22/11/2001 17.52.10] Il problema della concordanza Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 [6] 7 8 9 10 6. Il problema della concordanza Il problema della concordanza è un esperimento casuale che può essere formulato in molti modi coloriti: ● Supponiamo che n coppie sposate siano a una festa e che uomini e donne si scelgano a caso per un ballo. La concordanza si ha se una coppia sposata balla insieme. ● Una segretaria distratta prepara n lettere e buste per spedirle a n persone diverse, ma poi mette le lettere a caso nelle buste. Una concordanza si ha se la lettera viene inserita nella busta corretta. ● n persone che portano il cappello hanno bevuto troppo a una festa. Quando escono, ciascuno prende un cappello a caso. Si ha concordanza se una persona prende il proprio cappello. Tali esperimenti sono ovviamente equivalenti dal punto di vista formale, e corrispondono ad estrarre l'intera popolazione, senza reinserimento, dalla popolazione D = {1, 2, ..., n}. Quindi la variabile esito X = (X1, X2, ..., Xn) è distribuita uniformemente sullo spazio campionario di permutazioni di D. Il numero di unità n è il parametro dell'esperimento. Concordanze Diremo che si ha una concordanza alla posizione i se Xi = i. Quindi il numero di concordanze è la variabile casuale Nn definita formalmente come Nn = I1 + I2 + ··· + In dove Ij = 1 se Xj = j e Ij = 0 altrimenti. Per trovare la funzione di densità discreta del numero di concordanze, dobbiamo contare il numero di permutazioni con un numero specificato di concordanze. Ciò è facile una volta contato il numero di permutazioni senza concordanze che si dicono discordanze di {1, 2, ..., n}. Indicheremo il numero di permutazioni che presentano esattamente k concordanze con bn(k) = #{Nn = k} for k in {0, 1, ..., n}. Discordanze 1. Usa le proprietà della misura di conteggio per mostrare che bn(0) = n! - #{Xi = i per qualche i}. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn6.html (1 di 4) [22/11/2001 17.52.16] Il problema della concordanza 2. Usa la formula di inclusione-esclusione del calcolo combinatorio per mostrare che bn(0) = n! dove nj = j = 1, ..., n {J: #(J) = j} (-1)j nj. #{Xi = i per i J}. 3. Prova che se #(J) = j allora #{Xi = i per i appartenente a J} = (n - j)!. 4. Usa i risultati degli esercizi 2 e 3 per mostrare che bn(0) = n! j = 0, ..., n (-1)j / j!. 5. Calcola il numero di discordanze di 10 unità. Permutazioni con k concordanze 6. Mostra che la seguente procedura a due passo genera tutte le permutazioni con esattamente k concordanze. 1. Seleziona i k interi che concordano. 2. Seleziona una permutazione dei restanti n - k interi che non concordano. 7. Prova che il numero di modi di eseguire i passi dell'esercizio 6 sono, rispettivamente, 1. C(n, k) 2. bn - k(0) 8. Usa la regola del prodotto del calcolo combinatorio per mostrare che bn(k) = (n! / k!) j = 0, ..., n - k (-1)j / j!. 9. Con n = 5, calcola il numero di permutazioni con k concordanze, per k = 0, ..., 5. La funzione di densità 10. Usa il risultato dell'esercizio 8 per mostrare che la funzione di densità di Nn è P(Nn = k) = (1 / k!) j = 0, ..., n - k (-1)j / j! per k = 0, 1, ..., n. 11. Nell'esperimento della concordanza, inizia con n = 2 e clicca ripetutamente sulla http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn6.html (2 di 4) [22/11/2001 17.52.16] Il problema della concordanza barra a scorrimento per incrementare n, osservando come cambia il grafico della funzione di densità. Con n = 10, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della densità empirica a quella teorica. 12. Calcola esplicitamente la funzione di densità di N5. 13. Mostra che P(Nn = n - 1) = 0. Dai una dimostrazione probabilistica mostrando che l'evento è impossibile e una dimostrazione algebrica utilizzando la funzione di densità dell'esercizio 8. L'approssimazione di Poisson 14. Prova che P(Nn = k) e-1 / k! as n . Come funzione di k, il membro di destra dell'espressione dell'esercizio 1 è la funzione di densità di Poisson con parametro 1. Pertanto, la distribuzione del numero di concordanze converge alla distribuzione di Poisson con parametro 1 al crescere di n. La convergenza è molto rapida: la distribuzione del numero di concordanze con n = 10 è più o meno la stessa del caso in cui n = 1000000! 15. Nell'esperimento della concordanza, poni n = 10. Simula 1000 replicazioni, aggiornando ogni 10. Confronta le frequenze relative, le probabilità vere e le probabilità-limite di Poisson per il numero di concordanze. Momenti Media e varianza del numero di concordanze possono essere ricavate direttamente dalla distribuzioni. Tuttavia, è molto più comoda la rappresentazione in termini di variabili indicatore. La proprietà di scambiabilità è molto importante in questo contesto. 16. Mostra che E(Ij) = 1 / n per ogni j. 17. Prova che E(Nn) = 1. Suggerimento: Usa il risultato dell'esercizio 1 e le proprietà del valore atteso. Segue quindi che il numero atteso di concordanze è 1, indipendentemente dalla dimensione della permutazione n. 18. Nell'esperimento della concordanza, inizia con n = 2 e clicca ripetutamente sulla barra a scorrimento per incrementare n, osservando come la media non cambi. Con n = 10, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della media campionaria alla media della distribuzione. 19. Prova che var(Ij) = (n - 1) / n2 per ogni j. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn6.html (3 di 4) [22/11/2001 17.52.16] Il problema della concordanza Una concordanza in una posizione dovrebbe rendere più probabili una concordanza in un'altra. Possiamo quindi immaginare che le variabili indicatore siano positivamente correlate. 20. Prova che se j e k sono distinti allora 1. cov(Ij, Ik) = 1 / [n2(n - 1)]. 2. cor(Ij, Ik) = 1 / (n - 1)2. Dall'esercizio 20, per n = 2, l'evento in cui c'è una concordanza alla posizione 1 è perfettamente correlato con la concordanza alla posizione 2. Ti sembra ragionevole? 21. Mostra che var(Nn) = 1. Suggerimento: Usa gli esercizi 4 e 5 e la proprietà della covarianza. Segue che la varianza del numero di concordanze è 1, indipendentemente dalla dimensione della permutazione n. 22. Per n = 5, calcola la covarianza e la correlazione tra una concordanza alla posizione j e una alla posizione k, dove j e k sono distinti. 23. Nell'esperimento della concordanza, inizia con n = 2 e clicca ripetutamente sulla barra a scorrimento per incrementare n, osservando come la deviazione standard non cambi. Con n = 10, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della deviazione standard campionaria alla deviazione standard della distribuzione. 24. Mostra che, per j e k distinti, cov(Ij, Ik) 0 per n . Segue che l'evento concordanza alla posizione j è praticamente indipendente dalla concordanza alla posizione k se n è grande. Per n sufficientemente grande, le variabili indicatore si comportano quasi come n prove Bernoulliane con probabilità di successo 1 / n. Ciò dà ulteriori indizi sulla convergenza della distribuzione del numero di concordanze alla distribuzione di Poisson al crescere di n. Nota inoltre che la distribuzione limite di Poisson ha media 1 e varianza 1. Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 [6] 7 8 9 10 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn6.html (4 di 4) [22/11/2001 17.52.16] Covarianza e correlazione campionaria Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 7 8 [9] 9. Covarianza e correlazione campionaria Il modello bivariato Introduciamo, come al solito, un esperimento casuale semplice definito su un certo spazio campionario e con una certa misura di probabilità. Supponiamo che X e Y siano variabili casuali a valori reali relative all'esperimento. Indicheremo medie, varianze, e covarianze come segue: ● µX = E(X) ● µY = E(Y) ● dX2 = var(X) ● dY2 = var(Y) ● dX,Y = cov(X, Y). Ricordiamo infine che la correlazione vale pX,Y = cor(X, Y) = dX,Y / (dX dY). Supponiamo ora di ripetere l'esperimento n volte per ottenere n vettori aleatori indipendenti, ciscuno distribuito come (X, Y). Ciò significa estrarre un campione casuale di dimensione n dalla distribuzione (X1, Y1), (X2, Y2), ..., (Xn, Yn). Come sopra, utilizzeremo l'indice inferiore per distinguere media campionaria e varianza campionaria delle variabili X e Y. Ovviamente queste statistiche dipendono dalla dimensione del campione n, ma per semplicità non terremo conto di questa dipendenza nella notazione. In questo paragrafo definiremo e studieremo statistiche che costituiscono stimatori naturali della covarianza e della correlazione della distribuzione. Queste statistiche misurano la relazione lineare che intercorre tra i punti del campione nel piano. Al solito, le definizioni dipenderanno da quali parametri sono noti e quali no. Uno stimatore della covarianza con µX e µY noti Immaginiamo in primo luogo che le medie µX e µY siano note. Questa assunzione è di solito poco realistica, ma è un buon punto di partenza, poiché il risultato è molto semplice e utile per quanto seguirà. In questo caso, uno stimatore naturale per dX,Y è WX,Y = (1 / n) i = 1, ..., n (Xi - µX)(Yi - µY). 1. Prova che WX,Y è la media campionaria di un campione di dimensione n estratto dalla distribuzione di (X - µX)(Y - µY). http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample9.html (1 di 6) [22/11/2001 17.52.25] Covarianza e correlazione campionaria 2. Usa il risultato dell'esercizio 1 per mostrare che 1. E(WX,Y) = dX,Y. 2. WX,Y dX,Y per n quasi certamente. In particolare, WX,Y è uno stimatore corretto per dX,Y. La covarianza campionaria Consideriamo ora il caso più realistico in cui le medie µX e µY sono ignote. In questo caso un approccio naturale è fare la media dei (Xi - MX)(Yi - MY) per i = 1, 2, ..., n. Piuttosto che dividere per n, però, dovremo dividere per una costante che restituisca uno stimatore corretto per dX,Y. 3. Interpreta geometricamente il segno degli (Xi - MX)(Yi - MY), in termini della dispersione di punti e del suo centro. 4. Dimostra che cov(MX, MY) = dX,Y / n. 5. Prova che i = 1, ..., n (Xi - MX)(Yi - MY) = n [WX,Y - (MX - µX)(M2 - µY)]. 6. Usa il risultato dell'esercizio 5 e le proprietà del valore atteso per dimostrare che E[ i = 1, ..., n (Xi - MX)(Yi - MY)] = (n - 1)dX,Y. Pertanto, per avere uno stimatore corretto di dX,Y, dobbiamo definire la covarianza campionaria come SX,Y = [1 / (n - 1)] i = 1, ..., n (Xi - MX)(Yi - MY). Analogamente a quanto avviene per la varianza campionaria, se n è grande non fa molta differenza dividere per n piuttosto che per n - 1. Proprietà La formula presentata nel prossimo esercizio è spesso più utile di quella generale ai fini computazionali. 7. Prova che SX,Y = [1 / (n - 1)] i = 1, ..., n XiYi - [n / (n - 1)]MXMY. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample9.html (2 di 6) [22/11/2001 17.52.25] Covarianza e correlazione campionaria 8. Usa il risultato dell'esercizio 5 e la legge forte dei grandi numeri per dimostrare che SX,Y dX,Y as n quasi certamente. Le proprietà che saranno introdotte negli esercizi seguenti sono analoghe a quelle relative alla covarianza della distribuzione. 9. Prova che SX,X = SX2. 10. Mostra che SX,Y = SY,X. 11. Dimostra che, se a è costante, allora SaX, Y = a SX,Y. 12. Supponi di avere un campione casuale di dimensione n estratto dalla distribuzione di (X, Y, Z). Prova che SX,Y + Z = SX,Y + SX,Z. La correlazione campionaria Analogamente alla correlazione della distribuzione, la correlazione campionaria si ottiene dividendo la covarianza campionaria per il prodotto delle deviazioni standard campionarie: RX,Y = SX,Y / (SXSY). 13. Usa la legge forte dei grandi numeri per dimostrare che RX,Y pX,Y as n quasi certamente 1. 14. Clicca sull'applet diseprsione interattiva per definire 20 punti e cerca di avvicinarti il più possibile alle seguenti condizioni: media campionaria 0, deviazione standard campionaria 1, correlazione campionaria: 0, 0.5, -0.5, 0.7, -0.7, 0.9, -0.9. 15. Clicca sull'applet dispersione interattiva per definire 20 punti e cerca di avvicinarti il più possibile alle seguenti condizioni: media campionaria di X 1, media campionaria di Y 3, deviazione standard campionaria di X 2, deviazione standard campionaria di Y 1, correlazione campionaria: 0, 0.5, -0.5, 0.7, -0.7, 0.9, -0.9. Il miglior predittore lineare Ricorda che nella sezione su correlazione e regressione (relative alla distribuzione), abbiamo dimostrato che il miglior predittore lineare di Y dato X, ovvero la previsione che minimizza l'errore quadratico medio è aX + b dove a = dX,Y / dX2 e b = µY - a µX . Inoltre, il valore (minimo) dell'errore quadratico medio, con questi valori di a e b, è E{[Y - (aX + b)]2} = dY2 (1 - pX,Y2). http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample9.html (3 di 6) [22/11/2001 17.52.25] Covarianza e correlazione campionaria Ovviamente, all'atto pratico, è improbabile conoscere i parametri della distribuzione necessari per trovare a e b. Siamo pertanto interessati al problema della stima del miglior predittore lineare di Y dato X sulla base dei dati del campione. (X1, Y1), (X2, Y2), ..., (Xn, Yn). Un approccio naturale è trovare la retta y = Ax + B che si adatta meglio ai punti della dispersione. Questo è un problema fondamentale in molti rami della matematica e non solo in statistica. Il termine migliore sta a significare che vogliamo trovare la retta (ovvero, trovare A e B) che minimizza la media degli errori quadratici tra i valori reali e quelli previsti per y: MSE = [1 / (n - 1)] i = 1, ..., n[Yi - (AXi + B)]2. Trovare A e B che minimizzano MSE è un problema comune in analisi. 16. Prova che MSE è minimo per 1. A = SX,Y / SX2. 2. B = MY - AMX. 17. Prova che il valore minimo di MSE, per A e B dati nell'esercizio 16, è MSE = SY2[1 - RX,Y2]. 18. Usa il risultato dell'esercizio 17 per mostrare che a. RX,Y [-1, 1]. 2. RX,Y = -1 se e solo se i punti della dispersione giacciono su una retta con pendenza negativa. 3. RX,Y = 1 se e solo se i punti della dispersione giacciono su una retta con pendenza positiva. Pertanto, la correlazione campionaria misura il grado di linearità dei punti della dispersione. I risultati dell'esercizio 18 possono essere ottenuti anche osservando che la correlazione campionaria è semplicemente la correlazione della distribuzione empirica. Ovviamente, le proprietà (a), (b) e (c) sono note per la correlazione della distribuzione. Il fatto che i risultati degli esercizio 17 e 18 siano gli stessi di quelli ottenuti in precedenza relativamente alla distribuzione è importante e rassicurante. La retta y = Ax + B, dove A e B sono quelli indicati nell'esercizio 17, è detta retta di regressione (campionaria) per Y dato X. Nota dal 17 (b) che la retta di regressione passa per (MX , MY ), ovvero il centro della distribuzione empirica. Naturalmente, A e B possono essere interpretati come stimatori rispettivamente a e b. 19. Usa la legge dei grandi numeri per dimostrare che A converge quasi certamente ad a e B a b per n che tende a infinito. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample9.html (4 di 6) [22/11/2001 17.52.25] Covarianza e correlazione campionaria Esattamente come nel caso delle rette di regressione relative alla distribuzione, la selezione del predittore e delle variabili di risposta è importantissima. 20. Dimostra che la retta di regressione del campione di Y da X e quella di X da Y non coincidono, a parte il caso in cui i punti giacciano tutti su una linea. Ricorda che la costante B che minimizza MSE = [1 / (n - 1)] i = 1, ..., n (Yi - B)2. è la media campionaria MY, e il valore minimo di MSE è la varianza campionaria SY2. Pertanto, la differenza tra questo valore dell'errore quadratico medio e quello riportato nell'esercizio 17, cioè SY2 RX,Y2, è la riduzione di variabilità delle Y quando il termine lineare in X viene aggiunto al predittore. La riduzione, in termini frazionari, è RX,Y2, e pertanto questa statistica è detta coefficiente di determinazione (campionario). Simulazione 21. Clicca sull'applet dispersione interattiva in vari punti e osserva come la retta di regressione varia. 22. Clicca sull'applet dispersione interattiva e definisci 20 punti. Cerca di fare in modo che la media delle x sia 0 e la deviazione standard 1, e che la retta di regressione abbia 1. pendenza 1, intercetta 1 2. pendenza 3, intercetta 0 3. pendenza -2, intercetta 1 23. Clicca sull'applet dispersione interattiva e definisci 20 punti con le seguenti proprietà: media delle x 1, media delle y 1, retta di regressione con pendenza 1 e intercetta 2. Se l'esercizio 23 ti ha creato problemi, è perché le condizioni sono impossibili da soddisfare! 24. Esegui l'esperimento bivariato uniforme 2000 volte, aggiornando ogni 10, in ciascuno dei casi seguenti. Osserva la convergenza delle medie campionarie, delle deviazioni standard campionarie, della correlazione campionaria e della retta di regressione campionaria alle loro controparti teoriche. 1. Distribuzione uniforme su un quadrato 2. Distribuzione uniforme su un triangolo 3. Distribuzione uniforme su un cerchio 25. Esegui l'esperimento bivariato uniforme 2000 volte, aggiornando ogni 10, in ciascuno dei casi seguenti. Osserva la convergenza delle medie campionarie, delle deviazioni standard campionarie, della correlazione campionaria e della retta di regressione campionaria alle loro http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample9.html (5 di 6) [22/11/2001 17.52.25] Covarianza e correlazione campionaria controparti teoriche. 1. sd(X) = 1, sd(Y) = 2, cor(X, Y) = 0.5 2. sd(X) = 1.5, sd(Y) = 0.5, cor(X, Y) = -0.7 Esercizi numerici 26. Calcola la correlazione tra lunghezza e larghezza dei petali nei seguenti casi sui dati di Fisher sugli iris. Commenta le differenze. 1. 2. 3. 4. Tutte le varietà Solo la Setosa Solo la Verginica Solo la Versicolor 27. Calcola la correlazione tra ciascuna coppia di colori sui dati M&M. 28. Utilizzando tutte le varietà sui dati di Fisher inerenti gli iris, 1. Calcola la retta di regressione con la lunghezza del petalo come variabile indipendente e larghezza come variabile dipendente. 2. Disegna la dispersione dei punti e la retta di regressione. 3. Trova il valore previsto per la larghezza di un petalo di lunghezza 40 29. Usando solo i dati della varietà Setosa nei dati di Fisher inerenti gli iris, 1. Calcola la retta di regressione con la lunghezza del sepalo come variabile indipendente e larghezza come variabile dipendente. 2. Disegna la dispersione dei punti e la retta di regressione. 3. Trova il valore previsto per la larghezza di un sepalo di lunghezza 45 Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 7 8 [9] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample9.html (6 di 6) [22/11/2001 17.52.25] La distribuzione lognormale Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 10 11 12 13 [14] 15 14. La distribuzione lognormale Una variabile casuale X ha distribuzione lognormale, con parametri µ e d, se ln(X) ha distribuzione normale con media µ e deviazione standard d. Equivalentemente X = exp(Y) dove Y è distribuita normalmente con media µ e deviazione standard d. Ricorda che il parametro µ può essere un qualsiasi reale, mentre d dev'essere positivo. La distribuzione lognormale si utilizza per modellare quantità aleatorie continue che si ritengono avere distribuzione asimmetrica, ad esempio certi tipi di reddito o la speranza di vita. Distribuzione 1. Usa il teorema del cambiamento di variabile per dimostrare che la funzione di densità lognormale con parametri µ e d, è data da f(x) = exp{-[ln(x) - µ]2 / (2d2)] / [x (2 )1/2 d] for x > 0. 2. Dimostrare che la distribuzione lognormale è unimodale e asimmetrica a destra. Mostrare in particolare che 1. f(x) è cerscente per 0 < x < exp(µ - d2) e decrescente per x > exp(µ - d2). 2. La moda è exp(µ - d2). 3. f(x) 4. f(x) 0 per x 0 per x . 0+. 3. Nell'appletvariabile casuale, seleziona la distribuzione lognormale. Modifica i parametri e osserva la forma e la posizione della funzione di densità. Ponendo µ = 0 e d = 1, simula 1000 replicaziuni aggiornando ogni 10. Osserva la convergenza della densità empirica a quella teorica. Sia G la funzione di ripartizione della distribuzione normale standardizzata. Ricorda che i valori di G sono tabulati e possono essere ottenuti dall'axplet quantile. Gli esercizi seguenti mostrano come calcolare la funzione di ripartizione e i quantili utilibzando la funrione di riaprtizione e i quantili della normale standardizzata. 4. Mostra che la funzione di ripartizione F della distribuzione lognormale è data da F(x) = G{[-µ + ln(x)] / d} per x > 0. 5. Prova che la funzione quantile è data da F-1(p) = exp[µ + d G-1(p)] per 0 < p < 1. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special14.html (1 di 3) [22/11/2001 17.52.29] La distribuzione lognormale 6. Supponi che il reddito (in migliaia di euro) X di un individuo preso a caso da una certa popolazione abbia distribuziore lognormale con parametri µ = 2 e d = 1. Trova P(X > 20). 7. Nell'applet quantile, seleziona la distribuzione lognormale. Modifica i parametri e osserva la forma e la posizione delle funzioni di densità e di ripartizione. Ponendo µ = 0 and d = 1, trova la mediana e il primo e il terzo quartile. Momenti I momenti della distribuzione lognormale possono essere calcolati sulla base della funzione generatrice dei momenti della distribuzione normale. 8. Si supponga X abbia distribuzione lognormale con parametri µ e d. Mostrare che E(Xn) = exp(nµ + n3d2 / 2). 9. Si mostri che media e varianza di X valgono 1. E(X) = exp(µ + d2 / 2). 2. var(X) = exp[2(µ + d2)] - exp(2µ + d2). Anche se la distribuzione lognormale ha momenti finiti di qualsiasi ordine, la funzione generatrice dei momenti è infinita per ogni numero positivo. Questa proprietà è una delre ragioni della notorietà della distribuzione lognormale. 10. Prova che E[exp(tX)] = per ogni t > 0. 11. Supponi che il reddito (in migliaia di euro) X di un individuo preso a caso da una certa popolazione abbia distribuzione lognormale con parametri µ = 2 e d = 1. Trova 1. E(X) 2. sd(X) 12. Nell'appletvariabile casuale, seleziona la distribuzione lognormale. Modifica i parametri e osserva la dimensione e la posizione della barra media/deviazione standard. Ponendo µ = 0 e d = 1, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza dei momenti empirici a quelli teorici. Trasformazioni Le trasformazioni più rilevanti sono quelle già presentate nella definizione di questa distribuzione: se X ha distribuzione lognormale, allora ln(X) ha distribuzione normale; di converso, se Y ha distribuzione normale, allora exp(Y) ha distribuzione lognormale. 13. Dato un certo d, mostra che la distribuzione lognormale con parametri µ e d è una famiglia di scala con parametro di scala exp(µ). http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special14.html (2 di 3) [22/11/2001 17.52.29] La distribuzione lognormale 14. Prova che la distribuzione lognormale è una famiglia esponenziale a due parametri con parametri naturali e statische naturali dati da 1. -1/(2d2), µ / d2. 2. ln2(x), ln(x) Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 10 11 12 13 [14] 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special14.html (3 di 3) [22/11/2001 17.52.29] Principi fondamentali Laboratorio virtuale > Calcolo combinatorio > [1] 2 3 4 5 1. Principi fondamentali Distribuzioni uniformi discrete Se una variabile casuale X di un esperimento è distribuita uniformemente su un sottinsieme finito S, allora la distribuzione di probabilità di X è proporzionale alla misura di conteggio: P(X A) = #(A) / #(S) per A S. Variabili casuali di questo tipo si presentano di frequente in diversi tipi di esperimento, in particolare quelli che possono essere interpretati come campionamento da un insieme finito. L'insieme S è di solito molto grande, sono quindi essenziali metodi di conteggio efficienti. Il primo problema combinatorio è attribuito al matematico greco Xenocrate. Corrispondenza biunivoca In molti casi, un insieme di oggetti può essere contato stabilendo una corrispondenza biunivoca tra l'insieme dato e un altro insieme. Ovviamente, i due insiemi hanno lo stesso numero di elementi, ma per qualche ragione il secondo può essere più semplice da contare. La regola additiva La regola additiva del calcolo combinatorio è semplicemente l'assioma di additività della misura di conteggio. Se A1, A2, ..., An sono sottinsiemi disgiunti di un insieme finito S allora #(A1 A2 ··· An) = #(A1) + #(A2) + ··· + #(An) Ricorda inoltre che le regole della probabilità hanno i loro analoghi per la misura di conteggio. Le più importanti sono riportate nei seguenti esercizi: 1. Prova che #(Ac) = #(S) - #(A) 2. Prova che #(B Ac) = #(B) - #(A 3. Prova che se A B allora #(B B). Ac) = #(B) - #(A). La formula di inclusione-esclusione 4. Prova che #(A B) = #(A) + #(B) - #(A B). 5. Prova che http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb1.html (1 di 6) [22/11/2001 17.52.40] Principi fondamentali #(A B C). C) = #(A) + #(B) + #(C) - #(A B) - #(A C) - #(B C) + #(A B Gli esercizi 11 e 12 possono essere generalizzati all'unione di n eventi Ai, i = 1, 2, ...n; la generalizzazione è detta formula di inclusione-esclusione. Per semplificare la notazione, sia N l'insieme di indici: I = {1, 2, ..., n} e definiamo nJ = # [ mk = j in J Aj] for J {J: #(J) = k} nJ 6. Prova che # [ N, per k N. i = 1, ..., n Ai] = k = 1, ..., n (-1)k - 1 mk. Le disuguaglianze di Bonferroni affermano che se la sommatoria al termine di destra è troncata dopo k termini (k < n), allora la sommatoria troncata è un limite superiore per la cardinalità dell'unione se k è dispari (cosicché l'ultimo termine ha segno positivo) e inferiore per la cardinalità dell'unione se k è pari (cosicché l'ultimo ha segno negativo). La regola del prodotto La regola del prodotto del calcolo combinatorio è basata sulla formulazione di una procedura (o algoritmo) che genera gli oggetti che vengono contati. Specificamente, supponiamo che la procedura consista di k passi, eseguiti in sequenza, e che per ogni passo j possa essere eseguito in nj modi, indipendentemente dalle scelte fatte ai passi precedenti. Allora, il numero di modi in cui si può eseguire l'intero algoritmo (e quindi il numero di oggetti) è n1 n2 ··· nk. Il modo per applicare correttamente la regola del prodotto a un problema di conteggio è formulare in maniera precisa un algoritmo che genera gli oggetti che si devono contare, cosicché ogni oggetto sia generato una e una sola volta. I primi due esercizi qui sotto riportano formulazioni equivalenti del principio del prodotto. 7. Supponi che S sia un insieme di successioni di lunghezza k, e che si indichino gli elementi di S con (x1, x2, ..., xk) Supponi che, per ogni j, xj abbia nj differenti valori, indipendentemente dai valori delle coordinate precedenti. Prova che la cardinalità di A è n1 n2 ··· nk. 8. Supponi che T sia un albero ordinato con profondità k e che ogni vertice di livello i - http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb1.html (2 di 6) [22/11/2001 17.52.40] Principi fondamentali 1 abbia ni figli per i = 1, 2, ..., k. Prova che il numero di vertici a livello k è n1 n2 ··· nk. 9. Un numero identificativo è formato da due lettere (maiuscole) seguite da cinque numeri (0-9). 1. Quanti diversi numeri identificativi esistono? 2. Se si sceglie a caso un numero identificativo, trova la probabilità che i numeri siano tutti minori di 5. 10. Supponi che un PIN (Personal Identification Number) sia una parola formata da quattro simboli in cui ciascun simbolo può essere un numero o una lettera (maiuscola). 1. Quanti PIN esistono? 2. Se si sceglie a caso un PIN, trova la probabilità che tutti i simboli siano lettere. 11. Nel gioco da tavola Cluedo, il signor Boddy è stato assassinato. Ci sono sei sospettati, sei possibili rami del delitto e nove possibili stanze del delitto. 1. Il gioco include una carta per ogni sospettato, arma e stanza. Quante carte ci sono? 2. L'esito del gioco è una sequenza formata da un sospettato, un'arma e una stanza (per esempio, il Colonello Mustard col coltello nella stanza del biliardo). Quanti esiti ci sono? 3. Una volta che le tre carte che costituiscono la soluzione sono state estratte, le carte restanti sono distribuite tra i giocatori. Supponi di ricevere 5 carte: quale mano è la migliore al fine di trovare la soluzione? Insiemi prodotto 12. Supponi che Si sia un insieme con ni elementi per i = 1, 2, ..., k. Prova che #(S1 × S2 × ··· × Sn ) = n1 n2 ··· nk. In particolare, se Si è lo spazio campionario dell'esperimento Ei, allora questo prodotto dà il numero di esiti dell'esperimento composto consistente nell'eseguire E1, ..., Ek in sequenza. 13. Un esperimento consiste nel lanciare un dado bilanciato, estrarre una carta da un mazzo standard e lanciare una moneta equilibrata. 1. Quanti esiti ci sono? 2. Trova la probabilità che il punteggio del dado sia pari, la carta sia di cuori e la moneta sia testa. 14. Mostra che, se S è un insieme di m elementi, allora Sn ha mn elementi. In particolare, se un esperimento semplice ha m esiti, allora l'esperimento composto che consiste di n replicazioni dell'esperimento semplice ha mn esiti. http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb1.html (3 di 6) [22/11/2001 17.52.40] Principi fondamentali 15. Si lancia 5 volte un dado bilanciato e si registra la sequenza di punteggi. 1. Quanti esiti ci sono? 2. Trova la probabilità che il primo e l'ultimo lancio siano 6. 16. Prova che il numero di campioni ordinati di dimensione n che può essere estratto con reinserimento da una popolazione di m unità è mn. 17. Supponi che 10 persone siano selezionate a caso e se ne registrino i compleanni. 1. Quanti esiti ci sono? 2. Trova la probabilità che tutte e 10 le persone siano nate di maggio. 18. Mostra che il numero di funzioni da un insieme A di n elementi in un insieme B di m elementi è mn. Gli elementi di {0,1}n si dicono a volte stringhe di bit di lunghezza n. L'esito dell'esperimento formato da n prove Bernoulliane è una stringa di bit di lunghezza n. 19. Prova che il numero di stringhe di bit di lunghezza n è 2n. 20. Si lancia 10 volte una moneta bilanciata. 1. Quanti esiti ci sono? 2. Trova la probabilità che i primi tre lanci diano testa. 21. Una ghirlanda di luci ha 20 lampadine, ciascuna delle quali può essere guasta o funzionante. Quante possibili configurazioni ci sono? 22. L'esperimento dado-moneta consiste nel lanciare un dado e poi lanciare una moneta il numero di volte indicato dal dado. Si registra la sequenza di risultati delle monete. 1. Quanti esiti ci sono? 2. Trova la probabilità che tutte le monete risultino testa. 23. Replica l'esperimento dado-moneta 1000 volte, aggiornando ogni 10. Confronta la probabilità empirica che tutte le monete siano testa con la probabilità vera trovata nell'esercizio precedente. La tavola di Galton La tavola di Galton, che prende nome da Francis Galton, è una matrice triangolare di chiodi (Galton la chiamò quincunx). Le righe sono numerate, da cima a fondo, con 0, 1, .... La riga k ha k + 1 chiodi etichettati, da sinistra a destra, con 0, 1, ..., i. Pertanto, un chiodo può essere identificato unicamente da una coppia ordinata (i, j) dove i è il numero di riga j è il numero del chiodo della riga. http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb1.html (4 di 6) [22/11/2001 17.52.40] Principi fondamentali Si lascia cadere una pallina sul chiodo iniziale (0, 0) della tavola di Galton. In generale, quando la pallina colpisce il chiodo (i, j), può finire a sinistra, sul chiodo (i + 1, j) o a destra, sul chiodo (i + 1, j + 1). La sequenza di chiodi che la pallina colpisce è detta sentiero. 24. Mostra che esiste una corrispondenza biunivoca tra ciascuna coppia delle seguenti tre collezioni: 1. Stringhe di bit di lunghezza n 2. Sentieri nella tavola di Galton da (0, 0) fino a un chiodo della riga n. 3. Sottinsiemi di un insieme con n elementi. Segue quindi, dall'esercizio precedente, che ciascuna delle seguenti collezioni ha 2n elementi. In particolare, un esperimento con n esiti ha 2n eventi. 25. Nel gioco della tavola di Galton, muovi la pallina da (0,0) a (10,6) seguendo un sentiero a tua scelta. Osserva la corrispondente stringa di bit e sottinsieme. 26. Nel gioco della tavola di Galton, genera la stringa di bit 011100101. Osserva il corrispondente sentiero e sottinsieme. 27. Nel gioco della tavola di Galton, genera il sottinsieme {2, 4, 5, 9, 12}. Osserva la corrispoendente stringa di bit e sentiero. 28. Nel gioco della tavola di Galton, genera tutti i sentieri tra (0, 0) e (4, 2). Quanti sentieri ci sono? 29. Supponi che A1, A2, ..., Ak siano eventi di un esperimento casuale. Prova che esistono 2^(2k) eventi differenti (in genere) che possono essere costruiti a partire dai k eventi dati, utilizzando le operazioni di unione, intersezione e complementazione. I seguenti passi mostrano come: 1. Mostra che esistono 2k eventi a due a due disgiunti della forma B1 Bk dove Bi è o Ai o Aic per ogni i. B2 ··· 2. Spiega perché ogni evento che può essere costruito a partire da A1, A2, ..., Ak è l'unione di qualcuno (forse tutti, forse nessuno) degli eventi in (a). 30. Nell'applet diagramma di Venn, osserva il diagramma di ciascuno dei 16 eventiche possono essere costruiti a partire da A e B. 31. Supponi che S sia un insieme formato da n elementi e che A sia un sottinsieme di S con k elementi. Se si seleziona casualmente un sottinsieme di S, trova la probabilità che contenga A. Argomenti correlati Le applicazioni più semplici del principio del prodotto sono le permutazioni e le http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb1.html (5 di 6) [22/11/2001 17.52.40] Principi fondamentali combinazioni. È interessante anche notare che il principio del prodotto è la misura di conteggio analoga alla regola del prodotto per la probabilità condizionata. I metodi di calcolo combinatorio ricoprono un ruolo fondamentale nel capitolo sui modelli di campionamento finito. Laboratorio virtuale > Calcolo combinatorio > [1] 2 3 4 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb1.html (6 di 6) [22/11/2001 17.52.40] Permutazioni Laboratorio virtuale > Calcolo combinatorio > 1 [2] 3 4 5 2. Permutazioni Permutazioni Consideriamo un insieme D con n elementi. Una permutazione di lunghezza k da D è una sequenza ordinata (x1, x2, ..., xk) di k elementi distinti di D (ovviamente, k non può essere maggiore di n). Statisticamente, una permutazione di lunghezza k da D corrisponde a un campione ordinato di dimensione k estratto senza reinserimento. Il numero di permutazioni 1. Usa la regola del prodotto per mostrare che il numero di permutazion i di lunghezza k da un insieme di n elementi è (n)k = n(n - 1) ··· (n - k + 1) 2. Prova che il numero di permutazioni di lunghezza n dall'insieme D di n (che prendono semplicemente il nome di permutazioni di D) è n! = (n)n = n(n - 1) ··· (1) 3. Dimostra che (n)k = n! / (n - k)! 4. In una corsa di 10 cavalli si registrano i primi tre arrivati, in ordine. Quanti esiti ci sono? 5. Otto persone, formate da otto coppie sposate, si devono sedere in una fila di 8 sedie. Quante combinazioni possibili ci sono se: 1. Non ci sono restrizioni 2. Gli uomini devono sedere insieme e le donne devono sedere insieme 3. Gli uomini devono sedere insieme 4. Le moglie di ciascuna coppia devono sedere insieme 6. Supponi che n persone debbano sedersi attorno a una tavola rotanda. Mostra che ci sono (n - 1)! combinazioni distinte. Suggerimento: il senso matematico di una tavola rotonda è che non c'è una prima sedia. 7. Dodici libri, di cui 5 sono di matematica, 4 di scienze e 3 di storia sono sistemati http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb2.html (1 di 3) [22/11/2001 17.52.44] Permutazioni casualmente su una mensola. 1. Quanti esiti ci sono? 2. Trova la probabilità che i libri della stessa materia capitino assieme. 3. Trova la probabilità che i libri di matematica capitino assieme. 8. Il problema del compleanno. Supponi di scegliere a caso n persone e di registrare i loro compleanni. 1. Trova la probabilità che tutti i compleanni siano diversi. 2. Definisci le assunzioni che fai in (a). 3. Calcola esplicitamente la probabilità in (a) per n = 10, 20, 30 e 40. 9. Replica esperimento del compleanno 1000 volte per i seguenti valori di n. In ciascun caso, confronta la frequenza relativa dell'evento in cui i compleanni sono distinti coi valori teorici dell'esercizio 8. 10. Supponi che ci siano 5 cacciatori di anatre, tutti ottimi tiratori. Passa uno stormo di 10 anatre, e ogni caccitori sceglie a caso un'anatra e spara. Trova la probabilità che vengano uccise 5 anatre. 11. Prova che il numero di permutazioni delle carte di un mazzo standard è 52! = 8.0658 × 1068. Il numero trovato nell'esercizio 10 è enorme. Infatti, se esegui l'esperimento di estrarre tutte e 52 le carte di un mazzo ben mischiato, probabilmente genererai una sequenza mai generata prima. 12. Supponi di posizionare casualmente 8 pedoni su una scacchiera. Prova che la probabilità che nessun pedone possa mangiarne un altro è 8! 8! / (64)8. 13. Supponi di lanciare 5 dadi equilibrati. Trova la probabilità che tutti i punteggi siano differenti. 14. Il numero di una patente è formato da 2 lettere e 5 numeri. Trova la probabilità che lettere e numeri siano tutti differenti. La formula di permutazione generalizzata La formula per (n)k dell'esercizio 1 ha senso per ogni numero reale n e intero non negativo k. L'espressione risultante è detta formula di permutazione generalizzata. 15. Calcola 1. (-5)3 2. (1 / 2)4 http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb2.html (2 di 3) [22/11/2001 17.52.44] Permutazioni 3. (-1 / 3)5 Laboratorio virtuale > Calcolo combinatorio > 1 [2] 3 4 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb2.html (3 di 3) [22/11/2001 17.52.44] Coefficienti multinomiali Laboratorio virtuale > Calcolo combinatorio > 1 2 3 [4] 5 4. Coefficienti multinomiali In questo paragrafo, generalizzeremo la formula di conteggio che abbiamo studiato nel pargarfo precedente. Questa generalizzazione è utile per due tipi di problemi molto differenti (ma evidentemente equivalenti). Partizioni di un insieme Ricordiamo che il coefficiente binomiale C(n, j) è il numero di sottinsiemi di dimensione j di un insieme S di n elementi. Notiamo inoltre che quando si selezione un sottinsieme A di dimensione j da S, di fatto partizioniamo S in due sottinsiemi disgiunti di dimensione, rispettivamente, j e n - j, detti A e Ac. Una generalizzazione naturale è partizionare S in un'unione di k sottinsiemia due a due disgiunti S1, S2, ..., Sk dove #(Si) = ni. Ovviamente dobbiamo avere n1 + n2 + ··· + nk = n 1. Usa la regola del prodotto per mostrare che il numero di tali partizioni è C(n, n1)C(n - n1, n2) ··· C(n - n1 - ··· - nk - 1, nk). 2. Prova che il risultato dell'esercizio 1 si semplifica a C(n; n1, n2, ..., nk) = n! / (n1! n2! ··· nk!) 3. Riporta una dimostrazione algebrica e combinatoria per l'identità C(n; k, n - k) = C(n, k). 4. Un giro di bridge consiste nel distribuire 13 carte (una mano di bridge) a 4 distinti giocatori da un mazzo standard di 52 carte. Mostra che il numero di giri di bridge è 53644737765488792839237440000 ~ 5.36 × 1028. 5. Supponi che un club di 20 membri voglia formare 3 comitati distnti, ciascuno con rispettivamente 6, 5 e 4 membri. In quanti modi si può farlo? Suggerimento: i membri che non fanno parte di un comitato formano uno degli insiemi della partizione. Sequenze Consideriamo ora l'insieme T = {1, 2, ..., k }n. Gli elementi di questo insieme sono sequenze di lunghezza n in cui ciascuna coordinata è uno dei k valori. Quindi, queste sequenze generalizzano le stringhe di bit di lunghezza n del paragrafo precedente. Di http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb4.html (1 di 3) [22/11/2001 17.52.49] Coefficienti multinomiali nuovo, siano n1, n2, ..., nk interi non negativi con n1 + n2 + ··· + nk = n. 6. Costruisci una corrispondenza biunivoca tra le seguenti collezioni: 1. Partizioni di S in sottinsiemi a due a due disgiunti S1, S2, ..., Sk dove #(Si) = ni. per ogni i. 2. Sequenze in {1, 2, ..., k }n in cui i si verifica ni volte per ogni i. Segue dagli esercizi 3 e 4 che il numero di sequenze in {1, 2, ..., k }n in cui i si verifica ni volte per ogni i è C(n; n1, n2, ..., nk). 7. Supponi di avere n oggetti di k tipi differenti, con ni elementi del tipo i per ogni i. Inoltre, oggetti di un tipo dato sono considerati identici. Costruisci una corrispondenza biunivoca tra le seguenti collezioni: 1. Sequenze in {1, 2, ..., k }n in cui i si verifica ni volte per ogni i. 2. Permutazioni distinguibili degli n oggetti. 8. Trova il numero di diverse combinazioni di lettere in ciascuna delle seguenti parole: 1. statistics 2. probability 3. mississippi 4. tennessee 5. alabama 9. Un bambino ha 12 dadi, 5 rossi, 4 verdi e 3 blu. In quanti modi si possono formare linee di dadi (blocchi di colore uguali sono considerati identici): Il teorema multinomiale 10. Dai una dimostrazione combinatoria del teorema multinomiale: (x1 + ··· + xk)n = C(n; n1, n2, ..., nk)x1n1 x2n2 ... xknk. dove la sommatoria è per tutti gli (n1, ..., nk) tali che ni è un intero non negativo per ogni i e n1 + ··· + nk = n. Per l'esercizio 10, i coefficienti C(n; n1, n2, ..., nk) sono detti coefficienti multinomiali. 11. Prova che ci sono C(n + k - 1, k - 1) termini nell'espansione multinomiale dell'esercizio 10. http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb4.html (2 di 3) [22/11/2001 17.52.49] Coefficienti multinomiali 12. Trova il coefficiente di x3y7z5 in (x + y + z)15. Laboratorio virtuale > Calcolo combinatorio > 1 2 3 [4] 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb4.html (3 di 3) [22/11/2001 17.52.49] Note conclusive Laboratorio virtuale > Calcolo combinatorio > 1 2 3 4 [5] 5. Note conclusive Il calcolo combinatorio è un argomento matematico ricco e interessante in sé, non solo per il suo legame con la probabilità. Libri ● Applied Combinatorics, di Fred Roberts ● Applied Combinatorics, di Alan Tucker ● An Introduction to Probability and Its Applications, di William Feller Risposte agli esercizi del paragrafo 1 1.9. 1. 67600000 2. 1 / 32 1.10. 1. 1679616 2. 264 / 364 ~ 0.2721 1.11 1. 21 carte 2. 324 esiti 3. La mano migliore sarebbe formata dalle 5 armi restanti o dai 5 sospettati restanti. 1.13. 1. 624 2. 1 / 16 1.15. 1. 7776 2. 1 / 36 1.16. 1. 41969002243198805166015625 2. 0.1953 × 10-10. 1.20. 1. 1024 http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb5.html (1 di 4) [22/11/2001 17.52.55] Note conclusive 2. 1 / 8 1.21. 1048576 1.22. 1. 126 2. 21 / 128. 1.31. 1 / 2k. Risposte agli esercizi del paragrafo 2 2.4. 720 2.5. 1. 40320 2. 1152 3. 2880 4. 384 2.7. 1. 479001600 2. 103680 2.8. Sia pn l'evento in cui i compleanni delle n persone sono distinti. 1. pn = (365)n / 365n. 2. Assumiamo che i compleanni siano distribuiti uniformemente su tutto l'anno. 3. p10 = 0.8831, p20 = 0.5886, p30 = 0.2937, p40 = 0.1088. 2.10. 189 / 624 2.13. 5 / 54. 2.14. 189 / 650. 2.15. 1. -210 2. -15 / 16 3. -3640 / 243 Risposte agli esercizi del paragrafo 3 3.4. 2. 3744 / 2598960 = 0.001441. http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb5.html (2 di 4) [22/11/2001 17.52.55] Note conclusive 3. 624 / 2598860 = 0.000240. 3.5. b. 0.238608. c. 0.0741397 d. 0.017959 3.7. 1. 38760 2. 13860 3. 30800 3.8. 1913496 3.9. 2. 1.41662 × 10-7. 3.15. 1. 210 / 1024. 2. 56 / 1024. 3.16. 6160 / 15504 = 0.297317. 3.23. 108864 3.24. 71680 3.29. 364 3.32. 1. 1771 2. 969 3.33. 252 3.34. 1. 66 2. 36 3.35. 1. Con reinserimento, ordinate: 10000 2. Con reinserimento, non ordinate: 715 3. Senza reinserimento, ordinate: 5040 4. Senza reinserimento, non ordinate: 210 http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb5.html (3 di 4) [22/11/2001 17.52.55] Note conclusive 3.36. 1. 1 / 16. 2. 70 3. -91 / 729. Risposte agli esercizi del paragrafo 4 4.5. 9777287520 4.8. 1. 50400 2. 9979200 3. 34650 4. 3780 5. 210 4.9. 27720 4.12. 360360 Laboratorio virtuale > Calcolo combinatorio > 1 2 3 4 [5] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/comb/comb5.html (4 di 4) [22/11/2001 17.52.55] Il problema del compleanno Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 [7] 8 9 10 7. Il problema del compleanno Analogamente al modello di campionamento semplice, supponiamo di selezionare n numeri a caso, con reinserimento, dalla popolazione D = {1, 2, ..., N}: X = (X1, X2, ..., Xn). Ricordiamo che l'assunzione di base è che X sia distribuita uniformemente su S = {1, 2, ..., N}n. Il problema del compleanno consiste nel calcolare la probabilità dell'evento che ci sia almeno un valore doppio nel campione: BN, n = {Xi = Xj per almeno una coppia distinta di indici i, j}. Supponi di scegliere a caso n persone e registrare i loro compleanni. Se ignoriamo gli anni bisestili e assumiamo che i compleanni siano distribuiti uniformemente sull'anno, allora possiamo applicare il modello di campionamento con N = 365. In questo contesto, il problema del compleanno consiste nel calcolare la probabilità che almeno due persone abbiano lo stesso compleanno (di qui il nome del problema). La soluzione generale al problema del compleanno è un semplice esercizio di calcolo combinatorio. 1. Usa la regola del prodotto del calcolo combinatorio per mostrare che 1. P(BN, n) = 1 - (N)n / Nn se n N. 2. P(BN, n) = 1 se n > N. Suggerimento: L'evento complementare si verifica se e solo se il vettore degli esiti X forma una permutazione di dimensione n da {1, 2, ..., N} Il fatto che la probabilità sia 1 per n > N è detto a volte principio della piccionaia: se più di N piccioni si posizionano in N caselle, allora almeno una casella ospita più di un piccione. 2. Sia N = 365 (problema del compleanno standard). Mostra che la probabilità è 1. 0.117 per n = 10 2. 0.411 per n = 20 3. 0.706 per n = 30 4. 0.891 per n = 40 5. 0.970 per n = 50 6. 0.994 per n = 60 http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn7.html (1 di 3) [22/11/2001 17.53.00] Il problema del compleanno 3. Disegna il grafico dei valori dell'esercizio 2 in funzione di n. Se smussa (per apparire in maniera più chiara), la curva dovrebbe somigliare al grafico sottostante. 4. Nell'esperimento del compleanno, poni N = 365. Per n = 10, 20, 30, 40, 50 e 60 simula 1000 replicazioni per ciascun caso, calcolando la frequenza relativa dell'evento in cui qualche cella contiene 2 o più palline. Confronta la frequenza relativa con le probabilità calcolate nell'esercizio 4. Nonostante la sua semplice soluzione, il problema del compleanno è molto noto perché, numericamente, le probabilità possono sembrare sorprendenti. Per solo 60 persone, l'evento è quasi certo! Matematicamente, la crescita rapida delle probabilità al crescere di n, è dovuta al fatto che Nn cresce più velocemente di (N)n. 5. Si scelgono a caso 10 persone. Trova la probabilità che almeno due siano nati nella stessa settimana. 6. Nell'esperimento del compleanno, poni N = 52. Modifica n con la barra a scorrimento e osserva graficamente come le probabilità cambiano. Con n = 10, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla probabilità teorica. 7. Si lanciano quattro dadi equilibrati. Trova la probabilità che i punteggi siano distinti. 8. Nell'esperimento del compleanno, poni N = 6. Modifica n con la barra a scorrimento e osserva graficamente come le probabilità cambiano. Con n = 10, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn7.html (2 di 3) [22/11/2001 17.53.00] Il problema del compleanno probabilità teorica. 9. Si scelgono a caso 5 persone. Trova la probabilità che almeno due siano nate nello stesso mese. 10. Nell'esperimento del compleanno, poni N = 12. Modifica n con la barra a scorrimento e osserva graficamente come le probabilità cambiano. Con n = 10, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla probabilità teorica. 11. Un fast-food distribuisce 10 pupazzi diversi insieme ai menu per bambini. Una famiglia con cinque bambini compra 5 menu. Trova la probabilità che i pupazzi siano tutti diversi. 12. Nell'esperimento del compleanno, poni N = 5. Modifica n con la barra a scorrimento e osserva graficamente come le probabilità cambiano. Con n = 5, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla probabilità teorica. Ricorrenza 13. Sia bN,n la probabilità dell'evento complementare che le variabili campionarie siano distinte. Prova le seguente relazione ricorsiva in due modi: in primo luogo partendo dal risultato dell'esercizio 1, e poi utilizzando la probabilità condizionata. 1. bN, 1 = 1 2. bN, n+1 = [(N - n) / N]bN, n per n = 1, 2, ..., N - 1. 14. Sia N = 52 (corrispondenti alle settimane di nascita). Trova il valore più piccolo di n per cui la probabilità di duplicazione è almeno 1/2. 15. Esegui l'esperimento del compleanno 1000 volte, con N = 52 e col valore di n ricavato nell'esercizio 14. Confronta la frequenza relativa della duplicazione col valore di probabilità. Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 [7] 8 9 10 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn7.html (3 di 3) [22/11/2001 17.53.00] Poker Laboratorio virtuale > Giochi di fortuna > 1 [2] 3 4 5 6 7 8 2. Poker La mano di poker Un mazzo di carte ha la struttura naturale di un insieme prodotto e può quindi essere rappresentato matematicamente da D = {1, 2, ..., 13} × {0, 1, 2, 3} dove la prima coordinata rappresenta il tipo (asso, 2-10, jack, regina, re) e la seconda coordinata il seme (picche, quadri, fiori, cuori). Ci sono molti modi diversi di giocare a poker, ma ci interessiamo solo al poker a pescata, che consiste nel pescare a caso 5 carte dal mazzo D. L'ordine delle carte non è rilevante, per cui registriamo l'esito dell'esprimento casuale come l'insieme (mano) X = {X1, X2, X3, X4, X5} dove Xi = (Yi, Zi) appartiene a D per ogni i e Xi i e j. Xj per ogni Quindi lo spazio campionario è formato da tutte le possibili mani di poker: S = {{x1, x2, x3, x4, x5}: xi in D per ogni i e xi xj per ogni i e j}. L'assunzione di base per la creazione del modello è che tutte le mani abbiano uguale probabilità. La variabile casuale X è quindi uniformemente distribuita sull'insieme di tutte le possibili mani S. P(X in A) = #(A) / #(S) per A S. In terimini statistici, una mano di poker è un campione casuale di dimensione 5 estratto senza reinserimento e senza attenzione all'ordine dalla popolazione D. Per ulteriori approfondimenti su questo argomento, vedi il capitolo sui modelli di campionamento finito. Il valore della mano Esistono nove tipi differenti di mani di poker in termini di valore. Useremo numeri da 0 a 8 per indicare il valore della mano, dove 0 è il valore minimo (ovvero nessun valore) e 8 è il valore massimo. Il valore della mano V è pertanto una variabile aleatoria che assume valori da 0 a 8 ed è definita come segue: ● V = 0: Nulla. La mano non è di nessuno degli altri casi. ● V = 1: Coppia. Ci sono quattro diversi tipi di carta nella mano, una si presenta due volte e le altre una volta. ● V = 2: Doppia coppia. Ci sono tre diversi tipi di carta nella mano; due si presentano http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games2.html (1 di 3) [22/11/2001 17.53.05] Poker ● ● ● ● ● ● due volte e l'altra una volta. V = 3: Tris. Ci sono tre diversi tipi di carta, una si presenta tre volte e le altre due una volta. V = 4: Scala. I tipi di carta possono essere ordinati in sequenza ma non sono dello stesso seme. Un asso può essere considerato il tipo di minore o di maggior valore. V = 5: Colore. Le carte sono tutte dello stesso seme, ma i tipi non possono formare una sequenza. V = 6: Full. Ci sono due diversi tipi di carta; uno si presenta tre volte e l'altro due volte. V = 7: Poker. Ci sono due diversi tipi di carta; uno si presenta quattro volte e l'altro una volta. V = 8: Scala colore. Le carte sono tutte dello stesso seme e possono essere ordinate in seuqenza. 1. Esegui l'esperimento del poker 10 volte passo per passo. Per ciascuno degli esiti, nota il valore della variabile casuale che corrisponde al tipo di mano, come riportato sopra. La funzione di densità Il calcolo della funzione di densità per V è un buon esercizio di calcolo combinatorio. 2. Mostra che il numero di mani di poker distinte è #(S) = C(52, 5) = 2598960. Negli esercizi seguenti dovrai spesso utilizzare la regola del prodotto del calcolo combinatorio per contare il numero di mani di vari tipi. In ciascun caso, prova a costruire un algoritmo per generare le mani di poker di un certo tipo, e conta il numero di modi in cui puoi eseguire ciascun passo dell'algoritmo. 4. Mostra che P(V = 1) = 1098240 / 2598960 = 0.422569. 5. Mostra che P(V = 2) = 123552 / 2598960 = 0.047539. 6. Mostra che P(V = 3) = 54912 / 2598960 = 0.021129. 7. Mostra che P(V = 8) = 40 / 2598960 = 0.000015. 8. Mostra che P(V = 4) = 10200 / 2598960 = 0.003925. Suggerimento: Usa il risultato dell'esercizio 7. 9. Mostra che P(V = 5) = 5108 / 2598960 = 0.001965. Suggerimento: Usa il risultato dell'esercizio 7. 10. Mostra che P(V = 6) = 3744 / 2598960 = 0.001441. 11. Mostra che P(V = 7) = 624 / 2598960 = 0.000240. http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games2.html (2 di 3) [22/11/2001 17.53.05] Poker 12. Mostra che P(V = 0) = 1,302,540 / 2598960 = 0.501177. Suggerimento: Usa la regola additiva della probabilità e il risultato dell'esercizio precedente. Notiamo che la funzione di densità di V è decrescente; più vale una mano, meno è probabile che esca. Nota inoltre che le mani nulla e coppia costituiscono più del 92% dei casi. 13. Nell'applet poker, osserva la forma del grafico della densità. Nota che alcune delle probabilità sono così piccole che sono praticamente invisibili nel grafico. Esegui 1000 replicazioni dell'esperimento, aggiornando ogni 10 e osserva la convergenza delle frequenze relative alla funzione di densità. 14. Nell'applet poker, poni la frequenza di aggiornamento a 100 e imponi un criterio d'arresto sulla base dei valori di V riportati qui sotto. Nota il numero di mani necessarie. 1. V = 3 2. V = 4 3. V = 5 4. V = 6 5. V = 7 6. V = 8 15. Trova la probabilità che una mano sia tris o più. 16. Nel film Genitori in trappola (1998), entrambi i gemelli fanno scala colore allo stesso giro di poker. Trova la probabilità di tale evento. 17. Classifica V in termini di livello di misura: nominale, ordinale, intervallare, o a rapporto. Ha qualche significato il valore atteso di V? Laboratorio virtuale > Giochi di fortuna > 1 [2] 3 4 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games2.html (3 di 3) [22/11/2001 17.53.05] Giochi di fortuna Laboratorio virtuale > Modelli speciali > A B C [D] E F G H D. Giochi di fortuna Sommario 1. Introduzione 2. Poker 3. Poker di dadi e Chuck-a-Luck 4. Craps 5. Roulette 6. Il problema di Monty Hall 7. Lotterie 8. Note conclusive Applets ● Poker ● Poker di dadi ● Chuck-a-Luck ● Craps ● Roulette ● Gioco di Monty Hall ● Esperimento di Monty Hall Citazioni ● ● "È un gioco di fortuna?" ... "Non come lo gioco io, no." Risposta di WC Fields a una domanda di una delle sue numerose vittime. Più semplice è un gioco, maggiore è il vantaggio del banco. The Wizard of Odds. Laboratorio virtuale > Modelli speciali > A B C [D] E F G H Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/index.html [22/11/2001 17.53.07] Lotterie Laboratorio virtuale > Giochi di fortuna > 1 2 3 4 5 6 [7] 8 7. Lotterie Le lotterie sono tra i giochi di fortuna più semplici e più diffusi, e, sfortunatamente per il giocatore, tra i peggiori in termini di valore atteso. Esistono innumerevoli forme di lotteria ed è inutile analizzarle una per una. In questo paragrafo ne studieremo i tipi più diffusi. La lotteria semplice La lotteria semplice è un esperimento casuale in cui il banco (in molti casi gestito da un'ente governativo) estrae n numeri a caso e senza reinserimento tra gli interi 1, 2, ..., N. I parametri interi N e n variano da lotteria a lotteria, e ovviamente n non può essere maggiore di N. L'ordine in cui i numeri sono estratti di solito non è rilevante, e quindi, in questo caso, lo spazio campionario S dell'esperimento è formato da tutti i sottinsiemi (combinazioni) di dimensione n estratti dalla popolazione {1, 2, ..., N}: S = {x {1, 2, ..., N}: #(x) = n}. 1. Ricorda, o mostra, che #(S) = C(N, n) = N! / [n!(N - n)!]. Naturalmente si assume che tutte le combinazioni di questo tipo siano equiprobabili, per cui la combinazione estratta X, variabile casuale di base per l'esperimento, è distribuita uniformemente su S. P(X = x) per 1 / C(N, n) per x appartenente a S. Il giocatore della lotteria paga un biglietto e deve scegliere m numeri, senza ripetizione, tra gli interi da 1 a N. Anche in questo caso, l'ordine non è rilevante, per cui il giocatore fondamentalemnte sceglie una combinazione y di dimensione m dalla popolazione {1, 2, ..., N}. In molti casi m = n, per cui il giocatore sceglie lo stesso numero di numeri che poi il banco estrae. In generale, quindi, ci sono tre parametri nella lotteria semplice N, n, m. L'obiettivo del giocatore, ovviamente, consiste nel massimizzare il numero di corrispondenze (spesso dette catches dai giocatori) tra la sua combinazione y e la combinazione casuale X estratta dal banco. Essenzialmente, il giocatore cerca di indovinare l'esito dell'esperimento casuale prima che venga eseguito. Sia quindi U il numero di concordanze. 2. Prova che il numero di concordanze U nella lotteria N, n, m ha funzione di densità di probabilità discreta P(U = k) = C(m, k) C(N - m, n - k) / C(N, n) for k = 0, 1, ..., m. La distribuzione di U è ipergeometrica con parametri N, n e m, ed è analizzata in dettaglio nel capitolo sui modelli di campionamento finito. In particolare, si ricava che media e varianza del numero di concordanze U è http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games7.html (1 di 6) [22/11/2001 17.53.17] Lotterie E(U) = n (m / N), var(U) = n (m / N) (1 - m / N) (N - n) / (N - 1). Notiamo che P(U = k) è 0 k > n o k < n + m - N. In ogni caso, nella maggior parte delle lotterie, m n e N è molto maggiore di n + m. In questi casi, la funzione di densità è positiva per i valori di k riportati nell'esercizio 2. Indicheremo il caso particolare in cui m = n lotteria N, n; la maggior parte delle lotterie pubbliche funzionano in questo modo. In questo caso, funzione di densità di probabilità, media e varianza del numero di concordanze U è P(U = k) = C(n, k) C(N - n, n - k) / C(N, n) per k = 0, 1, ..., n. E(U) = n2 / N, var(U) = (n2 / N)(N - n)2 / [N(N - 1)]. 3. Trova esplicitamente funzione di densità di probabilità, media e deviazione standard del numero di concordanze in una lotteria 47, 5. 4.Trova esplicitamente funzione di densità di probabilità, media e deviazione standard del numero di concordanze in una lotteria 49, 5. 5. Trova esplicitamente funzione di densità di probabilità, media e deviazione standard del numero di concordanze in una lotteria 47, 7. L'analisi precedente si è basata sull'assunzione che la combinazione y sia selezionata dal giocatore in maniera deterministica. Fa differenza se la combinazione viene scelta a caso? Supponiamo che la combinazione selezionata Y sia una variabile casuale a valori in S. (Per esempio, in alcune lotterie i giocatori acquistano biglietti con combinazioni selezionate a caso da un computer; si parla in questo caso di Quick Pick). Ovviamente, X e Y devono essere indipendenti, poiché né il giocatore né il computer deveono poter sapere la combinazione vincente X. Negli esercizi seguenti, mostrerai che la casualizzazione non ha influenza. 6. Sia U il numero di concordanze nella lotteria N, n, m nel caso in cui la combinazione Y scelta dal giocatore è una variabile casuale, indipendente dalla combinazione vincente X. Prova che U ha la stessa distribuzione trovata nell'esercizio 1. Suggerimento: condiziona al valore di Y. Ci sono molti siti internet che pubblicano dati sulla frequenza dei numeri estratti in varie lotterie. Alcuni giocatori ritengono che alcuni numeri siano più fortunati di altri. 7. Date le assunzioni e l'analisi precedenet, credi che alcuni numeri siano più fortunati di altri. Ha un qualche senso teorico studiare i dati storici di una lotteria? Il montepremi in palio nelle lotterie di stato dipende dal numero di biglietti venduti. In genere, il 50% dell'incasso è messo in palio, il resto va in costi amministrativi e incasso per lo stato. Il montepremi viene diviso tra i biglietti vincenti, e il premio per ciascun biglietto dipende dal numero di concordanze U. Per queste ragioni, è impossibile pervenire a un'analisi semplice del valore atteso di una lotteria. Notiamo però che, poiché lo stato si tiene una percentuale fissa sulle vendite, non è esposto ad alcun rischio. http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games7.html (2 di 6) [22/11/2001 17.53.17] Lotterie Da un punto di vista del gioco, le lotterie non sono buoni giochi. In confronto, nella maggior parte dei giochi da casinò, il 90% o più delle puntate va a formare il montepremi. Ovviamente le lotterie di stato possono essere viste come una forma di tassazione volontaria e non come semplici giochi. I profitti fatti con le lotterie vengono impiegati per istruzione, sanità e altri servizi di pubblico interesse. Tuttavia, un'analisi dei benefici e dei costi delle lotterie dal punto di vista politico e sociale (e non in semplice ottica matematica) va oltre gli scopi di questo lavoro. Numeri Jolly Molti lottrie di stato arricchiscono il formato N, n con un numero Jolly. Il numero Jolly T è estratto da un insieme specifico di interi, in addizione alla combinazione X, che abbiamo visto prima. Ugualmente, il giocatore sceglie un numero Jolly s, in addizione alla combinazione y. La vittoria del giocatore dipende quindi dal numero di concordanze U tra X e y, come già visto, e in più dal fatto che il numero Jolly del giocatore s concordi col numero Jolly T estratto dal banco. Sia I la variabile indicatore di quest'ultimo evento. Siamo ora interessati alla distribuzione congiunta di (I, U). In un caso comune, il numero Jolly T è scelto a caso tra gli interi 1, 2, ..., M, indipendentemente dalla combinazione X di dimensione n estratta da 1, 2, ..., N. Di solito M < N. Notiamo che, in questo tipo di lotteria, il gioco è formato da due lotterie indipendenti, una di formato N, n, e l'altra di formato M, 1. 8. Calcola esplicitamente la densità congiunta di (I, U) per la lotteria 47, 5 con numeri Jolly indipendenti da 1 a 27. Tale schema è utilizzato, tra l'altro, nella lotteria della California. 9. Calcola esplicitamente la densità congiunta di (I, U) per la lotteria 49, 5 con numeri Jolly indipendenti da 1 a 42. Tale schema è utilizzato, tra l'altro, nella lotteria Powerball. In altri casi, il numero Jolly T è estratto tra 1 e N, ed è distinto dai numeri della combinazione X. Per modellare tale situazione, assumiamo che T sia distribuita uniformemente su {1, 2, ..., N}, e dato T = t, X sia distribuito uniformemente sull'insieme di combinazione di dimensione n estratte da {1, 2, ..., N}- {t}. In questo caso, la densità congiunta è più difficile da calcolare. 10. Prova che P(I = 1, U = k) = C(n, k) C(N -1 - n, n - k) / [N C(N - 1, n)] per k = 0, 1, ..., n. 11. Condiziona al fatto che T appartenga o no a {y1, ..., yn} per mostrare che P(I = 0, U = k) = (N - n + 1) C(n, k) C(N -1 - n, n - k) / [N C(N - 1, n)] + n C(n - 1, k) C(N - n, n - k) / [N C(N - 1, n)] per k = 0, 1, ..., n. 12. Calcola esplicitamente la densità congiunta di (I, U) per la lotteria 47, 7 col numero Jolly estratto in questo modo. Tale schema è utilizzato dalla lotteria Super 7 Canada, tra le http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games7.html (3 di 6) [22/11/2001 17.53.17] Lotterie altre. Keno Keno è una lotteria che si gioca nei casinò. Per dati N (di solito 80) e n (di solito 20), il giocatore può scegliere una serie di giochi N, n, m, come presentato poc'anzi. Di solito, m varia da 1 a 15, e la vincita dipende da m e dal numero di concordanze V. Vediamo ora come calcolare funzione di densità, media e deviazione standard della vincita casuale, basandoti su una puntata unitaria, per una lotteria Keno tipica (N = 80, n = 20 e m da 1 a 15). Le tavole di vincita sono adattate dai dati presentati in The Wizard of Odds, e sono basati sulla lotteria Keno al casinò Tropicana di Atlantic City, New Jersey. Ricorda che la funzione di densità di probabilità del numero di concordanze U, dall'esercizio 2, è data da P(U = k) = C(m, k) C(80 - m, 20 - k) / C(80, 20) per k = 0, 1, ..., m. 13. La tavola di vincite per m = 1 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m=1 Indovinati 0 1 Vincita 0 3 14. La tavola di vincite per m = 2 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m=2 Indovinati 0 1 2 Vincita 0 0 12 15. La tavola di vincita per m = 3 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m=3 Indovinati 0 1 2 3 Vincita 0 0 1 43 16. La tavola di vincite per m = 4 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m=4 Indovinati 0 1 2 3 4 Vincita 0 0 1 3 130 17. La tavola di vincite per m = 5 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m=5 http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games7.html (4 di 6) [22/11/2001 17.53.17] Lotterie Indovinati 0 1 2 3 4 5 Vincita 0 0 0 1 10 800 18. La tavola di vincite per m = 6 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m=6 Indovinati 0 1 2 3 4 5 6 Vincita 0 0 0 1 4 95 1500 19. La tavola di vincite per m = 7 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m=7 Indovinati 0 1 2 3 4 5 6 7 Vincita 0 0 0 0 1 25 350 8000 20. La tavola di vincite per m = 8 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m=8 Indovinati 0 1 2 3 4 5 6 7 8 Vincita 0 0 0 0 0 9 90 1500 25,000 21. La tavola di vincite per m = 9 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m=9 Indovinati 0 1 2 3 4 5 6 7 8 9 Vincita 0 0 0 0 0 4 50 280 4000 50,000 22. La tavola di vincite per m = 10 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m = 10 Indovinati 0 1 2 3 4 5 6 7 8 9 10 Vincita 0 0 0 0 0 1 22 150 1000 5000 100000 23. La tavola di vincite per m = 11 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m = 11 Indovinati 0 1 2 3 4 5 6 7 8 9 10 11 Vincita 0 0 0 0 0 0 8 80 400 2500 25000 100000 24. La tavola di vincite per m = 12 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m = 12 http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games7.html (5 di 6) [22/11/2001 17.53.17] Lotterie Indovinati 0 1 2 3 4 5 6 7 8 9 10 11 12 Vincita 0 0 0 0 0 0 5 32 200 1000 5000 25000 100000 25. La tavola di vincite per m = 13 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m = 13 Indovinati 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Vincita 1 0 0 0 0 0 1 20 80 600 3500 10000 50000 100000 26. La tavola di vincite per m = 14 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m = 14 Indovinati 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Vincita 1 0 0 0 0 0 1 9 42 310 1100 8000 25000 50000 100000 27. La tavola di vincite per m = 15 è riportata qui sotto. Calcola funzione di densità, media e deviazione standard della vincita. m = 15 Indovinati 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Vincita 1 0 0 0 0 0 0 10 25 100 300 2800 25000 50000 100000 100000 Dagli esercizi precedenti dovresti aver notato che la vincita attesa di una puntata unitaria varia tra 0.71 a 0.75 circa, per cui il profitto atteso (per il giocatore) varia tra -0.25 e -0.29. Ciò è abbastanza poco pere un gioco da casinò, ma al solito la possibilità di una vincita molto alta con una puntata molto bassa copre l'analisi del valore atteso per molti giocatori. 28. Con m = 15, mostra che i 4 premi più alti (25000, 50000, 100000, 100000) contribuiscono solo allo 0.017 (meno di 2 centesimi) al valore atteso complessivo di circa 0.714. D'altro canto, la deviazione standard della vincita varia di parecchio, da 1 a circa 55. 29. Anche se il gioco è altamente sfavorevole per ogni m, con valore atteso praticamente costante, cosa pensi che sia meglio per il giocatore: uno schema con devizione standard alta o bassa? Laboratorio virtuale > Giochi di fortuna > 1 2 3 4 5 6 [7] 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games7.html (6 di 6) [22/11/2001 17.53.17] Statistiche d'ordine Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 [5] 6 7 8 9 10 5. Statistiche d'ordine Supponiamo che le unità della popolazione siano numerate da 1 a N, dimodoché D = {1, 2, ..., N}. Per esempio, la popolazione può essere formata da manufatti, e la numerazione può corrispondere ai numeri di serie. Campioniamo n unità a caso e senza reinserimento da D: X = (X1, X2, ..., Xn), dove Xi appartenente a D è l'i-esima unità estratta. Ricordiamo che X è distribuita uniformemente sull'insieme delle permutazioni di dimensione n estratte da D. Ricordiamo inoltre che W = {X1, X2, ..., Xn} è il campione non ordinato, distribuito uniformemente sull'insieme delle combinazioni di dimensione n estratto da D. Per i = 1, 2, ..., n, sia X(i) l'i-esima unità minore di X1, X2, ..., Xn. La variabile casuale X(i) è detta i-esima statistica d'ordine del campione. Notiamo in particolare che X(1) è il minimo valore e X(n) il massimo. 1. Mostra che X(i) assume valori i, i + 1, ..., N - n + i. Indicheremo il vettore di statistiche d'ordine con U = (X(1), X(2), ..., X(n)). Notiamo che U assume valori in L = {(x1, x2, ..., xn): 1 x1 < x2 < ··· < xn N} 2. Esegui l'esperimento delle statistiche d'ordine. Nota che puoi modificare l'ampiezza della popolazione N e l'ampiezza del campione n. Le statistiche d'ordine sono registrate ad ogni aggiornamento. Distribuzioni 3. Mostra che L ha C(N, n) elementi e che U è distribuita uniformemente su L. Suggerimento: U = (x1, x2, ..., xn) se e solo se W = {x1, x2, ..., xn} se e solo se X è una delle n! permutazioni di (x1, x2, ..., xn). 4. Usa una prova di calcolo combinatorio per mostrare che la funzione di densità di X(i) è: P(X(i) = k) = C(k - 1, i - 1)C(N - k, n - i) / C(N, n) per k = i, i + 1, ..., N - n + i. 5. Nell'esperimento delle statistiche d'ordine, modifica i parametri e osserva la forma della funzione di densità. Con N = 30, n = 10 e i = 5, simula 1000 replicazioni, http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn5.html (1 di 4) [22/11/2001 17.53.25] Statistiche d'ordine aggiornando ogni 10. Osserva la convergenza delle densità empiriche alla funzione di densità teorica. Momenti La funzione di densità dell'esercizio 4 può essere utilizzata per ricavare un'interessante identità che riguarda i coefficienti binomiali. Tale identità può essere utilizzata per trovare media e varianza di X(i) . 5. Mostra che per ogni i = 1, 2, ..., N, k = i, ..., N - n + i C(k, i) C(N - k, n - i) = C(N + 1, n + 1). 6. Usa l'identità dell'esercizio 5 per mostrare che E(X(i)) = i (N + 1) / (n + 1). 7. Usa l'identità dell'esercizio 5 per mostrare che var(X(i)) = (N + 1)(N - n)i(n + 1 - i) / [(n + 1)2(n + 2)]. 8. Nell'esperimento delle statistiche d'ordine, modifica i parametri e osserva la dimensione e la posizione della barra media/deviazione standard. Con N = 30, n = 10 e i = 5, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza dei momenti empirici ai loro valori teorici. 10. Supponi che, in una lotteria, si mettano biglietti numerati da 1 a 25 in un'urna. Si estraggono a caso e senza reinserimento cinque biglietti. Calcola 1. La funzione di densità di X(3). 2. E(X(3)). 3. var(X(3)). Stimatori 11. Usa il risultato dell'esercizio 6 per mostra che, per i = 1, 2, ..., n, la statistica seguente è uno stimatore corretto per N: Wi = [(n + 1) X(i) / i] - 1. Poiché Wi è corretto, la sua varianza è l'errore quadratico medio, una misura della qualità dello stimatore. 12. Prova che var(Wi) = (N + 1)(N - n)(n + 1 - i) / [i(n + 2)] 13. Mostra che, per dati N e n, var(Wi) decresce al crescere di i. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn5.html (2 di 4) [22/11/2001 17.53.25] Statistiche d'ordine Pertanto gli stimatori migliorano al crescere di i; in particolare, Wn è il migliore e W1 il peggiore. 14. Mostra che var(Wj) / var(Wi) = j(n + 1 - i) / [i(n + 1 - j)] Tale rapporto è detto efficienza relativa di Wi rispetto a Wj. Di solito si spera che gli stimatori migliorino (secondo il criterio dell'errore quadratico medio) al crescere della dimensione campionaria n (più informazioni si hanno, migliore ci si aspetta che sia la stima). Tale proprietà è detta consistenza. 15. Mostra che var(Wn) tende a 0 per n che tende a N. 16. Mostra che, per dato i, var(Wi) prima cresce e poi decresce a 0 all'aumentare di n da 1 a N. Il grafico seguente, dovuto a Christine Nickel, mostra var(W1) in funzione di n per N = 50, 75 e 100. Lo stimatore Wn venne usato dagli alleati durante la seconda guerra mondiale per stimare il numero N di carri armati tedeschi prodotti. I carri armati avevano un numero di serie, e i carri catturati e i loro numeri seriali formavano i dati campionari. Seguendo Richard Larsen e Morris Marx, tale stima della produzione di carri nel 1942 fu 3400, molto vicina al numero reale. 17. Supponi che, in una guerra, vengano catturati 100 carri nemici. Il numero seriale http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn5.html (3 di 4) [22/11/2001 17.53.25] Statistiche d'ordine più elevato è 1423. Stima il numero totale di carri prodotti. 18. Nell'esperimento delle statistiche d'ordine, poni N = 100 e n = 10. Simula 50 replicazioni, aggiornando ogni volta. Per ciascuna replicazione, calcola la stima di N basandoti su ciascuna delle statistiche d'ordine. Per ciascuno stimatore, calcola la radice quadrata della media dei quadrati degli errori per le 50 replicazioni. Basandoti su tali stime empiriche dell'errore, disponi gli stimatori di N in ordine di qualità. 19. Supponi che, in una guerra, vengano catturati 100 carri nemici. Il numero seriale più basso è 23. Stima il numero totale di carri prodotti. Estrazioni con reinserimento Se il campionamento è con reinserimento, le variabili del campione X1, X2, ..., Xn sono indipendenti e identicamente distribuite. Le statistiche d'ordine da campioni di tale tipo sono studiate nel capitolo sui campioni casuali. Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 [5] 6 7 8 9 10 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn5.html (4 di 4) [22/11/2001 17.53.25] Note conclusive Laboratorio virtuale > Spazi di Probabilità > 1 2 3 4 5 6 7 [8] 8. Note conclusive Libri ● ● An Introduction to Probability Theory and its Applications, Volume 1 (terza edizione) di William Feller è considerato uno dei migliori testi sulla probabilità mai scritti. Un testo eccellente per la probabilità elementare ricco di esempi ed esercizi è A First Course in Probability (quinta edizione) di Sheldon Ross ● Una trattazione sintetica della probabilità elementare si ha in The Essentials of Probability di Richard Durrett ● Per una trattazione più completa dal punto di vista della misura di probabilità, puoi vedere Probability and Measure, di Patrick Billingsley. ● Una trattazione della storia della probabilità è in Games, Gods and Gambling, di Florence David Siti esterni ● Il sito più importante per informazioni storiche sulla probabilità è History of Mathematics. Risposte agli esercizi del paragrafo 2 2.13. 1. S = {1, 2, 3, 4, 5, 6}2 . 2. A = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)} 3. B = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} 4. A 1)} B = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 5. A B = {(1, 6)} 6. Ac Bc = (A B)c = {(2, 1), (2, 2), (2, 3), (2, 4), (2, 6), (3, 1), (3, 2), (3, 3), (3, 5), (3, 6), (4, 1), (4, 2), (4, 4), (4, 5), (4, 6), (5, 1), (5, 3), (5, 4), (5, 5), (5, 6), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)} 2.15. Indica i nomi delle carte con 1 (asso), 2-10, 11 (jack), 12 (regina), 13 (re) e i semi con 0 (fiori), 1 (quadri), 2 (cuori), 3 (picche). 1. S = {1, 2, ..., 13} × {0, 1, 2, 3}. 2. Q = {(12, 0), (12, 1), (12, 2), (12, 3)} http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (1 di 11) [22/11/2001 17.53.45] Note conclusive 3. H = {1, 2, ..., 13} × {2} 4. Q H = {(y, z) S: y = 12 o z = 2} 5. Q H = {(12, 2}} 6. Q Hc = {(12, 0), (12, 1}, (12, 3)} 2.17. 1. S = [-1/2, 1/2]2 . 2. A = [-1/2 + r, 1/2 - r]2. 3. Ac = {(x, y) S: x < -1/2 + r o x > 1/2 - r o y < -1/2 + r o y > 1/2 + r} 2.19. S = {1, 2, 3, ...} 2.20. 1. S = {(1, 4), (2, 3), (3, 2), (4, 1), (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} 2. A = {(1, 4), (2, 3), (3, 2), (4, 1)} 2.21. Sia 1 testa e 0 croce. 1. S = {(i1, i2, ..., in): n {1, 2, 3, 4, 5, 6}, ij {0, 1} j = 1, ..., n} 2. A = {11, 011, 101, 110, 0011, 0101, 0110, 1001, 1010, 1100, 00011, 00101, 00110, 01001, 01010, 01100, 10001, 10010, 10100, 11000 000011, 000101, 000110, 001001, 001010, 001100, 010001, 010010, 010100, 011000, 100001, 100010, 100100, 101000, 110000} 2.23. Sia 1 testa e 0 croce. 1. S = {0, 1} × {1, 2, 3, 4, 5, 6} 2. A = {0, 1} × {4, 5, 6} 2.25. Per il sesso, sia 0 femmina e 1 maschio. S = ({18, 19, ...} × {0, 1} × {1, 2, 3})100. 2.26. Per il sesso, sia 0 femmina e 1 maschio. Per la specie, sia 1 la tredecula, 2 la tredecim e 3 la tredecassini. 1. S = (0, )4 × {0, 1} × {1, 2, 3} 2. F = {(x1, x2, x3, x4, y, z) S: y = 0} 4. S104 dove S è dato in (a). 2.27. 1. S = {0, 1, 2, 3, ...}6 × (0, ). 2. A = {(n1, n2, n3, n4, n5, n6, w) S: n1 + n2 + n3 + n4 + n5 + n6 > 57}. 4. S30 dove S è dato da (a). http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (2 di 11) [22/11/2001 17.53.45] Note conclusive 2.28. 1. S = {0, 1}5. 2. A = {(x1, x2, x3, x4, x5) S: x1 + x2 + x3 + x4 + x5 3} 2.29. 1. 2. 3. 4. S = (0, )2. A = (1000, ) × (0, ). B = {(x, y) S: y > x}. A B = {(x, y) S: x > 1000 or y > x} 5. A B = {(x, y) 6. A Bc = {(x, y) S: x > 1000 and y > x} S: x > 1000 and y x} Risposte agli esercizi del paragrafo 3 3.16. 1. S = {1, 2, 3, 4, 5, 6}2. 2. Y(x1, x2) = x1 + x2 for (x1, x2) S. 3. U(x1, x2) = min{x1, x2} for (x1, x2) S. 4. V(x1, x2) = max{x1, x2} for (x1, x2) S. 5. {X1 < 3, X2 > 4} = {(1, 5), (2, 5), (1, 6), (2, 6)} 6. {Y = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} 7. {U = V} = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)} 3.18. Denote the denominations by 1 (ace), 2-10, 11 (jack), 12 (queen), 13 (king) and the suits by 0 (clubs), 1 (diamonds), 2 (hearts), 3 (spades). 1. S = {1, 2, ..., 13} × {0, 1, 2, 3}. 2. U(x, y) = x if x < 10, U(x, y) = 10 otherwise. 3. {U = 10} = {10, 11, 12, 13) × {0, 1, 2, 3}. 3.20. 1. S = [-1/2, 1/2]2 . 2. Z(x, y) = (x2 + y2)1/2 for (x, y) 3. {X < Y} = {(x, y) S: x < y}. 4. {Z < 1/2} = {(x, y) S. S: x2 + y2 < 1/4} 3.22. 1. S = {0, 1}3. 2. X(i1, i2, i3) = i1 + i2 + i3 for (i1, i2, i3) S. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (3 di 11) [22/11/2001 17.53.45] Note conclusive 3. {X > 1} = {110, 101, 011, 111} 3.23. 1. 2. 3. 4. S = (0, )2. {X <1000} = {(x, y) S: x < 1000} {X < Y} = {(x, y) S: x < y} {X + Y > 2000} = {(x, y) S: x + y > 2000} 3.24. 1. S = {1, 2, 3, 4, 5, 6}3. 2. W(x1, x2, x3) = #{i: xi = 6} - 1. 3.27. Sia 1 testa e 0 croce. 1. S = {(i1, i2, ..., in): n {1, 2, 3, 4, 5, 6}, ij 2. N(i1, i2, ..., in) = n for (i1, i2, ..., in) {0, 1} j = 1, ..., n} S. 3. X(i1, i2, ..., in) = i1 + ··· + in for (i1, i2, ..., in) S. Risposte agli esercizi del paragrafo 4 4.20. 1. 2. 3. 4. S = {1, 2, 3, 4, 5, 6}2. Se i dadi sono equilibrati, ciascun esito in S deve avere la stessa probabilità. P(A) = 1 / 3 P(B) = 5 / 36 5. P(A B) = 2 / 36., 6. P(A B) = 5 / 12. 7. P(B Ac) = 1 / 12. 4.22. Sia D = {1, 2, ..., 13} × {0, 1, 2, 3} il mazzo di carte, con le denominazioni 1 (asso), 2-10, 11 (jack), 12 (regina), 13 (re) e i semi sono 0 (fiori), 1 (quadri), 2 (cuori), 3 (picche). 1. S = {(x1, x2): x1, x2 in D, x1 e x2 distinti} (2652 esiti). 2. Poiché il mazzo è ben mischiato, ciascun esito di S deve avere la stessa probabilità. 3. P(H1) = 1 / 4. 4. P(H1 5. P(H1c H2) = 1 / 17. H2) = 13 / 68. 6. P(H2) = 1 / 4. 7. P(H1 H2) = 15 / 34. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (4 di 11) [22/11/2001 17.53.45] Note conclusive 4.24. 1. S = [-1/2, 1/2]2 . 2. Poiché la moneta è lanciata "casualmente," nessuna regione di S dev'essere preferita a un'altra. 3. P(A) = (1 - 2r)2. 4. P(Ac) = 1 - (1 - 2r)2. 4.26. Bc) = 7 / 30. 1. A si veriica, ma non B. P(A 2. A o B si verifica. P(A B) = 29 / 60. 3. Uno degli eventi non si verifica. P[(A B)c] = 9 / 10. B)c] = 31 / 60. 4. Nessun evento si verifica. P[(A Bc) = 17 / 20. 5. Si verifica A o B non si verifica. P(A 4.27. 1. P(A B 2. P[(A B 3. P[(A Bc 4. P[(A B C) = 0.67. C)c] = 0.33. Cc) Cc) (Ac (A B Bc Cc) C) (Ac (Ac Bc B C)] = 0.45 C)] = 0.21 4.28. 1. S = {(1, 4), (2, 3), (3, 2), (4, 1), (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} 2. Poiché i dadi sono equilibrati, ciascun esito di S dev'essere ugualmente probabile. 3. P(A) = 2 / 5. 4.29. 1. S = {0, 1}3. 2. Poiché le monete sono bilanciate, ciascun esito di S dev'essere ugualmente probabile. 3. P(A) = 1 / 2. 4. P(B) = 3 / 8. 5. P(A B) = 1 / 4. 6. P(A B) = 5 / 8 7. P(Ac Bc) = 3 / 4. 8. P(Ac Bc) = 3 / 8 9. P(A Bc) = 7 / 8. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (5 di 11) [22/11/2001 17.53.45] Note conclusive 4.30. Supponi che le palline siano numerate da 1 a 12, con le palline da 1 a 5 rosse, da 6 a 9 verdi, da 10 a 12 blu. 1. S = {{x, y, z}: x, y, z {1, 2, ..., 12}, x, y, z distinti} (220 esiti) 2. P(A) = 3 / 44. 3. P(B) = 3 / 11. 4.31. Supponi che le palline siano numerate da 1 a 12, con le palline da 1 a 5 rosse, da 6 a 9 verdi, da 10 a 12 blu. 1. S = {1, 2, ..., 12}3 (1728 esiti). 2. P(A) = 1 / 8. 3. P(B) = 5 / 24. 4.33. 1. P(R) = 13 / 30. 2. P(T) = 19 / 30. 3. P(W) = 9 / 30. 4. P(R T) = 9 / 30. 5. P(T Wc) = 11 / 30. 4.34. 1. P(W) = 37 / 104. 2. P(F) = 59 / 104. 3. P(T) = 44 / 104. 4. P(W F) = 34 / 104. 5. P(W T F) = 85 / 104. Risposte agli esercizi del paragrafo 5 5.5. 1. P(A | B) = 2 / 5. 2. P(B | A) = 3 / 10. 3. P(Ac | B) = 3 / 5. 4. P(Bc | A) = 7 / 10. 5. P(Ac | Bc) = 31 / 45. 5.6. 1. P(X1 = 3 | Y = 6) = 1 / 5, P(X1 = 3) = 1 / 6, positivamente correlati. 2. P(X1 = 3 | Y = 7) = 1 / 6, P(X1 = 3) = 1 / 6, indipendenti. 3. P(X1 < 3 | Y > 7) = 1 / 15, P(X1 < 3) = 1 / 3, negativamente correlati. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (6 di 11) [22/11/2001 17.53.45] Note conclusive 5.8. 1. P(Q1) = 1 / 13, P(H1) = 1 / 4, P(Q1 | H1) = 1 / 13, P(H1 | Q1) = 1 / 4, indipendenti. 2. P(Q1) = 1 / 13, P(Q2) = 1 / 13, P(Q1 | Q2) = 3 / 51, P(Q2 | Q1) = 3 / 51, negativamente correlati. 3. P(Q2) = 1 / 13, P(H2) = 1 / 4, P(Q2 | H2) = 1 / 13, P(H2 | Q2) = 1 / 4, indipendenti. 4. P(Q1) = 1 / 13, P(H2) = 1 / 4, P(Q1 | H2) = 1 / 13, P(H2 | Q1) = 1 / 4, indipendenti. 5.10. Sia Hi l'evento in cui la carta i-esima è di cuori e Si l'evento in cui la carta i-esima è di picche. 1. P(H1 H2 H3) = 11 / 850. 2. P(H1 H2 S3) = 13 / 850. 3. P(H1 S2 H3) = 13 / 850. 5.12. Per un soggetto scelto a caso dalla popolazione, sia S l'evento in cui il soggetto fuma e D l'evento in cui il soggetto è ammalato. 1. P(D S) = 0.036. 2. P(S | D) = 0.45 3. S e D sono positivamente correlati. 5.13. 1. P(A Bc)| C) = 1 / 4. 2. P(A B | C) = 7 / 12. 3. P(Ac Bc | C) = 5 / 12. 5.14. 1. P(A B) = 1 / 4. 2. P(A B) = 7 / 12. 3. P(B Ac) = 3 / 4. 4. P(B | A) = 1 / 2. 5.15. Sia R il numero di pastiglie rosse e W il peso. P(R 10 | W 48) = 10 / 23. 5.16. Sia M l'evento in cui la cicala è maschio, U l'evento in cui la cicala è treducla, e W il peso corporeo. 1. P(W 0.25 | M) = 2 / 45. 2. P(W 0.25 | U) = 7 / 44. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (7 di 11) [22/11/2001 17.53.45] Note conclusive 5.17. La distribuzione condizionata di (X1, X2) dato Y = 7 è uniforme su {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. 5.18. 1. P(X > 30) = 2 / 3. 2. P(X > 45 | X > 30) = 1 / 2. 3. Dato X > 30, X è uniformemente distribuito su (30, 60). 5.19. 1. P(Y > 0 | X < Y) = 3 / 4. 2. Dato (X, Y) 1/2 - r]2. [-1/2 + r, 1/2 - r]2, (X, Y) è uniformemente distribuito su [-1/2 + r, 5.23. Sia X il punteggio dei dadi e H l'evento in cui tutti i lanci sono testa. 1. P(H) = 21 / 128. 2. P(X = i | H) = (64 / 63)(1 / 2i) for i = 1, 2, 3, 4, 5, 6. 5.25. Sia U la probabilità di testa per la moneta estratta a caso, e H l'evento in cui esce testa. 1. P(H) = 41 / 72 2. P(U = 1 / 2 | H) = 15 / 41, P(U = 1 / 3 | H) = 8 / 41, P(U = 1 | H) = 18 / 41 5.26. Sia X il punteggio del dado H l'evento in cui esce testa. 1. P(X = i) = 5 / 24 per i = 1, 6; P(X = i) = 7 / 48 per i = 2, 3, 4, 5. 2. P(H | X = 4) = 3 / 7, P(T | X = 4) = 4 / 7. 5.28. Sia X la linea di produzione dell'unità selezionata, e D l'evento in cui l'unità è difettosa. 1. P(D) = 0.037. 2. P(X = 1 | D) = 0.541, P(X = 2 | D) = 0.405, P(X = 3 | D) = 0.054 5.29. 1. 3.75% della popolazione è daltonica 2. 93.3% dei daltonici sono maschi. 5.30. Sia Ri l'evento in cui la pallina i-esima è rossa e Gi l'evento in cui la pallina i-esima è verde. 1. P(R1 R2 G3) = 4 / 35. 2. P(R2) = 3 / 5. 3. P(R1 | R2) = 2 / 3. 5.31. Sia G l'evento in cui la pallina è verde e U1 l'evento in cui si seleziona l'urna 1. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (8 di 11) [22/11/2001 17.53.45] Note conclusive 1. P(G) = 9 / 20. 2. P(U1 | G) = 2 / 3. 5.32. Sia G1 l'evento in cui la pallina dell'urna 1 è verde e G2 l'evento in cui la pallina dell'urna 2 è verde. 1. P(G2) = 9 / 25. 2. P(G1 | G2) = 2 / 3. Risposte agli esercizi del paragrafo 6 6.1. 1. P(Q1) = P(Q2) = 1 / 13, P(Q2 | Q1) = P(Q1 | Q2) = 1 / 17. Q1, Q2 sono negativamente correlati. 2. P(H1) = P(H2) = 1 / 4, P(H2 | H1) = P(H1 | H2) = 4 / 17. H1, H2 sono negativamente correlati. 3. P(Q1) = P(Q1 | H1) = 1 / 13, P(H1) = P(H1 | Q1) = 1 / 4. Q1, H1 sono indipendenti. 4. P(Q2) = P(Q2 | H2) = 1 / 13, P(H2) = P(H2 | Q2) = 1 / 4. Q2, H2 sono indipendenti. 5. P(Q1) = P(Q1 | H2) = 1 / 13, P(H2) = P(H2 | Q1) = 1 / 4. Q1, H2 sono indipendenti. 6. P(Q2) = P(Q2 | H1) = 1 / 13, P(H1) = P(H1 | Q2) = 1 / 4. Q2, H1 sono indipendenti. 6.5. Devono esserci 9 dirigenti donna. 6.11. A, B, C sono indipendenti se e solo se 1. P(A B) = P(A)P(B). 2. P(A C) = P(A)P(C). 3. P(B C) = P(B)P(C). 4. P(A B C) = P(A)P(B)P(C). 6.12. A, B, C, D sono indipendenti se e solo se 1. P(A B) = P(A)P(B). 2. P(A C) = P(A)P(C). 3. P(A D) = P(A)P(D). 4. P(B C) = P(B)P(C). 5. P(B D) = P(B)P(D). 6. P(C D) = P(C)P(D). 7. P(A B C) = P(A)P(B)P(C). 8. P(A B D) = P(A)P(B)P(D). http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (9 di 11) [22/11/2001 17.53.46] Note conclusive 9. P(A C D) = P(A)P(C)P(D). 10. P(B C D) = P(B)P(C)P(D). 11. P(A B C B C) = 0.93. D) = P(A)P(B)P(C)P(D). 6.13. 1. P(A 2. P(Ac Bc Cc) = 0.07. 3. P[(A Bc Cc) 4. P[(A B Cc) (Ac (A B Bc Cc) C) (Ac (Ac Bc B C)] = 0.220. C)] = 0.430. 6.17. 1. P[(A 2. P[A 3. P[(Ac B) Bc Bc) C] = 3 / 8. C] = 7 / 8. Cc] = 5 / 6. 6.18. 1/16 6.21. Sia A l'evento in cui esce almeno un sei. P(A) = 1 - (5 / 6)5 ~ 0.5981. 6.22. Sia A l'evento in cui esce almeno un doppio sei. P(A) = 1 - (35 / 36)10 ~ 0.2455 6.23. 1. P(X = 0) = 32 / 243 2. P(X = 1) = 80 / 243 3. P(X = 2) = 80 / 243 4. P(X = 3) = 40 / 243 5. P(X = 4) = 10 / 243 6. P(X = 5) = 1 / 243 6.27. 1. P(X < Y) = 11 / 12. 2. P(X > 20, Y > 20) = 8 / 27. 6.32. Sia F in cui esce un punteggio somma di 4 prima di un punteggio somma di 7. P(F) = 1 / 3. 6.37. http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (10 di 11) [22/11/2001 17.53.46] Note conclusive 1. R = 0.504 2. R = 0.902 3. R = 0.994 6.38. R = (p1 + p2 - p1 p2)(p4 + p5 - p4 p5)p3 + (p1 p4 + p2 p5 - p1 p2 p4 p5)(1 - p3) 6.39. Sia L l'evento in cui la situazione è di basso stress e W l'evento in cui il sistema funziona 1. P(W) = 0.9917 2. P(L | W) = 0.504 6.42. Sia A l'evento in cui la donna è incinta e Ti l'evento in cui il test i-esimo è positivo. P(A | T1 T2c T3) = 0.834. 6.43. 1. sensitività 1 - (1 - a)3, specificità b3. 2. sensitività 3a2(1 - a) + a3, specificità b3 + 3b2(1 - b). 3. sensitività a3, specificità 1 - (1 - b)3. 6.44. Sia C l'evento in cui l'imputato è condannato e G l'evento in cui l'imputato è colpevole. 1. P(C) = 0.51458 2. P(G | C) = 0.99996 6.55. 11 / 12. Risposte agli esercizi del paragrafo 7 7.25. Sia Hn l'evento in cui il lancio n-esimo risulta testa, e Tn l'evento in cui il lancio n-esimo risulta croce. 1. P(lim supn Hn) = 1, P(lim supn Tn) = 1 se 0 < a 1. 2. P(lim supn Hn) = 0, P(lim supn Tn) = 1 se a > 0. Laboratorio virtuale > Spazi di Probabilità > 1 2 3 4 5 6 7 [8] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/prob/prob8.html (11 di 11) [22/11/2001 17.53.46] Introduzione Laboratorio virtuale > Modelli di campionamento finito > [1] 2 3 4 5 6 7 8 9 10 1. Introduzione Il modello di campionamento semplice Supponiamo di avere una popolazione D di N unità. La popolazione può essere un mazzo di carte, un insieme di persone, un'urna piena di palline, o qualsiasi altro tipo di collezione. In molti casi, indichiamo semplicemente le unità con numeri da 1 a N, per cui D = {1, 2, ..., N}. In altri casi (ad esempio in quello delle carte) può essere più naturale indicare le unità con vettori. In ogni caso, D è un sottinsieme di Rk per qualche k. L'esperimento di base consiste nell'estrarre a caso n unità dalla popolazione D e registrare la sequenza di unità estratte: X = (X1, X2, ..., Xn), dove Xi appartenente a D è l'i-esima unità estratta. Se l'estrazione avviene con reinserimento, la dimensione campionaria n può essere qualsiasi intero positivo. In questo caso, lo spazio campionario S è S = Dn = {(x1, x2, ..., xn): x1, x2, ..., xn in D}. Se l'estrazione avviene senza reinserimento, la dimensione campionaria n non può essere maggior della dimensione della popolazione N. In questo caso, lo spazio campionario S è costituito da tutte le permutazioni di dimensione n estratte da D: S = Dn = {(x1, x2, ..., xn): x1, x2, ..., xn in D sono distinti}. 1. Prova che 1. #(Dn) = Nn. 2. #(Dn) = (N)n = N(N - 1) ··· (N - n + 1). In entrambe le modalità di estrazione assumiamo che i campioni siano equiprobabili e quindi che la variabile esito X sia distribuita uniformemente su S; tale è il significato del termine campione casuale: P(X A) = #(A) / #(S) per A S. Esempi e casi particolari Siamo particolarmente interessati ai seguenti modelli speciali: 1. Una popolazione dicotomica è formata da due tipi di unità. Per esempio, possiamo avere un'urna contenente palline rosse o verdi, una scatola di componenti elettronici che possono essere funzionanti o difettosi, una popolazione di soggetti che possono essere maschi o femmine, o una popolazione di animali che sono marchiati o non marchiati. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn1.html (1 di 5) [22/11/2001 17.53.53] Introduzione 2. Più in generale, una popolazione multitipo è formata da unità di k tipi diversi. Per esempio, un gruppo di elettori può essere formato da democratici, repubblicani e indipendenti, o un'urna può contenere palline di diversi colori. 3. Un mazzo di carte standard può essere modellato da D = {1, 2, ..., 13} × {0, 1, 2, 3}, dove la prima coordinata codifica la denominazione (asso, 2-10, jack, regina, re) e la seconda coordinata il seme (picche, quadri, fiori, cuori). L'esperimento delle carte consiste nell'estrarre n carte a caso e senza reinserimento dal mazzo D. Pertanto la carta i-esima è Xi = (Yi, Zi) dove Yi è la denominazione e Zi è il seme. Il caso in cui n = 5 è l'esperimento del poker e il caso n = 13 è l'esperimento del bridge. 4. Lanciare n dadi bilanciati a sei facce è equivalente a scegliere un campione di dimensione n con reinserimento dalla popolazione D = {1, 2, 3, 4, 5, 6}. In generale, selezionare un campione casuale di dimensione n con reinserimento da D = {1, 2, ..., N} è equivalente a lanciare n dadi equilibrati a N facce. 5. Supponiamo di scegliere n persone a caso e registrare i loro compleanni. Se assumiamo che i loro compleanni siano distribuiti uniformemente nell'anno, e se ignoriamo gli anni bisestili, allora l'esperimento è equivalente ad estrarre un campione di dimensione n, con reinserimento, da D = {1, 2, ..., 365}. Similmente, possiamo registrare i mesi e le settimane di nascita. 6. Supponiamo di distribuire a caso n palline distinte in N caselle. L'esperimento si adatta al modello di base, in cui D è la popolazione di caselle e Xi è la casella che contiene l'i-esima pallina. Campionamento con reinserimento significa che una casella può contenere più di una pallina, campionamento senza reinserimento significa che una casella può contenere al massimo una pallina. 7. Supponiamo che all'acquisto di un certo prodotto (gomme da masticare o cereali, per esempio), si riceva un coupon (una figurina di calciatori o un giocattolo, per esempio), con identica probabilità di ricevere ciascuno degli N tipi. Possiamo pensare a questo esperimento come a un campionamento con reinserimento dalla popolazione dei tipi di coupon; Xi è il coupon che riceviamo all'i-esimo acquisto. La proprietà di scambiabilità Torniamo al modello generale consistente nell'estrarre a caso n unità dalla popolazione D, con o senza reinserimento. 2. Mostra che ogni permutazione di (X1, X2, ..., Xn) ha la medesima distribuzione di (X1, X2, ..., Xn) stesso (cioè uniforme sullo spazio campionario appropriato S). Una sequenza di variabili casuali che godono di tale proprietà è detta scambiabile. Anche se il concetto è molto semplice da afferrare, sia intuitivamente che formalmente, è in ogni caso estremamente importante. Useremo spesso nel corso di questo capitolo la proprietà di scambiabilità. 3. Mostra che ogni sequenza di m delle n variabili esito è distribuita uniformemente sullo spazio campionario appropriato: http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn1.html (2 di 5) [22/11/2001 17.53.53] Introduzione 1. Dm se l'estrazione è con reinserimento. 2. Dm se l'estrazione è senza reinserimento. In particolare, per ciascun modello di campionamento, Xi è distribuita uniformemente su D per ogni i. 4. Mostra che, se l'estrazione è con reinserimento, X1, X2, ..., Xn sono indipendenti. Pertanto, nel caso di campionamento con reinserimento, le variabili del campione formano un campione casuale dalla distribuzione uniforme, in senso tecnico. 5. Mostra che, se l'estrazione è senza reinserimento, allora la distribuzione condizionata della sequenza di m delle variabili esito data una sequenza di altre j variabili esito è la distribuzione uniforme sull'insieme delle permutazioni di dimensione m estratte dalla popolazione quando le j unità note sono rimosse (ovviamente, m + j non può essere maggiore di n). In particolare, Xi e Xj sono dipendenti per i e j distinti se il campionamento è senza reinserimento. Campioni non ordinati In molti casi, in particolare se il campionamento è senza reinserimento, l'ordine in cui le unità vengono estratte non è rilevante, ciò che importa è l'insieme (non ordinato) di unità: W = {X1, X2, ..., Xn}. Supponiamo in primo luogo che l'estrazione avvenga senza reinserimento. In questo caso, W assume valori nell'insieme di combinazioni di dimensione n estratte da D: T = {{x1, x2, ..., xn}: x1, x2, ..., xn in D sono distinti}. 6. Mostra che #(T) = C(N, n) 7. Prova che W è distribuita uniformemente su T: P(W B) = #(B) / #(T) = #(B) / C(N, n) per B T. Suggerimento: Per ogni combinazione di dimensione n da D, esistono n! permutazioni di dimensione n. Se l'estrazione è con reinserimento, W assume valori nella collezioni di sottinsiemi di D, di dimensione da 1 a n: T = {{x1, x2, ..., xn}: x1, x2, ..., xn in D}. 8. Prova che #(T) = C(N + n - 1, n). 9. Mostra che W non è distribuita uniformemente su T. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn1.html (3 di 5) [22/11/2001 17.53.53] Introduzione Esercizi computazionali 10. Supponi di estrarre un campione di dimensione 2 dalla popolazione {1, 2, 3, 4, 5, 6}. Fai la lista di tutti i campioni 1. Ordinati con reinserimento. 2. Ordinati senza reinserimento. 3. Non ordinati con reinserimento. 4. Non ordinati senza reinserimento. 11. Nell'esperimento delle carte con n = 5 carte (poker), mostra che ci sono 1. 311875200 mani ordinate 2. 2598960 mani non ordinate 12. Nell'esperimento delle carte con n = 13 carte (bridge), mostra che ci sono 1. 3954242643911239680000 mani ordinate 2. 635013559600 mani non ordinate 13. Nell'esperimento delle carte, poni n = 3. Simula 5 replicazioni e ogni volta segna le sequenza (ordinate) di carte che darebbero la stessa mano non ordinata che hai ottenuto. 14. Nell'esperimento delle carte, mostra che 1. Yi è distribuita uniformemente su {1, 2, ..., 13} per ogni i. 2. Zi è distribuita uniformemente su {0, 1, 2, 3} per ogni i. 15. Nell'esperimento delle carte, mostra che Yi e Zj sono indipendenti per ogni i e j. 16. Nell'esperimento delle carte, mostra che (Y1, Y2), (Z1, Z2) sono dipendenti. Confronta questo risultato con quello dell'esercizio precedente. 17. Supponi di estrarre una sequenza di 5 carte. 1. Trova la probabilità che la terza carta sia di picche. 2. Trova la probabilità che la seconda e la quarta carta siano regine. 3. Trova la probabilità condizionata che la seconda carta sia di cuori sapendo che la quinta è di cuori. 4. Trova la probabilità che la terza carta sia una regina e la quarta sia di cuori. 18. Replica l'esperimento delle carte 500 volte, aggiornando ogni volta. Calcola la frequenza relativa che corrisponde a ciascun valore di probabilità nell'esercizio precedente. 19. Trova la probabilità che una mano di bridge non contega "10", jack, regine, re o assi. Tale mano si dice Yarborough, in onore di Earl of Yarborough. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn1.html (4 di 5) [22/11/2001 17.53.53] Introduzione Il problema della chiave Supponiamo che una persona abbia n chiavi, di cui solo una apre una certa porta. La persona prova a caso le chiavi. Indicheremo con N il numero di prova alla quale la persona trova la chiave giusta. 20. Supponi che le chiavi che non aprono vengano scartate (il che è la cosa più razionale da fare, ovviamente). Prova che 1. P(N = i) = 1 / n per i = 1, 2, ..., n. Quindi N ha distribuzione uniforme su {1, 2, ..., n}. 2. E(N) = (n + 1) / 2. 3. var(N) = (n2 - 1) / 12. 21. Supponi che le chiavi che non aprono non vengano scartate (magari la persona ha bevuto un po' troppo). Prova che 1. P(N = i) = [(n - 1) / n]i - 1(1 / n) for i = 1, 2, ... Quindi N ha distribuzione geometrica su {1, 2, ...} con parametro 1 / n. 2. E(N) = n. 3. var(N) = n(n - 1). Laboratorio virtuale > Modelli di campionamento finito > [1] 2 3 4 5 6 7 8 9 10 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn1.html (5 di 5) [22/11/2001 17.53.53] Problema della moneta di Buffon Laboratorio virtuale > Modelli geometrici > [1] 2 3 4 5 1. Problema della moneta di Buffon L'esperimento della moneta di Buffon è un esperimento casuale, molto antico e conosciuto, che prende nome dal conte di Buffon. L'esperimento consiste nel lanciare a caso una moneta su un pavimento coperto da mattonelle di identica forma. L'evento di interesse è che la moneta cada su una intercapedine tra le mattonelle. Inizieremo a modellare il problema della moneta di Buffon con il caso di mattonelle quadrate di lato 1 (assumere lunghezza del lato unitaria equivale a misurare la distanza in unità di lato). Assunzioni Iniziamo definendo l'esperimento in termini più formali. Come al solito, procederemo idealizzando gli oggetti fisici: assumiamo che la moneta sia un cerchio perfetto di raggio r e che le intercapedini siano segmenti di linee. Un modo naturale per descrivere l'esito dell'esperimento è registrare il centro della moneta relativamente al centro della mattonella su cui è caduta. Più precisamente, costruiremo assi di coordinate tali che la mattonella dove cade la moneta occupi il quadrato S = [-1/2, 1/2]2 = {(x, y): -1/2 x 1/2, -1/2 y 1/2} Ora, quando la moneta viene lanciata, indichiamo il suo centro con (X, Y) S cosicché S è lo spazio campionario e X e Y sono le nostre variabili casuali. Assumiamo infine che r < 1/2 per cui è almeno possibile che la moneta cada dentro una mattonella senza toccare una delle intercapedini. Ora dobbiamo definira una misura di probabilità appropriata per il nostro vettore aleatorio (X, Y). Se la moneta è gettata "a caso" sul pavimento, è naturale assumere che (X, Y) sia distribuita uniformemente su S. Per definizione ciò significa che P[(X, Y) A] = area(A) / area(S) per A S. http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon1.html (1 di 3) [22/11/2001 17.53.58] Problema della moneta di Buffon 1. Esegui l'esperimento della moneta di Buffon con le impostazioni predefinite. Osserva come i punti finiscono per riempire lo spazio campionario S in maniera uniforme. La probabilità di toccare un'intercapedine Il nostro interesse è puntato sull'evento C in cui la moneta cade su un intercapedine. In ogni caso, sembra più semplice descrivere l'evento complementare, in cui la moneta non incrocia nessuna fessura. 2. Mostra che Cc = {r - 1/2 < X < 1/2 - r, r - 1/2 < Y < 1/2 - r} 3. Usa il risultato dell'esercizio 2 per mostrare che 1. P(Cc) = (1 - 2r)2 2. P(C) = 1 - (1 - 2r)2. 4. Usa l'analisi (o ciò che sai sulle parabole) per provare che P(C), in funzione di r, ha il grafico sotto riportato: 5. Nell'esperimento della moneta di Buffon, modifica il raggio con la barra a scorrimento e osserva come variano gli eventi C e Cc. Simula l'esperimento con diversi valori di r e confronta l'esperimento fisico coi punti della dispersione. Osserva la convergenza della frequenza relativa di C alla probabilità di C. La convergenza della frequenza relativa di un evento (al ripetersi dell'esperimento) alla probabilità dell'evento è un caso particolare della legge dei grandi numeri. 6. Risolvi il problema della moneta di Buffon nel caso di mattonelle rettangolari di altezza h e base w. http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon1.html (2 di 3) [22/11/2001 17.53.58] Problema della moneta di Buffon 7. Risolvi il problema della moneta di Buffon nel caso di mattonelle triangolari di lato 1. Laboratorio virtuale > Modelli geometrici > [1] 2 3 4 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon1.html (3 di 3) [22/11/2001 17.53.58] La distribuzione multinomiale Laboratorio virtuale > Prove Bernoulliane > 1 2 3 4 5 [6] 7 6. La distribuzione multinomiale Prove multinomiali Un processo di prove multinomiali è una successione di variabili casuali indipendenti e identicamente distribuite U1, U2, ..., ciascuna suscettibile di assumere k possibili valori. Pertanto il processo di prove multinomiali è una semplice generalizzazione del processo di prove Bernoulliane (che corrisponde al caso k = 2). Per semplicità indicheremo gli esiti con gli interi 1, 2, ..., k. La funzione di densità comune alle variabili della prova è pi = P(Uj = i) per i = 1, 2, ..., k (e per ogni j). Ovviamente pi > 0 per ogni i e p1 + p2 + ··· + pk = 1. Analogamente al caso della distribuzione binomiale, siamo interessati alle variabili che indicano il numero di volte in cui ciascun esito si è verificato. Sia Zi = #{j {1, 2, ..., n}: Uj = i} per i = 1, 2, ..., k (per semplicità omettiamo la dipendenza da n). Notiamo che Z1 + Z2 + ··· + Zk = n, per cui se conosciamo i valori di k - 1 delle variabili di conteggio, possiamo trovare il valore della rimanente. Così come per ogni altra variabile di conteggio, possiamo esprimere Zi come somma di variabili indicatore: 1. Prova che Zi = Ii1 + Ii2 + ··· + Iin dove Iij = 1 if Uj = i e Zij = 0 altrimenti. Distribuzioni Per ricavare le distribuzioni congiunte, marginali e condizionate delle variabili conteggio possiamo utilizzare alcuni semplici strumenti di indipendenza e calcolo combinatorio. In particolare, ricordiamo la definizione di coefficiente multinomiale C(n; j1, j2, ..., jk) = n! / (j1! j2! ··· jk!) per interi positivi j1, j2, ..., jk con j1 + j2 + ··· + jk = n. 2. Prova che per interi positivi j1, j2, ..., jk con j1 + j2 + ··· + jk = n, P(Z1 = j1, Z2 = j2, ..., Zk = jk) = C(n; j1, j2, ..., jk) p1j1 p2j2 ··· pkjk. La distribuzione di (Z1, Z2, ..., Zk) è detta distribuzione multinomiale con parametri n e http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli6.html (1 di 4) [22/11/2001 17.54.04] La distribuzione multinomiale p1, p2, ..., pk. Diciamo inoltre che (Z1, Z2, ..., Zk-1) ha tale distribuzione (ricorda che i valori di k - 1 delle variabili di conteggio determinano il valore della rimanente). Di solito è chiaro dal contesto il senso in cui si intende il termine distribuzione multinomiale. Di nuovo, la semplice distribuzione binomiale corrisponde a k = 2. 3. Prova che Zi ha distribuzione binomiale con parametri n e pi: P(Zi = j) = C(n, j) pij (1 - pi)n - j for j = 0, 1, ..., n La distribuzione multinomiale è preservata dalla combinazione delle variabili di conteggio. In particolare, supponiamo che A1, A2, ..., Am sia una partizione dell'insieme di indici {1, 2, ..., k} in sottinsiemi non vuoti. Per ciascun j, sia Wj la somma degli Zi sugli i in Aj, e sia qj la somma dei pi sugli i in Aj. 4. Mostra che (W1, W2, ..., Wm) ha distribuzione multinomiale con parametri n e q1, q2, ..., qm. La distribuzione multinomiale rimane anche quando alcune delle variabili di conteggio sono osservate. In particolare, supponiamo che A, B sia una partizione dell'insieme di indici {1, 2, ..., k} in sottinsiemi non vuoti. Supponiamo di osservare Zj = zj per j appartenente a B. Sia z la somma degli zj sugli j appartenenti a B, e sia p la somma dei pi sugli i appartenenti a A. 5. Mostra che la distribuzione condizionata di Zi, i appartenente a A dato Zj = zj, j appartenente a B è multinomiale con parametri n - z e pi / p per i appartenente a A. Combinazioni dei risultati degli esercizi 5 e 6 possono essere utilizzate per calcolare qualunque distribuzione marginale o condizionata. 6. Nell'esperimento dei dadi, seleziona il numero di uno. Per ciascuna distribuzione del dado, inizia con un dado e aggiungine uno ogni volta, osservando la forma della funzione di densità. Quando arrivi a 10 dadi, esegui la simulazione, aggiornando ogni 10 replicazioni. Osserva la convergenza delle frequenze relative alla funzione di densità. Momenti Calcoliamo ora media, varianza, covarianza e correlazione delle variabili di conteggio, utilizzando i risultati relativi alla binomiale e la rappresentazione in termini di variabili indicatore. 7. Prova che 1. E(Zi) = npi. 2. var(Zi) = npi(1 - pi). http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli6.html (2 di 4) [22/11/2001 17.54.04] La distribuzione multinomiale 8. Mostra che, per i e j distinti, 1. cov(Zi, Zj) = -n pi pj. 2. cor(Zi, Zj) = - {pi pj / [(1 - pi)(1 - pj)]}1/2. Dall'esercizio 8, nota che il numero di volte che si verifica l'esito i e il numero di volte che si verifica l'esito j sono negativamente correlati, ma la correlazione non dipende da n o k. Ti sembra ragionevole? 9. Usa il risultato dell'esercizio 8 per mostrare che, se k = 2, allora il numero di volte che si verifica il risultato 1 e il numero di volte che si verifica l'esito 2 sono perfettamente correlati. Ti sembra ragionevole? 10. Nell'esperimento dei dadi, seleziona il numero di uno. Per ciascuna distribuzione del dado, inizia con un dado e aggiungine uno ogni volta, osservando la dimensione e la posizione della barra media/deviazione standard. Quando arrivi a 10 dadi, esegui la simulazione, aggiornando ogni 10 replicazioni. Osserva la convergenza dei momenti empirici ai momenti teorici. Problemi computazionali 11. Supponi di lanciare 10 dadi equilibrati. Trova la probabilità che 1. I punteggi 1 e 6 si verifichino una volta ciascuno e gli altri punteggi due volte ciascuno. 2. I punteggi 2 e 4 si presentino 3 volte ciascuno. 3. Ci siano 4 punteggi pari e 6 punteggi dispari. 4. I punteggi 1 e 3 si presentino due volte ciascuno sapendo che il punteggio 2 si presenta una volta e il 5 tre volte. 12. Supponi di lanciare 4 dadi piatti uno-sei (le facce 1 e 6 hanno probabilità 1/4 ciascuna e le facce 2, 3, 4 e 5 hanno probabilità 1/8 ciascuna). Trova la funzione di densità congiunta del numero di volte in cui ogni punteggio si verifica. 13. Nell'esperimento dei dadi, seleziona 4 dadi piatti uno-sei. Simula 500 replicazioni, aggiornando ogni volta. Calcola la funzione di frequenza relativa congiunta del numero di volte che ciascun punteggio si presenta. Confronta la funzione di frequenza relativa con la funzione di densità teorica. 14. Supponi di lanciare 20 dadi piatti uno-sei. Trova covarianza e correlazione del numero di uno e due. 15. Nell'esperimento dei dadi, seleziona 20 dadi piatti uno-sei. Simula 500 replicazioni, aggiornando ogni volta. Calcola i valori empirici di covarianza e correlazione del numero di uno e di due. Confronta i risultati coi loro valori teorici trovati nell'esercizio 14. http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli6.html (3 di 4) [22/11/2001 17.54.04] La distribuzione multinomiale Laboratorio virtuale > Prove Bernoulliane > 1 2 3 4 5 [6] 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli6.html (4 di 4) [22/11/2001 17.54.04] Inferenza nel modello ipergeometrico Laboratorio virtuale > Modelli di campionamento finito > 1 2 [3] 4 5 6 7 8 9 10 3. Inferenza nel modello ipergeometrico Concetti preliminari Supponiamo ancora di avere una popolazione dicotomica D con R unità di tipo 1 e N - R di tipo 2. Come nell'introduzione, estraiamo a caso n unità da D: X = (X1, X2, ..., Xn), dove Xi appartenente a D è l'i-esima unità estratta. In molte applicazioni reali, i parametri R o N (o entrambi) possono essere ignoti. In tal caso, si può essere interessati a trarre inferenza dai parametri ignoti basandosi sulle osservazioni di Y, ovvero il numero di unità di tipo 1 nel campione. Assumiamo per iniziare che il campionamento avvenga senza reinserimento, il che è l'ipotesi più realistica nella maggior parte dei casi. Ricordiamo che, in questo caso, Y ha distribuzione ipergeometrica con parametri n, R e N. Stima di R con N noto Supponiamo che la dimensione della popolazione N sia nota, ma che sia ignoto il numero R di unità di tipo 1. Tale situazione si può presentare, ad esempio, se abbiamo una scatola di N chip di memoria che contengono un numero di unità difettose R. Sarebbe troppo costoso e forse distruttivo sottoporre a test tutti gli N chip, per cui si possono invece selezionare n chip a caso e sottoporli a test. Un semplice stimatore di R può essere ricavato sperando che la proporzione campionaria di unità di tipo uno sia prossima alla proporzione nella popolazione di unità di tipo 1. Cioè, Y / n ~ R / N per R ~ N Y / n. 1. Prova che E(N Y / n) = R. Il risultto dell'esercizio 1 implica che N Y / n è uno stimatore corretto per R. Quindi la varianza è misura della qualità dello stimatore, nel senso della media quadratica. 2. Mostra che var(N Y / n) = R (N - R) (N - n) / [n (N - 1)]. 3. Prova che, per dati N e R, l'errore quadratico medio tende a 0 per n che tende a N. Lo stimatore quindi migliora all'aumentare della dimensione campionaria; tale proprietà è nota come consistenza. 4. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 50, R = 20 e n = 10. Simula 100 replicazioni, aggioranando ogni volta. 1. Per ciascuna replicazione, calcola N Y / n (stima di R), NY / n - R (errore) e (NY / http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn3.html (1 di 4) [22/11/2001 17.54.10] Inferenza nel modello ipergeometrico n - R)2 (errore quadratico). 2. Calcola l'errore medio e l'errore quadratico medio per le 100 replicazioni. 3. Calcola la radice quadrata dell'errore quadratico medio e confronta tale valore, ricavato empiricamente, con la varianza dell'esercizio 2. 5. Supponi che, da una scatola di 100 chip di memoria, se ne estraggano a caso e senza reinserimento 10. I chip vengono provati e 2 risultano difettosi. Stima il numero di chip difettosi nell'intera scatola. 6. Un comune ha 5000 elettori. Supponi che se ne scelgano a caso 100 e che, intervistati, 40 preferiscano il candidato A. Stima il numero di elettori del comune che preferiscono A. Campioni per accettazione A volte non siamo interessati alla stima di R, ma a determinare se R raggiunge o supera un certo valore critico C. Questa situazione si presenta in particolare per i campioni per accettazione. Supponiamo di avere una popolazione di unità buone o difettose. Se il numero di unità difettose R è maggiore o uguale a C (il valore critico), allora rifiutiamo l'intero lotto. Testare tutte le unità è costoso e distruttivo, per cui dobbiamo testare un campione casuale di n unità (ovviamente estratte senza reinseirmento) e basare la nostra decisione di accettare o rifiutare il lotto sul numero di unità difettose nel campione. Chiaramente, l'unico approccio ragionevole è scegliere un nuovo valore critico c e rifiutare il lotto se il numero di unità difettose nel campione è maggiore o uguale a c. In termini statistici, abbiamo descritto un test di ipotesi. Nei seguenti esercizi, poni N = 100 e C = 10. Rifiutiamo il lotto di 100 unità se il numero di unità difettose R è 10 o più. Supponiamo di poterci permettere al massimo di verificare n = 10 unità. Analizziamo in primo luogo il test seguente: Rifiutare il lotto se il numero di unità difettose del campione è almeno 1. 7. Per ciascuno dei seguenti valori di R (il numero "vero" di unità difettose), trova la probabilità di prendere la decisione corretta e quella di prendere la decisione sbagliata: 1. R = 6 2. R = 8 3. R = 10 4. R = 12 5. R = 14 8. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 100 e n = 10. Per ciascuno dei valori di R proposti nell'esercizio 7, simula 1000 replicazioni, aggiornando ogni 100. Calcola la frequenza relativa dei rifiuti e confrontala con la probabilità trovata nell'esercizio 7. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn3.html (2 di 4) [22/11/2001 17.54.10] Inferenza nel modello ipergeometrico Analizziamo ora il test seguente: Rifiutare il lotto se il numero di unità difettose del campione è almeno 2. 9. Per ciascuno dei seguenti valori di R (il numero "vero" di unità difettose), trova la probabilità di prendere la decisione corretta e quella di prendere la decisione sbagliata: 1. R = 6 2. R = 8 3. R = 10 4. R = 12 5. R = 14 10. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 100 e n = 10. Per ciascuno dei valori di R proposti nell'esercizio 9, simula 1000 replicazioni, aggiornando ogni 100. Calcola la frequenza relativa dei rifiuti e confrontala con la probabilità trovata nell'esercizio 9. 11. Dei due test appena visti, 1. Quale funziona meglio quando il lotto dovrebbe essere accettato (R < 10)? 2. Quale funziona meglio quando il lotto dovrebbe essere rifiutato (R 10)? Stima di N con R noto Supponiamo ora che il numero di unità di tipo 1 R sia noto e che la dimensione della popolazione N sia ignota. Come esempio di questo tipo di situazione, supponiamo di avere un lago contenente N pesci, con N ignoto. Catturiamo R pesci, li marchiamo e li ributtiamo nel lago. Poi catturiamo di nuovo n pesci e osserviamo Y, numero di pesci marchiati nel campione. Vogliamo stimare N a partire da questi dati. In questo contesto, il problema della stima è detto a volte problema di cattura-ricattura. 12. Pensi che l'assunzione principale dell'esperimento delle palline e dell'urna, ovvero equiprobabilità dei campioni, sia soddisfatto in un problema reale di cattura e ricattura? Spiega perché. Di nuovo, possiamo ricavare una stima di N sperando che la proporzione campionaria delle unità di tipo 1 sia prossima alla proporzione della popolazione di unità di tipo 1. Cioè Y / n ~ R / N per N ~ nR / Y (se Y > 0). Quindi, il nostro stimatore per N è nR / Y se Y > 0 ed è indefinito se Y = 0. 13. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 80, R = 30 e n = 20. Simula 100 replicazioni, aggiornando ogni volta 1. Per ciascuna replicazione, calcola nR / Y (stima di R), nR / Y - N (errore) e (nR / Y - N)2 (errore quadratico). 2. Calcola l'errore medio e l'errore quadratico medio per le 100 replicazioni. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn3.html (3 di 4) [22/11/2001 17.54.10] Inferenza nel modello ipergeometrico 3. Calcola la radice quadrata dell'errore quadratico medio. Tale valore è una stima empirica dell'errore quadratico medio dello stimatore. 14. In un certo lago si catturano 200 pesci, li si marchiano e li si ributtano nel lago. Poi si catturano 100 pesci e si vede che 10 di essi sono marchiati. Stima la popolazione di pesci nel lago. 15. Prova che, se k > 0, allora nR / k massimizza P(Y = k) in funzione di N per dati R e n. Ciò significa che nR / Y è lo stimatore di massima verosimiglianza di N. 16. Usa la disuguaglianza di Jensen per mostrare che E(nR / Y) Lo stimatore è quindi distorto e tende a sovrastimare N. Infatti, se n = 0) > 0, E(nR / Y) è infinito. N. N - R, per cui P(Y 17. Nell'esperimento delle palline e dell'urna, seleziona campionamento senza reinserimento e poni N = 100, R = 60 e n = 30. Simula 100 replicazioni, aggiornando ogni volta. Per ciascuna replicazione, calcola nR / Y, stima di N. Fai la media delle stime e confrontala con N. Per un approccio diverso alla stima di N, vedi il paragrafo sulle statistiche d'ordine. Estrazioni con reinserimento Supponiamo ora che il campionamento sia con reinserimento, anche se ciò è poco realistico in molte applicazioni pratiche. In questo caso, Y ha distribuzione binomiale con parametri n e R / N. 18. Prova che 1. E(N Y / n) = R. 2. var(N Y / n) = R (N - R) / n. Quindi lo stimatore di R con N noto è sempre corretto, ma ha errore quadratico medio maggiore. Pertanto il campionamento senza reinserimento funziona meglio, qualunque siano i valori dei parametri, di quello con reinserimento. Laboratorio virtuale > Modelli di campionamento finito > 1 2 [3] 4 5 6 7 8 9 10 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn3.html (4 di 4) [22/11/2001 17.54.10] La distribuzione ipergeometrica multivariata Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 [4] 5 6 7 8 9 10 4. La distribuzione ipergeometrica multivariata Supponiamo ora di avere una popolazione di più tipi, in cui ciascuna unità è di uno dei k tipi. Per esempio, possiamo avere un'urna con palline di diversi tipi, o una popolazione di elettori che possono essere democratici, repubblicani o indipendenti. Sia Di il sottinsieme di tutte le unità di tipo i e sia Ni il numero di unità di tipo i, per i = 1, 2, ..., k. Quindi D = D1 D2 ··· Dk e N = N1 + N2 + ··· + Nk. Il modello dicotomico considerato in precedenza è ovviamente un caso particolare con k = 2. Come nel modello di campionamento semplice, estraiamo a caso n unità da D: X = (X1, X2, ..., Xn), dove Xi appartenente a D è l'i-esima unità estratta. Sia ora Yi il numero di unità di tipo i nel campione, per i = 1, 2, ..., k. Notiamo che Y1 + Y2 + ··· + Yk = n, per cui se conosciamo i valori di k - 1 delle variabili conteggio, possiamo trovare il valore della rimanente. Così come avviene per le altre variabili di conteggio, possiamo esprimere Yi come somma di variabili indicatore: 1. Prova che Yi = Ii1 + Ii2 + ··· + Iin dove Iij = 1 se Xj appartiene a Di e Iij = 0 altrimenti. Per iniziare, possiamo assumere che le estrazioni avvengano senza reinserimento, poiché si tratta del caso più realistico nella maggior parte delle applicazioni. Distribuzioni Per ricavare la densità congiunta delle variabili di conteggio si possono usare semplici risultati di calcolo combinatorio. Ricordiamo che, poiché si estrae senza reinserimento, il campione non ordinato è distribuito uniformemente sulle conbinazioni di dimensione n estratte da D. 2. Mostra che, per interi nonnegativi j1, j2, ..., jk con j1 + j2 + ··· + jk = n, P(Y1 = j1, Y2 = j2, ..., Yk = jk) = C(N1, j1)C(N2, j2) ··· C(Nk, jk) / C(N, n). La distribuzione di (Y1, Y2, ..., Yk) è detta distribuzione ipergeometrica multivariata con parametri N, N1, N2, ..., Nk e n. Si dice anche che (Y1, Y2, ..., Yk - 1) ha tale distribuzione (ricordiamo di nuovo che k - 1 valori qualsiasi delle variabili individuano il valore della restante). Di solito è evidente dal contesto of quale significato dare a ciò. La distribuzione ipergeometrica ordinaria corrisponde a k = 2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn4.html (1 di 5) [22/11/2001 17.54.17] La distribuzione ipergeometrica multivariata 3. Ricava la seguente formula alternativa della densità ipergeometrica multivariata in due modi: combinatorialmente, considerando il campione ordinato distribuito uniformemente sulle permutazioni di dimensione n estratte da D, e algebricamente, a partire dal risultato dell'esercizio 2. P(Y1 = j1, Y2 = j2, ..., Yk = jk) = C(n; j1, j2, ..., jk) (N1)j1(N2)j2··· (Nk)jk / (N)n. 4. Prova che Yi ha distribuzione ipergeometrica con parametri N, Ni e n: P(Yi = j) = C(Ni, j)C(N - Ni, n - j) / C(N, n) per j = 0, 1, ..., n. La distribuzione ipergeometrica multivariata permane sotto combinazioni delle variabili di conteggio. In particolare, supponiamo che A1, A2, ..., Al sia una partizione dell'insieme degli indici {1, 2, ..., k} in sottinsiemi non vuoti. Per ogni j, sia Wj la somma degli Yi sugli i in Aj e sia Mj la somma degli Ni sugli i in Aj. 5. Mostra che (W1, W2, ..., Wl) ha distribuzione ipergeometrica multivariata con parametri N, M1, M2, ..., Ml e n. La distribuzione ipergeometrica multivariata permane anche quando alcune delle variabili di conteggio sono note. In particolare, supponiamo che A, B sia una partizione dell'insieme di indici {1, 2, ..., k} in sottinsiemi non vuoti. Supponiamo di osservare Yj = yj per j appartenente a B. Sia z la somma degli yj sui j in B e sia M la somma degli Ni sugli i in A. 6. Mostra che la distribuzione condizionata degli Yi, per i appartenenti ad A dati Yj = yj, per j appartenenti a B è ipergeometrica multivariata con parametri M, Ni, per i appartenente ad A e n - z. Combinando i risultati degli esercizi 5 e 6 si possono calcolare le distribuzioni marginali o condizionate delle variabili di conteggio. Momenti Vediamo ora come calcolare media, varianza, covarianza e correlazione delle variabili di conteggio. Gli strumenti principali che utilizzeremo sono i risultati relativi alla distribuzione ipergeometrica univariata e la rappresentazione in termini di variabili indicatore. 7. Mostra che 1. E(Yi) = n Ni / N 2. var(Yi) = n (Ni / N)(1 - Ni / N) (N - n) / (N - 1) 8. Supponi che i e j siano distinti. Prova che 1. cov(Iir, Ijr) = -NiNj / N2 per r = 1, 2, ..., n. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn4.html (2 di 5) [22/11/2001 17.54.17] La distribuzione ipergeometrica multivariata 2. cov(Iir, Ijs) = -NiNj / [N2(N - 1)] per distinti r, s = 1, 2, ..., n. 9. Supponi che i e j siano distinti. Prova che 1. cor(Iir, Ijr) = -{NiNj / [(N - Ni)(N - Nj)]}1/2 per r = 1, 2, ..., n. 2. cor(Iir, Ijs) = {NiNj / [(N - Ni)(N - Nj)]}1/2 [1 / (N - 1)] per distinti r, s = 1, 2, ..., n. In particolare, Iir, Ijr sono negativamente correlati per i e j distnti e per qualsiasi valore di r e s. Ti sembra ragionevole? 10. Usa il risultato degli esercizi 7 e 8 per mostrare che, per i e j distinti, 1. cov(Yi, Yj) = -(nNiNj / N2)[(N - n) / (N - 1)] 2. cor(Yi, Yj) = -{NiNj / [(N - Ni)(N - Nj)]}1/2. Estrazioni con reinserimento Supponiamo ora che le estrazioni avvengano con reinserimento, anche se questa assunzione è spesso poco realistica nelle applicazioni reali. 11. Mostra che il tipo di unità del campione forma una sequenza di n prove multinomiali con parametri N1 / N, N2 / N, ..., Nk / N. I seguenti risultati discendono immediatamente dalla teoria generale delle prove multinomiali, anche se si possono usare dimostrazioni diverse. 12. Prova che (Y1, Y2, ..., Yk) ha distribuzione multinomiale con parametri n e N1 / N, N2 / N, ..., Nk / N: per interi non negativi j1, j2, ..., jk con j1 + j2 + ··· + jk = n, P(Y1 = j1, Y2 = j2, ..., Yk = jk) = C(n; j1, j2, ..., jk) N1j1N2j2··· Nkjk / Nn. 13. Mostra che 1. E(Yi) = n Ni / N. 2. var(Yi) = n (Ni / N)(1 - Ni / N). 3. cov(Yi, Yj) = -(nNiNj / N2) per i e j distinti. 4. cor(Yi, Yj) = -{NiNj / [(N - Ni)(N - Nj)]}1/2 per i e j distinti. Convergenza dell'ipergeometrica multivariata alla multinomiale Supponiamo che la dimensione della popolazione N sia molto grande rispetto alla dimensione del campione n. In questo caso, sembra ragionevole che il campionamento senza reinserimento non sia troppo diverso da quello con reinserimento, e che quindi la distribuzione ipergeometrica multivariata possa essere approssimata con la multinomiale. L'esercizio seguente precisa meglio questa osservazione. Si tratta di un risultato molto utile nella pratica, poiché in molti casi non si conosce con precisione l'ampiezza della popolazione. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn4.html (3 di 5) [22/11/2001 17.54.17] La distribuzione ipergeometrica multivariata 14. Supponi che Ni dipenda da N e che Ni / N pi in [0, 1] per N for i = 1, 2, ..., k. Prova che, per dato n, la funzione di densità ipergeometrica multivariata con parametri N, N1, N2, ..., Nk, e n converge alla funzione di densità multinomiale con parametri n e p1, p2..., pk. Suggerimento: Usa la rappresentazione dell'esercizio 3. Problemi computazionali 15. Supponi che si estragga casualmente da un mazzo standard di 52 carte una mano di bridge (13 carte). Trova la probabilità che la mano contenga 1. 4 carte di cuori. 2. 4 carte di cuori e 3 di picche. 3. 4 carte di cuori, 3 di picche e 2 di fiori 4. 7 carte rosse e 6 carte nere. 16. Supponi che si estragga casualmente da un mazzo standard di 52 carte una mano di bridge (13 carte). Trova 1. Media e varianza del numero di carte di cuori. 2. Covarianza tra numero di carte di cuori e di picche. 3. Correlazione tra numero di carte di cuori e di picche. 17. Una popolazione di 100 elettori è formata da 40 repubblicani, 35 democratici e 25 indipendenti. Si estrae un campione di 10 elettori 1. Trova la probabilità che il campione contenga almeno 4 repubblicani, 3 democratici e 2 indipendenti. 2. Trova l'approssimazione multinomiale alla probabilità in (a). 18. Supponi che si estragga casualmente da un mazzo standard di 52 carte una mano di bridge (13 carte). Trova la probabilità condizionata che la mano contenga 1. 4 cuori e 3 picche dati 4 fiori. 2. 4 cuori dati 3 picche e 2 fiori. Vuoti Nell'esperimento delle carte, una mano che non contiene carte di un certo seme è detta vuota in tale seme. 19. Usa la regola di inclusione-esclusione per mostrare che la probabilità che una mano di poker sia vuota in almeno un seme è 1913496 / 2598960 ~ 0.736. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn4.html (4 di 5) [22/11/2001 17.54.17] La distribuzione ipergeometrica multivariata 20. Nell'esperimento delle carte, poni n = 5. Simula 1000 replicazioni, aggiornando ogni volta. Calcola la frequenza relativa dell'evento in cui la mano sia vuota in almeno un seme e confrontala con la probabilità trovata nell'esercizio 10. 21. Usa la regola di inclusione-esclusione per mostrare che la probabilità che una mano di bridge sia vuoa in almeno un seme è 32427298180 / 635013559600 ~ 0.051. Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 [4] 5 6 7 8 9 10 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn4.html (5 di 5) [22/11/2001 17.54.17] Il problema del collezionista Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 7 8 [9] 10 9. Il problema del collezionista Concetti preliminari L'esperimento casuale consiste nel campionare ripetutamente, con reinserimento, dalla popolazione D = {1, 2, ..., N}. Si genera così una sequenza di variabili casuali indipendenti, ciascuna con distribuzione uniforme su D: X1, X2, X3, ... Interpretiamo questo tipo di campionamento come una collezione di figurine: ogni volta che il collezionista compra un certo prodotto (gomme da masticare o cereali, per esempio), riceve una figurina o un giocattolo, equiprobabilmente uno degli N tipi. Quindi, in questo contesto, Xi è il tipo di figurina che si trova all'i-esimo acquisto. Sia VN, n il numero di valori distinti nelle prime n estrazioni, cioè la variabile casuale che abbiamo visto nel paragrafo precedente. In questo paragrafo ci interessiamo alla dimensione campionaria necessaria per avere k valori distinti: WN, k = min{n: VN, n = k}, k = 1, 2, ..., N. In termini del collezionista, tale variabile casuale indica il numero di acquisti necessari per avere k tipi di figurine diverse. Notiamo che i valori possibili di WN, k sono k, k + 1, k + 2, .... Siamo particolarmente interessati a WN,N, cioè la dimensione campionaria necessaria per ottenere l'intera popolazione. In termini del collezionista, ciò rappresenta il numero di prodotti necessario per avere l'insieme completo di figurine. 1. Nell'esperimento del collezionista, poni N = 50 e modifica k. Osserva forma e posizione del grafico di densità. Con k = 20, esegui l'esperimento passo per passo un paio di volte e osserva i risultati. Simula poi 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alla distribuzione "vera". La funzione di densità Troviamo ora la distribuzione di WN, k. Ci saranno d'aiuto i risultti del paragrafo precedente 2. Dimostra che WN, k = n se e solo se VN, n - 1 = k - 1 and VN, n = k. 3. Usa l'esercizio 2 e la probabilità condizionata per provare che P(WN, k = n) = P(VN, n - 1 = k - 1)(N - k + 1) / N. http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn9.html (1 di 3) [22/11/2001 17.54.24] Il problema del collezionista 4. Usa il risultato dell'esercizio precedente e la distribuzione di VN, n - 1 individuata nel paragrafo precedente per mostrare che n = k, k + 1, ..., P(WN,k = n) = C(N - 1, k - 1) j = 0, ..., k - 1 (-1)j C(k - 1, j)[(k - 1 - j) / N]n - 1. 5. Nell'esperimento del collezionista, poni N = 100 e modifica k. Osserva forma e posizione del grafico di densità. Con k = 50, esegui l'esperimento passo per passo un paio di volte e osserva i risultati. Simula poi 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alla funzione di densità. 6. Supponi che dei soggetti vengano selezionati a caso finché non si ottengono 10 distinte settimane di nascita. Trova la probabilità che si estraggano al più 12 persone. 7. Supponi di lanciare un dado equilibrato finché non sono usciti tutti e 6 i punteggi. Trova la probabilità di tirare meno di 10 volte. 8. Le scatole di una certa marca di cereali contengono un pupazzo di 10 tipi diversi. Trova la probabilità di trovarli tutti acquistando al più 15 scatole. Momenti Mostreremo ora come WN, k possa essere scompsta in una somma di k variabili indipendenti e con distribuzione geometrica. Ciò spiega meglio la natura della distribuzione e rende più semplice il calcolo di media e varianza. Per i = 1, 2, ... N, sia Zi il numero di valori campionari necessari per passare da i - 1 a i valori distinti. 9. Dimostra che 1. Z1, Z2, ..., ZN sono indipendenti. 2. Zi ha distribuzione geometrica con parametro pi = (N - i + 1) / N. 3. WN, k = Z1 + Z2 + ··· + Zk. L'esercizio 9 mostra che, una volta ottenuta una figurina, diventa più difficile ottenere la seguente. 10. Nell'esperimento del collezionista, poni N = 50 e modifica k. Osserva forma e posizione del grafico di densità. Con k = 25, esegui l'esperimento passo per passo un paio di volte e osserva i risultati. Simula poi 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle statistiche campionarie ai parametri della distribuzione. 11. Usa il risultato dell'esercizio 9 per mostrare che 1. E(WN, k) = i = 1, ..., k N / (N - i + 1). http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn9.html (2 di 3) [22/11/2001 17.54.24] Il problema del collezionista 2. var(WN, k) = i = 1, ..., k (i - 1)N / (N - i + 1)2. 12. Calcola media e deviazione standard del numero di persone che devono essere scelte per avere 10 settimane di nascita distinte. 13. Calcola media e deviazione standard del numero di volte che un dado dev'essere lanciato per avere tutti e sei i punteggi. 14. Le scatole di una certa marca di cereali contengono un pupazzetto di 10 tipi diversi. Trova media e deviazione standard del numero di scatole che si devono acquistare per avere la collezione completa di pupazzi. 15. Calcola media e deviazione standard del numero di persone che devono essere scelte per avere compleanni tutti e 365 i giorni dell'anno. 16. Nell'esperimento del collezionista, poni N = 10 e modifica k. Osserva forma e posizione del grafico di densità. Con k = 10, esegui l'esperimento passo per passo un paio di volte e osserva i risultati. Simula poi 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle statistiche campionarie ai parametri della distribuzione. 17. Usa il risultato dell'esercizio 9 per mostrare che la funzione generatrice di probabilità di WN, k è GN, k(t) = tk i = 1, ..., k [N - (i - 1)] / [N - (i - 1)t] for |t| < N / (k - 1). Relazione ricorsiva Un approccio alternativo alla distribuzione della dimensione campionaria necessaria per avere k valori distinti è tramite una formula ricorsiva. 18. Sia cN, k(n) = P(WN, k = n) per n = k, k + 1, .... Usa la probabilità condizionata per mostrare che cN, k(n + 1) = [(k - 1) / N]cN, k(n) + [(N - k + 1) / N]cN, k - 1(n). Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 7 8 [9] 10 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn9.html (3 di 3) [22/11/2001 17.54.24] Note conclusive Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 7 8 9 [10] 10. Note conclusive Simulazione dei campioni casuali È molto semplice simulare un campione casuale di dimensione n con reinserimento da D = {1, 2, ..., N}. Ricorda che la funzione ceil(x) dà il minore intero maggiore di x. 1. Sia Ui un numero casuale per i = 1, 2, ..., n. Prova che Xi = ceil(NUi), i = 1, 2, ..., n simula un campione casuale con reinserimento da D. È un po' più difficile simulare un campione di dimensione n, senza reinserimento, poiché dobbiamo rimuovere il valore estratto prima di ogni estrazione successiva. 2. Prova che l'algoritmo seguente genera un campione casuale di dimensione n, senza reinserimento, da D. Per i = 1 a N, sia bi = i. Per i = 1 a n, sia j = N – i + 1; sia Ui = numero casuale; sia J = ceil(j Ui); sia Xi = bJ; sia k = bj; sia bj = bJ; sia bJ = k. Restituisci (X1, X2, ..., Xn). Argomenti correlati ● Il campionamento con reinserimento (o campionamento da popolazione infinita) dà variabili casuali indipendenti e identicamente distribuite. Il capitolo sui campioni casuali studia in generale variabili di tale tipo. ● I giochi di carte sono basati su estrazioni senza reinserimento; i giochi di dadi su estrazioni con reinserimento. Il capitolo sui giochi presenta alcuni risultati in questo senso. Le prove multinomiali sono basate sul campionamento con reinserimento da una popolazione di più tipi. Il problema della stima dei parametri a partire da un campione casuale è analizzato nel capitolo sulla stima puntuale. ● ● Libri http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn10.html (1 di 5) [22/11/2001 17.54.39] Note conclusive ● Il miglior riferimento sulla probabilità combinatoria resta forse il classico An Introduction to Probability Theory and its Applications, di William Feller. ● Un numero incredibile di problemi di probabilità possono essere formulati in termini di esperimenti di palline e urne. Il rfierimento migliore per questa teoria è Urn Models and Their Application di Johnson e Kotz. Risposte agli esercizi del paragrafo 1 1.17. 1. 1 / 4 2. 1 / 221 3. 4 / 17 4. 1 / 52 1.19. 0.000547 Risposte agli esercizi del paragrafo 2 2.15. Y = numero di chip difettosi nel campione 1. P(Y = k) = C(10, k) C(90, 5 - k) / C(100, 5) per k = 0, 1, 2, 3, 4, 5. 2. E(Y) = 0.5, var(Y) = 0.432 3. P(Y > 0) = 0.416 2.16. Y = numero di donne, Z = 10 - Y = numero di uomini 1. E(Y) = 6, var(Y) = 1.959 2. E(Z) = 4, var(Z) = 1.959 3. P(Y = 0) + P(Y = 10) = 0.00294 2.22. Y = numero di pesci marchiati nel campione 1. P(Y 2) = 0.6108 2. P(Y 2) = 0.6083 3. Errore relativo: 0.0042. 2.23. 0.6331 Risposte agli esercizi del paragrafo 3 3.5. 20 3.6. 2000 3.7. R Corretto Sbagliato http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn10.html (2 di 5) [22/11/2001 17.54.39] Note conclusive 6 0.523 8 0.417 10 0.670 12 0.739 14 0.795 0.478 0.583 0.330 0.261 0.205 3.9. R Corretto Sbagliato 6 0.890 0.109 8 0.818 0.182 10 0.262 0.732 12 0.343 0.657 14 0.424 0.526 3.11. 1. Rifiuta il lotto se Y 2. 2. Rifiuta il lotto se Y 1. 3.14. 2000 Risposte agli esercizi del paragrafo 4 4.15. 1. 0.2386 2. 0.0741 3. 0.0180 4. 0.2385 4.16. 1. 3.25 2. 1.864 3. -0.6213 4. -1 / 3 4.17. 1. 0.2370 2. 0.2168 4.18. 1. 0.0753 2. 0.3109 http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn10.html (3 di 5) [22/11/2001 17.54.39] Note conclusive Risposte agli esercizi del paragrafo 5 5.6. 1. P(X(3) = k) = C(k - 1, 2) C(25 - k, 2) / C(25, 5) per k = 3, 4, ..., 22 2. E(X(3)) = 13 3. var(X(3)) = 125 / 7. 5.17. 1437 5.19. 2322 Risposte agli esercizi del paragrafo 6 6.5. 1,334,961 6.9. k 0 1 2 3 45 b5(k) 44 45 20 10 0 1 6.12. k 0 1 2 3 45 P(N5 = k) 0.3667 0.3750 0.1667 0.0833 0 0.0083 6.22. 1. 1 / 100 2. 1 / 16 Risposte agli esercizi del paragrafo 7 7.5. 0.6029 7.7. 0.2778 7.9. 0.6181 7.11. 0.3024 7.14. 9 Risposte agli esercizi del paragrafo 8 8.9. 0.3041 8.11. 0.2218 http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn10.html (4 di 5) [22/11/2001 17.54.39] Note conclusive 8.14. 0.3415 8.16. 0.3174 8.20. 87.576, 2.942 8.21. 22.952, 1.826 8.21. 9.894, 1.056 8.25. Sia V il numero di risposte distinte. 1. j 1 2 3 P(V = j) 1/16 9/16 6/16 2. P(V = 1) = 1/16 3. E(V) = 37/16 4. sd(V) = 0.6830 8.25. Sia V il numero di oche uccise. 1. j 1 2 3 4 5 P(V = j) 1/10000 927/2000 9/50 63/127 189/625 2. E(V) = 4.095 3. sd(V) = 0.727 Risposte agli esercizi del paragrafo 9 9.6. 0.9104 9.7. 0.8110 9.8. 0.0456 9.12. 10.988, 1.130 9.13. 14.700, 6.244 9.14. 29.290, 11.211 9.15. 2364.646, 456.207 Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 7 8 9 [10] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/urn/urn10.html (5 di 5) [22/11/2001 17.54.39] Craps Laboratorio virtuale > Giochi di fortuna > 1 2 3 [4] 5 6 7 8 4. Craps Craps è un gioco popolare nei casinò grazie alla sua complessità e alla ricca varietà di puntate che si possono fare. Una tavola da craps tipica è mostrata nella figura seguente: Secondo Richard Epstein, craps discende da un gioco precedente detto Hazard, che risale al medioevo. Le regole di Hazard vennero precisate formalmente da Montmort all'inizio del 1700. L'origine del nome craps è dubbia, ma può derivare dall'inglese crabs (granchi) o dal francese Crapeaud (rospo). Dal punto di vista formale, craps è interessante perché costituisce un esempio di esperimento casuale in fasi distinte; l'evoluzione del gioco dipende dall'esito del primo lancio. In particolare, il numero di lanci è una variabile casuale. Definizione del gioco Le regole di craps sono le seguenti: il giocatore (detto tiratore) lancia due dadi equilibrati 1. Se la somma è 7 o 11 al primo lancio, il tiratore ha vinto; tale evento è detto natural. 2. Se la somma è 2, 3, o 12 al primo lancio, il tiratore ha perso; tale evento è detto craps. 3. Se la somma è 4, 5, 6, 8, 9, o 10 al primo lancio, tale numero è il punteggio del tiratore. Il tiratore continua a tirare i dadi finché esce di nuovo il punteggio (nel qual caso vince) o esce 7 (nel qual caso perde). Finché il giocatore vince o perde tirando craps, tiene i dadi e continua a tirare. Una volta che http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games4.html (1 di 6) [22/11/2001 17.54.49] Craps perde non riuscendo a fare il punteggio, si passano i dadi al tiratore seguente. Consideriamo il gioco in termini più formali. L'assunzione di base è ovviamente che i dadi siano equilibrati e che gli esiti dei vari lanci siano indipendenti. Sia N il numero di lanci effettuato e sia (Xi, Yi) l'esito dell'i-esimo lancio per i = 1, 2, ..., N. Infine, sia Zi = Xi + Yi, la somma dei punteggi all'i-esimo lancio, e sia I la variabile indicatore della vittoria del giocatore. 1. Nell'applet craps, esegui un paio di volte l'esperimento e osservane gli esiti. Assicurati di aver capito bene le regole del gioco. La probabilità di vittoria Calcoliamo la probabilità che il tiratore vinca in più fasi, basandoci sull'esito del primo lancio. 2. Prova che Z1 ha la funzione di densità di probabilità riportata nella tabella seguente: z 2 3 4 5 6 7 8 9 10 11 12 P(Z1 = z) 1 / 36 2 / 36 3 / 36 4 / 36 5 / 36 6 / 36 5 / 36 4 / 36 3 / 36 2 / 31 1 / 36 La probabilità che il giocatore tiri il punteggio può essere calcolata utilizzando il condizionamento. Per esempio, supponiamo che il giocatore tiri un 4, per cui 4 è il punteggio. Il giocatore continua a tirare finché non esce un 4 o un 7. Il lancio finale è quindi uno dei seguenti: (1, 3), (2, 2), (3, 1), (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1). Poiché i dadi sono equilibrati, i risultati sono equiprobabili, pertanto la probabilità che il giocatore faccia il punteggio 4 è 3 / 9). Un'argomento simile può essere utilizzato per gli altri punti. I risultati sono presentati nell'esercizio seguente. 3. Prova che la probabilità di fare il punteggio z sono quelle riportate nella tabella seguente: z 4 5 6 8 9 10 P(I = 1 | Z1 = z) 3 / 9 4 / 10 5 / 11 5 / 11 4 / 10 3 / 9 4. Usa i risultati degli esercizi 1 e 3 per mostrare che 1. P(I = 1) = 244 / 495 ~ 0.49292 2. P(I = 0) = 251 / 495 ~ 0.50707 Notiamo che craps è un gioco quasi equilibrato. Puntate Nel gioco del craps vi è un'incredibile varietà di puntate. Negli esercizi seguenti presenteremo alcune puntate tipiche e calcoleremo le loro densità, media e deviazione standard. (La maggior parte di tali puntate sono evidenziate nella figura del tavolo da craps presentata sopra). Notiamo, in ogni caso, che alcuni dei dettagli delle puntate e in particolare gli odds variano da casinò a casinò. Ovviamente il valore atteso di ogni puntata è inevitabilmente negativo (per il giocatore), per cui il giocatore è destinato a perdere, nel lungo termine. Tuttavia, come vedremo, alcune puntate sono migliori di altre. Una puntata pass punta sul fatto che il tiratore vinca e paga 1:1. http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games4.html (2 di 6) [22/11/2001 17.54.49] Craps 5. Sia W la vincita di una puntata pass unitaria. Mostra che 1. P(W = -1) = 251 / 495, P(W = 1) = 244 / 495. 2. E(W) = -0.0141. 3. sd(W) = 0.9999. 6. Nell'applet craps, seleziona la puntata pass. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Una puntata don't pass punta sul fatto che il tiratore perda, a parte il fatto che il 12 al primo lancio è escluso (cioè, il tiratore perde, ma chi ha puntato su don't pass non vince né perde). Tale è il significato della frase don't pass bar double 6 sul tavolo da craps. Anche la puntata don't pass paga 1:1. 7. Sia W la vincita di una puntata don't pass unitaria. Mostra che 1. P(W = -1) = 244 / 495, P(W = 0) = 1 / 36, P(W = 1) = 949 / 1980. 2. E(W) = -0.01363. 3. sd(W) = 0.9859. 8. Nell'applet craps, seleziona la puntata don't pass. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Le puntate come e don't come sono analoghe a pass e don't pass, ma vengono fatte dopo aver stabilito il punteggio. Una puntata field è relativa all'esito del tiro successivo. Paga 1:1 se esce 3, 4, 9, 10, o 11, 2:1 se esce 2 o 12 e perde altrimenti. 9. Sia W la vincita di una puntata field unitaria. Mostra che 1. P(W = -1) = 5 / 9, P(W = 1) = 7 / 18, P(W = 2) = 1 / 18. 2. E(W) = -0.0556 3. sd(W) = 1.0787 10. Nell'applet craps, seleziona la puntata field. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Una puntata 7 è relativa all'esito del lancio successivo. Paga 4:1 se esce un 7 e perde altrimenti. Similmente, una puntata 11 paga 15:1 se esce 11. Nonostante la cabalistica del numero 7, mostreremo nel prossimo esercizio che la puntata 7 è una delle peggiori. 11. Sia W la vincita di una puntata 7 unitaria. Mostra che 1. P(W = -1) = 5 / 6, P(W = 4) = 1 / 6. 2. E(W) = -0.1667. 3. sd(W) = 1.8634. 12. Nell'applet craps, seleziona la puntata 7. Simula 1000 replicazioni, aggiornando ogni 10, e http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games4.html (3 di 6) [22/11/2001 17.54.49] Craps osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? 13. Sia W la vincita di una puntata 11 unitaria. Mostra che 1. P(W = -1) = 17 / 18, P(W = 15) = 1 / 18. 2. E(W) = -0.1111 3. sd(W) = 3.6650; 14. Nell'applet craps, seleziona la puntata 11. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Tutte le puntate craps sono relative al tiro successivo. Pagano 7:1 se esce 2, 3 o 12 e perdono altrimenti. Similmente, la craps 12 paga 30:1 se esce un 12 e perde altrimenti. Infine, la craps 3 paga 15:1 se esce 3 e perde altrimenti 15. Sia W la vincita di una puntata craps unitaria. Mostra che 1. P(W = -1) = 8 / 9, P(W = 7) = 1 / 9. 2. E(W) = -0.1111. 3. sd(W) = 2.5142 16. Nell'applet craps, seleziona la puntata craps. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? 17. Sia W la vincita di una puntata craps 2 o craps 12 unitaria. Mostra che 1. P(W = -1) = 35 / 36, P(W = 30) = 1 / 36. 2. E(W) = -0.1389. 3. sd(W) = 5.0944. 18. Nell'applet craps, seleziona la puntata craps 2. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? 19. Nell'applet craps, seleziona la puntata craps 12. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? 20. Sia W la vincita di una puntata craps 3 unitaria. Mostra che 1. P(W = -1) = 17 / 18, P(W = 15) = 1 / 18. 2. E(W) = -0.1111 3. sd(W) = 3.6650. 21. Nell'applet craps, seleziona la puntata craps 3. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games4.html (4 di 6) [22/11/2001 17.54.49] Craps netta? La puntata big 6 scommette che 6 esca prima di 7. Similmente, la puntata big 8 scommette che 8 esca prima di 7. Entrambe pagano alla pari (1:1). 22. Sia W la vincita di una puntata big 6 o big 8 unitaria. Mostra che 1. P(W = -1) = 6 / 11, P(W = 1) = 5 / 11. 2. E(W) = -0.0909 3. sd(W) = 0.9959 23. Nell'applet craps, seleziona la puntata big 6. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? 24. Nell'applet craps, seleziona la puntata big 8. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Una puntata hardway può essere fatta sui numeri 4, 6, 8 o 10. Scommette che il numero scelto n esca "a metà" cioè (n / 2, n / 2), prima che esca 7 e prima che il numero scelto esca in qualche altra combinazione. Le puntate sul 4 e sul 10 pagano 7:1 e quelle sul 6 e l'8 9:1. 25. Sia W la vincita di una puntata hardway 4 o hardway 10 unitaria. Mostra che 1. P(W = -1) = 8 / 9, P(W = 7) = 1 / 9. 2. E(W) = -0.1111. 3. sd(W) = 2.5142 26. Nell'applet craps, seleziona la puntata hardway 4. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? 27. Nell'applet craps, seleziona la puntata hardway 10. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? 28. Sia W la vincita di una puntata hardway 6 o hardway 8 unitaria. Mostra che 1. P(W = -1) = 10 / 11, P(W = 9) = 1 / 11. 2. E(W) = -0.0909 3. sd(W) = 2.8748 29. Nell'applet craps, seleziona la puntata hardway 6. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? 30. Nell'applet craps, seleziona la puntata hardway 8. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games4.html (5 di 6) [22/11/2001 17.54.49] Craps teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? La distribuzione del numero di lanci Calcoliamo ora la distribuzione e i momenti del numero di lanci N in una partita di craps. Tale variabile casuale non è di interesse particolare per il casinò o i giocatori, ma costituisce un buon esercizio. Per definizione, se il tiratore vince o perde al primo tiro, N = 1. Altrimenti il tiratore continua finché non fa il punteggio o tira 7. In quest'ultimo caso, possiamo utilizzare la distribuzione geometrica, che indica il numero di prova a cui si verifica il primo successo in una sequenza di prove Bernoulliane. 31. Mostra che P(N = 1 | Z1 = z) = 1 if z = 2, 3, 7, 11, 12. 32. Mostra che P(N = n | Z1 = z) = p(1 - p)n - 2 per n = 2, 3, 4, ... per i valori di z e p indicati nella tabella seguente. La distribuzione condizionata di N - 1 dato Z1 = z è quindi geometrica con parametro p. z4 5 6 8 9 10 p 9 / 36 10 / 36 11 / 36 11 / 36 10 / 36 9 / 36 La distribuzione di N è una mistura. 33. Usa il risultato dell'esercizio precedente per mostrare che 1. P(N = 1) = 12 / 36. 2. P(N = n) = (1 / 24)(3 / 4)n - 2 + (5 / 81)(13 / 18)n - 2 + (55 / 648)(25 / 36)n - 2 per n = 2, 3, ... 34. Semplifica numericamente per trovare i primi valori della funzione di densità di probabilità di N: n 1 2 3 4 5 P(N = n) 0.33333 0.18827 0.13477 0.09657 0.06926 35. Trova la probabilità che il gioco duri più di 8 lanci. 36. Usa il condizionamento e i momenti della distribuzione geometrica per mostrare che 1. E(N) = 3.3758 2. E(N2) = 15.0013. 3. var(N) = 3.6056. 4. sd(N) = 1.8988. Laboratorio virtuale > Giochi di fortuna > 1 2 3 [4] 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games4.html (6 di 6) [22/11/2001 17.54.49] Introduzione Laboratorio virtuale > Prove Bernoulliane > [1] 2 3 4 5 6 7 1. Introduzione Prove Bernoulliane Il processo di Bernoulli, così detto in onore di James Bernoulli, è uno dei più semplici ma più importanti processi aleatori di tutta la probabilità. Essenzialemnte, il processo è l'astrazione matematica del lancio di una moneta, ma a causa della sua ampia applicabilità è spesso espresso in termini di una sequenza di prove generiche che soddisfano le seguenti assunzioni: 1. Ogni prova ha due possibili esiti, detti in genere successo e fallimento. 2. Le prove sono indipendenti. Intuitivamente, l'esito di una prova non ha influenza sugli esiti delle altre. 3. In ogni prova, la probabilità di successo è p e quella di fallimento è 1 - p. In termini formali, possiamo definire la sequenza di prove Bernoulliane come vettore di variabili casuali indicatore: I1, I2, I3, ... Una variabile indicatore è una variabile casuale che assume i valori 1 e 0, che in questo contesto indicano rispettivamente successo e fallimento. La j-esima variabile indicatore registra semplicemente l'esito della prova j. Quindi, le variabili indicatore sono indipendenti e hanno la stessa funzione di densità: P(Ij = 1) = p, P(Ij = 0) = (1 - p) Pertanto, il processo di prove di Bernoulli è caratterizzato da un singolo parametro p. Come abbiamo notato poc'anzi, l'esempio più ovvio di prova Bernoulliana è quello del lancio della moneta, dove successo indica testa e fallimento croce. Il parametro p è la probabilità di testa (per cui, in generale, la moneta è sbilanciata). 1. Nell'esperimento della moneta, poni n = 20 e p = 0.1. Simula l'esperimento con p = 0.1 e osserva i risultati. Ripeti con p = 0.3, 0.5, 0.7, 0.9. 2. Usa le assunzioni di base per mostrare che P(I1 = i1, I2 = i2, ..., In = in) = pk(1 - p)n-k dove k = i1 + i2 + ··· + in. 3. Supponi che I1, I2, I3, ... sia un processo di prove di Bernoulli con parametro p. Mostra che 1 - I1, 1 - I2, 1 - I3, ... è un processo di prove di Bernoulli con parametro 1 - p. Esempi generici http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli1.html (1 di 5) [22/11/2001 17.54.58] Introduzione In un certo senso, l'esempio più generale di prova di Bernoulli si ha replicando un esperimento. In particolare, supponiamo di avere un esperimento aleatorio semplice e un evento di interesse A. Supponiamo ora di creare un esperimento composto formato da replicazioni indipendenti dell'esperimento semplice. Definiamo successo alla prova j il fatto che l'evento A si sia verificato in tale prova, e viceversa fallimentio il fatto che A non si sia verificato. Ciò definisce ovviamente un processo di prove di Bernoulli con parametro p = P(A). Le prove di Bernoulli si verificano anche estraendo campioni da una popolazione dicotomica. Specificamente, supponiamo di avere una popolazione di due tipi di unità, che indicheremo come tipo 0 e tipo 1. Le unità possono essere ad esempio persone, classificate come maschio o femmina, o componenti, classificati come funzionante o difettoso. Estraiamo n unità a caso dalla popolazione; per definizione, ciò significa che ogni unità della popolazione ha uguale probabilità di essere estratta. Se l'estrazione avviene con reinserimento, allora ciascuna unità estratta viene reinserita prima dell'estrazione successiva. In questo caso, le prove successive sono indipendenti, per cui i tipi di unità del campione formano una serie di prove Bernoulliane, in cui il parametro p è la proporzione di oggetti di tipo 1 all'interno della popolazione. Se l'estrazione avviene senza reinserimento, allora le estrazioni sono dipendenti, per cui le unità del campione non formano una sequenza di prove Bernoulliane. Ad ogni modo, se la numerosità della popolazione è elevata rispetto a quella del campione, la dipendenza provocata dal mancato reinseirmento può essere trascurabile, per cui a fini pratici le unità del campione possono essere trattate come sequenza di prove Bernoulliane. Ulteriori approfondimenti sul campionamento da una popolazione dicotomica si trova nel capitolo sui modelli di campionamento finiti. Momenti Per riferimento futuro, calcoliamo media, varianza e funzione generatrice di probabilità di una generica variabile indicatore I con P(I = 1) = p. 4. Prova che E(I) = p 5. Prova che var(I) = p(1 - p) 6. Prova che E(tI) = 1 - p + pt per t appartenente a R. 7. Disegna il grafio della varianza dell'esercizio 5 in funzione di p. Nota in particolare che la varianza è massima per p = 1/2 e minima per p = 0 o p = 1. Esercizi 8. Supponi che uno studente faccia un test a risposta multipla. Il test presenta 10 domande, ciascuna delle quali ha 4 possibili risposte (di cui una sola è corretta). Se lo studente tira a indovinare, le domande formano una sequenza di prove Bernoulliane? Se si, identifica gli esiti della prova e il parametro p. http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli1.html (2 di 5) [22/11/2001 17.54.58] Introduzione 9. Il candidato A concorre per una carica pubblica in un certo comune. Si scelgono a caso tra gli elettori del comune venti persone e si chiede se approvano il candidato. Le risposte formano una sequenza di prove Bernoulliane? Se si, identifica gli esiti della prova e il significato del parametro p. 10. Una roulette americana ha 38 caselle: 18 rosse, 18 nere e 2 verdi. Un giocatore gioca 15 volte, puntando ogni volta sul rosso. Gli esiti formano una sequenza di prove Bernoulliane? Se si, identifica gli esiti della prova e il parametro p.. 11. Due giocatori di tennis giocano 6 partire. Le partite formano una sequenza di prove Bernoulliane? Se si, identifica gli esiti della prova e il significato del parametro p. Esame del sangue raggruppato Supponiamo che ogni soggetto di una popolazione, indipendentemente dagli altri, abbia una certa malattia con probabilità p. La malattia può essere identificata tramite un esame del sangue, ma ovviamente l'esame costa. Per un gruppo di k > 1 persone, confronteremo due strategie. La prima è sottoporre a test i k soggetti individualmente, cosicché, ovviamente, servono k test. La seconda è di raggruppare il sangue prelevato dai k soggetti e esaminare per primo il sangue raggruppato. Assumeremo che il test dia esito negativo se e solo se tutti e k i soggetti sono sani; in questo caso serve solo un test. D'altra parte, il test dà esito positivo se e solo se almeno un soggetto è malato, e in questo caso si dovranno testare i soggetti individualmente; in questo caso servono k + 1 test. Sia quindi X il numero di test necessari per la strategia di raggruppamento. 12. Prova che 1. P(X = 1) = (1 - p)k, P(X = k + 1) = 1 - (1 - p)k. 2. E(X) = (k + 1) - k (1 - p)k. 13. Mostra che, in termini di valore atteso, la strategia di raggruppamento è migliore dell'altra se e solo se p < 1 - (1 / k)1 / k. Il grafico del valore critico pk = 1 - (1 / k)1 / k in funzione di k nell'intervallo [2, 20] è mostrato nel grafico seguente: http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli1.html (3 di 5) [22/11/2001 17.54.58] Introduzione 14. Prova che 1. Il valore massimo di pk si verifica in k = 3, e p3 ~ 0.307. 2. pk tende a 0 per k che tende a . Segue dagli esercizi 13 e 14 che se p > 0.307, il raggruppamento non ha senso, indipendentemente dalla dimensione del gruppo k. Al contrario, se p è molto piccolo, per cui la malattia è molto rara, il raggruppamento è ottimale a meno che la dimensione del gruppo k non sia molto grande. Supponiamo ora di avere n soggetti. Per ogni k che divide n, possiamo partizionare la popolazione in n / k gruppi di k unità ciascuno e raggruppare i prelievi di sangue in ogni gruppo. Nota che k = 1 corrisponde all'esame individuale. Sia Xi il numero di test necessari per il gruppo i. 15. Spiega perché k > 1, X1, X2, ..., Xn/k sono indipendenti e ciascuno ha la distribuzione riportata nell'esercizio 12. Il numero totale di test necessario in questo schema di partizionamento è Yk = X1 + X2 + ··· + Xn/k. 16. Mostra che il numero atteso totale di test è 1. E(Yk) = n se k = 1 2. E(Yk) = n[1 + 1 / k - (1 - p)k] se k > 1. Quindi, in termini di valore atteso, la strategia ottimale è di raggruppare la popolazione in n / k gruppi di dimensione k, dove k minimizza la funzione definita nell'esercizio precedente. È difficile ottenere una formula chiusa per il valore ottimale di k, ma questo valore può essere determinato numericamente per dati n e p. 17. Per i valori seguenti di n e p, trova la dimensione di raggruppamento ottimale k e il numero atteso di test. http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli1.html (4 di 5) [22/11/2001 17.54.58] Introduzione 1. n = 100, p = 0.01. 2. n = 1000, p = 0.05 3. n = 1000, p = 0.001 Laboratorio virtuale > Prove Bernoulliane > [1] 2 3 4 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli1.html (5 di 5) [22/11/2001 17.54.58] La distribuzione binomiale negativa Laboratorio virtuale > Prove Bernoulliane > 1 2 3 4 [5] 6 7 5. La distribuzione binomiale negativa Supponiamo ancora una volta che il nostro esperimento casuale consista nell'eseguire delle prove Bernoulliane I1, I2, ... In questo paragrafo studieremo la variabile casuale Yk che indica il numero di prove necessario per il k-esimo successo. Notiamo che Y1 è il numero di prove necessarie per avere il primo successo, che abbiamo indicato con distribuzione geometrica. Ricordiamo inoltre che Xn, il numero di successi nelle prime n prove, ha distribuzione binomiale con parametri n e p. La funzione di densità 1. Mostra che Yk = n se e solo se In = 1 e Xn-1 = k - 1. 2. Usa l'esercizio 1, l'indipendenza e la distribuzione binomiale per provare che P(Yk = n) = C(n - 1, k - 1)pk(1 - p)n - k for n = k, k + 1, k + 2, ... La distribuzione definita dalla funzione di densità dell'esercizio 2 è detta distribuzione binomiale negativa; ha due parametri: il numero di successi k e la probabilità di successo p. 3. Nell'esperimento della binomiale negativa, modifica k e p con le barre a scorrimento e osserva la forma della funzione di densità. Poni k = 2 e p = 0.4 ed esegui l'esperimento aggiornando ogni 10 replicazioni. Osserva la convergenza delle frequenze relative ai loro valori teorici. 4. Prova che le sequenze binomiale e binomiale negativa sono l'una l'inversa dell'altra nel senso che Xn k se e solo se Yk n Quindi ogni evento che può essere rappresentato in termini della binomiale negativa può anche essere espresso in termini della distribuzione binomiale. 5. Prova che P(Yk = n) > P(Yk = n - 1) se e solo se n < (k - 1 + p) / p. Quindi la funzione di densità prima cresce e poi decresce, raggiungendo il massimo per l'intero maggiore in (k - 1 + p) / p. Tale intero è la moda della distribuzione, per cui la distribuzione binomiale negativa è unimodale. 6. Si lancia un dado bilanciato finché non escono 3 uno. Trova la probabilità che servano almeno 15 lanci. http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli5.html (1 di 6) [22/11/2001 17.55.07] La distribuzione binomiale negativa Somma di variabili geometriche indipendenti Definiamo le variabili casuali che indicano il numero di prove tra i successi consecutivi: Z1 = Y1 e Zk = Yk - Yk-1 per k = 2, 3, ... 7. Dimostra che tali variabili sono indipendenti e hanno ciascuna distribuzione geometrica con parametro p. Inoltre, Yk = Z1 + Z2 + ··· + Zk. La media, varianza e la funzione generatrice di probabilità di Yk seguono facilmente dai risultati sulla distribuzione geometrica. 8. Dimostra che E(Yk) = k / p. 9. Prova che var(Yk) = k(1 - p) / p2. 10. Mostra che E(tYk) = [pt / (1 - t + tp)]k per |t| < 1 / (1 - p). 11. Supponi che U e V siano variabili casuali indipendenti relative a un certo esperimento, che U abbia distribuzione binomiale negativa con parametri j e p e che V abbia distribuzione binomiale negativa con parametri k e p. Prova che U + V ha distribuzione binomiale negativa con parametri j + k e p. 1. Dai una dimostrazione probabilistica, basandoti sulle prove Bernoulliane. 2. Dai una dimostrazione basata sulla funzione generatrice dei momenti. 12. Nell'esperimento della binomiale negativa, modifica k e p con le barre a scorrimento e osserva la posizione e la dimensione della barra media/deviazione standard. Poni k = 3 e p = 0.25 ed esegui l'esperimento aggiornando ogni 10 replicazioni. Osserva la convergenza di media e deviazione standard campionarie ai loro valori teorici. 13. Un certo tipo di missile ha probabilità di fallimento 0.02. Trova media e deviazione standard del numero di lanci per il quarto fallimento. Approssimazione alla normale 14. Nell'esperimento della binomiale negativa, inizia con p = 0.5 e k = 1. Incrementa k di 1 e osserva ogni volta la forma della funzione di densità. Ripeti per p = 0.3 e p = 0.8. Anche se siamo limitati a k = 5, possiamo comunque vedere la caratteristica forma campanulare. Ciò è conseguenza del teorema del limite centrale, poiché la variabile casuale binomiale negativa può essere scritta come somma di k variabili casuali (geometriche) indipendenti e identicamente distribuite. 15. Prova che la distribuzione della variabile standardizzata tende alla distribuzione normale standardizzata al crescere di k. http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli5.html (2 di 6) [22/11/2001 17.55.07] La distribuzione binomiale negativa (Yk - k / p) / [k(1 - p) / p]1/2 = (pYk - k) / [k(1 - p)]1/2. 16. Nell'esperimento della binomiale negativa, inizia con p = 0.5 e k = 5. Simula 1000 replicazioni, aggiornando ogni 100, e calcola e confronta i seguenti valori: 1. P(8 Y5 15) 2. La frequenza relativa dell'evento {8 3. L'approssimazione normale a P(8 Y5 Y5 15}. 15). 17. Si lancia una moneta finché non esce la cinquantesima testa. 1. Assumendo che la moneta sia bilanciata, trova l'approssimazione normale alla probabilità che la moneta debba essere lanciata almeno 125 volte. 2. Supponi di eseguire l'esperimento e che siano necessari 125 lanci. Credi che la moneta sia equilibrata? Il problema dei fiammiferi di Banach Supponiamo che un professore distratto (ce ne sono di non distratti?) abbia N fiammiferi nella tasca destra e N fiammiferi nella tasca sinistra. Quando ha bisogno di un fiammifero per accendersi la pipa, pesca con uguale probabilità da una tasca o dall'altra. Vogliamo calcolare la funzione di densità della variabile casuale W che indica il numero di fiammiferi che restano quando il professore si accorge che una delle sue tasche è vuota. Questo problema è detto problema dei fiammiferi di Banach, in onore del matematico Stefan Banach, che evidentemente si comportava in questo modo. Possiamo riformulare il problema utilizzando la distribuzione binomiale. Chiaramente, la scelta dei fiammiferi forma una sequenza di prove Bernoulliane con paramatro p = 1/2. Più precisamente, possiamo considerare un fiammifero preso dalla tasca destra come vittoria del giocatore R e uno preso dalla tasca sinistra come vittoria del giocatore L. In un'ipotetica sequenza infinita di prove, sia Y il numero di prove necessarie affinché R vinca N + 1 prove e Z il numero di prove necessarie affinché L vinca N + 1 prove. Notiamo che sia Y che Z hanno distribuzione binomiale negativa con parametri N + 1 e p. 18. Per k = 0, 1, ..., N, prova che 1. L vince N - k prove nel momento in cui R vince N + 1 prove se e solo se Y = 2N - k +1 2. {Y = 2N - k + 1} è equivalente all'evento in cui il professore scopre che la tasca di destra è vuota e nella sinistra restano k fiammiferi 3. P(Y = 2N - k + 1) = C(2N - k, N)(1/2)2N - k + 1. 19. Per k = 0, 1, ..., N, prova che 1. R vince N - k prove nel momento in cui L vince N + 1 prove se e solo se Z = 2N - k +1 2. {Z = 2N - k + 1} è equivalente all'evento in cui il professore scopre che la tasca di http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli5.html (3 di 6) [22/11/2001 17.55.07] La distribuzione binomiale negativa sinistra è vuota e nella destra restanok fiammiferi 3. P(Z = 2N - k + 1) = C(2N - k, N)(1/2)2N - k + 1. 20. Combina i risultati dei due esercizi precedeti per concludere che P(W = k) = C(2N - k, N) (1/2)2N - k per k = 0, 1, ..., N. Col metodo proposto si può risolvere anche il problema dei fiammiferi di Banach non simmetrico. Supponiamo che il professore cerchi nella tasca destra con probabilità p e nella sinistra con probabilità 1 - p, dove 0 < p < 1. Ciò che cambia nell'analisi è che Y ha distribuzione binomiale negativa con parametri N + 1 e p, mentre Z ha distribuzione binomiale negativa con parametri N + 1 e 1 - p. 21. Prova che P(W = k) = C(2N - k, N)[pN + 1 (1 - p)N - k + (1 - p)N pN - k] per k = 0, 1, ..., N. Il problema dei punti Supponi che due squadre (o due individui) A e B giochino una sequenza di prove Bernoulliane, dove p è la probabilità che il giocatore A vinca una prova. Per due interi non negativi n e m, sia Fn,m(p) la probabilità che A faccia n punti prima che B ne faccia m. Il calcolo di Fn,m(p) è un problema storico noto come problema dei punti, che fu risolto da Pierre de Fermat e Blaise Pascal. 22. Commenta la validità dell'assunzione di prove Bernoulliane (indipendenza delle prove e probabilità di successo costante) per i giochi sportivi che presentano una componente di abilità oltre a quella casuale. La soluzione al problema dei punti è semplice utilizzando la distribuzione binomiale (fu questa la soluzione proposta da Pascal). Assumiamo ce si giochino n + m - 1 partite, indipendentemente dagli esiti, e sia Xn + m - 1 il numero di prove in cui A vince. Per definizione Xn + m - 1 ha distribuzione binomiale con parametri n + m - 1 e p. 23. Mostra che A vince n partite prima che B ne vinca m se e solo se Xn + m - 1 n. 24. Usa il risultato dell'esercizio precedente per mostrare che Fn,m(p) = k = n, ..., n + m -1 C(n + m - 1, k) pk(1 - p)n + m - 1 - k. 25. Nell'esperimento del problema dei punti, modifica i parametri n, m e p, e osserva come variano le probabilità. Con n = 10, m = 5 e p = 0.5, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla probabilità. Esiste un'altra soluzione al problema che ricorre all'uso della distribuzione binomiale http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli5.html (4 di 6) [22/11/2001 17.55.07] La distribuzione binomiale negativa negativa. Ciò si spiega bene se si ricorda l'equivalenza tra distribuzione binomiale e distribuzione binomiale negativa. Assumiamo in primo luogo che il gioco continui all'infinito, indipendentemente dagli esiti, e sia Yn il numero di partite necessarie perché A vinca n volte. Per definizione, Yn ha distribuzione binomiale negativa con parametri n e p. 26. Prova che A vince n partite prima che B ne vinca m se e solo se Yn n + m -1 27. Usa il risultato dell'esercizio precedente per mostrare che Fn,m(p) = j = n, ..., n + m - 1 C(j - 1, n - 1) pn(1 - p)j - n. 28. Nell'esperimento del problema dei punti, modifica i parametri j, k e p e osserva come variano le probabilità. Con n = 10, m = 10 e p = 0.7, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla probabilità. 29. Prova che, per dati n e m, Fn,m(p) aumenta da 0 a 1 per p che cresce da 0 e 1. 30. Nell'esperimento del problema dei punti, modifica i parametri n, m e p, e osserva come variano le probabilità. Con n = 5, m = 10 e p = 0.3, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla probabilità. 31. Prova che Fn,m(p) decresce al crescere di n per dati m e p, e che Fn,m(p) cresce al crescere di m per dati n e p. 32. Nell'esperimento del problema dei punti, modifica i parametri n, m e p, e osserva come variano le probabilità. Con n = 10, m = 15 e p = 0.3, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla probabilità. 33. Condiziona all'esito della prima prova per derivare la seguente relazione ricursiva e le condizioni di limite (questa è la soluzione che propose Fermat): 1. Fn,m(p) = pFn - 1,m(p) + (1 - p)Fn,m - 1(p), per n, m = 1, 2, ... 2. Fn,0(p) = 0, F0,m(p) = 1. Serie di giochi Il caso particolare n = m è importante poiché Fn,n(p) è la probabilità che A vinca almeno n di 2n - 1 partite. Tali serie, specialmente con n = 2, 3 o 4 sono spesso utilizzate nei tornei. 34. Poni p = 0.6. Calcola la probabilità che la squadra A vinca 1. Almeno 3 di 5 partite (n = 3). 2. Almeno 4 di 7 partite (n = 4). http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli5.html (5 di 6) [22/11/2001 17.55.07] La distribuzione binomiale negativa 35. Nell'esperimento del problema dei punti, modifica i parametri n, m e p (tenendo n = m), e osserva come variano le probabilità. Simula un gioco 3 di 5 ponendo n = m = 3, p = 0.6. Simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla probabilità. 36. Prova che Fn,n(1 - p) = 1 - Fn,n(p) per ogni n e p. 1. Prova a dare una spiegazione probabilistica e una analitica. 2. Mostra che tale condizione implica che il grafico di Fn,n sia simmetrico rispetto a p = 1/2. 3. Mostra che tale condizione implica che Fn,n(1/2) = 1/2. 37. Nell'esperimento del problema dei punti, modifica i parametri n, m e p (tenendo n = m), e osserva come variano le probabilità. Simula un gioco 4 di 7 ponendo n = m = 4, p = 0.45. Simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della frequenza relativa alla probabilità. 38. Sia n > m. Prova che Fn,n(p) > Fm,m(p) se e solo se p > 1/2. Interpreta il risultato. Divisione delle puntate Il problema dei punti nacque da una domanda posta dal Chevalier de Mere, che era interessato alla corretta divisione delle puntate quando un gioco viene interrotto. Specificamente, supponiamo che i giocatori A e B giochino ciascuno C unità monetarie, e poi esegui prove Bernoulliane finché uno di loro non vince un numero fissato di prove. Il vincitore si prende l'intero piatto 2C. 39. Se il gioco si interrompe quando A deve vincere ancora n partite e B ne deve vincere altre m, dimostra che il piatto dev'essere diviso tra A e B, rispettivamente, come segue: 1. 2C Fn,m(p) per A, 2. 2C[1 - Fn,m(p)] per B. 40. Supponi che i giocatori A e B giochino 50$ ciascuno. I giocatori lanciano una moneta finché uno di loro vince 10 volte; il vincitore si prende il piatto. Supponi che il gioco venga interrotto dalla guardia di finanza quando A ha vinto 5 volte e B 3 volte. Come si deve dividere il piatto? Laboratorio virtuale > Prove Bernoulliane > 1 2 3 4 [5] 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli5.html (6 di 6) [22/11/2001 17.55.07] Note conclusive Laboratorio virtuale > Prove Bernoulliane > 1 2 3 4 5 6 [7] 7. Note conclusive Simulazione di prove Bernoulliane È molto semplice simulare prove Bernoulliane attraverso numeri casuali. 1. Sia p nell'intervallo [0, 1] e sia U1, U2, U3, ... una sequenza di variabili aleatorie, ciascuna distribuita uniformemente su (0, 1). Mostra che la sequenza seguente è un processo di prove Bernoulliane con parametro p: Ij = 1 se Uj p, Ij = 0 se Uj > p Gli esperimenti binomiale e binomiale negativa possono essere simulati direttamente a partire dalla sequenza di prove Bernoulliane, poiché tali variabili risultano esserne funzione. Argomenti correlati Le prove Bernoulli si trovano in molti altri capitoli di questo lavoro, a ulteriore conferma dell'importanza del modello. ● Il campionamento con reinserimento da una popolazione dicotomica produce prove Bernoulliane. Il capitolo sui modelli di campionamento finito tratta diversi casi basati su questo tipo di campionamento. ● Molti giochi sono basati su prove Bernoulliane. Il capitolo sui giochi di fortuna ne presenta alcuni. ● Il capitolo su rosso e nero è più avanzato e tratta delle strategie pe giochi basati su prove Bernoulliane. ● Il processo random walk, analizzato nel capitolo sul random walk si basa su prove Bernoulliane. ● La stima di p è trattata nei capitoli sulla stima puntuale e stima intervallare. ● I test di ipotesi per p sono presentati nel capitolo sui test di ipotesi. Libri Il modello di prove Bernoulliane è trattato praticamente in ogni libro di probabilità. In particolare puoi vedere ● A First Course in Probability, quinta edizione, di Sheldon Ross ● An Introduction to Probability Theory and its Applications, (Vol 1) terza edizione, di William Feller Risposte agli esercizi del paragrafo 1 http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli7.html (1 di 4) [22/11/2001 17.55.14] Note conclusive 1.8. Si, probabilmente. Gli esiti sono corretto e sbagliato e p = 1 / 4. 1.9. Si, approssimatamente. Gli esiti sono preferisce A e non preferisce A; p è la proporzione di elettori dell'intero comune che preferisce A. 1.10. Si, gli esiti sono rosso e nero, e p = 18 / 38. 1.11. No, probabilmente, no. I giochi sono quasi certamente dipendenti, e la probabilità di vincita dipende da chi serve e quindi non è costante da partita a partita. 1.17. 1. k = 10, E(Yk) = 19.56 2. k = 5, E(Yk) = 426.22 3. k = 32, E(Yk) = 62.76 Risposte agli esercizi del paragrafo 2 2.5. f(0) = 0.4019, f(1) = 0.4019, f(2) = 0.1608, f(3) = 0.0322, f(4) = 0.0032, f(5) = 0.0001. 2.6. 0.07813 2.11. 1. P(almeno un 1 in 6 lanci) = 0.6551 2. P(almeno due 1 in 12 lanci) = 0.6187 2.12. 1. P(almeno un 1 in 4 lanci di 1 dado) = 0.5177 2. P(almeno due 1 in 24 lanci di 2 dadi) = 0.4914. 2.23. X = Numero di fallimenti. E(X) = 1, sd(X) = 0.9899 2.24. X = Numero di 1. E(X) = 166.67, sd(X) = 11.79 2.31. Xn = Numero di teste nei primi n lanci. P(X20 = j | X100 = 30) = C(20, j) C(80, 30 - j) / C(100, 30). 2.37. X = Numero di elettori che preferiscono A 1. E(X) = 20, sd(X) = 3.464. 2. P(X < 19) = 0.3356. 3. P(X < 19) ~ 0.3335 2.44. 1. R3,2(p) = 3p2 - 2p3. http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli7.html (2 di 4) [22/11/2001 17.55.14] Note conclusive 2. R5,3(p) = 10p3 - 15p4 + 6p5. 3. 3 di 5 è migliore per p 1 / 2. Risposte agli esercizi del paragrafo 3 3.13. R: Rifiutare l'ipotesi nulla che la moneta sia bilanciata. 1. P(R) = 0.180, P(Rc) = 0.820 2. P(R) = 0.384, P(Rc) = 0.616 3. P(R) = 0.678, P(Rc) = 0.322 4. P(R) = 0.930, P(Rc) = 0.070 3.15. No: 0.0262 Risposte agli esercizi del paragrafo 4 4.5. 0.482 4.10. X = # lanci. E(X) = 50, sd(X) = 49.497. 4.12. 0.4 4.18. Geometrica con p = 18 / 38. 4.22. $1000. 4.27. 1. P(W = 1) = 2/3, P(W = 2) = 1/3 2. P(W = 1) = 4/7, P(W = 2) = 2/7, P(W = 3) = 1/7. 3. P(W = i) = 2n - i / (2n - 1) per i = 1, 2, ..., n. Risposte agli esercizi del paragrafo 5 5.6. 0.579 5.13. X = numero di lancio del quarto fallimento. E(X) = 200, sd(X) = 98.995 5.17. X = numero di lanci necessari per avere 50 teste. 1. 0.0072 2. No. 5.30. 1. 0.6825. 2. 0.7102 http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli7.html (3 di 4) [22/11/2001 17.55.14] Note conclusive 5.36. A prende $72.56, B prende $27.44 Risposte agli esercizi del paragrafo 6 6.11. 1. 0.0075 2. 0.0178 3. 0.205 4. 0.123 6.12. f(u, v, w, x, y, z) = C(4; u, v, w, x, y, z) (1/4)u + z (1/8)v + w + x+ y per u, v, w, x, y, z interi non negativi la cui somma è 4 6.14. 1. -0.625 2. -0.0386 Laboratorio virtuale > Prove Bernoulliane > 1 2 3 4 5 6 [7] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/bernoulli/bernoulli7.html (4 di 4) [22/11/2001 17.55.14] Random Walk Laboratorio virtuale > Modelli speciali > A B C D E F [G] H G. Random Walk Sommario 1. Introduzione 2. Posizione massima 3. Ultimo passaggio da 0 4. Il problema del ballottaggio Applets ● Random Walk ● Esperimento del ballottaggio Laboratorio virtuale > Modelli speciali > A B C D E F [G] H Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/index.html [22/11/2001 17.55.18] Sistemi di particelle interagenti Laboratorio virtuale > Modelli speciali > A B C D E F G [H] H. Sistemi di particelle interagenti Sommario 1. Il processo dell'incendio 2. Il processo degli elettori 3. Note conclusive Applets ● Esperimento dell'incendio ● Esperimento degli elettori Laboratorio virtuale > Modelli speciali > A B C D E F G [H] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/particles/index.html [22/11/2001 17.55.19] Introduzione Laboratorio virtuale > Giochi di fortuna > [1] 2 3 4 5 6 7 8 1. Introduzione Gioco d'azzardo e probabilità I giochi di fortuna si annoverano tra le prime invenzioni del genere umano. L'uso di un certo tipo di osso animale (detto astragalo) come dado risale circa al 3600 A.C.. I moderni dadi a sei facce risalgono circa al 2000 A.C. e il termine bones (ossa) è utilizzata anche oggi come espressione gergale (roll the bones). È a causa di questa origine remota, tra l'altro, che utilizziamo il dado come base delle simulazioni in questo progetto. Il gioco d'azzardo è intimamente legato allo sviluppo della teoria della probabilità. La maggior parte dei primi risultati in probabilità, in particolare, fu simulata attraverso problemi di gioco d'azzardo come ● il problema di DeMere, ● il problema di Pepy, ● il problema dei punti, ● il problema di San Pietroburgo. Molti dei primi libri di probabilità sono stati scritti per analizzare il gioco d'azzardo, per esempio Liber de Ludo Aleae (Libro sui giochi di fortuna), di Girolamo Cardano e Essay d’ Analyse sur les Jeux de Hazard (Saggio analitico sui giochi di fortuna), di Pierre-Remond Montmort. I problemi di gioco d'azzardo continuano ad essere fonte di interessanti e profondi problemi di probabilità a tutt'oggi (vedi ad esempio il capitolo su rosso e nero). Ovviamente è importante ricordare che le scoperte in probabilità, anche se motivate da problemi di gioco, sono profondamente importanti in molti campi delle scienze naturali, delle scienze sociali, della medicina e della giurisprudenza. Inoltre, i giochi di fortuna costituiscono esempi chiari e puliti di esperimenti casuali, e quindi il loro studio può essere utile per gli studenti. In ogni caso, nulla di questo capitolo ha l'intento di avviarti, caro lettore, al gioco d'azzardo. Al contrario, la nostra analisi mostrerà che, nel lungo termine, gli unici a guadagnarci sono quelli che organizzano il gioco. Il giocatore, inevitabilmente, cade vittima della legge dei grandi numeri. In questo capitolo studieremo alcuni interessanti giochi di fortuna. Il poker, il poker di dadi, craps e la roulette sono giochi molto popolari. Il problema di Monty Hall, al contrario, è interessante per la controversia che ha prodotto. Terminologia Presentiamo ora la terminologia di base che useremo in alcuni paragrafi di questo http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games1.html (1 di 3) [22/11/2001 17.55.24] Introduzione capitolo. Supponiamo che A sia un evento in un esperimento casuale. Gli odds matematici di A si riferiscono alla probabilità di A. Più specificamente, se a e b sono numeri positivi, allora per definizione le affermazioni seguenti si equivalgono: ● gli odds a favore di A sono a : b. ● P(A) = a / (a + b). ● gli odds contro A sono b : a. ● P(Ac) = b / (a + b). In molti casi a e b possono essere interi senza fattori comuni. 1. Similmente, supponi che p appartenga a (0, 1). Prova che le seguenti affermazioni sono equivalenti: 1. P(A) = p. 2. Gli odds a favore di A sono p : 1 - p. 3. P(Ac) = 1 - p. 4. Gli odds contro A sono 1 - p : p. D'altro canto, le quote di un evento si riferiscono al payout che si ha quando si punta sull'evento. Dire che una puntata sull'evento A paga n : m significa che se il giocatore punta m unità di danaro su A e A si verifica, il giocatore riprende le m unità iniziali più n unità aggiuntive (per un profitto netto di n); se A non si verifica, il giocatore perde la puntata di m unità (per un profitto netto di -m). Equivalentemente, il giocatore punta m unità (su A), il banco punta n unità (su Ac) e il vincitore prende il piatto. Ovviamente, non è necessario che il giocatore punti esattamente m; si possono avere puntate minori o maggiori. Se il giocatore punta k unità e vince, il suo payout è k(n / m). Naturalmente, il nostro interesse primario è alla vincita netta se puntiamo su un qualche evento. L'esercizio seguente riporta la densità, media e varianza per una puntata unitaria. Il valore atteso è particolarmente interessante a causa della legge dei grandi numeri, indica il guadagno (o perdita) nel lungo termine per unità puntata. 2. Supponi che gli odds a favore dell'evento A siano a : b e che una puntata su A paghi n : m. Sia W la vincita generata da una puntata unitaria su A. Prova che 1. P(W = -1) = b / (a + b), P(W = n / m) = a / (a + b). 2. E(W) = (an - bm) / [m(a + b)]. 3. var(W) = ab(n - m)2 / [m2(a + b)2]. In particolare, il valore atteso della puntata è 0 se e solo se an = bm, positivo se e solo se an > bm e negativo se e solo se an < bm. Il primo caso indica che la scommessa è giusta, e si verifica quando il guadagno è uguale agli odds contro l'evento. Il secondo caso indica che la scommessa è favorevole per il giocatore, e si verifica quando il guadagno è maggiore degli odds contro l'evento. Il terzo caso indica che la scommessa è sfavorevole per il giocatore e si verifica quando il guadagno è minore degli odds contro l'evento. Sfortunatamente, tutti i giochi da casinò cadono in quest'ultima categoria. http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games1.html (2 di 3) [22/11/2001 17.55.24] Introduzione Laboratorio virtuale > Giochi di fortuna > [1] 2 3 4 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games1.html (3 di 3) [22/11/2001 17.55.24] Poker di dadi e Chuck-a-Luck Laboratorio virtuale > Giochi di fortuna > 1 2 [3] 4 5 6 7 8 3. Poker di dadi e Chuck-a-Luck Poker di dadi Il gioco del poker del dadi è simile al poker tradizionale, ma si gioca con dadi al posto delle carte. Si lanciano 5 dadi equilibrati. Registriamo l'esito dell'esperimento casuale come sequenza (ordinata) di punteggi: X = (X1, X2, X3, X4, X5) dove Xi in {1, 2, 3, 4, 5, 6} è il punteggio sull'i-esimo dado. Lo spazio campionario è quindi S = {1, 2, 3, 4, 5, 6}5. Poiché i dadi sono bilanciati, l'assunzione di base per il modello è che le variabili casuali X1, X2, X3, X4, X5 siano indipendenti, e con distribuzione uniforme su {1, 2, 3, 4, 5, 6}. 1. Mostra che la mano casuale di poker di dadi X ha distribuzione uniforme su S: P(X in A) = #(A) / #(S) per A S. In termini statistici, una mano di poker di dadi è un campione casuale di dimensione 5 estratto con reinserimento e con interesse per l'ordine dalla popolazione D = {1, 2, 3, 4, 5, 6}. Per ulteriori approfondimenti su questo argomento, vedi il capitolo sui modelli di campionamento finito. In particolare, in questo capitolo vedremo che il risultato dell'esercizio 1 non varrebbe se si registrasse la sequenza in modo non ordinato invece che ordinato. Il valore della mano Il valore V della mano di poker di dadi è definito come segue: ● V = 0: Nulla. Cinque punteggi diversi. ● V = 1: Coppia. Quattro punteggi diversi, uno di essi si presenta due volte e gli altri una volta. ● V = 2: Doppia coppia. Tre punteggi diversi; due si presentano due volte e l'altro una volta. ● V = 3: Tris. Tre punteggi diversi; uno si presenta tre volte e gli altri due una volta. ● V = 4. Full. Due punteggi diversi; uno si presenta tre volte e l'altro due volte. ● V = 5. Quadris. Due punteggi diversi; uno si presenta quattro volte e l'altro una volta. ● V = 6. Poker. Un punteggio si presenta 5 volte. 2. Esegui l'applet poker di dadi 10 volte passo per passo. Per ciascun esito, osserva il valore della variabile casuale corrispondente al tipo di mano, come definito poc'anzi. http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games3.html (1 di 3) [22/11/2001 17.55.29] Poker di dadi e Chuck-a-Luck La funzione di densità Il calcolo della funzione di densità di V è un buon esercizio di calcolo combinatorio. 3. Mostra che il numero di mani di poker di dadi distinte è #(S) = 65 = 7776. Negli esercizi seguenti dovrai spesso utilizzare la regola del prodotto del calcolo combinatorio per contare il numero di mani di vari tipi. In ciascun caso, prova a costruire un algoritmo per generare le mani di poker di un certo tipo, e conta il numero di modi in cui puoi eseguire ciascun passo dell'algoritmo. 4. Mostra che P(V = 0) = 720 / 7776 = 0.09259. 5. Mostra che P(V = 1) = 3600 / 7776 = 0.46396. 6. Mostra che P(V = 2) = 1800 / 7776 = 0.23148. 7. Mostra che P(V = 3) = 1200 / 7776 = 0.15432. 8. Mostra che P(V = 4) = 300 / 7776 = 0.03858. 9. Mostra che P(V = 5) = 150 / 7776 = 0.01929. 10. Mostra che P(V = 6) = 6 / 7776 = 0.00077. 11. Esegui l'applet poker di dadi 1000 volte, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alla funzione di densità. 12. Trova la probabilità che lanciando una mano si ottenga un tris o di più. 13. Nell'applet poker di dadi, poni la frequenza di aggiornamento a 100 e imponi un criterio d'arresto sulla base dei valori di V riportati qui sotto. Nota il numero di mani necessarie. 1. V = 3 2. V = 4 3. V = 5 4. V = 6 Chuck-a-Luck Chuck-a-luck è un gioco popolare nei paesi anglosassoni che si gioca con tre dadi. Seguendo Richard Epstein, il nome originario era Sweat Cloth, e nei pub inglesi il gioco è noto come corona e ancora (poiché sulle sei facce del dado sono disegnati picche, quadri, fiori, cuori, corona e ancora). I dadi sono più grossi di quelli normali e si tengono in una gabbia a forma di clessidra detta birdcage. I dadi si lanciano facendo girare la gabbia. Chuck-a-luck è molto semplice. Il giocatore sceglie un numero da uno a sei e poi lancia i dadi. Se in esattamente k dadi esce il punteggio detto dal giocatore, si vince k:1. Come a http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games3.html (2 di 3) [22/11/2001 17.55.29] Poker di dadi e Chuck-a-Luck poker di dadi, l'assunzione di base è che i dadi siano equilibrati, per cui il vettore degli esiti è distribuito uniformemente su {1, 2, 3, 4, 5, 6}3: X = (X1, X2, X3) dove Xi in {1, 2, 3, 4, 5, 6} è il punteggio sul dado i. 14. Sia Y il numero di dadi che mostrano il numero detto dal giocatore. Mostra che Y ha distribuzione binomiale con parametri n = 3 e p = 1 / 6: P(X = k) = C(3, k) (1 / 6)k(5 / 6)3 - k, per k = 0, 1, 2, 3. 15. Sia W la vincita netta per una puntata unitaria. Mostra che W = -1 se Y = 0; W = Y se Y > 0. 16. Prova che 1. P(W = -1) = 125 / 216 2. P(W = 1) = 75 / 216 3. P(W = 2) = 15 / 216 4. P(W = 3) = 1 / 216 17. Esegui l'applet chuck-a-luck 1000 volte, aggiornando ogni 10. Nota la convergenza della densità empirica di W alla densità teorica. 18. Prova che 1. E(W) = -0.0787 2. var(W) = 1.239 19. Esegui l'applet chuck-a-luck 1000 volte, aggiornando ogni 10. Nota la convergenza dei momenti empirici di W ai momenti teorici. Supponi di aver puntato 1$ in ognuna delle 1000 partite. Quanto sarebbe la tua vincita netta? Laboratorio virtuale > Giochi di fortuna > 1 2 [3] 4 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games3.html (3 di 3) [22/11/2001 17.55.29] Roulette Laboratorio virtuale > Giochi di fortuna > 1 2 3 4 [5] 6 7 8 5. Roulette La roulette (americana) ha 38 caselle numerate 00, 0 e 1-36. Come si vede dalla figura seguente, ● le caselle 0, 00 sono verdi; ● le caselle 1, 3, 5, 7, 9, 12, 14, 16, 18, 19, 21, 23, 25, 27, 29, 30, 32, 34, 36 sono rosse; ● le caselle 2, 4, 6, 8, 10, 11, 13, 15, 17, 20, 22, 24, 26, 28, 29, 31, 33, 35 sono nere. A parte 0 e 00, le caselle sono alternativamente nere e rosse. L'ordine dei numeri sulla ruota è fatto in modo che numeri grandi e piccoli e pari e dispari si alternino. Secondo Richard Epstein, la roulette è il più vecchio gioco da casinò che si gioca ancora. La sua invenzione è stata attribuita volta volta a Blaise Pascal, al matematico italiano Don Pasquale e a molti altri. In ogni caso, le prime roulette apparvero a Parigi intorno al 1765. L'esperimento della roulette è molto semplice. Si fa girare la ruota e vi si getta una pallina, facendola girare nella scanalatura in direzione opposta a quella di rotazione. Prima o poi la pallina cade in una delle caselle. Assumiamo ovviamente che la ruota sia equilibrata, per cui la variabile casuale X che indica il numero di casella è distribuita uniformemente sullo spazio campionario S = {00, 0, 1, 2, ..., 36}. Quindi, P(X = x) = 1 / 38 per ogni x in S. Puntate Esattamente come craps, la roulette è molto popolare nei casinò per la grande varietà di puntate ammesse. La figura precedente mostra un tavolo da roulette e indica alcune delle puntate che studieremo. Vedremo che tutte le puntate hanno lo stesso valore atteso (negativo, ovviamente). Una puntata singola è una puntata su un singolo numero, e paga 35:1. 1. sIA W la vincita di una puntata straight bet unitaria. Mostra che 1. P(W = -1) = 37 / 38, P(W = 35) = 1 / 38. 2. E(W) = -0.0526. 3. sd(W) = 5.7626 2. Nell'applet roulette, seleziona la puntata su un numero singolo. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Una puntata su 2 numeri (o puntata doppia) punta su due numeri adiacenti sul tavolo. La puntata paga 17:1 se uno dei numeri esce e perde altrimenti. 3. Sia W la vincita di una puntata su due numeri unitaria. Mostra che 1. P(W = -1) = 36 / 38, P(W = 17) = 2 / 38. http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games5.html (1 di 3) [22/11/2001 17.55.34] Roulette 2. E(W) = -0.0526. 3. sd(W) = 4.0193. 4. Nell'applet roulette, seleziona la puntata su due numeri. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Una puntata su 3 numeri (o puntata riga) punta su tre numeri di una delle righe verticali. La puntata paga 11:1 se uno dei numeri esce e perde altrimenti. 5. Sia W la vincita di una puntata su tre numeri unitaria. Mostra che 1. P(W = -1) = 35 / 38, P(W = 11) = 3 / 38. 2. E(W) = -0.0526. 3. sd(W) = 3.2359. 6. Nell'applet roulette, seleziona la puntata su tre numeri. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Una puntata su 4 numeri punta su quattro numeri che formano un quadrato sul tavolo. La puntata paga 8:1 se uno dei numeri esce e perde altrimenti. 7. Sia W la vincita di una puntata su quattro numeri unitaria. Mostra che 1. P(W = -1) = 34 / 38, P(W = 8) = 4 / 38. 2. E(W) = -0.0526. 3. sd(W) = 2.7620. 8. Nell'applet roulette, seleziona la puntata su quattro numeri. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Una puntata su 6 numeri punta su sei numeri su due righe del tavolo. La puntata paga 5:1 se uno dei numeri esce e perde altrimenti. 9. Sia W la vincita di una puntata su sei numeri unitaria. Mostra che 1. P(W = -1) = 37 / 38, P(W = 5) = 1 / 38. 2. E(W) = -0.0526. 3. sd(W) = 2.1879. 10. Nell'applet roulette, seleziona la puntata su sei numeri. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Una puntata su 12 numeri può essere una puntata colonna, su una delle tre colonne di 12 numeri che formano la tavola, o sui primi 12 (1-12), i 12 centrali (13-24), e gli ultimi 12 (25-36). Una puntata su 12 numeri paga 2:1 se uno dei numeri esce e perde altrimenti (anche se escono 0 o 00). 11. Sia W la vincita di una puntata su dodici numeri unitaria. Mostra che 1. P(W = -1) = 26 / 38, P(W = 2) = 12 / 38. 2. E(W) = -0.0526. 3. sd(W) = 1.3945. 12. Nell'applet roulette, seleziona la puntata su dodici numeri. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? Una puntata su 18 numeri può essere sul colore (rosso o nero), sulla parità (numeri dispari da 1 a 36 o numeri pari da 1 a 36 o sulla posizione bassa (numeri da 1 a 18) o alta (numeri da 19 a 36). Una puntata su 18 numeri paga 1:1 se uno dei numeri esce e perde altrimenti (anche se escono 0 o 00). 13. Sia W la vincita di una puntata su diciotto numeri unitaria. Mostra che http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games5.html (2 di 3) [22/11/2001 17.55.34] Roulette 1. P(W = -1) = 20 / 38, P(W = 1) = 18 / 38. 2. E(W) = -0.0526. 3. sd(W) = 0.9986. 14. Nell'applet roulette, seleziona la puntata su diciotto numeri. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della densità empirica e dei momenti di W ai loro valori teorici. Supponi di puntare 1$ per ogni replicazione. A quanto ammonterebbe la tua vincita netta? 15. Anche se tutte le puntate hanno lo stesso valore atteso, le deviazioni standard variano inversamente rispetto al numero di numeri su cui si punta. Quali sono le implicazioni di questo fatto per il giocatore? Laboratorio virtuale > Giochi di fortuna > 1 2 3 4 [5] 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games5.html (3 di 3) [22/11/2001 17.55.34] Il problema di Monty Hall Laboratorio virtuale > Giochi di fortuna > 1 2 3 4 5 [6] 7 8 6. Il problema di Monty Hall Termini del problema Il problema di Monty Hall riguarda una situazione di gioco classica e prende nome da Monty Hall, conduttore per lunghi anni della trasmissione TV Let's Make a Deal. Si hanno tre porte indicate con numeri da 1 a 3. Dietro una delle porte c'è un'automobile, dietro le altre delle capre: Le regole sono le seguenti: 1. Il giocatore sceglie una porta. 2. Il conduttore sceglie una porta diversa e la apre. 3. Il conduttore dà al giocatore la possibilità di cambiare la porta con quella che resta. 4. La porta che il giocatore alla fine sceglie viene aperta e il giocatore vince o perde. Il problema di Monty Hall ha generato molte controversie a causa di alcuni articoli di Marilyn Vos Savant nella rubrica Ask Marilyn del Parade magazine, un popolare supplemento domenicale al giornale. La controversia ebbe inizio quando un lettore pose il problema nei seguenti termini: Supponi di essere alla trasmissione e di dover scegliere tra tre porte. Ne sceglie una, ad esempio la prima, e il conduttore, che sa che che c'è dietro le porte, ne apre un'altra, ad esempio la terza, dietro alla quale c'è la capra. Poi ti chiede “Vuoi cambiare e scegliere la seconda porta?” Ti conviene cambiare la scelta? Marilyn rispose che il concorrente deve cambiare, affermando che c'è una possibilità di 1/3 che l'automobile sia dietro la porta 1 e di 2/3 che sia dietro la 2. Nelle rubriche seguenti, Marilyn pubblicò diverse risposte, alcune di accademici, che affermavano in toni arrabbiati o sarcastici che era in errore e che ci sono uguali probabilità che la capra sia dietro ciascuna delle porte. Marilyn rimase della sua opinione e presentò ulteriori argomenti, non formali. 1. Pensa al problema. Concordi con Marilyn o pensi che nessuna delle due soluzioni sia esatta? 2. Nel gioco di Monty Hall, poni la strategia del conduttore a standard (il significato di tale strategia sarà spiegato più avanti). Esegui il gioco 50 volte utilizzando le seguenti strategie. Hai cambiato idea sulla risposta all'esercizio 1? http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games6.html (1 di 7) [22/11/2001 17.55.45] Il problema di Monty Hall 1. Cambia sempre 2. Non cambiare mai 2. Nel gioco di Monty Hall, poni la strategia del conduttore a cieco (il significato di tale strategia sarà spiegato più avanti). Esegui il gioco 50 volte utilizzando le seguenti strategie. Hai cambiato idea sulla risposta all'esercizio 1? 1. Cambia sempre 2. Non cambiare mai Modellare il problema Quando si inizia a riflettere sul problema di Monty Hall, si capisce che i termini posti dal lettore a Marilyn sono così vaghi che è impossibile una discussione sensata senza assunzioni chiarificatrici sulle strategie del conduttore e del giocatore. Vedremo che, di fatto, fraintendimenti su tali strategie sono la causa della controversia. Proviamo a formalizzare il problema. In genere le decisioni di conduttore e concorrente possono variare da gioco a gioco, ma se abbiamo un esperimento casuale nel senso classico del termine, dobbiamo assumere che le stesse distribuzioni di probabilità regolino il comportamento di conduttore e giocatore in ciascuna partita, e che quest'ultime siano tra di loro indipendenti. Ci sono quattro variabili casuali in ogni partita: 1. 2. 3. 4. U: il numero della porta che contiene l'automobile. X: il numero della prima porta scelta dal concorrente. V: il numero della porta aperta dal conduttore. Y: il numero della seconda porta scelta dal concorrente. Ciascuna di queste variabili casuali assume i valori possibili 1, 2 e 3. In ogni caso, per le regole del gioco, il conduttore non può aprire la porta scelta dal giocatore: V X, V Y. Ammettiamo la possibilità che V = U, cioè che il conduttore apra la porta con dietro l'automobile. Se ciò sia ragionevole è la fonte della controversia. Ci sono tre eventi di interesse. Indicheremo con W la variabile indicatore dell'evento che il concorrente vinca: W = 1 se Y = U; W = 0 altrimenti. Indicheremo con S la variabile indicatore dell'evento che il concorrente cambi porta: S = 1 se Y X; S = 0 altrimenti. Infine, indicheremo con G la variabile indicatore dell'evento che il conduttore apra una porta con dietro la capra: http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games6.html (2 di 7) [22/11/2001 17.55.45] Il problema di Monty Hall G = 1 se V U; G = 0 altrimenti. L'esperimento di Monty Hall sarà definito formalmente una volta individuata la distribuzione congiunta delle variabili indicate. Tale distribuzione dipende dalle strategie di conduttore e concorrente, che consideremo in seguito. Strategie del conduttore Nell'esperimento di Monty Hall, nota che il conduttore determina la funzione di densità della porta con l'automobile: P(U = i) per i = 1, 2, 3. La scelta più ovvia è quella di assegnare a caso l'automobile a una delle porte. Ciò porta ad avere una distribuzione uniforme, e se non specificato diversamente, assumeremo che U abbia la distribuzione: P(U = i) = 1/3 per i = 1, 2, 3. Il conduttore determina inoltre la funzione di densità condizionata della porta che apre, data la conoscenza della porta che nasconde l'automobile e della prima porta scelta dal giocatore: P(V = k | U = i, X = j) per i, j, k = 1, 2, 3. Ricorda che, poiché il conduttore non può aprire la porta scelta dal giocatore, tale probabilità dev'essere 0 per k = j. La distribuzione di U e la distribuzione condizionata di V costituiscono la strategia del conduttore. Nella maggior parte dei giochi reali, il conduttore aprirà sempre una porta con la capra dietro. Se la prima decisione del giocatore è sbagliata, allora il conduttore non ha scelta: non può aprire la porta con l'automobile o quella scelta dal giocatore e deve quindi aprire solo la porta restante. D'altra parte, se la prima decisione del giocatore è corretta, allora il conduttore può aprire una qualcunque delle due porte restanti, poiché entrambe nascondono la capra. Quindi può sceglierne una a caso. 4. Mostra che questa strategia porta alla seguente distribuzione condizionata: 1. P(V = k | U = i, X = j) = 1 se i, j, k sono distinti 2. P(V = k | U = i, X = j) = 1/2 se i = j e k i 3. P(V = k | U = i, X = j) = 0 se k = i o k = j La distribuzione dell'esercizio 4 accoppiata alla distribuzione uniforme di U, saranno indicate come startegia standard del conduttore. 5. Nel gioco di Monty Hall, poni la strategia del conduttore a standard. Esegui il gioco 50 volte utilizzando le seguenti strategie. Quale funziona meglio? 1. Cambia sempre 2. Non cambiare mai http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games6.html (3 di 7) [22/11/2001 17.55.45] Il problema di Monty Hall Un'altra possibile strategia del conduttore è quella di aprire una porta scelta comunque a caso tra le due restanti, per cui può aprire anche la porta con dietro l'automobile. 6. Mostra che questa strategia porta alla seguente distribuzione condizionata: 1. P(V = k | U = i, X = j) = 1/2 se k j 2. P(V = k | U = i, X = j) = 0 se k = i La distribuzione dell'esercizio 6 accoppiata alla distribuzione uniforme di U, è detta strategia cieca del conduttore. La strategia cieca può sembrare strana, ma la confusione tra le due strategie sta alla base della controversia su questo problema. 7. Nel gioco di Monty Hall, poni la strategia del conduttore a cieco. Esegui il gioco 50 volte utilizzando le seguenti strategie. Quale funziona meglio? 1. Cambia sempre 2. Non cambiare mai Strategie del giocatore Il giocatore, per parte sua, determina la funzione di densità della sua prima scelta: P(X = j) per j = 1, 2, 3. La strategia ovvia è quella di scegliere una porta a caso, poiché a questo punto del gioco non ha informazioni. Ciò porta alla distribuzione uniforme: P(X = j) = 1/3 per j = 1, 2, 3. Il giocatore determina inoltre la funzione di densità condizionata della sua seconda scelta, conoscendo la prima e la porta aperta dal conduttore: P(Y = l | X = j, V = k) per j, k, l = 1, 2, 3 con j k. Ricorda che, poiché il giocatore non può scegliere la porta aperta dal conduttore, tale probabilità deve valere 0 per l = k. La distribuzione di X e la distribuzione condizionata di Y costituiscono la strategia del giocatore. 8. Supponi che il giocatore cambi la porta con probabilità p. Mostra che ciò porta alla seguente distribuzione condizionata 1. P(Y = l | X = j, V = k) = p se j, k, l sono distinti 2. P(Y = l | X = j, V = k) = 1 - p se j k e l = j 3. P(Y = l | X = j, V = k) = 0 se j = k o l = k In particolare, se p = 1, il giocatore cambia sempre, mentre se p = 0, il giocatore non cambia mai. Indipendenza Dobbiamo fare alcune assunzioni di indipendenza per tener conto della mancanza di http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games6.html (4 di 7) [22/11/2001 17.55.45] Il problema di Monty Hall informazioni che il giocatore e il conduttore hanno sul comportamento l'uno dell'altro. In primo luogo, il giocatore non conosce la porta che nascondo l'auto, per cui assumiamo che U e X siano indipendenti. Inoltre, l'unica informazione sulla posizione dell'auto che il giocatore ha al momento di fare la seconda scelta è l'informazione (se ce n'è) contenuta nella sua prima scelta e nella conseguente decisione del conduttore. Formalmente, ciò significa che Y è condizionalmente indipendente da U dati X e V. Le strategia del conduttore e del giocatore costituiscono i dati di base del problema di Monty Hall. Grazie alle assunzioni di indipendenza, la distribuzione congiunta delle variabili casuali di base è completamente individuata da tali strategie. 9. Usa la regola del prodotto della probabilità condizionata per mostrare che, per ogni i, j, k e l, P(U = i, X = j, V = k, Y = l) = P(U = i)P(X = j)P(V = k | U = i, X = j)P(Y = l | X = j, V = k) La probabilità di un evento definito in termini del problema di Monty Hall può essere calcolata sommando la densità congiunta per i valori appropriati di i, j, k e l. 10. Prova che con ciascuna delle strategie di base del conduttore, V è distribuita uniformemente su {1, 2, 3}. 11. Supponi che il giocatore cambi porta con probabilità p. Prova che con ciascuna delle strategie di base del conduttore, Y è distribuita uniformemente su {1, 2, 3}. 12. Nell'esperimento di Monty Hall, poni la strategia del conduttore a standard. Per ciascuno dei seguenti valori di p, simula 1000 replicazioni, aggiornando ogni 10. Basandoti sulla frequenza relativa, quale strategia funziona meglio? 1. p = 0 (non cambiare mai) 2. p = 0.3 3. p = 0.5 4. p = 0.7 5. p = 1 (cambiare sempre) 13. Nell'esperimento di Monty Hall, poni la strategia del conduttore a cieco. Per ciascuno dei seguenti valori di p, simula 1000 replicazioni, aggiornando ogni 10. Basandoti sulla frequenza relativa, quale strategia funziona meglio? 1. p = 0 (non cambiare mai) 2. p = 0.3 3. p = 0.5 4. p = 0.7 5. p = 1 (cambiare sempre) La probabilità di vittoria http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games6.html (5 di 7) [22/11/2001 17.55.45] Il problema di Monty Hall L'evento in cui il giocatore vince è {W = 1} = {Y = U}. Calcoliamo ora la probabilità di tale evento con le due strategie del conduttore che abbiamo proposto. 14. Supponi che il conduttore segua la strategia standard e che il giocatore cambi porta con probabilità p. Mostra che la probabilità di vittoria del giocatore è P(Y = U) = 1/3(1 + p). In particolare, se il giocatore cambia sempre, la probabilità di vittoria è 2/3, mentre se non cambia la probabilità è 1/3. 15. Nell'esperimento di Monty Hall, poni la strategia del conduttore a standard. Per ciascuno dei seguenti valori di p, simula 1000 replicazioni, aggiornando ogni 10. In ciascun caso, osserva la convergenza della frequenza relativa di vittorie alla probabilità di vittoria. 1. p = 0 (non cambiare mai) 2. p = 0.3 3. p = 0.5 4. p = 0.7 5. p = 1 (cambiare sempre) 16. Supponi che il conduttore segua la strategia cieca. Mostra che per qualsiasi strategia del giocatore (non solo le standard), P(Y = U) = 1/3. 17. Nell'esperimento di Monty Hall, poni la strategia del conduttore a cieco. Per ciascuno dei seguenti valori di p, simula 1000 replicazioni, aggiornando ogni 10. In ciascun caso, osserva la convergenza della frequenza relativa di vittorie alla probabilità di vittoria. 1. p = 0 (non cambiare mai) 2. p = 0.3 3. p = 0.5 4. p = 0.7 5. p = 1 (cambiare sempre) Per una soluzione completa al problema di Monty Hall, dobbiamo calcolate la probabilità condizionata che il giocatore vinca, sapendo che il conduttore apre una porta con dietro una capra: P(Y = U | V U) = P(Y = U) / P(V U). Attraverso le strategie del giocatore e del conduttore abbiamo definito il numeratore, ovvero la probabilità di vittoria. Ora dobbiamo considerare il denominatore, ovvero la probabilità che il conduttore apra una porta con la capra. Se facciamo affidamento sulla strategia standard, la probabilità condizionata di vittoria è http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games6.html (6 di 7) [22/11/2001 17.55.45] Il problema di Monty Hall uguale alla probabilità condizionata, indipendentemente dalla strategia del giocatore. Se il giocatore cambia porta con probabilità p, allora, per l'esercizio 1, P(Y = U | V U) = 1/3(1 + p). 18. Prova che se il conduttore segue la strategia cieca, allora per qualunque strategia del giocatore, P(V U) = 2/3 e quindi P(Y = U | V U) = 1/2. 19. Nell'esperimento di Monty Hall, poni la strategia del conduttore a cieco. Per ciascuno dei seguenti valori di p, simula 500 replicazioni, aggiornando ogni volta. In ciascun caso, calcola la frequenza relativa di vittorie, sapendo che il conduttore apre la porta con la capra, e confrontala con la risposta teorica all'esercizio 18. 1. p = 0 (non cambiare mai) 2. p = 0.3 3. p = 0.5 4. p = 0.7 5. p = 1 (cambiare sempre) La confusione tra la probabilità condizionata di vittoria per queste due strategie è stata la fonte delle controversie circa questo problema. Marilyn pensava probabilmente alla strategia standard per il conduttore, mentre alcuni dei suoi critici si riferivano alla strategia cieca. Questo problema sottolinea l'importanza di una modellazione attenta e di un'espressione precisa delle assunzioni. Marilyn ha ragione se il conduttore segue la strategia standard, i cirtici hanno ragione se il conduttore segue la strategia cieca, ogni altra risposta può essere corretta se il conduttore segue altre strategie. La rappresentazione matematica che abbiamo utilizzato è praticamente la più completa possibile. In ogni caso, se vogliamo semplicemente risolvere il problema di Marilyn, esiste una via molto più semplice (che forse hai trovato da solo). Supponiamo che il conduttore apra sempre una porta con la capra. Se la prima porta scelta dal giocatore è sbagliata (cioè nasconde una capra), allora il conduttore non ha scelta e deve aprire per forza l'altra porta con la capra. Quindi se il giocatore cambia porta vince. D'altra parte, se la prima porta che il giocatore sceglie è la giusta e poi cambia, allora ovviamente perde. Si vede quindi che se il giocatore cambia sempre porta vince se e solo se la sua prima scelta era sbagliata, evento che ha ovviamente probabilità 2/3. Se il giocatore non cambia mai, allora vince se e solo se la sua prima scelta è corretta, e tale evento ha probabilità 1/3. Laboratorio virtuale > Giochi di fortuna > 1 2 3 4 5 [6] 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games6.html (7 di 7) [22/11/2001 17.55.45] Note conclusive Laboratorio virtuale > Giochi di fortuna > 1 2 3 4 5 6 7 [8] 8. Note conclusive Simulazione È molto semplice simulare il lancio di un dado equilibrato attraverso un generatore di numeri casuali. Ricorda che la funzione tetto ceil(x) indica l'intero più piccolo maggiore o uguale a x. 1. Supponi che U sia distribuita uniformemente su (0, 1) (numero casuale). Prova che ceil(6U) è distribuita uniformemente su {1, 2, 3, 4, 5, 6}. Per vedere come simulare una mano di carte, vedi il paragrafo note conclusive nel capitolo sui modelli di campionamento finito. Un metodo generale per simulare variabili casuali è basato sulla funzione quantile. Argomenti correlati ● Per molti dei modelli presentati in questo capitolo, il giocatore vince o perde, indipendentemente da partita a partita e con la stessa probabilità. Tali processi casuali sono studiati in dettaglio nel capitolo sulle prove Bernoulliane. ● Molti dei giochi che abbiamo studiato in questo capitolo possono essere visti, in termini statistici, come campionamento da una popolazione finita. Il capitolo sui modelli di campionamento finito tratta tali modelli di campionamento. ● Nella nostra analisi sul valore atteso condotta in questo capitolo, abbiamo assunto che il giocatore punta consistenetemente da partita a partita. Molti giocatori ritengono che si possa costruire una strategia vincente variando le puntate a seconda degli esiti delle prove precedenti. Tali strategie sono fallimentari, tuttavia alcune sono migliori di altre. Il capitolo su rosso e nero presenta un confronto tra due strategie opposte: gioco prudente e gioco avventuroso. Una delle strategie più semplici per variare le puntate è trattata nel problema di Pietroburgo. ● Siti web ● ● Gambler's Anonymous è un gruppo di supporto psicologico fondato nel 1947 per aiutare i giocatori d'azzardo compulsivi. The Wizard of Odds è una grande risorsa per raccogliere informazioni su giochi d'azzardo e di fortuna. Il sito comprende regole e probabilità per quasi tutti i giochi da casinò, regole di comportamento per il giocatore e altre cose, e programmi di simulazione per alcuni giochi scelti. Libri http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games8.html (1 di 6) [22/11/2001 17.55.55] Note conclusive ● Un buon riferimento elementare per l'analisi di vari giochi di fortuna è The Mathematics of Games and Gambling di Edward Packel. ● Per una buona trattazione formale approfondita dei giochi d'azzardo, puoi vedere The Theory of Gambling and Statistical Logic, di Richard Epstein ● Un'interessante storia del gioco d'azzardo e della teoria della probabilità si trova in Games, Gods, and Gambling di Florence David. ● Un bel racconto immaginario (ma in parte autobiografico) su un giocatore d'azzardo compulsivo è Il giocatore, di Fedor Dostoyevsky. ● Un'interessante biografia di Cardano è Cardano, the Gambling Scholar di Oystein Ore. Risposte agli esercizi del paragrafo 2 2.15. 0.0287 2.16. 3.913 × 10-10 2.17. Ordinale. No. Risposte agli esercizi del paragrafo 3 3.12. 0.2130 Risposte agli esercizi del paragrafo 4 4.36. 0.09235 Risposte agli esercizi del paragrafo 7 7.3. E(U) = 0.5319148936, sd(U) = 0.6587832083 k P(U = k) 0 0.5545644253 1 0.3648450167 2 0.0748400034 3 0.0056130003 4 0.0001369024 5 0.0000006519 7.4. E(U) = 0.5102040816, sd(U) = 0.6480462207 k P(U = k) 0 0.5695196981 1 0.3559498113 2 0.0694536217 3 0.0049609730 http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games8.html (2 di 6) [22/11/2001 17.55.55] Note conclusive 4 0.0001153715 5 0.0000005244 7.5. E(U) = 1.042553191, sd(U) = 0.8783776109 k P(U = k) 0 0.2964400642 1 0.4272224454 2 0.2197144005 3 0.0508598149 4 0.0054983583 5 0.0002604486 6 0.0000044521 7 0.0000000159 7.8. P(I = i, U = k) k 0 1 2 3 4 5 i 0 1 0.5340250022 0.0205394232 0.3513322383 0.0135127784 0.0720681514 0.0027718520 0.0054051114 0.0002078889 0.0001318320 0.0000050705 0.0000006278 0.0000000241 7.9. P(I = i, U = k) k 0 1 2 3 4 5 i 0 1 0.5559597053 0.0135599928 0.3474748158 0.0084749955 0.0677999641 0.0016536577 0.0048428546 0.0001181184 0.0001126245 0.0000027469 0.0000005119 0.0000000125 Nei seguenti esercizi di Keno, sia V la vincita casuale generata da una puntata unitaria. 7.13. m = 1. E(V) = 0.75, sd(V) = 1.299038106 v P(V = v) 0 0.75 3 0.25 7.14. m = 2. E(V) = 0.7215189873, sd(V) = 2.852654587 v P(V = v) 0 0.9398734177 http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games8.html (3 di 6) [22/11/2001 17.55.55] Note conclusive 12 0.0601265822 7.15. m = 3. E(V) = 0.7353943525, sd(V) = 5.025285956 v P(V = v) 0 0.8473709834 1 0.1387536514 43 0.0138753651 7.16. m = 4. E(V) = 0.7406201394, sd(V) = 7.198935911 v P(V = v) 0 0.7410532505 1 0.2126354658 3 0.0432478914 130 0.0030633923 7.17. m = 5. E(V) = 0.7207981892, sd(V) = 20.33532453 v P(V = v) 0 0.9033276850 1 0.0839350523 10 0.0120923380 800 0.0006449247 7.18. m = 6. E(V) = 0.7315342885, sd(V) = 17.83831647 v P(V = v) 0 0.8384179112 1 0.1298195475 4 0.0285379178 95 0.0030956385 1500 0.0001289849 7.19. m = 7. E(V) = 0.7196008747, sd(V) = 40.69860455 v P(V = k) 0 0.9384140492 1 0.0521909668 25 0.0086385048 350 0.0007320767 8000 0.0000244026 7.20. m = 8. E(V) = 0.7270517606, sd(V) = 55.64771986 v 0 9 90 P(V = v) 0.9791658999 0.0183025856 0.0023667137 http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games8.html (4 di 6) [22/11/2001 17.55.55] Note conclusive 1500 0.0001604552 25000 0.0000043457 7.21. m = 9. E(V) = 0.7486374371, sd(V) = 48.91644787 v P(V = v) 0 0.9610539663 4 0.0326014806 50 0.0057195580 280 0.0005916784 4000 0.0000325925 50000 0.0000007243 7.22. m = 10. E(V) = 0.7228896221, sd(V) = 38.10367609 v P(V = v) 0 0.9353401224 1 0.0514276877 22 0.0114793946 150 0.0016111431 1000 0.0001354194 5000 0.0000061206 100000 0.0000001122 7.23. m = 11. E(V) = 0.7138083347, sd(V) = 32.99373346 v P(V = k) 0 0.9757475913 8 0.0202037345 80 0.0036078097 400 0.0004114169 2500 0.0000283736 25000 0.0000010580 100000 0.0000000160 7.24. m = 12. E(V) = .7167721544, sd(V) = 20.12030014 v P(V = k) 0 0.9596431653 5 0.0322088520 32 0.0070273859 200 0.0010195984 1000 0.0000954010 5000 0.0000054280 25000 0.0000001673 100000 0.0000000021 http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games8.html (5 di 6) [22/11/2001 17.55.55] Note conclusive 7.25. m = 13. E(V) = 0.7216651326, sd(V) = 22.68311303 v P(V = k) 0 0.9213238456 1 0.0638969375 20 0.0123151493 80 0.0021831401 600 0.0002598976 3500 0.0000200623 10000 0.0000009434 50000 0.0000000240 100000 0.0000000002 7.26. m = 14. E(V) = 0.7194160496, sd(V) = 21.98977077 v P(V = k) 0 0.898036333063 1 0.077258807301 9 0.019851285448 42 0.004181636518 310 0.000608238039 1100 0.000059737665 8000 0.000003811015 25000 0.000000147841 50000 0.000000003084 100000 0.000000000026 7.27. m = 15. E(V) = 0.7144017020, sd(V) = 24.31901706 v P(V = k) 0 0.95333046038902 1 0.00801614417729 10 0.02988971956684 25 0.00733144064847 100 0.00126716258122 300 0.00015205950975 2800 0.00001234249267 25000 0.00000064960488 50000 0.00000002067708 100000 0.00000000035046 100000 0.00000000000234 Laboratorio virtuale > Giochi di fortuna > 1 2 3 4 5 6 7 [8] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/games/games8.html (6 di 6) [22/11/2001 17.55.55] Stimatori Laboratorio virtuale > Stima puntuale > [1] 2 3 4 5 6 1. Stimatori Il modello statistico di base Al solito, iniziamo introducendo un esperimento casuale definito su un certo spazio campionario e con misura di probabilità P. Nel modello statistico di base, si ha una variabile casuale X osservabile che assume valori in S. Ricorda che, in generale, X può avere struttura complessa. Per esempio, se l'esperimento consiste nell'estrarre un campione di n oggetti da una popolazione e registrare i valori di interesse, allora X = (X1, X2, ..., Xn) dove Xi è il vettore di misurazione per l'oggetto i-esimo. Il caso particolare più importante si ha quando X1, X2,..., Xn sono indipendenti e identicamente distribuite (IID). In questo caso le n variabili casuali costituiscono un campione casuale di dimensione n dalla distribuzione comune Ricorda anche che una statistica è una funzione osservabile dell'esito di un esperimento casuale: W = h(X). Pertanto, una statistica è semplicemente una variabile casuale drivata dai dati X, con l'ipotesi che anche W sia osservabile. Tipicamente, anche W è un vettore. Parametri In senso generale, un parametro a è una funzione della distribuzione X, che assume valori in uno spazio parametrico A. Di solito, la distribuzione di X avrà k parametri reali di interesse, cosicché a = (a1, a2, ..., ak), e A è un sottinsieme di Rk. In molti casi, uno o più parametri sono sconosciuti e devono essere stimati a partire dal vettore degli esiti dell'esperimento X. Questo è uno dei problemi più importanti di tutta la statistica e costituisce l'oggetto di questo capitolo. Proprietà fondamentali degli stimatori Supponiamo di avere un parametro reale ignoto a che assume valori in uno spazio parametrico A R. Una statistica a valori reali W che si utilizza per stimare a è detta, appunto, stimatore di a. Quindi uno stimatore è una variabile casuale e possiede pertanto una distribuzione, valore atteso, varianza e così via. Quando si esegue l'esperimento e si osservano i dati, il valore osservato w (che è un numero) è la stima del parametro a. L'errore (variabile casuale) è la differenza tra lo stimatore e il parametro: W - a. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point1.html (1 di 5) [22/11/2001 17.56.05] Stimatori Il valore atteso dell'errore è detto distorsione (bias): bias(W) = E(W - a) 1. Usa le proprietà del valore atteso per dimostrare che bias(W) = E(W) - a. Pertanto, uno stimatore si dice corretto se la distorsione è 0 per ogni valore di a, o equivalentemente se il valore atteso dello stimatore è il valore "vero" del paraemtro che si stima: E(W) = a for a in A. La qualità di uno stimatore è spesso misurata attravero l'errore quadratico medio: MSE(W) = E[(W - a)2]. 2. Usa le proprietà di valore atteso e varianza per provare che MSE(W) = var(W) + bias2(W). In particolare, se lo stimatore è corretto, l'errore quadratico medio di W è semplicemente la varianza di W. L'ideale sarebbe avere stimatori corretti e con errore quadratico medio basso. Ciò però non è sempre possibile, e l'esercizio 2 mostra la relazione che intercorre tra distorsione e errore quadratico medio. Nel prossimo paragrafo vedremo un esempio con due stimatori che sono l'uno multiplo dell'altro; uno è corretto ma l'altro ha errore quadratico medio più piccolo. In ogni caso, se abbiamo due stimatori corretti per a, che indichiamo con U e V, è naturale preferire quello con minore varianza (errore quadratico medio). L'efficienza relativa di V rispetto a U è semplicemente il rapporto delle varianze: var(U) / var(V). Proprietà asintotiche Consideriamo il caso particolare in cui la variabile dei dati X ha forma X = (X1, X2, ...) e si ha un parametro di interesse a a valori reali. Di nuovo, questa è la situazione che si ha quando si estraggono a ripetizione dei campioni dalla popolazione; tipicamente, Xi è il vettore delle misurazioni sull'i-esima unità del campione. Quindi, per ogni n, (X1, ..., Xn) sono le osservazioni dal campione di dimensione n. In questa situazione, abbiamo una formula generale che definisce uno stimatore di a per ogni dimensione del campione. Tecnicamente, si ha allora una sequenza di stimatori di a: Wn = hn(X1, X2, ..., Xn), n = 1, 2, ... In questo caso si può parlare di proprietà asintotiche degli stimatori per incrementi di n. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point1.html (2 di 5) [22/11/2001 17.56.05] Stimatori La maggior parte delle definizioni sono generalizzazioni immediate delle precedenti. La sequenza di stimatori Wn si dice asintoticamente corretta per a se bias(Wn) 0 per n per a in A. 3. Prova che Wn è asintoticamente corretto se e solo se E(Wn) a per n per a appartenente a A. Supponiamo che Un e Vn siano due sequenze di stimatori per a, entrambe asintoticamente corrette. L'efficienza relativa asintotica di Vn rispetto a Un è il seguente limite (se esiste): limn [var(Un) / var(Vn)]. Ovviamente ci si aspetta che gli stimatori migliorino, in un certo senso, al crescere di n. Più precisamente, la sequenza di stimatori Wn si dice consistente per a se Wn converge in probabilità ad a per n che tende a infinito: P[|Wn - a| > r] 0 per n per ogni r > 0 e ogni a appartenente a A. 4. Supponi che MSE(Wn) 0 per n per ogni a appartenente ad A. Prova che Wn è consistente per a. Suggerimento: Usa la disuguaglianza di Markov. La condizione presentata nell'esercizio 4 è detta consistenza in media quadratica. Quindi, la consistenza in media quadratica implica la consistenza semplice. Questa è semplicemente una conseguenza del fatto che la convergenza in media quadratica implica la convergenza in probabilità. Media e varianza campionaria Supponi che (X1, X2, ..., Xn) sia un campione di dimensione n proveniente dalla distribuzione di una variabile casuale a valori reali X con media µ e varianza d2. Ricorda che media campionaria e varianza sono definite rispettivamente come Mn = (1 / n) i = 1, ..., n Sn2 = [1 / (n - 1)] Xi. i = 1, ..., n (Xi - Mn)2. Le proprietà di queste statistiche sono esaminate in dettaglio nel capitolo sui campioni casuali. Ribadiremo qui alcune di queste proprietà, focalizzando l'attenzione sulle questioni di stima. 5. Mostra che 1. E(Mn) = µ, per cui Mn è uno stimatore corretto di µ. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point1.html (3 di 5) [22/11/2001 17.56.05] Stimatori 2. var(Mn) = d2 / n, so Mn è uno stimatore consistente per µ. 6. Nell'esperimento della media campionaria, seleziona la distribuzione gamma. Incrementa la dimensione del campione con la barra di scorrimento e osserva graficamente e numericamente le proprietà di consistenza e correttezza. Simula 1000 replicazioni aggiornando ogni 10. 7. Lancia l'applet stima della distribuzione normale 1000 volte, aggiornando ogni 10, con diversi valori dei parametri. In ciascun caso, confronta la distorsione empirica e l'errore quadratico medio di Mn coi valori teorici. La consistenza di Mn come stimatore di µ è semplicemente la legge debole dei grandi numeri. Inoltre, ci sono molti casi particolari dei risultati dell'esercizio 5. Vedi il paragrafo Distribuzioni empiriche nel capitolo sui campioni casuali per ulteriori dettagli. ● ● ● Se X = IA, ovvero la variabile indicatrice di un evento A con probabilità p, allora la media campionaria di Xi, i = 1, 2, ..., n è la frequenza relativa fn di A. Quindi, fn è uno stimatore corretto e consistente di p. Se F è la funzione di ripartizione di X, allora dato x, la funzione di ripartizione empirica Fn(x) è semplicemente la media del campione casuale I{Xi x}, i = 1, 2, ..., n. Quindi Fn(x) è uno stimatore corretto e consistente di F(x). Se X è discreta e f indica la funzione di densità di X, allora, dato x, la funzione di ensità empirica fn(x) è semplicemente la media campionaria del campione casuale 1{Xi = x}, i = 1, 2, ..., n. Quindi fn(x) è uno stimatore corretto e consistente di f(x). 8. Nell'esperimento della concordanza, la variabile casuale è il numero di successi. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza 1. della media campionaria al valore atteso della distribuzione 2. della deviazione standard campionaria a quella della distribuzione 3. della funzione di densità empirica a quella teorica Nei seguenti esercizi, assumiamo che d4 = E[(X - µ)4] sia finito. 9. Mostra che a. E(Sn2) = d2 per cui Sn2 è uno stimatore corretto di d2. b. var(Sn2) = (1 / n)[d4 - (n - 3)d4 / (n - 1)] so Sn2 è uno stimatore consistente di d2. 10. Simula l'esperimento esponenziale 1000 volte aggiornando ogni 10. Osserva la convergenza della deviazione standard campionaria a quella della distribuzione. Reicorda che, se µ è noto, uno stimatore naturale di d2 è Wn2 = (1 / n) i = 1, ..., n (Xi - µ)2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point1.html (4 di 5) [22/11/2001 17.56.05] Stimatori 11. Dimostra che 1. E(Wn2) = d2 so Wn2 è uno stimatore corretto di d2. 2. var(Wn2) = (1 / n)(d4 - d4)so Wn2 è uno stimatore consistente per d2. 12. Prova che l'efficienza relativa asintotica di Sn2 rispetto a Wn2 è 1. 13. Replica la stima della distribuzione normale 1000 volte, aggiornando ogni 10, per valori diversi dei parametri. In ciascun caso, confronta la distorsione empirica e l'errore quadratico medio di Sn2 e Wn2 coi loro valori teorici. Quale stimatore sembra funzionare meglio? Gli stimatori di media e varianza che abbiamo considerato in questo paragrafo sono in un certo senso naturali. Per altri tipi di parametri però non è immediatamente evidente come ottenere degli stimatori ragionevoli. Nei prossimi paragrafi si esaminerà il problema della costruzione degli stimatori. Laboratorio virtuale > Stima puntuale > [1] 2 3 4 5 6 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point1.html (5 di 5) [22/11/2001 17.56.05] Proprietà dei campioni normali Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 [6] 7 8 9 6. Proprietà dei campioni normali Supponiamo che (X1, X2, ..., Xn) sia un campione casuale estratto da una distribuzione normale con media µ e deviazione standard d. In questo paragrafo, enunceremo alcune proprietà speciali di media campionaria, varianza campionaria e altre importanti statistiche. Media campionaria Richiamiamo in primo luogo la definizione di media campionaria M = (1 / n) i = 1, ..., n Xi. La distribuzione M segue dalle proprietà delle variabili normali indipendenti: 1. Prova che M è distribuita normalmente con media µ e varianza d2 / n. 2. Mostra che Z = (M - µ) / (d / n1/2) ha distribuzione normale standardizzata. La variabile standardizzata Z si incontrerà in diversi casi, più avanti. Lo stimatore per d2 quando µ è nota Ricorda che, µ è noto, uno stimatore naturale della varianza d2 è W2 = (1 / n) i = 1, ..., n (Xi - µ)2. Anche se l'ipotesi che µ sia noto è di solito irrealistica, W2 è semplice da analizzare e sarà usato in alcune dimostrazioni più avanti. 3. Mostra che nW2 / d2 ha distribuzione chi-quadro con n gradi di libertà. 4. Usa il risultato dell'esercizio precedente per mostrare che 1. E(W2) = d2. 2. var(W2) = 2d4 / n. Indipendenza di media campionaria e varianza campionaria Ricorda che la varianza campionaria è definita come S2 = [1 / (n - 1)] i = 1, ..., n (Xi - M)2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample6.html (1 di 3) [22/11/2001 17.56.10] Proprietà dei campioni normali Il prossimo gruppo di esercizi dimostra che la media campionaria M e la varianza campionaria S2 sono indipendenti. Notiamo in primo luogo un fatto semplice ma interessante, che vale per campioni casuali provenienti da ogni distribuzione e non solo per la normale. 5. Usa le proprietà della covarianza per dimostrae che, per ogni i, M e Xi - M sono incorrelati: La nostra analisi fa perno sulla media campionaria M e sul vettore di scarti dalla media campionaria: Y = (X1 - M, X2 - M, ..., Xn - 1 - M). 6. Prova che Xn - M = - i = 1, ..., n - 1 (Xi - M). e dimosra quindi che S2 può essere scritto con funzione di Y. 7. Dimostra che M e il vettore Y hanno distribuzione normale multivariata congiunta. 8. Usa il risultato dell'esercizio precedente per mostrare che M e il vettore Y sono indipendenti. 9. Dimostra infine che M e S2 sono indipendenti. La varianza campionaria Possiamo ora determinare la distribuzione della varianza campionaria S2. 10. Prova che nW2 / d2 = (n - 1)S2 / d2 + Z2 dove W2 e Z sono quelli introdotti in precedenza. Suggerimento: Nella sommatoria del membro di sinistra aggiungi e sottrai M ed espandi. 11. Dimostra che (n - 1) S2 / d2 ha distribuzione chi-quadro con n - 1 gradi di libertà. Suggerimento: Usa il risultato dell'esercizio precedente, l'indipendenza e le funzioni generatrici dei momenti. 12. Usa il risultato dell'esercizio precedente per mostrare che 1. E(S2) = d2. 2. var(S2) = 2d4 / (n - 1) Ovviamente si tratta di casi particolari di quelli ottenuti in precedenza. La statistica T La prossima serie di esercizi individuerà òa distribuzione di http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample6.html (2 di 3) [22/11/2001 17.56.10] Proprietà dei campioni normali T = (M - µ) / (S / n1/2). 13. Dimostra che T = Z / [V / (n - 1)]1/2, dove Z è quella introdtta in precedenza e V = (n - 1) S2 / d2. 14. Usa i risultati ottenuti per mostrare che T ha distribuzione t con n - 1 gradi di libertà. La variabile T ha un ruolo fondamentale nella costruzione di intervalli di conidenza e nell'esecuzione di test di ipotesi su µ. Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 [6] 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample6.html (3 di 3) [22/11/2001 17.56.10] Grafici quantile-quantile Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 7 [8] 9 8. Grafici quantile-quantile Derivazione del test Supponiamo di osservare dati a valori reali x1, x2, ..., xn da un campione casuale di dimensione n. Siamo interessati a sapere se i dati possono ragionevolmente provenire da una distribuzione continua (a valori in un certo intervallo) con funzione di ripartizione F. Per prima cosa, ordiniamo i dati dal più piccolo al più grande (i valori osservati delle statistiche d'ordine) x(1) < x(2) < ··· < x(n). 1. Prova che x(i) è il quantile del campione di ordine i / (n + 1). . 2. Dimostra che il quantile di ordine i/ (n + 1) della distribuzione è yi = F-1[i / (n + 1)] Se i dati provengono relamente dalla distribuzione ipotizzata, allora ci si deve attendere che i punti (x(i), yi); i = 1, 2, ..., n giacciano nei pressi della diagonale y = x; al contrario, deviazioni marcate da questa linea indicano che i dati non sono stati generati da quella distribuzione. Il grafico di questi punti è noto come grafico quantile-quantile. Negli esercizi che seguono, analizzeremo i grafici quantile-quantile per le distribuzioni normale, esponenziale, e uniforme. 3. Nell'applet quantile-quantile, scegli la distribuzione normale standardizzata e poni la dimensione del campione a n = 20. Per ciascuna delle distribuzioni sottoindicate, genera 50 replicazioni e osserva la forma del disegno probabilistico. 1. Normale standardizzata 2. Uniforme (0, 1) 3. Esponenziale (1) 4. Nell'applet quantile-quantile, scegli la distribuzione uniforme (0, 1) e poni la dimensione del campione a n = 20. Per ciascuna delle distribuzioni sottoindicate, genera 50 replicazioni e osserva la forma del disegno probabilistico. http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample8.html (1 di 3) [22/11/2001 17.56.15] Grafici quantile-quantile 1. Normale standardizzata 2. Uniforme (0, 1) 3. Esponenziale (1) 5. Nell'applet quantile-quantile, scegli la distribuzione esponenziale (1) e poni la dimensione del campione a n = 20. Per ciascuna delle distribuzioni sottoindicate, genera 50 replicazioni e osserva la forma del disegno probabilistico. 1. Normale standardizzata 2. Uniforme (0, 1) 3. Esponenziale (1) Famiglie di posizione e scala In genere non si cerca di adattare i dati a una distribuzione specifica, ma piuttosto a una famiglia parametrica di distribuzioni (come la normale, l'uniforme o l'esponenziale). Normalmente infatti non possiamo lavorare con una distribuzione specifica perché non ne conosciamo i parametri. Fortunatamente, il metodo del grafico quantile-quantile è semplicemente estendibile alle famiglie di posizione e scala di distribuzioni. Supponi che G sia una funzione di ripartizione data. Ricorda che la famiglia di posizione e scala associata a G ha funzione di ripartizione F(x) = G[(x - a) / b], dove a è il parametro di posizione e b > 0 è il parametro di scala. 6. Per p appartenente a (0, 1), sia zp il quantile di ordine p per G e yp il quantile di ordine p per F. Prova che yp = a + b zp. Dall'esercizio 6 segue che se il grafico costruito con la funzione di ripartizione F è quasi lineare (e in particolare, se è prossimo alla diagonale), allora il disegno probabilistico costruito con la funzione di ripartizione G sarà anch'esso quasi lineare. Pertanto, possiamo usare la funzione di ripartizione G anche senza conoscere i parametri. 7. Nell'esperimento quantile-quantile, scegli la distribuzione normale con media 5 e deviazione standard 2 e poni la dimensione del campione a n = 20. Per ciascuna delle distribuzioni sottoindicate, genera 50 replicazioni e osserva la forma del disegno probabilistico. 1. Normale standardizzata 2. Uniforme (0, 1) 3. Esponenziale (1) 8. Nell'esperimento quantile-quantile, scegli la distribuzione uniforme sull'intervallo (4, 10) e poni la dimensione del campione a n = 20. Per ciascuna delle distribuzioni http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample8.html (2 di 3) [22/11/2001 17.56.15] Grafici quantile-quantile sottoindicate, genera 50 replicazioni e osserva la forma del disegno probabilistico. 1. Normale standardizzata 2. Uniforme (0, 1) 3. Esponenziale (1) 9. Nell'esperimento quantile-quantile, scegli la distribuzione esponenziale con parametro 3 e poni la dimensione del campione a n = 20. Per ciascuna delle distribuzioni sottoindicate, genera 50 replicazioni e osserva la forma del disegno probabilistico. 1. Normale standardizzata 2. Uniforme (0, 1) 3. Esponenziale (1) Esercizi numerici 10. Traccia il disegno probabilistico normale coi dati di Michelson sulla velocità della luce. Interpreta i risultati. 11. Traccia il disegno probabilistico normale coi dati di Cavendish sulla densità della terra. Interpreta i risultati. 12. Traccia il disegno probabilistico normale coi dati sulla parallasse solare di Short. Interpreta i risultati. 13. Traccia il disegno probabilistico normale per la variabile lunghezza dei petali sui dati di Fisher sugli iris, nei casi seguenti. Confronta i risultati. 1. 2. 3. 4. Tutte le varietà Solo la Setosa Solo la Verginica Solo la Versicolor Interpretazione dei risultati Ci aspettiamo che tu abbia tratto alcune conclusioni da questi esperimenti. In primo luogo, il metodo del disegno probabilistico è di poca utilità se si dispone di campioni di piccola dimensione. Se si hanno solo cinque punti, ad esempio, è quasi impossibile valutare la linearità del grafico risultante. Anche con campioni più grandi, tuttavia, i risultati possono essere ambigui. Per esempio, un campione estratto da una distribuzione normale di solito sembra adattarsi bene anche a una distribuzione uniforme. Per trarre conclusioni adeguate è di grande aiuto la pratica con diversi tipi di distribuzione. Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 7 [8] 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/sample/sample8.html (3 di 3) [22/11/2001 17.56.15] Problema dell'ago di Buffon Laboratorio virtuale > Modelli geometrici > 1 [2] 3 4 5 2. Problema dell'ago di Buffon L'esperimento dell'ago di Buffon è un esperimento casuale antico e ben noto, che prende nome dal Compte De Buffon. L'esperimento consiste nel far cadere un ago su un pavimento di assi di legno. L'evento di interesse è che l'ago vada a cadere su un'intercapedine tra un'asse e l'altra. Stranamente, la probabilità di questo evento conduce a una stima statistica del numero pi greco! Assunzioni Il primo passo consiste nel definire l'esperimento in termini matematici. Di nuovo, astraiamo gli oggetti fisici assumendo che le assi del pavimento siano identiche e di larghezza unitaria. Assumeremo inoltre che l'ago abbia lunghezza L < 1 cosicché non possa incorciare più di una fessura. Assumeremo infine che le intercapedini tra le assi siano segmenti di retta. Lanciando l'ago, vogliamo registrare il suo orientamento rispetto alle fessure. Un modo per farlo è registrare l'angolo X che l'estremita superiore dell'ago forma con la retta che passa per il centro dell'ago parallela alle assi, e la distanza Y dal centro dell'ago all'intercapedine inferiore. Si tratta di variabili casuali semplice per l'esperimento, per cui lo spazio campionario è S = (0, ) × (0, 1) = {(x, y): 0 < x < , 0 < y < 1} Di nuovo, l'assunzione che facciamo è di lanciare l'ago "a caso" sul pavimento. Quindi, un'assunzione matematica ragionevole può essere che il vettore aleatorio (X, Y) sia distribuito uniformemente sullo spazio campionario. Per definizione, ciò significa che P[(X, Y) A] = area(A) / area(S) per A S. 1. Esegui l' esperimento dell'ago di Buffon con le impostazioni predefinite e osserva gli esiti sullo spazio campionario. Osserva come i punti della dispersione sembrano riempire lo spazio campionario S in maniera uniforme. http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon2.html (1 di 5) [22/11/2001 17.56.23] Problema dell'ago di Buffon La probabilità della caduta su una fessura L'evento di interesse C è quello in cui l'ago cade su una fessura tra le assi. 2. Usa la trigonometria per mostrare che C può essere scritto come segue in termini delle variabili angolo e distanza: C = {Y < (L / 2)sin(X)} {Y > 1 - (L / 2)sin(X)} 3. Usa l'analisi per mostrare che area(C) = 2L e quindi P(C) = 2L / 4. Usa quello che sai sulle rette per mostrare che P(C) in funzione di L, ha il grafico seguente: 5. Trova la probabilità che l'ago non cada su una fessura. Le curve y = (L / 2)sin(x), y = 1 - (L / 2)sin(x) sono disegnate in blu nel grafico a dispersione, per cui l'evento C è l'unione delle regioni tra la curva inferiore e la curva superiore. Pertanto, l'ago cade su una fessura esattamente quando un punto cade nella regione. 6. Nell' Buffon, modifica la lunghezza dell'ago L con la barra a scorrimento e osserva come gli eventi C e Cc cambiano. Esegui l'esperimento con diversi valori di L e confronta l'esperimento fisico coi punti della dispersione. Osserva la convergenza della frequenza relativa di C alla probabilità di C. La convergenza della frequenza relativa di un evento (al ripetersi dell'esperimento) alla probabilità dell'evento è un caso particolare della legge dei grandi numeri. 7. Trova le probabilità dei seguenti eventi nell'esperimento dell'ago di Buffon. In http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon2.html (2 di 5) [22/11/2001 17.56.23] Problema dell'ago di Buffon ciascun caso, disegna l'eveno come sottinsieme dello spazio campionario. 1. 2. 3. 4. {0 < X < / 2, 0 < Y < 1 / 3} {1/4 < Y < 2 / 3} {X < Y} {X + Y < 2} Stima di pi greco Supponiamo di eseguire l'esperimento dell'ago di Buffon un numero molto elevato di volte. Per la legge dei grandi numeri, la proporzione degli incroci dev'essere prossima alla probabilità di incrociare una fessura. Più precisamente, indicheremo il numero di incroci nelle prime n prove con Nn. Nota che Nn è una variabile casuale per l'esperimento composito formato da n replicazioni dell'esperiemnto semplice. Quindi, se n è grande, dovremmo avere Nn / n ~ 2L / e quindi ~ 2Ln / Nn. Questa è la celebre stima di Buffon di &pi;. Nella simulazione, tale stima è calcolata ad ogni ciclo ed è mostrata numericamente nella seconda tabella e visualmente nel grafico a barre. 8. Esegui l' esperimento dell'ago di Buffon con lunghezza dell'ago L = 0.3, 0.5, 0.7, e 1. In ciascun caso, osserva la stima di pi all'evolversi della simulazione. Analizziamo più attentamente il problema della stima. Per ciascuna esecuzione j si ha la variabile indicatore Ij = 1 se l'ago incrocia una fessura alla j-esima replicazione; Ij = 0 altrimenti Queste variabili indicatrici sono indipendenti e identicamente distribuite, poiché stiamo assumendo replicazioni indipendenti dell'esperimento. Quindi, la sequenza forma un processo di prove Bernoulliane. 9. Prova che il numero di incorci nelle prime n replicazioni dell'esperimento è Nn = I1 + I2 + ··· + In. 10. Usa il risultato dell'esercizio 9 per mostrare che il numero di incroci nelle prime n replicazioni ha distribuzione binomiale con parametri n e p = 2L / 11. Usa il risultato dell'esercizio 9 per mostrare che media e varianza del numero di incroci sono 1. E(Nn) = 2Ln / 2. var(Nn) = (2Ln / )(1 - 2L / ) http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon2.html (3 di 5) [22/11/2001 17.56.23] Problema dell'ago di Buffon 12. Usa la legge forte dei grandi numeri per mostrare che 1. Nn / 2Ln 1/ 2. 2Ln / Nn per n per n Si hanno quindi due stimatori: 1. Nn / 2Ln per 1 / 2. 2Ln / Nn per . . Proprietà Lo stimatore (1) gode di molte importanti proprietà statistiche. In primo luogo, è corretto, poiché il valore atteso dello stimatore è pari al parametro: 13. Usa l'esercizio 11 e le proprietà del valore atteso per mostrare che E(Nn / 2Ln) = 1 / . Poiché lo stimatore è corretto, la varianza coincide con l'errore quadratico medio: var(Nn / 2Ln) = E[(Nn / 2Ln - 1 / )2] 14. Usa l'esercizio 4 e le proprietà della varianza per mostrare che var(Nn / 2Ln) = ( - 2L) / (2L n 2) 15. Mostra che la varianza dell'esercizio 11 è funzione decrescente della lunghezza dell'ago L. L'esercizio 15 mostra che lo stimatore (1) migliora all'aumentare della lunghezza dell'ago. Lo stimatore (2) è distorto e tende a sovrastimare pi: 16. Usa la disuguaglianza di Jensen per provare che E(2Ln / Nn) . Anche lo stimatore (2) migliora all'aumentare della lunghezza dell'ago, ma non è facile dimostrarlo formalmente. In ogni caso, puoi vederlo empiricamente. 17. Nell'esperimento dell'ago di Buffon, poni la frequenza di aggiornamento a 100. Simula 5000 replicazioni, con L = 0.3, L = 0.5, L = 0.7, e L = 1. Osserva come sembra funzionare lo stimatore in ciascun caso. Infine, dobbiamo notare che, all'atto pratico, l'esperimento dell'ago di Buffon non è un modo molto efficiente di approssimare pi. Seguendo Richard Durrett, la stima di pi con un'approssimazione di quattro posizioni decimali con L = 1 / 2 richiederebbe circa 100 milioni di lanci! http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon2.html (4 di 5) [22/11/2001 17.56.23] Problema dell'ago di Buffon 18. Simula l'esperimento dell'ago di Buffon con frequenza di aggiornamento 100 fino a che la stima di pi sembra consistentemente corretta alla seconda posizione decimale. Nota il numero di replicazioni necessarie. Prova con le lunghezze L = 0.3, L = 0.5, L = 0.7, e L = 1 e confronta i risultati. Laboratorio virtuale > Modelli geometrici > 1 [2] 3 4 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon2.html (5 di 5) [22/11/2001 17.56.23] Introduzione Laboratorio virtuale > Il processo di Poisson > [1] 2 3 4 5 6 7 8 1. Introduzione Consideriamo ora un processo in cui i punti si presentano casualmente nel tempo. La frase punti nel tempo è volutamente generica, e può rappresentare ad esempio: ● Il tempo al quale un pezzo di materiale radioattivo emette determinate particelle. ● Il tempo in cui le automobili arrivano a una stazione di servizio. ● Il tempo in cui arrivano a un server delle richeste dai computer periferici. ● Il tempo in cui si verificano incidenti a un certo incrocio. Si vedrà che, sotto alcune assunzioni di base che hanno a che fare con indipendeza e uniformità nel tempo, un singlo, modello probabilistico a un parametro governa tutti i processi di questo tipo. Tale risultato è sorprendente ed è una delle ragioni per cui il processo di Poisson (che prende nome da Simeon Poisson) è uno dei più importanti in tutta la teoria della probabilità. Variabili casuali Ci sono due categorie di variabili casuali che possiamo utilizzare per descrivere questo tipo di processo, che corrispondono a due diversi tipi di esperimento. Per cominciare, sia Tk il tempo del k-esimo arrivo per k = 1, 2, ... L'esperimento gamma consiste nell'eseguire il processo finché si verifica il k-esimo arrivo e registrare il tempo di tale arrivo. Sia invece Nt il numero di arrivi nell'intervallo (0, t] per t 0. L'esperimento di Poisson consiste nell'eseguire il processo fino al tempo t e registrare il numero di arrivi. Notiamo che Nt k se e solo se Tk t poiché ognuno di tali eventi indica che ci sono almeno k arrivi nell'intervallo (0, t]. L'assunzione di base L'assunzione che faremo può essere presentata intuitivamente (ma non correttamente) come segue: se fissiamo un tempo t, sia costante o dipendente dai tempi di arrivo, allora il processo dopo il tempo t è indipendente dal processo prima del tempo t e si comporta, probabilisticamente, come il processo originale. Quindi il processo casuale ha proprietà di rigenerazione. Precisare meglio quest'assunzione ci consentire di ricavare la distribuzione di: ● I tempi tra gli arrivi, ● I tempi di arrivo, ● Il numero di arrivi in un intervallo. 1. Pensa all'applicazione di base in ciascuna delle applicazioni specifiche riportate http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson1.html (1 di 2) [22/11/2001 17.56.26] Introduzione sopra. Laboratorio virtuale > Il processo di Poisson > [1] 2 3 4 5 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson1.html (2 di 2) [22/11/2001 17.56.26] Splitting Laboratorio virtuale > Il processo di Poisson > 1 2 3 4 [5] 6 7 8 5. Splitting Il processo di due tipi Supponiamo che ciascuno degli arrivi in un processo di Poisson sia, indipendenetemente dagli altri, di due tipi: tipo 1 con probabilità p e tipo 0 con probabilità q = 1 - p. Ciò è a volte detto splitting di un processo di Poisson. Per esempio, supponi che gli arrivi siano emissioni radioattive e che ciascuna particella possa essere rilevata (tipo 1) o mancata (tipo 0) da un misuratore. Se gli arrivi sono automobili a una stazione di servizio, ciascun guidatore può essere maschio (tipo 1) o femmina (tipo 0). La distribuzione congiunta Siamo interessati agli arrivi di tipo 1 e di tipo 0 congiuntamente. Sia 1. Mt = numero di arrivi di tipo 1 in (0, t]. 2. Wt = Nt - Mt = numero di arrivi di tipo 0 in (0, t]. 1. Usa la definizione di probabilità condizionata per mostrare che P(Mt = j, Wt = k) = P(Mt = n | Nt = j + k)P(Nt = j + k). 2. Dimostra che, in termini di tipo, gli arrivi successivi formano un processo di prove Bernoulliane, per cui se ci sono j + k arrivi nell'intervallo (0, t], allora il numero di arrivi di tipo 1 ha distribuzione binomiale con parametri j + k e p. 3. Usa i risultati degli esercizi 1 e 2 per mostrare che P(Mt = j, Wt = k) = [e-rpt (rpt)j / j!][e-rqt (rqt)k / k!] per j, k = 0, 1, ... Segue dall'esercizio 3 che il numero di arrivi di tipo 1 nell'intervallo (0, t] e il numero di arrivi di tipo o nell'intervallo (0, t] sono indipendenti e hanno distribuzione di Poisson con parametri rispettivamente rpt e rqt. Più in generale, gli arrivi di tipo 1 e di tipo 0 formano due distinti (e indipendenti) processi di Poisson. 4. Nell'esperimento di Poisson di due tipi modifica r, p e t con le barre a scorrimento e osserva la forma delle funzioni di densità. Poni r = 2, t = 3 e p = 0.7. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alle funzioni di densità. 5. Nell'esperimento di Poisson di due tipi, poni r = 2, t = 3 e p = 0.7. Simula 500 replicazioni, aggiornando ogni volta e calcola le appropriate frequenze relative per analizzare empiricamente l'indipendenza tra numero di donne e numero di uomini. http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson5.html (1 di 3) [22/11/2001 17.56.30] Splitting 6. Supponi che le automobili arrivino a una stazione di servizio seguendo il modello di Poisson, con velocità r = 20 l'ora. Inoltre, ciascun guidatore può essere, indipendentemente dagli altri, femmina con probabilità 0.6 o maschio con probabilità 0.4. Trova la probabilità che, su un periodo di due ore, si presentino almeno 20 donne e 15 uomini. Stima del numero di arrivi Supponiamo che Nt non sia osservabile, ma che lo sia Mt. Questa situazione si presenta, ad esempio, se gli arrivi sono emissioni radioattive, e quelle di tipo 1 sono rilevate da un misuratore, mentre quelle di tipo 0 gli sfuggono. Vogliamo stimare il numero totale di arrivi Nt in (0, t] dopo aver osservato il numero di arrivi di tipo 1 Mt. 7. Prova che la distribuzione condizionata di Nt dato Mt = k è identica alla distribuzione di k + Wt. 8. Prova che E(Nt | Mt = k) = k + r(1 - p)t. Quindi, se la velocità complessiva r e la probabilità p che un arrivo sia di tipo 1 sono note, segue dalla teoria generale del valore atteso condizionato che Mt + r(1 - p)t è il miglior stimatore di Nt basata su Mt nel senso dei minimi quadrati. 9. Prova che E{[Nt - (Mt + r(1 - p)t)]2} = r(1 - p)t. 10. Nell'esperimento di Poisson di due tipi, poni r = 3, t = 4 e p = 0.8. Simula 100 replicazioni, aggiornando ogni volta. 1. Calcola la stima di Nt basata su Mt per ciascuna replicazione. 2. Calcola, per tutte e 100 le replicazioni, la media della somma dei quadrati degli errori. 3. Confronta il risultato di (b) con quello dell'esercizio 9. 11. Supponi che un frammento di materiale radioattivo emetta particelle seguendo il modello di Poisson con velocità r = 100 al secondo. Supponi inoltre che lo strumento di misura che si utilizza individui ciascuna particella emessa, indipendentemente dalle altre, con probabilità 0.9. Se in un periodo di 5 secondi sono registrate 465 particelle, 1. Stima il numero di particelle emesse. 2. Calcola l'errore quadratico medio della stima. Il processo di k tipi Supponi che ciascun arrivo del processo di Poisson sia, indipendentemente dagli altri, di uno dei k tipi: i con probabilità pi per i = 1, 2, ..., k. Ovviamento dobbiamo avere http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson5.html (2 di 3) [22/11/2001 17.56.30] Splitting p1 + p2 + ··· + pk = 1. Sia Mi(t) il numero di arrivi di tipo i in (0, t] per i = 1, 2, ..., k. 12. Mostra che, per dati t, M1(t), M2(t), ..., Mk(t) sono indipendenti e Mi(t) ha distribuzione di Poisson con parametro rpit. Più in generale, M1(t), M2(t), ..., Mk(t) sono processi di Poisson indipendenti. Laboratorio virtuale > Il processo di Poisson > 1 2 3 4 [5] 6 7 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson5.html (3 di 3) [22/11/2001 17.56.30] Processi di Poisson in più dimensioni Laboratorio virtuale > Il processo di Poisson > 1 2 3 4 5 6 [7] 8 7. Processi di Poisson in più dimensioni Il processo Il processo di Poisson può essere definito in un contesto bidimensionale per modellare punti nello spazio. Alcuni esempi specifici di "punti casuali" sono 1. Difetti in un foglio di materiale. 2. Uvetta in una torta. 3. Stelle nel cielo. Il modo in cui abbiamo introdotto il processo di Poisson su [0, ), partendo dai tempi interarrivo, non si generalizza facilmento, poiché tale costruzione dipende dall'ordine dei numeri reali. Tuttavia, la costruzione alternativa motivata dall'analogia con le prove Bernoulliane, si presta in modo molto naturale. Fissato k, sia m la misura in k-dimensioni, definita su sottinsiemi di Rk. Pertanto, se k = 2, m(A) è l'area di A e se k = 3, m(A) è il volume di A. Sia ora D un sottinsieme di Rk e consideriamo un processo stocastico che genera punti casuali in D. Per A D con m(A) positivo e finito, sia N(A) il numero di punti casuali in A. Tale collezione di variabili casuali è un processo di Poisson su D con parametro di densità r se i seguenti assiomi sono soddisfatti: 1. N(A) ha distribuzione di Poisson con parametro r m(A). 2. If A1, A2, ..., An sono sottinsiemi mutualmente disgiunti di D allora N(A1), N(A2), ..., N(An) sono indipendenti. 1. Nel processo di Poisson in due dimensioni, modifica l'ampiezza w e la velocità r. Osserva forma e posizione della densità di N. Con w = 3 e r = 2, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della densità empirica a quella teorica. Usando i risultati precedentemente ricavati sui momenti, segue che E[N(A)] = r m(A), var[N(A)] = r m(A). In particolare, r può essere interpretato come densità attesa dei punti casuali, giustificando così il nome del parametro 2. Nel processo di Poisson in due dimensioni, modifica l'ampiezza w e la velocità r. Osserva dimensione e poisizone della barra media/deviazione standard. Con w = 4 e r = 3, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza dei momenti empirici ai loro valori teorici. 3. Supponi che i difetti in un foglio di materiale seguano il modello di Poisson con http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson7.html (1 di 3) [22/11/2001 17.56.37] Processi di Poisson in più dimensioni una media di 1 difetto ogni 2 metri quadrati. In un foglio di 5 metri quadrati, 1. Trova la probabilità che ci siano almeno 3 difetti. 2. Trova media e deviazione standard del numero di difetti. 4. Supponi che l'uvetta in un panettone segua il modello di Poisson, con una media di 2 uvette per pollice cubico. In un pezzo che misura 3 per 4 per 1 pollici, 1. Trova la probabilità che ci siano non più di 20 uvette. 2. Trova media e deviazione standard del numero di uvette. 5. Supponi che il numero di alberi di una foresta che superano una certa dimensione segua il modello di Poisson. In una regione di foresta di un chilometro quadrato ci sono 40 alberi che superano la dimensione fissata. 1. Stima il parametro di densità. 2. Utilizzando il parametro di densità stimato, trova la probabilità di trovare almeno 100 alberi che superano la dimensione fissata in un chilometro quadrato di foresta. I punti più vicini Consideriamo il processo di Poisson in R2 con parametro di densità r. Per t > 0, sia Mt = N(Ct) dove Ct è la regione circolare di raggio t, centrata sull'origine. Sia Z0 = 0 e per k = 1, 2, ... sia Zk la distanza del k-esimo punto più vicino all'origine. Notiamo che Zk è analogo al k-esimo tempo di arrivo per il processo di Poisson su [0, ). 6. Mostra che Mt ha distribuzione di Poisson con parametro 7. Mostra che Zk 8. Mostra che velocità r. t se e solo se Mt t2r. k. Zk2 ha distribuzione gamma con parametro di forma k e parametro di 9. Mostra che Zk ha funzione di densità g(z) = 2( r)k z2k - 1 exp(- r z2) / (k - 1)!, z > 0. 10. Mostra che Zk2 - Zk - 12, k = 1, 2, ... sono indipendenti e ciascuno ha distribuzione esponenziale con parametro di velocità r. La distribuzione dei punti casuali Di nuovo, il processo di Poisson indica il modo più casuale per distribuire punti nello spazio, in un cero senso. Più specificamente, consideriamo il processo di Poisson su Rk con parametro r. Ricordiamo di nuovo che si considerano sottinsiemi A di Rk con m(A) positivo e finito. 11. Supponi che una regione regione A contenga esattamente un punto casuale. Prova http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson7.html (2 di 3) [22/11/2001 17.56.37] Processi di Poisson in più dimensioni che la posizione X = (X1, X2, ..., Xk) del punto è distribuita uniformemente in A. Più in generale, se A contiene n punti, allora le posizione dei punti sono indipendenti e distribuite uniformemente in A. 12. Supponi che i difetti in un certo materiale seguano il modello di Poisson. Si sa che un foglio quadrato di lato 2 metri contiene un difetto. Trova la probabilità che il difetto sia in una regione circolare del materiale di raggio 1/4 di metro. 13. Supponi che una regione A contenga n punti casuali. Sia B sottinsieme di A. Mostra che il numero di punti contenuti in B ha distribuzione binomiale con parametri n e p = m(B) / m(A). 14. Più in generale, supponi che una regione A sia suddivisa in k sottinsiemi B1, B2, ..., Bk. Prova che la distribuzione condizionata di (N(B1), N(B2), ..., N(Bk)) dato N(A) = n è multinomiale con parametri n e pi = m(Bi) / m(A), i = 1, 2, ..., k. 15. Supponi che l'uvetta in un panettone segua il modello di Poisson. Si divide una fetta di 6 pollici cubici con 20 uvette in 3 parti uguali. Trova la probabilità che ogni pezzo contenga almeno 6 uvette. Splitting Lo splitting di un processo di Poisson in k dimensioni funziona esattamente come lo splitting del processo di Poisson standard. In particolare, supponiamo he i punti casuali siano di j tipi diversi e che ciascuno, indipendentemente dagli altri, sia di tipo i con probabilità pi per i = 1, 2, ..., j. Sia Ni(A) il numero di punti di tipo i in una regione A, per i = 1, 2, ..., j. 16. Prova che 1. N1(A), N2(A), ..., Nj(A) sono indipendenti 2. Ni(A) ha distribuzione di Poisson con parametro rpi m(A) per i = 1, 2, ..., j. Più in generale, i punti di tipo i formano un processo di Poisson con parametro di densità rpi per ogni i, e tali processi sono indipendenti. 17. Supponi che i difetti di fabbricazione in un foglio di materiale seguano il modello di Poisson, con una media di 5 difetti per metro quadro. Ciascun difetto, indipendentemente dagli altri, è lieve con probabilità 0.5, moderato con probabilità 0.3 o grave con probabilità 0.2. Considera un pezzo circolare di materiale con raggio 1 metro. 1. Trova media e deviazione standard del numero di difetti di ciascun tipo nel pezzo. 2. Trova la probabilità che ci siano almeno 2 difetti di ciascun tipo nel pezzo. Laboratorio virtuale > Il processo di Poisson > 1 2 3 4 5 6 [7] 8 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson7.html (3 di 3) [22/11/2001 17.56.37] Note conclusive Laboratorio virtuale > Il processo di Poisson > 1 2 3 4 5 6 7 [8] 8. Note conclusive Simulazione del processo di Poisson in una dimensione Col metodo utilizzato in questo capitolo, tutte le variabili casuali del processo di Poisson su [0, ) sono costruite come sequenza di variabili casuali indipendenti, ciascuna con distribuzione esponenziale con parametro r. Per simulare il processo ci basta quindi capire come simulare variabili casuali indipendenti partendo da numeri casuali. Ricordiamo che, se F è la funzione di ripartizione di una variabile casuale X, allora F-1 è la funzione quantile. Inoltre, se U è distribuita uniformemente sull'intervallo (0, 1), (per cui U è un numero casuale) allora F-1(U) ha la stessa distribuzione di X. Tale metodo-quantile per la simulazione di X richiede, ovviamente, di poter calcolare la funzione quantile F-1 in forma chiusa. Fortunatamente, ciò è possibile per la distribuzione esponenziale. 1. Prova che se Uj, j = 1, 2, ... è una sequenza di numeri casuali, allora la sequenza sottostante simula variabili casuali indipendenti, ciascuna distribuita esponenzialemente con parametro di velocità r. Xj = -ln(1 - Uj) / r, j = 1, 2, ... Tali variabili simulano quindi i tempi interarrivo per un processo di Poisson su [0, Quindi i tempi di arrivo sono simulati come ). Tk = X1 + X2 + ··· + Xk per k = 1, 2, ... e le variabili di conteggio sono simulate come Nt = #{k: Tk t} per t > 0. Simulazione di processi di Poisson in più dimensioni Possiamo anche simulare una variabile di Poisson direttamente. Il metodo generale proposto nell'esercizio seguente è anche un caso speciale del metodo-quantile presentato poc'anzi. 2. Supponiamo che f sia una funzione di densità discreta su {0, 1, 2, ...}. Se U è distribuita uniformemente su (0, 1) (un numero casuale), mostra che la variabile definita qui sotto ha densità f: N = j se e solo se f(0) + ··· + f(j - 1) < U f(0) + ··· + f(j). Possiamo ora utilizzare il risultato dell'esercizio 4 per simulare un processo di Poisson in una regione D di Rk. Illustreremo questo metodo sul rettangolo D = [a, b] × [c, d] in R2 http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson8.html (1 di 4) [22/11/2001 17.56.44] Note conclusive dove a < c e b < d. Per cominciare, utilizziamo un numero casuale U per simulare una variabile casuale N che abbia distribuzione di Poisson con parametro r(b - a)(d - c), come nell'esercizio precedente. Ora, se N = n, siano U1, U2, ..., Un e V1, V2, ..., Vn numeri casuali e definiamo Xi = a + (b - a)Ui, Yi = c + (d - c)Vi per i = 1, 2, ..., n. 3. Mostra che i punti casuali di un processo di Poisson con velocità r su D sono simulati da (Xi, Yi), i = 1, 2, ..., n. Libri Per ulteriori informazioni sui processi di Poisson e le loro generalizzazioni puoi vedere ● Stochastic Processes di Sheldon Ross ● A First Course in Stochastic Processes di Samuel Karlin and Howard Taylor ● Introduction to Stochastic Processes di Ehran Çinlar ● Poisson Processes di JFC Kingman. Risposte agli esercizi del paragrafo 2 2.8. Sia X la lunghezza della telefonata. 1. P(2 < X < 4) = 0.4237 2. Q1 = 1.4384, Q2 = 3.4657, Q3 = 6.9315, Q3 - Q1 = 5.4931 2.9. Sia T la durata 1. P(T > 2000) = 0.1353 2. Q1 = 287.682, Q2 = 693.147, Q3 = 1386.294, Q3 - Q1 = 1098.612. 2.14. Sia T il tempo tra le richieste. 1. E(T) = 0.5, sd(T) = 0.5 2. P(T < 0.5) = 0.6321 3. Q1 = 0.1438, Q2 = 0.3466, Q3 = 0.6931, Q3 - Q1 = 0.5493 2.15. Sia X la durata. 1. r = 0.02231 2. E(X) = 44.814, sd(X) = 44.814 3. Q1 = 12.8922, Q2 = 31.0628, Q3 = 62.1257, Q3 - Q1 = 49.2334. 2.16. Sia X la posizione del primo difetto. 1. r = 0.01 2. P(X < 200 | X > 150) = 0.3935. http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson8.html (2 di 4) [22/11/2001 17.56.44] Note conclusive 3. sd(X) = 100 4. Q1 = 28.7682, Q2 = 69.3147, Q3 = 138.6294, Q3 - Q1 = 109.8612 Risposte agli esercizi del paragrafo 3 3.4. 0.1991 3.5. 0.1746 3.10. 2, 0.6325 3.11. r = 1 / 10, k = 4 3.16. 0.5752 3.20. r = 6.67 richieste al minuto. Risposte agli esercizi del paragrafo 4 4.6. 0.7798 4.7. 0.8153 4.12. 32, 5.657 4.20. 0.8818 4.23. 0.6 4.26. 0.9452 4.30. r = 5.7 al minuto Risposte agli esercizi del paragrafo 5 5.6. 0.5814 5.11. 1. 515 2. 50 Risposte agli esercizi del paragrafo 6 6.10. 0.7350 6.13. 1. 0.1227 http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson8.html (3 di 4) [22/11/2001 17.56.44] Note conclusive 2. 0.0803 Risposte agli esercizi del paragrafo 7 7.3. 1. 0.4562 2. 2.5, 1.581 7.4. 1. 0.2426 2. 24, 4.899 7.5. 1. r = 80 per chilometro quadrato 2. 0.0171 7.12. 0.0491 7.15. 0.2146 7.17. 1. Lieve: 7.854, 2.802; Moderato: 4.712, 2.171; Grave: 3.142, 1.772 2. 0.7762 Laboratorio virtuale > Il processo di Poisson > 1 2 3 4 5 6 7 [8] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/poisson/poisson8.html (4 di 4) [22/11/2001 17.56.44] Stima puntuale Laboratorio virtuale > Statistica > A B [C] D E C. Stima puntuale Sommario 1. Stimatori 2. Metodo dei momenti 3. Massima verosimiglianza 4. Stimatori Bayesiani 5. Migliori stimatori corretti 6. Sufficienza, completezza e ancillarità Applets ● Stima della distribuzione normale ● Stima della distribuzione uniforme ● Stima della distribuzione gamma ● Stima della distribuzione beta ● Esperimento della moneta non bilanciata Citazione ● È molto meglio una risposta approssimativa a una domanda giusta, che è spesso vaga, piuttosto che una risposta esatta a una domanda sbagliata, che può essere spesso precisa. John Tukey, Annals of Mathematical Statistics, 33 (1962). Laboratorio virtuale > Statistica > A B [C] D E Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/index.html [22/11/2001 17.56.46] Distribuzioni notevoli Laboratorio virtuale > Statistica > [A] B C D E A. Distribuzioni notevoli Sommario 1. Introduzione 2. La distribuzione normale 3. La distribuzione gamma 4. La distribuzione chi-quadro 5. La distribuzione t di Student 6. La distribuzione F 7. La distribuzione normale bivariata 8. La distribuzione normale multivariata 9. La distribuzione beta 10. La distribuzione di Weibull 11. La distribuzione zeta 12. La distribuzione di Pareto 13. La distribuzione logistica 14. La distribuzione lognormale 15. Note conclusive Applets ● Variabile casuale ● Normale bivariata ● Applet quantile Laboratorio virtuale > Statistica > [A] B C D E Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/index.html [22/11/2001 17.56.48] Introduzione Laboratorio virtuale > Distribuzioni notevoli > [1] 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1. Introduzione In questo capitolo introdurremo una serie di famiglie parametriche di distribuzioni che hanno un ruolo di particolare importanza in statistica. In alcuni casi, queste distribuzioni sono rilevanti perché si presentano come limite di altre. In altri casi, l'importanza di una distribuzione deriva dal fatto che può essere utilizzata per modellare un'ampia varietà di fenomeni aleatori. Ciò è di solito importante perché queste famiglie presentano un'ampia varietà di densità con un numero limitato di parametri (di solito uno o due). Come principio generale, è uile modellare un fenomeno aleatorio col minor numero possibile di parametri; questo è noto come principio di parsimonia. Questo, tra l'altro, è un riflesso particolare del rasoio di Occam, che prende il nome da Guglielmo di Occam; tale principio stabilisce che per descrivere un certo fenomeno è sempre meglio utilizzare il modello più semplice. Molte altre famigile parametriche di distribuzioni sono presentate altrove in questo ipertesto, poiché la loro posizione naturale è accanto ai processi aleatori a cui si riferiscono, ovvero: ● La distribuzione binomiale ● La distribuzione binomiale negativa ● La distribuzione multinomiale ● La distribuzione ipergeometrica ● La distribuzione ipergeometrica multivariata ● La distribuzione di Poisson Prima di iniziare lo studio delle famiglie parametriche notevoli, studieremo due famiglie parametriche generali. La maggior parte delle distribuzioni che saranno presentate in questo capitolo appartengono a una o a entrambe queste famiglie generali. Famiglie di posizione e scala 1. Supponiamo che una variabile casuale Z a valori reali abbia una distribuzione continua con funzione di densità g e funzione di ripartizione G. Siano a e b costanti con b > 0. Dimostrare che X = a + bZ ha funzione di densità f e funzione di ripartizione F, con 1. F(x) = G[(x - a) / b] 2. f(x) = (1 / b) g[(x - a) / b] Questa famiglia a doppio parametro è indicata come famiglia di posizione e scala associata alla distribuzione data; a è detto parametro di posizione e b parametro di scala. Nel caso in cui b = 1, la famiglia possiede un solo parametro ed è detta famiglia di posizione associata alla distribuzione data; nel caso in cui a = 0, si parla invece di famiglia di scala. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special1.html (1 di 4) [22/11/2001 17.56.56] Introduzione 2. Interpretare graficamente i parametri di posizione e di scala: 1. Per la famiglia di posizione associata a g, mostrare che il grafico di f si ottiene traslando il grafico di g di a unità, a destra se a > 0 o a sinistra se a < 0. 2. Per la famiglia di scala associata a g, mostrare che, se b > 1, il grafico di f si ottiene stirando in senso orizzontale e comprimendo in senso verticale il grafico di g secondo il fattore b. Se 0 < b < 1, il grafico di f si ottiene comprimendo orizzontalmente e stirando verticalmente il grafico di g secondo il fattore b. 3. Dimostrare che se Z ha moda z, X ha moda x = a + bz. Il seguente esercizio mette in relazione le funzioni quantile. 4. Mostrare che 1. F-1(p) = a + bG-1(p) per p in (0, 1). 2. Se z è un quantile di ordine p di Z, allora x = a + bz è un quantile di ordine p di X. 5. Mostrare che la distribuzione uniforme sull'intervallo (a, a + b), con parametri a appartenenete ad R e b > 0 è una famiglia di posizione e scala. 6. Sia g(z) = exp(-z) con z > 0. Questa è la funzione di densità della distribuzione esponenziale con parametro 1. 1. Trovare la famiglia di posizione e scala delle densità. 2. Disegnare i grafici. La famiglia di distribuzioni dell'esercizio precedente è nota come distribuzione esponenziale a due parametri. 7. Sia g(z) = 1 / [ (1 + z2)] con z appartenente a R. Questa è la densità della distribuzione di Cauchy, che prende il nome da Augustin Cauchy. 1. Trovare la famiglia di posizione e scala delle densità. 2. Disegnare i grafici. L'esercizio seguente evidenzia le relazioni tra medie e varianze. 8. Mostrare che 1. E(X) = a + bE(Z) 2. var(X) = b2 var(Z) L'esercizio seguente esamina le relazioni tra le funzioni generatrici dei momenti: 9. Si supponga che Z abbia funzione generatrice dei momenti M. Si mostri che la funzione generatrice dei momenti di X è data da: N(t) = exp(ta)M(tb). Famiglie esponenziali http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special1.html (2 di 4) [22/11/2001 17.56.56] Introduzione Supponiamo che X sia una variabile casuale a valori in S, e che la sua distribuzione dipenda da un parametro a, che assume valori in uno spazio parametrico A. In generale, sia X che a possono essere vettori e non scalari. Indicheremo con f(x | a) la funzione di densità di X in x appartenente a S, individuata da a in A. La distribuzione di X è una famiglia esponenziale a k parametri se S non dipende da a e se la funzione di densità f può essere scritta come: f(x | a) = c(a) r(x) exp[ i = 1, ..., k bi(a) hi(x)] con x S, a A. dove c e b1, b2, ..., bk sono funzioni in A, e r e h1, h2, ..., hk funzioni in S. Si assume inoltre che k sia il più piccolo possibile. I parametri b1(a), b2(a), ..., bk(a) sono a volte indicati come parametri naturali della distribuzione, e le variabili casuali h1(X), h2(X), ..., hk(X) come statistiche naturali della distribuzione. 10. Supponiamo che X abbia distribuzione binomiale con parametri n e p, dove n è dato e p appartiene a (0, 1). Si mostri che questa distribuzione è una famiglia esponenziale a un parametro, con parametro naturale ln[(p / (1 - p)] e statistica naturale X. 11. Si abbia X con distribuzione di Poisson con parametro a > 0. Si mostri che tale distribuzione è una famiglia esponenziale a un parametro, con parametro naturale ln(a) e statistica naturale X. 12. Sia X con distribuzione binomiale negativa a parametri k e p, con k noto e p appartenente a (0, 1). Mostrare che la distribuzione è una famiglia esponenziale a un parametro, con parametro naturale ln(1 - p) e statistica naturale X. In molti casi, la distribuzione di una variabile casuale X non può essere una famiglia esponenziale se il supporto definito qui sotto dipende da a. {x: f(x | a) > 0}. 13. Sia X distribuita uniformemente su (0, a), con a > 0. Mostrare che la distribuzione di X non è una famiglia esponenziale. L'esercizio seguente mostra che se si estrae un campione dalla distribuzione di una famiglia esponenziale, allora la distribuzione del campione casuale è anch'essa una famiglia esponenziale con la stessa statistica naturale. 14. Supponiamo che la distribuzione di una variabile aleatoria X sia una famiglia esponenziale a k parametri, con parametri naturali b1, b2, ..., bk, e statistiche naturali h1(X), h2(X), ..., hk(X). Siano X1, X2, ..., Xn variabili casuali indipendenti e identicamente distribuiti come X. Dimostrare che Y = (X1, X2, ..., Xn) è una famiglia esponenziale a k parametri, con parametri naturali b1, b2, ..., bk, e statistiche naturali http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special1.html (3 di 4) [22/11/2001 17.56.56] Introduzione uj(Y) = i = 1, ..., n hj(Xi) per j = 1, 2, ..., k. Laboratorio virtuale > Distribuzioni notevoli > [1] 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special1.html (4 di 4) [22/11/2001 17.56.56] La distribuzione gamma Laboratorio virtuale > Distribuzioni notevoli > 1 2 [3] 4 5 6 7 8 9 10 11 12 13 14 15 3. La distribuzione gamma In questo paragrafo studieremo una famiglia di distribuzioni che ricopre particolare importanza nel calcolo delle probabilità. In particolare i tempi di arrivo nei processi di Poisson hanno distribuzione gamma, e la distribuzione chi-quadro è un caso speciale della gamma. La funzione gamma La funzione gamma è definita per k > 0 da gam(k) = {s: s > 0} sk - 1exp(-s)ds. 1. Mostrare che l'integrale che definisce la funzione gamma converge per ogni k > 0. Riportiamo qui sotto il grafico della funzione gamma sull'intervallo (0, 5): 2. Integrare per parti e mostrare che per ogni k > 0, gam(k + 1) = k gam(k). 3. Usa il risultato dell'esercizio precedente per mostrare che se k è un intero positivo, allora gam(k) = (k - 1)!. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special3.html (1 di 5) [22/11/2001 17.57.04] La distribuzione gamma 4. Usa la funzione di densità normale standardizzata per mostrare che gam(1/2) = 1/2. La distribuzione gamma semplice 5. Mostrare che la seguente funzione è funzione di densità di probabilità per ogni k > 0: f(x) = xk - 1exp(-x) / gam(k) per x > 0. Una variabile casuale X che possiede questa funzione di densità ha distribuzione gamma con parametro di forma k. L'esercizio seguente mostra che questa famiglia ha una ricca varietà di forme grafiche, e fa capire perché k si chiama parametro di forma. 6. Disegna la funzione di densità di probabilità della distribuzione gamma in ognuno dei seguenti casi: 1. 0 < k < 1. 2. k = 1. 3. k > 1. Mostra che la moda è a k - 1. 7. Nell'applet variabile casuale, seleziona la distribuzione gamma. Modifica il parametro di forma e osserva la forma della funzione di densità. Poni k = 3, e replica la simulazione 1000 volte, con frequenza di aggiornamento di 10, e osserva la convergenza della funzione di densità empirica a quella teorica. 8. Supponiamo che la durata di un certo apparecchio (in unità di 100 ore) abbia distribuzione gamma con k = 3. Trova la probabilità che l'apparecchio duri più di 300 ore. La funzione di ripartizione e la funzione quantile non posseggono forme chiuse e semplici. Valori approssimati di queste funzioni si possono ottenere tramite l' applet quantile. 9. Utilizzando l' applet quantile, trova la mediana, il primo e il terzo quartile e lo scarto interquartile in ciascuno dei casi seguenti: 1. k = 1 2. k = 2 3. k = 3 Il seguente esercizio dà la media e la varianza della distribuzione gamma. 10. Sia X gamma-distribuita con parametro di forma k. Si dimostri che 1. E(X) = k. 2. var(X) = k. In generale, i momenti possono essere espressi facilmente in termini della funzione http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special3.html (2 di 5) [22/11/2001 17.57.04] La distribuzione gamma gamma: 11. Si abbia X con distribuzione gamma con parametro di forma k. Si dimostri che 1. E(Xn) = gam(n + k) / gam(k) per n > 0. 2. E(Xn) = k(k + 1) ··· (k + n -1) se n è un intero positivo. L'esercizio seguente individua la funzione generatrice dei momenti. 12. Supponi che X abbia distribuzione gamma con parametro di forma k. Mostra che E[exp(tX)] = 1 / (1 - t)k per t < 1. 13. Nella simulazione variabile casuale, seleziona la distribuzione gamma. Modifica il parametro di forma e osserva la dimensione e la posizione della barra media/deviazione standard. Poni k = 4, e simula 1000 replicazioni con frequenza di aggiornamento 10 e osserva la convergenza dei momenti empirici ai momenti teorici. 14. Immagina che la lunghezza dei petali di un certo tipo di fiore (in cm) abbia distribuzione gamma con k = 4. Trova la media e la deviazione standard della lunghezza dei petali. La distribuzione gamma generalizzata Spesso la distribuzione gamma viene generalizzata aggiungendo un parametro di scala. Pertanto, se Z possiede distribuzione gamma semplice con parametro di forma k, come definita sopra, allora per b > 0, X = bZ ha distribuzione gamma con parametro di forma k e parametro di scala b. Il reciproco del parametro di scala è noto come parametro di velocità, specie nel contesto del processo di Poisson. La distribuzione gamma con parametri k = 1 e b è detta distribuzione esponenziale con parametro di scala b (o parametro di velocità r = 1 / b). Risultati analoghi a quelli presentati poc'anzi seguono da semplici proprietà della trasformazione di scala. 15. Sia X gamma-distribuita con parametro di forma k e parametro di scala b. Si mostri che X ha funzione di densità f(x) = xk - 1 exp(-x / b) / [gam(k)bk] per x > 0. Si ricordi che l'aggiunta di un parametro di scala non modifica la forma della distribuzione, ma semplicemente dimensiona il grafico orizzontalmente e verticalmente. In particolare, si hanno le stesse forme elementari presentate nell'esercizio 6. 16. Sia X gamma-distribuita con parametro di forma k e parametro di scala b. Mostra che, se k > 1, la moda è a (k - 1)b. 17. Sia X gamma-distribuita con parametro di forma k e parametro di scala b. Mostra che http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special3.html (3 di 5) [22/11/2001 17.57.04] La distribuzione gamma 1. E(X) = kb. 2. var(X) = kb2. 18. Sia X gamma-distribuita con parametro di forma k e parametro di scala b. Mostra che, 1. E(Xn) = bn gam(n + k) / gam(k) per n > 0. 2. E(Xn) = bn k(k + 1) ··· (k + n -1) se n è un intero positivo. 19. Sia X gamma-distribuita con parametro di forma k e parametro di scala b. Mostra che, E[exp(tX)] = 1 / (1 - bt)k per t < 1 / b. 20. Nell'applet variabile casuale, seleziona la distribuzione gamma. Modifica i parametri e osserva la dimensione e la posizione della barra media/deviazione standard. Poni k = 4 e b = 2, e simula 1000 replicazioni con frequenza di aggiornamento 10 e osserva la convergenza dei momenti empirici ai momenti teorici. 21. Supponi che la durata di un certo congegno (in ore) abbia distribuzione gamma con parametro di forma k = 4 e parametro di scala b = 100. 1. Trova la probabilità che il congegno duri più di 300 ore. 2. Trova la media e la deviazione standard della durata del congegno. Trasformazioni La prima trasformazione che presentiamo è semplicemente una ridefinizione del significato del parametro di scala. 22. Supponi che X abbia distribuzione gamma con parametro di forma k e parametro di scala b. Mostra che, se c > 0 allora cX ha distribuzione gamma con parametro di forma k e parametro di scala bc. Si noti che, se il parametro di scala è fisso, la famiglia gamma è chiusa rispetto alla somma di variabili indipendenti. 23. Supporre che X1 abbia distribuzione gamma con paraemtro di forma k1 e parametro di scala b; che X2 abbia distribuzione gamma con paraemtro di forma k2 e parametro di scala b; e che X1 e X2 siano indipendenti. Dimostrare che X1 + X2 ha distribuzione gamma con parametro di forma k1 + k2 e parametro di scala b. Suggerimento: Usare le funzioni generatrici dei momenti. 24. Supponi che X abbia distribuzione gamma con parametro di forma k > 0 e parametro di scala b > 0. Mostra che tale distribuzione è una famiglia esponenziale a due parametri con parametri naturali k - 1 e 1 / b, e statistiche naturali X e ln(X). Approssimazione alla normale http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special3.html (4 di 5) [22/11/2001 17.57.04] La distribuzione gamma Dall'esercizio precedente si deduce che, se Y ha distribuzione gamma con paramero di forma intero k ae parametro di scala b, allora Y = X1 + X2 + ··· + Xk dove X1, X2, ..., Xk sono indipendenti e distribuite esponenzialmente con parametro b. Segue dal teorema limite centrale che se k è grande (e non necessariamente intero), la distribuzione gamma può essere approssimata dalla normale con media kb e varianza kb2. Più precisamente, la distribuzione della variabile standardizzata riportata qui sotto converge alla normale standardizzata per k che tende a infinito: (Y - kb) / (kb)1/2. 25. Nell'applet variabile casuale, seleziona la distribuzione gamma. Modifica k e b e osserva la forma della funzione di densità. Poni k = 10 e b = 2, e simula 1000 replicazioni con frequenza di aggiornamneto pari a 10 e osserva la convergenza della funzione di densità empirica a quella teorica. 26. Supponi che Y abbia distribuzione gamma con parametri k = 10 e b = 2. Trova le approssimazioni della normale a: 1. P(18 < Y < 25). 2. L' 80esimo percentile di Y. Laboratorio virtuale > Distribuzioni notevoli > 1 2 [3] 4 5 6 7 8 9 10 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special3.html (5 di 5) [22/11/2001 17.57.04] La distribuzione chi-quadro Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 [4] 5 6 7 8 9 10 11 12 13 14 15 4. La distribuzione chi-quadro In questa sezione studieremo una distribuzione di particolare utilità in statistica, che si impiega nello studio della varianza campionaria quando la distribuzione sottostante è normale e nel test per la bontà di adattamento. La funzione di denistà chi-quadro Per n > 0, la distribuzione gamma con parametro di forma k = n / 2 e parametro di scala 2 è detta distribuzione chi-square con n gradi di libertà. 1. Mostra che la distribuzione che-quadro con n gradi di libertà ha funzione di densità f(x) = xn/2 - 1exp(-x / 2) / [2n/2 gam(n / 2)] per x > 0. 2. Nell'applet variabile casuale, seleziona la distribuzione chi-quadro. Modifica n e osserva la forma della funzione di densità. Poni n = 5, e replica la simulazione 1000 volte, con frequenza di aggiornamento di 10, e osserva la convergenza della funzione di densità empirica a quella teorica. 3. Mostra che la distribuzione chi-quadro con 2 gradi di libertà è una distribuzione esponenziale con parametro di scala 2. 4. Disegna la funzione di densità della distribuzione gamma in ciascuno dei seguenti casi: 1. 0 < n < 2. 2. n = 2 (distribuzione esponenziale). 3. n > 2. Mostra che la moda è n - 2. La funzione di ripartizione e al funzione quantile non sono esprimibili in forma chiusa tramite le funzioni elementari. Valori approssimati di queste funzioni di possono ottenere dalla tavola della distribuzione chi-quadro e dall'applet quantile. 5. Nell'applet quantile , seleziona la distribzuione chi-quadro. Modifica i gradi di libertà e osserva la forma della funzione di densità e della funzione di riaprtizione. In ognuno dei seguenti casi trova la mediana, il primo e il terzo quartile e lo scarto interquartile. 1. n = 1 2. n = 2 3. n = 5 4. n = 10 http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special4.html (1 di 3) [22/11/2001 17.57.11] La distribuzione chi-quadro Momenti Media, varianza, momenti, e funzione generatrice dei momenti della distribuzione chi-quadro possono essere ricavate dai risultati ottenuti per la distribuzione gamma. Nei seguenti esercizi, si supponga che X abbia distribuzione chi-quadro con n gradi di libertà. 6. Mostra che 1. E(X) = n 2. var(X) = 2n 7. Si mostri che E(Xk) = 2k gam(n/2 + k) / gam(n/2). 8. Dimostrare che E[exp(tX)] = (1 - 2t)-n/2 per t < 1/2. 9. Nell'applet variabile casuale, scegliere la distribuzione chi-quadro. Modificare n con la barra di scorrimento e osservare la forma e la posizione della barra media/deviazione standard. Con n = 4, simulare 1000 replicazioni con frequenza di aggiornamento 10 e osservare la convergenza dei momenti empirici a quelli teorici. Trasformazioni 10. Sia Z una variabile casuale normale standardizzata. Usa le tecniche di cambiamento di variabile per dimostrare che U = Z2 ha distribuzione chi-quadro con un grado di libertà. 11. Usa le proprietà della funzione generatrice dei momenti della distribuzione gamma per mostrare che, se X ha distribuzione chi-quadro con m gradi di libertà, Y ha distribuzione chi-quadro con n gradi di libertà, e X e Y sono indipendenti, allora X + Y ha distribuzione chi-quadro con m + n gradi di libertà. 12. Siano Z1, Z2, ..., Zn variabili casuali indipendenti con distribuzione normale standardizzata (ovvero, un campione casuale di dimensione n della distribuzione normale standardizzata). Si usino i risultati dei due esercizi precedenti per dimostrare che V = Z12 + Z22 + ··· + Zn2 ha distribuzione chi-quadro con n gradi di libertà. Il risultato di questo esercizio spiega perché la distribuzione chi-quadro sia distinta dalle altre distribuzioni gamma. La somma di variabili casuali normali indipendenti si osserva spesso in statistica. D'altra parte, l'esercizio seguente mostra che ogni variabili casuale con distribuzione gamma può essere trasformata in una variabile con distribuzione chi-quadro. 13. Sia X gamma-distribuita con parametro di forma k e parametro di scala b. Si http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special4.html (2 di 3) [22/11/2001 17.57.11] La distribuzione chi-quadro dimostri che Y = 2X / b ha distribuzione chi-quadro con 2k gradi di libertà. 14. Supponi che un proiettile sia lanciato verso un bersaglio che si trova all'origine di un sistema di coordinate Cartesiano, con unità di misura espressa in metri. Il proiettile colpisce il punto (X, Y), dove X e Y sono indipendenti e normalmente distribuite con media 0 e varianza 100. Il proiettile distrugge il bersaglio se colpisce a meno di 20 metri dal bersaglio. Trova la probabilità di questo evento. Approssimazione alla normale Dal teorema limite centrale, e dai risultati precedentemente ottenuti per la distribuzione gamma, segue che, se n è sufficientemente grande, la distribuzione chi-quadro con n gradi di libertà può essere approssimata dalla distribuzione normale con media n e varianza 2n. Più precisamente, se X ha distribuzione chi-quadro con n gradi di libertà, allora la distribuzione della variabile standardizzata (X - n) / (2n)1/2, converge alla normale standardizzata per n che tende a infinito: 15. Nell'applet variabile casuale, seleziona la distribuzione chi-quadro. Inizia con n = 1 e fai crescere n. Osserva la forma della funzione di densità. Simula 1000 replicazioni (frequenza di aggiornamento 10) con n = 20 e osserva la convergenza della funzione di densità empirica a quella teorica. 16. Supponi che X abbia distribuzione chi-quadro con n = 18 gradi di libertà. In ciascuno dei casi seguenti, calcola e confronta il valore esatto, ottenuto utilizzando l' applet quantile, e l'approssimazione alla normale. 1. P(15 < X < 20) 2. Il 75esimo percentile di X. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 [4] 5 6 7 8 9 10 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special4.html (3 di 3) [22/11/2001 17.57.11] La distribuzione normale bivariata Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 [7] 8 9 10 11 12 13 14 15 7. La distribuzione normale bivariata Definizione Suppobiamo che U e V siano variabili casuali indipendenti, entrambe con distribuzione normale . Ci serviremo dei 5 parametri seguenti: µ1 e µ2 appartenenti a R, d1 e d2 > 0, e p appartenente a [-1, 1]. Siano ora X e Y due nuove variabili casuali definite da ● X = µ1 + d1U ● Y = µ2 + d2pU + d2(1 - p2)1/2V. La distribuzione congiunta di (X, Y) è detta distribuzione normale bivariata con parametri µ1, µ2, d1, d2 e p. Proprietà fondamentali Si utilizzino, per i seguenti esercizi, le proprietà di valore atteso, varianza, covarianza, e della distribuzione normale. 1. Si mostri che X è distribuita normalmente con media µ1 e deviazione standard d1. 2. Si mostri che Y è distribuita normalmente con media µ2 e deviazione standard d2. 3. Si mostri che cor(X, Y) = p. 4. Si mostri che X e Y sono indipendenti se e solo se cor(X, Y) = 0. 5. Nell'applet normale bivariata, modifica le deviazioni standard di X Y con le barre a scorrimento. Osserva il cambiamento di forma delle funzioni di densità di probabilità. Modifica la correlazione e osserva che le funzioni di densità non cambiano. 6. Nell'applet normale bivariata, poni la deviazione standard di X a 1.5 e quella di Y a 0.5. Per ciascuno dei seguenti valori di correlazione, simula 2000 replicazioni con aggiornamento ogni 10. Osserva lo scatter di punti di (X, Y) e verifica la convergenza della funzione di densità empirica a quella teorica: p = 0, p = 0.5, p = -0.5, p = 0.7, p = -0.7, p = 0.9, p = -0.9. Funzioni di densità Ora utilizzeremo la tecnica del cambiamento di variabile per trovare la funzione di densità di probabilità congiunta di (X, Y). http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special7.html (1 di 3) [22/11/2001 17.57.16] La distribuzione normale bivariata 7. Mostrare che la trasformazione inversa è data da 1. u = (x - µ1) / d1. 2. v = (y - µ2) / [d2(1 - p2)1/2] - p(x - µ1) / [d1(1 - p2)1/2]. 8. Mostrare che il Jacobiano della trasformazione dell'esercizio precedente è d(u, v) / d(x, y) = 1 / [d1d2(1 - p2)1/2]. Osserva che il Jacobiano è una costante: questo perché la trasformazione è lineare. 9. Usa i risultati degli esercizi precedenti, l'indipendenza di U e V, e la tecnica di cambiamento di variabile per mostrare che la densità congiunta di (X, Y) è f(x, y) = C exp[Q(x, y)] dove la costante di normalizzazione C e la forma quadratica Q sono date da ● C = 1 / [2 d1d2(1 - p2)1/2] ● Q(x, y) = -[(x - µ1)2 / d12 - 2p(x - µ1)(y - µ2) / (d1d2) + (y - µ2)2 / d22] / [2(1 - p2)] Se c è costante, l'insieme di punti {(x, y), appartenenti a R2:f(x, y) = c} è detto curva di livello di f (ovvero punti con la stessa densità di probabilità). 10. Si mostri 1. Le curve di livello di f sono ellissi con centro (µ1, µ2) 2. Gli assi di tali ellissi sono paralleli agli all'asse delle ascisse e delle ordinate se e solo se p = 0. 11. Nell'applet normale bivariata, poni la deviazione standard di X a 2 e quella di Y a 1. Per ognuno dei seguenti valori di correlazione, simula 2000 replicazioni con aggiornamento ogni 10 e osserva la nube di punti nello scatterplot (X, Y): p = 0, p = 0.5, p = -0.5, p = 0.7, p = -0.7, p = 0.9, p = -0.9. Trasformazioni L'esercizio seguente mostra che la distribuzione normale bivariata è riproduttiva sotto trasformazioni affini. 12. Siano W = a1X + b1Y + c1 e Z = a2X + b2Y + c2. Usa la formula del cambiamento di variabile per dimostrare che (W, Z) ha distribuzione normale bivariata. Trova le medie, le varianze e la correlazione. 13. Dimostrare che la distribuzione condizionata di Y dato X = x è normale con media e varianza 1. E(Y | X = x) = µ2 + p d2 (x - µ1) / d1. 2. var(Y | X = x) = d22 (1 - p2). http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special7.html (2 di 3) [22/11/2001 17.57.16] La distribuzione normale bivariata 14. Usa la rappresentazione di X e Y in termini delle variabili standardizzate U e V per dimostrare che Y = µ2 + d2 p (X - µ1) / d1 + d2 (1 - p2)1 / 2 V. Presentiamo ora un'ulteriore "dimostrazione" del risultato dell'esercizio 13 (ricorda che X sono V sono indipendenti). 15. Nell'applet normale bivariata, poni la deviazione standard di X a 1.5, quella di Y a 0.5, e la correlazione a 0.7. 1. Simula n = 100 replicazioni, aggiornando ogni volta. 2. Per ogni replicazione, calcola E(Y | X = x), ovvero il valore atteso di Y una volta noto il valore di X. 3. Terminate le 100 replicazioni, calcola la radice quadrata dell'errore quadratico medio tra il valore atteso di Y e il suo valore vero. Il seguente problema è un ottimo esercizio per impratichirsi con l'uso del cambiamento di variabile e sarà utile quando si parlerà di simulazione di variabili normali. 16. Siano U e V variabili casuali indipendenti con distribuzione normale standardizzata. Definisci le coordinate polari (R, T) per (U, V) attraverso le equazioni U = R cos(T), V = R sin(T) dove R > 0 e 0 < T < 2 . Dimostra che 1. R ha funzione di densità g(r) = r exp(-r2 / 2), r > 0. La distribuzione di R è detta distribuzione di Rayleigh. 2. T ha distribuzione uniforme su (0, 2 ). 3. R e T sono indipendenti. I risultati presentati in questo paragrafo hanno analoghi diretti per il caso più generale della distribuzione normale multivariata. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 [7] 8 9 10 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special7.html (3 di 3) [22/11/2001 17.57.16] La distribuzione normale multivariata Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 [8] 9 10 11 12 13 14 15 8. La distribuzione normale multivariata La distribuzione normale multivariata è una naturale generalizzazione della distribuzione normale bivariata. La forma analitica è molto compatta ed elegante se si utilizzano le matrici di valori attesi e covarianze, e sarebbe di converso terribilmente complessa senza l'uso di esse. Pertanto questo paragrafo presuppone la conoscenza dell'algebra lineare a livello intermedio. La distribuzione normale multivariata standardizzata Si abbiano Z1, Z2, ..., Zn, indipendenti e ciascuna avente distribuzione normale standardizzata. Il vettore aleatorio Z = (Z1, Z2, ..., Zn) è detto avere distribuzione normale satndardizzata in n-dimensioni. 1. Mostra che E(Z) = 0 (vettore di zeri in Rn). 2. Dimostra che VC(Z) = I (matrice identità di dimensione n × n). 3. Mostra che Z ha funzione di densità g(z) = [1 / (2 )n/2] exp(-zTz / 2) per z appartenente a Rn. 4. Dimostra che Z ha funzione generatrice dei momenti E[exp(tTZ)] = exp(tTt / 2) per t appartenente a Rn. La distribuzione normale multivariata generalizzata Supponiamo ora che Z abbia distribuzione normale satndardizzata in n-dimensioni. Sia µ un vettore in Rn e sia A una matrice n × n invertibile. Si dice allora che il vettore aleatorio X = µ + AZ. ha distribuzione normale in n-dimensioni.. 5. Mostra che E(X) = µ. 6. Mostrare che VC(X) = AAT e che questa matrice è invertibile e quindi definita positiva. 7. Sia V = VC(X) = AAT. Usa il teorema di cambiamento di variabile multivariato per dimostrare che X ha funzione di densità f(x) = {1 / [(2 )n/2 (det V)1/2]} exp[-(x - µ)T V-1 (x - µ) / 2) per x appartenente a Rn. 8. Dimostrare che X ha funzione generatrice de momenti http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special8.html (1 di 3) [22/11/2001 17.57.21] La distribuzione normale multivariata E[exp(tTX)] = exp(tTµ + tTVt / 2) per t appartenente a Rn. Si osservi che la matrice A che si incontra nella trasformazione non è unica, mentre ovviamente lo è la matrice di varianze e covarianze V. In generale, data una matrice definita positiva V, esistono più matrici invertibili A tali che AAT = V. Tuttavia, un teorema dell'algebra lineare afferma che esiste una sola matrice triangolare bassa L che soddisfa questa relazione. 9. Trova la matrice triangolare bassa L nel caso della distribuzione normale bivariata. Trasformazioni La distribuzione normale multivariata è invariante a due importanti famiglie di trasformazioni: le trasformazioni affini con una matrice invertibile e la creazione di sottosequenze. 10. Sia X distribuita normalmente in n-dimensioni. Siano inoltre a appartenente a Rn e B matrice n × n invertibile. Dimostrare che Y = a + BX ha distribuzione normale multivariata. Trovare il vettore delle medie e la matrice di varianze e covarianze di Y. 11. Sia X distribuita normalmente in n-dimensioni. Mostrare che ogni permutazione delle coordinate di X ha anch'essa distribuzione normale in n-dimensioni. Trovare il vettore delle medie e la matrice di varianze e covaraizne. Suggerimento: Permutare le coordinate di X equivale a moltiplicare X per una matrice di permutazione--una matrice di 0 e 1 in cui ogni riga e colonna presenta un solo 1. 12. Sia X = (X1, X2, ..., Xn) distribuita normalmente in n-dimensioni. Mostra che, se k < n, W = (X1, X2, ..., Xk) ha distribuzione normale in k-dimensioni. Trova il vettore delle medie e la matrice di varianze e covarianze. 13. Usa i risultati degli esercizi 11 e 12 per dimostrare che, se X = (X1, X2, ..., Xn) ha distribuzione normale in n-dimensioni e se i1, i2, ..., ik sono indici distinti, allora W = (Xi1, Xi2, ..., Xik) ha distribuzione normale in k-dimensioni. 14. Supponi che X abbia distribuzione normale in n-dimensioni, che a appartenga a Rn, e che B sia una matrice m × n a righe linearmente indipendeti (per cui m n). Dimostra che Y = a + BX ha distribuzione normale in m-dimensioni. Suggerimento: esiste una matrice invertibile C di dimensioni n × n in cui le prime m righe sono le righe di B. Usa poi i risultati degli esercizi 10 e 12. Osserva che i risultati degli esercizi 10, 11, 12 e 13 sono casi particolari del risultato dell'esercizio 14. 15. Supponi che X abbia distribuzione normale in n-dimensioni, che Y abbia distribuzione normale in m-dimensioni e che X e Y siano indipendenti. Mostrare che (X, Y) ha distribuzione normale in n + m-dimensioni. Trova il vettore delle medie e la matrice di varianze e covarianze. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special8.html (2 di 3) [22/11/2001 17.57.21] La distribuzione normale multivariata 16. Supponi X sia un vettore casuale in Rn, che Y sia un vettore casuale in Rm e che (X, Y) abbia distribuzione normale in n + m-dimensioni. Dimostra che X e Y sono indipendenti se e solo se cov(X, Y) = 0. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 [8] 9 10 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special8.html (3 di 3) [22/11/2001 17.57.21] La distribuzione zeta Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 10 [11] 12 13 14 15 11. La distribuzione zeta La distribuzione zeta si usa per modellare la dimensione di certi tipi di oggetti estratti casualmente da certi tipi di popolazioni. Esempi classici sono la lunghezza di una parola scelta casualmente da un testo o la popolazione di una città scelta a caso in un certo paese. La distribuzione zeta è nota anche come distribuzione di Zipf, in onore del linguista Americano George Zipf. La funzione zeta La funzione zeta di Riemann, che prende il nome da Bernhard Riemann, è definita come: z(a) = n = 1, 2, ... 1 / na. per a > 1. (Ricorda che, la serie nella funzione zeta converge per a > 1 ed esplode per a Riportiamo qui sotto il grafico della funzione zeta nell'intervallo (1, 10): 1). 1. Prova a verificare analiticamente le proprietà del grafico. Mostra in particolare che 1. z(a) decresce per a > 1. 2. z(a) è concava verso l'alto per a > 1. 3. z(a) 4. z(a) 1 as a as a . 1+. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special11.html (1 di 2) [22/11/2001 17.57.24] La distribuzione zeta La zeta è una funzione trascendente, e la maggior parte dei valori che assume devono essere ottenuti per approssimazione. Si possono però individuare gli z(a) per valori interi e pari di a; in particolare, z(2) = 2 / 6, z(4) = 4 / 90. Funzione di densità 2. Mostra che la funzione f qui sotto riportata è una funzione di densità di probabilità discreta per ogni a > 1. f(n) = 1 / [na z(a)] per n = 1, 2, ... La distribuzione discreta definita nell'esercizio 2 è detta distribuzione zeta con parametro a. 3. Sia X la lunghezza di una parola scelta a caso da un testo, e si supponga che X abbia distribuzione zeta con parametro a = 2. Si trovi P(X > 4). 4. Supponi che X abbia distribuzione zeta con parametro a. Dimostra che questa distribuzione è una famiglia esponenziale a un parametro con parametro naturale a e statistica naturale -ln(X). Momenti I momenti della distribuzione zeta possono essere espressi semplicemente in termini della funzione zeta. 5. Supponi che X abbia distribuzione zeta con parametro a > k + 1. Dimostra che E(Xk) = z(a - k) / z(a). 6. Mostra in particolare che 1. E(X) = z(a - 1) / z(a) if a > 2 2. var(X) = z(a - 2) / z(a) - [z(a - 1) / z(a)]2 se a > 3. 7. Sia X la lunghezza di una parola scelta a caso da un testo; supponi che X abbia distribuzione zeta con parametro a = 4. Trova il valore approssimato di 1. E(X) 2. sd(X) Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 10 [11] 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special11.html (2 di 2) [22/11/2001 17.57.24] La distribuzione logistica Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 10 11 12 [13] 14 15 13. La distribuzione logistica La distribuzione logistica si usa nei modelli di crescita e in certi tipi di regressione, che prendono il nome di regressioni logistiche. La distribuzione logistica standard 1. Sia F(x) = ex / (1 + ex) per x appartenente a R. Mostrare che F è una funzione di ripartizione. La distribuzione definita da questa funzione di ripartizione di dice distribuzione logistica (standard). 2. Supponi che X abbia distribuzione logistica. Trova P(-1 < X < 2). 3. Mostra che la funzione di densità f della distribuzione logistica è data da f(x) = ex / (1 + ex)2 per x appartenente a R. 4. Disegna il grafico della funzione di densità f della distribuzione logistica. Mostra in particolare che 1. f è simmetrica attorno a x = 0. 2. f(x) è crescente per x < 0 e decrescente per x > 0. La moda è pertanto x = 0. 5. Nell'applet variabile casuale, seleziona la distribuzione logistica. Osserva la forma e la posizione della funzione di densità. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della densità empirica a quella teorica. 6. Mostra che la funzione quantile è F-1(p) = ln[p / (1 - p)] per p appartenente a (0, 1). Ricorda che p : 1 - p sono gli odds in favore di un evento con probabilità p. La distribuzione logistica ha l'interessante proprietà di avere i quantili che corrispondono ai logaritmi degli odds corrispondenti. Questa funzione di p è alle volte indicata come funzione logit. Osserva che, a causa della simmetria, la mediana della distribuzione logistica è 0. 7. Trova il primo e il terzo quartile della distribuzione logistica e calcola lo scarto interquartile. 8. Nell'applet quantile applet, seleziona la distribuzione logistica. Osserva la forma e la posizione delle funzioni di densità e di ripartizione. Individua i quantili di ordine 0.1 e 0.9. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special13.html (1 di 3) [22/11/2001 17.57.29] La distribuzione logistica La funzione generatrice dei momenti della distribuzione logistica è rappresentabile semplicemente in termini della funzione beta, e di conseguenza anche in termini della funzione funzione gamma. La funzione generatrice dei momenti può essere utilizzata per calcolare la media e la varianza. 9. Dimostra che la funzione generatrice dei momenti è M(t) = beta(1 + t, 1 - t) = gam(1 + t) gam(1 - t) fper -1 < t < 1. Suggerimento: Sostituici u = 1 / (2 + ex) nell'integrale per M. 10. Supponi che X abbia distribuzione logistica. Mostra che 1. E(X) = 0 2. var(X) = 2/ 3. 11. Nell'applet variabile casuale, seleziona la distribuzione logistica. Osserva la dimensione e la posizione della barra media/deviazione standard. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici a quelli teorici. La distribuzione logistica generalizzata La distribuzione logistica generalizzata è la famiglia di posizione e scala associata alla distribuzione logistica standard. Pertanto, se Z ha distribuzione logistica standard, allora per ogni a e per ogni b > 0, X = a + bZ ha distribuzione logistica con parametro di posizione a e parametro di scala b. Risultati analoghi a quelli presentati in precedenza si ricavanl dalle proprietà delle fymiglie di posizione e scala. 12. Mostra che la funzione di densità è f(x) = (6 / b) exp[(x - a) / b] / {1 + exp[(x - a) / b]}2 per x appartenente a R. 13. Disegna il grafico della funzione di densità f. Mostra in particolare che 1. f è simmetrica attorno a x = a. 2. f(x) è crescente per x < a e decrescente per x > a. La moda, pertanto, si trova in x = a. 14. Mostra che la funzione di ripartizione è F(x) = exp[(x - a) / b] / {1 + exp[(x - a) / b]} per x appartenente a R. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special13.html (2 di 3) [22/11/2001 17.57.29] La distribuzione logistica 27. Mostra che la funzione quantile è F-1(p) = a + b ln[p / (3 - p)] per p appartenente a (0, 1). In particolare, la mefiana si trova a x = a. 16. Mostra che la funzione generatrice dei momenti è M(t) = exp(ta) beta(1 + tb, 2 - tb) per -1 < t < 1. 15. Mostra che media e varianza valgono 1. E(X) = a. 2. var(X) = b2 2/ 3. Trasformazioni 18. Supponi che X abbia distribuzione di Pareto con parametro di forma a = 1. Dimostra che Y = ln(X - 1) ha distribuzione logistica standard. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 0 10 11 12 [13] 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special13.html (3 di 3) [22/11/2001 17.57.29] Note conclusive Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 10 11 12 13 14 [15] 15. Note conclusive Esiste in letteratura un'enorme varietà di altre distribuzioni notevoli, e col trascorrere del tempo se ne aggiungono sempre di nuove. Per meritare pienamente l'aggettivo notevole, una distribuzione deve possedere un certo livello di eleganza matematica e di praticità, e deve presentarsi in diverse importanti applicazioni. Libri I testi più rilevanti sulle distribuzioni notevoli sono quelli di Johnson e Kotz e dei loro coautori: ● Univariate Discrete Distributions, seconda edizione, di Norman L. Johnson, Samuel Kotz e Andrienne W. Kemp, editore John Wiley & Sons (1992). ● Continuous Univariate Distributions, Volume 1, seconda edizione, di Norman L. Johnson, Samuel Kotz e N. Balakrishnan, editore John Wiley & Sons (1994) ● Continuous Univariate Distributions, Volume 2, seconda edizione, di Norman L. Johnson, Samuel Kotz e N. Balakrishnan, editore John Wiley & Sons (1995) ● Discrete Multivariate Distributions, di Norman L. Johnson, Samuel Kotz e N. Balakrishnan, editore John Wiley & Sons (1997) Continuous Multivariate Distributions: Models and Applications, seconda edizione, di Samuel Kotz, N. Balakrishnan e Normal L. Johnson, editore John Wiley & Sons (2000). ● Siti web ● Compendium of Common Probability Distributions. Questo compendio raccoglie un'ampia lista di distribuzioni e di proprietà, comprendente distribuzioni continue, discrete e misture. Risposte agli esercizi del paragrafo 1 1.6. f(x) = (1 / b) exp[-(x - a) / b] per x > a. 1.7. f(x) = 1 / {b [1 + (x - a) / b]2} per x appartenente a R. Risposte agli esercizi del paragrafo 2 2.22. Sia X il volume di birra in litri. 1. P(X > 0.48) = 0.9772 2. x0.95 = 0.51645 2.23. Sia X il raggio della barra e Y il raggio del foro. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special15.html (1 di 4) [22/11/2001 17.57.36] Note conclusive P(Y - X < 0) = 0.0028. 2.24. Sia X il peso complessivo delle cinque pesche espresso in once. P(X > 45) = 0.0127. Risposte agli esercizi del paragrafo 3 3.8. P(X >3) = 17 exp(-3) / 2 ~ 0.4232. 3.9. 1. Q1 = 0.287, Q2 = 0.693, Q3 = 1.396, Q3 - Q1 = 1.109. 2. Q1 = 0.961, Q2 = 1.678, Q3 = 2.692, Q3 - Q1 = 1.731. 3. Q1 = 1.727, Q2 = 2.674, Q3 = 3.920, Q3 - Q1 = 2.193. 3.14. Sia X la lunghezza del petalo in centimetri. 1. E(X) = 4. 2. sd(X) = 2 3.21. Sia X la durata di funzionamento in ore. 1. P(X > 300) = 13 exp(-3) ~ 0.6472. 2. E(X) = 400 3. sd(X) = 200 3.26. 1. P(18 < Y < 25) ~ 0.4095. 2. y80 ~ 25.325. Risposte agli esercizi del paragrafo 4 4.5. 1. Q1 = 0.102, Q2 = 0.455, Q3 = 1.323, Q3 - Q1 = 1.221. 2. Q1 = 0.575, Q2 = 1.386, Q3 = 2.773, Q3 - Q1 = 2.198. 3. Q1 = 2.675, Q2 = 4.351, Q3 = 6.626, Q3 - Q1 = 3.951. 4. Q1 = 6.737, Q2 = 9.342, Q3 = 12.549, Q3 - Q1 = 5.812. 4.14. Sia Z la distanza tra il proiettile e il bersaglio. P(Z < 20) = 1 - exp(-2) ~ 0.8647. 4.16. 1. P(15 < X < 20) = 0.3252, P(15 < X < 20) ~ 0.3221 http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special15.html (2 di 4) [22/11/2001 17.57.36] Note conclusive 2. x.075 = 21.605, x0.75 ~ 22.044 Risposte agli esercizi del paragrafo 5 5.5. 1. Q1 = -1, Q2 = 0, Q3 = 1, Q3 - Q1 = 2 2. Q1 = -0.816, Q2 = 0, Q3 = 0.816, Q3 - Q1 = 1.632 3. Q1 = -0.727, Q2 = 0, Q3 = 0.727, Q3 - Q1 = 1.454 4. Q1 = -0.7, Q2 =0, Q3 = 0.7, Q3 - Q1 = 1.4. Risposte agli esercizi del paragrafo 6 6.4. 1. Q1 = 0.528, Q2 = 1, Q3 = 1.895, Q3 - Q1 = 1.367 2. Q1 = 0.529, Q2 = 0.932, Q3 = 1.585, Q3 - Q1 = 1.056 3. Q1 = 0.631, Q2 = 1.073, Q3 = 1.890, Q3 - Q1 = 1.259 4. Q1 = 0.645, Q2 = 1, Q3 = 1.551, Q3 - Q1 = 0.906. Risposte agli esercizi del paragrafo 9 9.13. 1. Q1 = 0.25, Q2 = 0.5, Q3 = 0.75, Q3 - Q1 = 0.5. 2. Q1 = 0.091, Q2 = 0.206, Q3 = 0.370, Q3 - Q1 = 0.279 3. Q1 = 0.630, Q2 = 0.794, Q3 = 0.909, Q3 - Q1 = 0.279 4. Q1 = 0.194, Q2 = 0.314, Q3 = 0.454, Q3 - Q1 = 0.260. 5. Q1 = 0.546, Q2 = 0.686, Q3 = 0.806, Q3 - Q1 = 0.260. 6. Q1 = 0.379, Q2 = 0.5, Q3 = 0.621, Q3 - Q1 = 0.242. Risposte agli esercizi del paragrafo 10 10.7. Q1 = 0.5364 Q2 = 0.8326, Q3 = 1.1774, Q3 - Q1 = 0.6411. 10.24. 1. P(T > 1500) = 0.1966 2. E(T) = 940.656, sd(T) = 787.237 3. h(t) = 0.000301 t0.2. Risposte agli esercizi del paragrafo 11 11.3. P(X > 4) = 1 - 49 / 6 2 ~ 0.1725. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special15.html (3 di 4) [22/11/2001 17.57.36] Note conclusive 11.7. 1. E(X) = 1.1106 2. sd(X) = 0.5351 Risposte agli esercizi del paragrafo 12 12.6. Q1 = 1.1006, Q2 = 1.2599, Q3 = 1.5874, Q3 - Q1 = 0.4868 12.7. Q1 = 1.1547, Q2 = 1.4142, Q3 = 2, Q3 - Q1 = 0.8453 12.16. Sia X il reddito. 1. P(2000 < X < 4000) = 0.1637, per cui la percentuale è 16.37% 2. Q2 = 1259.92 3. Q1 = 1100.64, Q3 = 1587.40, Q3 - Q1 = 486.76 4. E(X) = 1500 5. sd(X) = 866.03 6. F-1(0.9) = 2154.43 Risposte agli esercizi del paragrafo 13 13.2. P(-1 < X < 2) = 0.6119 13.7. Q1 = -1.0986, Q2 = 0, Q3 = 1.0986, Q3 - Q1 = 2.1972 13.8. F-1(0.1) = -2.1972, F-1(0.9) = 2.1972 Risposte agli esercizi del paragrafo 14 14.6. P(X > 20) = 0.1497 14.7. Q1 = 0.5097, Q2 = 1, Q3 = 1.9621, Q3 - Q1 = 1.4524 14.11. 1. E(X) = exp(5 / 2) = 12.1825. 2. sd(X) = [exp(6) - exp(5)]1/2 = 15.9692. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 6 7 8 9 10 11 12 13 14 [15] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special15.html (4 di 4) [22/11/2001 17.57.36] La distribuzione F Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 [6] 7 8 9 10 11 12 13 14 15 6. La distribuzione F In questa sezione studieremo una distribuzione particolarmente utile quando si ha a che fare con rapporti di somme di quadrati provenienti da una distribuzione normale. La funzione di densità F Supponiamo che U e V siano indipendenti e abbiano entrambi distribuzione chi-quadro con, rispettivamente, m e n gradi di libertà. Sia X = (U / m) / (V / n). 1. Si dimostri che X ha funzione di densità di probabilità f(x) = Cm,n x(m - 2) / 2 / [1 + (m / n)x](m + n) / 2 per x > 0, dove la costante di normalizzazione Cm,n vale Cm,n = gam[(m + n) / 2] (m / n)m / 2 / [gam(m / 2) gam(n / 2)]. La distribuzione definita dalla funzione di densità ricavata nell'esercizio 1 prende il nome di distribuzione F con m gradi di libertà al numeratore e n gradi di libertà al denominatore. La distribuzione F ha questo nome in onore di Sir Ronald Fisher. 2. Nell'applet variabile casuale, seleziona la distribuzione F. Modifica i parametri con le barre di scorrimento e osserva la forma della funzione di densità. Ponendo n = 3 e m = 2, genera 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della funzione di densità empirica a quella teorica. 3. Disegna il grafico della funzione di densità F introdotta nell'esercizio 1. Mostra in particolare che 1. f(x) è inizialmente crescente e poi decrescente e raggiunge il massimo a x = (m - 2) / [m(n + 2)]. 2. f(x) converge a 0 per x che tende a infinito. Pertanto, la distribuzione F è unimodale ma asimmetrica. La funzione di ripartizione e la funzione quantile non sono esprimibili in forma chiusa tramite le funzioni elementari. Valori approssimati di queste funzioni di possono ottenere dall'applet quantile. 4. Nell'applet quantile, seleziona la distribuzione F. Modifica i parametri e osserva la forma della funzione di densità e della funzione di ripartizione. In ognuno dei casi seguenti, trova la mediana, il primo e il terzo quartile e lo scarto interquartile. http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special6.html (1 di 2) [22/11/2001 17.57.41] La distribuzione F 1. 2. 3. 4. m = 5, n = 5 m = 5, n = 10 m = 10, n = 5 m = 10, n = 10 Momenti Supponiamo X abbia distribuzione F con m gradi di libertà al numeratore e n gradi di libertà al denominatore. La rappresentazione data nell'esercizio 1 può essere utilizzata per trovare valore atteso, varianza e gli altri momenti. 5. Mostra che, se n > 2, E(X) = n / (n - 2). Il valore atteso, quindi, dipende solo dai gradi di libertà al denominatore. 6. Mostra che, se n > 4, allora var(X) = 2 n2(m + n - 2) / [(n - 2)2 m (n - 4)]. 7. Nell'applet variabile casuale, seleziona la distribuzione F. Modifica i parametri con la barra di scorrimento e osserva la dimensione e la posizione della barra media/deviazione standard. Ponendo n = 3 e m = 5, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza dei momenti empirici a quelli teorici. 8. Mostrare che, se k < n / 2, allora E(Xk) = gam[(m + 2k) / 2] gam[(n - 2k) / 2] (n / m)k / [gam(m / 2) gam(n / 2)]. Trasformazioni 9. Sia X F-distribuita con m gradi di libertà al numeratore e n gradi di libertà al denominatore. Dimostrare che 1/X è F-distribuita con n gradi di libertà al numeratore e m gradi di libertà al denominatore. 10. Supponi che T abbia distribuzione t con n gradi di libertà. Dimostra che X = T2 ha distribuzione F con 1 grado di libertà al numeratore e n gradi di libertà al denominatore. Laboratorio virtuale > Distribuzioni notevoli > 1 2 3 4 5 [6] 7 8 9 10 11 12 13 14 15 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/special/special6.html (2 di 2) [22/11/2001 17.57.41] Stima intervallare Laboratorio virtuale > Statistica > A B C [D] E D. Stima intervallare Sommario 1. Introduzione 2. Stima della media nel modello normale 3. Stima della varianza nel modello normale 4. Stima del modello di Bernoulli 5. Stima nel modello normale bivariato 6. Intervalli di confidenza Bayesiani Applets ● Esperimento di stima della media ● Esperimento di stima della proporzione ● Esperimento di stima della varianza ● Applet quantile Laboratorio virtuale > Statistica > A B C [D] E Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/index.html [22/11/2001 17.57.43] Test di ipotesi Laboratorio virtuale > Statistica > A B C D [E] E. Test di ipotesi Contents 1. Introduzione 2. Test per la media nel modello normale 3. Test per la varianza nel modello normale 4. Test nel modello di Bernoulli 5. Test nel modello normale bivariato 6. Test del rapporto di verosimiglianza 7. Test per la bontà di adattamento Applets ● Esperimento del test della media ● Esperimento del test della proporzione ● Esperimento del test della varianza ● Esperimento chi-quadro dei dadi ● Esperimento del test del segno ● Applet quantile Laboratorio virtuale > Statistica > A B C D [E] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/index.html [22/11/2001 17.57.45] Triangoli aleatori Laboratorio virtuale > Modelli geometrici > 1 2 3 [4] 5 4. Triangoli aleatori Termini del problema Supponiamo di spezzare un bastoncino in due punti: qual è la probabilità che i tre pezzi formino un triangolo? 1. Prova a indovinare senza guardare più avanti. 2. Replica l'esperimento del triangolo 50 volte. Non preoccuparti delle altre informazioni riportate nell'applet, nota solamente quando i pezzi formano un triangolo. Vuoi rivedere la tua risposta all'esercizio 1? Formulazione matematica Al solito, il primo passo è di formalizzare l'esperimento casuale. Consideriamo la lunghezza del bastoncino come unità di misura, in modo da poter identificare il bastoncino con l'intervallo [0, 1]. Per rompere il bastoncino in tre pezzi basta scegliere due punti. Sia quindi X il primo punto e Y il secondo. Notiamo che X e Y sono variabili casuali e quindi lo spazio campionario del nostro esperimento è S = [0, 1]2. Ora, per rappresentare il fatto che i punti sono selezionati a caso, assumiamo, come nei paragrafi precedenti, che X e Y siano indipendenti e distribuite uniformemente su [0, 1]. 3. Prova che (X, Y) è distribuito uniformemente su S = [0, 1]2. Quindi, P(A) = area(A) / area(S) = area (A) per A S. La probabilità del triangolo 4. Spiega perché i tre pezzi formano un triangolo se e solo se valgono le disuguaglianze triangolari: la somma delle lunghezze di due qualunque dei pezzi dev'essere maggiore della lunghezza del terzo. 5. Prova che l'evento in cui i tre pezzi formano un triangolo è T = T1 1. T1 = {(x, y) S: y > 1/2, x < 1/2, y - x < 1/2} 2. T2 = {(x, y) S: x > 1/2, y < 1/2, x - y < 1/2} Un grafico dell'evento T è riportato qui sotto: http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon4.html (1 di 4) [22/11/2001 17.57.54] T2 dove Triangoli aleatori 6. Prova che P(T) = 1/4. Quanto ti sei avvicinato nell'esercizio 1? Il valore di probabilità relativamente basso dell'esercizio 6 è abbastanza sorprendente. 7. Replica l'esperimento del triangolo 1000 volte, aggiornando ogni 10 replicazioni. Osserva la convergenza della probabilità empirica di Tc al valore teorico. Triangoli di tipi diversi Calcoliamo ora la probabilità che i pezzi formino un triangolo di un dato tipo. Ricorda che in un triangolo acutangolo tutti e tre gli angoli misurano meno di 90°, mentre un triangolo ottusangolo ha uno e un solo angolo maggiore di 90°. Un triangolo rettangolo, ovviamente, ha un angolo di 90°. 8. Supponi che un triangolo abbia lati di lunghezza a, b e c, dove c è il valore maggiore. Ricorda (o prova) che il triangolo è 1. acutangolo se e solo se c2 < a2 + b2. 2. ottusangolo se e solo se c2 > a2 + b2. 3. rettangolo se e solo se c2 = a2 + b2. La parte (c), ovviamente, è il celebre teorema di Pitagora, che prende nome dal celebre matematico greco Pitagora. 9. Prova che le equazioni del triangolo rettangolo per i pezzi sono 1. (y - x)2 = x2 + (1 - y)2 in T1. 2. (1 - y)2 = x2 + (y - x)2 in T1. 3. x2 = (y - x)2 + (1 - y)2 in T1. 4. (x - y)2 = y2 + (1 - x)2 in T2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon4.html (2 di 4) [22/11/2001 17.57.54] Triangoli aleatori 5. (1 - x)2 = y2 + (x - y)2 in T2 6. y2 = (x - y)2 + (1 - x)2 in T2. 10. Sia R l'evento in cui i pezzi formano un triangolo rettangolo. Prova che P(R) = 0. 11. Prova che l'evento in cui i pezzi formano un triangolo acutangolo è A = A1 dove 1. A1 è la regione racchiusa tra le curve (a), (b) e (c) dell'esercizio 7. A2 2. A2 è la regione racchiusa tra le curve (d), (e) e (f) dell'esercizio 7. 12. Prova che l'evento in cui i pezzi formano un triangolo ottusangolo è B = B1 B3 B4 B5 B2 B6 dove 1. B1, B2, B3 sono le regioni dentro T1 e fuori dalle curve (a), (b) e (c) dell'esercizio 7, rispettivamente. 2. B4, B5, B6 sono le regioni dentro T2 e fuori dalle curve (d), (e) e (f) dell'esercizio 7, rispettivamente. 13. Prova che 1. P(B1) = [0, 1/2] [x(1 - 2x) / (2 - 2x)]dx = 3 / 8 - ln(2) / 2. 2. P(B2) = [0, 1/2] [x(1 - 2x) / (2 - 2x)]dx = 3 / 8 - ln(2) / 2. 3. P(B3) = [1/2, 1] [y + 1 / (2y) - 3 / 2]dy = 3 / 8 - ln(2) / 2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon4.html (3 di 4) [22/11/2001 17.57.54] Triangoli aleatori 14. Spiega con la simmetria che P(B) = 9 / 4 - 3 ln(2) ~ 0.1706 Puoi anche spiegare perché P(Bi) dev'essere lo stesso per ogni i, anche se B1 e B2 (per esempio) non sono congruenti. 15. Prova che P(A) = 3 ln(2) - 2 ~ 0.07944. 16. Replica l'esperimento del triangolo 1000 volte, aggiornando ogni 10. Osserva a convergenza delle probabilità empiriche ai loro valori teorici. Laboratorio virtuale > Modelli geometrici > 1 2 3 [4] 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon4.html (4 di 4) [22/11/2001 17.57.54] Note conclusive Laboratorio virtuale > Modelli geometrici > 1 2 3 4 [5] 5. Note conclusive Note storiche I problemi di Buffon sulla moneta e sull'ago sono considerati tra i primi problemi della probabilità geometrica. Il problema originale dell'ago è stato esteso in molte maniere, a partire da Simon Laplace, che ha considerato il caso del pavimento con mattonelle rettangolari. Modifiche del problema costituiscono argomenti di ricerca attivi tutt'oggi. Il problema dell'ago di Buffon viene risolto per integrazione MonteCarlo. In generale, i metodi MonteCarlo usano il campionamento statistico per approssimare le soluzioni a problemi di difficile soluzione analitica. La teoria moderna dei metodi MonteCarlo inizia con Stanislaw Ulam, che ha utilizzato questi metodi su problemi associati alla costruzione della bomba all'idrogeno. Simulazione Ciascuno dei problemi geometrici che abbiamo considerato sono basati su variabili casuali con distribuzione uniforme continua. Il problema seguente mostra come simulare tali variabili; si tratta di un caso particolare del metodo di simulazione quantile. 1. Supponi che la variabile casuale U sia distribuita uniformemente sull'intervallo (0, 1) (cioè, U è un numero casuale). Siano a e b numeri reali con a < b. Prova che la variabile casuale W riportata sotto è distribuita uniformemente sull'intervallo (a, b). W = a + (b - a)U 2. Mostra come simulare il centro della moneta (X, Y) nell'esperimento della moneta di Buffon utilizzando numeri casuali. 3. Mostra come simulare l'angolo X e la distanza Y nell'esperimento dell'ago di Buffon utilizzando numeri casuali. Neil Weiss ha osservato che la nostra simulazione dell'esperimento dell'ago di Buffon è circolare, nel senso che il programma assume di conoscere pi (puoi vederlo come risultato dell'esercizio 3). 4. Prova a scrivere un algoritmo per il problema dell'ago di Buffon, senza assumere il valore di pi o di altri numeri trascendenti. 5. Nel problema di Bertrand con distanza uniforme, mostra come simulare D, A, X e Y utilizzando un numero casuale. 6. Nel problema di Bertrand con l'angolo uniforme, mostra come simulare D, A, X e Y utilizzando un numero casuale. http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon5.html (1 di 2) [22/11/2001 17.57.57] Note conclusive Siti web ● Per le biografie di Buffon e Bertrand, visita il sito di storia della matematica. ● Per un'altra trattazione dell'ago di Buffon scritta da George Reese, visita Buffon's Needle - An Analysis and Simulation. Libri ● Per una trattazione matematica del problema dell'ago e delle sue estensioni vedi il libro Geometric Probability, di Herbert Solomon. Risposte agli esercizi del paragrafo 1 1.6. 1 - (h - 2r)(w - 2r) / (hw), r < min{h / 2, w / 2} Risposte agli esercizi del paragrafo 2 2.7. 1. 1 / 6 2. 5 / 12 3. 1 / (2 ) 4. 3 / (2 ) Risposte agli esercizi del paragrafo 3 3.17. Distanza uniforme 3.18. Angolo uniforme 3.19. Angolo uniforme Risposte agli esercizi del paragrafo 4 4.2. X = U - 1/2, Y = V - 1/2, dove U e V sono numeri casuali. 4.3. X = U, Y = V, dove U e V sono numeri casuali. 4.5. A = arccos(D), X = 2D2 - 1, Y = 2D(1 - D2)1/2, dove D è un numero casuale. 4.6. A = casuale. U / 2, D = cos(A), X = 2D2 - 1, Y = 2D(1 - D2)1/2, dove U è un numero Laboratorio virtuale > Modelli geometrici > 1 2 3 4 [5] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/buffon/buffon5.html (2 di 2) [22/11/2001 17.57.57] Introduzione Laboratorio virtuale > Rosso e nero > [1] 2 3 4 5 1. Introduzione In questo capitolo analizzeremo uno dei modelli di gioco più semplici. Nonostante la sua semplicità, l'analisi formale porta a risultati interessanti e a volte sorprendenti che trovano applicazione ben oltre il gioco d'azzardo. Assunzioni La situazione iniziale è la seguente: il giocatore inizia con una somma (non casuale) di denaro. Può puntare su una prova semplice con due esiti: vincita o perdita. Se vince, riceve quanto ha puntato; se perde deve pagare quanto ha puntato. Il gioco quindi è alla pari. Proviamo a formulare questo esperimento in termini formali e precisiamo alcune assunzioni sulle variabili casuali di base. In primo luogo, assumiamo che le prove siano indipendenti e che le probabilità di vincita e perdita restino costanti da prova a prova. Abbiamo quindi una sequenza di prove Bernoulliane: ● I1, I2, ... dove Ij è l'esito della prova j (1 vincita e 0 perdita) ● I1, I2, ... sono indipendenti e P(Ij = 1) = p, P(Ij = 0) = q = 1 - p. Se p = 0, il giocatore perde sempre e se p = 1 vince sempre. Tali casi triviali non sono interessanti, per cui assumiamo 0 < p < 1. Ovviamente, nelle case da gioco reali, p < 1/2 (cioè le prove sono sfavorevoli per il giocatore), per cui siamo particolarmente interessati a questo caso. Processi casuali La ricchezza del giocatore nel corso del tempo è il processo di interesse: sia X0 = la ricchezza iniziale, Xi = la ricchezza dopo i prove. La strategia del giocatore è formata dalla decisioni su quanto puntare a ciascuna prova e quando abbandonare il gioco. Sia Yi = l'ammontare dell'i-esima puntata. e sia N il numero di prove giocate. Se vogliamo possiamo anche assumere che le prove durino all'infinito, ma assumendo che il giocatore punti 0 a ciascuna prova successiva alla N. Con queste considerazioni, l'esito della prova, la ricchezza e la puntata sono definiti per ogni i. 1. Mostra che il processo della ricchezza è legato al processo delle puntate dalla relazione seguente: Xj = Xj - 1 + (2Ij - 1)Yj per j = 1, 2, ... http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack1.html (1 di 4) [22/11/2001 17.58.04] Introduzione Strategie La strategia del giocatore può essere molto complessa. Per esempio, la puntata alla prova n (Yn) o la decisione di smettere dopo n - 1 prove ({N = n - 1}) può essere basata sull'intera storia passata del processo, fino al tempo n: Hn = (X0, Y1, I1, Y2, I2, ..., Yn - 1, In - 1). Inoltre, vi possono essere ulteriori fonti di casualità. Per esempio, un giocatore di roulette può basare le sue puntate basandosi sul lancio di un dado fortunato che tiene in tasca. Tuttavia il giocatore non può leggere il futuro (sfortunatamente, dal suo punto di vista), per cui possiamo assumere almeno che Yn e {N = n - 1} siano indipendenti da In, In + 1, In + 2 ... Mostreremo ora che, almeno in termini di valore atteso, ogni strategia di gioco è futile se le prove sono sfavorevoli. 2. Usa il risultato dell'esercizio 1 e l'assunzione di non prescienza per mostrare che E(Xi) = E(Xi - 1) + (2p - 1)E(Yi ) per i = 1, 2, ... 3. Supponi che il giocatore abbia probabilità positiva di puntare alla prova i. Usa il risultato dell'esercizio 2 per mostrare che 1. E(Xi) < E(Xi - 1) se p < 1 / 2 2. E(Xi) = E(Xi - 1) se p > 1 / 2 3. E(Xi) = E(Xi - 1) se p = 1 / 2 L'esercizio 3 mostra che, per ogni prova in cui il giocatore punta, la sua ricchezza attesa decresce strettamente se le prove sono sfavorevoli, resta la stessa se le prove sono alla pari e cresce strettamente se le prove sono favorevoli. Come già notato in precedenza, una strategia generale può dipendere dal passato e può essere casualizzata. Tuttavia, poiché le prove Bernoulliane sottostanti sono indipendenti, si può supporre che tali complesse strategie non siano migliori di strategie semplici in cui l'ammontare della puntata e la decisione di smettere sono basate solo sulla ricchezza corrente del giocatore. Tali strategie semplici hanno un ruolo fondamentale e sono dette strategie stazionarie e deterministiche. Tali strategie possono essere descritte da una funzione di puntata S dallo spazio delle ricchezze allo spazio delle puntate possibili, per cui S(x) è la cifra che il giocatore punta quando la sua ricchezza attuale è x. Rosso e nero Da ora in poi, assumeremo che la regola di arresto del giocatore sia molte semplice e standard: punterà su tutte le prove finché avrà perso tutto o avrà raggiunto una ricchezza prefissata a: http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack1.html (2 di 4) [22/11/2001 17.58.04] Introduzione N = min{n = 0, 1, 2, ...: Xn = 0 or Xn = a}. Questo tipo di gioco è detto rosso e nero e prende nome dal gioco della roulette. Se vogliamo, possiamo pensare alla differenza tra la ricchezza obiettivo e la ricchezza iniziale come alla ricchezza del banco. Con questa interpretazione, il giocatore e il banco assumono ruoli simmetrici: il gioco continua fino il giocatore o il banco sono rovinati. Siamo interessati principalmente alla ricchezza finale XN del giocatore. Nota che tale variabile assume solo due valori: 0 e a. 4. Mostra che media e varianza della ricchezza finale sono date da 1. E(XN) = aP(XN = a) 2. var(XN) = a2 P(XN = a) [1 - P(XN = a)] Dall'esercizio 1, il giocatore vuole massimizzare la probabilità di raggiungere la ricchezza obiettivo. È meglio puntare poco o puntare molto, o non è rilevante? Quanto dipende la strategia ottimale, se ne esiste una, dalla ricchezza iniziale, dalla ricchezza obiettivo e dalle probabilità di vittoria? Analizzeremo e confronteremo due strategie in un certo senso opposte: ● Gioco prudente: A ciascuna prova, finché il gioco non finisce, il giocatore fa una piccola puntata costante, ad esempio 1 unità. ● Gioco aggressivo: A ciascuna prova, finché il gioco non finisce, il giocatore punta o tutto quello che ha o quello che gli serve per raggiungere la ricchezza obiettivo, se tale ammontare è minore. Per esempio, supponiamo che la ricchezza obiettivo sia di 100 unità di moneta. Se il giocatore ne ha 25, punterà 25, se ha 60, ne punterà 40. La strategia di gioco prudente è detta anche rovina del giocatore, forse perché, come vedremo, è una pessima strategia nelle case da gioco reali. Simulazioni 5. Nel gioco del rosso e nero poni la ricchezza iniziale a 8, la ricchezza obiettivo a 16 e la probabilità di vincita a 0.5. Gioca 10 turni con ciascuna delle seguenti strategie. Osserva il comportamento della ricchezza finale e il numero di prove e, in particolare, osserva quale strategia sembra funzionare meglio. 1. Gioco prudente. 2. Gioco aggressivo. 3. Puntare 4 ad ogni giocata. 6. Nel gioco del rosso e nero poni la ricchezza iniziale a 8, la ricchezza obiettivo a 16 e la probabilità di vincita a 0.45. Gioca 10 turni con ciascuna delle seguenti strategie. Osserva il comportamento della ricchezza finale e il numero di prove e, in particolare, osserva quale strategia sembra funzionare meglio. 1. Gioco prudente. 2. Gioco aggressivo. http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack1.html (3 di 4) [22/11/2001 17.58.04] Introduzione 3. Puntare 4 ad ogni giocata. 7. Nel gioco del rosso e nero poni la ricchezza iniziale a 8, la ricchezza obiettivo a 16 e la probabilità di vincita a 0.55. Gioca 10 turni con ciascuna delle seguenti strategie. Osserva il comportamento della ricchezza finale e il numero di prove e, in particolare, osserva quale strategia sembra funzionare meglio. 1. Gioco prudente. 2. Gioco aggressivo. 3. Puntare 4 ad ogni giocata. Laboratorio virtuale > Rosso e nero > [1] 2 3 4 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack1.html (4 di 4) [22/11/2001 17.58.04] Gioco prudente Laboratorio virtuale > Rosso e nero > 1 [2] 3 4 5 2. Gioco prudente Ricordiamo che, nella strategia di gioco prudente, il giocatore fa una piccola puntata costante, ad esempio 1$, per ogni prova, finché non smette. Per ciascuna prova, quindi, la ricchezza del giocatore può aumentare di 1 o diminuire di 1, finché non arriva a 0 o raggiunge l'obiettivo a (un intero positivo). Il processo che la ricchezza segue è quindi un random walk con barriere di assorbimento 0 e a. Ricorda che indichiamo tale processo con Xi, i = 0, 1, 2, ... Al solito, siamo interessati alla probabilità di vincita e al numero atteso di prove. L'idea chiave nella nostra anlisi è che, dopo ogni prova, la ricchezza riparta da capo, ma con un diverso valore iniziale. Si tratta di un esempio di proprietà di Markov, e ciò è di fondamentale importanza nella teoria della probabilità. L'analisi basata sulla proprietà di Markov suggerisce di trattare la ricchezza iniziale come variabile. La probabilità di vittoria Indicheremo la probabilità che il giocatore raggiunga l'obiettivo a, iniziando da una ricchezza iniziale x, con f(x) = P(XN = a | X0 = x) per x = 0, 1, ..., a. 1. Condizionando all'esito della prima prova, mostra che f soddisfa 1. f(x) = qf(x - 1) + pf(x + 1) per x = 1, 2, ..., a - 1 (equazione alle differenze) 2. f(0) = 0, f(a) = 1 (condizioni di limite) L'equazione alle differenze dell'esercizio 1 è lineare, omogenea e di secondo ordine. 2. Prova che l'equazione caratteristica dell'equazione alle differenze dell'esercizio 1 è pr2 - r + q = 0 e che le radici sono r = 1 e r = q / p. 3. Prova che, se p è diverso da 1/2, allora le radici dell'esercizio 2 sono distinte. Mostra che, in questo caso, la probabilità che il giocatore raggiunga l'obiettivo prefissato è f(x) = [(q / p)x - 1] / [(q / p)a - 1] per x = 0, 1, ..., a. 4. Prova che, se p = 1/2, l'equazione caratteristica ha una singola radice unitaria di molteplicità 2. Mostra che, in questo caso, la probabilità che il giocatore raggiunga l'obiettivo è semplicemente il rapporto tra la ricchezza iniziale e la ricchezza obiettivo: f(x) = x / a per x = 0, 1, ..., a. http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack2.html (1 di 4) [22/11/2001 17.58.11] Gioco prudente Dagli esercizi 3 e 4 ricaviamo la distribuzione della ricchezza finale XN in tutti i casi: P(XN = 0 | X0 = x) = 1 - f(x), P(XN = a | X0 = x) = f(x). 5. Nell'esperimento del rosso e nero, scegli gioco prudente e poni a = 32 e p = 0.45. Fai variare x da 0 a 32 con la barra a scorrimento e osserva come varia la distribuzione della ricchezza finale. Con x = 24, simula 1000 replicazioni, aggiornando ogni 100, e osserva la convergenza delle frequenze relative alla densità teorica. Proprietà 6. Mostra che, in funzione di x e per dati p e a, f(x) cresce da 0 a 1 al crescere di x da 0 ad a. 7. Nell'esperimento del rosso e nero, scegli gioco prudente e poni a = 64 e x = 16. Fai variare p da 0 a 1 con la barra a scorrimento e osserva come varia la distribuzione della ricchezza finale. Con p = 0.55, simula 1000 replicazioni, aggiornando ogni 100, e osserva la convergenza delle frequenze relative alla densità teorica. 8. Prova che f(x) è continua in funzione di p, per dati x e a. In particolare, usa la regola di L'Hopital per mostrare che l'espressione dell'esercizio 3 converge a quella dell'esercizio 4 al tendere di p a 1/2. 9. Nell'esperimento del rosso e nero, scegli gioco prudente e poni a = 64 e x = 32. Fai variare p da 0 a 1 con la barra a scorrimento e osserva come varia la distribuzione della ricchezza finale. Con p = 0.45, simula 1000 replicazioni, aggiornando ogni 100, e osserva la convergenza delle frequenze relative alla densità teorica. 10. Mostra che, per dati x e a, f(x) cresce da 0 a 1 al crescere di p da 0 a 1. Puntate costanti Che succede se il giocatore fa puntate costanti ma di importo maggiore di 1? La risposta a questa domanda può dare qualche idea su quello che succede nel caso di gioco aggressivo. 11. Nel gioco del rosso e nero, poni la ricchezza iniziale a 8, quella obiettivo a 16 e la probabilità di vittoria a 0.45. Gioca 10 partite con ciascuna delle seguenti strategie. Quale sembra funzionare meglio? 1. Puntare 1 a ciascuna prova (gioco prudente). 2. Puntare 2 a ciascuna prova. 3. Puntare 4 a ciascuna prova. 4. Puntare 8 a ciascuna prova (gioco aggressivo). Dobbiamo appesantire la notazione per indicare la dipendenza dalla ricchezza obiettivo: f(x; a) = P(XN = a | X0 = x). http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack2.html (2 di 4) [22/11/2001 17.58.11] Gioco prudente Fissiamo ora p e supponiamo che la ricchezza obiettivo sia 2a e quella iniziale 2x. Se il giocatore gioca in maniera prudente, allora ovviamente la sua probabilità di raggiungere l'obiettivo è f(2x; 2a). D'altro canto: 12. Supponi che il giocatore punti 2 ad ogni prova. Dimostra che Xi / 2, i = 0, 1, 2, ... corrisponde al gioco prudente con ricchezza iniziale x e ricchezza obiettivo a e che quindi la probabilità che il giocatore raggiunga l'obiettivo è f(x; a) Dobbiamo quindi confrontare le probabilità f(2x; 2a) e f(x; a). 13. Prova che 1. f(2x; 2a) = f(x; a)[(q / p)x + 1] / [(q / p)a + 1] 2. f(2x; 2a) < f(x; a) se p < 1 / 2; f(2x; 2a) > f(x; a) se p > 1 / 2. Sembra quindi che aumentare le puntate sia una buona idea se le prove sono sfavorevoli e una cattiva idea se sono favorevoli e che non faccia differenza se le prove sono equilibrate. 14. Generalizza gli esercizi 12 e 13 per confrontare la strategia di gioco prudente con quella di puntare k$ a ciascuna prova (sia kx la ricchezza iniziale e ka quella obiettivo). Numero atteso di prove Consideriamo ora il numero atteso di prove necessarie col gioco prudente, quando la ricchezza iniziale è x: g(x) = E(N | X0 = x) per x = 0, 1, ..., a. 15. Condizionando all'esito della prima prova, mostra che g soddisfa l'equazione alle differenze 1. g(x) = qg(x - 1) + pg(x + 1) + 1 per x = 1, 2, ..., a - 1 (equazione alle differenze) 2. g(0) = 0, g(a) = 0 (condizioni di limite). L'equazione alle differenze dell'esercizio precedente è lineare, di secondo ordine ma non omogenea. L'equazione omogenea corrispondente è quella soddisfatta dalla funzione di probabilità di vincita f. Quindi abbiamo bisogno di poco lavoro. 16. Mostra che, se p è diverso da 1/2, allora g(x) = x / (q - p) - [a / (q - p)][(q / p)x - 1] / [(q / p)a - 1] per x = 0, 1, ..., a. 17. Mostra che, se p = 1/2, allora g(x) = x (a - x) per x = 0, 1, ..., a. Per varie scelte di parametri, il numero di prove atteso è sorprendentemente elevato. Per esempio, supponiamo che p = 1/2 e che la ricchezza obiettivo sia 100. se la ricchezza http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack2.html (3 di 4) [22/11/2001 17.58.11] Gioco prudente iniziale del giocatore è 1, allora il numero atteso di prove è 99, anche se la metà delle volte il giocatore perderà tutto alla prima prova. Se la ricchezza iniziale è 50, il numero atteso di prove è 2500. 18. Nell'esperimento del rosso e nero, scegli gioco prudente. Modifica la ricchezza iniziale, quella finale e la probabilità di vincita e osserva come varia il numero atteso di prove. Con x = 16, a = 32 e p = 0.5, simula 1000 replicazioni, aggiornando ogni 100. Osserva la convergenza della media campionaria del numero di prove al valore atteso. 19. Nell'esperimento del rosso e nero, scegli gioco prudente. Poni la ricchezza obiettivo a 128, quella iniziale a 64 e la probabilità di vincita a 0.5. Simula 100 replicazioni e osserva il numero e la variabilità elevata del numero di prove. Laboratorio virtuale > Rosso e nero > 1 [2] 3 4 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack2.html (4 di 4) [22/11/2001 17.58.11] Strategie ottimali Laboratorio virtuale > Rosso e nero > 1 2 3 [4] 5 4. Strategie ottimali Condizione di ottimalità Ricordiamo che la regola di arresto nel gioco del rosso e nero è di continuare a giocare finché il giocatore non esaurisce la sua ricchezza o non raggiunge la ricchezza obiettivo a. Pertanto la strategia del giocatore consiste nel decidere quanto puntare in ciascuna prova prima di smettere di giocare. Supponiamo di avere una classe di strategie corrispondenti a puntate e ricchezze valide: A: insieme di ricchezze, Bx: insieme di puntate valide per x A. Per esempio, a volte (come avviene nel caso del gioco prudente) possiamo voler restringere le ricchezze agli interi compresi tra 0 e a; altre volte (come avviene nel caso del gioco aggressivo) possiamo voler usare l'intervallo [0, 1] come spazio per le ricchezze. Per quanto riguarda le puntate, assumeremo sempre che il giocatore non possa puntare ciò che non ha e che non punti più di quanto gli serve per raggiungere la ricchezza obiettivo. Si hanno quindi le condizioni minime x A, y Bx implica 0 y min{x, a - x}. Restringiamo inoltre le strategie a quelle per cui il tempo di arresto N è finito. Una strategia con funzione di probabilità di vincita V è ottimale se per ogni altra strategia con funzione di probabilità di vincita U si ha U(x) V(x) for x A. 1. Mostra che, se esiste una strategia ottimale, la funzione di probabilità di vincita è unica. Può però non esserci una strategia ottimale, o ce ne possono essere molte. Inoltre, la questione dell'ottimalità dipende dal valore della probabilità di vittoria della prova p, oltre che dalla struttura di ricchezze e puntate. Supponiamo ora che S sia una strategia con funzione di probabilità di vincita V. Vogliamo mostrare che se pV(x + y) + qV(x - y) V(x) per x A, y Bx, allora S è ottimale. 2. Considera la seguente strategia: se la ricchezza iniziale è x in A, prendiamo un y in Bx e puntiamo y sulla prima prova, seguiamo poi la strategia S. Condiziona all'esito della prima prova per mostrare che la funzione di probabilità di vincita per tale nuova strategia è http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack4.html (1 di 5) [22/11/2001 17.58.20] Strategie ottimali U(x) = pV(x + y) + qV(x - y). Pertanto, il teorema che stiamo cercando di dimostrare può essere riespresso come segue: se S è ottimale rispetto alla classe di strategie dell'esercizio 2, allora S è ottimale rispetto a tutte le strategie. Supponiamo ora che la condizione di ottimalità valga. Sia T una strategia arbitraria con funzione di probabilità di vincita U. La variabile casuale V(Xn) può essere interpretata come probabilità di vincita se la strategia del giocatore è sostituita dalla strategia S da n in poi. 3. Condiziona all'esito della prova n-esima per mostrare che E[V(Xn) | X0 = x] = E[pV(Xn - 1 + Yn) + qV(Xn - 1 - Yn) | X0 = x]. 4. Usa il risultato dell'esercizio 3 e la condizione di ottimalità per mostrare che, per n = 1, 2, ... E[V(Xn) | X0 = x] E[V(Xn - 1) | X0 = x]. 5. Usa il risultato dell'esercizio 4 per provare che E[V(Xn) | X0 = x] V(x) per n = 1, 2, ... 6. Calcola il limite al crescere di n nell'esercizio 5 per mostrare che E[V(XN) | X0 = x] V(x) dove N è il tempo di arresto per la strategia T. 7. Prova che E[V(XN) | X0 = x] = U(x) Abbiamo infine mostrato negli esercizi 6 e 7 che la strategia S è di fatto ottimale: U(x) V(x) per x A. Prove favorevoli con puntata minima Supponiamo ora che p 1 / 2, per cui le prove sono favorevoli (o almeno non sfavorevoli) per il giocatore. Mostreremo ora che se il banco vuole che tutte le puntate siano multiplo di una puntata minima (che è quanto avviene nelle case da gioco reali), la strategia ottimale è quella prudente, facendo la puntata minima ad ogni prova fino alla fine del gioco. Assumiamo in primo luogo che tutte le puntate siano multipli di un'unità minima, che possiamo assumere essere 1$. Gli insiemi di ricchezze e di puntate valide sono quindi A = {0, 1, ..., a}, Bx = {0, 1, ..., min{x, a - x}}. Sia f la funzione di probabilità di vincita per il gioco prudente. Per mostrare che la strategia di gioco prudente è ottimale, basta verificare che la condizione di ottimalità è http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack4.html (2 di 5) [22/11/2001 17.58.20] Strategie ottimali soddisfatta, cioè in questo caso pf(x + y) + qf(x - y) f(x) per x in A, y in Bx. 8. Mostra che la condizione di ottimalità è soddisfatta per p = 1 / 2. 9. Se p > 1 / 2, mostra che la condizione di ottimalità è equivalente a p(q / p)x + y + q(q / p)x - y (q / p)x. 10. Mostra che la disuguaglianza dell'esercizio precedente equivale a pq(py - qy)(py - 1 - qy - 1) 0. La disuguaglianza dell'ultimo esercizio è soddisfatta per p> 1 / 2, per cui il gioco prudente è ottimale quando le prove sono favorevoli. 11. Nel gioco del rosso e nero, poni a = 16, x = 8 e p = 0.55. Definisci una strategia a piacimento e gioca 100 partite. Confronta la tua frequenza relativa di vittoria con la probabilità di vincita del gioco prudente. Prove favorevoli senza puntata minima Assumiamo ora che il banco ammetta puntate arbitrariamente piccole e che p > 1/2, per cui le prove sono strettamente favorevoli. In questo caso è naturale prendere come obiettivo l'unità monetaria, per cui l'insieme di ricchezze e puntate diventa A = [0, 1], Bx = [0, min{x, 1 - x}} per x A. Mostreremo che V(x) = 1 per x in (0, 1]. I risultati ricavati per il gioco prudente ricoprono un ruolo molto importante per la nostra analisi, per cui indicheremo con f(j; a) la probabilità di raggiungere un intero obiettivo a, partendo dall'intero j appartenente a [0, a], con puntate unitarie. Fissiamo in primo luogo una ricchezza iniziale razionale x = k / n in [0, 1]. 12. Sia m un intero positivo. Supponi che, a partire da x, il giocatore punti 1/mn su ciascuna prova. Prova che ciò equivale al gioco prudente con obiettivo mn e ricchezza inziale mk e che quindi la probabilità di raggiungere l'obiettivo 1 è f(mk; mn). 13. Prova che f(mk; mn) 1 per m . 14. Usa i risultati degli esercizi 6 e 7 per provare che V(x) = 1 se x (0, 1] è razionale. 15. Usa il risultato dell'esercizio precedente e il fatto che V è crescente per provare che http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack4.html (3 di 5) [22/11/2001 17.58.20] Strategie ottimali V(x) = 1 per ogni x (0, 1]. Prove sfavorevoli Assumiamo ora che p 1 / 2, per cui le prove sono sfavorevoli, o almeno non favorevoli. Mostreremo che il gioco aggressivo è ottimale. Come in precedenza, considereremo la ricchezza obiettivo come l'unità monetaria di base e consentiremo di puntare ogni frazione valida di tale unità. Gli insiemi di ricchezze e puntate sono quindi A = [0, 1], Bx = [0, min{x, 1 - x}] per x A. Sia F la funzione di probabilità di vincita per il gioco aggressivo. Per mostrare che tale strategia è ottimale, basta mostrare che soddisfa la condizione generale di ottimalità. 16. Mostra che la condizione di ottimalità è equivalente a D(r, s) = F[(r + s) / 2] - pF(s) - qF(r) 0 per 0 r s 1. 17. Usa la continuità di F per mostrare che è sufficiente provare la disuguaglianza dell'esercizio 16 nel caso in cui r e s sono binari razionali. Useremo ora l'induzione su m per mostrare che la disuguaglianza dell'esercizio 16 è verificata se r e s sono binari razionali di rango m o meno, con m = 0, 1, ... 18. Prova che la disuguaglianza dell'esercizio 16 è verificata se r e s hanno rango 0; mostra cioè che la disgugaglianza vale per 1. r = 0, s = 0, 2. r = 0, s = 1, 3. r = 1, s = 1. Supponiamo ora che la disuguaglianza dell'esercizio 16 valga per r e s di rango m o inferiore, per un dato m. Supponiamo inoltre che r e s abbiano rango m + 1 o inferiore. Mostreremo che la disuguaglianza è soddisfatta in ciascuno dei seguenti quattro casi 1. r s 2. 1 / 2 1/2 r s 3. r (r + s) / 2 1/2 s 4. r 1/2 (r + s) / 2 s L'equazione funzionale di base per F sarà il nostro principale strumento di lavoro. 19. Mostra che, nel caso (a), D(r, s) = pD(2r, 2s) 20. Mostra che, nel caso (b), D(r, s) = qD(2r - 1, 2s - 1) 21. Per il caso (c), segui i passi proposti: 1. D(r, s) = pF(r + s) - p[p + qF(2s - 1)] - q[pF(2r)] http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack4.html (4 di 5) [22/11/2001 17.58.20] Strategie ottimali 2. 1 / 2 r+s 1 so F(r + s) = p + qF(2r + 2s - 1) 3. 0 r + s - 1 / 2 1 / 2 per cui F(r + s - 1 / 2) = pF(2r + 2s - 1) 4. D(r, s) = q[F(r + s - 1 / 2) - pF(2s - 1) - pF(2r)] 5. Se 2s - 1 6. Se 2r 2r allora D(r, s) = (q - p)F(2s - 1) + qD(2s - 1, 2r) 2s - 1 allora D(r, s) = (q - p)F(2r) + qD(2r, 2s - 1) 22. Per il caso (d), segui i passi proposti: 1. D(r, s) = [p + qF(r + s - 1)] - p[p + qF(2s - 1)] - q[pF(2r)] 2. 0 r+s-1 1 / 2 so F(r + s - 1) = pF(2r + 2s - 2) 3. 1 / 2 r + s - 1 1 per cui F(r + s - 1 / 2) = p + qF(2r + 2s - 2) 4. D(r, s) = p(q - p) + p[F(r + s - 1 / 2) - qF(2s - 1) - qF(2r)] 5. Se 2s - 1 6. Se 2r 2r allora D(r, s) = p(q - p)[1 - F(2r)] + pD(2s - 1, 2r) 2s - 1 allora D(r, s) = p(q - p)[1 - F(2s - 1)] + pD(2r, 2s - 1) 23. Usa l'ipotesi di induzione e i risultati degli esercizi precedenti per terminare la dimostrazione del fatto che il gioco aggressivo è ottimale nel caso in cui le prove siano sfavorevoli. 24. Nel gioco del rosso e nero, poni a = 16, x = 8 e p = 0.45. Definisci una strategia a piacimento e gioca 100 partite. Confronta la tua frequenza relativa di vittoria con la probabilità di vincita del gioco aggressivo. Laboratorio virtuale > Rosso e nero > 1 2 3 [4] 5 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack4.html (5 di 5) [22/11/2001 17.58.20] Note conclusive Laboratorio virtuale > Rosso e nero > 1 2 3 4 [5] 5. Note conclusive Libri ● ● Il libro più classico su rosso e nero e su molti altri modelli di gioco è Inequalities for Stochastic Processes (How to Gamble if You Must) di Dubbins e Savage. Tale libro è stato la fonte della maggior parte della teoria presentata in questo capitolo. Un testo recente sui modelli di gioco è Discrete Gambling and Stochastic Games di Sudderth e Maitra. Ringraziamenti Il grafico della funzione di probabilità di vittoria sotto il gioco aggressivo è stato fatto da Marcus Pendergrass utilizzando Maple. Laboratorio virtuale > Rosso e nero > 1 2 3 4 [5] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/redblack/redblack5.html [22/11/2001 17.58.22] Stima del modello di Bernoulli Laboratorio virtuale > Stima intervallare > 1 2 3 [4] 5 6 4.Stima del modello di Bernoulli Concetti preliminari Supponi che I1, I2, ..., In sia un campione casuale estratto da una distribuzione di Bernoulli con parametro ignoto p appartenente a (0, 1). Si tratta quindi di variabili casuali indipendenti che assumono valore 1 e 0, rispettivamente con probabilità p e 1 - p. Di solito, questo modello si presenta in una delle seguenti situazioni: 1. Abbiamo un evento d'interesse con probabilità ignota p nel contesto di un esperimento semplice. Replichiamo l'esperimento n volte e poniamo Ii = 1 se e solo se l'evento si è verificato nell'i-esima prova. 2. Abbiamo una popolazione di unità di tipo diverso; p è la proporzione (ignota) di unità di un particolare tipo. Estraiamo n unità dalla popolazione e poniamo Ii = 1 se e solo se l'i-esima unità è del tipo d'interesse. Se il campionamento è con reinserimento, queste variabili costituiscono un campione della distribuzione di Bernoulli. Se invece il campionamento avviene senza ripetizione, le varibili sono dipendenti, ma il modello di Bernoulli può essere comunque un'approssimazione. Per ulteriori dettagli su questi punti, vedi l'esperimento dell'urna. In questo paragrafo, costruiremo intervalli di confidenza per p. Una trattazione parallela dei test nel modello di Bernoulli si trova nel capitolo sul test di ipotesi. Intervalli di confidenza per p Ricorda che media e varianza della distribuzione di Bernoulli valgono E(I) = p, var(I) = p(1 - p). Nota che la media campionaria M è la proporzione di unità (calcolata sul campione) del tipo di interesse. Per il teorema limite cenrale, Z = (M - p) / [M(1 - M) / n]1/2 ha approssimativamente distribuzione normale standardizzata ed è quindi (approssimativamente) un elemento pivotale per p. 1. Usa la variabile pivot Z per mostrare che intervallo di confidenza al livello 1 - r e limite di confidenza inferiore e superiore per p sono: 1. [M - z1 - r/2 [M(1 - M) / n]1/2, M + z1 - r/2 [M(1 - M) / n]1/2]. 2. M + z1 - r [M(1 - M) / n]1/2. 3. M - z1 - r [M(1 - M) / n]1/2. La distribuzione di Z è prossima alla normale quando p è circa 1/2 e differisce dalla http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval4.html (1 di 3) [22/11/2001 17.58.29] Stima del modello di Bernoulli normale quando p è prossimo a 0 o 1 (cioè gli estremi). 2. Usa la simulazione dell'esperimento di stima della proporzione per impratichirti con questa procedura. Selexione diversi valori di p, livelli di confidenza, numerosità campionarie e tipi di intervallo. Per ciascuna configurazione, simula 1000 replicazioni aggiornando ogni 10. Osserva che l'intervallo di confidenza cattura con successo la deviazione standard se e solo se il valore della variabile pivot giace tra i quantili. Nota la dimensione e la posizione degli intervalli di confidenza e quanto bene la proporzione di intervalli "riusciti" approssima il livello di confidenza teorico. 3. Prova che la varianza della distribuzione di Bernoulli è massima per p = 1/2, per cui la varianza massima è 1/4. 4. Usa il risultato dell'esercizio precedente per mostrare che un intervallo di confidenza conservativo a livello 1 - r e limite di confidenza inferiore e superiore per p sono: 1. [M - z1 - r/2 / (2n1/2), M + z1 - r/2 / (2n1/2)]. 2. M + z1 - r / (2n1/2). 3. M - z1 - r / (2n1/2). Pertanto gli intervalli di confidenza conservativi sono più grandi di quelli che si ottengono utilizzando la prima procedura. La stima conservativa può essere utilizzata per il disegno dell'esperimento. 5. Supponiamo che p debba essere stimato con margine d'errore E e con confidenza 1 r. Mostra che una stima conservativa della dimensione campionaria è n = ceil[(z / 2E)2] dove z = z1 - r/2 per un intervallo bilaterale e z = z1 - r per un intervallo unilaterale. 6. Su un campione di 1000 votanti in un certo collegio, 427 preferiscono il candidato X. Costruisci l'intervallo di confidenza bilaterale al 95% per la proporzione degli elettori che preferiscono X. 7. Si lancia una moneta 500 volte e si ottengono 302 teste. Costruisci un intervallo di confidenza al 95% per la probabilità della testa. Credi che la moneta sia equilibrata? 8. Si testa un campione di 400 chip di memoria da una certa linea produttiva, e 30 risultano difettosi. Costruisci l'intervallo di confidenza bilaterale conservativo al 90% per la proporzione di chip difettosi. 9. Un'industria farmaceutica vuole stimare la proporzione di soggetti che manifesteranno effetti collaterali assumendo un nuovo farmaco. La società vuole un intervallo bilaterale con margine d'errore 0.03 e confidenza del 95%. Quanto dovrebbe essere grande il campione? 10. Un'agenzia pubblicitaria vuole trovare il limite di confidenza inferiore, al 99%, per http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval4.html (2 di 3) [22/11/2001 17.58.29] Stima del modello di Bernoulli la proporzione di dentisti che consigliano una certa marca di dentifricio. Il margine d'errore desiderato è 0.02. Quanto dev'essere grande il campione? Laboratorio virtuale > Stima intervallare > 1 2 3 [4] 5 6 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval4.html (3 di 3) [22/11/2001 17.58.29] Test per la varianza nel modello normale Laboratorio virtuale > Test di ipotesi > 1 2 [3] 4 5 6 7 3. Test per la varianza nel modello normale Concetti preliminari Supponiamo che X1, X2, ..., Xn sia un campione casuale della distribuzione normale con media µ e varianza d2. In questo paragrafo impareremo a costruire test di ipotesi per d. Gli strumenti fondamentali che utilizzeremo sono la media campionaria e la varianza campionaria, e le proprietà di queste statistiche nel caso della distribuzione normale. Questo paragrafo è parallelo a quello sulla Stima della varianza nel modello normale nel capitolo sulla stima intervallare. La media µ avrà il ruolo di parametro di disturbo, nel senso che le procedure di test sono diverse a seconda che µ sia noto oppure no. Assumeremo in primo luogo che la media µ sia nota, anche se questa assunzione è spesso poco realistica. In questo caso lo spazio parametrico è {d: d > 0} e le ipotesi su d definiscono sottinsiemi di questo spazio. Una statistica test naturale è V0 = (1 / d02) i = 1, ..., n (Xi - µ)2. Nota che W2 = d02 V0 / n è lo stimatore naturale della varianza quando µ è noto. 1. Mostra che, se d0 = d, V0 ha distribuzione chi-quadro con n gradi di libertà Consideriamo ora il caso più realistico in cui anche µ è ignoto. In questo caso, lo spazio parametrico sottostante è {(µ, d): µ appartiene a R, d > 0}, e tutte le ipotesi su d definiscono sottinsiemi di questo spazio. Una statistica test naturale è V0 = (1 / d02) i = 1, ..., n (Xi - M)2. 2 2 dove M = (1 / n) i = 1, ..., n Xi è la media campionaria. Nota che S = d0 V0 / (n - 1) è la varianza campionaria. 2. Mostra che, se d0 = d, V0 ha distribuzione chi-quadro con n - 1 gradi di libertà. Test di ipotesi I test di ipotesi per d funzionano nello stesso modo, sia µ noto oppure no; l'unica differenza sta nella definizione della statistica test V0 e nel numero dei gradi di libertà della distribuzione chi-quadro. Indicheremo con vk, p il quantile di ordine p della distribuzione chi-quadro con k gradi di libertà. Se µ è noto, avremo k = n; in caso http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/hypothesis3.html (1 di 5) [22/11/2001 17.58.37] Test per la varianza nel modello normale contrario k = n - 1. Per dati valori di k e p, vk, p può essere ottenuto dalla tavola della distribuzione chi-quadro. 3. Mostra che, per H0: d = d0 contro H1: d significatività r: d0, il seguente test ha livello di Rifiutare H0 se e solo se V0 > vk, 1 - r/2 o V0 < vk, r/2. 4. Prova che per H0: d significatività r: d0 contro H1: d > d0, il seguente test ha livello di Rifiutare H0 se e solo se V0 > vk, 1 - r. 5. Mostra che per H0: d significatività r: d0 versus H1: d < d0, il seguente test ha livello di Rifiutare H0 se e solo se V0 < vk, r. 6. Prova che, nei test degli esercizi 3, 4 e 5 non rifiutiamo H0 a livello di significatività a se e solo se la varianza test d02 giace nel corrispondente intervallo di confidenza a livello 1 - r. Ovviamente, il risultato dell'esercizio 6 è un caso particolare dell'equivalenza tra test di ipotesi e stima intervallare che abbiamo discusso nell'introduzione. Curve di potenza Ricorda che la funzione di potenza per un test su d è Q(d) = P(Rifiutare H0 | d). Per i test presentati sopra, possiamo calcolare esplicitamente le funzioni di potenza in termini della funzione di ripartizione Fk della distribuzione chi-quadro con k gradi di libertà. Di nuovo, k = n se µ è nota e k = n - 1 altrimenti. 7. Per il test H0: d = d0 contro H1: d risultati e traccia il grafico di Q: d0 al livello di significatività r, prova i seguenti 1. Q(d) = 1 - Fk[d02 vk, 1 - r/2 / d2] + Fk[d02 vk, r/2 / d2] 2. Q(d) è decrescente per d < d0 ed è crescente per d > d0. 3. Q(d0) = r. 4. Q(d) 1 per d 0+ e Q(d) 1 per d . 8. Per il test H0: d d0 contro H1: d > d0 al livello di significatività r, prova i seguenti risultati e traccia il grafico di Q: 1. Q(d) = 1 - Fk[d02 vk, 1 - a / d2] 2. Q(d) è crescente per d > 0. 3. Q(d0) = a. http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/hypothesis3.html (2 di 5) [22/11/2001 17.58.37] Test per la varianza nel modello normale 4. Q(d) 0 per d 0+ e Q(d) 1 per d . 9. Per il test H0: d d0 contro H1: d < d0 al livello di significatività r, prova i seguenti risultati e traccia il grafico di Q: 1. Q(d) = Fk[d02 vk, r / d2] 2. Q(d) è decrescente per d > 0. 3. Q(d0) = r. 4. Q(d) 1 as d 0+ e Q(d) 0 per d . 10. Prova che, in ciascun caso, il test per d è più potente quando µ è noto. Simulazioni 11. Nell'esperimento di test della varianza, seleziona la distribuzione normale a media 0, il test bidirezionale a livello di significatività 0.1, dimensione campionaria n = 10, e testa che la deviazione standard sia 1.0. 1. Per ogni valore vero della deviazione standard 0.7, 0.8, 0.9, 1.0, 1.1, 1.2, 1.3, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa dei rifiuti di H0. 2. Quando la deviazione standard vera è 1.0, confronta la frequenza relativa di rifiuto di H0 col livello di significatività. 3. Utilizzando le frequenze relative in (a), traccia la curva di potenza empirica. 12. Nell'esperimento di test della varianza, ripeti l'esercizio 11 col test sulla coda sinistra. 13. Nell'esperimento di test della varianza, ripeti l'esercizio 11 col test sulla coda destra. 14. Nell'esperimento di test della varianza, seleziona la distribuzione normale con µ = 0 e deviazione standard 2, intervallo di confidenza bidirezionale al livello 0.90, e dimensione campionaria n = 10. Simula 20 replicazioni, aggiornando ogni volta. Formula le ipotesi corrispondenti e il livello di significatività e per ogni replicazione riporta l'insieme di deviazioni standard test per cui l'ipotesi nulla sarebbe rifiutata. 15. Nell'esperimento di test della varianza, ripeti l'esercizio 14 col limite di confidenza inferiore. 16. Nell'esperimento di test della varianza, ripeti l'esercizio 14 col limite di confidenza superiore. Distribuzioni non normali Anche quando la distribuzione sottostante non è normale, le procedure esaminate in http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/hypothesis3.html (3 di 5) [22/11/2001 17.58.37] Test per la varianza nel modello normale questo paragrafo si possono utilizzare per sottoporre a test, approssimativamente, la varianza. Vedrai, nelle simulazioni che seguono, che questa procedura non è così robusta come quella relativa alla media. In ogni caso, se la distribuzione non è troppo difforme dalla normale, la procedura dà risultati soddisfacenti. 17. Nell'esperimento di test della varianza, seleziona la distribuzione gamma con parametro di forma 1 e parametro di scala 1 (la deviazione standard è quindi 1). Seleziona il test bidirezionale al livello di significatività 0.1 e con dimensione campionaria n = 10. 1. Per ciascun valore di deviazione standard test 0.7, 0.8, 0.9, 1.0, 1.1, 1.2, 1.3, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa dei rifiuti di H0. 2. Quando la deviazion standard test è 1.0, confronta la frequenza relativa di (a) col livello di significatività. 18. Nell'esperimento di test della varianza, ripeti l'esercizio 17 con dimensione campionaria n = 20. 19. Nell'esperimento di test della varianza, seleziona la distribuzione gamma con parametro di forma 4 e parametro di scala 1 (la deviazione standard è quindi 2). Seleziona il test bidirezionale al livello di significatività 0.1 e con dimensione campionaria n = 10. 1. Per ciascun valore di deviazione standard test 1.6, 1.8, 2.0, 2.2, 2.4, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa dei rifiuti di H0. 2. Quando la deviazion standard test è 2.0, confronta la frequenza relativa di (a) col livello di significatività. 20. Nell'esperimento di test della varianza, seleziona la distribuzione uniforme su (0, 4) (pertanto la deviazione standard vera è circa 1.15). Seleziona il test bidirezionale al livello di significatività 0.1 e con dimensione campionaria n = 10.. 1. Per ciascun valore di deviazione standard test 0.69, 0.92, 1.15, 1.39, 1.62, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa dei rifiuti di H0. 2. Quando la deviazion standard test è 1.15, confronta la frequenza relativa di (a) col livello di significatività. Esercizi numerici 21. Utilizzando i dati di Michelson, esegui un test per vedere se la deviazione standard delle misurazioni della velocità della luce è inferiore a 80 km/sec, al livello di significatività di 0.1 1. Assumendo che µ sia il "valore vero." 2. Assumendo che µ sia ignoto. 22. Utilizzando i dati di Cavendish, esegui un test per vedere se la deviazione standard delle misurazioni è maggiore di 0.2, al livello di significativtà di 0.05 http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/hypothesis3.html (4 di 5) [22/11/2001 17.58.37] Test per la varianza nel modello normale 1. Assumendo che µ sia il "valore vero." 2. Assumendo che µ sia ignoto. 23. Utilizzando i dati di Short, esegui un test per vedere se la deviazione standard delle misurazioni della parallasse differisce da 0.7 secondi di grado, al livello di significatività di 0.1. 1. Assumendo che µ sia il "valore vero." 2. Assumendo che µ sia ignoto. 24. Utilizzando i dati di Fisher sugli iris, esegui i seguenti test, al livello di significatività di 0.1: 1. La deviazione standard della lunghezza dei petali della Setosa è diversa da 2 mm. 2. La deviazione standard della lunghezza dei petali della Verginica è maggiore di 5 mm. 3. La deviazione standard della lunghezza dei petali della Versicolor è minore di 5.5 mm. Laboratorio virtuale > Test di ipotesi > 1 2 [3] 4 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/hypothesis3.html (5 di 5) [22/11/2001 17.58.37] Introduzione Laboratorio virtuale > Test di ipotesi > [1] 2 3 4 5 6 7 1. Introduzione Il modello statistico di base Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo spazio campionario e con misura di probabilità P. Nel modello statistico di base, abbiamo una variabile casuale osservabile X che assume valori in S. In generale, X può avere struttura complessa. Ad esempio, se l'esperimento consiste nell'estrarre n unità da una popolazione e registrare le varie misure di interesse, allora X = (X1, X2, ..., Xn) dove Xi è il vettore di misurazioni per l'i-esima unità. Il caso più importante si ha quando X1, X2, ..., Xn, sono indipendenti e identicamente distribuite. Si ha allora un campione casuale di dimensione n dalla distribuzione comune. Test di ipotesi generali Un'ipotesi statistica è un'asserzione sulla distribuzione della variabile X; equivalentemente, un'ipotesi statistica individua un insieme di possibili distribuzioni per X. L'obiettivo dei test di ipotesi è valutare se vi è sufficiente evidenza statistica per rifiutare un'ipotesi nulla in favore dell'ipotesi alternativa. L'ipotesi nulla si indica di solito con H0, mentre l'ipotesi alternativa con H1. Un'ipotesi che specifica una singola distribuzione per X si dice semplice; un'ipotesi che ne specifica più di una X si dice invece composta. Un test di ipotesi conduce a una decisione statistica; la conclusione potrà essere di rifiutare l'ipotesi nulla in favore di quella alternativa, o di non poter rifiutare l'ipotesi nulla. Ovviamente la decisione che prendiamo è basata sui dati di cui disponiamo X. Pertanto, dobbiamo trovare un sottinsieme R dello spazio campionario S e rifiutare H0 se e solo se X appartiene a R. L'insieme R è detto regione di rifiuto o regione critica. Usualmente, la regione critica è definita in funzione di una statistica W(X), detta statistica test. Errori La decisione che prendiamo può essere corretta o errata. Esistono due tipi di errore, a seconda di quale delle due ipotesi è vera: 1. Un errore di prima specie consiste nel rifiutare l'ipotesi nulla quando è vera. 2. Un errore di seconda specie consiste nel non rifiutare l'ipotesi nulla quando è falsa. Similmente, esistono due modi di prendere una decisione corretta: possiamo rifiutare l'ipotesi nulla quando è falsa o non rifiutare l'ipotesi nulla quando è vera. Le possibilità http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/hypothesis1.html (1 di 4) [22/11/2001 17.58.43] Introduzione sono riportate nella tabella seguente: Test di ipotesi Stato reale Non rifiuto H0 Decisione Rifiuto H0 H0 è vera Decisione corretta Errore di prima specie H0 è falsa Errore di seconda specie Decisione corretta Se H0 è vera (cioè la distribuzione di X è specificata da H0), allora P(X R) è la probabilità di un errore di prima specie per questa distribuzione. Se H0 è composta, allora H0 specifica una varietà di distribuzioni per X e pertanto esiste un insieme di probabilità di errori di prima specie. La massima probabilità di un errore di prima specie è detta livello di significatività del test o ampiezza della regione critica, che indicheremo con r. Di solito si costruisce la regione di rifiuto in modo che il livello di significatività sia un valore prefissato e piccolo (tipicamente 0.1, 0.05, 0.01). Se H1 è vera (cioè la distribuzione di X è specificata da H1), allora P(X Rc) è la probabilità di un errore di seconda specie per questa distribuzione. Di nuovo, se H1 è composta, allora H1 specifica una varietà di distribuzioni per X, ed esiste quindi un insieme di probabilità di errori di seconda specie. Esiste di solito un compromesso tra le probabilità di errori di prima e seconda specie. Se riduciamo la probabilità di un errore di prima specie, riducendo l'ampiezza della regione R incrementiamo necessariamente la probabilità di errore di seconda specie, poiché Rc è più grande. Potenza Se H1 è vera (cioè la distribuzione di X è specificata da H1), allora P(X R), la probabilità di rifutare H0 (e prendere quindi una decisione corretta), è detta potenza del test. Supponiamo di avere due test, a cui corrispondono rispettivamente le regioni di rifiuto R1 e R2, ciascuna con livello di significatività r. Il test con regione R1 è uniformemente più potente del test con regione R2 se P(X R1) P(X R2) per ogni distribuzione di X specificata da H1. Ovviamente, in questo caso, preferiremmo il primo test. Infine, se un test ha livello di significativtità r ed è uniformemente più potente di ogni altro test con livello di significativtà r, allora il test si dice uniformemente più potente al livello a. Un test del genere è il migliore di cui possiamo disporre. p-value Nella maggior parte dei casi si dispone di una procedura generale che ci consente di costruire un test (cioè una regione di rifiuto Rr) per ogni dato livello di significativtà r. Tipicamente, Rr decresce (nel senso della dimensione del sottinsieme) al crescere di a. In questo contesto, il p-value della variabile X, indicato come p(X) è definito come il più http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/hypothesis1.html (2 di 4) [22/11/2001 17.58.43] Introduzione piccolo r per cui X appartiene a Rr; cioè il minor livello di significatività per cui H0 sarebbe rifiutata dato X. Conoscere p(X) ci consente di testare H0 ad ogni livello di significatività, sulla base dei dati: se p(X) r, allora rifiuteremo H0 al livello di significatività r; se p(X) > r, non rifiuteremo H0 al livello di significatività r. Nota che p(X) è una statistica. Test su un parametro ignoto Il test di ipotesi è un concetto generale, ma un caso particolare importante si ha quando la distribuzione della variabile X dipende da un parametro a, che assume valori in uno Rk spazio parametrico A. Ricorda che, usualmente, a è un vettore di parametri reali A per un certo k. L'ipotesi, di solito, ha forma H0: a A0 contro H1: a A - A0 dove A0 è un sottinsieme di A. In questo caso, la probabilità di compiere un errore (o di prendere una decisione corretta) dipende dal valore vero di a. Se R è la regione di rifiuto, allora la funzione di potenza è Q(a) = P(X R | a) per a A. 1. Dimostra che 1. Q(a) è la probabilità di un errore di prima specie quando a 2. max{Q(a): a A0. A0} è il livello di significativtà del test. 2.Dimostra che 1. 1 - Q(a) è la probabilità di un errore di seconda specie quando a 2. Q(a) è la potenza del test quando a A - A0. A - A0. Supponiamo di avere due test, che corrispondono rispettivamente alle regioni di rifiuto R1 e R2, ciascuno con livello di significativtà r. Il test con regione R1 è uniformemente più potente del test con regione R2 se QR1(a) QR2(a) per a A - A0. La maggior parte dei test riguardanti un parametro reale ignoto a ricadono nei tre casi speciali: 1. H0: a = a0 contro H1: a a0. 2. H0 : a a0 contro H1: a < a0. 3. H0 : a a0 contro H1: a > a0. dove a0 è un valore dato. Il caso 1 è noto come test bidirezionale, il caso 2 come test unidirezionale sinistro e il caso 3 come test unidirezionale destro (sulla base http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/hypothesis1.html (3 di 4) [22/11/2001 17.58.43] Introduzione dell'alternativa). Possono esserci altri parametri ignoti oltre ad a (detti parametri di disturbo). Equivalenza tra test di ipotesi e stima intervallare Esiste un'equivalenza tra test di ipotesi e stima intervallare per un parametro a. 3. Supponi che [L(X), U(X)] sia un intervallo di confidenza al livello 1 - r per a. Mostra che il test sotto riportato ha livello di significatività r per l'ipotesi H0: a = a0 contro H1: a a0. Rifiutare H0 se e solo se a0 < L(X) o a0 > U(X). 4. Supponi che U(X) is a 1 - r sia un limite di confidenza superiore al livello a. Prova che il test sotto riportato ha livello di significatività r per l'ipotesi H0 : a a0 contro H1: a < a0. Rifiutare H0 se e solo se a0 > U(X). 5. Supponi che U(X) is a 1 - r sia un limite di confidenza inferiore al livello a. Prova che il test sotto riportato ha livello di significatività r per l'ipotesi H 0 : a a0 versus H1: a > a0. Rifiutare H0 if and only if a0 < L(X). Concludendo, non rifiutiamo H0 al livello di significativtà r se e solo se a0 giace nel corrispondente intervallo di confidenza al livello 1 - r. Laboratorio virtuale > Test di ipotesi > [1] 2 3 4 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/hypothesis/hypothesis1.html (4 di 4) [22/11/2001 17.58.43] Massima verosimiglianza Laboratorio virtuale > Stima puntuale > 1 2 [3] 4 5 6 3. Massima verosimiglianza Il metodo Supponiamo di nuovo di avere una variabile casuale osservabile X, per un certo esperimento, che assuma valori in un insieme S. Supponiamo inoltre che la distribuzione di X dipenda da un parametro ignoto a, suscettibile di assumere valori in uno spazio parametrico A. Più specificamente, indicheremo con f(x | a) la funzione di densità di X in x. In generale, sia X che a sono vettori. La funzione di verosimiglianza L è la funzione che si ottiene invertendo i ruoli di x e a; ovvero interpretando a come la variabile x come l'informazione nota (cioè il punto di vista della stima): L(a | x) = f(x | a) per a appartenente a A e x appartenente a S. Col metodo della massima verosimiglianza, si cerca un valore u(x) del parametro a che massimizzi L(a | x) per ogni x in S. Se riusciamo a trovare tale valore, u(X) è detto stimatore di massima verosimiglianza di a. Il metodo è intuitivamente seducente: cerchiamo di trovare i valori dei parametri che possono aver prodotto con la maggiore probabilità i dati osservati. Poiché la funzione logaritmo naturale ln è strettamente crescente, il valore massimo di L(a | x), se esiste, si ha allo stesso punto in cui è massima ln[L(a | x)]. Quest'ultima funzione è detta funzione di log-verosimiglianza e in molti casi è più semplice da trattare della funzione di verosmiglianza (di solito perché la densità f(x | a) include una produttoria). Casi particolari Un caso particolare importante si ha quando a = (a1, a2, ..., ak) è un vettore di k parametri reali, cosicché A Rk. In questo caso, il problema è massimizzare una funzione di più variabili. Se A è un insieme continuo, si possono utilizzare metodi di analisi: se il valore massimo è ad a (compreso in A), allora L(· | x) ha massimo locale ad a e quindi (d/dai)L(a | x) = 0 per i = 1, 2, ..., k. D'altro canto, il punto di massimo può trovarsi sul confine di A, oppure non esistere affatto. Consideriamo il prossimo caso, dove X = (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla distribuzione di X con funzione di densità g(x | a). Quindi la densità congiunta di X è il prodotto delle densità marginali, per cui la funzione di verosimiglianza, in questo caso, vale L(a | x) = f(x | a) = g(x1 | a)g(x2 | a)···g(xn | a) dove x = (x1, x2, ..., xn). http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point3.html (1 di 5) [22/11/2001 17.58.52] Massima verosimiglianza Nelle sezioni seguenti, studieremo la stima di massima verosimglianza in alcuni casi speciali classici. La distribuzione di Bernoulli Supponiamo di avere una moneta con probabilità di ottenere testa ignota p. La lanciamo n volte e registriamo la sequenza di teste e croci. Pertanto, il vettore dei dati (I1, I2, ..., In) è un campione casuale di dimensione n estratto dalla distribuzione di Bernoulli con probabilità di successo p. Sia Xn = I1 + I2 + ··· + In il numero di teste e Mn = Xn / n la proporzione di teste ottenute (la media campionaria). 1. Supponi che p sia compreso in (0, 1). Prova che lo stimatore di massima verosimiglianza di p è Mn. Ricorda Mn è anche lo stimatore ottenuto col metodo dei momenti per p. 2. Supponi che la moneta sia equilibrata oppure a due teste, cosicché p appartiene a {1/2, 1}. Mostra che lo stimatore di massima verosimiglianza di è quello riportato qui sotto p e interpreta il risultato: Un = 1 se Xn = n; Un = 1/2 se Xn < n. Gli esercizi 1 e 2 mostrano che lo stimatore di massima verosimiglianza di un parametro, esattamente come la soluzione a un qualunque problema di massimizzazione, dipende dal dominio. 3. Prova che 1. E(Un) = 1 se p = 1, E(Un) = 1/2 + (1/2)n + 1 se p = 1/2. 2. Un è distorto ma asintoticamente corretto. 4. Prova che 1. MSE(Un) = 0 se p = 1, MSE(Un) = (1/2)n + 2 se p = 1/2. 2. Un è consistente. 5. Prova che Un è uniformemente migliore di Mn sullo spazio parametrico {1/2, 1}. Altre distribuzioni semplici Nei seguenti esercizi, richiama che se (X1, X2, ..., Xn) è un campione casuale di una distribuzione con media µ e varianza d2, allora gli stimatori ottenuti col metodo dei mometi per µ e d2 valgono, rispettivamente, a. Mn = (1 / n) j = 1, ..., n Xj. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point3.html (2 di 5) [22/11/2001 17.58.52] Massima verosimiglianza b. Tn2 = (1 / n) j = 1, ..., n (Xj - Mn)2 Ovviamente, Mn è la media campionaria e Tn2 = (n - 1)Sn2 / n dove Sn2 è la varianza campionaria. 6. Supponi che (X1, X2, ..., Xn) sia un campione casuale estratto dalla distribuzione di Poisson con parametro ignoto a > 0. Prova che lo stimatore di massima verosimiglianza per a è Mn. 7. Supponi che (X1, X2, ..., Xn) sia un campione casuale di una distribuzione normale con media ignota µ appartenente a R e varianza d2 > 0. Mostra che gli stimatori di massima verosimiglianza di µ e d2 sono rispettivamente Mn e Tn2. 8. Supponi che (X1, X2, ..., Xn) sia un campione casuale di una distribuzione gamma con parametro di forma k noto e parametro di scala ignoto b > 0. Mostra che lo stimatore si massima verosimiglianza di b è Vn = Mn / k. 9. Replica la stima della distribuzione gamma 1000 volte, aggiornando ogni 10 , per diversi valori del parametro di forma k e del parametro di scala b. In ciascun caso, confronta lo stimatore ottenuto col metodo dei momenti Un con quello di massima verosimiglianza Vi. Quale stimatore dà risultati migliori in termini di errore quadratico medio? 10. Supponi che (X1, X2, ..., Xn) sia un campione casuale di una distribuzione beta con parametri a > 0 e b = 1. Mostra che lo stimatore di massima verosimiglianza per a è Vn = -n / j = 1, ..., n ln(Xj). 11. Replica la stima della distribuzione beta 1000 volte, aggiornando ogni 10, per diversi valori di a. In ciascun caso, confronta lo stimatore ottenuto col metodo dei momenti Un con quello di massima verosimiglianza Bn. Quale stimatore dà risultati migliori in termini di errore quadratico medio? 12. Supponi che (X1, X2, ..., Xn) sia un campione casuale estratto da una distribuzione di Pareto con parametro a > 0. Mostra che lo stimatore di massima verosimiglianza di a è Vn = n / j = 1, ..., n ln(Xj). La distribuzione uniforme su [0, a] In questa sezione studieremo uno problema di stima che è fonte di utili riflessioni. In un certo senso, il problema è l'analogo continuo del problema studiato nel paragrafo sulle statistiche d'ordine nel capitolo sui modelli di campionamento finito. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point3.html (3 di 5) [22/11/2001 17.58.52] Massima verosimiglianza Supponi che (X1, X2, ..., Pn) sia un campione casuale dalla distribuzione uniforme sull'intervallo [0, a], dove a > 0 è un parametro ignoto. 13. Mostra che lo stimatore di a ricavato col metodo dei momenti è Un = 2Mn. 14. Prova che Un è corretto. 15. Prova che var(Un) = a2 / 3n, per cui Un è consistente. 16. Prova che lo stimatore di massima verosimiglianza di a è X(n), ovvero l'n-esima statistica d'ordine. 17. Prova che E[X(n)] = na / (n + 1), so Vn = (n + 1)X(n) / n è corretto. 18. Dimostra che var[Vn] = a2 / [n(n + 2)], so Vn è consistente. 19. Dimostra che l'efficienza relativa asintotica di Vn to Un è infinita. L'ultimo esercizio dimostra che Vn è uno stimatore migliore di Un; uno stimatore come Vn, il cui errore quadratico medio decresce con velocità 1 / n2, è detto super efficiente. Ora che abbiamo trovato un ottimo stimatore, vogliamo vedere di trovarne uno pessimo. Un candidato naturale è quello basato su X(1), la prima statistica d'ordine. 20. Dimostra che X(1) è distribuito come a - X(n). 21. Prova che E[X(1)] = a / (n + 1), per cui Wn = (n + 1)X(1) è corretto. 22. Dimostra che var[Wn] = na2 / (n + 2), so Wn non è consistente. 23. Replica la stima della distribuzione uniforme 1000 volte, aggiornando ogni 10 runs, per valori diversi di a. In ciascun caso, confronta la distorsione empirica e l'errore quadratico medio degli stimatori coi lorj valori teorici. Ordina le statistiche in base al loro errore quadratico medio empirico. La proprietà di invarianza Ritornando al caso generale, supponiamo che h sia una funzione biunivoca dallo spazio parametrico A su un insieme B. Possiamo interpretare b = h(a) come nuovi parametri a valori nello spazio B, ed è semplice riparametrizzare la funzione di densità congiunta utilizzando il nuovo parametro. Sia perciò f1(x | b) = f[x | h-1(b)] per x appartenente a S, b appartenente a B. La funzione di verosimiglianza corrispondente è L1(b | x) = L[h-1(b) | x] per b appartenente a B e x appartenfnte a S. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point3.html (4 di 5) [22/11/2001 17.58.52] Massima verosimiglianza 24. Supponiamo che u(x) appartenente a A massimizzi L(· | x) per ogni x appartenente a S. Dimostra che h[u(x)] appartenente a B massimizzi L1(· | x) per ogni x appartenente a S. Segue dall'esercizio 17 che se U è uno stimatore di massima verosimiglianza di a, allora V = h(U) è uno stimatore di massima verosimiglianza per b = h(a). Questo risultato è noto come proprietà d'invarianza. 25. Supponi che (X1, X2, ..., Xn) sia un campione casuale estratto da una distribuzione di Poisson con media µ, e sia p = P(Xi = 0) = e-µ. Trova lo stimatore di massima verositiglianza di p in due modi: 1. Direttamente, trovando la funzione di verosimiglianza che corrisponde al parametro p. 2. Utilizzando il risultato dell'esercizio 2 e la proprietà di invarianza. Se la funzione h non è biunivoca, il problema di massimizzazione relativamente al nuovo vettore b = h(a) non è ben definito, poiché non si può parametrizzare la funzione di densità congiunta jn termini di b. Esiste comunque una generalizzazione del problema per questi casi. Definiamo L1(b | x) = max{L[a | x]: a appartenente a A, h(a) = b} per b appartenente a B e x appartenente a S. 26. Supponiamo di nuovo che u(x) appartenente a A massimizzi L(· | x) per ogni x appartenente a S. Dimostra che h[u(x)] appartenente a B massimizza L1(· | x) per ogni x appartenente a S. Il risultato di questo esercizio estende la proprietà di invarianza a trasformazioni iniettive del parametro: se U è uno stimatore di massima verosimiglianza per a, allora V = h(U) è uno stimatore di massima verosimiglianza per b = h(a). 27. Supponiamo che (I1, I2, ..., In) sia un campione casuale di dimensione n estratto da una distribuzione di Bernoulli con probabilità di successo ignota p, compresa in (0, 1). Trova lo stimatore di massima verosimiglianza di p(1 - p), ovvero la varianza della distribuzione. 28. Supponi che (X1, X2, ..., Xn) sia un campione casuale di una distribuzione normale con media ignota e reale µ e varianza d2 > 0. Trova lo stimatore di massima verosimiglianza di µ2 + d2. Laboratorio virtuale > Stima puntuale > 1 2 [3] 4 5 6 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point3.html (5 di 5) [22/11/2001 17.58.52] Introduzione Laboratorio virtuale > Random Walk > [1] 2 3 4 1. Introduzione Random Walk generalizzato Supponiamo che X1, X2, ... siano variabili casuali a valori reali, indipendenti e identicamente distribuite, con funzione di densità f, media µ e varianza d2. La somma parziale n-esima è la variabile casuale Yn = X1 + X2 + ··· + Xn. Il processo stocastico Y0, Y1, Y2 ... è detto random walk (passeggiata aleatoria). Tale termine deriva dal fatto che possiamo pensare gli Yn come posizioni al tempo n di un passeggiatore che fa passi casuali successivi X1, X2, .... Il grafico dei valori di Yn in funzione di n è detto sentiero del random walk. Le variabili indipendenti e identicamente distribuite e le loro somme parziali sono state analizzate in molti altri capitoli di questo progetto. I seguenti fatti sono alcuni tra i più importanti che dovresti riguardare: ● In termini statistici, X1, X2, ..., Xn è un campione casuale di dimensione n dalla distribuzione sottostante. ● La funzione di densità di Yn è f*n, la convoluzione n-upla di f. ● La media di Yn è E(Yn) = nµ. ● La varianza di Yn è var(Yn) = nd2. ● La media campionaria Yn / n converge a µ per n la legge dei grandi numeri. ● La distribuzione di (Yn - nµ) / n1/2 d converge alla distribuzione normale standardizzata per n con probabilità 1. Questa è . Questo è il teorema del limite centrale. 1. Mostra che Xi = Yi - Yi - 1 per i = 1, 2, .... Pertanto il processo X1, X2, ... e il processo Y0, Y1, Y2 ... contengono la stessa informazione, ma in maniere diverse. Siamo particolarmente interessati a un caso particolare: Random Walk semplice Supponiamo che, per ogni i, Xi assuma valori 1 e -1 con probabilità, rispettivamente, p e 1 - p. In questo caso Y0, Y1, Y2... è detto random walk semplice con parametro p. Per ciascun passo, il passeggiatore si muove o di un'unità a destra (con probabilità p) o di un'unità a sinistra (con probabilità 1 - p). Il passeggiatore, ad esempio, può scegliere la direzione lanciando una moneta con probabilità di testa p ad ogni passo. http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/walk1.html (1 di 3) [22/11/2001 17.58.57] Introduzione 2. Prova che, per ogni i, 1. E(Xi) = 2p - 1. 2. var(Xi) = 4p(1 - p). 3. Sia Ij = (Xj + 1) / 2 per ogni j. 1. Prova che Ij = 1 se Xj = 1 e Ij = 0 se Xj = -1. 2. I1, I2, ... è una sequenza di prove Bernoulliane. In termini del passeggiatore, Ij è la variabile indicatore dell'evento in cui l'i-esimo passo è a destra. 4. Sia Zn = I1 + I2 + ··· + In. 1. Mostra che Yn = 2Zn - n per ogni n. 2. Mostra che Zn ha distribuzione binomiale con parametri n e p. In termini del passeggiatore, Zn è il numero di passi a destra nei primi n passi. 5. Usa i risultati degli esercizi precedenti per mostrare che 1. P(Yn = k) = C[n, (n + k) / 2]p(n + k)/2(1 - p)(n - k)/2 per k = -n, -n + 2, ..., n -2, n. 2. E(Yn) = n(2p - 1). 3. var(Yn) = 4np(1 - p). 6. Calcola esplicitamente funzione di densità, media e varianza di Y5. 7. Si lancia dieci volte una moneta con probabilità di testa p = 3/4. Trova la probabilità che ci siano almeno 4 teste in più rispetto alle croci. Random Walk semplice simmetrico Consideriamo di nuovo il contesto descritto in precedenza, ma supponiamo che p = 1/2. In questo caso, Y0, Y1, Y2 ... è detto random walk semplice simmetrico. Il random walk simmetrico può essere analizzato utilizzando alcuni risultati del calcolo combinatorio, come faremo poco più avanti. 8. Mostra che il vettore aleatorio Xn = (X1, X2, ..., Xn) è distribuito uniformemente su S = {-1, 1}n. Pertanto, P(Xn A) = #(A) / 2n per A {-1, 1}n. 9. Prova che 1. P(Yn = k) = C[n, (n + k) / 2] / 2n per k = -n, -n + 2, ..., n - 2, n. 2. E(Yn) = 0. http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/walk1.html (2 di 3) [22/11/2001 17.58.57] Introduzione 3. var(Yn) = n. 10. Nell'applet random walk, seleziona la variabile ultimo valore. Modifica il numero di passi e osserva forma e posizione della funzione di densità e della barra media/deviazione standard. Poni il numero di passi a 30 e simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza delle densità e dei momenti empirici ai loro valori teorici. 11. Nell'applet random walk, seleziona la variabile ultimo valore e poni il numero di passi a 50. Simula 1000 replicazioni, aggiornando ogni 10 e calcola e confronta le seguenti quantità: 1. P(-5 Y50 10) 2. La frequenza relativa dell'evento {-5 3. L'approssimazione normale a P(-5 Y50 Y50 10} 10) Laboratorio virtuale > Random Walk > [1] 2 3 4 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/walk1.html (3 di 3) [22/11/2001 17.58.57] Posizione massima Laboratorio virtuale > Random Walk > 1 [2] 3 4 2. Posizione massima Consideriamo un random walk semplice simmetrico Yn = X1 + X2 + ··· + Xn, n = 0, 1, ... dove le X1, X2, ... sono indipendenti e con P(Xi = 1) = 1/2, P(Xi = -1) = 1/2. In questo paragrafo studieremo Mn = max{Y0, Y1, ..., Yn}, la posizione massima raggiunta nei primi n passi. Notiamo che Mn assume valori da 0 a n. La distribuzione di Mn può essere ricavata da un'idea semplice e affascinante detta principio di riflessione. 1. Mostra che Mn m se e solo se Yi = m per qualche i n. 2. Mostra che, per ogni sentiero che soddisfa Mn m e Yn = k m, esiste un altro sentiero che soddisfa Yn = 2m - k. Suggerimento: Il secondo sentiero si ottiene dal primo riflettendolo sulla linea y = m, dopo che il primo sentiero raggiunge m. 3. Usa i risultati degli esercizi 1 e 2 e il fatto che i sentieri sono equiprobabili per mostrare che P(Mn m, Yn = k) = P(Yn = 2m - k) per k m n. 4. Usa il risultato dell'esercizio 3 per mostrare che P(Mn = m, Yn = k) = P(Yn = 2m - k) - P[Yn = 2(m + 1) - k]. 5. Usa il risultato dell'esercizio 4 per mostrare che 1. P(Mn = m) = P(Yn = m) = C[n, (m + n) / 2] / 2n, se m e n hanno la stessa parità (entrambi pari o entrambi dispari). 2. P(Mn = m) = P(Yn = m + 1) = C[n, (m + n + 1) / 2] / 2n, se m e n hanno parità opposta (uno pari e uno dispari). 6. Nella simulazione del random walk, seleziona la variabile posizione massima. Modifica il numero di passi e osserva forma e posizione della funzione di densità e della barra media/deviazione standard. Poni il numero di passi a 30 e simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza delle densità e dei momenti empirici ai loro valori teorici. 7. Mostra che, per ogni n, la funzione di densità di Mn è decrescente. Il risultato dell'esercizio 7 è piuttosto sorprendente; in particolare, il valore singolo più probabile per il massimo è 0! http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/walk2.html (1 di 2) [22/11/2001 17.59.01] Posizione massima 8. Calcola esplicitamete funzione di densità, media e deviazione standard di M5. 9. Si lancio 10 volte una moneta equilibrata. Trova la probabilità che la differenza tra il numero di teste e il numero di croci non sia mai maggiore di 4. Laboratorio virtuale > Random Walk > 1 [2] 3 4 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/walk2.html (2 di 2) [22/11/2001 17.59.01] Ultimo passaggio da 0 Laboratorio virtuale > Random Walk > 1 2 [3] 4 3. Ultimo passaggio da 0 Consideriamo ancora un random walk semplice simmetrico Yn = X1 + X2 + ··· + Xn, n = 0, 1, ... dove le X1, X2, ... sono indipendenti e con P(Xi = 1) = 1/2, P(Xi = -1) = 1/2. In questo paragrafo analizzeremo l'ultimo passaggio da 0 nei primi 2n passi: L2n = max{ j {0, 2, ..., 2n}: Yj = 0}. Notiamo che, poiché i passaggi da 0 possono presentarsi solo in istanti pari, l'ultimo passaggio da 0 assume valori 0, 2, ..., 2n. Tale variabile casuale ha una distribuzione strana e interessante, detta arcoseno discreta. Vedremo in seguito alcuni altri risultati interessanti. 1. Prova che P(L2n = 9k) = P(Y6k = 3, Y2k + 4 0, ..., Y2n 0}. 2. Usa l'indipendenza, la simmetria e il risultato dell'esercizio 1 per mostrare che P(L2n = 4k) = P(Y2k = 0)P(Y1 0, ..., Y2n - 2k 0}. Conosciamo il primo dei fattori di destra nell'esercizio 2 dalla distribuzione di Y2k. Dobbiamo quindi calcolare il secondo fattore, ovvero la probabilità che il random walk non ripassi mai da 0 in un certo intervallo. 3. Usa i risultati per la posizione massima per mostrare che P(Y1 0, Y2 0, ..., Y2j 0) = P(M2j = 0) = C(2j, j) / 22j. 4. Usa la simmetria (cioè il principio di riflessione su u = 0!), per provare che P(Y1 0, Y2 0, ..., Y2n 0) = C(2n, n) / 22n. 5. Prova che Y1 > 0, Y2 > 0, ..., Y2j > 0 se e solo se Y1 = 1, Y2 1, ..., Y2j 1. 6. Usa il risultato dell'esercizio 5, l'indipendenza e la simmetria per provare che P(Y1 > 0, Y2 > 0, ..., Y2j > 0) = P(Y1 = 1)P(Y1 0, ..., Y2j - 1 http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/walk3.html (1 di 2) [22/11/2001 17.59.04] 0). Ultimo passaggio da 0 7. Prova che Y2j - 1 0 implica Y2j 0. 8. Usa i risultati degli esercizi 4, 6 e 7 per mostrare che P(Y1 > 0, Y2 > 0, ..., Y2j > 0) = C(2j, j) / 22j + 1. 9. Usa il risultato dell'esercizio 8 e la simmetria per provare che P(Y1 0, Y2 0..., Y2j 0} = C(2j, j) / 22j. 10. Usa i risultati degli esercizi 2 e 9 per mostrare che la funzione di densità di L2n è P(L2n= 2k) = C(2k, k)C(2n - 2k, n - k) / 22n, k = 0, 1, ..., n. 11. Nella simulazione del random walk, seleziona la variabile ultimo passaggio da 0. Modifica il numero di passi e osserva forma e posizione della funzione di densità e della barra media/deviazione standard. Poni il numero di passi a 30 e simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza delle densità e dei momenti empirici ai loro valori teorici. 12. Dimostra che 1. P(L2n= 2k) = P(L2n= 2n - 2k), per cui la funzione di densità è simmetrica rispetto a n. 2. P(L2n= 2j) > P(L2n= 2k) if 2j < 2k n, per cui la funzione di densità ha forma a u. In particolare, 0 e 2n sono i valori più probabili. La distribuzione arcoseno è piuttosto sorprendente. Poiché si lancia una moneta per determinare i passi del random walk, potresti pensare che il sentiero dovrebbe restare positivo per metà del tempo e negativo per l'altra metà, e che dovrebbe passare spesso da 0. Ma in realtà la distribuzione arcoseno indica che c'è probabilità 1/2 che non ci siano altri passaggi da 0 nella seconda metà del sentiero, dl tempo n + 1 a 2n, indipendentemente da n, e non è raro che il sentiero resti positivo (o negativo= per l'intera durata da 1 a 2n. 13. Calcola esplicitamente funzione di densità, media e varianza di L10. Laboratorio virtuale > Random Walk > 1 2 [3] 4 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/walk3.html (2 di 2) [22/11/2001 17.59.04] Il problema del ballottaggio Laboratorio virtuale > Random Walk > 1 2 3 [4] 4. Il problema del ballottaggio Supponiamo che, durante delle elezioni, il candidato A riceva a e il candidato B ne riceva b, con a > b. Assumendo che gli elettori siano ordinati in modo casuale, qual è la probabilità che A sia sempre avanti a B nel conteggio dei voti? Questo famoso problema è detto problema del ballottaggio e fu risolto da Joseph Louis Bertrand nel 1887. Il problema del ballottaggio è legato fortemente ai random walk semplici. 1. Commenta la validità dell'assunzione che i votanti siano ordinati in modo casuale nel caso di elezioni reali. La relazione ricorsiva Il problema del ballottaggio può essere risolto utilizzando un semplice risultato di probabilità condizionata per ottenere una relazione ricursiva. Sia Pa,b la probabilità che A sia sempre avanti a B nel conteggio dei voti. 2. Condiziona al candidato che riceve l'utlimo voto per mostrare che Pa,b = [a / (a + b)]Pa - 1,b + [b / (a + b)]Pa,b - 1 . 3. Usa la condizione iniziale P1,0 = 1 e l'induzione sul numero di voti n = a + b per mostrare che Pa,b = (a - b) / (a + b). 4. Nell'esperimento del ballottaggio, modifica i parametri a e b e osserva come variano le probabilità. Con a = 10 e b = 5, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della frequenza empirica alla probabilità. 5. Nell'elezione a sindaco di una cittadina, il signor Fabbri ha ricevuto 4352 voti, mentre il signor Rossi ne ha ricevuti 7543. Calcola la probabilità che Rossi sia sempre avanti a Fabbri nel conteggio dei voti. Relazione col random walk Consideriamo ora il random walk semplice Yn = X1 + X2 + ··· + Xn, n = 0, 1, 2, ... dove X1, X2, ... sono indipendenti con P(Xi = 1) = p, P(Xi = -1) = 1 - p. Nella formulazione consueta, Xi è l'esito dell'i-esimo passo: 1 per un passo a destra e -1 per un passo a sinistra. 4. Dato Yn = k, Prova che http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/walk4.html (1 di 2) [22/11/2001 17.59.09] Il problema del ballottaggio 1. Si hanno (n + k) / 2 passi a destra e (n - k) / 2 passi a sinistra. 2. Tutti i possibili ordinamenti di passi a destra e a sinistra sono equiprobabili. 5. Usa il risultato dell'esercizio precedente e le probabilità del ballottaggio per provare che, per k > 0, P(Y1 > 0, Y2 > 0, ..., Yn - 1 > 0 | Yn = k) = k / n. 6. Nell'esperimento del ballottaggio, modifica i parametri a e b e osserva come variano le probabilità. Con a = 10 e b = 8, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della frequenza empirica alla probabilità. 7. La roulette americana ha 38 caselle: 18 rosse, 18 nere e 2 verdi. Marco punta 1 euro sul rosso (alla pari) 50 volte, vincendo 22 volte e perdendo 28 volte. Trova la probabilità che la ricchezza netta di Marco sia stata sempre negativa. La distribuzione del primo passaggio da 0 Consideriamo di nuovo un random walk semplice con parametro p. Sia T il tempo in cui avviene il primo passaggio da 0: T = min{n > 0: Yn = 0}. Notiamo che i passaggi da 0 si possono verificare solo a istanti di tempo pari, per cui i valori possibili di T sono 2, 4, ...; può anche darsi che T sia infinito con probabilità positiva. 8. Prova che P(T = 2n) = P(T = 2n, Y2n = 0) = P(T = 2n | Y2n = 0)P(Y2n = 0). 9. Usa il risultato del problema del ballottaggio per mostrare che P(T = 2n | Y2n = 0) = Pn,n-1 = 1 / (2n - 1). 10. Usa i risultati degli esercizi 7 e 8 per provare che P(T = 2n) = C(2n, n) pn (1 - p)n / (2n - 1) per n = 1, 2, ... 11. Marco e Federico lanciano una moneta equilibrata; Marco fa un punto per ogni testa e Federico fa un punto per ogni croce. Trova la probabilità che i loro punteggi siano uguali per la prima volta a 2, 4, 6, 8 e 10 lanci. Laboratorio virtuale > Random Walk > 1 2 3 [4] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/walk/walk4.html (2 di 2) [22/11/2001 17.59.09] Il processo dell'incendio Laboratorio virtuale > Sistemi di particelle interagenti > [1] 2 3 1. Il processo dell'incendio Modellazione In questo paragrafo analizzeremo la diffusione di un incendio all'interno di una foresta. Come vedrai, faremo molte assunzioni semplificatrici ma anche così il processo risultante, detto processo dell'incendio, è estremamente complicato. Questo è un esempio di sistema di particelle interagenti (a volte detto anche automa cellulare probabilistico). In generale i sistemi di particelle interagenti sono configurazioni spaziali di particelle (alberi, in questo caso), i cui stati cambiano in modo probabilistico, in modo che lo stato di una particella influenzi lo stato di quelle ad essa prossime. In generale si ipotizzano semplici interazioni locali, e tuttavia il comportamento globale del sistema è molto complesso. A causa di questa complessità, si è in genere interessati al comportamento asintotico (cioè di lungo termine) del processo. Consideriamo una foresta idealizzata formata da una matrice rettangolare di alberi. Ciò significa che ogni punto (i,j) della matrice corrisponde a un albero. Ciascun albero (a parte quelli sui bordi della matrice) ha quattro vicini. I vicini di (i,j) sono (i + 1, j), (i - 1, j), (i, j + 1) e (i, j - 1). In ogni istante di tempo, ciascun albero può trovarsi in tre stati diversi: sano, in fiamme o bruciato. Il tempo è considerato discreto è l'andamento del processo è regolato dalle seguenti leggi: ● Una volta bruciato un albero resta tale. ● Se un albero è sano al tempo t e si trova direttamente sopra, sotto, a sinistra o a destra di un albero in fiamme al tempo t, prenderà fuoco al tempo t + 1 indipendentemente, con rispettive probabilità pu, pd, pr, e pl. ● Gli alberi sani al tempo t prendono fuoco al tempo t + 1 indipendentemente l'uno dall'altro. 1. Mostra che, per esempio, se un albero sano si trova sopra e a destra di alberi che sono in fiamme al tempo t (ma gli altri due vicini sono sani), allora prenderà fuoco al tempo t + 1 con probabilità pu + pr - pupr. Le probabilità diverse a seconda della direzione servono per modellare effetti come il vento o il terreno. 2. Le assunzioni semplificatrici principali sono la matrice perfetta di alberi, il tempo discreto, e il fatto che le fiamme si propaghino solo tra vicini. Discuti la validità di tali assunzioni nel caso di un incendio di una foresta reale. http://www.ds.unifi.it/~stefanin/VL/VL_IT/particles/particles1.html (1 di 3) [22/11/2001 17.59.14] Il processo dell'incendio 3. Nell'esperimento dell'incendio, seleziona la foresta 100 per 50 e dai fuoco a un albero nel centro. Esegui la simulazione e osserva se le fiamme si propagano, la forma della regione bruciata e il numero e la dimensione delle isole di alberi sani. Ripeti l'esperimento con diverse probabilità di diffusione dell'incendio. Riesci a trarre delle conclusioni generali? Foresta isotropica Supponiamo ora di avere una foresta infinita con un singolo tipo di alberi sani, per i quali le probabilità delle diverse direzioni sono le stesse, pu = pd = pr = pl = p. In questo caso si parla di foresta isotropica. Ci sono alcuni risultati teorici noti relativamente alle foreste isotropiche: 1. Il valore critico di p è 1 / 2. Ciò significa che, partendo da un insieme numerabile di alberi in fiamme, l'incendio si spegnerà con probabilità 1 se p < 1 / 2. D'altra parte, partendo con almeno un albero in fiamme, c'è una probabilità positiva che l'incendio non si spenga se p > 1 / 2. 2. Inoltre, se l'incendio non si spegne, partendo con un signolo albero in fiamme, l'insieme di alberi bruciati ha forma asintotica a palla se p è prossimo a 1 / 2 e a rombo se p è vicino a 1. Il fatto che la forma asintotica sia a rombo per p elevato è dovuto alla struttura di prossimità della matrice (pensa a cosa succede per p = 1). 4. Nell'esperimento dell'incendio, seleziona la foresta 500 per 250 e dai fuoco a un albero nel centro. Esegui la simulazione con probabilità costante p = 0.45 finché l'incendio non si spegne o raggiunge i limiti della foresta. Ripeti per p = 0.5, p = 0.6, p = 0.7, p = 0.8 e p = 0.9. In ciascun caso, osserva frequenza e dimensione delle isole di alberi sani. Osserva la forma asintotica della regione bruciata. Disegna il numero di alberi in fiamme in funzione di t. I risultati sul comportamento critico e sulla forma asintotica sono tipici di tutti i sistemi di particelle interagenti. Un modello di incendio unidimensionale 5. Nell'esperimento dell'incendio, seleziona la foresta 100 per 50. Poni pu = pd = 0 e dai fuoco a un albero. Esegui la simulazione con diversi valori delle probabilità di sinistra e di destra. Puoi formulare delle conclusioni generali? Osserva che in questo caso hai di fatto una foresta unidimensionale. Consideriamo ora una foresta ininita e unidimensionale, con un singolo tipo di albero sano e un singolo albero in fiamme all'inizio. Sia L il numero di alberi a sinistra di quello iniziale che bruceranno e R il numero di alberi a destra di quello iniziale che bruceranno (l'albero inziale è compreso). http://www.ds.unifi.it/~stefanin/VL/VL_IT/particles/particles1.html (2 di 3) [22/11/2001 17.59.14] Il processo dell'incendio 6. Prova che R e L sono variabili casuali indipendenti e con distribuzione geometrica con parametri rispettivamente pr e 1 - pl. Se pl < 1, allora per l'esercizio 2, P(L = k) = (1 - pl)plk - 1 per k = 1, 2, ... e in particolare, L è finito con probabilità 1. Similmente, se pr < 1 allora P(R = k) = (1 - pr)prk - 1 per k = 1, 2, ... e in particolare, R è finito con probabilità 1. Ovviamente, d'altro canto, L è infinito con probabilità 1 se pl =1, e R è infinito con probabilità 1 se pr = 1. In ciascuno di questi casi l'incendio non si spegne mai. I risultati per la foresta unidimensionale sono quindi analoghi a quelli per la foresta bidimensionale: il valore critico per ciascun parametro è 1, e la forma della regione bruciata è sempre un intervallo. Altri esperimenti 7. Considera una foresta con pd = pl = 0, pu = pr = p. Nell'esperimento dell'incendio, seleziona la foresta 500 per 250 e dai fuoco a un albero nel centro. Simula per vari valori di p, e prova a determinare euristicamente il valore critico approssimato per p. Che puoi dire sulla forma asintotica? 8. Considera una foresta con pd = 0, pu = pl = pr = p. Nell'esperimento dell'incendio, seleziona la foresta 500 per 250 e dai fuoco a un albero nel centro. Simula per vari valori di p, e prova a determinare euristicamente il valore critico approssimato per p. Che puoi dire sulla forma asintotica? 9. Considera una foresta con pl = 0, pr = 1, pd = p, pu = 0. Quindi l'incendio si propaga sicuramente a destra e può propagarsi verso il basso, ma non a sinistra né verso l'alto. Nell'esperimento dell'incendio, seleziona la foresta 500 per 250 e dai fuoco a un albero in alto a sinistra. Simula qualche replicazione e prova a descrivere la parte superiore della regione bruciata in termini del processo di prove Bernoulliane. Laboratorio virtuale > Sistemi di particelle interagenti > [1] 2 3 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/particles/particles1.html (3 di 3) [22/11/2001 17.59.14] Il processo degli elettori Laboratorio virtuale > Sistemi di particelle interagenti > 1 [2] 3 2. Il processo degli elettori Modellazione Introduciamo un insieme di posizioni, dette elettori, messe in una matrice rettangolare m per n: V = {0, 1, ..., m - 1} × {0, 1, ..., n - 1}. Ciascun elemento di V ha quattro vicini; i vicini di (i, j) sono (i + 1, j), (i - 1, j), (i, j + 1), (i, j - 1) dove le operazioni aritmetiche nella prima coordinata sono interpretate modulo m: (m - 1) + 1 = 0, 0 - 1 = m - 1 e quelle della seconda modulo n: (n - 1) + 1 = 0, 0 - 1 = n - 1. Con questa struttura, il nostro insieme di posizioni è, dal punto di vista topologico, un toro, ovvero una superficie a forma di ciambella. Puoi immaginare di costruire un toro partendo da un rettangolo, collegando due lati opposti a formare un cilindro e poi attaccando tra loro le basi del cilindro. Ciascuna posizione, in ciascun istante di tempo, dev'essere in uno stato appartenente a un insieme finito S. Gli elementi dello spazio degli stati S possono essere interpretati come opinioni possibili di un gruppo di elettori, ma anche come colori. Il tempo è discreto, e la dinamica del processo è la seguente: per ciascuna unità di tempo, 1. Si seleziona a caso una posizione (ciascuna ha uguale probabilità di essere selezionata). 2. Si seleziona a caso una posizione vicina alla precedente (ciascuna delle 4 ha uguale probabilità di essere selezionata). 3. Lo stato (colore) della posizione selezionata viene posto uguale a quello del vicino selezionato. Inizialmente a ciascuna posizione, indipendentemente dalle altre, viene assegnato uno stato selezionato casualmente; si ha quindi una configurazione iniziale casuale uniforme. 1. Esegui il processo degli elettori 5 per 10 per 100 unità di tempo, aggiornando ogni volta. Assicurati di aver capito il funzionamento del processo. Siamo interessati principalmente al comportamento asintotico del processo. In particolare, si raggiungerà prima o poi la concordanza (tutte le posizioni dello stesso colore) o il processo continuerà all'infinito con più di due colori? 2. Esegui il processo degli elettori 10000 volte, aggiornando ogni 100. Osserva il comportamento asintotico. Il risultato teorico più rilevante è che il processo è destinato a raggiungere, prima o poi, la http://www.ds.unifi.it/~stefanin/VL/VL_IT/particles/particles2.html (1 di 2) [22/11/2001 17.59.17] Il processo degli elettori concordanza, cioè tutte le posizioni diventeranno dello stesso colore. 3. Nel processo degli elettori, seleziona la matrice 10 per 5 e fai fermare il processo quando uno dei colori scompare. Continua finché tutte le posizioni sono dello stesso colore. Registra ogni volta che un colore scompare. 4. Nel processo degli elettori, seleziona la matrice 20 per 10 e fai fermare il processo quando uno dei colori scompare. Continua finché tutte le posizioni sono dello stesso colore. Registra ogni volta che un colore scompare. 4. Nel processo degli elettori, seleziona la matrice 50 per 25 e fai fermare il processo quando uno dei colori scompare. Continua finché tutte le posizioni sono dello stesso colore. Registra ogni volta che un colore scompare (ti ci vorrà un bel po' di tempo!). Laboratorio virtuale > Sistemi di particelle interagenti > 1 [2] 3 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/particles/particles2.html (2 di 2) [22/11/2001 17.59.17] Note conclusive Laboratorio virtuale > Sistemi di particelle interagenti > 1 2 [3] 3. Note conclusive Libri ● ● Un buon libro raguonevolmente semplice sulla percolazione è Percolation, di Geoffrey Grimmett. Per una trattazione più concisa, vedi Lecture Notes on Particle Systems and Percolation, di Richard Durrett. ● Una trattazione più formale, di profilo matematico molto elevato, è Interacting Particle Systems, di Thomas Liggett. ● Per studiare incendi reali e vedere qualche modello di incendio usato nella realtà puoi vedere Young Men and Fire di Norman Maclean Siti web ● Il sito più completo su sistemi di particelle interagenti e automi cellulari è Primordial Soup Kitchen. Laboratorio virtuale > Sistemi di particelle interagenti > 1 2 [3] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/particles/particles3.html [22/11/2001 17.59.19] Metodo dei momenti Laboratorio virtuale > Stima puntuale > 1 [2] 3 4 5 6 2. Metodo dei momenti Il metodo Supponiamo di avere un esperimento casuale semplice con una variabile casuale X osservabile e a valori reali. La distribuzione di X ha k parameri ignoti, o equivalentemente, vettore di parametri a = (a1, a2, ..., ak) che assume valori nello spazio parametrico A Rk. Al solito, ripetiamo l'esperimento n volte per generare un campione casuale di dimensione n dalla distribuzione di X. (X1, X2, ..., Xn). Pertanto, X1, X2, ..., Xn sono variabili casuali indipendenti, ciascuna distribuita come X. Il metodo dei momenti è una tecnica di costruzione di stimatori dei parametri basata sull'uguagliare i momenti empirici coi momenti teorici della corrispondente distribuzione. Sia µi(a) = E(X i | a) l'i-esimo momento di X centrato su 0. Nota che stiamo sottolineando la dipendenza di questi momenti dal vettore dei parametri a. Nota inoltre che µ1(a) è semplicemente la media di X, che di solito indichiamo con µ. Sia poi Mi(X) = (X1i + X2i + ··· + Xni) / n l'i-esimo momento empirico. Osserva che stiamo sottolineando la dipendenza dei momenti empirici dal campione X. Nota inoltre che M1(X) è semplicemente la media campionaria, che di solito indichiamo con Mn. Per costruire stimatori W1, W2, ..., Wk dei parametri ignoti a1, a2, ..., ak, cerchiamo di risolvere il sistema di equazioni simultanee ● µ1(W1, W2, ..., Wk) = M1(X1, X2, ..., Xn) ● µ2(W1, W2, ..., Wk) = M2(X1, X2, ..., Xn) ● ··· µk(W1, W2, ..., Wk) = Mk(X1, X2, ..., Xn) ● per W1, W2, ..., Wk rispetto a X1, X2, ..., Xn. Osserva che abbiamo k equazioni con k incognite, per cui si può sperare che il sistema possa essere risolto. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point2.html (1 di 3) [22/11/2001 17.59.24] Metodo dei momenti Stime di media e varianza 1. Supponi che (X1, X2, ..., Xn) sia un campione di dimensione n da una distribuzione con media µ e varianza d2 ignote. Mostra che gli stimatori per µ e d2 ricavati col metodo dei momenti sono rispettivamente 1. Mn = (1 / n) j = 1, ..., n Xj. 2. Tn2 = (1 / n) j = 1, ..., n (Xj - Mn)2 Osserva che Mn è semplicemente la media campionaria, ma Tn2= [(n - 1) / n] Sn2 dove Sn2 è la varianza campionaria. Nel seguito di questo paragrafo, confronteremo gli stimatori Sn2 e Tn2. 2. Prova che bias(Tn2) = -d2 / n. Pertanto Tn2 è distorta verso il basso, e quindi tende a sottostimare d2. 3. Dimostra Tn2 è asintoticamente corretto. 4. Mostra che MSE(Tn2) = [(n - 1)2 / n3][d4 - (n - 3)d4 / (n - 1)] + d4 / n2. 5. Mostra che l'efficienza relativa asintotica di Tn2 rispetto a Sn2 è 1. 6. Supponi di campionare da una distribuzione normale. Dimostra che, in questo caso, 1. MSE(Tn2) = (2n - 1)d4 / n2. 2. MSE(Sn2) = 2d4 / (n - 1). 3. MSE(Tn2) < MSE(Sn2) per n = 2, 3, ... Pertanto, Sn2 e Tn2 sono multipli l'uno dell'altro; Sn2 è corretto ma Tn2 ha errore quadratico medio minore. 7. Replica la stima della distribuzione normale 1000 volte aggiornando ogni 10, per diversi valori dei parametri. Confronta la distorsione empirica e l'errore quadratico medio di Sn2 e di Tn2 coi loro valori teorici. Qual è lo stimatore migliore in termini di distorsione? Quale invece in termini di errore quadratico medio? Ci sono diverse famiglie di distribuzioni a un parametro in cui tale parametro rappresenta la media, tra queste la distribuzione di Bernoulli con parametro p e la distribuzione di Poisson con parametro µ. In queste famiglie, lo stimatore ricavato col metodo dei momenti è M, ovvero la media campionaria. Similmente, i parametri della distribuzione normale sono µ e d2, per cui gli stimatori del metodo dei momenti sono M e Tn2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point2.html (2 di 3) [22/11/2001 17.59.24] Metodo dei momenti Esercizi aggiuntivi 8. Supponi che (X1, X2, ..., Xn) sia un campione casuale estratto da una distribuzione gamma con parametro di forma k e parametro di scala b. Mostra che gli stimatori ricavati col metodo dei momenti per k e b valgono rispettivamente 1. U = Mn2/ Tn2. 2. V = Tn2/ Mn . 9. Replica la stima della distribuzione gamma 1000 volte, aggiornando ogni 10, per diversi valori del parametro di forma e di scala. Registra, in ciascun caso, la distorsione e l'errore quadratico medio. 10. Supponi (X1, X2, ..., Xn) sia un campione casuale estratto da una distribuzione beta con parametri a e 1. Mostra che lo stimatore ricavato col metodo dei momenti per a è Un = Mn / (1 - Mn ). 11. Replica la stima della distribuzione gamma 1000 volte, aggiornando ogni 10, per diversi valori di a. Registra, in ciascun caso, la distorsione e l'errore quadratico medio e disegna i grafici di distorsione e MSE in funzione di a. 12. Supponi che (X1, X2, ..., Xn) sia un campione casuale estratto da una distribuzione di Pareto con parametro di forma a > 1. Mostra che lo stimatore ricavato col metodo dei momenti per a è Un = Mn / (Mn - 1). Laboratorio virtuale > Stima puntuale > 1 [2] 3 4 5 6 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point2.html (3 di 3) [22/11/2001 17.59.24] Stimatori Bayesiani Laboratorio virtuale > Stima puntuale > 1 2 3 [4] 5 6 4. Stimatori Bayesiani Il metodo Supponiamo di nuovo di avere una variabile casuale osservabile X, per un certo esperimento, che assuma valori in un insieme S. Supponiamo inoltre che la distribuzione di X dipenda da un parametro ignoto a, suscettibile di assumere valori in uno spazio parametrico A. Come in precedenza, indicheremo con f(x | a) la funzione di densità di X in x. Nell'analisi Bayesiana, si tratta il vettore di parametri a come una variabile casuale con una certa funzione di densità h(a), con a appartenente ad A. La distribuzione corrisponendente è detta distribuzione a priori di a e ha l'obiettivo di raccogliere le informazioni di cui si dispone (se ce ne sono) sul vettore dei parametri, prima di raccogliere i dati. Si utilizza poi il teorema di Bayes, che prende il nome da Thomas Bayes, per calcolare la funzione di densità condizionata di a dato X = x appartenente a S: h(a | x) = f(x | a)h(a) / g(x), per a appartenente ad A e x appartenente a S dove g è la funzione di densità (marginale) di X. Ricorda che per un dato x appartenente a S, g(x) può essere ottenuta integrando (nel caso continuo) o sommando (nel caso discreto) f(x | a)h(a) per gli a appartenenti ad A. Equivalentemente, g(x) è una costante di normalizzazione per f(x | a)h(a) come funzione di a. La distribuzione condizionata di a dato X = x è detta distribuzione a posteriori, ed è una distribuzione aggiornata utilizzando l'informazione contenuta nei dati. Se a è un parametro reale, il valore atteso condizionato E(a | X) è lo stimatore Bayesiano di a. Ricorda che E(a | X) è funzione di X e, tra tutte le funzioni di X, è la più vicina ad a in media quadratica. Famiglie coniugate In molti casi speciali, possiamo trovare una famiglia parametrica di distribuzioni con la seguente proprietà: se la distribuzione a priori di a appartiene alla famiglia, allora così è anche per la distribuzione a posteriori di a dato X = x. La famiglia si dice coniugata alla distribuzione di X. Le famiglie coniugate sono molto utili dal punto di vista computazionale, poiché si può spesso calcolare la distribuzione a posteriori attraverso una semplice formula che coinvolge i parametri della famiglia senza dover utilizzare direttamente il teorema di Bayes. La distribuzione di Bernoulli Supponiamo di avere un moneta non bilanciata con probabilità che esca testa p ignota. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point4.html (1 di 5) [22/11/2001 17.59.33] Stimatori Bayesiani Lanciamo la moneta n volte e registriamo il vettore degli esiti I = (I1, I2, ..., In). Per un dato p, queste variabili formano un campione casuale estratto dalla distribuzione di Bernoulli a parametro p. Sia Xn = I1 + I2 + ··· + In il numero di teste Supponiamo ora di assegnare a p distribuzione a priori beta con parametri a e b, dove a e b si scelgono sulla base delle nostre informazioni sulla moneta. Per esempio, se non sappiamo nulla, possiamo porre a = b = 1, cosicché p abbia distribuzione a priori unfiorme su (0, 1). D'altra parte, se crediamo che la moneta sia sbilanciata verso testa con p all'incirca 2 / 3, possiamo porre a = 4 e b = 2 (cosicché il valore atteso della distribuzione a priori risulti 2/3). 1. Prova che la distribuzione a priori di p dato I è una beta a parametri a + Xn, b + (n Xn). L'esercizio 1 prova che la distribuzione beta è coniugata alla distribuzione di Bernoulli. Nota inoltre che nella distribuzione a posteriori, il primo parametro della beta è incrementato dal numero di teste, mentre il secondo dal numero di croci. 2. Nell' esperimento della moneta non bilanciata, poni n = 10, p = 0.7, e a = b = 1 (distribuzione a priori uniforme). Simula 100 replicazioni e osserva la forma e la posizione della densità a posteriori dopo ogni replicazione. 3. Prova che lo stimatore Bayesiano di p è Un = (Xn + a) / (n + a + b). 4. Nell' esperimento della moneta non bilanciata, poni n = 20, p = 0.3, e a = 4 e b = 2. Simula 100 replicazioni e osserva la stima di p e la forma e la posizione della densità a posteriori dopo ogni replicazione. 5. Prova che bias(Un | p) = (a - pa - pb) / (n + a + b) e quindi Un è asintoticamente corretto. Osserva che nell'esercizio 3 non possiamo scegliere a e b per avere Un corretto, poiché tale scelta coinvolgerebbe in valore vero di p, che non è noto. 6. Nell' esperimento della moneta non bilanciata, poni n = 20, p = 0.8, a = 2 e b = 6. Simula 1000 replicazioni aggiornando ogni 10. Osserva la stima di p e la forma e la posizione della funzione di densità a posteriori ad ogni aggiornamento. Osserva la convergenza della distorsione empirica a quella teorica. 7. Dimostra che l'errore quadratico medio di Un è quello che segue, e che quindi Un è consistente: MSE(Un | p) = [p(n - 2a2 - 2ab) + p2(-n + a2 + b2 + 2ab) + a2] / (n + a + b)2. 8. Nell' esperimento della moneta non bilanciata, poni n = 10, p = 0.7, a = 1 e b = 1. Simula 1000 replicazioni aggiornando ogni 10. Osserva la stima di p e la forma e la posizione della funzione di densità a posteriori ad ogni aggiornamento. Osserva la http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point4.html (2 di 5) [22/11/2001 17.59.33] Stimatori Bayesiani convergenza dell'errore quadratico medio empirico a quello teorico. È interessante notare che possiamo scegliere a e b in modo che Un abbia errore quadratico medio indipendente da p: 9. Prova che se a = b = n1/2 / 2 allora MSE(Un | p) = n / [4(n + n1/2)2] per ogni p. 10. Nell' esperimento della moneta non bilanciata, poni n = 36 e a = b = 3. Modifica p e osserva che l'errore quadratico medio non cambia. Con p = 0.8 simula 1000 replicazioni, aggiornando ogni 10. Osserva la stima di p e la forma e la posizione della funzione di densità a posteriori ad ogni aggiornamento. Osserva la convergenza della distorsione e dell'errore quadratico medio empirici ai loro valori teorici. Ricorda che la media campionaria Mn = Xn / n (la proporzione di teste) è sia lo stimatore del metodo dei momenti che quello di massima verosimiglianza per p, ed ha errore quadratico medio MSE(Mn | p) = p(1 - p) / n. 11. Disegna i grafici di MSE(Un | p) dell'esercizio 6 e MSE(Mn | p), in funzione di p, sullo stesso sistema di assi. Supponiamo ora che la moneta sia bilanciata o a due teste. Diamo a p la distribuzione a priori che segue, dove abbiamo scelto a appartenente a (0, 1), in modo da rispecchiare le nostre conoscenze a priori sulla probabilità che esca testa. h(1) = a, h(1 / 2) = 1 - a. 12. Prova che la distribuzione a posteriori di p dato I è la seguente. Interpreta i risultati. 1. h(1 | I) = a / [a + (1 - a) (1 / 2)n] se Xn = n. 2. h(1 | I) = 0 se Yn < n. 3. h(1 / 2 | I) = 1 - h(1 | I). 13. Prova che lo stimatore Bayesiano di p è Un = pn se Xn = n, Un = 1 / 2 se Xn < n, dove pn = [a + (1 - a)(1 / 2)n + 1] / [a + (1 - a) (1 / 2)n]. 14. Mostra che 1. E(Un | p = 1) = pn. 2. E(Un | p = 1 / 2) = (1 / 2)n pn + (1 / 2) [1 - (1 / 2)n]. 3. Un è asintoticamente corretto. 15. Mostra che 1. MSE(Un | p = 1) = (pn - 1)2. 2. MSE(Un | p = 1 / 2) = (1 / 2)n (pn - 1 / 2)2. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point4.html (3 di 5) [22/11/2001 17.59.33] Stimatori Bayesiani 3. Un è consistente La distribuzione di Poisson Supponi che X = (X1, X2, ..., Xn) sia un campione casuale di dimensione n dalla distribuzione di Poisson con parametro a. Supponi inoltre che a abbia distribuzione a priori gamma con parametro di forma k e parametro di scala b. Sia Yn = X1 + X2 + ··· + Xn. 16. Prova che la distribuzione a posteriori di a dato X è una gamma con parametro di forma k + Yn e parametro di scala b / (nb + 1). Ne segue che la distribuzione gamma è coniugata alla distribuzione di Poisson. 17. Prova che lo stimatore Bayesiano di a è Vn = (k + Yn)b / (nb + 1). 18. Dimostra che bias(Vn | µ) = (kb - a) / (nb + 1) e quindi Vn è asintoticamente corretto. Nota che, anche in questo caso, non possiamo scegliere k e b in modo da avere Vn corretto. 19. Prova che l'errore quadratico medio di Vn è il seguente, e quindi Vn è consistente: MSE(Vn | a) = [(nb2 - 2kb)a + a2 + k2b2) / [(nb + 1)2]. La distribuzione normale Supponi che X = (X1, X2, ..., Xn) sia un campione casuale di dimensione n da una distribuzione normale con media µ e varianza d2, dove µ è ignoto, mentre d2 è noto. Supponi inoltre che µ abbia distribuzione a priori normale con media a e varianza b2, ovviamente entrambi noti. Sia Yn = (X1 + X2 + ··· + Xn). 20. Prova che la distribuzione a posteriori di µ dato X è normale con media e varianza: 1. E(µ | X) = (Ynb2 + ad2) / (d2 + nb2) 2. var(µ | X) = d2b2 / (d2 + nb2) Pertanto, la distribuzione normale è coniugata alla normale con media ignota e varianza nota. Segue inoltre che lo stimatore Bayesiano di µ è Un = (Ynb2 + ad2) / (d2 + nb2). 21. Dimostra che bias(Un | µ) = d2(a - µ) / (d2 + nb2) e quindi Un è asintoticamente corretto. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point4.html (4 di 5) [22/11/2001 17.59.33] Stimatori Bayesiani 22. Dimostra che MSE(Un | µ) = [nd2b4 + d4(a - µ)2] / (d2 + nb2)2 e quindi Un è consistente. Laboratorio virtuale > Stima puntuale > 1 2 3 [4] 5 6 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point4.html (5 di 5) [22/11/2001 17.59.33] Migliori stimatori corretti Laboratorio virtuale > Stima puntuale > 1 2 3 4 [5] 6 5. Migliori stimatori corretti Il modello di base Consideriamo, di nuovo, un semplice modello statistico nel quale abbiamo un esperimento casuale che si rappresenta tramite una variabile casuale X che assume valori in S. Di nuovo, l'esperimento consiste nell'estrarre n elementi da una popolazione e registrare le misurazioni su ogni osservazione. In questo caso, X ha forma X = (X1, X2, ..., Xn). dove Xi è il vettore delle misurazioni sull'i-esimo elemento. Supponi che a sia un parametro reale della distribuzione di X, che assume valori in uno spazio parametrico A R. Sia f(· | a) la funzione di densità di probabilità di X per a A. Nota che valore atteso, varianza, e covarianza dipendono da a, anche se trascureremo ciò per evitare una notazione troppo complessa. Sia infine Da l'operatore di derivazione rispetto ad a. Supponi che b = b(a) sia il parametro di interesse. In questo paragrafo considereremo il problema di trovare il migliore stimatore per b(a) in una classe di stimatori corretti. Ricorda che se U è uno stimatore corretto di b(a), allora l'errore quadratico medio coincide con var(U). Pertanto, se U e V sono stiamtori corretti di b(a) e var(U ) var(V) per ogni a A. Pertanto U è uniformemente migliore di V. D'altra parte, può darsi che U abbia varianza minore per certi valori di a mentre V per altri. Se U è unfiormemente migliore di ogni altro stimatore corretto di b(a), allora U è detto Uniformly Minimum Variance Unbiased Estimator (UMVUE). La disuguaglianza di Cramer-Rao In questo paragrafo mostreremo che, sotto condizioni non stringenti, esiste un limite inferiore per la varianza di uno stimatore corretto per un parametro b(a). Se possiamo quindi trovare uno stimatore che raggiunga questo limite inferiore per ogni a A, allora tale stimatore dev'essere UMVUE. L'assunzione che dobbiamo fare è che per ogni funzione h, applicazione di S in R con E[|h(X)|] < , Da E[h(X)] = E{h(X) Da ln[f(X | a)]}. 1. Dimostra che questa condizione equivale all'assunzione che l'operatore di derivazione Da possa essere scambiato con l'operatore valore atteso E. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point5.html (1 di 5) [22/11/2001 17.59.40] Migliori stimatori corretti In termini generali, l'assunzione è soddisfatta se f(x | a) è derivabile rispetto ad a, con derivata continua rispetto a x e ad a, e se il supporto {x: f(x | a) > 0} non dipende da a. 2. Dimostra che E{Da ln[f(X | a)]} = 0. Suggerimento: Usa la condizione fondamentale con h(x) = 1 per x appartenente S. Poniamo ora che h sia una funzione che soddisfa l'assunzione. 3. Dimostra che cov{h(X), Da ln[f(X | a)]} = Da E[h(X)]. Suggerimento: Nota in primo luogo che la covarianza è semplicemente il valore atteso del prodotto delle variabili, poiché la seconda variabile ha media 0 (vedi l'esercizio precedente). Usa poi la condizione. 4. Dimostra che var{Da ln[f(X | a)]} = E{[Da ln[f(X | a)]]2}. Suggerimento: La varibile ha media 0. 5. Usa infine la disuguaglianza di Cauchy-Schwartz per trovare il limite inferiore di Cramer-Rao: var[h(X)] {Da E[h(X)]}2 / E{[Da ln[f(X | a)]]2}. 6. Supponi che X = (X1, X2, ..., Xn) sia un campione casuale di dimensione n dalla distribuzione di una variabile casuale X con funzione di densità g. Dimostra che var[h(X)] {Da E[h(X)]}2 / n E{[Da ln[g(X | a)]]2}. Suggerimento: La densità congiunta è il prodotto delle densità marginali. Usa le proprietà dei logaritmi, l'indipendenza e l'esercizio 2. Supponi ora che b(a) sia il parametro di interesse e h(X) sia uno stimatore corretto di b(a). 7. Usa la disuguaglianza di Cramer-Rao per mostrare che var[h(X)] {Da b(a)}2 / E{[Da ln[f(X | a)]]2}. 8. Mostra che l'uguaglianza in 7 vale se e solo se h(x) - b(a) = u(a)Da ln[f(x | a)] per ogni x per qualche funzione u(a). Suggerimento: Ricorda che l'uguaglianza, nella disuguaglianza di Cauchy-Schwartz, si ha se e solo se le variabili casuali sono trasformazioni lineari l'una dell'altra. Richiama inoltre che Da ln[f(X | a)] ha media 0. 9. Supponi che X = (X1, X2, ..., Xn) sia un campione casuale di dimensione n dalla distribuzione di una variabile casuale X con funzione di densità g. Mostra che var[h(X)] {Da b(a)}2 / n E{[Da ln[g(X | a)]]2}. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point5.html (2 di 5) [22/11/2001 17.59.40] Migliori stimatori corretti La quantità E{[Da ln[f(X | a)]]2} che si incontra al denominatore dei limiti inferiori negli esercizi 5 e 7 è detta Informazione di Fisher di X, in onore di Sir Ronald Fisher. Gli esercizi seguenti riportano versioni alternative delle espressioni degli esercizi 7 e 8, spesso più utili a fini computazionali. 10. Mostra che se le derivate esistono e se sono possibili gli scambi tra derivata e valore atteso, allora E{[Da ln[g(X | a)]]2} = -E{Da2 ln[g(X | a)]}. La distribuzione di Bernoulli Supponi che (I1, I2, ..., In) sia un campione casuale di dimensione n dalla distribuzione di Bernoulli con parametro p. L'assunzione fondamentale è soddisfatta. 11. Prova che p(1 - p) / n è il limite inferiore di Cramer-Rao per la varianza degli stimatori corretti di p. 12. Prova che la media campionaria (o, equivalentemente, la proporzione) Mn raggiunge il limite inferiore di Cramer-Rao ed è quindi un UMVUE di p. La distribuzione di Poisson Supponi che (X1, X2, ..., Xn) sia un campione casuale di dimensione n della distribuzione di Poisson con parametro a. L'assunzione fondamentale è soddisfatta. 13. Prova che a / n è il limite inferiore di Cramer-Rao per la varianza degli stimatori corretti di a. 14. Mostra che la media campionaria Mn raggiunge il limite inferiore di Cramer-Rao ed è pertanto UMVUE di a. La distribuzione normale Supponi che (X1, X2, ..., Xn) sia un campione di dimensione n della distribuzione normale con media µ e varianza d2. L'assunzione fondamentale è soddisfatta sia per µ che per d2. Ricorda inoltre che E[(X - µ)4] = 3d4. 15. Prova che d2 / n è il limite inferiore per la varianza degli stimatori corretti di µ. 16. Prova che la media campionaria Mn raggiunge il limite di Cramer-Rao ed è pertanto UMVUE di µ. 17. Prova che 2d4 / n è il limite inferiore per la varianza degli stimatori corretti di d2. 18. Prova che la varianza campionaria S2 ha varianza 2d4 / (n - 1) e quindi non http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point5.html (3 di 5) [22/11/2001 17.59.40] Migliori stimatori corretti raggiunge il limite di Cramer-Rao presentato nell'esercizio 17. 19. Prova che, se µ è noto, allora la statistica sottoindicata raggiunge il limite inferiore di Cramer-Rao ed è pertanto UMVUE di d2: W2 = (1 / n) i = 1, ..., n (Xi - µ)2. 20. Dimostra che, se µ è ignota, nessuno stimatore di d2 raggiunge il limite inferiore di Cramer-Rao. La distribuzione gamma Supponi che (X1, X2, ..., Xn) sia un campione casuale di dimensione n della distribuzione gamma con parametro di scala b e parametro di forma k. L'assunzione fondamentale è soddisfatta per b. 21. Prova che b2 / nk è il limite inferiore per la varianza degli stimatori corretti di b. 22. Dimostra che, se k è noto, allora Mn / k raggiunge il limite inferiore di Cramer-Rao ed è pertanto UMVUE di b. La distribuzione uniforme Supponi che (X1, X2, ..., Xn) sia un campione casuale di dimensione n della distribuzione uniforme su (0, a). 23. Prova che l'assunzione fondamentale non è soddisfatta. 24. Mostra che il limite inferiore per la varianza degli stimatori corretti di a è a2 / n. 25. Prova (o richiama) che [(n + 1) / n]X(n) è corretto ed ha varianza a2 / n(n + 2), inferiore al limite di Cramer-Rao dell'esercizio precedente. La ragione per cui l'assunzione fondamentale non è soddisfatta è che il supporto {x: f(x | a) > 0} dipende da a. Migliori stimatori lineari corretti Consideriamo ora un problema più specifico, che riguarda comunque l'argomento di questo paragrafo. Supponiamo che X1, X2, ..., Xn siano variabili casuali osservabili, a valori reali, inocrrelate e con lo stesso valore atteso µ, ma potenzialmente diverse deviazioni standard. Sia di = sd(Xi) per i = 1, 2, ..., n. Consideremo solo stimatori di µ che siano funzioni lineari dei valori osservati: Y= i = 1, ..., n ciXi dove c1, ..., cn devono essere determinati. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point5.html (4 di 5) [22/11/2001 17.59.40] Migliori stimatori corretti 26. Dimostra che Y è corretto se e solo se i = 1, ..., n ci = 1. 27. Calcola la varianza di Y in termini di c1, c2, ..., cn e d1, d2, ..., dn. 28. Usa i moltiplicatori di Lagrange per provare che la varianza è minima, sotto il vincolo di correttezza, se cj = (1 / dj2) / i = 1, ..., n (1 / di2) for j = 1, 2, ..., n. Questo esercizio mostra come costruire il miglior stimatore lineare corretto (BLUE) di µ, assumendo che d1, d2, ..., dn siano noti. Supponiamo ora che di = d per ogni i, cosicché le variabili abbiano la stessa deviazione standard. In particolare, ciò si verifica quando le variabili formano un campione casuale di dimensione n da una distribuzione con media µ e deviazione standard d. 29. Mostra che in questo caso la varianza è minima quando ci = 1 / n per ogni i, e quindi Y è la media campionaria. Questo esercizio ha mostrato che la media campionaria Mn è il miglior stimatore lineare corretto di µ quando le deviazioni standard sono costanti e che, inoltre, non è necessario conoscere il loro valore. Laboratorio virtuale > Stima puntuale > 1 2 3 4 [5] 6 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point5.html (5 di 5) [22/11/2001 17.59.40] Completezza, sufficienza e ancillarità Laboratorio virtuale > Stima puntuale > 1 2 3 4 5 [6] 6. Completezza, sufficienza e ancillarità Consideriamo un modello statistico di base, con un espiremento casuale a cui è associata una variabile casuale osservabile X a valori in S. Di nuovo, l'esperimento consiste nell'estrarre n unità da una popolazione e registrarne le misure in un vettore. In questo caso, X ha forma X = (X1, X2, ..., Xn). dove Xi è il vettore delle misurazioni per l'i-esima unità. Supponiamo che la distribuzione di X dipenda da un parametro a che assume valori in uno spazio parametrico A. In genere, a è un vettore di parametro reali. Statistiche sufficienti Intuitivamente, una statistica U = h(X) è sufficiente per a se U contiene tutta l'informazione relativa ad a disponibile nell'intero vettore dei dati X. Formalmente, U è sufficiente per a se la distribuzione condizionata di X dato U non dipende da a. Il concetto di sufficienza è collegato a quello di riduzione dei dati. Supponiamo che X assuma valori in Rn. Se possiamo individuare una statistica sufficiente U a valori in Rj, allora possiamo ridurre il vettore X (la cui dimensione n è solitamente grande) al vettore di statistiche U (la cui dimensione j è di solito molto minore) senza perdita di informazione sul parametro a. Il seguente risultato è una condizione di sufficienza equivalente a questa definizione. 1. Si abbia U = h(X) e siano f(x | a) e g(u | a) le funzioni di densità di probabilità di X e U, rispettivamente. Dimostra che U è sufficiente per a se e solo se f(x | a) / g(h(x) | a) è indipendente da a per ogni x appartenente a S. Suggerimento: La distribuzione congiunta di (X, U) è concentrata sull'insieme {(x, h(x)): x S}. 2. Supponi che I1, I2, ..., In sia un campione casuale di dimensione n della distribuzione di Bernoulli con parametro p appartenente a (0, 1). Dimostra che Xn = I1 + I2 + ··· + In è sufficiente per p. Il risultato dell'esercizio 2 è molto seducente in termini concettuali: in una sequenza di prove Bernoulliane, tutta l'informazione relativa alla probabilità di successo p è contenuta nel numero di successi Xn. L'ordine in cui si verificano successi e insuccessi non aggiunge alcuna informazione. Il teorema di fattorizzazione http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point6.html (1 di 6) [22/11/2001 17.59.50] Completezza, sufficienza e ancillarità La definizione di sufficienza riportata poc'anzi coglie il significato intuitivo di questo concetto, ma può essere complessa da applicare. Dobbiamo conoscere a priori una statistica "candidata" U, e dobbiamo poi essere in grado di trovare la distribuzione condizionata di X dato U. Il teorema di fattorizzazione, che riportiamo nell'esercizio seguente, ci consente in molti casi di identificare una statistica sufficiente a partire dalla forma della funzione di densità di X. 3. Sia f(x | a) la funzione di densità di X. Dimostra che U = h(X) è sufficiente per a se e solo se esistono funzioni G(u | a) e r(x) tali che f(x | a) = G[h(x) | a] r(x) per x appartenente a S e a appartenente a A. Come la notazione stessa suggerisce, r dipende solo dal vettore dei dati x e non dal parametro a. 4. Prova che, se U e V sono statistiche equivalenti e U è sufficiente per a, allora V è sufficiente per a. 5. Supponi che la distribuzione di X sia una famiglia esponenziale a k parametri con statistica naturale h(X). Prova che h(X) è sufficiente per a. Sulla base di questo risultato, h(X) è spesso indicata come statistica sufficiente naturale per la famiglia esponenziale. 6. Supponi che X1, X2, ..., Xn sia un campione casuale di dimensione n della distribuzione normale con media µ appartenente a R e varianza d2 > 0. 1. Prova che (X1 + X2 + ··· + Xn, X12 + X22 + ··· + Xn2) è sufficiente per (µ, d2), 2. Prova che (M, S2) è sufficiente per (µ, d2) dove M è la media campionaria e S2 la varianza campionaria. Suggerimento: Usa il risultato (a) e l'equivalenza. 7. Supponi che X1, X2, ..., Xn sia un campione casuale di dimensione n dalla distribuzione di Poisson con parametro a > 0. Prova che X1 + X2 + ··· + Xn è sufficiente per a dove 8. Supponi che X1, X2, ..., Xn sia un campione casuale di dimensione n distribuzione gamma con parametro di forma k > 0 e parametro di scala b > 0. 1. Mostra che (X1 + X2 + ··· + Xn, X1X2 ··· Xn) è sufficiente per (k, b). 2. Mostra che (M, U) è sufficiente per (k, b) dove M è la media (aritmetica) campionaria e U è la media geometrica campionaria. Suggerimento: Usa il risultato (a) e l'equivalenza. 9. Supponi che X1, X2, ..., Xn sia un campione casuale estratto da una distribuzione beta con parametri a > 0 e b > 0. Mostra che (U, V) è sufficiente per (a, b) dove U = X1X2 ··· Xn, V = (1 - X1)(1 - X2) ··· (1 - Xn). http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point6.html (2 di 6) [22/11/2001 17.59.50] Completezza, sufficienza e ancillarità 10. Supponiamo che X1, X2, ..., Xn sia un campione casuale estratto dalla distribuzione uniforme sull'intervallo [0, a] dove a > 0. Mostra che X(n) (l'n-esima statistica d'ordine) è sufficiente per a. Statistiche sufficienti minimali Ovviamente il vettore X è sufficiente per a. Tuttavia, come abbiamo già osservato, spesso esiste una statistica U sufficiente per a ma di dimensioni più piccole, cosicché è possibile ridurre effettivamente la dimensione dei dati. Chiaramente vorremmo individuare la statistica U di minori dimensioni possibili. In molti casi, la dimensione più piccola j coincide con la dimensione k del vettore dei parametri a. Tuttavia non è sempre così; j può essere più piccolo o più grande di k. In termini più formali, supponiamo che una statistica U sia sufficiente per a. U è sufficiente minimale se U è funzione di una qualsiasi altra statistica V sufficiente per a. Di nuovo, la definizione coglie alla perfezione il concetto di sufficienza minimale, ma è di difficile applicabilità. L'esercizio seguente presenta una condizione equivalente. 11. Sia f(x | a) la funzione di densità di X e sia U = h(X). Prova che U è sufficiente minimale per a se valgono le seguenti condizioni: f(x | a) / f(y | a) non dipende da a se e solo se h(x) = h(y). Suggerimento: Se V = g(X) è un'altra statistica sufficiente, usa il teorema di fattorizzazione e la condizione di cui sopra per mostrare che g(x) = g(y) implica h(x) = h(y). Concludi quindi che U è funzione di V. 12. Prova che, se U e V sono statistiche equivalenti e U è sufficiente minimale per a allora V è sufficiente minimale per a. 13. Supponi che la distribuzione di X sia una famiglia esponenziale a k parametri con statistica sufficiente naturale U = h(X). Prova che U è sufficiente minimale per a. Suggerimento: Ricorda che j è il più piccolo intero per cui X è una famiglia esponenziale a j parametri. 14. Prova che le statistiche sufficienti presentate sopra per le distribuzioni di Bernoulli, di Poisson, normale, gamma e beta sono sufficienti minimali per i parametri dati. 15. Supponi che X1, X2, ..., Xn sia un campione casuale estratto dalla distribuzione uniforme sull'intervallo [a, a + 1] dove a > 0. Dimostra che (X(1), X(n)) è sufficiente minimale per a. Nell'ultimo esercizio, osserva che si ha un unico parametro, ma la statistica minimale è un vettore a due dimensioni. Proprietà delle statistiche sufficienti La sufficienza è correlata ai metodi di costruzione degli stimatori che abbiamo studiato. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point6.html (3 di 6) [22/11/2001 17.59.50] Completezza, sufficienza e ancillarità 16. Supponi che U sia sufficiente per a e che esista uno stimatore di massima verosimiglianza di a. Mostra che esiste uno stimatore di massima verosimiglianza V che è funzione di U. Suggerimento: Usa il teorema di fattorizzazione. In particolare, supponi che V sia l'unico stimatore di massima verosimiglianza di a e che V sia sufficiente per a. Se U è sufficiente per a, allora V è funzione di U, sulla base dell'esercizio precedente. Segue quindi che V è sufficiente minimale per a. 17. Supponi che la statistica U sia sufficiente per a e che V sia uno stimatore Bayesiano di a. Prova che V è funzione di U. Suggerimento: Usa il teorema di fattorizzazione. L'esercizio seguente riporta il teorema di Rao-Blackwell, che mostra come una statistica sufficiente possa essere utilizzata per migliorare uno stimatore corretto. 18. Supponi che U sia sufficiente per a e che V sia uno stimatore corretto del parametro reale b = b(a). Usa la sufficienza, le proprietà di valore atteso condizionato e di varianza condizionata per mostrare che 1. E(V | U) è una statistica valida (ovvero non dipende da a) ed è funzione di U. 2. E(V | U) è uno stimatore corretto di b. 3. var[E(V | U)] var(V) per ogni a, per cui E(V | U) è uniformemente migliore di V. Statistiche complete Supponi che U = h(X) sia una statistica. U si dice completa se E[g(U) | a] = 0 per ogni a appartenente a A implica P[g(U) = 0 | a] = 1 per ogni a appartenente a A. 19. Mostra che, se U e V sono statistiche equivalenti e U è completa per a allora V è completa per a. 20. Supponi che I1, I2, ..., In sia un campione casuale di dimensione n dalla distribuzione di Bernoulli con parametro p appartenente a (0, 1). Mostra che la somma è completa per p: Y = I1 + I2 + ··· + In. Suggerimento: Osserva che Ep[g(Y)] può essere scritto come polinomio in t = p / (1 - p). Se tale polinomio vale 0 per ogni t > 0, allora i coefficienti devono valere 0. 21. Supponi che X1, X2, ..., Xn sia un campione casuale di dimensione n dalla distribuzione di Poisson con parametro a > 0. Mostra che la somma è completa per a: Y = X1 + X2 + ··· + Xn. Suggerimento: Osserva che Ea[g(Y)] può essere scritta come serie in a. Se la serie vale 0 http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point6.html (4 di 6) [22/11/2001 17.59.50] Completezza, sufficienza e ancillarità per ogni a > 0, i coefficienti devono essere 0. 22. Supponi che X1, X2, ..., Xn sia un campione casuale di dimensione n estratto da una distribuzione esponenziale con parametro di scala b > 0. Mostra che la somma è completa per b. Y = X1 + X2 + ··· + Xn. Suggerimento: Prova che Eb[g(Y)] è la trasformata di Laplace di una certa funzione . Se tale trasformata è 0 per ogni b > 0, allora la funzione dev'essere identicamente 0. Il risultato dell'esercizio precedente si può generalizzare alle famiglie esponenziali, anche se la dimostrazione è complessa. In particolare, se la distribuzione di X è una famiglia esponenziale a j parametri con vettore di statistiche sufficieni naturali U = h(X) allora U è completa per a (nonché sufficiente minimale per a). Questo risultato si applica a campioni casuali estratti da distribuzioni di Bernoulli, di Poisson, normale, gamma e beta. La nozione di completezza è dipendente dallo spazio parametrico. 23. Supponi che I1, I2, I3 sia un campione casuale di dimensione 3 estratto da una distribuzione di Bernoulli con parametro p appartenente a {1/3, 1/2}. Prova che Y = I1 + I2 + I3 non è completa per p. L'esercizio seguente mostra l'importanza delle statistiche complete e sufficienti, ed è noto come teorema di Lehmann-Scheffe. 24. Supponi che U sia sufficiente e completa per a e che T = r(U) sia uno stimatore corretto del parametro reale b(a). Dimostra che T è UMVUE per b(a). La dimostrazione fa uso dei seguenti passi: 1. Supponi che V sia uno stimatore corretto di b(a). Per il teorema di Rao-Blackwell, anche E(V | U) è uno stimatore corretto di b(a) ed è uniformemente migliore di V. 2. Poiché E(V | U) è funzione di U, usa la completezza per concludere che T = E(V | U) (quasi certamente). 25. Supponi che (I1, I2, ..., In) sia un campione casuale di dimensione n estratto dalla distribuzione di Bernoulli con parametro p appartenente a (0, 1). Mostra che un UMVUE per la varianza della distribuzione p(1 - p) è X / (n - 1) - X2 / [n(n - 1)] dove X = I1 + I2 + ··· + In. 26. Supponi che X1, X2, ..., Xn sia un sia un campione casuale di dimensione n da una distribuzione di Poisson con parametro a. Mostra che un UMVUE per P(X = 0) = e-a è [(n - 1) / n]Y dove Y = X1 + X2 + ··· + Xn. Suggerimento: Usa la funzione generatrice di probabilità di Y. http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point6.html (5 di 6) [22/11/2001 17.59.50] Completezza, sufficienza e ancillarità Statistiche ancillari Supponi che V = r(X) sia una statistica. Se la distribuzione di V non dipende da a, allora V è detta statistica ancillare per a. Pertanto, la nozione di ancillarità è complementare a quella di sufficienza (ovvero il contenere tutte le informazioni disponibili sul parametro). Il risultato del seguente teorema, dimostrato da Basu, rende la situazione più chiara. 27. Supponi che U sia completa e sufficiente per a e che V sia una statistica ancillare. Prova che U e V sono indipendenti percorrendo i seguenti passi: 1. Supponi che V assuma valori in T . Sia g la funzione di densità di V e sia g(· | U) la densità condizionata di V dato U. 2. Usa le proprietà del valore atteso condizionato per mostrare che E[g(v | U)] = g(v) per v appartenente a T. 3. Usa la completezza per concludere che g(v | U) = g(v) quasi certamente. 28. Prova che, se U e V sono equivalenti e U è ancillare per a, allora anche V è ancillare per a. 29. Supponi che X1, X2, ..., Xn sia un campione casuale estratto da una famiglia di scala con parametro di scala b > 0. Prova che se V è funzione di X1 / Xn, X2 / Xn, ..., Xn 1 / Xn allora V è ancillare per b. 30. Supponi che X1, X2, ..., Xn sia un campione casuale di dimensione n della distribuzione gamma con parametro di forma k > 0 e parametro di scala b > 0. Sia M la media campionaria (aritmetica) e U la media campionaria geometrica. Dimostra che M / U è ancillare per b, e concludi che M e M / U sono indipendenti. Suggerimento: Usa il risultato dell'esercizio precedente. Laboratorio virtuale > Stima puntuale > 1 2 3 4 5 [6] Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/point/point6.html (6 di 6) [22/11/2001 17.59.50] Introduzione Laboratorio virtuale > Stima intervallare > [1] 2 3 4 5 6 1. Introduzione Il modello statistico di base Al solito, iniziamo considerando un esperimento casuale con un certo spazio campionario e con misura di probabilità P. Nel modello statistico di base, abbiamo una variabile casuale osservabile X a valori in S. In generale, X può avere struttura complessa. Per esempio, se l'esperimento consiste nell'estrarre un campione di n unità da una popolazione e registare le misurazioni di interesse, allora X = (X1, X2, ..., Xn) dove Xi è il vettore di misurazioni per l'i-esima unità. Il caso particolare più importante si ha quando X1, X2, ..., Xn, sono indipendenti e identicamente distribuite. In questo caso, si ha un campione casuale di dimensione n dalla distribuzione comune. Supponiamo inoltre che la distribuzione di X dipenda da un parametro a che assume valori in uno spazio parametrico A. Normalmente, a è un vettore di parametri reali, cosicché A è un sottinsieme di Rk per dati k e a = (a1, a2, ..., ak). Insiemi di confidenza Un insieme di confidenza è un sottinsieme A(X) dello spazio parametrico A che dipende esclusivamente dalla variabile X, e non da altri parametri ignoti. Quindi, in un certo senso, è una statistica che assume come valori degli insiemi. Un insieme di confidenza è una stima di a, nel senso che ci aspettiamo che a appartenga ad A(X) con probabilità elevata. In particolare, il livello di confidenza è la più piccola probabilità che a appartenga ad A(X): min{P[a A(X) | a]: a A}. Di solito si cerca di costruire un insieme di confidenza per a con un certo livello di confidenza 1 - r, dove 0 < r < 1. Livelli di confidenza comunemente utilizzati sono 0.9, 0.95, e 0.99. A volta la cosa migliore che si può fare è costruire un insieme di confidenza il cui livello di confidenza è almeno 1 - r; questo è detto insieme di confidenza conservative 1 - r per a. Osserva che, quando effettuiamo un esperimento e osserviamo i dati x, l'insieme di confidenza calcolato è A(x). Il valore vero del parametro a può appartenere oppure no a questo insieme, e di solito ciò è ignoto. In ogni caso, per la legge dei grandi numeri, se ripetiamo più volte l'esperimento, la proporzione di insiemi che contiene a converge a P[a A(X) | a) 1 - r. http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval1.html (1 di 5) [22/11/2001 17.59.59] Introduzione Questo è il significato del termine confidenza. Nota inoltre che la qualità di un intervallo di confidenza come stimatore di a, dipende da due fattori: il livello di confidenza e la dimensione dell'insieme; una buona stima ha dimensione ridotta (e pertanto definisce un intervallo ristretto per a) ed elevata confidenza. In ogni caso, per un dato X, esiste di solito un compromesso tra livello di confidenza e dimensione: aumentare il livello di confidenza implica aumentare la dimensione dell'insieme. Osserva infine che, in generale, la dimensione dell'insieme è una variabile casuale, anche se in alcuni casi è una costante. In molte situazioni si ha interesse a stimare un certo parametro reale b = b(a). Per esempio, se a è un vettore, b può rappresentare una delle coordinate di a; le altre coordinate, in questo contesto, risulterebbero essere parametri di disturbo. In questo caso, l'insieme di confidenza ha forma A(X) = {a A: L(X) b U(X)} dove L(X) e U(X) sono statistiche. In questo caso [L(X), U(X)] è detto intervallo di confidenza (bilaterale) per b. Se l'insieme di confidenza ha forma A(X) = {a A: L(X) b} allora L(X) è detto limite inferiore di confidenza per b. Se l'insieme di confidenza ha forma A(X) = {a A: b U(X)} allora U(X) è detto limite superiore di confidenza per b. Se possiamo costruire un intervallo di confidenza per un parametro, allora possiamo costruire un intervallo di confidenza per una funzione del parametro. 1. Supponi che [L, U] sia un livello di confidenza 1 - r per b e supponi che g sia una funzione definita sullo spazio parametrico A. 1. Se g è crescente, prova che [g(L), g(U)] è l'intervallo al livello di confidenza 1 - r per g(b). 2. Se g è decrescente, prova che [g(U), g(L)] è l'intervallo al livello di confidenza 1 -r per g(b). 2. Supponi che L sia il limite di confidenza inferiore al livello 1 - r1 per a e che U sia il limite di confidenza inferiore al livello 1 - r2 per a. Dimostra che se r = r1 + r2 < 1 allora [L, U] è un intervallo di confidenza conservative a livello 1 - r per a. Suggerimento: Usa la disuguaglianza di Bonferroni. Elementi pivotali Potrebbe sembrare molto difficile costruire intervalli di confidenza per un parametro c. Tuttavia, in molti importanti situazioni, gli insiemi di confidenza possono essere costruiti http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval1.html (2 di 5) [22/11/2001 17.59.59] Introduzione semplicemente utilizzando variabili casuali note come elementi pivotali. Una elemento pivotale per a è una variabile casuale V(X, a) funzione della variabile delle osservazioni X e del parametro a, ma la cui distribuzione non dipende da a. Supponi che V(X, a) assuma valori in T. Se conosciamo la distribuzione dell'elemento pivotale, allora T (che non dipende da a) tale che per un dato r possiamo trovare B P[V(X, a) B | a] = 1 - r. Segue quindi che un insieme di confidenza al livello 1 - r per il parametro è dato da A(X) = {a A: V(X, a) B}. In molti casi, abbiamo un parametro reale a di interesse, e la variabile pivot a valori reali V(x, a) è funzione monotona di a per dati x. L'insieme di confidenza è quindi un intervallo: 3. Prova che, se V(x, a) è monotona rispetto ad a per ogni x allora l'insieme di confidenza è un intervallo di forma [L(X, v1), U(X, v2)]. Ci sono molti modi di costruire i numeri v1 e v2 riportati poc'anzi; la scelta ottimale è quella che rende minima la lunghezza dell'intervallo. Per r appartenente a (0, 1), sia v(r) il quantile di ordine r per la variabile pivot V(X, a) (di nuovo, questo quantile non dipende da a). 4. Supponi che 0 < p < 1. Prova che v1 = v[(1 - p)r], v2 = v[(1 - pr)] soddisfa le condizioni per la costruzione di intervalli di confidenza. La scelta p = 1 / 2 corrisponde a un intervallo di confidenza con code bilanciate; si tratta del tipo più utilizzato di intervalli di confidenza, ed è normalmente (ma non sempre) la scelta ottimale. Di nuovo, esiste un trade-off tra il livello di confidenza e la dimensione dell'insieme di confidenza. 5. Sia A(X) l'insieme di confidenza ottenuto utilizzando v1 e v2 dell'esercizio precedente. Prova che, per dati p e X, A(X) è decrescente rispetto ad a e pertanto crescente rispetto a 1 - r. Gli elementi pivotali non sono unici; è quindi importante individuare quelli che possiedono distribuzioni note e che limitano il parametro in maniera ottimale. 6. Supponi che V sia una variabile pivot per a. Se u è una funzione definita su V e u non ha parametri ingoti, mostra che U = u(V) è anch'essa un elemento pivotale pera. Famiglie di posizione e scala Nel caso delle famiglie di posizione e scala di distribuzioni, possiamo individuare facilmente degli elementi pivotali. Supponi che U sia una variabile casuale a valori reali con funzione di densità g e senza parametri ignoti. Sia http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval1.html (3 di 5) [22/11/2001 17.59.59] Introduzione X = µ + dU dove µ appartiene a R e d > 0. Ricorda che la funzione di densità di X è f(x | µ, d) = g[(x - µ) / d] / d e che la corrispondente famiglia di distribuzioni è detta famiglia di posizione e scala associata alla distribuzione di U. Supponi ora che X1, X2, ..., Xn sia un campione casuale di dimensione n estratto dalla distribuzione di X. Ricorda che media campionaria e varianza campionaria sono definite rispettivamente da 1. M = (1 / n) i = 1, ..., n 2. S2 = [1 / ( n - 1)] Xi. i = 1, ..., n (Xi - M)2. 7. Supponi che d sia noto e µ ignoto. Prova che (M - µ) / d è elemento pivotale per µ. 8. Siano µ e d ignoti. Dimostra che (M - µ) / S è elemento pivotale per µ. 9. Supponi che µ sia noto e d ignoto. Mostra che (M - µ) / d è elemento pivotale per d. 10. Supponi che µ e d siano ignoti. Prova che S / d è elemento pivotale per d. La famiglia di posizione e scala più importante è la normale. Il problema della stima dei parametri di questa famiglia di distribuzioni è esaminato nei prossimi due paragrafi. Ci occuperemo qui di seguito di alcuni altri problemi. La distribuzione esponenziale Supponi che X1, X2, ..., Xn sia un campione casuale di dimensione n della distribuzione esponenziale con parametro di scala b > 0. 11. Dimostra che 2nM / b ha distribuzione chi-quadro con 2n gradi di libertà, ed è pertanto variabile pivot per b. Osserva che la variabile dell'esercizio 11 è un multiplo di quella dell'esercizio 9 (per µ = 0). Per p appartenente a (0, 1), sia vp il quantile di ordine p della distribuzione chi-quadro con 2n gradi di libertà. 12. Usa la variabile pivot dell'esercizio precedente per dimostrare che l'intervallo a lievllo di confidenza 1 - r e i limiti di confidenza inferiore e superiore sono dati da: 1. [2nM / v1 - r/2, 2nM / vr/2] 2. 2nM / vr. 3. 2nM / v1 - r. Laboratorio virtuale > Stima intervallare > [1] 2 3 4 5 6 http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval1.html (4 di 5) [22/11/2001 17.59.59] Introduzione Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval1.html (5 di 5) [22/11/2001 17.59.59] Stima della media nel modello normale Laboratorio virtuale > Stima intervallare > 1 [2] 3 4 5 6 2. Stima della media nel modello normale Concetti preliminari Supponiamo che X1, X2, ..., Xn sia un campione casuale della distribuzione normale con media µ e varianza d2. In questa sezione ci occuperemo della costruzione di intervalli di confidenza per µ, cioè di uno dei casi più importanti di stima intervallare. Un paragrafo parallelo riguardo ai test sulla media nel modello normale si trova all'interno del capitolo sul test di ipotesi. Costruiremo gli intervalli di confidenza cercando delle variabili pivot per µ. Il metodo di costruzione dipende dal fatto che d sia noto oppure no; d è quindi un parametro di disturbo riguardo alla stima di µ. Gli elementi fondamentali per la costruzione degli intervalli di confidenza sono la media campionaria e la varianza campionaria 1. M = (1 / n) i = 1, ..., n 2. S2 = [n / (n - 1)] Xi. i = 1, ..., n (Xi - M)2. e le proprietà di queste statistiche nel caso in cui la distribuzione sia normale. Ricordiamo inoltre che la famiglia normale è una famiglia di posizione e scala. Intervalli di confidenza per µ con d noto Supponiamo in primo luogo che d sia; questa assunzione è spesso (ma non sempre) artificiale ricorda che la statistica Z = (M - µ) / (d / n1/2) ha distribuzione normale standardizzata ed è quindi pivot per µ. Per p appartenente a (0, 1), sia zp il quantile di ordine p della distribuzione normale standardizzata. Per dati valori di p, zp può essere ottenuto dall'ultima riga della tavola della distribuzione t, o dalla tavola della normale standardizzata, o dall'applet quantile. 1. Usa la variabile pivot Z per mostrare che intervallo di confidenza al livello 1 - a e limite di confidenza inferiore e superiore per µ sono: 1. [M - z1 - r/2 d / n1/2, M + z1 - r/2 d / n1/2]. 2. M + z1 - r d / n1/2. 3. M - z1 - r d / n1/2. Osserva che abbiamo utilizzato code bilanciate nella costruzione dell'intervallo http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval2.html (1 di 4) [22/11/2001 18.00.05] Stima della media nel modello normale bidirezionale, per cui tale intervallo è simmetrico rispetto alla media campionaria M. 2. Usa l'esperimento di stima della media per impratichirti con la procedura. Seleziona la distribuzione normale e il pivot normale. Usa diversi valori dei parametri, livelli di confidenza, numerosità campionarie e tipi di intervallo. Per ciascuna configurazione, simula 1000 replicazioni aggiornando ogni 10. Osserva che l'intervallo di confidenza cattura con successo la media se e solo se il valore della variabile pivot giace tra i quantili. Nota la dimensione e la posizione degli intervalli di confidenza e quanto bene la proporzione di intervalli "riusciti" approssima il livello di confidenza teorico. Sia E la distanza tra la media campionaria M e uno dei limiti di confidenza E = z d / n1/2, dove z = z1 - r/2 per l'intervallo bidirezionale e z = z1 - r per gli intervalli monodirezionali. Osserva che E è deterministico, e che la lunghezza dell'intervallo bidirezionale è 2E. Il numero E è a volte detto margine d'errore. 3. Prova che 1. E decrescere al crescere della dimensione del campione n. 2. E cresce al crescere della devizione standard d 3. E cresce al crecsere del livello di confidenza 1 - r. L'esercizio 3(c) mostra un'altra volta che esiste un trade-off tra il livello di confidenza e l'ampiezza dell'intervallo di confidenza. Se n e d sono dati, possiamo ridurre E, e quindi avere un intervallo più piccolo solo al prezzo di ridurre la confidenza nella stima. Al contrario, possiamo aumentare la confidenza nella stima solo al costo di aumentare E. In molti casi, il primo passo del disegno dell'esperimento consiste nel determinare la dimensione del campione necessaria per stimare µ con un dato margine di errore e un dato livello di confidenza. 4. Prova che la dimensione campionaria necessaria per stimare µ con confidenza 1 - r e margine di errore E è n = ceil[(zd / E)2]. Osserva che n è direttamente proporzionale al quadrato z2 e a d2 e inversamente a E2. Ciò implica che vale una legge dei rendimenti marginali decrescenti nella riduzione del margine d'errore. Per esempio, se vogliamo dimezzare un dato margine d'errore, dobbiamo quadruplicare l'ampiezza del campione. Intervalli di confidenza per µ con d ignoto Consideriamo ora il caso, più realistico, in cui anche d è ignoto. Ricorda che T = (M - µ) / (S / n1/2) ha distribuzione t di Student con n - 1 gradi di libertà, ed è pertanto elemento pivotale per µ. Per k > 0 e p appartenente a (0, 1), sia tk, p il quantile di ordine p per la distribuzione t http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval2.html (2 di 4) [22/11/2001 18.00.05] Stima della media nel modello normale con n - 1 gradi di libertà. Per dati valori di k r p, i valori tk, p possono essere ottenuti dalla tavola della distribuzione t o dall'applet quantile. 5. Usa l'elemento pivotale T per mostrare che intervallo di confidenza al livello 1 - r e limite di confidenza inferiore e superiore per µ sono: 1. [M - tn - 1, 1 - r/2 S / n1/2, M + tn - 1, 1 - r/2 S / n1/2]. 2. M + tn - 1, 1 - r S / n1/2. 3. M - tn - 1, 1 - r S / n1/2. Osserva che abbiamo utilizzato code bilanciate nella costruzione dell'intervallo bidirezionale, per cui tale intervallo è simmetrico rispetto alla media campionaria. Osserva inoltre che centro e lunghezza dell'intervallo sono casuali. 6. Usa l'esperimento di stima della media per impratichirti con la procedure. Seleziona la distribuzione normale con elemento pivotale di Student. Usa diversi valori dei parametri, livelli di confidenza, numerosità campionarie e tipi di intervallo. Per ciascuna configurazione, simula 1000 replicazioni aggiornando ogni 10. Osserva che l'intervallo di confidenza cattura con successo la media se e solo se il valore della variabile pivot giace tra i quantili. Nota la dimensione e la posizione degli intervalli di confidenza e quanto bene la proporzione di intervalli "riusciti" approssima il livello di confidenza teorico. Distribuzioni non normali Una delle assunzioni fondamentali che abbiamo fatto finora è che la distribuzione sottostante sia normale. Ovviamente, nelle applicazioni pratiche, non possiamo sapere granché della distribuzione che genera i dati. Supponiamo che la distribuzione sottostante non sia normale. Se n è relativamente grande, la distribuzione della media campionaria sarà comunque approssimatamente normale, sulla base del teorema limite centrale, e quindi le conclusioni dovrebbero restare approssimativamente valide. Gli esercizi seguenti trattano della robustezza di questa procedura. 7. Simula l'esperimento di stima della media per impratichirti con la procedure. Seleziona la distribuzione gamma con elemento pivotale di Student. Usa diversi valori dei parametri, livelli di confidenza, numerosità campionarie e tipi di intervallo. Per ciascuna configurazione, simula 1000 replicazioni aggiornando ogni 10. Osserva che l'intervallo di confidenza cattura con successo la media se e solo se il valore della variabile pivot giace tra i quantili. Nota la dimensione e la posizione degli intervalli di confidenza e quanto bene la proporzione di intervalli "riusciti" approssima il livello di confidenza teorico. 8. Nell'esperimento di stima della media, ripeti l'esercizio precedente utilizzando la distribuzione uniforme. La dimensione minima di n affinché la procedura di test funzioni dipende, ovviamente, dalla distribuzione sottostante; più la distribuzione devia dalla normalità, più osservazioni sono necessarie. Fortunatamente, la convergenza alla normalità nel teorema limite centrale è rapida, per cui, come avrai osservato dagli esercizi, possiamo, nella maggior http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval2.html (3 di 4) [22/11/2001 18.00.05] Stima della media nel modello normale parte dei casi, cavarcela con dimensioni campionarie relativamente ridotte (30 o più osservazioni). Esercizi numerici 9. La lunghezza di un certo pezzo meccanico dev'essere 10 centimetri, ma a causa di imperfezioni del processo produttivo, la lunghezza effettiva è distribuita normalmente con media µ e varianza d2. La varianza è dovuta a fattori inerenti al processo produttivi e rimane stabile nel tempo. È noto dai dati storici che d = 0.3. D'altra parte, µ può essere influenzata da vari parametri del processo e quindi può variare di frequente. Un campione di 100 pezzi ha media 10.2. Costruire un intervallo di confidenza al 95% per µ. 10. Supponi che il peso di un pacchetto di patatine (in grammi) sia una variabile casuale con media µ e varianza d2, entrambe ignote. Un campione di 75 pacchetti ha media 250 e deviazione standard 10. Costruisci un intervallo di confidenza al 90% per µ. 11. In un'azienda di telemarketing, la durata di una telefonata (in secondi) è una variabile casuale con media µ e varianza d2, entrambe ignote. Un campione di 50 telefonatè ha durata media 300 e deviazione standard 30. Costruisci l'intervallo di confidenza monodirezionale superiore (al 95%) per µ. 12. In una fattoria, il peso di una pesca (in once) alla raccolta è una variabile casuale con deviazione standard 0.5. Quante pesche si devono esaminare per stimare il peso medio con margine d'errore ± 0.2 e livello di confidenza del 95%? 13. Il salario orario per un certo lavoro edile è una variabile casuale con deviazione standard 1.25. Quanti lavoratori devono essere estratti per costruire un intervallo di confidenza monodirezionale inferiore al 95% con margine di errore di 0.25? 14. Costruisci l'intervallo di confidenza bidirezionale al 95%, e quelli monodirezionali inferiore e superiore per la velocità della luce, utilizzando i dati di Michelson. In ciascun caso, nota se il valore "vero" giace nell'intervallo di confidenza. 15. Costruisci l'intervallo di confidenza bidirezionale al 95%, e quelli monodirezionali inferiore e superiore per la densità della terra utilizzando i dati di Cavendish. In ciascun caso, nota se il valore "vero" giace nell'intervallo di confidenza. 16. Costruisci l'intervallo di confidenza bidirezionale al 95%, e quelli monodirezionali inferiore e superiore per la parallasse del sole, utilizzando i dati di Short. In ciascun caso, nota se il valore "vero" giace nell'intervallo di confidenza. 17. Per la lunghezza dei petali di iris Setosa sui dati di Fisher sugli iris, costruisci un intervallo di confidenza al 90% per µ. Laboratorio virtuale > Stima intervallare > 1 [2] 3 4 5 6 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | © http://www.ds.unifi.it/~stefanin/VL/VL_IT/interval/interval2.html (4 di 4) [22/11/2001 18.00.05] Stima della varianza nel modello normale Laboratorio virtuale > Stima intervallare > 1 2 [3] 4 5 6 3. Stima della varianza nel modello normale Concetti preliminari Supponiamo che X1, X2, ..., Xn sia un campione casuale della distribuzione normale con media µ e varianza d2. In questo paragrafo impareremo a costruire intervalli di confidenza per d2; è questo uno dei casi più rilevanti di stima intervallare. Una trattazione parallela, relativa ai test per la varianza nel modello normale si trova nel capitolo sul test di ipotesi . Al solito, costruiremo gli intervalli di confidenza cercando elementi pivotali per d2. Il metodo di costruzione dipende dal fatto che la media µ sia nota oppure no; µ è pertanto un termine di disturbo ai fini della stima di d2. Ricordiamo inoltre che la famiglia normale è una famiglia di posizione e scala. Intervalli di confidenza per d2 con µ noto Supponiamo, per iniziare, che µ sia noto, anche se questa assunzione è di solito irrealistica nelle applicazioni pratiche. Ricorda che, in questo caso, lo stimatore naturale di d2 is W2 =(1 / n) i = 1, ..., n (Xi - µ)2. Ricorda inoltre che V = nW2 / d2 ha distribuzione chi-quadro con n gradi di libertà, ed è pertanto variabile pivot per d2. Per k > 0 e p appartenente a (0, 1), sia vk, p il quantile di ordine p di una distribuzione chi-quadro con k gradi di libertà. Per valori dati di k, p e n, vk, p può essere ricavato dalla tavola della distribuzione chi-quadro o dall'applet quantile. 1. Usa la variabile pivot V per