Appunti di Probabilità e Statistica BOZZA

annuncio pubblicitario
Appunti di Probabilità e Statistica
a.a. 2014/2015
BOZZA
2
Riuscire a controllare l’incertezza può significare riuscire a ridurla
The things one feels absolutely certain about are never true (Oscar Wilde)
c
Copyright 2014
Mirko D’Ovidio
Appunti rilasciati per il solo uso non commerciale.
1.5 (testing) 5 maggio 2015.
Gli Appunti:
i) sono stati scritti utilizzando LATEX su Linux - Debian (software free);
ii) sono una raccolta di materiale per i corsi di Probabilità e Statistica ancora in
versione preliminare, pertanto sarà cosa estremamente gradita la comunicazione di
chiunque volesse segnalare errori di stampa o di concetto (materiale gratuito).
Il materiale riportato in queste note è stato selezionato in modo da garantire una
trattazione (spero) ben organizzata di argomenti che comunque non si deve
considerare esaustiva ma dovrebbe avere lo scopo di aiutare e supportare nello studio
della probabilità e della statistica. Gli appunti vanno quindi intesi come una lettura da
affiancare ad un libro di testo, più completo e dettagliato, da concordare in maniera
diversa nei due corsi di ”Calcolo delle Probabilità” e ”Probabilità e Statistica”.
Alcuni concetti sono trattati in maniera più approfondita, possono risultare quindi
troppo avanzati. Lo scopo di queste note è quello di fornire un aiuto nella
comprensione della teoria di base ma anche quello di stimolare gli interessi di alcuni
verso teorie più avanzate.
- : il simbolo indica gli argomenti importanti. Il resto degli appunti è necessario per
la comprensione di tali argomenti (prerequisiti o applicazioni).
Indice
1
2
3
Osservazione e Probabilità
1.1 Statistica descrittiva . . . .
1.2 Probabilità . . . . . . . . .
1.3 Statistica inferenziale . . .
1.4 Probabilità e Applicazioni
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Misura e Probabilità
2.1 Insiemi . . . . . . . . . . . . . . . . . . . . . .
2.2 Misure positive e di Lebesgue . . . . . . . . . .
2.3 Funzioni misurabili e spazi di Lebesgue . . . . .
2.4 Misure di Probabilità - . . . . . . . . . . . . . .
2.5 Il concetto di Probabilità e le diverse impostazioni
2.6 Spazi di Probabilità uniformi . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
Variabili Aleatorie
3.1 Definizione di variabile aleatoria - . . . . . . . .
3.2 Media e Momenti . . . . . . . . . . . . . . . . . .
3.3 Relazioni tra variabili aleatorie - . . . . . . . . .
3.3.1 Eventi di misura nulla . . . . . . . . . . .
3.3.2 Probabilità congiunte e condizionate . . . .
3.3.3 Tabella di contingenza . . . . . . . . . . .
3.3.4 Trasformazioni di v.a. . . . . . . . . . . .
3.3.5 Somme di variabili aleatorie . . . . . . . .
3.3.6 Somme aleatorie di variabili aleatorie . . .
3.3.7 Variabili aleatorie ordinate . . . . . . . . .
3.3.8 Successioni monotone di variabili aleatorie
3.3.9 Simulazione, generatori di numeri casuali .
3.4 Serie numeriche e di funzioni . . . . . . . . . . . .
3.5 Trasformate di densità . . . . . . . . . . . . . . .
3.6 Alcune disuguaglianze fondamentali . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
4
15
17
.
.
.
.
.
.
19
19
22
27
35
45
46
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
66
71
71
72
79
82
88
96
96
99
101
103
107
113
iv
3.7
3.8
Convergenza di variabili aleatorie - . . . . . .
3.7.1 Convergenza, definizioni e discussione
3.7.2 Teoremi limite . . . . . . . . . . . . .
3.7.3 Metodi Monte Carlo . . . . . . . . . .
Processi aleatori . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
116
116
125
128
131
4
Gli universi campionari
137
4.1 Popolazioni finite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.2 Popolazioni virtuali . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5
Inferenza statistica
5.1 Stima parametrica - . . . . . . . . . . . . .
5.1.1 Proprietà desiderabili di uno stimatore
5.1.2 Metodi di stima . . . . . . . . . . . .
5.2 Verifica delle ipotesi statistiche - . . . . . .
5.2.1 Test parametrici . . . . . . . . . . . .
5.2.2 Test non parametrici . . . . . . . . .
5.3 Stima in presenza di parametri di disturbo . .
5.4 Inferenza su particolari parametri . . . . . . .
5.5 Logiche inferenziali . . . . . . . . . . . . . .
6
7
I modelli lineari
6.1 Il modello lineare generale . . . .
6.2 Stima dei parametri . . . . . . . .
6.3 Il caso di una variabile esplicativa
6.4 Modelli lineari generalizzati . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
145
145
146
155
160
160
165
167
169
172
.
.
.
.
175
175
176
178
180
Distribuzioni di probabilità elementari
183
7.1 Variabili discrete - . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.2 Variabili continue - . . . . . . . . . . . . . . . . . . . . . . . . . . 191
A Esercizi
201
B Alcune somme notevoli
205
C Svolgimenti
209
Bibliografia
241
Introduzione
Nelle scienze applicate si procede sempre allo stesso modo, si osserva, si elabora, si
traggono conclusioni. Si raccolgono dati da un campione e si traggono conclusioni
per l’intera popolazione (sia essa di uomini, animali, batteri, titoli, etc.). Sembra un
procedimento elementare, ebbene lo scopo di questo corso è proprio quello di fornire
gli elementi per capire quanto, in effetti, non lo sia.
Quando osserviamo un fenomeno, registriamo dei dati. Lo scopo della Statistica
Descrittiva è quello di fornire ed estrapolare informazioni dai dati in nostro possesso. Utilizziamo a questo scopo delle funzioni dei dati campionari che sono chiamate
appunto, statistiche dei dati campionari.
Una volta ottenute le informazioni sul fenomeno oggetto di studio, ci si chiede
quanto queste informazioni siano attendibili (sembra inevitabile ricordare che l’affidabilità di un dispositivo è la probabilità che funzioni!). Ci sono diverse questioni da
affrontare, ad esempio, si deve ricordare che tutte le informazioni ottenute sono il frutto di analisi fatte sullo stesso campione. Vogliamo quindi sapere se considerando un
campione diverso, oppure osservando un campione diverso, arriveremmo alle stesse
informazioni. Oppure, se il campione osservato rispecchia al meglio le caratteristiche
della popolazione, se cioè il campione osservato è quello più probabile. Questo è il
ruolo della Statistica Inferenziale.
Alla base delle tecniche inferenziali e non solo, troviamo il calcolo delle Probabilità. Più avanti nel testo, si è accennato a problemi (semplificati) relativi ai seguenti
campi di applicazione della Probabilità:
• Matematica applicata: costruire modelli (governati da equazioni a derivate parziali o no) che riducano l’incertezza in ambiti anche molto diversi, dalla Fisica
alle Scienze Sociali o dalla Biologia alla Medicina (processi aleatori);
• Teoria dei segnali: si studia la variazione nel tempo di una grandezza (o misurazione) cercando proprietà matematiche e statistiche (processi aleatori);
• Inferenza Statistica: problemi di stima per parametri di un modello (matematico)
che descrive un fenomeno oggetto di studio e che non può essere descritto da
v
vi
modelli puramente deterministici. si vogliono studiare alcune proprietà su pochi
unità e trarre conclusioni più generali;
• Teoria delle decisioni: metodologia che si applica quando un decisore può scegliere tra varie azioni future il cui esito dipende da fattori esterni che non possono
essere previsti esattamente;
• Teoria del rischio: modelli matematici per descrivere la vulnerabilità di insolvenza di un assicuratore (o altra compagnia). Si può associare allo studio del
problema classico della rovina del giocatore.
In particolare, possiamo elencare alcuni esempi:
• Astrofisica: studio della radiazione cosmica di fondo,...;
• Biologia: inferenza su culture....;
• Economia/Marketing: indagini sui nuovi prodotti, ...;
• Farmacia: testare un farmaco,...;
• Finanza/Assicurazione: problemi relativi ai titoli finanziari,...;
• Fisica: diffusione del calore, moti di particelle, ....
• Geologia: statistica spaziale, ...;
• Informatica: approssimazione di integrali, calcolatori quantistici, ...;
• Inquinamento: stima delle concentrazioni di inquinanti,...;
• Medicina: studiare gli effetti di malattie o cure su pazienti, ....;
Programma e registro delle lezioni. Tratteremo, nei due corsi AT e GEST, gli argomenti divisi come in Tabella 1. Il programma dettagliato va preso dal registro delle
lezioni, aggiornato in tempo reale e disponibile sulla pagina web del coso:
https://sites.google.com/site/mirkodovidio/didattica-mirko-d-ovidio
Gli esercizi di autovalutazione si possono reperire ovunque in rete, si consiglia comunque di consultare la pagina
https://sites.google.com/site/aristidesanmartini/
INDICE
vii
AT
AT e GEST
Capitolo 1
Capitolo 2
Capitolo 3
Capitolo 4
Capitolo 5
GEST
Capitolo 3
(Somme di v.a. + Disuguaglianze)
Capitolo 6
Tabella 1: Programma (in generale).
In particolare sono consigliati gli ESERCIZI con RISPOSTE dal 1986 al 2001 oppure tutti i compiti dal 2003 con svolgimento.
Il lettore interessato può approfondire gli argomenti trattati nei seguenti testi di
riferimento: teoria della misura e analisi [10, 9, 4, 3]; statistica asintotica [11]; somme
notevoli ed integrali [5]; Probabilità [1, 2, 6, 7]; Probabilità e Statistica [8].
Obiettivi del corso. Acquisire competenza e abilità nel trattare:
• variabili aleatorie, relazioni, interpretazione e probabilità di eventi;
• trasformazioni di variabili
aleatorie X 7→ g(X) dove X può essere un vettore,
P
somme di v.a. Sn = nk=1 g(Xk ), convergenza di n−1 Sn per n → ∞;
• inferenza statistica su X̄n = n−1 Sn , n ∈ N.
viii
Errata Corrige e Approfondimenti
In classe spesso affrontiamo esempi ed esercizi non presenti negli appunti.
Sono qui elencati gli approfondimenti, commenti, esercizi trattati in classe e non
presenti nelle precedenti versioni. Inoltre sono elencate le correzioni già fatte (in
questa versione) di errori presenti in versioni precedenti.
Quindi, nella presente versione potete trovare le seguenti differenze con le versioni
precedenti:
• pag. 7, Esempio 1
• pag. 12, Svolgimento Esercizio 7
• pag. 13, Esempio 2
• pag 14, Esercizio 9
• pag. 15, Esercizio 11
• Legge delle probabilità totali. ....e A, B, C sono eventi compatibili....
• pag. 38, Osservazione 11
• Eventi complementari
• pag. 39, Esempio 12
• pag. 39, Esempio 13
• pag. 40, Proposizione 6
• pag. 43, Esercizio 29 con Svolgimento
• pag. 44, Esercizio 30 con Svolgimento
• pag. 51, dopo Definizione 28: ....dove B n ⊆ P(Rn ) se X ∈ Rn o B n ⊆ P(Zn )
se X ∈ Zn .
ix
x
• pag. 54, Figura 3.1
• pag. 65, Osservazione 19
• pag. 65, Osservazione 14
• Sezione 3.2, .... Osserviamo che per v.a. continue o discrete, data una funzione
continua g ∈ C(R), possiamo scrivere
Z
g(x)f (x)µ(dx)
Eg(X) =
R
dove µ(dx) = dx (misura di Lebesgue e f è la densità continua con supporto
supp(X)) o µ(dx) = µδ (dx, spet(X)) (misura di Dirac e f è la densità discreta
di X). Nelle formule sopra si è considerata la funzione continua g(x) = xr con
r > 0.
• pag. 67, ....La funzione g(x) = xr con r > 0 è continua ma non limitata: non
avrà senso per noi considerare EX r = ∞, infatti
g ∈ Cb (R) ⇒ |Eg(X)| ≤ M < ∞
|Eg(X)| < ∞ 6⇒ g ∈ Cb (R).
• proprietà della media, dimostrazione del punto v)
• pag. 69, Esercizio 44 con soluzione
• pag. 70, Osservazione 15
• pag. 70, Osservazione 16
• pag. 85, Esempio 18
• pag. 88, Sezione 3.3.5, la v.a X̄n
• pag. 88, formula (3.39) e discussione
• pag. 93, Osservazione 26
• pag. 94, Proposizione 10 con dimostrazione
• pag. 111, Esempio 84
• pag. 124, Esempio 28
• pag. 125, il Teorema 33 (legge debole dei grandi numeri) e discussione
INDICE
xi
• Sezione 6.3, il modello lineare
• pag. 184, Osservazione 41.
• Capitolo 7, Geometrica
• Capitolo 7, Binomiale
• Capitolo 7, Ipergeometrica
• Capitolo 7, Poisson
• pag. 192, Osservazione 44
• Capitolo 7, funzione Gamma
• Soluzione Esercizio 50. .....
2
e−xj
fXj (xj ) = √ ,
π
j = 1, 2.
• Appendice A, Esercizi con svolgimenti (in progress)
• Bibliografia
xii
Capitolo 1
Osservazione e Probabilità
Si consiglia di leggere il Capitolo 1 prima dei capitoli che seguono e soprattutto dopo.
1.1
Statistica descrittiva
La statistica è una scienza, una disciplina che ha come scopo lo studio quantitativo
e qualitativo di fenomeni (non deterministici). La statistica descrittiva ha lo scopo di
fornire una fotografia di una situazione o di un particolare fenomeno osservato.
”Una statistica è una funzione dei dati campionari. ”
I dati campionari sono costituiti dalle misurazioni (o osservazioni) fatte sul campione
osservato. Il campione osservato è costituito da unità statistiche che sono state opportunamente selezionate da una popolazione. La popolazione rappresenta l’interesse
principale ed il motivo per il quale si vuole effettuare una analisi statistica. Si vuole
cioè studiare un particolare (o più di uno) fenomeno che coinvolge la popolazione di
interesse. La popolazione oggetto di studio può essere costituita da persone, animali,
batteri, titoli finanziari, insetti, etc., in ogni caso siamo interessati a studiarne le caratteristiche. Non ci preoccupiamo ora di questioni legate al campione (come viene
selezionato, come viene definita la numerosità ottima, etc.), tali argomenti rappresentano parte dei problemi che risolveremo ricorrendo alla statistica inferenziale. Per ora,
diremo che il campione è casuale senza dire in che modo sia regolata tale casualità.
Una volta osservato il campione, avremo una serie di misurazioni (supponiamo che
la caratteristica di interesse ammetta valori numerici, sia quindi di tipo quantitativo1 ).
Indichiamo tali misurazioni con il vettore
x = (x1 , x2 , . . . , xn )
1
(1.1)
Non ci preoccuperemo quasi mai di introdurre variabili di tipo diverso, qualitative ad esempio.
1
2
che è quindi un punto di Rn . Dalla definizione data sopra di statistica, sembra chiaro
che possiamo considerare tutte le funzione con supporto in Rn . Ovviamente, volendo
ricavare delle informazioni (riguardanti la popolazione) dal campione, sembra altrettanto chiaro che le funzioni deputate debbono prima di tutto essere informative. La
prima informazione utile che possiamo ottenere è la media campionaria
n
1X
x̄ =
xi .
n i=1
(1.2)
Vogliamo poi capire quanto i dati si discostano dalla media campionaria. Introduciamo
allora una distanza (Euclidea) dei dati campionari da tale valore che è la varianza
campionaria
n
1X
2
s =
(xi − x̄)2 .
(1.3)
n i=1
La varianza campionaria si può scrivere a partire dai momenti campionari di ordine
r>0
n
1X
(xi )r
(1.4)
mr =
n i=1
dove, per r = 1, si ottiene la media campionaria m1 = x̄. Infatti, s2 = m2 − (m1 )2
(a volte scriveremo mr = x̄r e quindi s2 = x̄2 − (x̄1 )2 ), il secondo momento meno il
quadrato del primo.
Supponiamo adesso che nel campione osservato x ci siano un certo numero di valori uguali, diciamo ad esempio che k valori su n siano esattamente uguali. In generale,
supponiamo che ki valori sugli n totali siano uguali al generico vi . Allora, si può identificare una distribuzione (successione) di frequenze relative fi = ki /n ricavata dalla
distribuzione di frequenze assolute ki ed i ∈ I dove I è un nuovo insieme di indici la
cui cardinalità |I| è la dimensione del nuovo vettore
v = (v1 , v2 , . . . , v|I| ).
In nuovo vettore è costituito da tutti i valori diversi di x, presi con i loro pesi ki ,
i = 1, 2, . . . , |I| ≤ n. Ovviamente, se |I| = n allora v = x, non ci sono valori uguali.
Seguendo questa impostazione abbiamo
x̄ =
|I|
X
i=1
e
|I|
X
|I|
1X
vi ki
vi fi =
n i=1
|I|
1X
s =
(vi − x̄) fi =
(vi − x̄)2 ki
n i=1
i=1
2
(1.5)
2
(1.6)
Capitolo 1.
Osservazione e Probabilità
3
dove fi e ki sono le frequenze relative e assolute introdotto sopra. Notiamo che tali
frequenze si possono scrivere come vettori, f = (f1 , f2 , . . . , fn ) e k = (k1 , k2 , . . . , kn ).
Esercizio 1. Trovare i vettori v, k, f relativi al campione osservato
x = (2, 2, 3, 4, 2, 4, 3, 2, 5, 1, 1)
e calcolare media e varianza campionarie.
Data una successione finita di valori xk , k = 1, . . . , n si definiscono:
n
1X
xk
n k=1
n
X
xk f k
media aritmetica,
media ponderata,
k=1
n
Pn
n
Y
1
k=1 xk
!1/n
xk
media armonica,
media geometrica,
k=1
n
1X
(xk )p
n k=1
!1/p
media di potenza.
In base al fenomeno oggetto di studio può essere scelta una diversa statistica di
interesse, la media campionaria appena introdotta è solo un esempio. Possiamo essere
interessati a studiare il max{x1 , . . . , xn }, il min{x1 , . . . , xn } oppure altre funzioni dei
dati campionari.
Supponiamo ora che il Rettore della Sapienza ci chieda l’età media degli iscritti
al primo anno delle Facoltà di Ingegneria e supponiamo che tale informazione sia da
comunicare entro 10 ore. Sappiamo che gli iscritti sono circa 10000 e non abbiamo il
tempo di chiedere a tutti gli studenti di comunicare la loro età. La soluzione sembra
essere quella di selezionare un campione molto ridotto di studenti, chiedere l’età e
comunicare la media al Rettore. Diciamo che si sceglie di intervistare 5 studenti, la
cosa è presto fatta, si può reperire l’età di 5 studenti in pochi minuti. Immaginiamo per
comodità che ad ogni studente si possa far corrispondere un numero invece del nome,
ci sono 10000 studenti quindi se X è l’età dello studente, allora Xi è per noi l’età dello
studente i con i = 1, 2, . . . , 10000. All’ingresso della Facoltà di ingegneria trovo i 5
studenti corrispondenti ai numeri
(6, 60, 114, 1002, 8657)
4
registro le loro età e ottengo il campione
x = (X6 = 19, X60 = 20, X114 = 26, X1002 = 18, X8657 = 21).
La prima domanda che mi pongo riguarda l’età media, la calcolo e scopro che è
1
x̄ = (19 + 20 + 26 + 18 + 21).
5
La seconda domanda che mi pongo riguarda la correttezza di tale informazione e mi
chiedo se veramente voglio assumermi la responsabilità di comunicare l’età media
appena trovata al Rettore. Le mie insicurezze riguardano due punti:
D1 n = 5 studenti è un campione rappresentativo o sarebbe meglio considerare
n > 5? Quanti studenti dovrei considerare per ottenere un risultato attendibile,
n =?
D2 se avessi considerato studenti diversi, la media quanto sarebbe cambiata?
In effetti, avrei potuto trovare le età relative ai campioni
(X62 , X69 , X124 , X1402 , X9239 ),
(X632 , X1989 , X2014 , X4201 , X9719 )
oppure, in generale
(Xi1 , Xi2 , Xi3 , Xi4 , Xi5 ).
(1.7)
La scelta degli studenti da intervistare è del tutto casuale, dipende dagli studenti che
trovo in quel momento, in quel posto. In particolare
D3 quanti gruppi diversi di 5 studenti potevo trovare? (che equivale a dire, quante
medie diverse potevo calcolare?)
1.2
Probabilità
Per introdurre il concetto di probabilità cerchiamo di impostare il problema visto sopra
da un punto di vista più matematico.
Si capisce bene che l’età di una persona può essere considerata come una variabile
in un dato problema, in particolare è una variabile quantitativa discreta. Nel nostro
caso, dobbiamo aggiungere che si tratta di una variabile aleatoria, non sappiamo cioè
quanto vale fino a quando non osserviamo (fino a quando non si realizza la variabile
aleatoria). Dobbiamo quindi distinguere tra variabile deterministica e variabile aleatoria. Diciamo che una variabile è deterministica se ”possiamo prevedere il suo valore in
Capitolo 1.
Osservazione e Probabilità
5
un certo momento” mentre una variabile è aleatoria se non abbiamo nessun controllo
sui valori che assume, se cioè ”siamo in grado di prevedere il suo valore in un certo
momento solo con una certa probabilità”.
Se lancio un dado, non possiamo semplicemente dire
”esce 4”
ma possiamo dire
P (”esce 4”) =
1
6
cioè la probabilità dell’evento ”lancio il dado ed esce 4” è pari a 1/6. Formalizziamo dicendo che la variabile aleatoria X =”lancio il dado” ha un insieme limitato di
realizzazioni che sono ovviamente Ω = {1, 2, 3, 4, 5, 6}, allora si vede subito che
P (X = x) =
1
6
per ogni faccia x ∈ Ω. Si poteva quindi scrivere
P (X = 4) = P (”esce 4”) = P (”lancio il dado ed esce 4”).
Notiamo che
P (X ∈ Ω) = P (”lancio il dado ed esce una faccia”) = 1
e gli eventi di probabilità pari a 1 si dicono eventi certi. Analogamente chiameremo
eventi impossibili quegli eventi con probabilità pari a 0. Ci riferiremo agli eventi rari
quando le loro probabilità sono prossime a 0.
In generale, ci possiamo riferire ad un fenomeno oggetto di studio come ad una
variabile aleatoria X, non conosciamo il valore di X fino a quando X non si realizza,
cioè fino a quando non osserviamo. Chiamiamo x la realizzazione della variabile aleatoria X. Quindi x è la nostra osservazione, nel caso del lancio del dado, x è una faccia
di Ω = {1, 2, 3, 4, 5, 6}. Le probabilità che ci interessano saranno allora
P (X = x),
P (X ≤ x),
P (X < x),
P (X ≥ x),
P (X > x) (1.8)
oppure, se x1 ≤ x2 ,
P (x1 ≤ X ≤ x2 ).
Si noti che se x1 , x2 ∈ R, la (1.8) continua ad avere senso.
La variabile aleatoria sarà scelta in base al fenomeno che vogliamo studiare, alcuni
esempi possono essere puramente didattici:
6
i) X =”lancio il dado”;
ii) X =”estraggo una pallina da un urna”;
iii) X =”estraggo k palline con ripetizione”;
iv) X =”estraggo k palline in blocco”;
altri possono rappresentare delle semplificazioni di modelli molto più complicati e
utilizzati nella vita reale:
i) X =”altezza”;
ii) X =”pressione sistolica”;
iii) X =”livello di reddito”;
iv) X =”numero di sinistri”;
v) X =”misurazioni relative alla radiazione cosmica di fondo”;
vi) X =”precipitazioni in una regione”;
vii) X =”concentrazione di un inquinante"’.
Se Xi =”età della persona i” come nell’esempio sopra, allora possiamo formalizzare come segue. Chiamiamo X ∈ Nn con n = 5 il vettore (1.7). Cioè, ogni elemento
di X è un numero naturale. La media campionaria è una quantità deterministica una
volta che X si è realizzato, prima che si realizzi X, anche la media aritmetica degli
elementi di X è aleatoria, cioè
5
1X
1X
Xi j =
Xj
X̄ =
5 j=1
5 j∈c
5
dove si è usato il fatto che c5 è un insieme di 5 etichette rappresentanti gli studenti
intervistati. Volendo generalizzare ad n qualunque, scriviamo la variabile aleatoria
media campionaria,
1X
X̄n =
Xj
(1.9)
n j∈c
n
e cn è un insieme di etichette che rappresenta un gruppo di n studenti. Quindi diciamo che X̄n è la variabile aleatoria ”età media campionaria”. A questo punto potrei
chiedermi
D4 quanti gruppi diversi di n studenti posso trovare? Cioè quanti insiemi diversi cn
di etichette posso costruire?
Capitolo 1.
Osservazione e Probabilità
7
Esempio 1. Supponiamo che Mario chieda al fratello Moreno di essere visitato senza
aggiungere altre informazioni. Moreno che è un medico esperto ma anche preoccupato, si chiede come mai il fratello volesse essere visitato ed immagina la scoperta
improvvisa di qualche malattia, diciamo X. Allora Moreno si interroga sulla storia
passata dei sui pazienti, sulla base cioè delle sue informazioni. Le malattie per le quali
i suoi pazienti si sono presentati negli ultimi anni sono x1 , x2 , . . . e rovistando tra le
carte le associa alle frequenze fi , i = 1, 2, . . ., cioè
fi = f req{ pazienti con la malattia xi },
i = 1, 2, . . . .
Sulla base delle frequenze appena ricostruite, arriva a dire che
P (X = xi ) = fi
i = 1, 2, . . .
e scartando le malattie con probabilità più basse, restringe la rosa di possibilità per
la malattia del fratello Mario.
Spazi di Probabilità uniformi (prime considerazioni)
Non definiamo qui uno spazio di probabilità ma ci limitiamo a dire che esso è caratterizzato da due oggetti:
i) un insieme Ω detto insieme degli eventi (elementari);
ii) la probabilità P che possiamo immaginare come una funzione del tipo P : ω →
[0, 1] con ω ∈ Ω.
Diremo che uno spazio di probabilità è uniforme se gli eventi ω di Ω sono equiprobabili. Si pensi al lancio di un dado: Ω = {1, 2, 3, 4, 5, 6} e P (ω) = 1/6 per ogni ω ∈ Ω.
Potremmo anche considerare un urna contenente n palline numerate da 1 a n. Allora,
Ω = {1, 2, . . . , n} e P (estrarre la pallina numero x) = P (ω) = 1/n per ogni ω ∈ Ω
(cioè per ogni x = 1, 2, . . . . , n).
Notiamo subito che Ω è detto insieme degli eventi elementari perché non contiene
tutti gli eventi ai quali posso essere interessato. Continuiamo a riferirci al lancio del
dado, le probabilità degli eventi elementari come abbiamo già osservato sono costanti
e tutte uguali a 1/6. Potrei chiedermi allora con quale probabilità:
1. esce una faccia con un numero minore di 4 (esce un numero < 4);
2. esce una faccia con un numero minore o uguale a 4 (esce un numero ≤ 4);
8
cioè del tipo (1.8). Quando si considerano spazi di probabilità uniformi si può utilizzare l’impostazione classica delle probabilità secondo la quale, la probabilità di un
evento A si può trovare dal rapporto tra casi favorevoli e casi possibili,
P (A) =
numero di casi f avorevoli ad A
.
numero di casi possibili
(1.10)
Ad esempio, nel lancio di un dado:
• P (esce un numero pari) = 3/6;
• P (esce un numero < 3) = 2/6;
• P (esce un numero ≤ 4) = 4/6.
Esercizio 2. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggono,
con reimbussolamento (o con ripetizione), due palline a caso. Calcolare le seguenti
probabilità:
1. P (estrarre una pallina rossa e una nera);
2. P (estrarre due palline rosse);
3. P (estrarre due palline nere);
4. P (avere estratto una pallina rossa se so che una è nera).
Esercizio 3. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggono, senza reimbussolamento (o senza ripetizione), due palline a caso. Calcolare le
seguenti probabilità:
1. P (estrarre una pallina rossa e una nera);
2. P (estrarre due palline rosse);
3. P (estrarre due palline nere).
Esercizio 4. Da un urna contenente 4 palline rosse e 6 palline nere, si estraggono,
senza reimbussolamento, due palline a caso. Calcolare le seguenti probabilità:
1. P (estrarre una pallina rossa e una nera);
2. P (estrarre due palline rosse);
3. P (estrarre due palline nere).
Capitolo 1.
Osservazione e Probabilità
9
Esercizio 5. Da un mazzo di carte da poker (52 carte) si distribuiscono 5 carte prese
a caso. Calcolare:
1. P (asso di picche tra le 5);
2. P (un asso tra le 5);
3. P (asso di picche, 2 di quadri, 7 di cuori, 2 di f iori, 8 di cuori).
Esercizio 6. Un gruppo di n maschi e m femmine partono per le vacanze. Decidono di
trovarsi in stazione la mattina del giorno dopo alle 5:30 e attendere che la biglietteria
apra. Quando arrivano in stazione non c’è nessuno, si mettono in fila in ordine di
arrivo. Volendo parlare durante l’attesa, si chiedono con quale probabilità i maschi
saranno tutti vicini e di conseguenza anche le femmine?
Prima di rispondere agli esercizi proposti, introduciamo il calcolo combinatorio
che risulta essere un strumento molto potente nel calcolo di probabilità su spazi uniformi. In particolare, si considera l’impostazione classica della probabilità, bisogna
distinguere tra casi possibili (la totalità degli eventi che possiamo registrare) e casi favorevoli (i soli eventi relativi alla probabilità di interesse, i casi che contribuiscono al
verificarsi dell’evento per cui vogliamo calcolare la probabilità).
Nel calcolo combinatorio si studiano le diverse regole secondo le quali insiemi di
elementi sono considerati diversi. Tali regole definiscono delle famiglie di insiemi,
al loro interno tutti gli insiemi rispettano le stesse regole, su numerosità e ordine ad
esempio. Approfondiremo questi aspetti in seguito.
Definizione 1. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità n,
ii) che differiscono per ordine (ordinati)
formano l’insieme P n delle permutazioni semplici degli n elementi di U . Inoltre,
|P n | = n!.
Definizione 2. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità k ≤ n,
ii) che non differiscono per ordine (non ordinati)
10
formano l’insieme Cn,k delle combinazioni semplici degli n elementi di U in classi di k.
Inoltre,
n
n!
|Cn,k | =
=
.
k
(n − k)!k!
Sia U = {a, b, c}, allora
P 3 = {abc, acb, bac, bca, cab, cba},
C3,1 ={a, b, c},
C3,2 ={ab, ac, bc},
C3,3 ={abc}.
Cerchiamo ora di rispondere alla D4 e quindi anche alla D3. Nel calcolare la media
campionaria non importa in quale ordine osservo le stesse n persone, posso quindi
considerare cn una combinazione semplice di 10000 indici in classi di n e può essere
scelto in |C10000,n | modi diversi. Inoltre,
−1
1
10000!
P (cn ) = 10000 =
.
(10000 − n)! n!
n
Supponiamo ora che dal campione relativo a cn si sia ottenuta l’età media x̄ = 20.
Dobbiamo notare che
P (X̄n = 20) 6= P (cn )
infatti ci possono essere diversi campioni con la stessa media campionaria (la media
delle età di Maria e Alberto può essere uguale alla media delle età di Marta e Simone).
Il problema di determinare la legge distributiva di X̄n è quindi ancora aperto, non
sappiamo cioè scrivere
P (X̄n = x)
per ogni
x.
(1.11)
Svolgimento Esercizio 2. Le palline estratte vengono inserite nuovamente nell’urna e quindi ad ogni estrazione la situazione è esattamente la stessa. Indichiamo con
N =”estraggo pallina nera” e R =”estraggo pallina rossa”. Gli eventi di interesse
sono RN oppure N R (sono i casi favorevoli). I casi possibili sono
RR, RN, N R, N N.
Capitolo 1.
Osservazione e Probabilità
11
La situazione iniziale prevede che (eventi di probabilità uniformi)
P (R) =
5
10
e P (N ) =
5
.
10
Alla seconda estrazione non cambia nulla perché ogni volta inseriamo di nuovo la
pallina nell’urna. Si ottiene:
1. P (RN oppure N R) = 2/4;
2. P (RR) = 1/4;
3. P (N N ) = 1/4;
4. P (R|N ) =?.
Nei primi tre punti si è utilizzata la (1.10) mentre nell’ultimo punto si è introdotta
la probabilità condizionata solo per sottolineare l’esistenza di un problema diverso.
Affronteremo il condizionamento in seguito.
Svolgimento Esercizio 3. Dobbiamo considerare un urna con 10 palline dalla quale
si estrae una pallina alla volta, senza reimbussolamento. Dopo la prima estrazione
la situazione cambia e di conseguenza anche le probabilità di estrarre palline rosse o
nere. Alla seconda estrazione, P (R) e P (N ) dipenderanno da quale pallina ho estratto
la prima volta. Devo quindi introdurre gli eventi
Ri = ”R alla estrazione i-esima”
e
Ni = ”N alla estrazione i-esima”
e calcolare P (R1 N2 ) = P (N2 |R1 )P (R1 ). Inoltre, in questo caso P (R1 N2 ) = P (R2 N1 ),
perché? Daremo la soluzione di questo esercizio in seguito.
Svolgimento Esercizio 4. Anche questo esercizio ha il solo scopo di sottolineare alcuni aspetti importanti, daremo la soluzione in seguito. Siamo però in grado di fornire
una spiegazione del fatto che P (R1 N2 ) 6= P (R2 N1 ) contrariamente a quanto accadeva
nel precedente esercizio. Perché?
Svolgimento Esercizio 5.
12
Svolgimento Esercizio 6. Pensiamo ad una sequenza di numeri, da 1 a n + m. Ad
ogni amico associamo un numero. I casi favorevoli sono dati da tutti i modi in cui
posso ordinare i primi n numeri (i maschi) e tutti i modi in cui posso ordinare i numeri
da n+1 a m (le femmine), si ottiene rispettivamente P n e P m . Quindi i casi favorevoli
sono n!m! mentre i casi possibili sono dati da tutti i modi in cui posso ordinare gli n+m
numeri (amici). In definitiva, applicando l’impostazione classica della probabilità, la
P (i maschi saranno tutti vicini e di conseguenza anche le femmine)
si ottiene considerando l’ordine di arrivo e calcolando
n!m!
.
P (due gruppi distinti) =
(n + m)!
Si noti che P (due gruppi distinti) = |Cn+m,m |−1 = |Cn+m,n |−1 .
Esercizio 7. (Regola del ”ne fisso uno”) Si distribuiscono a caso 5 carte da un mazzo
di 52. Calcolare le probabilità relative agli eventi:
1. ottengo una coppia,
2. ottengo due coppie,
3. ottengo un poker,
4. ottengo un poker di assi,
5. ottengo colore.
Svolgimento Esercizio 7. Si può rispondere a tutti i punti considerando un solo caso
alla volta, vediamo come. Ricordiamo che le 52 carte sono divise in 13 carte per 4
semi. Consideriamo le 13 carte in corrispondenza con i primi 13 numeri (al numero 1
corrisponde un asso, etc.).
1. Per ottenere una coppia devo avere due carte dello stesso numero. Mi devo
chiedere quante coppie posso ottenere? Notiamo che l’evento di interesse non è
”ottengo almeno una coppia”. Fissiamo un numero, ad esempio uno (che equivale a dire, asso). Quante coppie posso formare con 4 uno? Sono |C4,2 |. Quindi,
la probabilità di ottenere una coppia di uno (di assi) si ottiene considerando i
casi possibili |C52,5 | e i casi favorevoli dati da una coppia tra quelle possibili e le
restanti 3 carte prese a caso. In quanti modi posso scegliere le restanti 3 carte?
In |C50,3 | modi di cui solo |C48,3 | mi interessano? No! Se voglio una coppia, devo
considerare
13 4 12 48
13 4 12 4 4 4
1
2
3
1
52
5
1
1
6=
1
2
3
52
5
per via delle ripetizioni possibili nelle tre carte rimanenti
3
Capitolo 1.
Osservazione e Probabilità
13
2. posso scegliere 2 numeri su 13 in |C13,2 |. Ne fisso due e per ognuno considero
le coppie possibili, poi moltiplico per il numero di combinazioni di classe uno
possibili per le restanti carte,
13 4 4 44
13 4 4 11 4
2
2
2
1
52
5
o anche
2
2
2
1
52
5
1
3. posso fare un poker con ognuno dei 13 numeri. Ne fisso uno e poi moltiplico per
13 e per le combinazioni relative alla quinta carta,
13 4 12 4
13 4 48
1
4
1
52
5
o anche
1
4
1
1
52
5
4. per fare un poker di assi, devo considerare solo gli assi, quindi
4 48
4 12 4
4
1
52
5
o anche
4
1
1
52
5
5. si ottiene un colore con 5 carte dello stesso seme. Allora fisso un seme e ottengo
4 13
1
5
52
5
Esempio 2. Nel lancio di due dadi si deve considerare uno spazio degli eventi elementari dato da
Ω = {ωi,j = (i, j) : 1 ≤ i, j ≤ 6}
cioè gli elementi ai,j = (i, j) di una matrice 6 × 6. La probabilità di ottenere una
sola coppia è costante (spazio uniforme) ed è pari a 1/36 e 36 sono gli elementi della
matrice. Si deve osservare che P (ottenere (1, 2)) = P (ottenere (2, 1)) = 1/36 mentre
P (ottenere entrambi i numeri 1 e 2) =
2
1
1
=
+
36
36 36
che introduce il concetto di eventi incompatibili (insiemi disgiunti) ed il fatto che
P (A ∪ B) = P (A) + P (B) se A ∩ B = ∅. Inoltre, si vede subito che
P (ottenere (1, 2)) =
1
1 1
= · = P (ottenere 1) · P (ottenere 2)
36
6 6
che introduce il concetto di indipendenza (eventi indipendenti e compatibili) ed il fatto
che P (A ∩ B) = P (A) · P (B). Lanciare due dadi può essere visto come lanciare due
volte un solo dado.
14
Esercizio 8. (Regola del ”procedo per iterazioni successive”) Due amici arrivano al
cancello chiuso di un palazzo e solo Mario (il custode) conosce la chiave del mazzo
che apre il cancello. Appena arrivati Mario deve rispondere al telefono e lascia il
mazzo di n chiavi all’amico Matteo chiedendogli di aprire. Matteo non sapendo quale
sia la chiave giusta, le prova tutte una ad una togliendo ogni volta dal mazzo la chiave
che non apre. Con quale probabilità Matteo proverà k chiavi?
Svolgimento Esercizio 8. Si considerino gli eventi G =”chiave giusta” e S =”chiave
sbagliata”. Allora
P (G al tentativo numero 1) =P (G) =
1
n
n−1 1
n n−1
n−1n−2 1
P (G al tentativo numero 3) =P (S)P (S)P (G) =
n n−1n−2
....
..
P (G al tentativo numero 2) =P (S)P (G) =
P (G al tentativo numero k) =P (S)P (S) · · · P (S)P (G) =
1
n
per ogni k ≤ n.
Bisogna notare che si è usato il fatto che G ⊥ S (gli eventi G e S sono indipendenti).
Questo aspetto risulterà chiaro in seguito. Notiamo inoltre che S = Gc e quindi
P (G) + P (S) = P (Ω) = 1
Esercizio 9. Una segretaria riceve 4 buste dove scrive i rispettivi indirizzi e 4 lettere
da inserire nelle buste. Risponde al telefono e dimentica quale lettera va associata
a quale indirizzo, decide di provare a caso. Calcolare la probabilità che 3 lettere
vengano inserite nelle buste giuste e quindi spedite al giusto indirizzo.
Svolgimento Esercizio 9. Se 3 lettere sono messe nella busta corretta allora anche
la quarta verrà spedita al giusto indirizzo. Se chiamo le buste A, B, C, B e le lettere
a, b, c, d, per mettere le lettere nelle buste giuste devo aver ordinato le buste e le lettere
allo stesso modo. Quindi, la probabilità cercata è 1/4!.
Esercizio 10. Mario è addetto al controllo qualità in una azienda che produce lampadine. Da precedenti controlli si sa che il 5% delle lampadine prodotte sono difettose.
1. Con quale probabilità Mario troverà una lampadina difettosa durante il controllo?
Capitolo 1.
Osservazione e Probabilità
15
2. Le lampadine vengono confezionate in scatole da 5 ogni 100 lampadine prodotte
e poi vengono imballate e sistemate in bancali da 20 scatole. Con quale probabilità Mario troverà una lampadina difettosa in una scatola da 5? Con quale
probabilità ne trova due difettose in una scatola da 5? Se controlla tutto il bancale da 20 scatole, con quale probabilità troverà una scatola con almeno una
lampadina difettosa? Infine, con quale probabilità troverà più di 5 lampadine
difettose nelle 20 confezioni di un bancale?
3. Nei precedenti controlli, come si è arrivati a dire che il 5% delle lampadine sono
difettose? Possiamo ancora considerarla un informazione attendibile?
Esercizio 11. Una ditta produce due componenti a e b che risultano difettosi rispettivamente per il 3% e 4%. La produzione avviene in reparti diversi e quindi in maniere
indipendente. I due componenti vengono poi assemblati e si ottiene il prodotto finale.
Calcolare la probabilità che
1. il prodotto finale presenti entrambi i difetti,
2. il prodotto finale sia difettoso (almeno un componente difettoso),
3. sia difettoso a sapendo che il prodotto finale è difettoso,
4. sia difettoso b sapendo che il prodotto finale è difettoso.
1.3
Statistica inferenziale
Vogliamo inferire su un particolare parametro della popolazione. Nei problemi a cui
vogliamo trovare risposta disporremo di alcune informazioni, ad esempio un campione e vogliamo caratterizzare la popolazione, ad esempio trovando un valore che ben
rappresenta un parametro (o i parametri) di tale popolazione. Tale valore è proprio una
stima del parametro. Si deve però definire il concetto di stima, per ora diciamo che
possiamo disporre dei seguenti concetti legati alla stima, supponiamo che il parametro
di interesse sia unidimensionale:
• stima puntuale, vogliamo trovare un valore che rappresenti il valore vero (un
numero);
• stima intervallare, vogliamo trovare un insieme di valori che contenga con elevata probabilità il valore vero (un intervallo),
• test di ipotesi, vogliamo verificare delle ipotesi sulle stime ottenute (ad esempio
se possiamo considerarle attendibili/affidabili).
16
Tratteremo tecniche della statistica inferenziale mirate a risolvere problemi come
quelli di seguito elencati.
Esercizio 12. Per una particolare marca di abbigliamento, si poteva assumere che il
prezzo di vendita di un capo negli passati seguiva una legge normale di media µ =
66 euro (cioè il prezzo in Italia del capo variava attorno a 66 euro seguendo una
distribuzione normale). Vengono considerati 10 negozi (presi a caso in tutta Italia) tra
i 1000 che trattano il capo in questione e si rileva, per ognuno, il prezzo di vendita di
quest’anno. Il vettore delle osservazioni è dato da
x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62).
Si vuole capire se ci sono state variazioni in termini di prezzo medio.
1. Calcolare una stima del prezzo medio di quest’anno.
2. Calcolare un intervallo che con probabilità pari al 95% contenga il prezzo
medio italiano vero (cioè di tutti i 1000 negozi).
Dal campione emerge che il prezzo medio campionario è inferiore a quello degli anni
passati.
3. Stabilire se si può sostenere che il prezzo sia cambiato (test di ipotesi) e con
quale probabilità (fiducia).
Esercizio 13. Un pescatore vorrebbe sapere, in un particolare tratto di fiume, quanto
tempo deve aspettare in media l’arrivo di un pesce (che forse abboccherà). Sa che
un modello utile nello studio del numero di arrivi è basato sulla variabile di Poisson
di parametro λ e si chiede se è veramente così, cioè se i pesci arrivano veramente
seguendo una legge di Poisson. Inoltre, se così fosse, vorrebbe sapere quanto vale λ
in modo da capire quanti pesci aspettarsi in un intervallo di tempo. Osserva in 60
minuti quanti pesce attraversano il tratto di fiume al minuto e registra le osservazioni
riportate nella Tabella 1.1.
1. Verificare se tale campione è rappresentativo e se i dubbi del pescatore sul
modello sono fondati (si può usare il modello di Poisson?).
2. Calcolare un intervallo per il tempo medio di attesa (arrivo di un pesce) che
sia valido con una probabilità del 95% (che sia al 95% il tempo medio vero che
bisogna attendere per l’arrivo di un pesce).
Svolgimento Esercizio 13
Capitolo 1.
Osservazione e Probabilità
17
numero di transiti in un minuto frequenza
0
1
2
3
4
5
12
14
21
12
4
5
3
1
Tabella 1.1: Transiti dei pesci in 60 minuti
1.4
Probabilità e Applicazioni
La statistica inferenziale è una delle molte applicazione della probabilità. Sono collegate alla statistica inferenziale anche problemi di stima per processi aleatori che sono
oggetti più complessi e prevedono, tra le altre cose, una diversa struttura di dipendenza tra le osservazioni. I processi aleatori possono rappresentare fenomeni evolutivi e
quindi dipendono dal tempo. Tali processi rappresentano fenomeni fisici, biologici,
finanziari e si possono associare a moti aleatori (di particelle o titoli ad esempio) che
seguono delle leggi governate da equazioni differenziali.
Supponiamo che Google voglia estrapolare delle informazioni dalle sue ricche basi
di dati. Le informazioni vengono immagazzinate in matrici di dati (matrici di Rn×m )
e supponiamo che sia importante, per il caso di interesse, trovare i determinanti di
tali matrici. La potenza di calcolo delle macchine di Google consente di trovare il
determinante di una matrice in due giorni ma gli Ingegneri di Google conoscono un
metodo più veloce. Le matrici sono di dimensione n×m con n, m grandissimi, troppo.
Consideriamone una, ad esempio la matrice A. Allora, si scelgono due numeri n0 e
m0 molto minori di n e m rispettivamente e si decide di calcolare il determinante della
sotto-matrice di dimensioni n0 e m0 , ad esempio A0 . Il calcolo del determinate diventa
un operazione che impegna le macchine Google solo pochi minuti ma il problema
diventa:
”esiste una scelta ottima degli elementi di A in modo da costruire la sotto-matrice
0
A tale per cui P (det(A) = det(A0 )) = max?”.
Ovviamente se tale probabilità fosse sufficientemente alta, diciamo non minore del
95%, allora Google risparmierebbe molto tempo e denaro!
Sempre Google, come può minimizzare il tempo di ricerca? I vari server in cui
si può trovare ciò che si cerca sono collegati da una fitta rete (il web) che possiamo
immaginare come una vera e propria rete costituita da archi (collegamenti tra due ser-
18
Figura 1.1: ...provate con I’m feeling lucky.
ver). Consideriamo un grafo aleatorio (random graph), cioè una successione di archi (e
quindi una successione di server). Ho scelto a caso gli archi e ho stabilito un percorso
tra i server in cui cercare ..... ” I am feeling lucky"!! La cosa ha successo se organizzo
un algoritmo di scelta per gli archi tale per cui
P ( scelta giusta ) = max.
Capitolo 2
Misura e Probabilità
Z
?
f (x)dx 6=
2.1
Z
?
Z
f (x)dµ(x) =
f (x)µ(dx)
Insiemi
Operazioni, funzioni, cardinalità
Sia A un insieme (ad esempio, N, Z, R, . . . ). Denotiamo con P(A) l’insieme dei sottoinsiemi di A. P(A) può essere considerato come un insieme di famiglie di insiemi.
Possiamo cioè considerare famiglie di insiemi di P(A), ogni famiglia è costituita da
insiemi di P(A) che condividono una certa caratteristica, la caratteristica della famiglia1 . Sia Ē il complementare di un insieme E. Scriveremo anche E c per indicare il
complementare di E.
Proposizione 1. (Formule di Boole o di De Morgan) Dati due insiemi A e B di P(A),
si ha che A ∪ B = Ac ∩ B c e (duale) A ∩ B = Ac ∪ B c .
Sia A un insieme di P(A). Si noti che
A = (A ∩ B) ∪ (A ∩ B̄)
per ogni scelta di B in P(A).
Definizione 3. Una successione Ek ⊆ P(A) si dice
• monotona non decrescente se Ek ⊆ Ek+1 per ogni k ∈ N,
1
Si pensi ad A = N, i numeri interi positivi. Possiamo considerare un insieme di numeri pari, un
insieme di numeri inferiori ad N fissato etc.. Si possono costruire famiglie più o meno complesse, più
o meno grandi.
19
20
• monotona non crescente se Ek+1 ⊆ Ek per ogni k ∈ N.
Definizione 4. Data una successione Ek ⊆ P(A):
• si dice limite superiore2 di Ek l’insieme
lim sup Ek = lim Ek =
k
∞ [
∞
\
Ek .
i=1 k=i
• si dice limite inferiore3 di Ek l’insieme
lim inf Ek = lim Ek =
k
∞ \
∞
[
Ek .
i=1 k=i
Osservazione 1. Se Ek è una successione monotona di insiemi di P(A), allora
[
Ek se la successione è crescente,
lim Ek =
k
lim Ek =
k
k∈N
\
Ek
se la successione è decrescente.
k∈N
Definizione 5. Sia E ⊆ A. La funzione 1E : A 7→ {0, 1} così definita
1 se x ∈ E
1E (x) =
,
x∈A
0 altrimenti
(2.1)
è detta funzione caratteristica4 o indicatrice dell’insieme E (anche scritta χE ). La
funzione caratteristica 1[0,∞) è detta funzione di Haeviside e viene denotata con il
simbolo H, cioè H(x) = 1[0,∞) (x).
Osservazione 2. La funzione caratteristica 1Q∩[0,1] è detta funzione di Dirichlet.
2
Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite superiore come segue
lim sup ak = inf sup ak .
k
3
n∈N k≥n
Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite inferiore come segue
lim inf ak = sup inf ak .
k
4
n∈N k≥n
Con il temine caratteristica preferiamo indicare una trasformata di densità che verrà introdotta in
seguito. Chiameremo quindi 1 funzione indicatrice.
Capitolo 2.
Misura e Probabilità
21
Definiamo la cardinalità di un insieme. Nel definire la cardinalità è importante
definire il concetto di insiemi equipotenti, due insiemi A e B sono detti equipotenti se
esiste una applicazione biunivoca f : A 7→ B, ad esempio i 7→ ki , che associa ad ogni
i ∈ I ⊂ N un elemento ki , definendo così l’insieme {ki }i∈I ∈ KI . Possiamo da I
risalire ad un elemento preciso di KI e viceversa. Diamo allora la seguente
Definizione 6. (Cardinalità) Si dice cardinalità dell’insieme A (denotata con |A|) la
famiglia degli insiemi equipotenti ad A:
|A| = {B|∃f : A 7→ B, f biunivoca}.
Segue ovviamente che |A| = |B| se A e B sono equipotenti inoltre se l’applicazione
f è del tipo f : I 7→ KI , biunivoca, segue spontaneamente l’idempotenza con un
insieme C ⊆ N, in particolare diciamo che un insieme A è numerabile se |A| ≤ |N|.
Diciamo che un insieme A è infinito se esiste un sottoinsieme proprio B ⊆ A, B 6= A
tale che |A| = |B| mentre è finito un insieme che non risulti infinito. Tutti gli insiemi
finiti sono numerabili, è facile pensare nel caso f : I 7→ KI che esista un unico n ∈ N
per cui |A| = |{1, 2, . . . , n}| e scriveremo |A| = n, abbiamo ottenuto quindi che un
insieme A è finito se e solo se vale |A| ≤ |N| quindi se è numerabile5 . Si dice invece
che un insieme ha la potenza del continuo se risulta |A| = |R|.
Definizione 7. (Insieme numerabile) Un insieme A è detto numerabile se esiste una
funzione iniettiva f : A 7→ N . Se f è anche una funzione suriettiva (quindi è
biunivoca), allora A è chiamato insieme infinito numerabile.
Si noti che |{a, b, f, 3, h}| = 5.
Famiglie
Sia A un insieme, P(A) la famiglia dei sottoinsiemi di A.
Definizione 8. (Algebre) Una famiglia A ⊆ P(A) è detta algebra su A se
1. {∅} ∈ A;
2. E ∈ A ⇒ Ē ∈ A;
3. E, F ∈ A ⇒ E ∪ F ∈ A
5
Vale la pena di notare che l’insieme dei razionali Q = {p/q|p ∈ Z, q ∈ N} è numerabile mentre
non lo è l’insieme [0, 1]
22
Quindi ogni algebra è stabile rispetto alla unione finita (o numerabile), nel senso
che l’operazione di unione su insiemi di A porta ad un insieme di A, inoltre è numerabile visto che a due a due possono formarsi le unioni di tutti gli elementi di A. Ogni
famiglia non vuota A ⊆ P(A) stabile per il passaggio al complementare e per unione
finita contiene l’insieme vuoto {∅} e quindi è un’algebra.
Definizione 9. (σ-algebre) Una famiglia A ⊆ P(A) è detta σ-algebra su A se
1. {∅} ∈ A;
2. E ∈ A ⇒ Ē ∈ A;
3. per ogni successione {Ek } ⊆ A risulta
∞
[
Ek ∈ A.
k=1
La coppia (A, A) è detta spazio misurabile e gli elementi di A sono insiemi misurabili.
Si noti che una σ-algebra è un’algebra stabile per unioni numerabili ed inoltre vale
la seguente relazione tra algebra e σ-algebra.
Proposizione 2. Sia A un’algebra. Le affermazioni seguenti sono equivalenti:
1. A è una σ-algebra;
2. per ogni {En } ⊆ A risulta lim En ∈ A.
Definizione 10. Sia (A, A) uno spazio misurabile ed F ⊂ A. La σ-algebra AF =
A ∩ F è detta σ-algebra indotta da A su F .
2.2
Misure positive e di Lebesgue
Sia A un insieme, A0 ⊆ P(A) una famiglia tale che {∅} ∈ A0 .
Definizione 11. Una applicazione µ : A0 7→ R+ è detta misura positiva (o misura) su
A0 se
1. µ({∅}) = 0;
Capitolo 2.
Misura e Probabilità
23
2. (σ-additività) per ogni successione {Ek ⊆ A0 } di insiemi disgiunti tali che
∞
[
Ek ∈ A0
k=1
risulta
µ
∞
[
!
Ek
k=1
=
∞
X
µ(Ek ).
k=1
Osservazione 3. Osserviamo che se A ∈ A implica che Ā ∈ A, allora A0 = A è una
σ-algebra.
Definizione 12. Una misura µ si dice finita se prende valori in R+ . Si dice σ-finita se
esiste una successione {Ek } ⊆ A0 tale che
A=
∞
[
Ek ,
µ(Ek ) < ∞
∀k ∈ N.
k=1
Osservazione 4. Supponiamo che µ(Ek ) = 1/2k . Allora (si veda sotto, la serie
geometrica)
µ(A) =
∞
X
k=1
µ(Ek ) =
∞
∞
X
X
1
1
1
=
−
1
=
− 1 = 1.
k
k
2
2
1
−
1/2
k=0
k=1
Definizione 13. Sia A ⊆ P(A) una σ-algebra, µ : A 7→ R+ una misura.
• La terna (A, A, µ) è detta spazio di misura. Se µ è finita (σ-finita) lo spazio di
misura è detto finito (σ-finito).
• Se µ(A) = 1 lo spazio (A, A, µ) è detto spazio di probabilità e la misura µ è
detta misura di probabilità.
Diamo ora alcune proprietà delle misure:
Proposizione 3. Sia (A, A, µ) uno spazio di misura. Allora:
1. monotonia: E ⊆ F ⇒ µ(E) ≤ µ(F );
S
P
2. additività: µ ( nk=1 Ek ) = nk=1 µ(Ek );
S
P∞
3. subadditività: ∀ {Ek } ⊆ A ⇒ µ ( ∞
k=1 Ek ) ≤
k=1 µ(Ek );
4. perSogni successione non decrescente {Ek } ⊆ A vale
µ( ∞
k=1 Ek ) = limk→∞ µ(Ek );
24
5. perTogni successione non crescente {Ek } ⊆ A tale che µ(E1 ) < ∞ vale
µ( ∞
k=1 Ek ) = limk→∞ µ(Ek )
Proposizione 4. (Misura di Lebesgue) Valgono le seguenti:
1. ogni intervallo limitato Ia,b = (a, b) è misurabile secondo Lebesgue e risulta
µ(Ia,b ) = b − a,
2. ogni intervallo non limitato I è misurabile secondo Lebesgue e risulta
µ(I) = ∞.
Osservazione 5. (Lunghezza di un intervallo) Si consideri la misura di Lebesgue µ,
allora dµ = µ(dx) = dx e
Z
Z
µ(dx) = b − a.
(2.2)
dµ =
µ(Ia,b ) =
Ia,b
Ia,b
Esercizio 14. Sia Q il quadrato {(0, 0), (1, 0), (1, 1), (0, 1)}. Calcolare:
1. misura di Lebesgue µ(Q) di Q,
2. area di Q.
Definire un rettangolo R e calcolare:
1. misura di Lebesgue µ(R) di R,
2. area di R.
Osservazione 6. Notiamo che µ([a, b]) = µ({a} ∪ (a, b) ∪ {b}) = µ((a, b)) visto che
µ({a}) = µ({b}) = 0. Vale infatti quanto sotto riportato.
Proposizione 5. Ogni sottoinsieme numerabile di R è misurabile secondo Lebesgue e
ha misura nulla.
Definizione 14. (Insiemi di misura nulla) Un insieme N ⊆ A si dice di misura nulla
(e scriviamo N ∈ N , dove N è la famiglia degli insiemi di misura nulla) se N ∈ A e
µ(N ) = 0.
Inoltre un insieme E ∈ A si dice trascurabile se esiste un insieme N ∈ N tale che
E ⊆ N.
Capitolo 2.
Misura e Probabilità
25
Osservazione 7. Se µ è ancora la misura di Lebesgue, sappiamo che µ(0, ∞) = ∞.
Se consideriamo una misura diversa, ad esempio dµ = µ(dx) = e−x dx (cioè la misura
esponenziale), si ottiene
Z
Z ∞
e−x dx = 1.
µ(0, ∞) =
dµ =
(0,∞)
0
Esercizio 15. Calcolare µ(−1, ∞) se
1. µ(dx) = 1(−2,2) (x)dx,
2. µ(dx) = x−α−1 1[1,∞) (x)dx, α ∈ (0, 1),
3. µ(dx) = λe−λx 1(0,∞) (x)dx, con λ > 0,
4. µ(dx) = (1 + x2 )−1 1R (x)dx,
√
2
5. µ(dx) = e−x /2 / 2π1R (x)dx.
Definizione 15. (Misura che conta) Sia A un insieme. L’applicazione µ] : P(A) 7→
R+ definita come segue
|E| = numero di elementi di E, se E è finito
]
µ (E) =
∞,
altrimenti
è una misura di conteggio.
Definizione 16. (Misura di Dirac6 ) Sia A un insieme. L’applicazione µδ : R×P(A) 7→
{0, 1} relativa ad E ∈ P(A) definita come segue
1, x ∈ E
δ
µ (x) =
,
x∈R
0, altrimenti
è una misura di presenza/assenza.
6
Si noti che qui si sta parlando della misura di Dirac e non della delta di Dirac che è una funzione
generalizzata indicata con δy (x) = δ(x − y) indicando così che è una funzione di x centrata in y, spesso
y = 0 e si dice centrata
in zero. La funzione di Dirac vale zero in tutti i punti x 6= y, vale ∞ in x = y
R
ed è tale per cui B δ(x − y)dx = 1 se y ∈ B con B ⊆ R. Inoltre, in generale
Z
δ(x − y)f (y)dy = f (x), (prima si è considerata f = 1B ).
R
26
Quindi fissato E ∈ P(A), si ha µδ : x ∈ R 7→ {0, 1}. Si poteva scrivere µδE (x)
oppure µδ (x, E), preferiamo non mantenere il riferimento ad E per non appesantire la
notazione, nel seguito sarà sempre chiaro a quale E ci riferiamo. Notiamo anche che
µδ (x, E) = 1E (x) e
X
dµδ = µδ (dx) = µδ (dx, E) =
δy (x)dx.
y∈E
Si noti che
Z
]
µ (A) =
dµδ ,
A⊂Z
A
se E = Z, cioè se dµδ = µδ (dx, Z).
Osservazione 8. Giusto per fissare bene le idee. Sia E = Z ed A = {−3, −1, 4}.
Allora,
Z
Z
Z
Z
XZ
δ
δk (x)dx =
δ−3 (x)dx + δ−1 (x)dx + δ4 (x)dx = 3.
dµ =
A
k∈A
R
R
R
R
Definizione 17. Sia (A, A, µ) uno spazio di misura ed F ⊂ A. La restrizione di µ alla
σ-algebra indotta AF = A ∩ F è una misura denotata con µF è detta misura indotta
da µ su AF .
Consideriamo uno spazio di misura (A, A, µ) e diamo la seguente caratterizzazione
di ”affermazione valida quasi ovunque”. Notiamo che la famiglia N dipende dalla
misura µ, nel senso che un insieme può essere di misura nulla rispetto ad una misura
ma non rispetto ad un altra scelta opportunamente. Si può allora scrivere Nµ per
sottolineare questo fatto. Inoltre, tala famiglia è chiusa rispetto all’unione numerabile.
Diciamo inoltre che una certa affermazione A[f (x)] su una data funzione f : A 7→
R è vera quasi ovunque (o q.o.) rispetto alla misura µ se
{x ∈ A tali che A[f (x)] è falsa} ∈ Nµ .
Quindi, date due funzioni f : A 7→ [−∞, +∞] e g : A 7→ [−∞, +∞], diremo che
• f è finita q.o. se {x ∈ A : f (x) = ±∞)} ∈ N ,
• f = g q.o. se {x ∈ A : f (x) 6= g(x)} ∈ N ,
• f : D 7→ [−∞, +∞] è definita q.o. se A \ D ∈ N (dove A \ D = Dc è il
complementare di D).
Capitolo 2.
Misura e Probabilità
27
Di esempi come quelli sopra riportati, come vedremo in seguito, se ne possono fare a
piacimento ed il concetto ”affermazione valida q.o.” gioca un ruolo chiave nella teoria
delle probabilità. Sostituiremo infatti la dicitura q.o. con q.c. (quasi certamente) se
µ = P è una misura di probabilità. In particolare, scriveremo
q.o.
f = g
se e solo se µ({x ∈ A : f (x) 6= g(x)}) = 0
(2.3)
ed in maniera analoga negli altri casi (con riferimento alla misura µ, cioè µ-q.o. oppure
P -q.c.). Consideriamo le funzioni
0, x ≤ 0
1, x 6= 0
F (x) =
e f (x) =
.
1, x > 0
0, x = 0
La funzione F è continua q.o. in R rispetto alla misura di Lebesgue. La funzione f
ha un punto di discontinuità e possiamo dire che f = 1R q.o. rispetto alla misura di
Lebesgue dove la funzione indicatrice (o identità) è continua in R. Infatti, in entrambi
i casi µ({x}) = 07 .
2.3
Funzioni misurabili e spazi di Lebesgue
Gli spazi di Lebesgue possono intendersi come una classe di equivalenza per funzioni
misurabili. Indichiamo con M l’insieme delle funzioni misurabili. Ricordiamo che
uno spazio è misurabile se possiamo associare a tale spazio una σ-algebra, allora ogni
insieme di tale spazio è misurabile.
Definizione 18. Siano (X, A) e (X 0 , A0 ) due spazi misurabili. Una funzione f : X 7→
X 0 è detta misurabile se per ogni insieme E 0 ∈ A0 risulta f −1 (E 0 ) ∈ A. Se cioè
f −1 (E 0 ) è misurabile per ogni E 0 ∈ A0 .
Definendo allora X 0 = R ∪ {−∞, ∞} ed α ∈ R possiamo scrivere che se
{f > α} = {x ∈ X|f (x) > α} = f −1 ((α, ∞]) ∈ A
allora f ∈ M. Si potevano anche considerare gli insiemi
{f < α},
{f ≤ α},
{f ≥ α}
e loro intersezioni, unioni, complementari. Si noti il collegamento con (1.8), le variabili aleatorie sono funzioni misurabili. Un esempio di funzione non misurabile rispetto
alla misura µ può essere dato dalla funzione indicatrice f (x) = 1E (x) se E (e quindi
7
Si noti che vale per ogni punto x, non solo in x = 0 come in questo caso.
28
E c ) non è misurabile rispetto a µ. Quindi insiemi non misurabili rispetto ad una certa
misura portano a funzioni non misurabili rispetto a quella misura8 .
Esercizio 16. Data f (x) = x2 , verificare se {f ≤ α} è misurabile rispetto alle misure
in Esercizio 15.
Definizione 19. (Spazi di Lebesgue) Sia (X, A, µ) uno spazio di misura. Sia M(X, A)
l’insieme delle funzioni misurabili in X. Per ogni p ∈ [1, ∞] sia
Lp (X, A, µ) = {f ∈ M(X, A) | kf kp < ∞},
lo spazio di Lebesgue di ordine p, dove
 Z
1/p


p

|f | dµ
,
X
kf kp =


sup |f |,

p ∈ [1, ∞)
(2.4)
p = ∞.
X
Indicheremo tale classe di equivalenza semplicemente con Lp .
Introduciamo la funzione semplice f : A 7→ R definita da
f (x) =
∞
X
cn 1An (x)
(2.5)
n=1
dove 1A (x) = 1(x∈A) . Se An = {n}, allora 1{n} (x) = 1(n=x) è la funzione indicatrice
dell’insieme {n} ed in questo caso, la funzione f (k) = ck è quindi una successione
in k ∈ N. Se inoltre consideriamo la misura di Dirac relativa ai naturali, dµδ =
µδ (dx, N), notiamo che
Z
X Z
X
δ
f (x)µ (dx) =
cy δy (x)dx =
cy .
R
R
y∈N
y∈N
Inoltre, considerato un insieme B ⊂ R, scriviamo
Z
X Z
X
δ
f (x)µ (dx) =
cy
δy (x)dx =
cy 1B (y)
B
y∈N
B
y∈N
dove si è usato il fatto che
Z
δy (x)dx = 1B (y).
B
8
Esempi banali ma forse di aiuto: non posso certo misurare la temperatura di un corpo con il metro,
non posso neanche misurare le altezze con la bilancia. È importante considerare la dimensione degli
oggetti in questione!
Capitolo 2.
Misura e Probabilità
29
Esercizio 17. Dire se la funzione f (x) = x−1 1[1,∞) (x), x ∈ R è di Lp per qualche
p ≥ 1.
Definizione 20. Sia (X, A, µ) = (N, P(N), µ] ) dove P(N) è l’insieme dei sottoinsiemi
di N, e µ] è la misura di conteggio. Lo spazio Lp (N, P(N), µ] ) viene indicato con lp e
per una successione {cn } ∈ lp vale

!1/p
Z
1/p
∞

X



=
|cn |p
|f |p dµ]
< ∞,
p ∈ [1, ∞)
N
k{cn }kp =
(2.6)
n=1



sup |f (n)| = sup |cn | < ∞,
p=∞

N
dove si è posto
f=
N
∞
X
cn 1{n} .
n=1
Diamo il seguente teorema a scopo puramente illustrativo (ed introduttivo!!).
Teorema 1. Sia p ∈ [1, ∞], {fn } ⊆ Lp una successione di Cauchy. Allora esiste
f ∈ Lp tale che
kfn − f kp → 0.
Stiamo quindi dicendo in che senso fn → f se n → ∞9 . Sembra utile introdurre
alcune questioni legate alle convergenze di funzioni già accennate nel teorema precedente. In particolare, facciamo notare quali tipi di convergenza si possono considerare.
Sia (A, A, µ) uno spazio di misura e f : A → B, fn : A → B con n ∈ N due funzioni
date, possiamo trovarci nelle seguenti situazioni:
♣ (conv. semplice o puntuale ) sia B = (−∞, +∞), allora fn → f in A se
∀x ∈ A
∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗
si ha
|fn (x) − f (x)| < (2.7)
♣ (conv. uniforme) sia B = (−∞, +∞), allora fn → f in A se
∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗
si ha
|fn (x) − f (x)| < ∀ x ∈ A (2.8)
oppure, se
kfn − f k∞ = sup |fn (x) − f (x)| → 0.
(2.9)
x∈A
Possiamo dimostrare che Lp è uno spazio di Banach rispetto alla metrica indotta dalla norma k · kp .
Dato uno spazio di Banach (X, k · k), si dice base per tale spazio un insieme B ⊂ X, costituito da
elementi linearmente indipendenti e tali che lo spazio generato da B sia denso in X (o ogni elemento di
X possa scriversi come combinazione lineare di elementi di B). Si dice poi che X è separabile se esiste
una base costituita da un numero finito di vettori o al più da una infinità numerabile.
9
30
♠ (conv. in misura) siano fn , f ∈ M(A, A) finite q.o., n ∈ N. Allora fn → f in
µ
misura (e scriviamo fn → f ) se
µ({x ∈ A : |fn (x) − f (x)| ≥ }) → 0 per ogni > 0 se n → ∞.
(2.10)
♠ (conv. quasi ovunque) sia B = [−∞, +∞], allora fn → f in A se
{x ∈ A : lim fn (x) = g(x) e f (x) 6= g(x)} ∈ N
n→∞
(2.11)
♠ (conv. in Lp ) sia B = [−∞, +∞], Lp = Lp (A, A, µ) e {fn } ∈ Lp , f ∈ Lp .
Allora fn → f in A se
∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗
dove
Z
kfn − f kp =
si ha kfn − f kp < 1/p
|fn (x) − f (x)| µ(dx)
.
p
(2.12)
(2.13)
A
Ci sono interessanti collegamenti tra convergenze, noi affronteremo tali questioni
nel caso µ sia una misura di probabilità. Diciamo qualche parola sulla convergenza
puntuale (o pointwise), siano fn , f definite in D, se
∀ x ∈ D0 ⊆ D, ∀ > 0, ∃ n∗ = n∗ (x, ) : ∀n > n∗
si ha
|fn − f | < diciamo che fn → f pointwise in D0 ed n∗ dipende da x e . Può accadere quindi
che per qualche x non posso trovare nessun n∗ che verifichi la condizione di convergenza. Se una successione converge uniformemente, n∗ non dipende dalla scelta di x,
fn converge infatti in maniera uniforme. Inoltre, se fn → f ∗ (puntualmente o uniformemente) e se f ∗ = f quasi ovunque rispetto ad una misura µ (µ-q.o) diciamo che
fn → f (puntualmente o uniformemente) µ-q.o..
Esercizio 18. Si calcoli
Z
x
f (u)du,
x∈R
−∞
nei due casi
1, x ∈ (0, 1) ∪ (1, 3)
f (x) =
0, altrove
oppure
f (x) =
1, x ∈ (0, 2) ∪ (2, 3)
.
0, altrove
(2.14)
Capitolo 2.
Misura e Probabilità
31
Esempio 3. Consideriamo la funzione fn (x) = n1 per ogni x ∈ R. Si vede che fn → 0
per ogni x ∈ R (convergenza puntuale), inoltre kfn − 0k∞ = n1 → 0 per ogni x ∈ R
(convergenza uniforme).
Esempio 4. Studiamo fn (x) = nx , x ∈ R. Fissato x, si vede subito che fn →
0 (convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈R |x| = ∞ (non converge
uniformemente).
√
√
Esempio 5. Studiamo fn (x) = nx , x ∈ D = [− n, + n]. Fissato x, fn → 0
(convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈D |x| = √1n → 0 (converge
uniformemente).
Esempio 6. Sia ora fn (x) = sinxnx , x ∈ R. Si ottiene fn → 0 (puntualmente) infatti
sin nx ∈ [−1, 1] è una funzione limitata. Inoltre, kfn − 0k∞ ≤ n1 → 0 (convergenza
uniforme).
Esercizio 19. Fornire una rappresentazione caratteristica (elementare) dell’insieme
{f > α} se:
1. f (x) = log x, α = 1,
2. f (x) = e−x , α = 0.
Esercizio 20. Fornire una rappresentazione caratteristica (elementare) dell’insieme
{f ∈ A} se:
1. f (x) = log x, A = (1, 2),
2. f (x) = e−x , A = (1, ∞).
Esercizio 21. Si dica se le seguenti funzioni sono continue o misurabili:
1. f (x) = 1(1,3] (x) + 1(4,5) (x);
2. h(x) = sin x;
3. g(x) = sin x + 2 cos x;
4. v(x) = c1 1(−1,0) (x) + c2 1(0,1) (x) con c1 , c2 > 0.
Esercizio 22. Studiare la continuità delle seguenti funzioni:
f (x) = 1(1,3] (x) + 1(3,5) (x);
h(x) = 1(1,3) (x) + 1(3,5) (x);
g(x) = 1(1,3) (x) + 1[3,5) (x).
32
Esercizio 23. Si dica se le seguenti successioni convergono pointwise. (Dove?)
1. fn (x) = xn , x ∈ [0, 1].
2. fn (x) = (n + 1)−1/2 sin(nx + 3), x ∈ R.
3. fn (x) = n−2 (nx + x2 ), x ∈ R.
Esercizio 24. Studiare la convergenza in misura della successione fn (x) = xn con
x ∈ [0, 1].
Esempio 7. Sia fn (x) = nx(1−x2 )n , x ∈ [0, 1]. Si vede subito che fn (0) = fn (1) = 0
e fn → 0 per ogni x ∈ (0, 1) (infatti, se a > 1, n/an → 0 per n → ∞). Inoltre,
n
n
1
kfn − 0k∞ = √
1−
2n + 1
2n + 1
n
2n+1 ! 2n+1
n
1
=√
1−
2n + 1
2n + 1
dove

n
 lim
n→∞
2n + 1 n→∞
−1/2 n
= lim √
e
n→∞
2n + 1
lim kfn − 0k∞ = lim √
n→∞
1−
1
2n + 1
n
2n+1 ! 2n+1


e quindi kfn − 0k∞ → +∞ (non converge uniformemente). Vogliamo sottolineare che
Z
Z
fn (x)dx 6=
lim
n→∞
1
0
1
lim fn (x)dx = 0.
0 n→∞
Infatti, per ogni n,
Z
0
1
1
fn (x)dx = .
2
Quindi la convergenza puntuale non è sufficiente per il passaggio al limite sotto il
segno di integrale.
q
Esercizio 25. Dimostrare che la funzione fn (x) = x2 + n1 , x ∈ R converge puntualmente e uniformemente. Studiare la convergenza di fn0 e confrontarla con f 0 .
Capitolo 2.
Misura e Probabilità
33
Esempio 8. Consideriamo ancora fn (x) =
sin nx
.
n
lim fn0 (x) 6= f 0 (x) =
n→∞
Si vede subito che
0
lim fn (x) .
n→∞
Basta vedere che fn0 (0) = 1 per ogni n mentre f 0 (x) = 0 per ogni x. Quindi la
convergenza uniforme di fn non è sufficiente per il passaggio al limite sotto il segno di
derivata.
Osservazione 9. Consideriamo gli insiemi
A ={x ∈ R : f (x) = 0} ∈ Nµ
B ={x ∈ R : f (x) = ∞} ∈ Nµ
e l’integrale
Z
ID (f ) =
f (x)µ(dx)
D
dove, solo per semplicità prendiamo µ(dx) = dx, la misura di Lebesgue. Si deve
notare che A e B sono insiemi di misura nulla ma
ID (f ) = ID\A (f ) < ∞ se A ⊆ D, B ∩ D = ∅,
ID (f ) = IB (f ) = ∞ se B ⊆ D.
Osservazione 10. Quanto abbiamo detto si può estendere a spazi Lp (X, A, m) dove
dm = ϕdµ
(2.15)
e m è detta misura con densità ϕ rispetto alla misura µ. Dato A ∈ A, scriveremo
Z
Z
f (x)dm(x) =
f (x)ϕ(x)dµ(x).
A
A
Non tutte la misure ammettono densità.
Alcune disuguaglianze
Definizione 21. Una funzione reale, due volte differenziabile f è detta:
i) convessa se f 00 (x) ≥ 0 per ogni x,
ii) concava se f 00 (x) ≤ 0 per ogni x.
34
Teorema 2. (Dis. di Jensen) Sia µ una misura positiva su Ω tale che µ(Ω) = 1. Sia
f ∈ L1 (Ω) tale che a < f (x) < b per ogni x ∈ Ω e ϕ una funzione convessa. Allora10
Z
ϕ
f dµ
Ω
Z
≤
(ϕ ◦ f )dµ.
(2.16)
Ω
Diamo inoltre la seguente definizione.
Definizione 22. (Esponenti coniugati) Se p e q sono numeri reali positivi tali che
p + q = pq
oppure
1 1
+ = 1,
p q
allora chiamiamo p e q, coppia di esponenti coniugati.
Teorema 3. (Dis. di Hölder) Siano p e q esponenti coniugati e 1 ≤ p ≤ ∞. Se
f ∈ Lp (µ) e se g ∈ Lq (µ), allora
kf gk1 ≤ kf kp kgkq
(quindi f g ∈ L1 (µ)).
(2.17)
Teorema 4. (Dis. di Minkowski) Sia 1 ≤ p ≤ ∞. Se f ∈ Lp (µ) e se g ∈ Lp (µ), allora
kf + gkp ≤ kf kp + kgkp
(quindi f + g ∈ Lp (µ)).
(2.18)
Le disuguaglianze appena introdotte valgono anche negli spazi lp = Lp (µ] ) della
Definizione 20, non solo negli spazi Lp (µ) della Definizione 19. Valgono quindi anche
per successioni. Per p = 1 con µ misura di Lebesgue (solo per comodità) e g = 1
(identicamente uguale alla funzione unità), dalla dis. di Hölder si ottiene
Z
Z
f (x)dx ≤ |f (x)|dx
mentre dalla dis. di Minkowski si ottiene
Z
Z
Z
|f (x) − g(x)|dx ≤ |f (x)|dx + |g(x)|dx.
10
Ricordiamo che ϕ ◦ f è la composizione di ϕ e f , cioè ϕ(f (x)).
Capitolo 2.
2.4
Misura e Probabilità
35
Misure di Probabilità -
Assiomi di base della probabilità (assiomi di Kolmogorov)
Possiamo esporre la teoria delle probabilità a partire da alcuni assiomi attorno ai quali
estendere quanto si è visto sino ad ora. In particolare:
1. Gli eventi sono sottoinsiemi di uno spazio Ω e formano una classe additiva A.
2. Ad ogni evento A ∈ A è associato un numero reale non negativo P (A) che viene
detto probabilità di A.
3. P (Ω) = 1.
4. A ∩ B = {∅} ⇒ P (A ∪ B) = P (A) + P (B).
5. Se {An , n = 1, 2, . . .} è una successione decrescente di eventi e limn→∞ An =
{∅}, si ha limn→∞ P (An ) = 0
Resta definito a questo punto uno spazio di probabilità (Ω, A, P ). La classe additiva o
σ-algebra A è una classe di insiemi non vuota e chiusa (stabile) rispetto alla negazione
e all’unione numerabile (la chiusura appena menzionata vuole intendere che tale classe è costituita da elementi, gli insiemi, che possono essere uniti formando un nuovo
insieme appartenente alla classe e che preso il complementare di ognuno di essi, della
negazione o dell’unione appena ricordata, tale complementare appartiene ancora alla
classe). Una immediata conseguenza è che {∅} ∈ A, Ω ∈ A e ∪n An ∈ A per ogni
successione {An } ∈ A.
La misura P è quindi una misura di probabilità, in particolare è una misura del tipo
(2.15). Diremo che Ω è l’insieme fondamentale o spazio fondamentale, spazio campionario, insieme degli eventi. In un esperimento o nel lancio di un dado si ottiene uno
degli eventi di Ω, se pensiamo al dado l’evento A ∈ A può essere A =00 si ottiene 100 .
Lo spazio degli eventi A o anche algebra degli eventi è l’insieme di tutti gli eventi
casuali che si possono ottenere in un certo esperimento. Supponiamo che nel lancio di
un dado sia A =“si ottiene un numero pari”= {2, 4, 6} = {2}∪{4}∪{6}, la σ-algebra
A sarebbe allora A = {∅, A, Ā, Ω} dove
Ā ={2} ∪ {4} ∪ {6} = {1, 3, 4, 5, 6} ∩ {1, 2, 3, 5, 6} ∩ {1, 2, 3, 4, 5},
quindi se Ω è l’insieme degli eventi possibili, A è l’insieme degli eventi di interesse relativamente all’esperimento (sopra si è usata la legge di DE MORGAN o di BOOLE).
Sembra utile chiarire un formalismo che in realtà è anche una importante sfumatura
teorica, l’evento P ({1, 2, 3}) nel lancio di un dado può essere riscritto P ({1, 2, 3}) =
P ({1}∪{2}∪{3}) e rappresenta l’evento S
P (esce 1 oP
2 o 3) = P (esce 1)+P (esce 2)+
P (esce 3). Allo stesso modo P (Ω) = P ( r Ar ) = r P (Ar ) = 1 sotto le condizione
dell’assioma 4.
36
Eventi complementari Diciamo che B è il complementare di A e scriviamo B = Ā
oppure B = Ac se
A∪B =Ω e
A ∩ B = ∅.
Eventi incompatibili. Diciamo che due eventi E, F sono incompatibili se E ∩ F =
{∅}. Per gli eventi E =“mi trovo a Parigi”, F =“mi trovo a Roma” si ottiene E ∩ F =
”mi trovo a Parigi e a Roma” = “evento impossibile”.
Definizione 23. Dato un insieme finito di eventi {Ar }r=1,...,n a due a due incompatibili,
la probabilità dell’unione di tutti gli eventi è uguale alla somma delle probabilità degli
eventi. In simboli
n
n
[
X
Ai ∩ Aj = {∅} per i 6= j ⇒ P ( Ar ) =
P (Ar ).
(2.19)
r=1
r=1
Esempio 9. Gli eventi E =”mi trovo a Pisa” e F =”vedo la torre Eiffel” sono eventi
incompatibili.
Esercizio 26. Consideriamo gli eventi E =“piove”, F =“cado scendendo le scale”.
Che tipo di eventi sono?
Intersezione con un evento certo. Un evento è certo se si verifica con probabilità
pari ad 1. Dato un evento certo che indichiamo con Ω (e quindi P (Ω) = 1) è sempre
possibile individuare un evento A tale che A∪Ac = Ω. Si vede subito che P (A∩Ac ) =
0, i due eventi sono incompatibili (osserviamo anche che P (A) + P (Ac ) = 1). Dato
un evento E ∈ Ω, è estremamente utile ricordare la seguente decomposizione
P (E) = P (E ∩ Ω) = P (E ∩ (A ∪ Ac )) = P ((E ∩ A) ∪ (E ∩ Ac )).
Si vede subito che (E ∩ A) ∩ (E ∩ Ac ) = {∅} quindi dalla (2.19) segue che
P (E) = P (E ∩ A) + P (E ∩ Ac ).
(2.20)
Esercizio 27. Si rappresenti graficamente quanto appena detto mediante i digrammi
di Eulero-Venn.
Eventi compatibili. Diremo che due eventi sono compatibili se non sono incompatibili. Se quindi non si escludono.
Prima di proseguire ricordiamo il principio di induzione già introdotto nei corsi
precedenti : Sia Ak dipendente da un indice k ∈ N una affermazione vera per k = 1 e
supponiamo che sia vera per un certo k = n. Se è vera anche per k = n + 1, allora
Ak è vera per ogni k ∈ N.
Diamo ora il seguente risultato.
Capitolo 2.
Misura e Probabilità
37
Teorema 5. (Disuguaglianza di Boole) Per una successione finita o numerabile di
eventi {Ar }r=1,...,n si ha
n
n
[
X
P ( Ar ) ≤
P (Ar )
r=1
r=1
Dimostrazione. Introduciamo una successione arbitraria di eventi
Fr = Ar \
r−1
[
Ak ,
r = 1, 2, . . . , n
k=1
e procediamo per induzione nel dimostrare che
n
[
Ar =
n
[
Fr .
(2.21)
A \ B = A ∩ Bc
(2.22)
r=1
r=1
Sarà utile ricordare la relazione
dove B c = B̄ è il complementare di B (verificate utilizzando i diagrammi di Venn).
Se vede subito che A1 = F1 per costruzione. Supponiamo che (2.21) sia vera per n − 1
e verifichiamo per n. Si ottiene
!
n
n−1
[
[
Fr =
Fr ∪ Fn
r=1
=
=
r=1
n−1
[
r=1
n−1
[
!
∪ Fn
Ar
(assunzione)
!
∪
Ar
An \
r=1
=
=
=
n−1
[
r=1
n
[
!
Ar
∪
An ∩
n−1
[
!
Ak
k=1
n−1
[
(definizione)
!c !
Ak
(dalla (2.22))
k=1
!
Ar
∩Ω
r=1
n
[
Ar .
r=1
Quindi la (2.21) è dimostrata. La scelta della successione Fr non è stata arbitraria.
Infatti si può verificare facilmente che gli insieme di tale successione sono a due a due
38
disgiunti (la verifica è lasciata al lettore, si consideri ad esempio F2 ∩ F1 ). Possiamo
allora scrivere
P(
n
[
Ar ) =P (
r=1
n
[
Fr )
(per quanto appena dimostrato)
r=1
=
≤
n
X
r=1
n
X
P (Fr )
(per il quarto assioma o per la additività di P )
P (Ar )
r=1
dove si è utilizzato il fatto che P (Fr ) ≤ P (Ar ) termine a termine. Questo fatto segue
ancora dalla definizione della successione Fr . Infatti, si vede subito che P (F1 ) =
P (A1 ), P (A2 \ A1 ) ≤ P (A2 ) etc.. La dimostrazione è conclusa.
Osservazione 11. Se Ak ∩ As = ∅ per ogni s 6= k, allora Fk = Ak e P (Fk ) = P (Ak )
per ogni k. Vale il segno di uguale nella dis. di Boole.
La legge delle probabilità totali. Siano A e B due eventi compatibili. Allora,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
(si dimostri graficamente). Inoltre, se A,B,C sono eventi compatibili,
P (A ∪ B ∪ C) =P (A) + P (B) + P (C)
−P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C)
Ovviamente si può procedere con più di tre eventi. Lasciamo questo esercizio al lettore
interessato, si noti che un modo di procedere è il metodo grafico (diagrammi di Venn).
La legge delle probabilità composte. Siano A e B due eventi. Allora,
P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A)
dalla quale si ricava anche
P (A|B) =
P (A ∩ B)
P (B)
e P (B|A) =
P (A ∩ B)
.
P (A)
L’evento A|B si legge A dato il verificarsi di B, presuppone quindi una dipendenza di
A da B. Prima di andare a vedere in quanti modi può verificarsi A bisogna distinguere
tra i casi possibili di B e capire come il verificarsi di B modifica il verificarsi di A.
Capitolo 2.
Misura e Probabilità
39
Esempio 10. Sia A ="mi rompo un braccio" un evento, non troppo felice! Sia
B ="piove" un secondo evento. Allora A|B può avere un senso, posso cioè rompermi il braccio cadendo e cado perché piove. Forse, col sole non sarei caduto! C’è
quindi una probabilità positiva (cioè diversa da zero) per l’evento A|B.
Esempio 11. Siano A ="mi rompo l’altro braccio" e B ="mio fratello è nato il 4
luglio". Cosa posso dire?
Esempio 12. Dal lancio di due dadi regolari, diciamo D1 e D2 , voglio calcolare la
probabilità che sia uscita la faccia 1 sapendo che la somma dei numeri sulle facce è
3. Allora,
P ({1}|somma = 3) =P ((D1 = 1) ∪ (D2 = 1)|D1 + D2 = 3)
P ([(D1 = 1) ∪ (D2 = 1)] ∩ (D1 + D2 = 3))
=
P (D1 + D2 = 3)
P ([(D1 = 1) ∩ (D1 + D2 = 3)] ∪ [(D2 = 1) ∩ (D1 + D2 = 3)])
=
P (D1 + D2 = 3)
P ((D1 = 1) ∩ (D2 = 2)) + P ((D1 = 2) ∩ (D2 = 1))
=
P (D1 + D2 = 3)
=1.
Esempio 13. Seguendo il precedente esercizio, vediamo invece che
P ([(D1 = 1) ∩ (D1 + D2 = 4)] ∪ [(D2 = 1) ∩ (D1 + D2 = 4)])
P (D1 + D2 = 4)
P ((D1 = 1) ∩ (D2 = 3)) + P ((D1 = 3) ∩ (D2 = 1))
=
P (D1 + D2 = 4)
1
2
=
·
P (D1 + D2 = 4) 36
P ({1}|somma = 4) =
dove
P (D1 + D2 = 4) =
3
.
36
Si ottiene quindi
2
P ({1}|somma = 4) = .
3
40
Eventi indipendenti. Se gli eventi A e B sono indipendenti, allora
P (A ∩ B) = P (A)P (B).
Se gli eventi sono indipendenti, come si è visto, A|B = A. Cioè il verificarsi di A
dipende solo da A e non da B. Inoltre, se gli eventi A e B sono indipendenti, sono
indipendenti anche A e B̄, Ā e B, Ā e B̄.
Esercizio 28. Siano A e B eventi indipendenti. Si dimostri che
P (A ∩ B̄) = P (A)P (B̄).
La situazione si complica nel caso di più eventi. Vale il seguente risultato.
Proposizione 6. Se gli eventi {Ar }, in numero finito e infinito, sono indipendenti,
allora comunque si prendano k di essi Aj1 , Aj2 , . . . , Ajk con k > 1, si ha
P (Aj1 ∩ Aj2 ∩ · · · ∩ Ajk ) = P (Aj1 )P (Aj2 ) . . . P (Ajk ).
(2.23)
Osservazione 12. Dobbiamo notare che se gli eventi sono incompatibili, non ha senso
il concetto di dipendenza.
Osservazione 13. Vogliamo sottolineare che se vale la (2.23), allora non necessariamente gli eventi {Ar } sono indipendenti.
Consideriamo due eventi A =”indosso scarpe nere” e B =”cado sul bagnato”
nel caso in cui posseggo solo scarpe nere e rosse ma dello stesso modello. Allora,
B = B ∩ Ω implica che
P (A ∩ B) + P (Ā ∩ B) = P (B)
e indossare scarpe nere o rosse non modifica la probabilità di cadere perché sono dello
stesso modello. Quindi possiamo scrivere
1
P (A ∩ B) = P (Ā ∩ B) = P (B).
2
(2.24)
Si vede subito che se possiedo metà scarpe nere e metà rosse, allora
P (A) = P (Ā) = 1/2
e vale la (2.24). Se inoltre le scarpe di colori diversi sono di modelli diversi è ragionevole pensare che
P (A ∩ B) 6= P (Ā ∩ B)
Capitolo 2.
Misura e Probabilità
41
cioè dovrebbero essere entrambe diverse da
1
P (A)P (B) = P (B) = P (Ā)P (B).
2
Quindi, il fatto che
P (A ∩ B)
sia uguale a P (Ā ∩ B)
P (A ∩ B)
P (A)
sia uguale a
o equivalentemente
P (B|A) =
P (Ā ∩ B)
= P (B|Ā)
P (Ā)
non implica che cadere sia indipendente dal colore ovvero non implica che
P (A ∩ B) = P (A)P (B)
e quindi P (Ā ∩ B) = P (Ā)P (B)
ma rappresenta solo una equivalenza analitica.
In definitiva, P (A ∩ B) = P (A)P (B) non implica che A e B sono indipendenti
(condizione necessaria ma non sufficiente) mentre è sempre vero il contrario.
Nel seguito useremo anche la seguente notazione
P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 , A2 , . . . , An )
(2.25)
ed intenderemo sempre la probabilità che gli eventi A1 , A2 , . . . , An si verifichino tutti.
Sembra utile leggere P (A ∩ B) come la probabilità che si verifichi A e B. Diremo
invece che P (A∪B) è la probabilità che si verifichino A, B o entrambi (diremo quindi
A o B). In generale P (∪r Ar ) sarà la probabilità che si verifichi almeno uno degli Ar
(non escludiamo quindi che se ne possono verificare più di uno).
Se gli eventi sono indipendenti, la formula (2.25) si scrive come il prodotto delle
singole probabilità altrimenti vale la regola del prodotto
P (A1 , A2 , . . . , An ) = P (An |An−1 , . . . , A2 , A1 ) · · · P (A2 |A1 )P (A1 ).
Ovviamente, sotto l’ipotesi di indipendenza si ha che
P (An |An−1 , . . . , A2 , A1 ) = P (An ),
..
.
P (A2 |A1 ) = P (A1 )
e quindi la regola (2.26) vale per eventi qualunque.
(2.26)
42
Svolgimento Esercizio 11. Indichiamo con A ="a è difettoso" e B ="b è difettoso"
gli eventi di interesse. Ovviamente P (A) = 0.03 e P (B) = 0.04.
1. P (A ∩ B) = P (A)P (B),
2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B),
3. P (A|A ∪ B) = P (A ∩ (A ∪ B))/P (A ∪ B) dove
P (A ∩ (A ∪ B)) = P (A ∪ (A ∩ B)) = P (A),
4. P (B)/P (A ∪ B).
La legge delle probabilità composte a più alternative (formula di Bayes). La formula di Bayes svolge un ruolo molto interessante. Mette in relazione un evento E
(che possiamo identificare come un effetto) con altri eventi (che possiamo considerare
come le cause). Ci chiediamo quanto uno degli altri eventi intervenga nel determinare
E (quindi quale causa partecipa maggiormente nel determinare un effetto).
Teorema 6. Dati un evento E ed unSinsieme finito (o numerabile) di eventi incompatibili {Ar }, r = 1, 2, . . . , n, se E ⊂ nr=1 Ar e P (E) 6= 0, si ha
P (Ar )P (E|Ar )
,
P (Ar |E) = Pn
i=1 P (Ai )P (E|Ai )
r = 1, 2, . . . , n.
(2.27)
Dimostrazione. Per la legge delle probabilità composte possiamo scrivere
P (Ar |E) =
P (E ∩ Ar )
P (E|Ar )P (Ar )
=
.
P (E)
P (E)
Inoltre, E ⊂ ∪r Ar e quindi
!
E=E∩
[
Ar
r
=
[
(E ∩ Ar ).
r
Ora dobbiamo notare che se gli Ar sono incompatibili, allora E ∩ Ar sono incompatibili. Per la legge delle probabilità totali, otteniamo
P (E) = P (∪r (E ∩ Ar )) =
n
X
r=1
La dimostrazione è conclusa.
P (E ∩ Ar ) =
n
X
r=1
P (E|Ar )P (Ar ).
Capitolo 2.
Misura e Probabilità
43
Svolgimento Esercizio 2 (continuazione). Diamo qui uno svolgimento diverso da
quello già visto alla luce delle nuove considerazioni. Se estraggo con reimbussolamento le estrazioni sono indipendenti (le probabilità non cambiano in estrazioni
successive). In particolare, P (R) = 5/10 = P (N )
1. P (RN ∪ N R) = P ((R ∩ N ) ∪ (N ∩ R)) = P (R ∩ N ) + P (N ∩ R) − P (R ∩ N ∩
5 5
5
N ∩ R) = P (R ∩ N ) + P (N ∩ R) = P (R)P (N ) + P (N )P (R) = 2 10
= 10
;
10
2. P (RR) = P (R ∩ R) = P (R)P (R) =
52
;
102
3. P (N N ) = P (N ∩ N ) = P (N )P (N ) =
4. P (R|N ) =
P (R∩N )
P (N )
=
52
;
102
5
.
10
Esercizio 29. Una compagnia di assicurazioni considera la popolazione composta da
PI ="persone propense agli incidenti" e PIc ="persone non propense agli incidenti".
Le statistiche della compagnia mostrano che tra le persone propense agli incidenti, il
40% ne ha entro il primo anno; tra le persone non propense agli incidenti, il 20% ne
ha uno entro un anno. Inoltre, dalle statistiche si evince che il 30% della popolazione
è propensa agli incidenti. Si vuole calcolare:
1. la probabilità che un nuovo assicurato abbia un incidente entro il primo anno
dalla stipula della polizza,
2. la probabilità che una persona che ha avuto un incidente sia propensa agli
incedenti.
Svolgimento Esercizio 29. Sia A = "un nuovo assicurato abbia un incidente entro il
primo anno dalla stipula della polizza" l’evento di interesse. Sappiamo che PI ∪ PIc =
Ω e P (PI ) = 0.3 quindi si ottiene P (PIc ) = 0.7 per passaggio al complementare.
1. Consideriamo l’intersezione con l’evento certo Ω,
P (A) =P (A ∩ [PI ∪ PIc ])
=P ([A ∩ PI ] ∪ [A ∩ PIc ])
=P ([A ∩ PI ]) + ([A ∩ PIc ])
=P (A|PI )P (PI ) + P (A|PIc )P (PIc )
2 7
4 3
+
=
10 10 10 10
26
=
100
dove si è usata la legge delle probabilità totali prima e delle probabilità composte
dopo.
44
2. Si ha
P (A ∩ PI )
P (A)
P (A|PI )P (PI )
=
P (A)
4 3 100
=
10 10 26
12
= .
26
P (PI |A) =
Esercizio 30. In un laboratorio di analisi si effettua un esame per verificare la presenza/assenza di una particolare malattia. La malattia è difficile da diagnosticare e
l’esame è efficace (positivo in presenza di malattia o negativo in assenza di malattia)
al 95% ma porta a falsi positivi (esame positivo quando la malattia non è presente) nel
1% delle persone sane. Se le persone malate sono il 6% della popolazione, calcolare:
la probabilità che una persona sia malata se risulta positiva all’esame; la probabilità
che una persona risultata negativa sia malata.
Svolgimento Esercizio 30. Indichiamo con M ="persona malata" e E ="persona
con esame positivo" gli eventi di interesse. I casi possibili sono:
Veri Positivi, Veri Negativi, Falsi Positivi, Falsi Negativi
(eventi incompatibili) corrispondenti agli eventi
(E ∩ M ) ∪ (E c ∩ M c ) ∪ (E ∩ M c ) ∪ (E c ∩ M ) = Ω
infatti
(E c ∩ M c ) ∪ (E ∩ M c ) = M c
e (E ∩ M ) ∪ (E c ∩ M ) = M
con P (M ∪ M c ) = 1 oppure
(E ∩ M ) ∪ (E ∩ M c ) = E
e (E c ∩ M ) ∪ (E c ∩ M c ) = E c
con P (E) + P (E c ) = 1. Inoltre P (M c ) = 1 − P (M ) = 0.94. La probabilità di
ottenere un vero positivo è P (E ∩ M ), cioè una persona verifica entrambi gli eventi E
e M . Dai dati del problema
P (E|M c ) = 0.01 e
P (E ∩ M ) + P (E c ∩ M c ) = 0.95
Capitolo 2.
Misura e Probabilità
45
si ricava
P (E ∩ M c ) = 0.01 · P (M c ) = 0.0094
e
0.94 = P (M c ) = P (E ∩ M c ) + P (E c ∩ M c )
da cui P (E c ∩ M c ) = 0.94 − 0.0094 = 0.9306, P (E ∩ M ) = 0.95 − 0.9306 = 0.0194.
Si vede subito che
P (E|M ) =
0.0194
,
0.06
P (E|M c ) =
0.0094
0.94
e la probabilità cercata è
P (M |E) =
P (E|M )P (M )
P (E)
dove P (E) = P (E|M )P (M ) + P (E|M c )P (M c ) = 0.0288. Otteniamo
P (M |E) ≈ 67%
e quindi con esame positivo nel 67% dei casi circa la persona è effettivamente malata.
Rispondiamo al secondo problema osservando che P (M ∩E c ) = 0.0406 e P (E c ) =
0.9712 quindi
P (M |E c ) =
0.0406
≈ 0.042
0.9712
che sembra essere confortante per il paziente.
2.5
Il concetto di Probabilità e le diverse impostazioni
Abbiamo introdotto gli assiomi della probabilità e ci siamo quindi preoccupati di
introdurre una impostazione rigorosa.
”La Probabilità è una misura.”
Dobbiamo ricordare che si possono dare diverse definizioni di probabilità spesso legate
anche a diverse scuole e linee di pensiero.
• Impostazione soggettiva. La probabilità di un evento è il prezzo che siamo
disposti a pagare in una scommessa per ricevere 1 al verificarsi dell’evento.
46
• Impostazione Bayesiana. La probabilità di un evento dipende da una legge a posteriori ottenuta scegliendo (anche soggettivamente) una legge a priori. È forte
quindi il condizionamento a ciò che conosciamo sul fenomeno che ci interessa.
Si può definire in questo ambito uno schema che prevede aggiornamenti successivi della priori con la posteriori fino ad uno step definito ottimo in qualche
senso.
• Impostazione frequentista. Si associa la probabilità di un evento alla frequenza
di tale evento, si considera cioè che un evento si possa verificare in relazione ai
casi favorevoli a tale evento. Se i casi in questione sono equiprobabili, allora la
probabilità si può ottenere dal rapporto tra casi favorevoli e casi possibili.
• Impostazione classica. Semplicemente il rapporto tra casi favorevoli e casi
possibili (se gli eventi sono equiprobabili).
• Impostazione assiomatica. Si basa sugli assiomi di Kolmogorov.
2.6
Spazi di Probabilità uniformi
Vediamo più in dettaglio quanto già introdotto nel Capitolo 1 riguardo a spazi uniformi11 e impostazione classica della Probabilità. Uno spazio di probabilità è detto uniforme se gli eventi possibili sono equiprobabili, cioè tutti di probabilità data e uguale
a p. Si pensi al lancio di un dado o di una moneta non truccati. Come si vedrà,
p = P (ω) =
µ] (casi
1
,
possibili)
ω∈Ω
dove Ω è lo spazio degli eventi (elementari) possibili e
X
P (A) =
P (ωk ) =p · µ] (casi favorevoli all’evento A)
k:ωk ∈A
=
µ] (casi favorevoli all’evento A)
µ] (casi possibili)
dove A è un elemento della σ−algebra generata da Ω.
Il nostro lavoro in questa direzione è quindi solo quello di identificare il numero di
casi possibili e favorevoli. A tale scopo abbiamo già introdotto
- le combinazioni semplici,
- le permutazioni semplici,
11
Ricordiamo che sono spazi finiti.
Capitolo 2.
Misura e Probabilità
47
che non ci garantiscono una trattazione completa dei casi di interesse (per questo
corso!).
PN
Definizione 24. Dato un insieme U = ∪N
j=1 Uj di cardinalità |U | =
j=1 nj = n
dove |Uj | = nj per j = 1, . . . , N e gli Uj sono costituiti da nj ripetizioni dello stesso
elemento, tutti i sottoinsiemi di U
i) di cardinalità n,
ii) che differiscono per ordinamento (ordinati),
iii) che non differiscono per numero di elementi uguali (con ripetizione)
formano l’insieme Pnn1 ,...,nN delle permutazioni con ripetizione. Inoltre,
|Pnn1 ,...,nN | =
n!
.
n1 ! n2 ! · · · nN !
Definizione 25. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità k ≤ n,
ii) che differiscono per ordinamento (ordinati),
iii) in cui ogni elemento di U può essere preso una sola volta (senza ripetizione)
formano l’insieme Dn,k delle disposizioni semplici di n elementi in classe di k. Inoltre,
|Dn,k | = n · (n − 1) · · · (n − k + 1) =
n!
.
(n − k)!
Definizione 26. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità k ≤ n,
ii) che differiscono per ordinamento (ordinati),
iii) in cui ogni elemento di U può essere preso più volte (con ripetizione)
0
formano l’insieme Dn,k
delle disposizioni con ripetizione di n elementi in classe di k.
Inoltre,
0
|Dn,k
| = nk .
48
Definizione 27. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità k ≤ n,
ii) che non differiscono per ordinamento (non ordinati),
iii) in cui ogni elemento di U può essere preso più volte (con ripetizione)
0
formano l’insieme Cn,k
delle combinazioni con ripetizione di n elementi in classe di k.
Inoltre,
n+k−1
0
.
|Cn,k | =
k
Sia U = {a, a, b}, allora
3
P2,1
={aab, aba, baa}.
Sia U = {a, b}, allora
D2,2 = {ab, ba},
0
D2,2
= {aa, ab, ba, bb},
0
C2,2
= {aa, ab, bb} = {aa, ba, bb}
Svolgimento Esercizio 3 (continuazione). Possiamo considerare le estrazioni in
blocco e quindi otteniamo
5
1. P (RN ∪ N R) = 51 51 / 10
= 9;
2
2. P (RR) = 52 50 / 10
;
2
3. P (N N ) = 50 52 / 10
;
2
oppure consideriamo il fatto che non c’è reimbussolamento, le probabilità cambiano
ad estrazioni successive. Infatti,
P (RN ) = P (R alla prima estrazione)P (N alla seconda estrazione) =
Si ottiene allora
5 5
1. P (RN ∪ N R) = 2 10
;
9
5 5
.
10 9
Capitolo 2.
Misura e Probabilità
2. P (RR) =
3. P (N N ) =
49
5 4
;
10 9
5 4
.
10 9
Esercizio 31. Da un mazzo di 52 carte Mariello prende tutte le 13 carte di un solo
seme scelto a caso e le passa a Mario. Mario distribuisce a Maria le prime n carte
del mazzo. Calcolare le seguenti probabilità:
a) tutte le carte di Maria sono minori o uguali ad n.
b) tutte le carte di Maria sono maggiori di n.
c) tutte le carte di Maria sono di cuori.
Esercizio 32. Mario e Piero (in questo ordine) estraggono una pallina numerata a
testa con reimbussolamento da una scatola contenete i numeri da 1 a 9. Guardano
i numeri sulle due palline estratte, chi ha un numero pari vince 5 euro e se si sono
estratte due palline con un numero pari non vince nessuno. Si ripete questa operazione
due volte. Calcolare le probabilità dei seguenti eventi:
1. nessuno vince;
2. Piero vince 10 euro;
3. entrambi vincono 10 euro;
4. uno dei due vince 10 euro;
5. entrambi vincono 5 euro.
50
Capitolo 3
Variabili Aleatorie
3.1
Definizione di variabile aleatoria -
Diamo una definizione formale e introduciamo le variabili aleatorie con un esempio.
Sia B lo spazio dei reali B = Rn o degli interi B = Zn e Ω ⊆ A.
Definizione 28. Sia X = X(ω) una funzione X : Ω 7→ B, diremo che X è una variabile aleatoria (v.a) definita sullo spazio di probabilità (Ω, A, P ) se X è misurabile, se
cioè
(X ≤ x) = {ω ∈ Ω : X(ω) ≤ x} ∈ A.
Possiamo quindi parlare di una v.a. misurabile X(ω) : A 7→ Bn e risulta
P (B) = P (X(ω) ∈ B ⊆ B n ) = P (X −1 (B) ∈ Ω0 ⊆ A) = P (Ω0 )
dove B n ⊆ P(Rn ) se X ∈ Rn o B n ⊆ P(Zn ) se X ∈ Zn . Dobbiamo specificare
rispetto a quale misura si sta calcolando la probabilità P quando si considera un Boreliano B della σ-algebra B n di Rn (oppure un boreliano B della σ-algebra ”discreta”
B n di Zn ) o un insieme Ω0 della σ-algebra A di Ω. Infatti,
Z
Z
P (Ω0 ) =
dP =
P (dω), Ω0 ∈ A,
(3.1)
Ω0
Ω0
o equivalentemente
Z
P (B) =
Z
dFX =
B
fX (x)µ(dx),
B ∈ Bn .
(3.2)
B
Diremo che FX è associata a P . Si vede subito che FX : B 7→ [0, 1] mentre P : Ω 7→
[0, 1]. Il nostro scopo, in questo capitolo, è quello di caratterizzare la misura µ nel caso
51
52
in cui X assuma valori continui o discreti. Diciamo per ora che una v.a. X(ω) assume
valori in Rn o Zn ma la sua aleatorietà dipende da ω (e quindi ci interessano tutti gli
ω ∈ Ω0 tali che X(ω) ∈ B ⊂ B n , cioè Ω0 ∈ A). Ci troviamo a dover trattare due
spazi, (Ω, A, P ) e (Rn , B n , µ). La v.a. X(ω) rappresenta il collegamento tra di loro.
Se (il Boreliano B) l’insieme B fosse rappresentato dalle persone alte 1.70 metri
(B = {1.70}) ed X fosse la v.a. altezza delle persone di Ω diciamo che la probabilità
che una persona sia alta 1.70 è data da P (X = 1.70) = P (X(ω) = 1.70) = P (ω ∈
Ω0 ) = P (Ω0 ) e quindi dalla µ] (Ω0 )/µ] (Ω) = nX=1.70 /npersone di Ω . In questo caso Ω0
è l’insieme delle persone ω ∈ Ω tali che la v.a. X assuma valori pari a 1.70 metri,
Ω0 = {ω ∈ Ω | X(ω) = 1.70} e µ] (Ω0 ) restituisce il numero di tali persone. Si
osservi che
Ω0 = {ω ∈ Ω | X(ω) < 1.70} ⇔ B = (0, 1.70)
Ω0 = {ω ∈ Ω | X(ω) > 1.20} ⇔ B = (1.20, +∞)
Ω0 = {ω ∈ Ω | 1.20 < X(ω) ≤ 180]} ⇔ B = (1.20, 1.80].
Diremo quindi che X(ω) =” altezza di ω” se X =”altezza” e ad ω può essere associata
una misura di probabilità P (ω).
Osservazione 14. Notiamo che
P (X ∈ B) = P (ω : X(ω) ∈ B) = P (Ω0 )
Ω0 ⊂ Ω
nello spazio (Ω, A, P ) e quindi
P (X ∈ B) = FX (B : X −1 (B) ∈ Ω0 )
B ∈ Bn
nello spazio (Rn , B n , FX ). Rimane da definire µ introdotta in (3.2).
Oggetto chiave del corso sarà la funzione di ripartizione della v.a. X a valori in Rn
FX (x) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn )
dove
X = (X1 , X2 , . . . , Xn )
è un vettore aleatorio e
x = (x1 , x2 , . . . , xn ) ∈ Rn .
Diamo la seguente definizione generale.
Capitolo 3.
Variabili Aleatorie
53
Definizione 29. Una variabile aleatoria (v.a.) reale X è una funzione dallo spazio di
probabilità (Ω, A, P ) allo spazio misurabile (Rn , B n , FX ), con la classe B n misurabile, nel senso che le immagini inverse degli insiemi di B n di B appartengono ad A di
Ω.
Notiamo che N ⊂ Z ⊂ R. Nella definizione precedente si sono introdotte le variabili reali, come vedremo più avanti noi saremo interessati a caratterizzare le variabili
continue e discrete.
Useremo anche la notazione (ΩX , AX , PX ) per indicare che lo spazio di probabilità (Ω, A, P ) si riferisce alla v.a. X.
Vediamo il caso in cui X ha valori in R ed FX (x) = P (X ≤ x) con x ∈ R ovvero
X è reale 1-dimensionale.
Proprietà della funzione di ripartizione. Risulta utile ricordare le proprietà fondamentali della funzione FX : R 7→ [0, 1],
1. P (X ∈ (−∞, x]) = P (X ≤ x) = FX (x), x ∈ R;
2. P (X ∈ (x1 , x2 ]) = P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ), x1 < x2 ;
3. P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) = FX (x1 ) + P (x1 < X ≤ x2 );
4. limx→+∞ FX (x) = 1 e limx→−∞ FX (x) = 0;
5. limx→x+0 FX (x) = FX (x0 ) (continuità a destra) cioè
xn ↓ x ⇒ FX (xn ) ↓ P (X ≤ x) = FX (x)
e
xn ↑ x ⇒ FX (xn ) ↑ P (X < x) = FX (x−).
Se xn → ∞ (o xn ↑ ∞) allora FX (xn ) → P (X < ∞) = 1. Notiamo che
P (X = x) = FX (x) − FX (x−)
(3.3)
è uguale a zero per tutti i punti x di continuità1 per FX .
Nel caso di una v.a. multidimensionale si ottiene
lim F(X1 ,X2 ) (x1 , x2 ) = FX2 (x2 ),
x1 →+∞
1
lim F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 ), (3.4)
x2 →+∞
Se la v.a. è continua si ha FX (x−) = FX (x) mentre nel caso di v.a. discrete, i salti della f.r.
determinano P (X = x) > 0.
1.0
54
●
0.8
●
0.6
●
0.4
●
0.2
●
0.0
●
0
1
2
3
4
5
6
7
Figura 3.1: Funzione di ripartizione FX (x) = P (X ≤ x) dove X ="faccia nel lancio
di un dado". La funzione è continua a destra.
lim F(X1 ,X2 ) (x1 , x2 ) = 0 = lim F(X1 ,X2 ) (x1 , x2 ),
x1 →−∞
x2 →−∞
lim
x1 ,x2 →∞
F(X1 ,X2 ) (x1 , x2 ) = 1.
(3.5)
(3.6)
La probabilità è una misura positiva di massa finita (P (Ω) = 1). La funzione di
ripartizione è quindi una probabilità (misura di probabilità) e diciamo che
Z
dP = f · dµ e P = dP
(3.7)
dove f è la densità di P rispetto alla misura µ. Per ora vogliamo solo sottolineare (in
maniera ingenua) che:
• f è una densità continua e µ è la misura di Lebesgue, quindi
Z
Z
Z
P (B) =
f dµ =
fX (x)dx = fX (x)1B (x)dx = P (X ∈ B).
B
B
Capitolo 3.
Variabili Aleatorie
55
Notiamo che B ∈ P(R) (o B ∈ P(Rn )) e se B = {x} è un punto,
P (B) = 0.
• f è una densità discreta e µ è una misura di Dirac, quindi
Z
X
X
f dµδ =
pk 1(x=xk ) =
P (B) =
pk 1B (xk ) = P (X ∈ B)
B
x∈B
k
e pk = P (X = xk ) è a sua volta una probabilità per ogni k, diremo che la
successione {pk }k è una distribuzione di probabilità. Notiamo che B ∈ P(Z) (o
B ∈ P(Zn )) se B = {x} è un punto,
P (B) = pk
se x = xk per un k da definire.
Dobbiamo quindi distinguere tra v.a. continue e discrete. In entrambi i casi vale il
seguente risultato di continuità.
Teorema 7. (Continuità di P ) Sia P una misura di probabilità. Sia {Ak }k∈N ∈ A una
successione monotona di eventi, allora
lim P (Ak ) = P lim Ak .
(3.8)
k→∞
k→∞
Inoltre,
lim P (Ak ) = P
k→∞
lim P (Ak ) = P
k→∞
∞
[
!
Ak
,
(se la successione è crescente)
k=1
∞
\
!
Ak
,
(se la successione è decrescente).
k=1
Variabili aleatorie continue
Diamo innanzitutto le seguenti definizioni.
Definizione 30. Una v.a. si dice continua se assume valori continui2 .
Definizione 31. Se X è una v.a. continua, definiamo supp(X) il supporto della v.a.
X, cioè l’insieme dei valori che può assumere X.
2
Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato supporto o
spettro continuo, ha la potenza del continuo.
56
Introduciamo le funzioni continue e vediamo come si legano alle v.a. continue.
Definizione 32. Sia f : D 7→ R. Se per ogni successione xn a valori in D per cui
lim xn = x
n→∞
si ha
lim f (xn ) = f (x)
(3.9)
n→∞
diciamo che f è continua in x. Se la (3.9) vale per ogni x ∈ D, scriviamo f ∈ C, dove
C = C(D) è l’insieme delle funzioni continue con supporto in D ⊆ R.
Osservazione 15. Se una funzione è continua in un punto, allora è continua da destra
e da sinistra in quel punto.
Teorema 8. (Teorema fondamentale del calcolo integrale) Sia f una funzione continua
nell’intervallo [a, b]. La funzione integrale
Z x
f (u)du
(3.10)
F (x) =
a
è derivabile e vale
F 0 (x) = f (x)
∀ x ∈ [a, b].
(3.11)
Dimostrazione. Consideriamo la proprietà di additività dell’integrale
Z x+h
Z x
Z x+h
f (u)du
f (u)du =
f (u)du −
F (x + h) − F (x) =
x
a
a
ed il rapporto incrementale
F (x + h) − F (x)
1
=
h
h
Z
x+h
f (u)du.
x
Dobbiamo calcolare il limite per h → 0. Notiamo che esiste un ponto xh ∈ [x, x + h]
tale che (teorema della media)
F (x + h) − F (x)
= f (xh )
h
e xh → x0 ∈ {x}, cioè xh → x per h → 0. Se f ∈ C, allora f (xh ) → f (x) ed
ovviamente si ha che
F (x + h) − F (x)
→ F 0 (x).
h
Quindi se f è continua si ottiene il risultato atteso e la dimostrazione è conclusa.
Capitolo 3.
Variabili Aleatorie
57
Una funzione derivabile in un punto è continua in quel punto. Non è sempre vero
il contrario, si pensi alla funzione modulo f (x) = |x|.
Teorema 9. (Formula fondamentale del calcolo integrale) Sia f una funzione che
ammette una primitiva F , cioè F 0 (x) = f (x) per ogni x ∈ [a, b]. Se f è integrabile, si
ha
Z
b
f (x)dx = F (b) − F (a).
(3.12)
a
La funzione integrale (3.10) vale per f ∈ C nota dalla quale ricaviamo F . In
questo caso, in cui f è integrabile (e non nota mentre lo è la F ) possiamo scegliere
f = F 0 se l’uguaglianza vale quasi ovunque. Possiamo quindi calcolare la probabilità
Z
P (X ∈ B) =
fX (x)dx
B
per un Boreliano B se fX è integrabile3 . Si pensi ad esempio alla funzione indicatrice
f (x) = 1E (x) o alla funzione di Heaviside H(x) = 1[0,∞) (x) continue nel loro supporto o alle loro combinazioni lineari.
Consideriamo quindi FX ∈ AC dove AC è l’insieme delle funzioni assolutamente
continue ed è costituito dalle funzioni per cui vale la formula fondamentale del calcolo
integrale. Quindi, se F ∈ AC, allora F ∈ C e F 0 = f è integrabile. Notiamo però che
se f ∈ C, vale il Teorema fondamentale. Quindi, possiamo definire una f.r. se fX è
integrabile ma occorre che sia continua affinché FX sia differenziabile in tutti i punti in
cui f è continua4 . Diremo quindi che X è una v.a. continua (o assolutamente continua)
se FX è continua (o assolutamente continua). Scriveremo inoltre ”c.” o "a.c." invece
di "continua" o ”assolutamente continua” se dal contesto sarà chiaro il riferimento alle
v.a..
Proposizione 7. Sia X una v.a. c. o a.c. con FX (x) = P (X ≤ x). Allora,
d
in tutti i punti in cui è continua, se X è c.,
FX (x)
fX (x) =
in tutti i punti in cui esiste,
se X è a.c..
dx
(3.13)
La v.a. X è c. oppure a.c. nel suo supporto. Se f = fX è continua (f ∈ C([a, b])),
abbiamo quindi detto che y = FX risolve y 0 = f (dove y ∈ C 1 ([a, b])). Bisogna
sottolineare che le soluzioni fornite dal Teorema fondamentale del calcolo integrale
sono relative alla teoria dell’integrazione secondo Riemann e quindi al caso in cui
Ricordiamo che una funzione f è integrabile in B se f ∈ L1 (B), ciòè se |f | è integrabile. Dobbiamo notare
R che fX > 0 è una condizione necessaria affinché fX sia una legge di densità. Quindi deve
essere B fX (x)dx < ∞.
4
Per una discussione dettagliata sulle funzioni assolutamente continue si veda [10, pag. 311].
3
58
f ∈ C. Noi ci occupiamo anche di funzioni f ∈ L1 per cui y 0 = f quasi ovunque
(rispetto alla misura µ che per noi sarà la misura di Lebesgue). Si parla in questo caso
di teoria dell’integrazione secondo Lebesgue5 .
Una v.a. con valori continui possiede quindi una f.r. che è una funzione integrale,
si può rappresentare come integrale di una funzione fX detta (funzione di) densità
Z
Z
P (X ∈ B) = FX (B) =
dFX =
fX (x)dx
B
B
(dove B è un Boreliano). Affinché una funzione fX sia una densità, sono condizioni
necessarie e sufficienti:
1. fX (x) > 0,
R∞
2. −∞ fX (x)dx = 1.
Se X è assolutamente continua, a volte diremo semplicemente che X è continua
nel senso della Definizione 30. Inoltre, se X è una v.a. c. o a.c. scriveremo
X ∼ fX
(3.14)
e per ogni Boreliano B ∈ P(R),
Z
P (X ∈ B) =
fX (x)1B (x)dx.
supp(X)
Se supp(X) ⊆ Rd , cioè se X è un vettore aleatorio di dimensione d ≥ 1, allora per
ogni Boreliano B ∈ P(Rd ),
Z
P (X ∈ B) =
fX (x)1B (x)dx.
Rd
Infatti, la funzione fX è nulla fuori supp(X).
2
Esercizio 33. Trovare il valore κ tale che f (x) = κe−x , x ∈ R sia una densità.
Esercizio 34. Verificare se f (x) = e−3x , x ≥ 0 è una densità.
Esercizio 35. Trovare il valore κ tale che f (x) = κ1(−1,1) (x), x ∈ R sia una densità.
Esercizio 36. Dire se le densità considerate negli esercizi precedenti sono continue o
assolutamente continue.
5
Il lettore interessato può consultare [10, Capitolo 6], per essere precisi, l’integrale (3.2) o
per una f integrabile rispetto a FX , va inteso nel senso di Lebesgue-Stieltjes.
R
f dFX
Capitolo 3.
Variabili Aleatorie
59
Il concetto di funzione di distribuzione può essere esteso al caso delle v.a. multidimensionali (o vettori di v.a.). Nel caso di un vettore 2-dimensionale scriveremo
Z Z
P (X1 ∈ B1 , X2 ∈ B2 ) = F(X1 ,X2 ) (x1 , x2 ) =
fX1 ,X2 (x1 , x2 )dx1 dx2
B1
B2
In generale, X è un vettore di variabili aleatorie di dimensione n se
X = (X1 , X2 , . . . , Xn )
dove le Xj , j = 1, 2, . . . , n possono essere dipendenti o indipendenti. Dalle formule
in (3.4) si ottengono le marginali. Diciamo che, data la f.r.
ϕ(x1 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−1 ≤ xn−1 , Xn ≤ xn )
si ottiene
lim
xn →∞
xn−1 →∞
ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xn−2 )
dove
ϕ(x1 , . . . , xn−2 ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−2 ≤ xn−2 )
è la marginale di ordine n − 2. In generale, è anche vero che
lim ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xj−1 , xj+1 , . . . , xn ).
xj →∞
Si possono definire marginali di ogni ordine k ≤ n partendo da una funzione di ripartizione di ordine n. Infatti anche per k = n si può pensare di avere una marginale
rispetto a qualche funzione di ripartizione di ordine m > n. Le densità marginali si
ottengono derivando le corrispondenti funzioni di ripartizione che equivale e scrivere,
ad esempio nel caso unidimensionale
Z
fX1 (x1 ) =
fX1 ,X2 (x1 , x2 )dx2
supp(X2 )
oppure, se
φ(x) =
∂ nϕ
(x) = fX1 ,...,Xn (x1 , . . . , xn ),
∂x1 · · · ∂xn
allora
Z
fX1 ,X2 ,...,Xj−1 ,Xj+1 ,...,Xn (x1 , x2 , . . . , xj , xj+1 , . . . , xn ) =
φ(x)dxj .
supp(Xj )
60
Vale la pena di notare che
P (X1 ≤ x1 , X2 ≤ ∞) = P (X1 ≤ x1 )
dato che l’evento ΩX2 = (X2 ≤ ∞) è un evento certo per X2 . Cioè P (X2 ≤ ∞) = 1
o A ∩ ΩX2 = A per ogni insieme A ∈ AX2 . Preso il Boreliano B = (−∞, x], si ricava
che
Z x
Z x
FX ((−∞, x]) = FX (x) =
dFX =
fX (u)du.
−∞
−∞
Inoltre il concetto di densità può essere espresso in termini di probabilità dalla seguente
relazione
Z x+Mx
fX (x)4x '
fX (u)du = P (x < X ≤ x+ M x) = FX (x + 4x) − FX (x)
x
con
P (x < X ≤ x+ M x)
= FX0 (x).
4x→0
4x
lim
Osservazione 16. Osserviamo che per una v.a. assolutamente continua si ha P (X =
x) = 0 per ogni punto x ∈ supp(X) (ed ovviamente per tutti gli x ∈
/ supp(X), per
+
definizione). Basta considerare 4x → 0 e la continuità di FX .
Diamo la seguente definizione.
Definizione 33. Sia f ∈ C.
• Se g ∈ L1 e |f (x)| ≤ g(x) per ogni x, diciamo che f è dominata da g.
• Se per M > 0, si ha |f (x)| ≤ M per ogni x, diciamo che f ∈ Cb dove Cb indica
l’insieme delle funzioni continue e limitate (o uniformemente limitate).
Abbiamo preferito mantenere il simbolo Cb che sta per continuous and bounded.
Possiamo dire che una funzione è limitata se la sua immagine è un insieme limitato.
Introduciamo ora la condizione di Lipschitz, per una funzione f ,
|f (x) − f (y)| ≤ M |x − y|
dove M è detta costante di Lipschitz. Una funzione Lipschitziana è una funzione di
una variabile reale che ha una crescita limitata, nel senso che il grafico della funzione
f è contenuto nella regione delimitata dalle rette di coefficiente angolare +M e −M
passanti per un punto opportunamente scelto del grafico della f . La Lipshitzianetà6 è
6
Una funzione è detta di Lipschitz se esiste una costante M tale che, per ogni x, y, vale la condizione
di Lipschitz.
Capitolo 3.
Variabili Aleatorie
61
una condizione più forte della continuità7 o della uniforme continuità8 . Indichiamo con
Lip l’insieme delle funzioni Lipschitziane. Una funzione derivabile e Lipschitziana ha
derivata limitata. Infatti, se f è derivabile nel punto x, allora
lim
y→x
f (x) − f (y)
= f 0 (x).
x−y
Quindi, se f ∈ Lip,
|f (x) − f (y)|
≤M
y→x
|x − y|
|f 0 (x)| = lim
e quindi la derivata è limitata. In particolare, le seguenti affermazioni sono dunque
equivalenti:
i) f è derivabile e |f 0 | ≤ M , allora f ∈ Lip,
ii) f ∈ C 1 , allora f è localmente Lipischitziana.
Osserviamo che la ii) significa che f è uniformemente continua in un intervallo, basta
considerare δ = /M .
2
Osservazione 17. Sono esempi di funzioni continue in R le funzioni
√ f (x) = x e
g(x) = sin x. Si noti che f ∈
/ Lip mentre g ∈ Lip. Inoltre, f (x) = x è continua in
[0, ∞) ma f ∈
/ Lip.
Osserviamo infine che non vale la doppia implicazione. Infatti, f (x) = |x| è
Lipshitziana ma f ∈
/ C 1 in R, essendo continua ovunque ma derivabile per x 6= 0.
Ricordiamo un risultato utile nei conti.
Proposizione 8. Siano ϕ e ψ derivabili, f integrabile. Allora, la funzione integrale
Z ϕ(x)
F (x) =
f (u)du
(3.15)
ψ(x)
ha derivata
F 0 (x) = ϕ0 (x) f (ϕ(x)) − ψ 0 (x) f (ψ(x)).
7
(3.16)
Una funzione è detta continua in x se
∀ > 0 ∃ δ = δ(y, ) > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < .
Questa definizione è ovviamente analoga a quella già data, viene riportata solo per evidenziare il
collegamento con le funzioni Lipschitziane.
8
Una funzione f è uniformemente continua se δ dipende solo da , cioè se per ogni x, y si ha
∀ > 0 ∃ δ = δ() > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < .
62
Una funzione (di una variabile) continua può non essere derivabile mentre una funzione derivabile è continua. Per funzioni di più variabili bisogna introdurre la nozione
di funzione differenziabile. Se f è differenziabile, allora ha derivata in ogni direzione.
Inoltre, ogni funzione differenziabile in x è continua in x.
Teorema 10. Se f ha derivate parziali in un intorno di x e sono continue in x, allora
f è differenziabile in x.
Segue dalla Definizione 31 che P (X ∈ A) > 0 per ogni insieme A ⊂ supp(X).
Si vede subito che per ogni densità fX (e quindi per ogni v.a. X) si ha che supp(X) =
supp(fX ) e quindi fX (x) = 0 per ogni x ∈
/ supp(X). Infatti, sia X una v.a. ddimensionale e A = R \ supp(X), allora possiamo scrivere,
Z
Z
fX (x)dx = P (X ∈ Ω) = 1
fX (x)dx =
Rd
supp(X)
e
Z
fX (x)dx = P (X ∈ A) = 0.
Rd \supp(X)
Esercizio 37. Dire se
(
F (x) =
x2 sin
0,
1
, x 6= 0
x2
x=0
è differenziabile e verificare che F 0 = f ∈
/ L1 (f non è integrabile).
Esercizio 38. Si è introdotta la funzione di Heaviside H(x) = 1[0,∞) (x) con x ∈ R.
Dire se H è continua a destra o a sinistra. Dire se H è continua in A = (1, 3),
B = [1, 3), C = (−1, 0), Ac , B c , C c \ [0, ∞).
Esercizio 39. Sia X ∼ fX con fX (x) = κ1E (x) con E = (0, l), κ, l > 0. Dire se X è
c. oppure a.c. in R. Quanto vale κ? Chi è X?
Esercizio 40. Dire se esiste X ∼ fX con FX (x) = H(x). [Si consideri che FX (x) =
P (X ≤ x).]9
9
Si veda la Definizione 43.
Capitolo 3.
Variabili Aleatorie
63
Variabili aleatorie discrete
Un esempio di v.a. discreta può essere la variabile che restituisce i numeri da 1 a 6 nel
lancio di un dado oppure una variabile che può assumere solo i valori 1 e −1.
Definizione 34. Una v.a. si dice discreta se assume valori discreti10 .
Definizione 35. Se X è una v.a. discreta, definiamo spet(X) lo spettro della v.a. X,
cioè l’insieme dei valori che può assumere X.
Una v.a. si dice discreta se lo spettro è un insieme numerabile11 .
La funzione di ripartizione è scritta a partire dalla seguente probabilità (come
vedremo questa non è la scrittura definitiva)
X
P (X ≤ x) =
pk , x ∈ spet(X)
k:xk ≤x
dove
pk =
P (X = xk ), xk ∈ spet(X)
0,
altrimenti
(3.17)
e la successione xk , k = 1, 2, . . . rappresenta tutti i valori che X può assumere. La
successione è dunque numerabile (cioè può essere messa in corrispondenza biunivoca
con l’insieme dei numeri naturali) e può essere scritta come {xk }k∈IX dove IX ⊆ N
è un insieme di indici per la v.a. X. In generale, diremo che una v.a. discreta X può
essere caratterizzata dalla coppia (xk , pk ) per tutti i k ∈ IX e scriveremo
X ∼ (xk , pk ), k ∈ IX .
(3.18)
Quindi la funzione di ripartizione si potrebbe riscrivere considerando
X
P (X ≤ x) =
pk , x ∈ spet(X).
k∈IX :xk ≤x
Consideriamo la funzione semplice (2.5) e la misura di Dirac associate alla v.a discreta
X. Diremo che:
• la funzione semplice fX è associata alla v.a. discreta X se
X
fX (x) =
pk 1{xk } (x),
k∈Z
10
Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato spettro o
spettro discreto, è un insieme finito o infinito numerabile.
11
Se ad esempio spet(X) = {−π, +π}, allora diciamo che X è una variabile discreta anche se ±π
non sono interi.
64
• la misura di Dirac µδ è associata alla v.a. discreta X se
µδ = µδ (x, E)
con E = spet(X).
Allora,
Z
P (X ∈ B) =
f dµδ =
B
X
pk µδ (xk , B).
(3.19)
k∈IX
La successione pk , k ∈ IX (e quindi la funzione f ) è detta densità discreta di X e per
ogni B ∈ P(Z),
X
P (X ∈ B) =
pk 1B (xk )
k∈IX
dove 1B (xk ) = 0 per ogni k se e solo se B ∩ spet(X) = ∅. Condizioni necessarie e
sufficienti affinché pk sia una densità discreta sono:
1. pk ≥ 0,
P
2.
k∈IX pk = 1.
Osserviamo che la somma ad uno implica che pk ≤ 1 e quindi pk ∈ [0, 1] sono probabilità. Si noti anche che la definizione (3.17) è stata data per chiarezza ma risulta
ridondante. Infatti P (X = xk ) = 0 se xk ∈
/ spet(X), si pensi al lancio di un dado,
P (esce la faccia con il numero 21) = 0.
La seconda condizione (necessaria e sufficiente) dice in sostanza chi è l’evento certo
per una v.a. X, cioè
[
(X = xk ) = Ω
k∈IX
dove gli eventi (X = xk ) sono mutualmente esclusivi (la v.a. si realizza una sola volta,
gli eventi sono incompatibili) e quindi
!
[
X
P
(X = xk ) =
P (X = xk ).
k∈IX
k∈IX
Osservazione 18. Notiamo che si sta usando un insieme diverso dal supporto di una
v.a., lo spettro. Si vuole infatti sottolineare che nel caso delle v.a. discrete si ha a che
fare con un insieme, lo spettro, per cui si ha P (X = x) 6= 0 per ogni x ∈ spet(X).
Capitolo 3.
Variabili Aleatorie
65
Osservazione 19. Se pk = 1/|Ω| è costante, la (3.19) diventa
P (X ∈ B) =
1 X δ
µ] (B)
1 ]
µ (B) = ]
.
µ (xk , B) =
|Ω| k∈I
|Ω|
µ (Ω)
X
Ritroviamo cioè uno spazio di probabilità uniforme e la probabilità di un evento si
calcola usando il metodo classico (si veda la Sezione 2.6).
Esercizio 41. Sia {pk }k∈I una densità discreta (I è un insieme di indici e potrà essere
I = IX per qualche X). Studiare la convergenza di
fn (x) =
n
X
pk 1{xk } (x),
x ∈ D,
n ∈ N.
k=−n
Abbiamo accennato al fatto che useremo una scrittura definitiva per la f.r. che
completa quella appena data (si veda il Capitolo 7). Come vedremo sotto, se x ∈
/
supp(X) (o x ∈
/ spet(X)) la f.r. FX (x) può assumere solo il valore 0 oppure 1.
Introduciamo le seguente notazione per indicare la probabilità relativa ad un vettore
di v.a. discrete,
pr,s = P (X1 = xr , X2 = xs ),
r ∈ IX1 , s ∈ IX2
(3.20)
oppure
pr1 ,r2 = P (X1 = xr1 , X2 = xr2 ),
r1 ∈ IX1 , r2 ∈ IX2
Segue immediatamente la notazione relativa a vettori di dimensione d > 2.
Esercizio 42. Sia ck = γP (X = k), k ≥ 1 una successione con X ∼ P ois(λ), λ > 0
e γ > 0. Dire se (yk = k, ck ), k ∈ IY = {1, 2, 3, . . .} caratterizza una v.a. Y .
Osservazione 20. Spesso il supporto di una v.a. (continua) viene chiamato spettro
continuo mentre lo spettro di una v.a. (discreta) viene chiamato spettro discreto. Noi
chiameremo supporto e spettro gli insieme in questione per sottolineare i collegamenti
con la densità f della misura P ed il fatto che il supp(f ) è costituito dai punti x per
cui f (x) 6= 0. In particolare il supporto di una funzione f è dato dalla chiusura di
{x ∈ A : f (x) 6= 0}.
Esempio 14. (Modello deterministico v.s. Modello aleatorio) Un modello matematico
deve descrivere un fenomeno reale a partire dalla conoscenza di alcune informazioni,
le informazioni sono i dati del modello e rappresentano valori (o variabili) in input.
Il valore in output deve descrivere il fenomeno sulle base delle variabili considerate.
Consideriamo un modello semplice che descrive il fenomeno y, tale fenomeno dipende
66
dalle variabili x1 , x2 , . . . , xn , allora se la relazione di dipendenza è espressa dalla
funzione g, scriveremo
y = g(x1 , x2 , . . . , xn )
per indicare un modello deterministico: le variabili sono fisse. Pensiamo ad un fenomeno fisico, se conosco tutte le variabili che entrano in gioco, posso determinare
esattamente il valore della risposta y. Se non conosco tutte le variabili, il modello non potrà restituire una risposta esatta (o fedele alle leggi fisiche del fenomeno)
e si introduce inevitabilmente una condizione di incertezza. Il modello matematico
diventerebbe allora
Y = g(x1 , x2 , . . . , xn , X)
dove X è una variabile aleatoria che deve giustificare la mia ignoranza sul fenomeno
o l’impossibilità di reperire tutte le informazioni necessarie. La risposta diventa a sua
volta una variabile aleatoria e la sua legge di densità è legata alla densità di X per
il tramite della funzione g. Il modello così formulato si chiamo modello aleatorio : le
variabili non sono fisse ma sono legate ad una legge di probabilità, esiste ad esempio,
un valore modale.
3.2
Media e Momenti
Si consideri una v.a. continua X con legge di densità fX ed una v.a. discreta Y
caratterizzata dalla successione (yk , pk ), k ∈ IY . Definiamo le seguenti medie
Z
X
x fX (x)dx,
EY =
yk pk
EX =
supp(X)
k∈IY
ed in generale i momenti di ordine r > 0
Z
r
EX =
xr fX (x)dx,
supp(X)
EY r =
X
(yk )r pk .
k∈IY
Osserviamo che per v.a. continue o discrete, data una funzione continua g ∈ C(R),
possiamo scrivere
Z
Eg(X) =
g(x)f (x)µ(dx)
R
dove µ(dx) = dx (misura di Lebesgue e f è la densità continua con supporto supp(X))
o µ(dx) = µδ (dx, spet(X)) (misura di Dirac e f è la densità discreta di X). Nelle
Capitolo 3.
Variabili Aleatorie
67
formule sopra si è considerata la funzione continua g(x) = xr con r > 0. Per r = 0 si
ottiene banalmente E1 = 1.
Le medie campionarie introdotte a pagina 3 sono dunque collegate alle medie appena introdotte. In particolare, la media aritmetica è un caso particolare di media
ponderata ed entrambe si possono vedere come il valore medio di una variabile aleatoria. Dobbiamo osservare che le medie campionarie di pagina 3 sono medie aritmetiche
mentre le medie di cui si parla in questa sezione sono dette teoriche, sono cioè calcolate relativamente alla densità f (che sia continua o discreta). Inoltre, siamo in grado
di passare a nuove v.a. per il tramite di una funzione g ben definita.
Proposizione 9. Sia g ∈ Cb e non negativa, allora
Z
X
g(x) fX (x)dx,
Eg(Y ) =
Eg(X) =
g(yk ) pk .
supp(X)
(3.21)
k∈IY
Si noti che se 0 ≤ g ≤ M , allora 0 ≤ Eg(X) ≤ M (verificare! Si consideri la dis.
di Hölder.). Inoltre, se g ∈ Cb allora g ∗ = −g ∈ Cb . La funzione g(x) = xr con r > 0
è continua ma non limitata: non avrà senso per noi considerare EX r = ∞, infatti
g ∈ Cb (R) ⇒ |Eg(X)| ≤ M < ∞
|Eg(X)| < ∞ 6⇒ g ∈ Cb (R).
Siano adesso X ed Y due v.a. (continue o discrete). Sono quantità di interesse:
la varianza
V ar(X) = E(X − µ)2 = M2 − (M1 )2 ,
(3.22)
la covarianza
Cov(X, Y ) = E[(X − µX )(Y − µY )] = EXY − EXEY
(3.23)
Mr = EX r .
(3.24)
ed i momenti
Spesso scriveremo µ = M1 per indicare che la media M1 = EX è il numero µ
(non deve creare confusione il fatto che si stia usando lo stesso simbolo µ utilizzato per
indicare una misura, infatti dal contesto sarà sempre chiaro a quale oggetto ci stiamo
2
riferendo). Scriveremo anche σX
= V ar(X) per indicare la varianza di X o semplice2
mente σ se non ci sarà ambiguità. Allo stesso modo scriveremo Mr invece di Mr (X)
2
o Mr (Y ). Notiamo inoltre che σX
= Cov(X, X).
Diamo alcune proprietà della media:
68
i) E1A (X) = P (X ∈ A)
ii) per aj ∈ R ed Xj v.a. qualunque, j = 1, 2, . . . , n,
" n
#
n
X
X
E
aj X j =
aj EXj (linearità della media)
j=1
j=1
iii) se X ≥ 0, si ha
Z
EX =
∞
P (X > x)dx
X
e EX =
0
P (X > xk )
k∈IX
iv) se X ≥ 0 e p > 0, si ha
Z ∞
p
EX =
pxp−1 P (X > x)dx
e
EX =
0
X
p(xk )p−1 P (X > xk )
k∈IX
v) se X ≥ 0 e EX = 0, allora P (X = 0) = 1
vi) se X ⊥ Y , allora
EXY = EX EY
vii) se p e q sono esponenti coniugati, allora
1
1
E|XY | ≤ (E|X|p ) p (E|Y |q ) q
Proviamo che vale la relazione (3.22) scritta sopra tra varianza e momenti. Otteniamo
2
σX
=E(X − µ)2 (per definizione)
=E(X 2 − 2µX + µ2 ) (sviluppando il quadrato)
=M2 − 2µM1 + µ2 (per la linearità della media)
=M2 − (M1 )2 (per la definizione di momento)
Per la varianza vale inoltre la relazione
V ar(aX) = a2 V ar(X)
(3.25)
per ogni a ∈ R. La dimostrazione è lasciata al lettore (si consideri E[aX − E(aX)]2 ).
Osserviamo inoltre che (indipendenza lineare)
X ⊥ Y ⇒ Cov(X, Y ) = 0.
Non è vero il contrario (perché?).
(3.26)
Capitolo 3.
Variabili Aleatorie
69
Dimostrazione del punto i). Se X ∼ fX ,
Z
Z
E1A (X) = 1A (x)fX (x)dx =
fX (x)dx = P (X ∈ A).
A
Se invece X ∼ (xk , pk ), k ∈ IX ,
Z
X
E1A (X) = 1A (x)f (x)µδ (dx) =
1A (xk ) pk = P (X ∈ A).
k∈IX
Esercizio 43. Si dimostri il punto ii).
Esercizio 44. Si dimostri il punto iii) per v.a. continue e discrete.
Dimostrazione alternativa del punto iii). Integriamo per parti ed otteniamo
∞ Z ∞
Z ∞
d
x [1 − FX (x)]dx
P (X > x)dx =xP (X > x) −
dx
0
0
∞ 0Z ∞
=x(1 − FX (x)) +
xfX (x)dx
0
0
Z ∞
=
xfX (x)dx
0
dove si è usata la regola di de l’Hopital ed il fatto che
FX (0) = 0,
FX (+∞) = 1,
fX (±∞) = 0 (integrabilità della fX ).
Esercizio 45. Si dimostri il punto iv).
Dimostrazione del punto v). Dal punto precedente si vede che
Z ∞
EX =
P (X > x)dx = 0
implica
P (X > x) = 0 per ogni x. (3.27)
0
Quindi deve essere 1 = 1 − P (X > x) = P (X ≤ x) per ogni x e quindi (essendo
FX (x) non decrescente) tutta la probabilità è concentrata solo nel punto x = 0 (essendo
X ≥ 0, una v.a. non negativa).
Dimostrazione del punto vi). Segue dal fatto che f(X,Y ) (x, y) = fX (x) fY (y) per le
v.a. continue e analogamente pr,s = pr ps per le v.a. discrete.
70
Dimostrazione del punto vii). Consideriamo prima il caso in cui le variabili siano continue. Osserviamo che
Z
Z
Z
E|XY | =
|xy|f(X,Y ) (x, y) dxdy = |xy|dµ = kxyk1
supp(X)
supp(Y )
che equivale a kf gk1 in L2 (µ) per le funzioni f (x, y) = x e g(x, y) = y. Inoltre,
Z
Z
Z
p
p
|x| f(X,Y ) (x, y) dxdy = |x|p dµ = (kf kp )p
E|X| =
supp(X)
supp(Y )
e E|Y |q = (kgkq )q . Si sta quindi considerando una misura µ con densità continua
f(X,Y ) e dalla disuguaglianza di Hölder, si ottiene l’enunciato.
Se le variabili sono discrete, la disuguaglianza di Hölder continua a valere in lp
rispetto alla misura f(X,Y ) · µδ (dx, spet(X, Y )) associata alla v.a. discreta (X, Y ).
Esempio 15. (Il modello lineare) Consideriamo la funzione y = ax dove a ∈ R, il
grafico è una retta passante per l’origine degli assi. La funzione y descrive un fenomeno lineare deterministico, si ha cioè una perfetta relazione (lineare) tra le variazioni
di x e y. Nella realtà è assai difficile però trovare un fenomeno così regolare e quindi il
modello lineare deterministico non è molto adatto a descrivere alcun fenomeno. Consideriamo una v.a. E che rappresenti l’errore che si commette passando dal modello
deterministico y = ax ad uno più adatto Z = y + E e sia EE = 0. Si vede subito che
EZ = ax ed ax diventa un trend lineare, cioè il fenomeno oggetto di studio non deve
essere lineare ma deve avere un andamento medio lineare (che è una richiesta meno
artificiale).
Esempio 16. (Modello deterministico v.s. Modello aleatorio) Supponiamo di essere
interessati al seguente esperimento: in un aula ci sono tre finestre aperte e n studenti
che vogliono lanciare un gessetto con direzione fissata, angolazione fissata, forza fissata e vedere dove cade il gessetto nei diversi lanci. Per mantenere uno scopo illustrativo
consideriamo quantità adimensionali. Siamo interessati a studiare (semplificando)
y = posizione = g(peso, f orza, vento ) = f (x1 , x2 , x3 )
dove il peso del gessetto varierà ad ogni lancio per via dell’urto, la forza che ogni studente dovrà utilizzare nel lancio è stata fissata ma ognuno avrà una diversa sensibilità
e pur volendo non riuscirà a lanciare con forza costante, il vento disturberà i lanci
con una forza variabile e che non possiamo controllare. Vista la quantità di incertezza
che si introduce il modello giusto sembra essere un modello aleatorio del tipo
Y = g(X1 , X2 , X3 )
Capitolo 3.
Variabili Aleatorie
71
dove X1 ="peso del gessetto" avrà una sua distribuzione con un peso medio e varianza
prossima a zero, X2 ="forza nel lancio" avrà media uguale alla forza stabilita nella
fase iniziale dell’esperimento e varianza che dipenderà dalla sensibilità generale dei
lanciatori, X3 ="forza del vento" avrà un valore medio prossimo a zero (nel senso
che mediamente non ci sarà vento) ma la varianza può essere elevata (per via delle
folate di vento). Il modello aleatorio consentirà di individuare una distribuzione di
probabilità per il punto di contatto del gessetto. Inoltre data una regione di piano,
diciamo R, attraverso tale distribuzione di probabilità diremo che il gessetto (in un
lancio effettuato da uno studente) cadrà in un punto di R con una certa probabilità.
Se Rρ è un disco di raggio ρ > 0, possiamo trovare quel valore di ρ per cui
P (Y ∈ Rρ ) = α
con α = 0.95 o α = 0.99 ad esempio. Se ρ è molto grande, P (Y ∈ Rρ ) = 1 ma questo
rappresenta il caso banale. La giusta scelta di ρ ∈ (0, ∞) va fatta massimizzando la
probabilità α ∈ (0, 1) ma in relazione alla regione Rρ più piccola possibile.
3.3
3.3.1
Relazioni tra variabili aleatorie Eventi di misura nulla
Se vale µ(A) = 0 diciamo che A ha misura µ nulla, cioè A è un insieme trascurabile
rispetto alla misura µ. Se P ha densità f rispetto a µ, cioè dP = f · dµ ed A è
trascurabile rispetto a µ allora sarà anche di misura nulla rispetto a P , cioè P (A) = 012 .
Si consideri una v.a. X ∼ U nif (−c, c) con c > 0, la cui densità è quindi fX (x) =
1
1
(x) (si veda sotto per la v.a. Uniforme). Vediamo che P (X ∈ A) è la misura
2c [−c,c]
di Lebesgue dell’insieme A, infatti se A ⊂ [−c, c],
Z
1
1
P (X ∈ A) =
1[−c,c] (x)dx = µ(A).
(3.28)
2c A
2c
Sia adesso Y ∼ fY una v.a. continua con supp(Y ) ⊂ supp(X). Notiamo che Y è
assolutamente continua rispetto ad X, o meglio
Z
P (Y ∈ A) =
fY (y)dy
A
è assolutamente continua rispetto alla misura di Lebesgue. In particolare, dato un
insieme A ∈ supp(Y ) ⊆ supp(X), allora P (X ∈ A) = 0 implica P (Y ∈ A) = 0.
Si può sempre definire una v.a. Uniforme con supporto contenente un intorno di x
di probabilità nulla, quindi tale intorno sarà di probabilità nulla per ogni ogni v.a.
continua.
12
Si dice che P è assolutamente continua rispetto a µ e si scrive P µ.
72
3.3.2
Probabilità congiunte e condizionate
Variabili identicamente distribuite. Diciamo che due o più variabili sono identicamente distribuite e scriveremo ”i.d.” se hanno la stessa legge di densità13 (discreta
o continua). Inoltre se due o più variabili i.d. sono anche indipendenti scriveremo
”i.i.d.”.
Indipendenza. È importante sottolineare un aspetto fondamentale nel calcolo delle
Probabilità al quale si è appena accennato. Diamo la seguente definizione.
Definizione 36. Siano X e Y due v.a. definite sullo stesso spazio di probabilità.
Diciamo che X e Y sono indipendenti e scriveremo X ⊥ Y se
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) per ogni A, B ∈ B n .
(3.29)
Due eventi A1 , A2 relativi alla v.a. X sono indipendenti se (X ∈ A1 ) ⊥ (X ∈ A2 ).
Si noti che si sta parlando della stessa v.a. X. Studiare il verificarsi di A1 significa
quindi studiare (X ∈ A1 ) e così anche per A2 .
Si deve notare che ci sono diverse misure di dipendenza. Osserviamo i grafici in
Figura 3.2, si vede che i punti in (a) sono distribuiti in maniera casuale; i punti in (b)
sono distribuiti in maniera casuale intorno ad una retta (detta trend); i punti in (c) sono
distribuiti in maniera casuale attorno ad una parabola (un trend diverso dal precedente);
i punti in (d) sono ottenuti da realizzazioni indipendenti del quadrato di una normale.
Le realizzazioni sono quindi indipendenti ma essendo legate da un trend sottostante,
tranne nel caso (a), si possono identificare diverse strutture di dipendenza dei dati. I
grafici si sono ottenuti utilizzando R ed eseguendo il codice:
>e=rnorm(500)
>x=seq(0.01, 5, 0.01)
>par(mfrow=c(2,2))
>plot(e, pch=16, axes=F, xlab="(a)", ylab=" ")
>plot(x + e, pch=16, axes=F, xlab="(b)", ylab=" ")
>plot(x^2 + e, pch=16, axes=F, xlab="(c)", ylab=" ")
>plot(e^2, pch=16, axes=F, xlab="(d)", ylab=" ")
Si noti che rnorm() restituisce un vettore (di dimensione 500) di numeri con distribuzione N (0, 1). Tale funzione è un esempio di generatore di numeri casuali.
Esercizio 46. Nel grafico (a) di Figura 3.2 si sono plottati i punti e. Si noti che tali
punti rappresentano un errore Gaussiano e corrisponde alla nuvola di punti 0+e.
Perché tale osservazione non è banale? (Si faccia il confronto con il grafico (b)!!).
13
Dovremmo dire anche rispetto alla stessa misura µ che noi supporremo essere sempre la misura di
Lebesgue per le v.a. continue (o assolutamente continue) e la misura di Dirac per le v.a. discrete.
Capitolo 3.
Variabili Aleatorie
73
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
● ●
●
●
● ● ● ●
●
●
●●●
●
● ●
●
●
●●
●●
●●
●●●
● ●● ●●
●● ● ● ●●●
● ●●
● ● ●
●●
● ●
●
●●●●●●● ●
●
●●
● ●
●● ● ● ● ● ●
●●
●● ●● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
● ● ● ●
● ●
●
●● ●●
● ●●
●●
●● ●
●●
● ● ●
●●
●●●● ●
●
●
●
●●
●●
●● ●● ●
●●
● ●●
●
● ●●●●
● ●
●●
● ● ●
●
●●●●
●
●
●
●●
●●
● ●●
●
●
●● ●●
●
●●
●●
● ●●●
●
●●●●●●
●●
●● ●● ● ●●●●
●
● ●● ●●●
●
● ●●●●
●●
●
●●
● ●
●●
●
●● ●
● ●
● ●● ●
● ●● ●
●
●●
●
●
●
●● ●●
●
●
●
●●●
●
●
●
●
●
●
●
●
● ●●
●●● ●
● ●
● ●
●●
●
●
●●
●●
●
●
●
● ●●
●
●
●
●●
●●●●
●
●
●●●
●● ●
●● ●
●
●● ●
●
●
●●
●
●●●●
● ●● ●●
●●
● ●
● ●
●● ●
●●
●
●●
●●
●●
●
●
●●
●●
● ●● ●
●●●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●●
● ●
● ●
●
●●● ●
● ● ●
● ●●● ●●
●● ●
● ●●● ●●●●●●●●
● ●●●
● ●
● ● ● ●●
●●
● ●
●●● ● ●●
●
●
●
● ●● ●●
● ● ●
●
● ●● ●● ●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
● ● ●
●● ●●
● ●● ●● ●●
●
●●●●
●
●●
●
●●
●●●
●●
●●● ●
●● ●●●
● ●
● ●
●
●
●
●●
●●
●●●●
●● ●
● ● ●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
● ●●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●●●●●●
●
●
●
●
●
●
●
●
●
● ● ●
●●●●●
●●
●● ● ● ●●
● ●
●
● ●●
● ●●●●
●●
●●● ●●
●●●
●●
●●
●
●
● ●
●●●● ●
●●●
●● ●
●●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●●● ●
●
●
●
●
●●
●
●
●
●●●
●
●●
●●● ●
●●
●
● ● ●● ● ●●
●
●●●
●●●
●●
●●
●
●
●
●
●
●
●
●
● ● ●●
●
●
●
●
●
●
●
●
●
●●
●●●●
●●●●●●●● ● ●● ●●
●●●
●
●
●●● ●
●●
●
●
●
●
●
●
●
●●
● ●
● ● ●●
● ●
●
●●●
● ● ●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●
●●●
●
●
●
●●
●
● ●●● ●
●●
●
●
●●
●●
●
●
●
●●
●
●
●●
●
●
●●
●● ●●● ●
●
●
●● ●●
●●●● ● ●
●● ●
●
● ●●●●
●●●
●
●
●●●●●
●●
●
● ●●●● ●
●
●
●
●●●
●
●●●●●●● ●
●
●●
●●
●
● ● ●
●
● ●●
●
●
●
●
●
●
● ●●
●● ●
●● ●
●
●●
●
●
●●
●
●
●●
(a)
(b)
●●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
● ●●● ● ●
●
●
●
●●
●
●
●
●
●
●
●●●
●
● ●● ● ●
●
● ● ●●●
●
●●
●
●
●
●
● ● ●● ●●
● ● ●●● ●
●●●
●
●
●
●
●
●● ● ● ● ●●
●
●
●
●
●
●
●
●
●● ● ● ●●●●●
●● ●
●● ● ● ●●●●
●●
●
● ● ●
●
●
●
●
●● ●
●●
● ●
● ● ●● ●
●
●●● ●●●
●
●● ●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●●
●●
●●● ● ●● ●● ●●●
●●● ●
●● ●
●
● ●●● ●●●●
●●
●
●● ●●●
● ●●● ●
●●
●●
●
●●
●
●
●
●●
●●
●
●
●●
●
●
●
●●●
●
●
●
●●●
●
● ●
●
●●
●
●●
●
●
●
●● ●
●
●●
●
●
●
●●●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●●
●●
●●●
●
●
●
●
●
(c)
(d)
●
●
●
●
●
●
●
●
●
●
●
Figura 3.2: Diverse strutture di dipendenza.
74
Densità e funzioni di ripartizione. Dalla Proposizione 6, scriviamo
P (A1 , A2 , . . . , An ) =
n
Y
P (Aj )
j=1
se gli eventi Aj sono tra loro indipendenti. Consideriamo Aj = (Xj ≤ xj ) per ogni
j = 1, 2, . . . , n. Per il vettore X = (X1 , . . . , Xn ), otteniamo la f.r.
FX (x) =FX (x1 , . . . , xn )
=P (X1 ≤ x1 , . . . , Xn ≤ xn )
n
Y
=
P (Xj ≤ xj )
=
j=1
n
Y
FXj (xj ).
j=1
Dalla relazione precedente si ricava che, se X ∼ fX ,
∂n
FX (x1 , . . . , xn )
∂x1 · · · ∂xn
n
Y
=
fXj (xj ).
fX (x1 , . . . , xn ) =
j=1
Se Xj ∼ (xk , pk ), k ∈ IXj per j = 1, 2, . . . , n (cioè sono identicamente distribuite14 ),
allora
pr1 ,...,rn = P (X1 = xr1 , X2 = xr2 , . . . , Xn = xrn ) =
n
Y
prj .
j=1
Si vede subito, dalla legge delle probabilità composte che
P (X = xr |X = xs ) = pr|s =
pr,s
.
ps
(3.30)
Consideriamo ancora v.a. continue (e quindi integrali). La probabilità condizionata può essere riscritta come segue, sfruttando formalmente la legge delle probabilità
composte,
Z Z
P (Y ∈ A|X ∈ B) =
P (Y ∈ dy|X ∈ dx)
A
14
B
Si considera il caso in cui sono identicamente distribuite solo per semplicità di notazione ma si
potevano considerare le Xj ∼ (xjk , pjk ), k ∈ IXj .
Capitolo 3.
Variabili Aleatorie
75
Z Z
=
ZA ZB
=
P (Y ∈ dy, X ∈ dx)
P (X ∈ dx)
dFY |X (x, y)
ZA
ZB
A
B
=
fY |X (x, y)dxdy.
In particolare, si ottiene che
fY |X (x, y) =
fX,Y (x, y)
fX (x)
(3.31)
è la densità doppia della v.a. Y |X. Si poteva considerare subito la legge delle probabilità totali ed ottenere
P (Y ∈ A, X ∈ B)
P (X ∈ B)
Z
P (Y ∈ dy, X ∈ B)
=
P (X ∈ B)
ZA
P (Y ∈ dy, X ∈ B) dy
=
P (X ∈ B)
dy
A
P (Y ∈ A|X ∈ B) =
dove
P (Y ∈ dy, X ∈ B)
1
∂
= FY |X (y, B)
dy
P (X ∈ B) ∂y
Z
∂2
FY |X (y, x)dx.
=
B ∂y∂x
Si ottiene ancora che
∂2
fX,Y (x, y)
FY |X (y, x) =
= fY |X (x, y).
∂y∂x
fX (x)
Diremo che fX,Y (x, y) è una densità (doppia) congiunta mentre fY |X (x, y) è una
densità (doppia) condizionata. Nel caso di dimensioni n > 2 parleremo di densità
n-dimensionale (congiunta o condizionata).
Per semplicità continuiamo a riferirci alle densità 2-dimensionali fX,Y (x, y). Bisogna notare che la continuità di una funzione di due variabili, diciamo f (x, y), non deve
essere confusa con la continuità separata . Una funzione f (x, y) si dice separatamente
continua se per ogni y fissato, la funzione φ : x 7→ f (x, y) è continua solo in x e se
per ogni x fissato, la funzione ψ : y 7→ f (x, y) è continua solo in y. Se f è continua
76
in un punto allora anche φ,ψ sono separatamente continue in quel punto. Non è vero il
contrario come si può vedere dalla funzione
(
xy
, (x, y) 6= (0, 0)
+ y2
0,
(x, y) = (0, 0).
x2
f (x, y) =
Per verificare che f non è continua basta considerare f (t, t) = t2 /(t2 + t2 ) e quindi
sulle rette x = t e y = t. La verifica della continuità separata è lasciata al lettore.
Inoltre, verificare che f è derivabile. Se una funzione è derivabile e le derivate sono continue in un punto, allora tale funzione è differenziabile in quel punto; se una
funzione è differenziabile in un punto, allora è continua in quel punto.
Esercizio 47. Sia
√

 p x y , (x, y) 6= (0, 0)
f (x, y) =
x2 + y 2

0,
(x, y) = (0, 0).
Provare che f non è differenziabile. Dire se è continua.
Esercizio 48. Calcolare:
1.
x
;
2
(x,y)→(∞,∞) x + y 2
lim
2.
3x2 + 2y 2
;
(x,y)→(0,0) (x2 + y 2 )2
lim
3.
x−y
.
+ y 2 + 1)
lim
(x,y)→(0,0) log(x2
ν−1
Esercizio 49. Sia fX (x1 , x2 ) = λ xΓ(ν) e−(x1 +λx2 ) con x1 , x2 > 0, ν > 0, λ > 0 la legge
di densità del vettore X = (X1 , X2 ).
1. Dire se X1 ⊥ X2 .
2. Scrivere la marginale fX1 .
3. Scrivere la marginale fX2 .
4. Scrivere la f.r. FX2 .
2
2
Esercizio 50. Data la densità congiunta fX (x1 , x2 ) = κe−(x1 +x2 ) con x1 , x2 ∈ R del
vettore X = (X1 , X2 ):
1. determinare κ,
2. scrivere le marginali fXj (xj ), j = 1, 2.
Capitolo 3.
Variabili Aleatorie
Mancanza di memoria.
di indipendenza
77
Diciamo che una v.a. non ha memoria se vale la relazione
P (X > a + b|X > a) = P (X > b)
(3.32)
per a, b > 0. Per la legge delle probabilità composte si vede subito che deve verificarsi
P (X > a + b, X > a)
P (X > a + b)
=
= P (X > b)
P (X > a)
P (X > a)
dove la prima uguaglianza è sempre soddisfatta essendo vero che (X > a + b) implica
(X > a) con a, b > 0. Infatti, {ω : X(ω) > a} ⊂ {ω : X(ω) > a+b}. La mancanza
di memoria è una proprietà molto importante, implica che il comportamento di un certo
fenomeno (e quindi della v.a. che lo rappresenta) non dipende dal comportamento
passato. Il condizionamento non aggiunge e non toglie informazione.
Esercizio 51. Verificare la proprietà (3.32) per le seguenti v.a. :
1. X ∼ Exp(λ) con λ > 4,
2. X ∼ Gamma(λ, 1) con λ > 0,
3. X ∼ N (0, σ 2 ).
Correlazione. La correlazione è una dipendenza lineare misurata dalla covarianza.
Se due v.a. X e Y hanno covarianza nulla diciamo che sono incorrelate (o non sono
correlate). Stiamo dicendo che non è possibile identificare una relazione lineare tra
le due variabili, ad esempio non possiamo trovare a e b tali che Y = aX + b (o
X = aY + b). Notiamo che Cov(X, Y ) = EXY − EXEX può essere nulla per una
pura combinazione numerica (come ad esempio 12 = 3 · 4 o 12 = 2 · 6) e quindi non
implica che le v.a. siano indipendenti, possiamo solo dire che tra le due v.a. non c’è
dipendenza lineare. Quindi, riassumiamo dicendo che
X ⊥ Y ⇒ Cov(X, Y ) = 0,
Cov(X, Y ) = 0 6⇒ X ⊥ Y.
Si utilizza spesso un indice di correlazione detto di Bravais-Pearson dato da
σX,Y
Cov(X, Y )
=
.
ρ(X, Y ) = p
σX σY
V ar(X) V ar(Y )
Dalla dis. di Hölder si vede che
|E[(X − µX )(Y − µY )]| ≤ E(X − µX )2
21
E(Y − µY )2
21
78
e quindi
|Cov(X, Y )| ≤
p
V ar(X) V ar(Y ) ⇒ −1 ≤ ρ(X, Y ) ≤ 1.
Se esiste una dipendenza lineare tra le v.a. X e Y allora Y = g(X) (o viceversa) e
g(x) = ax + b
con a 6= 0.
Consideriamo un campione di n soggetti ai quali viene somministrato un farmaco per
valutarne gli effetti. Ogni soggetto (diciamo il paziente i-esimo) viene sottoposto a
visita medica e vengono misurati i valori relativi alla pressione arteriosa (variabile Xi
per il paziente i-esimo) e livelli di colesterolo nel sangue (variabile Yi ). Quindi dal
campione di n soggetti si ottengono le osservazioni
x = (x1 , x2 , . . . , xn ),
y = (y1 , y2 , . . . , yn )
che possiamo vedere come realizzazioni dei vettori
X = (X1 , X2 , . . . , Xn ),
Y = (Y1 , Y2 , . . . , Yn ).
Supponendo che esista la relazione lineare di cui sopra, sarà possibile approssimare
le yi osservate con i valori g(xi ) ottenute dalle osservazioni xi . Inoltre, la relazione
lineare sarà tanto più plausibile quanto più l’errore ei = yi − g(xi ) sarà minimo.
Vogliamo allora trovare gli a e b tali per cui
n
X
e2i = min.
i=1
Seguendo la soluzione dell’Esercizio 118 con a = β̂1 e b = β̂0 si vede che il coefficiente angolare (e quindi il coefficiente che determina la relazione lineare) è ρ = ρ(x, y),
il coefficiente di correlazione campionario15 .
15
Ricordiamo che il coefficiente di correlazione campionario è una statistica, cioè una funzione dei
dati campionari (in questo caso i vettori x = (x1 , x2 , . . . , xn ) e y = (y1 , y2 , . . . , yn )). In particolare,
Pn
1
i=1 xi yi − x̄ȳ
n
ρ(x, y) = q P
1 Pn
n
1
i=1 xi − x̄
i=1 yi − ȳ
n
n
dove x̄ e ȳ sono medie campionarie. In questo contesto dovremmo parlare di stima del coefficiente di
correlazione e scrivere ρ̂ = ρ(x, y).
Capitolo 3.
Variabili Aleatorie
79
Matrice delle covarianze. Consideriamo il vettore aleatorio
X = (X1 , X2 , . . . , Xn )
e le covarianze
σi,j = Cov(Xi , Xj ) = EXi Xj − EXi EXj
con 1 ≤ i, j ≤ n.
Si vede subito che σi,j = σj,i , le covarianze sono simmetriche. Inoltre, scriveremo
σi2 = σi,i per indicare che
Cov(Xi , Xi ) = V ar(Xi ),
i = 1, 2, . . . , n.
Si definisce matrice delle covarianze quella matrice n × n i cui elementi sono proprio
le covarianze,
σ = {σi,j }1≤i,j≤n .
La matrice Σ è simmetrica e quindi
Σt = Σ,
inoltre se le componenti del vettore X sono indipendenti, allora
Σ = diag{σi2 }1≤i≤n
è una matrice diagonale. Infatti, Cov(Xi , Xj ) = 0 per ogni i 6= j.
3.3.3
Tabella di contingenza
Siano X e Y due v.a. discrete. In generale è sempre possibile associare alla v.a. doppia
(X, Y ) una distribuzione doppia (la congiunta) pr,s definita sopra.
Scriviamo X ∼ (xk , pk ), k ∈ IX ed Y ∼ (ys , qs ), s ∈ IY per distinguere le due
distribuzioni di probabilità. Per distinguere quindi le marginali della v.a. doppia. Supponiamo inoltre che entrambe le v.a. possano assumere solo tre valori per semplicità.
La corrispondente tabella di contingenza (tabella a doppia entrata) è data da
x1
x2
x3
y1
p1,1
p2,1
p3,1
p·,1 = q1
y2
p1,2
p2,2
p3,2
p·,2 = q2
y3
p1,3
p2,3
p3,3
p·,3 = q3
p1,· = p1
p2,· = p2
p3,· = p3
1
80
dove le marginali si possono ottenere sommando sulle colonne o sulle righe
pk,· =
3
X
pk,s
e
p·,s =
s=1
3
X
pk,s .
k=1
Siano ora X e Y due v.a. indipendenti. Allora la tabella di contingenza nel caso di
indipendenza prende la forma
x1
x2
x3
y1
p1 q 1
p2 q 1
p3 q 1
p·,1 = q1
y2
p1 q2
p2 q2
p3 q2
p·,2 = q2
y3
p1 q3
p2 q3
p3 q3
p·,3 = q3
p1,· = p1
p2,· = p2
p3,· = p3
1
Si capisce subito che entrambe le tabelle possono essere scritte in termini matriciali,
in particolare possiamo associare una matrice n × m (o quadrata) alla prima tabella,
ad esempio A ed una matrice delle stesse dimensioni alla seconda tabella, ad esempio
B. La dimensione delle matrici dipende ovviamente dalle v.a. X e Y e quindi dai loro
insiemi di indici IX e IY . Avremo le marginali
pk,· =
m
X
pk,s
e
p·,s =
s=1
n
X
pk,s
k=1
e le matrici
A = {pk,s } 1≤k≤n
e B = {pk qs } 1≤k≤n .
1≤s≤m
1≤s≤m
Supponiamo ora di volere una ricostruzione della matrice A a partire da una matrice
osservata che possiamo chiamare F. Vogliamo quindi che F rappresenti una situazione
osservata. Si sono osservate le realizzazioni della v.a. doppia (X, Y ) su un campione (di persone, animali, batteri, alberi, etc.) di numerosità N e si sono registrate le
osservazioni dalle quali si sono ricavate le frequenze fk,s , quindi
F = {fk,s } 1≤k≤n .
1≤s≤m
Notiamo che le frequenze (relative) fk,s si sono ottenute considerando le frequenze
assolute Nk,s su tutte le N osservazioni fatte, cioè fk,s = Nk,s /N ed Nk,s rappresenta
il numero di elementi del campione (numero di persone, animali, batteri, alberi, etc.)
per le quali si è osservata la realizzazione (xk , ys ) della v.a. (X, Y ). Quindi, possiamo
anche scrivere
F=
1
N
N
dove
N = {Nk,s } 1≤k≤n .
1≤s≤m
Capitolo 3.
Variabili Aleatorie
81
Seguendo un approccio frequentista potremmo dire che al crescere di N (numerosità
del campione) si arriverebbe a scrivere
1
N→A
N
cioè le frequenze diventano probabilità. Diciamo infatti che A e B sono matrici teoriche (o che rappresentano situazioni teoriche) mentre F è una matrice osservata. Sembra ovvio che quanto più F è ”simile” alla matrice B, tanto più le v.a. osservate si
possono considerare indipendenti. Introduciamo allora un indice di dipendenza,
d(F, B) =
n X
m
X
(fk,s − pk qs )2
(3.33)
k=1 s=1
che restituisce una misura quadratica della distanza tra le matrici F e B. Come si vede
subito,
0 ≤ d(F, B) ≤ nm
e quanto più si avvicina a 0 tanto più possiamo dire che la situazione osservata rappresenta meglio un ipotesi di indipendenza tra le variabili X e Y della popolazione (di
persone, animali, batteri, alberi, etc.).
Esempio 17. Nel lancio di due dadi, diciamo D1 e D2 , la tabella di contingenza è
scritta come segue
D1
D1
D1
D1
D1
D1
=1
=2
=3
=4
=5
=6
D2 = 1 D2 = 2 D2 = 3 D2 = 4 D2 = 5 D2 = 6
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/36
1/6
1/6
1/6
1/6
1/6
1/6
1/6
1/6
1/6
1/6
1/6
1/6
1
dove la distribuzione in blu corrisponde al dado D1 e la distribuzione in magenta
corrisponde al dado D2 . Inoltre, si vede subito che dalle
pk,s = P (D1 = k, D2 = s) =
si ottiene
P (D1 = k) =
6
X
s=1
pk,s
1
6
∀ k, s
82
=
6
X
P (D1 = k, D2 = s)
s=1
=P
6
[
D1 = k,
!
(D2 = s)
s=1
=P (D1 = k, D2 ∈ spet(D2 )) .
per ogni k ∈ {1, 2, 3, 4, 5, 6}. Vale ovviamente il risultato analogo per P (D2 = s).
Esercizio 52. Data la matrice
3
8
1
2
A=
1
1
4
calcolare la distanza d(·, ·) tra A e la matrice B = {ai,j = 1/4}1≤i,j≤2 . Cosa
possiamo dire?
Il χ-quadrato. Una v.a. molto importante in statistica è data dalla somma parziale
χ2 (n) =
n
X
Xk2
k=1
dove Xk ∼ N (µ, σ 2 ) e n assume qui il significato di gradi di libertà. La somma (v.a.
varianza campionaria corretta)
n
1 X
S =
(Xk − X̄)2
n − 1 k=1
2
si distribuisce in accordo con una χ-quadrato, in particolare
S2 ∼
σ2 2
χ (n − 1).
n−1
I gradi di libertà sono n − 1 perché si può identificare una combinazione lineare nella
somma Xk − X̄ per cui una v.a. può essere scritta in funzione delle n − 1 rimanenti.
3.3.4
Trasformazioni di v.a.
Diamo prima i seguenti risultati senza dimostrarli.
Teorema 11. Sia X una v.a. 1-dimensionale e g : R 7→ R una funzione misurabile,
allora Y = g(X) è una variabile aleatoria.
Capitolo 3.
Variabili Aleatorie
83
Teorema 12. Sia (X1 , X2 ) = X una v.a. 2-dimensionale e g : R2 7→ R misurabile,
continua e derivabile. Allora g(X1 , X2 ) = Z è una variabile aleatoria.
Se le trasformazioni Y e Z di cui sopra sono v.a., allora possiamo identificare le
loro funzioni di ripartizione FY e FZ .
Osservazione 21. Sia Z = g(X1 , X2 ) come nel Teorema 12. Notiamo che il valore
medio può essere scritto a partire dalla FZ o dalla FX , cioè
EZ = Eg(X1 , X2 ).
Se le v.a. sono continue posso considerare
Z
EZ =
z dFZ (z)
supp(Z)
oppure
Z
Z
Eg(X1 , X2 ) =
g(x1 , x2 ) dF(X1 ,X2 ) (x1 , x2 ).
supp(X1 )
supp(X2 )
Analogamente nel caso discreto.
Ricordiamo anche che le derivate della funzione g e della sua inversa h = g −1 sono
legate dalla seguente formula
1
(3.34)
h0 (g) = 0
g (h)
(verificate !). Si ricava facilmente che (basta considerare y = g(x) e quindi x = h(y))
h0 (g(x)) =
1
g 0 (x)
e h0 (y) =
1
g 0 (h(y))
.
Teorema 13. Sia g una funzione misurabile, invertibile e derivabile con inversa h =
g −1 . Sia X una v.a. con legge di densità fX nota. La densità della v.a. Y = g(X) è
data da
fY (y) = |h0 (y)| fX (h(y)), y ∈ supp(g(X))
(3.35)
Dimostrazione. Osserviamo che Y è una v.a. per il Teorema 11, quindi possiamo
calcolare la f.r. FY . Inoltre,
Z
Z
fY (y)dy =
|h0 (y)| fX (h(y))dy
supp(Y )
g(supp(X))
Z
=
fX (z)dz = 1 ponendo y = g(z).
supp(X)
84
Se X ∼ fX allora la composizione di funzioni continue da una funzione continua ed
Y = g(X) è una v.a. continua. Per trovare la fY si deve quindi derivare la f.r. FY . Se
g è crescente, allora h = g −1 è crescente e h0 > 0. Otteniamo,
FY (y) =P (g(X) < y)
=P (X < h(y))
Z h(y)
=
fX (x)dx ⇒ fY (y) = h0 (y)fX (h(y)) ≥ 0.
−∞
Se g è decrescente, allora la sua inversa è decrescente. In particolare, h0 < 0 e quindi
FY (y) =P (g(X) < y)
=P (X > h(y))
Z ∞
=
fX (x)dx ⇒ fY (y) = −h0 (y)fX (h(y)) ≥ 0.
h(y)
Per quanto sopra, la dimostrazione è conclusa.
Teorema 14. Sia g una funzione misurabile, invertibile e derivabile con inversa h =
g −1 . Sia X una v.a. con distribuzione di probabilità (xk , pk ), k ∈ IX nota. La
distribuzione di probabilità della v.a. Y = g(X) è data da
P (Y = y) = P (X = h(y)),
y ∈ spet(g(X)).
(3.36)
Inoltre,
Y ∼ (yk = g(xk ), pk ), k ∈ IY = IX .
Esercizio 53. Dimostrare la (3.36).
Osservazione 22. Supponiamo che in uno studio medico sia importante misurare il
livello Y di una certa sostanza e che tale misurazione sia estremamente complessa. Si
sa però che Y = g(X) dove X è il peso ed è quindi facilmente reperibile, cioè tra Y
e X esiste la relazione (di dipendenza) g. Il medico aspetta che arrivi un paziente e
subito misura il peso X, ottiene quindi il livello Y = g(X). I pazienti arrivano casualmente, quindi per il medico il peso di ogni paziente è aleatorio fino alla misurazione.
Di conseguenza, è aleatorio il livello Y .
Alcuni esempi:
• modello lineare, g(X) = aX + b con a, b ∈ R
• potenza di v.a., g(X) = X α con α ∈ R
Capitolo 3.
Variabili Aleatorie
85
• somma di v.a., g(X1 , X2 ) = X1 + X2
• rapporto di v.a., g(X1 , X2 ) = X1 /X2
• funzioni più complesse, g(X1 , X2 , X3 ) = (X1 + X2 )/(X1 + X3 )
• etc.
Si osservi che la funzione g esprime quindi una relazione di dipendenza tra le variabili
input e la variabile output (o risposta del modello).
Esempio 18. Si vuole caratterizzare la v.a. Y = g(X) conoscendo X e la funzione g.
Dobbiamo quindi calcolare la densità di Y e riconoscere Y tra le v.a. elementari se la
sua densità è notevole. Si deve partire dalla f.r. di Y
FY (y) =P (Y ≤ y) definizione
=P (g(X) ≤ y) dato del problema.
Volendo procedere graficamente, si deve considerare il grafico della funzione g, cioè
Y = g(X) nel piano (X, Y ) e la regione ammissibile per la coppia (X, Y ), cioè
D = supp(X) × supp(Y ) (o analogamente16 D = spet(X) × spet(Y )). Nel calcolare
la f.r. si deve considerare l’evento Ay ∩ D dove
Ay = {(x, y) ∈ R2 : g(x) ≤ y}
oppure, se ad esempio g è monotona crescente con inversa h = g −1 ,
{(x, y) ∈ R2 : g(x) ≤ y} = {(x, y) ∈ R2 : x ≤ h(y)}.
Nel passare alla funzione inversa h bisogna considerare il giusto verso della disuguaglianza. A questo punto
FY (y) = P (Ay ∩ D),
y ∈ supp(Y )
e va calcolata per tutte le figure geometriche diverse che si possono identificare da
Ay ∩ D al variare di y ∈ supp(Y ). (Si veda anche l’Esempio 19).
Esercizio 54. Sia X ∼ fX una v.a., scrivere la legge di densità di Y = X 2 .
Esercizio 55. Sia X ∼ Exp(2), scrivere la legge di densità di Y = X + 1.
Esercizio 56. Siano X ∼ Exp(λ) con λ > 0 e Y ∼ U nif (0, 1) due v.a. indipendenti,
scrivere la legge di densità di Z = X/Y .
16
Nel caso in cui le v.a. sono discrete si può considerare la densità discreta pk = P (g(X) = yk ) e
non la f.r. P (g(X) ≤ yk ) come nel caso di v.a. continue.
86
Esercizio 57. Sia X ∼ Exp(1), scrivere la legge di densità di Y = X 2 .
Esercizio 58. Siano X1 , X2 due v.a. i.i.d. Exp(λ), λ > 0. Sia
( x
, x, y ∈ R \ {0}
x+y
g(x, y) =
0,
(x, y) = (0, 0)
e
Z = g(X1 , X2 ).
Determinare:
1. supp(Z).
2. fZ (z), z ∈ supp(Z).
3. supp(fZ ).
Esercizio 59. Sia
(
g(x, y) =
xy
, x, y ∈ R \ {0}
+ y2
.
0,
(x, y) = (0, 0)
x2
Determinare il supporto della v.a.
Z = g(X, Y )
se X ⊥ Y e
1. X, Y ∼ Exp(λ), λ > 2;
2. X ∼ Exp(λ), Y ∼ Exp(µ), λ, µ > 0;
3. X ∼ Exp(λ), λ > 0 e Y ∼ N (0, 1);
4. X ∼ Exp(µ), µ > 0 e Y ∼ P ois(λ), λ > 0;
5. X 2 ∼ N (0, 1), Y ∼ Exp(λ), λ > 1.
Esercizio 60. Determinare gli insiemi di definizione delle funzioni:
1. f (x, y) = x(x2 − y 2 )−1 ,
2. f (x, y) = (y log x)y−x ,
Capitolo 3.
Variabili Aleatorie
3. f (x, y) = (|x| −
√
87
x − y)y ,
4. f (x, y) = e1/y (x2 − y 2 )−1/2 ,
√
5. f (x, y) = y − log x.
Esercizio 61. Siano X e Y due v.a. indipendenti con densità
2
fX (x) = 2xλe−λx 1(0,∞) (x),
2
fY (y) = 2yλe−λy 1(0,∞) (y),
λ > 0.
Sia
Z = g(X, Y )
dove
(
g(x, y) =
x
, x, y ∈ R \ {0}
x2 − y 2
.
0,
(x, y) = (0, 0)
1. Determinare Eg(X, Y ).
2. Determinare fZ .
3. Determinare EZ.
Esercizio 62. Siano X ∼ U nif (0, 1) e Y ∼ Exp(1) due v.a. indipendenti. Determinare:
1. la legge di densità della v.a.
Z=
p
Y − log X,
2. supp(Z).
Esercizio 63. Si consideri la funzione f (x) = κ xθ−1 con x ∈ (0, a), a > 0.
1. determinare gli insiemi di definizione per κ e θ tali che f sia una legge di densità.
Si consideri la v.a. X con legge fX = f appena trovata.
√
2. Scrivere la funzione di ripartizione della v.a. V = log( 1 + a − X);
3. Scrivere la legge di densità della v.a. Z = (a − X)−1 .
88
3.3.5
Somme di variabili aleatorie
È utile nelle applicazioni saper trattare la somma di v.a. o somme parziali del tipo
Sn =
n
X
n ∈ N.
Xk ,
(3.37)
k=1
Come vedremo, il modo migliore per trattare tali oggetti prevede un utilizzo abbastanza
elementare delle funzioni caratteristiche associate alle v.a. coinvolte nella somma. Un
modello poco più complicato si ottiene considerando la combinazione lineare
Zn =
n
X
ak X k ,
n∈N
(3.38)
k=1
dove compaiono i coefficienti ak che possono essere scelti anche senza restrizioni.
Notiamo che una possibile scelta è ak = n−α per ogni k ≥ 1 con α ∈ R.
Come vedremo, sarà interessante capire a quale v.a. tende Zn se n → ∞. Nelle
applicazioni, n → ∞ significa n molto grande e corrisponde all’aumento di numerosità campionaria o di informazioni disponibili. Inoltre, molto spesso n grande si traduce
in n > 1000, n > 100 o n > 30 nel senso che raggiunti tali valori si ottiene una buona
approssimazione del problema oggetto di studio. Le informazioni disponibili sono già
sufficienti ad ottenere una analisi accurata.
Osserviamo che per la linearità del valore medio si ha
EZn =
n
X
ak EXk
k=1
e (dalla proprietà (3.25)) supponendo che le Xk siano indipendenti
V ar(Zn ) =
n
X
V ar(ak Xk ) =
k=1
n
X
a2k V ar(Xk ).
(3.39)
k=1
Si veda lo svolgimento dell’Esercizio 105. Se le v.a. Xk , k ∈ N non sono indipendenti,
dalla relazione V ar(Zn ) = M2 (Zn ) − M12 (Zn ) ricaviamo
V ar(Zn ) =
n X
n
X
ak as Cov(Xk , Xs ).
k=1 s=1
Infatti
n
X
k=1
!2
ak X k
=
n
X
k=1
!
ak X k
·
n
X
k=1
!
ak X k
Capitolo 3.
Variabili Aleatorie
89
n
X
=
!
ak X k
·
=
!
as X s
s=1
k=1
n X
n
X
n
X
ak X k as X s
k=1 s=1
dalla quale scriviamo M2 (Zn ) mentre per il primo momento si ha che
!
!
X
X
M12 (Zn ) =
ak E[Xk ]
as E[Xs ]
s=1
k=1
=
XX
as ak E[Xk ] E[Xs ].
k=1 s=1
Quindi, si ottiene
M2 (Zn ) −
M12 (Zn )
=
n
n X
X
ak as (E[Xk Xs ] − E[Xk ] E[Xs ]) .
k=1 s=1
La v.a. media campionaria. È definita dalla media aritmetica di v.a. indipendenti
Xk , k ∈ N ed è indicata con X̄ o X̄n per sottolineare la dipendenza da n (numerosità
campionaria),
n
1X
Xk
X̄n =
n k=1
ed è quindi riconducibile alle v.a. viste sopra (n−1 Sn o Zn con ak = 1/n per ogni k).
Bisogna subito notare che se Xk ∼ N (µk , σk2 ) sono indipendenti, allora
!
!
n
n
n
n
X
X
X
X
1
1
1
X̄n ∼ N
µk ,
σk2 = N
µk , 2
σk2 .
n
n
n
k=1
k=1
k=1
k=1
Se le Xk ∼ N (µ, σ 2 ) sono i.i.d., allora
1
X̄n ∼ N (nµ, nσ 2 ) = N
n
σ2
µ,
.
n
Oltre alla variabile Normale, possiamo ovviamente considerare altre v.a. e quindi
altre densità chiuse rispetto alla somma oppure no, si avrà sempre comunque (se le v.a
Xk sono i.i.d.)
E X̄n = EX1 ,
e V ar(X̄n ) =
V ar(X1 )
.
n
90
Somme di due v.a. indipendenti. Consideriamo la somma di due v.a. indipendenti
X,Y . Vogliamo trovare la legge di densità (continua, discreta o mista) della v.a. Z =
X +Y.
Esempio 19. Siano X ∼ fX , Y ∼ fY due v.a unidimensionali tali che X ⊥ Y .
Studiare la v.a. Z = X + Y . Lo studio di Z passa per tre punti essenziali, si deve
caratterizzare
1. il supporto supp(Z) (visto che X e Y sono c., ci aspettiamo che Z sia c.),
2. la f.r. FZ (z), z ∈ supp(Z) (e quindi resta definita la densità fZ ),
3. la densità fZ = FZ0 ; riconoscere Z se fZ è notevole.
Il primo punto sembra facile, bisogna ovviamente considerare supp(X) e supp(Y ) e
vedere la somma dei minimi e dei massimi valori per entrambe le v.a. X e Y . Vediamo
il secondo punto, per ogni z ∈ supp(X + Y ), si deve considerare la probabilità
P (Z ≤ z) =P (X + Y ≤ z) = P (X ≤ z − Y ) = P (Y ≤ z − X),
ricordando che si hanno informazioni su X e Y (o sulla v.a. doppia (X, Y )) e non
su Z. Chiamiamo D = supp(X) × supp(Y ) il supporto della v.a. doppia (X, Y ), se
X ≥ 0 e Y ≥ 0 ovviamente D è il primo quadrante nel piano cartesiano. Scegliamo di
considerare, tanto non cambia il risultato, P (Y ≤ z − X), allora nel piano cartesiano
dobbiamo disegnare la retta Y = z − X dove X e Y variano nel loro supporto e
z ∈ supp(X + Y ) deve essere fissato. Al crescere di z la retta Y = z − X (o
X + Y = z) si allontana dall’origine degli assi. Noi siamo interessati a tutti quei
punti che si trovano sotto la retta, cioè alla porzione di piano
Az = {(x, y) ∈ R2 : x + y ≤ z} = {(x, y) ∈ R2 : y ≤ z − x}.
Infatti stiamo cercando P (X+Y ≤ z) = P (Y ≤ z−X). L’insieme Az deve dipendere
da z, perché si è detto che preventivamente bisogna fissare z, in realtà z va fissato in
base alle diverse figure che si possono ottenere da D ∩ Az al variare di z ∈ supp(Z).
Sia D = ∪N
i=1 Di dove gli insiemi Di sono scelti in modo che Di ∩ Az per i = 1, . . . , N
siano figure geometriche (piane, in questo caso) diverse. Allora,


0,
z∈
/ supp(X + Y ), (X, Y ) ∈ D0




P
(D
∩
A
),
z
∈
supp(X + Y ), (X, Y ) ∈ D1
1
z


 P (D2 ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ D2
FZ (z) = P (Z ≤ z) =
..

.




P (DN ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ DN


 1,
z∈
/ supp(X + Y ), (X, Y ) ∈ DN +1
Capitolo 3.
Variabili Aleatorie
91
dove P (Di ∩ Az ) = P ((X, Y ) ∈ Di ∩ Az ) per ogni i = 1, 2, . . . , N e D0 , DN +1
sono rispettivamente, l’evento impossibile e l’evento certo per la v.a. doppia (X, Y ).
Il terzo punto è lasciato al lettore e dipenderà dal caso oggetto di studio.
Osservazione 23. Per v.a. discrete e miste si procede esattamente allo stesso modo.
Esercizio 64. Siano λ, µ > 0 e X ∼ Exp(λ), Y ∼ Exp(µ) tali che X ⊥ Y . Studiare
la v.a. Z = X + Y .
Esercizio 65. Sia Z la v.a. del precedente esercizio. Studiare Z nel caso µ = λ.
Teorema 15. (Convoluzione per densità discrete) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼
(ys , ps ), s ∈ IY due v.a. note. Allora,
X + Y = Z ∼ (zk , pk ), k ∈ IZ
con
pk = P (Z = zk ) =
X
P (Y = zk − xi ) pi =
i∈If
X
X
P (X = zk − ys ) ps
(3.40)
s∈If
Y
e
P (Z ≤ zk ) =
X
P (Y ≤ zk − xi ) pi =
i∈If
X
X
P (X ≤ zk − ys ) ps
(3.41)
s∈If
Y
dove
If
X = {i ∈ IX : zk − xi ∈ spet(Y ), zk ∈ spet(Z)}
e
If
Y = {s ∈ IY : zk − ys ∈ spet(X), zk ∈ spet(Z)}.
Osservazione 24. Consideriamo due v.a. indipendenti
X ∼ (xi , pi ), i ∈ IX ,
Y ∼ (ys , ps ), s ∈ IY
e la somma Z = X + Y . Allora, per ogni z ∈ supp(X + Y ),
P (Z = z) =P (Y = z − X) = P (Y = z − X, X ∈ spet(X))
= [(considero l’intersezione con un evento certo)]
!
[
=P Y = z − X,
(X = xi )
(unione di eventi incompatibili)
k∈IX
92
!
[
=P
[(Y = z − X) ∩ (X = xi )]
k∈IX
=
X
P (Y = z − X) ∩ (X = xi )
(legge delle prob. totali)
k∈IX
=
X
P (Y = z − X|X = xi )P (X = xi ) (legge delle prob. composte)
k∈IX
=
X
P (Y = z − xi )P (X = xi )
k∈IX
dove, nell’ultimo passaggio, si è usato il condizionamento, si è usata cioè l’informazione disponibile X = xi .
Teorema 16. (Convoluzione per densità miste) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼ fY
due v.a. note. Allora,
X + Y = Z ∼ fZ
con
FZ (z) =
X
FY (z − xi ) pi
(3.42)
fY (z − xi ) pi
(3.43)
i∈If
X
e
fZ (z) =
X
i∈If
X
dove
If
X = {i ∈ IX : z − xi ∈ spet(Y ), z ∈ supp(Z)}.
Osservazione 25. Seguendo quanto abbiamo visto nella precedente osservazione, nel
caso delle v.a. miste si deve considerare
X
P (Y ≤ z − X) ∩ (X = xi ) (legge delle prob. totali)
FZ (z) =
k∈IX
=
X
P (Y ≤ z − X|X = xi )P (X = xi )
(legge delle prob. composte)
k∈IX
=
X
P (Y ≤ z − xi )P (X = xi ).
k∈IX
Teorema 17. (Convoluzione per densità continue) Siano X ∼ fX e Y ∼ fY due v.a.
note. Allora,
X + Y = Z ∼ fZ
Capitolo 3.
Variabili Aleatorie
con densità
Z
fZ (z) =
93
Z
fY (z − x)fX (x)dx =
SX
fX (z − y)fY (y)dy,
z ∈ supp(Z) (3.44)
SY
dove
SX = {x ∈ supp(X) : z − x ∈ supp(Y ), z ∈ supp(Z)}
e
SY = {y ∈ supp(Y ) : z − y ∈ supp(X), z ∈ supp(Z)}
Osservazione 26. Valgono le seguenti uguaglianze
Z
Z
fY (z − x)fX (x)dx =
fY (z − x)fX (x)dx
SX
R
(perché fY è nulla fuori il suo supporto) e
Z
Z
fX (z − y)fY (y)dy
fX (z − y)fY (y)dy =
SY
R
(perché fX è nulla fuori il suo supporto).
Definizione 37. Si dice famiglia di densità di probabilità F = F(θ) di parametro
θ ∈ Θ ⊆ Rm , l’insieme delle densità f = f (x; θ) con x ∈ D ⊆ Rd .
Per indicare che non ci interessa la dipendenza dalla variabile x, scriveremo f (·; θ).
La funzione f ci interessa nell’argomento θ (il parametro) e non nell’argomento x (la
variabile).
Esempio 20. La densità discreta pk =
famiglia di densità
λk −λ
e
k!
= f (k; λ) al variare di λ definisce la
F(λ) = {f (·; λ), λ ∈ (0, ∞)} .
√
2
2
Esempio 21. La densità f (x; θ) = e−(x−µ) /2σ / 2πσ 2 con θ = (µ, σ 2 ) ∈ R × (0, ∞)
definisce la famiglia
F(µ, σ 2 ) = f (·; µ, σ 2 ), µ ∈ R, σ 2 > 0 .
Definizione 38. Una famiglia F di densità di probabilità è chiusa rispetto alla somma
se prese due densità in quella famiglia, la loro convoluzione appartiene ancora ad F.
94
Esercizio 66. Dimostrare che la famiglia di densità di Poisson è chiusa rispetto alla
somma.
Esercizio 67. Siano X ∼ U nif (0, 1) ed Y ∼ Exp(λ), λ > 0 due variabili indipendenti:
a) calcolare la legge di densità della somma Z = X + Y ,
b) calcolare la funzione di ripartizione della variabile W = λZ,
c) scrivere la legge di densità di Z nel caso X ∼ Exp(λ), λ > 0.
Esercizio 68. Siano X ∼ Exp(λ), λ > 0 e Y ∼ Ber(p), p ∈ (0, 1) due v.a.
indipendenti. Studiare la v.a. Z = X + Y .
2
Esercizio 69. Si consideri la funzione f (x) = κ e−θx con x ∈ R.
1. Determinare gli insiemi di definizione per κ e θ tali che f sia una legge di
densità.
Si consideri la v.a. X con legge di densità fX = f appena trovata.
2. Chi è X?
3. Si fissino due valori (ammissibili) per κ e θ. Scrivere la legge di densità della
v.a. Y = |X|2 .
4. Si consideri
la successione di v.a. i.i.d. Yj ∼ Y . Scrivere la legge di densità di
Pn
Z = j=1 Yj .
Proposizione 10. Sia pk , k ∈ N ∪ {0} la densità discreta di una v.a. Bin(n, p). Allora
pk è prima monotona crescente e poi monotona decrescente attorno al valore massimo
(n + 1)p.
Dimostrazione. Basta considerare il rapporto
pk
(n − k + 1)p
=
pk−1
k(1 − p)
che è maggiore di uno se pk ≥ pk−1 , cioè se e solo se
(n − k + 1)p > k(1 − p)
ovvero k < (n + 1)p.
Capitolo 3.
Variabili Aleatorie
95
Approssimazioni per grandi campioni. Sia x ∈ Rn una realizzazione del vettore
X le cui componenti sono Bernoulliane indipendenti. Sappiamo che sommando tali
componenti otteniamo una Binomiale, siamo quindi interessati alla v.a.
Sn =
n
X
Xi ∼ Bin(n, p)
n ∈ N, p ∈ [0, 1].
(3.45)
i=1
Osserviamo che
• Se n è grande e p è molto piccola possiamo approssimare la binomiale Bin(n, p)
con la legge degli eventi rari o di Poisson di parametro λ = np. Quando p è
molto grande vale la stessa approssimazione se consideriamo che 1 − p = q è
molto piccola. Infatti, se Xn ∼ Bin(n, p) con p = λ/n, allora
n−k
λk
λ
n!
1−
P (Xn = k) =
k!(n − k)! nk
n
−k
n
λk
λ
λ
n(n − 1)(n − 2) · · · (n − k + 1)
=
1−
1−
.
k!
n
n
nk
Per n → ∞,
n
−k
λ
λ
−λ
→ e ,
1−
→ 1
1−
n
n
n(n − 1)(n − 2) · · · (n − k + 1)
→ 1
nk
e quindi si ottiene
lim P (Xn = k) =
n→∞
λk −λ
e ,
k!
k = 0, 1, 2, . . . .
Inoltre, la P oi(λ) può essere approssimata al crescere di λ da una N (λ, λ).
• Se n è grande e p ' q ' 0.5, approssimiamo la binomiale Bin(n, p) con la normale
N (np, npq).
In ultima analisi quindi la Bin(n, p) può essere approssimata al crescere di n da
una normale N (µ, σ 2 ) di media µ = np e varianza σ 2 = np oppure σ 2 = npq se p è
molto piccola oppure se p ' q rispettivamente.
96
Passeggiate aleatorie (random walk). Consideriamo una successione Xk di v.a.
Bernoulliane di parametro p ∈ (0, 1) e spet(Xk ) = {−1, 1} per ogni k ∈ N. In
particolare, si ha che
p, xk = +1
P (Xk = xk ) =
∀ k.
q, xk = −1
La somma parziale Sn può essere vista come una passeggiata aleatoria, cioè come un
movimento aleatorio (di una particella, di un animale, di una persona) che dipende
da spostamenti in avanti (+1) e spostamenti in dietro (−1). La posizione raggiunta
ad un certo istante dipende dal numero di spostamenti in avanti e in dietro. Provate
a disegnare i punti (n, Sn ) per qualche n partendo da una realizzazione del vettore
X = (X1 , X2 , . . .), ad esempio x = (1, 1, −1, 1, 1, −1, −1, 1, 1, . . .). Notiamo che il
salto |Xk | = 1 può non essere unitario, si consideri ad esempio una successione di v.a.
con spet(Xk ) = {−c, +c} e c > 0.
3.3.6
Somme aleatorie di variabili aleatorie
Consideriamo la somma parziale
SN =
N
X
Xk ,
n∈N
(3.46)
k=1
dove N è a sua volta una v.a. oppure la forma più generale ZN . Le Xk possono essere
discrete o continue mentre supporremo sempre che N sia una v.a. discreta. Inoltre,
considereremo sempre N ⊥ Xk per ogni k. Se le Xk sono i.i.d, notiamo che
d
X1 + X 2 + . . . + XN = X
{z. . . + X}
| +X +
N volte
dove Xk ∼ X per qualche v.a. X con la stessa distribuzione di probabilità delle Xk
(per ogni k). Da questa uguaglianza in legge ricaviamo l’identità di Wald
ESN = EN X = EN EX.
3.3.7
Variabili aleatorie ordinate
Consideriamo un vettore di v.a. X ed una sua realizzazione x dati da
X = (X1 , X2 , . . . , Xn ),
x = (x1 , x2 , . . . , xn ).
In generale possiamo ottenere una realizzazione in n! modi diversi, cioè possiamo ordinare le n realizzazione in n! modi diversi. Possiamo poi considerare le realizzazioni
Capitolo 3.
Variabili Aleatorie
97
uguali e quindi i modi diversi in cui ordinare le n realizzazioni sono dati dalle permutazioni con ripetizioni, ad esempio se x1 si ripete k1 volte e k2 osservazioni sono
uguali ad x2 , allora si possono considerare k1n!
modi diversi di ordinare il vettore
!k2 !
delle realizzazioni. Qui siamo interessati ad un solo ordinamento, dalla realizzazione
minima a quella massima in ordine crescente. Consideriamo allora le v.a. ordinate ed
il vettore diventa
(X(1) , X(2) , . . . , X(n) )
dove con X(i) indichiamo la v.a. la cui realizzazione occuperà il posto i-esimo del campione x una volta ordinato dalla realizzazione minima alla massima. Quindi X(1) =
min1≤j≤n {Xj } e X(n) = max1≤j≤n {Xj }. Cerchiamo la densità del massimo.
Proposizione 11. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(n) la v.a. ordinata di posto n.
Allora,
FY (y) = [FX (y)]n , y ∈ supp(X).
(3.47)
Dimostrazione.
Y = max {Xj }
1≤j≤n
quindi supp(Y ) = supp(X).
P (Y ≤ y) =P ( max {Xj } ≤ y)
1≤j≤n
ma se il massimo non supera il livello y, allora nessuna v.a. lo supera
P (Y ≤ y) =P (X1 ≤ y, X2 ≤ y, . . . , Xn ≤ y) =
n
Y
P (Xj ≤ y)
j=1
dove si è usato il fatto che le v.a. sono indipendenti. Considerando che Xj ∼ X, cioè
sono identicamente distribuite, si ottiene
P (Y ≤ y) =
n
Y
P (X ≤ y) = [P (X ≤ y)]n
j=1
ed otteniamo il risultato cercato.
Cerchiamo ora la densità del minimo di n v.a. i.i.d..
Proposizione 12. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(1) la v.a. ordinata di posto 1. Allora
FY (y) = 1 − [1 − FX (y)]n ,
y ∈ supp(X).
(3.48)
98
Dimostrazione. Notiamo che
FY (y) = P ( min {Xj } ≤ y)
1≤j≤n
non è trattabile con la stessa comodità di 1 − FY (y) e ci concentriamo allora sulla
probabilità
P ( min {Xj } > y) =P (X1 > y, . . . , Xn > y)
1≤j≤n
=
=
n
Y
j=1
n
Y
(tutte sono maggiori se lo è il minimo)
P (Xj > y)
(sono indipendenti)
P (X > y)
(sono identicamente distribuite)
j=1
=[1 − FX (y)]n
(per la definizione di FX ).
Quindi si ottiene l’enunciato.
In generale, diamo il seguente risultato senza dimostrazione.
Proposizione 13. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(j) la v.a. ordinata di posto j.
Allora
n X
n
FY (y) =
[FX (y)]k [1 − FX (y)]n−k .
(3.49)
k
k=j
Esercizio 70. Da precedenti studi, una società associa la legge distributiva dei tempi
medi di utilizzo di suoi alcuni macchinari alla legge esponenziale, Exp(λ) con λ ∈
(2, 3). Inoltre, misurando gli utilizzi di tali macchinari in unità di tempo, si chiede:
1. con quale probabilità la durata minima sia maggiore di 8 unità di tempo,
2. se si sono osservate le durate x = (4, 7, 2, 5, 3, 4), si può fornire una stima per
λ?
Esercizio 71. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1).
Studiare la v.a.
min1≤k≤n {Xk }
, n ∈ N.
Zn =
max1≤k≤n {Xk }
Esercizio 72. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e Exp(λ), λ > 0.
Studiare la v.a.
Zn = max {Xk } − min {Xk },
1≤k≤n
1≤k≤n
n ∈ N.
Esercizio 73. Sia n = 2 nei precedenti esercizi. Studiare le v.a. Z2 .
Capitolo 3.
3.3.8
Variabili Aleatorie
99
Successioni monotone di variabili aleatorie
Consideriamo una successione di v.a. in cui l’ordinamento è dato, cioè la successione
{Xk }k∈I con I ⊆ N, può essere:
• monotona non-decrescente se X1 ≤ X2 ≤ X3 ≤ . . .,
• monotona non-crescente se X1 ≥ X2 ≥ X3 ≥ . . ..
Sia K` con ` ∈ R la v.a. per cui è vera la relazione
P (K` ≤ k) =P (Xk ≥ `) (se {Xk } è non-decrescente),
P (K` ≤ k) =P (Xk ≤ `) (se {Xk } è non-crescente).
Supponiamo che k ∈ I rappresenti l’istante in cui si osserva la variabile allo studio.
Allora, la v.a. K` può essere vista come un tempo ovvero come il tempo di attesa per
il raggiungimento del livello ` della successione Xk . Ad esempio, se la successione è
non-crescente, l’evento (K` ≥ k) indica che la successione Xk raggiunge il livello `
ad un istante successivo (non precisato) a k. Aspettare k realizzazioni non bastano per
raggiungere (dal basso) il livello `. Analogamente, se la successione è non-crescente,
(K` ≥ k) indica che k realizzazioni non sono sufficienti per raggiungere (dall’alto) il
livello `. Inoltre, se le v.a. Xk sono continue allora ` ∈ supp(Xk ); se le v.a. sono
discrete, allora ` ∈ spet(Xk ).
Esempio 22. Sia Xk ∼ P ois(λk), sappiamo che Xk può essere vista come la somma
di k v.a. di Poisson indipendenti di parametro λ > 0 (chiusura rispetto alla somma).
Ovviamente Xk è non-decrescente, allora vogliamo trovare la distribuzione K` del
numero di addendi necessari per superare il livello `. Si ha che
P (K` ≤ k) =P (Xk ≥ `)
∞
X
=
P (Xk = x)
x=`
=e
−λk
∞
X
(λk)x
x!
x=`
` −λk
=(λk) e
∞
X
(λk)x
.
(x + `)!
x=0
La densità discreta di una Poisson somma ad uno su N e allora
P (K` ≤ k) =e
−λk
∞
X
(λk)x
x=`
x!
−λk
−e
∞
X
(λk)x
x=0
x!
+1
100
=1 − e
−λk
`−1
X
(λk)x
x!
x=0
(che è 1 − P (Xk < `)). Notiamo che
` − 1 (` − x − 1)!
1
=
x!
x
(` − 1)!
dove (si veda la funzione Gamma)
Z
∞
u`−x−1 e−u du,
(` − x − 1)! = Γ(` − x) =
x ≥ 0.
0
Allora, possiamo scrivere
`−1
X
(λk)x
x=0
x!
`−1 1 X `−1
Γ(` − x) (λk)x
=
x
Γ(`) x=0
=[ per la linearità e la positività degli addendi17 ]
!
Z ∞
`−1 x
X
1
`
−
1
(λk)
=
u`−1 e−u
du
Γ(`) 0
x
ux
x=0
=[ per il binomio di Newton ]
`−1
Z ∞
1
λk
`−1 −u
u e
=
1+
du
Γ(`) 0
u
Z ∞
1
e−u (u + λk)`−1 du
=
Γ(`) 0
=[ pongo y = u + λk ]
Z ∞
eλk
=
y `−1 e−y dy.
Γ(`) λk
Riorganizzando i conti, si ottiene
Z ∞
Z λk
1
1
`−1 −y
P (K` ≤ k) = 1 −
y e dy =
y `−1 e−y dy,
Γ(`) λk
Γ(`) 0
k ∈ N.
Esercizio 74. Consideriamo Xt ∼ P ois(λt), t > 0 (tempo continuo), allora K`
è una v.a. continua. In maniera alternativa si dimostri che K` ∼ Gamma(1, `).
[Suggerimento: si consideri FK0 ` (t) dove
FK` (t) = e
−λt
∞
X
(λt)x
x=`
ed il fatto che si ottiene una serie telescopica].
x!
Capitolo 3.
Variabili Aleatorie
101
Osservazione 27. La collezione {Xt , t ≥ 0} in cui Xt ∼ P ois(λt) definisce il
processo (aleatorio) di Poisson.
Osservazione 28. Le somme parziali Sn con n ∈ N di v.a. non-negative sono successioni non-decrescenti.
Esercizio 75. Siano Xj ∼ Ber(p), p ∈ (0, 1) con j ∈ N una successione di v.a. i.i.d.
P
e sia Sk = kj=1 Xj con k ∈ N la loro somma parziale. Trovare la f.r. della v.a. K` ,
cioè del minimo numero k di v.a. Bernoulliane necessarie per raggiungere il livello
`. [Suggerimento: si ricordi che Xj ∈ {0, 1} e Sk è una successione non-decrescente
per cui P (Sk ≥ `) = P (K` ≤ k)].
Esercizio 76. Nel precedente Esercizio 75, si scriva P (Sk = k).
Esempio 23. Sia Sk , k ∈ N la somma parziale di Exp(λ), λ > 0. Si vuole studiare la
v.a. K` . Subito possiamo dire che ` ∈ supp(Sk ), infatti la somma di v.a. continue è
una v.a. continua, in questo caso in particolare ` ∈ (0, ∞). Allora,
P (K` ≤ k) =P (Sk ≥ `)
=P (Gamma(λ, k) ≥ `)
Z ∞
λk
uk−1 e−λu du.
=
Γ(k) `
Esercizio 77. Sia {Xj }j∈N una successione di v.a. indipendenti e Sk con k ∈ N la
corrispondente successione delle somme parziali. Studiare la v.a. (tempo di attesa)
K` nei seguenti casi:
1. Xj = |Y | dove Y ∼ N (0, 1),
2. Xj = |Y | dove Y ∼ N (µ, 1/2j ) con µ > 0,
3. Xj ∼ Gamma(λ, j) con λ ∈ (1, 2),
4. Xj ∼ Bin(j, p) con p ∈ (0, 1/3),
per ogni j ∈ N.
3.3.9
Simulazione, generatori di numeri casuali
Nelle tecniche di generazione (di numeri casuali) supporremo sempre di poter generare un vettore uniforme (cioè un vettore di realizzazioni indipendenti di una variabile
aleatoria Uniforme in un certo intervallo, possiamo scegliere un intervallo che più si
adatta alla nostre esigenze). È possibile generare numeri aleatori uniformi seguendo
ben noti algoritmi oppure si possono utilizzare delle funzioni implementate in tutti i
software esistenti. Dalla generazioni di numeri casuali uniformi si possono ottenere
numeri casuali che seguono altre distribuzioni di frequenza (o di probabilità).
102
Proposizione 14. Sia g una funzione continua e differenziabile (monotona non decrescente) ed U ∼ U nif (a, b). Allora, la v.a.
X = g −1 (U )
(3.50)
ha legge di densità
fX (x) =
g 0 (x), g −1 (a) ≤ x ≤ g −1 (b)
0,
altrimenti.
(3.51)
Dimostrazione. Per il Teorema 13, si ha che
fX (x) = |g 0 (x)|fU (g(x)) =
1 0
g (x)1(a,b) (g(x)),
b−a
x∈R
(3.52)
con g non decrescente, quindi g 0 ≥ 0. Segue l’enunciato.
La generazione di numeri casuali equivale ad estrarre palline numerate da una scatola in cui le palline sono state inserite seguendo una certa distribuzione. Se prendiamo una scatola vuota e inseriamo 90 palline numerate da 1 a 90, allora estraendo una
pallina a caso,
P (estrarre la pallina con il numero x) =
1
,
90
∀ x ∈ {1, 2, . . . , 90}.
Si sta estraendo da una distribuzione U nif {1, 2, . . . , 90}. Estraendo con ripetizione n
volte, ottengo un vettore proveniente da una U nif {1, 2, . . . , 90}. Se avessi scelto di
riempire la scatola con palline numerate ma facendo attenzione ad inserire più volte
solo certi numeri, avrei ottenuto una distribuzione diversa da quella Uniforme. Di
conseguenza, estraendo con ripetizione n palline, avrei ottenuto un vettore proveniente
da una distribuzione diversa.
Esercizio 78. Con quale trasformazione posso simulare una variabile aleatoria X con
f.r. FX ?
Svolgimento Esercizio 78. Sia U ∼ U nif (0, 1) e g = FX . Allora,
P (g −1 (U ) ≤ x) = P (U ≤ g(x)) = g(x)
implica che X = FX−1 (U ).
Esercizio 79. Se il vettore X è stato ottenuto generando n valori U nif (0, 1), come
ottengo il vettore Y con distribuzione U nif (0, a), a > 0?
Capitolo 3.
Variabili Aleatorie
103
Esercizio 80. Se g(x) = 1 − e−λx con x ≥ 0, determinare la distribuzione di X =
g −1 (U ) e dire quali numeri aleatori posso generare.
Esercizio 81. Scrivere un algoritmo che restituisca un vettore di realizzazioni N (0, 1).
Esempio 24. Per generare una numero aleatorio in C si possono usare le chiamate
void srand(unsigned seed);
int rand(void);
di stdlib.h e quindi il codice seguente:
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
double simul(int a)
{
double x;
int n;
srand(time(0));
n = rand();
x = a*((double)n)/RAND_MAX;
/* printf("Il numero estratto è %lf\n", x);
return x;
}
*/
La funzione restituisce (stampa a video) un numero aleatorio in (0, a) proveniente da
una legge Uniforme. Ogni numero ha uguale probabilità di "essere estratto" dalla
funzione rand.
3.4
Serie numeriche e di funzioni
Si è accennato sopra alle somme parziali di v.a., come vedremo tali somme sono legate alle somme parziali di elementi di una successione numerica. Sembra quindi
opportuno ricordare alcuni concetti base riguardanti le serie numeriche.
Serie numeriche
Sia {ak }k∈Z una successione (numerica) di valori in A. Si definisce serie numerica la
somma
X
ak per qualche insieme di indici IK .
(3.53)
k∈IK
104
Serie armonica. Sia ak = k α . Per α < −1 si ha
∞
X
kα < ∞
(3.54)
k=1
mentre per α > −1 la serie non converge.
Serie telescopica. Un esempio classico è dato dalla serie di Mengoli
∞
X
k=1
1
.
k(k + 1)
Una serie di addendo generico ak è detta telescopica se ak = ±(bk − bk+1 ), se cioè ci
si può ricondurre a due somme in cui gli addendi si elidono a k successivi. Nel caso
della serie di Mengoli si ha che
∞
X
k=1
∞
X
1
=
k(k + 1) k=1
1
1
−
k k+1
=1−
1 1 1
+ − + . . . = 1.
2 2 3
Serie di funzioni
Sia {fk }k∈Z una successione di funzioni. Definiamo la somma parziale
X
fk (x).
k∈IK
Siamo interessati ai limiti per k → ∞ e |IK | → ∞ (spesso |IK | = n). In particolare,
affrontiamo i problemi già accennati in Esempio 7 ed Esempio 8.
Proposizione 15. Valgono le seguenti:
i) (passaggio al limite sotto il segno di integrale) se fk è continua in [a, b] e
fk (x) → f (x) uniformemente,
allora
Z
b
Z
fk (x)dx →
a
b
f (x)dx
a
(3.55)
Capitolo 3.
Variabili Aleatorie
105
ii) (integrazione per serie) se fk è continua in [a, b] e
n
X
fk (x) → f (x)
uniformemente,
k=1
allora
Z
b
f (x)dx =
a
∞ Z
X
k=1
b
fk (x)dx
(3.56)
a
iii) (derivazione per serie) se fk è derivabile in [a, b] e se
n
X
fk (x) → f (x) e
k=1
n
X
fk0 (x) → g(x)
uniformemente
k=1
allora,
f 0 (x) = g(x) in [a, b].
(3.57)
Ricordiamo i seguenti sviluppi in serie
f (x + z) =
n
X
xk d k f
k=0
k! dxk
(z) + Rn (x + z)
(serie di Taylor in z)
oppure scriviamo
f (x) =
n
X
(x − z)k dk f
k!
k=0
dxk
(z) + Rn (x)
(serie di Taylor in z)
dove Rn è il resto di ordine n e noi saremo quasi sempre interessati al caso in cui
lim
x→z
Rn (x)
=0
(x − z)n
(cioè Rn (x) = o((x − z)n ) per x → z).
(3.58)
Considerando n → ∞ e quindi Rn → 0 per una funzione sufficientemente buona,
ricordiamo anche il seguente sviluppo
f (x) =
∞
X
xk dk f
k=0
k! dxk
(0) (serie di Maclaurin - di Taylor in 0).
Se f è derivabile n volte in z, allora Rn è infinitesimo in z di ordine superiore a
(x − z)n (resto di Peano), vale quindi (3.58). Se f è derivabile n + 1 volte in [a, b] con
derivata f (n+1) continua, allora possiamo scrivere il resto come segue
Z x
(x − y)n (n+1)
Rn (x) =
f
(y) dy,
∀ x ∈ [a, b].
(3.59)
n!
z
106
Inoltre, sotto le stesse ipotesi (e richiedendo che z ∈ [a, b]),
|Rn (x)| ≤ γn+1
|x − z|n+1
,
(n + 1)!
γn+1 = max{|f (n+1) (x)| : x ∈ [a, b]}.
(3.60)
Esercizio 82. Ricavare la formula del binomio di Newton espandendo in serie di
Maclaurin la funzione f (x) = (1 + x)n .
Serie di potenze. Poniamo fk (x) = ak xk con {ak } successione numerica. Si ottiene
la serie di potenze
X
ak x k
(3.61)
k∈IK
per la quale è utile ricordare che
∞
X
k
ak x +
k=0
∞
X
k
bk x =
∞
X
k=0
ck x k
dove
c k = ak + b k
(banale!)
k=0
e
∞
X
k=0
!
ak x
k
∞
X
!
bk x
k
k=0
=
∞
X
ck x
k
dove
ck =
k
X
as bk−s
(moltiplicazione).
s=0
k=0
Osservazione 29. Si noti che tali risultati valgono per serie numeriche, basta porre
x = 1.
Inoltre, ricordiamo che
n
X
xk =
k=0
1 − xn+1
1−x
per |x| < 1 (serie geometrica).
Alcuni limiti notevoli:
x k
fk (x) = 1 +
→ ex
k
n
X
xk
k=0
n
X
k!
→ ex
per x ∈ R se k → ∞
se n → ∞.
∞
d X k
kx →
x
dx k=1
k=1
k
per |x| < 1 se n → ∞
(3.62)
Capitolo 3.
Variabili Aleatorie
n
X
xk →
k=1
x
1−x
107
per |x| < 1 se n → ∞ (verificare!!)
Esercizio 83. Calcolare
1
E
1−X
nei seguenti casi
1. X è una v.a. con momenti Mr (X) = r−α e α > 1,
2. X è una v.a. con momenti Mr (X) = 1/4r ,
3. X è una v.a. con momenti Mr (X) = r−1/3 .
3.5
Trasformate di densità
Funzione caratteristica
Sappiamo trovare la soluzione per una equazione del tipo x2 + 1 = 0?
Introduciamo a tale scopo il numero complesso z = a + ib ed il suo coniugato
∗
z = a − ib dove a = <(z) è la parte reale di z e b = =(z) è la parte immaginaria di
z, i è il numero immaginario per cui i2 = −1. Parte reale e parte immaginaria di un
numero complesso variano in R. Il valore assoluto o modulo di un numero complesso
|z| è dato dalla seguente relazione
|z|2 = z z ∗ = a2 + b2 .
(3.63)
Ricordiamo la scrittura in parte reale e immaginaria di un esponenziale complesso
z = eix = cos x+i sin x,
z ∗ = e−ix = cos x−i sin x (formule di Eulero). (3.64)
Si vede subito che |e±ix | = 1 (verificate!).
Sia X una v.a. con legge di densità fX e
Z
iξX
φX (ξ) = Ee
=
eiξx fX (x)dx = F[fX ](ξ).
(3.65)
supp(X)
Definizione 39. La funzione a valori complessi φX : R 7→ C è la funzione caratteristica della variabile aleatoria X (o associata alla v.a. X).
108
Definizione 40. La funzione F[fX ](ξ) : R 7→ C è la trasformata di Fourier della
funzione fX (o associata alla funzione fX ).
Consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX . Scriviamo
X
φX (ξ) = EeiξX =
eiξxk pk = F[{pk }](ξ)
k∈IX
che è in linea con le (3.21) ed è la funzione caratteristica per v.a. discrete.
In generale, la trasformata di Fourier di una funzione f : A → R è definita da
Z
eiξx f (x)dx
F[f ](ξ) =
A
mentre F[{pk }](ξ) è una trasformata di Fourier discreta.
Proposizione 16. Valgono le seguenti proprietà :
1. φX (0) = 1,
2. |φX (ξ)| ≤ 1 per ogni ξ (è limitata),
3. φX è uniformemente continua,
P
4. se Y = nj=1 aj Xj dove le Xj , j = 1, 2, . . . , n sono v.a. indipendenti e aj ∈ R
per ogni j, allora
n
Y
φY (ξ) =
φXj (aj ξ).
j=1
Dimostrazione. Dimostriamo le proprietà appena introdotte. Dalla (3.65) si vede subito che:
1. segue immediatamente considerando P (X ∈ supp(X)) = 1,
2. dalle proprietà del modulo, si ottiene
Z
iξx
|φX (ξ)| =
e fX (x)dx = EeiξX Z supp(X)
≤
|eiξx fX (x)|dx
Zsupp(X)
=
|eiξx |fX (x)dx = E eiξX supp(X)
=1
infatti fX ≥ 0 è una legge di densità e |eiξx | = (cos2 ξx + sin2 ξx)1/2 = 1.
Capitolo 3.
Variabili Aleatorie
109
3. si deve considerare
|φX (ξ + h) − φX (ξ)| =EeiξX+ihX − EeiξX =E eiξX+ihX − eiξX linearità della media
≤EeiξX+ihX − eiξX dis. di Hölder
=E eiξX · eihX − 1
=EeihX − 1 si è usato cos2 ξX + sin2 ξX = 1
=Mh
che non dipende da ξ e quindi
|φX (ξ + h) − φX (ξ)| ≤ Mh .
Si deve notare che qui con il simbolo Mh si sta indicando una costante18 . Volendo fornire una rappresentazione esplicita, si ha
q
Mh =E (cos hX − 1)2 + sin2 hX √
=E 2 − 2 cos hX
=2E| sin(hX/2)| ≤ 2
dove si sono usate formule ben note di trigonometria ed il fatto che sin x è una
funzione limitata. Potevamo anche considerare la dis. di Minkowski, |eihX −
1| ≤ |eihX | + |1| ≤ 1 + 1.
4. in questo caso dobbiamo considerare
iξ
Ee
Pn
j=1
aj Xj
=E
n
Y
eiξaj Xj
j=1
=
n
Y
Eeiξaj Xj
per l’indipendenza delle v.a. eiξaj Xj
j=1
=
n
Y
φXj (aj ξ) per definizione.
j=1
18
Dal contesto sarà sempre possibile capire quando invece ci si riferisce al momento di ordine r
indicato con il simbolo Mr .
110
Proposizione 17. Se X ha momento di ordine n+1 finito, cioè Mn+1 (X) < ∞, allora
n
n+1
X
(iξ)r
≤ |ξ|
φX (ξ) −
M
(X)
(3.66)
r
(n + 1)! Mn+1 (|X|)
r!
r=0
Dimostrazione. Consideriamo lo sviluppo in serie di eix , otteniamo dalla (3.60) che
γn+1 = 1 e
|x|n+1
.
|Rn (ix)| = |Rn (x)| ≤
(n + 1)!
Quindi si ha che
!
n
n
r
r
X
X
(iξ)
(iξ)
r
φX (ξ) −
=E eiξX −
M
(X)
X
r
r!
r!
r=0
r=0
n
r
iξX X
(iξ)
r
≤Ee −
X r!
r=0
=E|Rn (X)|
e la dimostrazione è conclusa.
Da quanto visto possiamo enunciare i seguenti risultati.
Teorema 18. Se per ogni ξ,
|ξ|r
Mr (|X|) = 0,
r→∞ r!
lim
(3.67)
allora
φX (ξ) =
∞
X
(iξ)r
r=0
r!
Mr (X).
(3.68)
Lemma 1. Se X ha momento assoluto di ordine n finito, cioè Mn (|X|) < ∞, allora
(n)
φX (0)
= Mn (X).
in
Diamo inoltre il seguente risultato senza dimostrarlo.
Teorema 19. Se φX ∈ L1 (R), allora X ∼ fX e
1. fX è uniformemente continua,
2. vale (3.13) per ogni x,
(3.69)
Capitolo 3.
Variabili Aleatorie
111
3. fX (x) = F −1 [φX ](x) dove
F
−1
1
[φX ](x) =
2π
Z
e−iξx φX (ξ)dξ
R
è la trasformata inversa di Fourier.
Dal teorema precedente arriviamo alla proposizione che segue (si veda anche la
formula (3.3)).
Proposizione 18. Se φX ∈ L1 (R), allora non ci sono punti di massa positiva (di
probabilità positiva). Vale a dire P (X = x) = 0 per ogni x.
Infatti, se φX ∈ L1 allora fX ∈ C e lim|x|→∞ fX (x) = 0 (si ha kfX k∞ ≤ kφX k1 ).
Si possono ottenere molte informazioni interessanti dallo studio della funzione caratteristica che non intendiamo approfondire ora. Ricordiamo però che le code della funzione caratteristica danno informazioni sulla regolarità della densità (sulla continuità)
mentre le code della densità danno informazioni sulla regolarità (continuità) della funzione caratteristica. In particolare, code che decadono esponenzialmente determinano
derivabilità di ogni ordine.
Inoltre diciamo che due v.a. X e Y possono avere momenti di ogni ordine uguali
ma non necessariamente condividono la stessa legge di densità. Infatti stessa densità
significa stessa funzione caratteristica (perché la trasformata di Fourier è un isomorfismo) ma queste possono non esistere in termini di momenti, deve essere verificata per
φX e φY la condizione (3.67). Quindi le v.a. hanno momenti uguali di ogni ordine ma
la funzione caratteristica non può essere scritta come in (3.68).
Ricordiamo anche che due v.a. possono avere la stessa densità ma essere diverse.
Cioè possono avere marginali di ordine k diverse, nel senso che per x ∈ D,
Z
Z
w2 (x, u)du = g(x)
w1 (x, y)dy =
f (x) =
A
B
dove w1 e w2 sono due densità congiunte tali che w1 =
6 w2 mentre f e g sono due
marginali (univariate, k = 1 in questo caso!) tali che f = g.
Esercizio 84. Sia X una v.a. tale che
EX r =
Γ(r + 1) r
r! r
a 1(r pari) = r
a 1(r pari) ,
(r/2)!
Γ( 2 + 1)
Scrivere la funzione caratteristica di X.
Esempio 25. Sia
Zn =
n
X
Xk ,
n ∈ N.
k=1
Scrivere la funzione caratteristica φZn nei seguenti casi:
a > 0, r > 0.
112
1. Xk ∼ N (0, 2−k ),
2. Xk ∼ N (2−k , σk2 ),
3. Xk ∼ N (n−1 , 3−k ).
Si scrive subito
iξ
φZn (ξ) = Ee
Pn
k=1
Xk
=
n
Y
φXk (ξ)
k=1
che diventa nei diversi casi
Q
1 1 2
1
1
2
1. φZn (ξ) = nk=1 e− 2 2k ξ = e− 2 (1− 2n )ξ , ξ ∈ R
1
1
1
2 2
1
2. φZn (ξ) =
Qn
ei 2k ξ− 2 σk ξ = ei(1− 2n )ξ− 2 σn ξ , ξ ∈ R dove σn2 =
3. φZn (ξ) =
Qn
ei n ξ− 2 3k ξ = eiξ− 2 2 (1− 3n )ξ , ξ ∈ R
k=1
k=1
1
1 1
2
1 1
1
2 2
Pn
k=1
σk2
2
e allora
1. Zn ∼ N (0, σn2 ) dove σn2 = (1 − 2−n )
2. Zn ∼ N (µn , σn2 ) dove µn = (1 − 2−n ), σn2 =
Pn
k=1
σk2
3. Zn ∼ N (1, σn2 ) dove σn2 = (1 − 3−n ).
Funzione generatrice dei momenti
La funzione generatrice dei momenti è definita dalla media EeξX con ξ ∈ R. Seguendo argomenti analoghi a quanto detto sopra per la funzione caratteristica si arrivano a determinare interessanti proprietà se tale media esiste. Il problema principale
è che g(x) = eξx non è limitata. Non approfondiremo questi aspetti ma definiremo la
funzione generatrice dei momenti, per ξ ≥ 0, come segue
Z
−ξX
ψX (ξ) = Ee
=
e−ξx fX (x)dx = L[fX ](ξ).
(3.70)
supp(X)
dove L[fX ](ξ) è la trasformata di Laplace di fX . Segue quindi che se X ≥ 0, ψX
esiste sempre. In particolare, si ottiene:
1. ψX (0) = 1,
(n)
2. (−1)n ψX (0) = Mn (X),
Capitolo 3.
Variabili Aleatorie
113
3. se per ogni ξ,
ξk
Mk (X) = 0
k→∞ k!
lim
allora
"
−ξX
ψX (ξ) = Ee
=E
∞
X
(−ξX)k
k=0
#
k!
=
∞
X
(−ξ)k
k=0
k!
Mk (X).
(3.71)
Se consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX , scriveremo
X
Ee−ξX =
e−ξxk pk
k∈IX
che è ancora in linea con le (3.21).
Funzione dei momenti generalizzati
Sia X ≥ 0 con densità fX . Definiamo la trasformata
Z ∞
η−1
ϕX (η) = EX
=
xη−1 fX (x)dx = M[fX ](η)
0
dove M[fX ](η) è la trasformata di Mellin di fX .
Funzione generatrice delle probabilità
Sia X una v.a., allora
GX (u) = EuX ,
|u| < 1
è detta funzione generatrice delle probabilità di X.
Osservazione 30. Ogni variabile è identificata in maniera univoca dalla sua trasformata.
3.6
Alcune disuguaglianze fondamentali
Teorema 20. (Dis. di Jensen) Sia g una funzione convessa e X una v.a. con valore
atteso finito, allora
Eg(X) ≥ g(EX).
114
Dimostrazione. Si deve applicare il Teorema 2.
Dalla disuguaglianza appena introdotta e dalla Proposizione 9 si vede che, g ∈ Cb
funzione convessa,
g(EX) ≤ Eg(X) ≤ M.
Teorema 21. (Dis. di Markov) Sia X una v.a. non negativa, allora
∀ > 0 P (X > ) ≤
EX
Dimostrazione. Si utilizza la proprietà i) della media. Per ogni > 0
X
X
1(,∞) (X) ≤ E
.
P (X > ) = E1(,∞) (X) = E
X
La dimostrazione è conclusa.
Se X ∼ fX è una v.a. non negativa (X ≥ 0), possiamo dimostrare la disuguaglianza di Markov come segue.
Dimostrazione alternativa. Dalla definizione di media per v.a. continue, scriviamo
Z
xfX (x)dx
EX =
supp(X)
Z
≥
xfX (x)dx (X è positiva e l’integrale è non decrescente)
{x∈supp(X) : x>}
Z
x
=
fX (x)dx (moltiplico e divido per )
{x∈supp(X) : x>} Z
x
≥
fX (x)dx = P (X > ).
{x∈supp(X) : x>} Notiamo che {x ∈ supp(X) : x > } = supp(X) ∩ (, ∞)
Teorema 22. (Dis. di Chebyshev) Sia X una v.a.,
∀ > 0 P (|X| > ) ≤
E|X|r
,
r
r > 0.
Capitolo 3.
Variabili Aleatorie
115
Dimostrazione. Per ogni > 0,
P (Y > ) = E1(,∞) (Y )
dove Y = |X| è una v.a. non negativa. Si applica allora la disuguaglianza di Markov
moltiplicando e dividendo per Y r . Otteniamo
r
r
Y
Y
E
1(,∞) (Y ) ≤ E r .
r
Y
La dimostrazione è conclusa.
Dimostrazione alternativa. Consideriamo X ∼ fX . Otteniamo
Z
r
E|X| =
|x|r fX (x)dx (definizione)
Zsupp(X)
Z
r
|x| fX (x)dx +
|x|r fX (x)dx
=
{x∈supp(X):|x|>}
Z{x∈supp(X):|x|≤}
|x|r fX (x)dx (somma di quantità positive)
≥
{x∈supp(X):|x|>}
Z
|x|r
r
=
fX (x)dx
r
{x∈supp(X):|x|>} ≥ P (|X| > )
(sto integrando sulle x : |x| > ⇒ |x|/ > 1).
Consideriamo ora X ∼ (xk , pk ), k ∈ IX . Allora,
X
X
|xk |r pk ≥
E|X|r =
k∈IX
|xk |r pk .
k∈IX : |xk |>
Seguendo passaggi simili a quelli considerati nel caso continuo si conclude la dimostrazione.
Ricordiamo alcuni risultati sulle somme di v.a. (si veda la Sezione 3.3.5) senza
dare le dimostrazioni.
Teorema 23. (Dis. di Lévy)
P max Sk ≥ β ≤ 2P (Sn ≥ β).
1≤k≤n
Teorema 24. (Dis. di Doob)
P
max Xk ≥ β
1≤k≤n
dove Xn+ = max{0, Xn } e β > 0.
EXn+
≤
β
116
Teorema 25. (Prima dis. di Kolmogorov)
V ar Sn
P max |Sk | ≥ β ≤
.
1≤k≤n
β2
Teorema 26. (Seconda dis. di Kolmogorov)
(β + 2a)2
.
P max |Sk − ESk | ≥ β ≥ 1 −
1≤k≤n
V ar Sn
Teorema 27. (Dis. di Marshall)
P max Sk ≥ β ≤
1≤k≤n
3.7
3.7.1
β2
V ar Sn
.
+ V ar Sn
Convergenza di variabili aleatorie Convergenza, definizioni e discussione
Sia Xn , n = 1, 2, . . . una successione di v.a. e sia fXn la successione delle leggi di
densità delle Xn . Sia X una v.a. tale che Xn → X quando n → ∞. Dobbiamo
caratterizzare il senso della convergenza. Si deve quindi dire in che senso Xn → X.
Definizione 41. Xn → X in distribuzione e scriviamo
d
Xn → X
(3.72)
se
P (Xn ≤ x) → P (X ≤ x)
per n → ∞
(3.73)
per ogni punto x in cui la funzione limite x 7→ P (X ≤ x) è continua.
Se vale la (3.73) possiamo dire che Xn converge ad X in distribuzione (in distribution), in legge (in law), debolmente (weakly). Notiamo che la definizione appena data
è in realtà il teorema di Helly-Bray e che la convergenza in distribuzione non riguarda
direttamente la v.a. X ma la sua distribuzione di probabilità o appunto, la funzione
di ripartizione (si veda ad esempio l’Esercizio 18). La convergenza in distribuzione
non implica quindi la convergenza della funzione di densità! Si consideri anche la
successione Xn con
1, x = 2 + n1
P (Xn = x) =
0, altrimenti.
Il lemma che segue ci fornisce definizioni equivalenti di convergenza debole.
Capitolo 3.
Variabili Aleatorie
117
Lemma 2. (Portmanteau) Siano Xn ed X vettori di v.a., sono affermazioni equivalenti:
d
i) Xn → X,
ii) Eg(Xn ) → Eg(X) per ogni funzione continua e limitata, ∀ g ∈ Cb ,
iii) Eg(Xn ) → Eg(X) per ogni funzione limitata e di Lipschitz, ∀ g ∈ Lipb ,
iv) P (Xn ∈ B) → P (X ∈ B) per ogni insieme di Borel B tale che P (X ∈ ∂B) =
0 dove ∂B è la frontiera di B.
Osservazione 31. Consideriamo un intervallo della retta dei reali. La frontiera di
[a, b] è costituita dall’insieme {a, b}. Sia X ∼ fX , allora sappiamo che P è assolutamente continua rispetto alla misura di Lebesgue e la misura di Lebesgue di
∂[a, b] = {a, b} = {a} ∪ {b} è zero.
Dire che una v.a. converge in legge equivale a dire che la sua densità (funzione di ripartizione) converge debolmente, cioè se Xn → X in distribuzione, allora
Eg(Xn ) →
R
Eg(X) dove g = 1B è la funzione indicatrice (infatti Eg(Xn ) = g dFXn ). Se g
è una funzione semplice, per la linearità dell’integrale, continua a valere la convergenza debole. Se g è una funzione misurabile non negativa, continua a valere per la
convergenza monotona19 e per linearità, continua a valere per una arbitraria funzione
misurabile.
d
Osservazione 32. Se Xn → X non è detto che EXn → EX. Infatti la funzione
g(x) = x non è limitata. In realtà, g(x) = xr con r > 0 non è limitata e allora
d
Xn → X 6⇒ Mr (Xn ) → Mr (X).
Indichiamo con |Xn | ≤ M il fatto che, data una costante M > 0, P (|Xn | ≤ M ) =
1 e diciamo che Xn è uniformemente limitata (cioè, per ogni n).
Teorema 28. Se la successione Xn è uniformemente limitata, allora
d
Xn → X ⇒ Mr (Xn ) → Mr (X) < ∞.
19
Sia {fn }n∈N una successione non decrescente di funzioni non negative su (Ω, A, µ). Se fn → f
puntualmente, allora f è misurabile (f ∈ L1 ) e
Z
Z
lim
fn (x)dµ(x) =
f (x)dµ(x).
n→∞
Ω
Ω
118
Dimostrazione. Consideriamo r = 1 e assumiamo che Xn ≥ 0, inoltre ricordiamo che
P (Xn > M ) = P (X > M ) = 0, allora
Z ∞
[P (Xn > x) − P (X > x)] dx
|M1 (Xn ) − M1 (X)| =
Z0 M
=
[P (Xn > x) − P (X > x)] dx
0
Z M
P (Xn > x) − P (X > x)dx → 0, n → ∞
≤
0
dove il limite si ottiene dalla convergenza in distribuzione. Infatti, P (Xn > x) →
P (X > x) per ogni punto di continuità di P (X > x) e l’integrale è finito per ogni
n. Considerando la parte positiva e negativa di Xn si ottiene il risultato generale per
r = 1. Dalle proprietà del valore medio si ottiene il risultato per r > 1 seguendo la
stessa linea indicata sopra.
Definizione 42. Xn → X in probabilità e scriviamo
P
Xn → X
(3.74)
se
∀ > 0
lim P (|Xn − X| > ) = lim P (ω : |Xn (ω) − X(ω)| > ) = 0
n→∞
n→∞
oppure
∀ > 0
lim P (|Xn − X| ≤ ) = lim P (ω : |Xn (ω) − X(ω)| ≤ ) = 1.
n→∞
n→∞
La convergenza in probabilità richiede che asintoticamente l’insieme {ω : |Xn (ω)−
X(ω)| > } diventi un insieme trascurabile, cioè di misura P nulla (si considera una
distanza). La convergenza in probabilità implica la convergenza in distribuzione, non
è sempre vero il contrario. In particolare, la convergenza in distribuzione implica la
convergenza in probabilità solo se il limite X è una v.a. degenere.
Definizione 43. Una v.a. X si dice degenere se è identicamente uguale ad una costante
quasi certamente (q.c.), cioè se P (X = costante) = 1.
La convergenza in probabilità non implica la convergenza dei momenti
P
Xn → X 6⇒ Mr (Xn ) → Mr (X).
d
Basta considerare la successione Xn per cui Xn = n × Ber(1/n) per ogni n,
1
1
→ 1 e P (Xn = n) = → 0
n
n
quindi Xn → 0 in probabilità ma Mr (Xn ) = nr−1 e Mr (X) = 0.
P (Xn = 0) = 1 −
Capitolo 3.
Variabili Aleatorie
119
Definizione 44. Xn → X in media r-esima e scriviamo
M
Xn →r X
(3.75)
se
E|Xn − X|r → 0,
r > 0,
per n → ∞.
Dalla disuguaglianza di Chebyshev
P (|Xn − X| > ) ≤
E|Xn − X|r
r
si vede subito che la convergenza in media r-esima implica la convergenza in probabilità. Osserviamo inoltre che, per r pari (si veda la formula del binomio di Newton),
r r X
X
r
r
k
r−k
|Xn − X| =
ak [Xn ] [X]
=
ak [X]k [Xn ]r−k
k
k
k=0
k=0
r
dove ak = (−1)k (per r dispari basta considerare il corrispondente ak che tenga conto
del modulo). Quindi si ottiene convergenza in media r-esima se esistono i momenti
1 ≤ k ≤ r di Xn e X. Se r = 1, parleremo semplicemente di convergenza in media.
Se cioè E|Xn | < ∞, si deve verificare
lim E|Xn − X| = 0.
n→∞
Se ogni elemento della successione Xn ha momento secondo finito, allora Xn converge
M
in media quadratica a X, cioè Xn →2 X se
lim E|Xn − X|2 = 0.
n→∞
Le convergenze in media r-esima appena viste implicano la convergenza del corrispondente momento r-esimo, cioè se r = 1, 2
M
Xn →r X ⇒ Mr (Xn ) → Mr (X)
inoltre, la convergenza in media quadratica implica la convergenza in media,
M2 (Xn − X) → 0 ⇒ M1 (Xn − X) → 0.
120
Basta considerare la disuguaglianza di Hölder (per p = 2, cioè la disuguaglianza di
Cauchy-Schwarz)
p
E|Yn 1| ≤ E|Yn |2 · E|1|2 = (M2 (Yn ))1/2
per Yn = Xn − X.
La convergenza in media r-esima implica la convergenza in probabilità,
P
M
Xn →r X ⇒ Xn → X
infatti, dalla disuguaglianza di Chebyshev, per r ≥ 1
Mr (Xn − X) → 0 ⇒ P (|Xn − X| > ) → 0 ∀ > 0.
Osservazione 33. Sia X ∼ U nif (a, b) ed {fn } ∈ Lr ((a, b)) una successione. Notiamo che
Z b
1
r
E|fn (X) − f (X)| =
|fn (x) − f (x)|r dx → 0 se n → ∞
(3.76)
b−a a
collega la convergenza in media r-sima con la convergenza nello spazio di Lebesgue
Lr . Si consideri Yn = fn (X) e Y = f (X). La convergenza in Lp si può formalizzare
come segue, se Yn ∈ Lr per ogni n, Y ∈ Lr e r ≥ 1, diciamo che
Lr
Yn → Y
se
lim E|Yn − Y |r = 0
n→∞
Definizione 45. Xn → X con probabilità 1 (o quasi certamente) e scriviamo
q.c.
Xn → X
se
P ( lim Xn = X) = P (ω : lim Xn (ω) = X(ω)) = 1.
n→∞
n→∞
q.c.
Notiamo che Xn → X significa
P (| lim Xn − X| > 0) = P (ω : | lim Xn (ω) − X(ω)| > 0) = 0
n→∞
n→∞
oppure
P (| lim Xn − X| ≤ 0) = P (ω : | lim Xn (ω) − X(ω)| ≤ 0) = 1.
n→∞
n→∞
(3.77)
Capitolo 3.
Variabili Aleatorie
121
Si vede subito che la convergenza quasi certa è più forte della convergenza in probabilità. La convergenza q.c. implica quindi una convergenza puntuale (pointwise) in ω,
cioè per ogni ω ∈ Ω \ N , Xn (ω) → X(ω), cioè a meno di un insieme N ⊂ Ω di misura nulla e quindi trascurabile per cui P (N ) = 0. Inoltre la convergenza q.c. implica
la convergenza in probabilità (Lemma di Fatou). La convergenza quasi certa (almost
sure) è anche detta convergenza quasi ovunque (almost everywhere), con probabilità
uno (with probability one), in senso forte (strongly). Raramente ci si riferisce alla
convergenza certa (o ovunque) in cui si ha convergenza quasi certa (quasi ovunque) a
meno di insiemi di misura nulla.
Esempio 26. La funzione fn (x) = xn converge punto per punto a 0 in [0, 1) ma non
uniformemente. La convergenza non è puntuale in [0, 1]. Inoltre, converge q.o. in
[0, 1] a 0 rispetto alla misura di Lebesgue, visto che µ({1}) = 0 se µ è la misura di
Lebesgue.
Esempio 27. Il limite puntuale di una successione di funzioni continue può essere una
funzione discontinua solo se la convergenza non è uniforme. Si consideri
fn (x) = (cos πx)2n .
Esercizio 85. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1).
Studiare la convergenza della successione di v.a.
Zn = max {Xk },
1≤k≤n
n ∈ N.
Esercizio 86. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a.
Zn = X n ,
n ∈ N.
Esercizio 87. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a.
Zn = (−X)n ,
n ∈ N.
Esercizio 88. Siano X, Y due v.a. in D ⊆ R, studiare la convergenza della successione di v.a.
1
Zn = X + Y, n ∈ N.
n
P
q.c.
Proposizione 19. Se Xn → X, allora esiste una sotto-successione tale che Xnk → X.
Definizione 46. (Convergenza quasi completa) Diciamo che Xn → X quasi completamente se
X
∀ > 0,
P (ω : |Xn (ω) − X(ω)| > ) < ∞, k > 0.
(3.78)
n>k
122
Si ha quindi convergenza quasi completa se fissato (piccolo a piacere), la somma (3.78) è finita indipendentemente da quale k scelgo (grande a piacere). Se Xn
converge quasi completamente allora converge quasi certamente, cioè converge così
velocemente da assicurare la convergenza q.c. (Lemma di Borel-Cantelli).
Definizione 47. (Convergenza stabile) Sia Xn una successione di v.a. definite in
d
(Ω, A, P ) e sia G ⊂ A. Diciamo che Xn → X stabilmente in G (G-stably in distribution) se
E[Zf (Xn )] → E[Zf (X)]
per ogni funzione f limitata e continua (f ∈ Cb ) e per ogni v.a. Z limitata e Gmisurabile.
Osservazione 34. Per la convergenza in media o in probabilità dobbiamo conoscere
le congiunte delle v.a. interessate mentre per la convergenza in distribuzione basta
conoscere la marginale di ordine k se si studia la convergenza di una successione
Xn ∈ R k .
Teorema 29. Sia g : Rn 7→ Rm una funzione continua in ogni punto x ∈ D per cui si
ha P (X ∈ D) = 1 (deve quindi essere che D = supp(X)). Valgono le seguenti :
d
d
P
P
q.c.
q.c.
i) Xn → X, implica g(Xn ) → g(X),
ii) Xn → X, implica g(Xn ) → g(X),
iii) Xn → X, implica g(Xn ) → g(X).
Osservazione 35. Notiamo che per una funzione g di Lipschitz, g ∈ Lip, vale la
seguente
P
P
• Xn → X, implica g(Xn ) → g(X).
Si vede che g ∈ Lip implica che Ag ⊂ A, dove
Ag ={ω ∈ Ω : |g(Xn (ω)) − g(X(ω))| ≤ M |Xn (ω) − X(ω)| < }
}
A ={ω ∈ Ω : |Xn (ω) − X(ω)| <
M
e quindi
P (|g(Xn ) − g(X)| < ) ≤ P (|Xn − X| <
P
perché vale Xn → X.
) → 1 se n → ∞
M
Capitolo 3.
Variabili Aleatorie
123
Teorema 30. Siano {Xn }n , X e {Yn }n v.a., allora
q.c.
P
P
d
i) Xn → X implica Xn → X,
ii) Xn → X implica Xn → X,
P
d
iii) Xn → c se e solo se Xn → c dove c è una costante,
d
P
d
iv) Xn → X e |Xn − Yn | → 0 implica Yn → X.
Lemma 3. (Lemma di Slutsky) Siano {Xn }n , X e {Yn }n v.a. e c una costante. Se
d
Xn → X
d
e Yn → c,
allora
d
i) Xn + Yn → X + c;
d
ii) Yn Xn → cX;
d
iii) Yn−1 Xn → c−1 X se c 6= 0.
Teorema 31. (Teorema di continuità di Lévy) Siano {Xn }n e X v.a. in Rd . Allora
d
i) Xn → X se e solo se
φXn (ξ) = Eeiξ
TX
n
→ Eeiξ
TX
= φX (ξ),
∀ ξ ∈ Rd
se n → ∞
(3.79)
ii) Inoltre, se la convergenza di φXn ad una funzione φ è puntuale e φ(ξ) è continua
d
in zero, allora φ = φX è la funzione caratteristica di X e Xn → X.
Teorema 32. (Scheffé)20 Se {fn }n∈N è una successione di densità di probabilità con
supporto in D ⊂ Rd tale per cui
lim fn (x) = f (x)
n→∞
q.o. in D,
allora una condizione sufficiente affinché
Z
Z
lim
fn (x)dx =
f (x)dx
n→∞
B
B
per ogni Boreliano B è che f sia una densità di probabilità.
20
Attribuiamo il risultato a Sheffé perché è una sua formulazione ma ricordiamo, come anche lui ha
fatto, che si poteva ottenere come caso particolare di risultati noti più generali.
124
Il teorema autorizza il passaggio al limite sotto il segno di integrale.
Proposizione 20. Sono equivalenti i seguenti limiti:
i) FXn (x) → FX (x) per ogni x ∈ E : FX ∈ C(E),
ii) fXn (x) → fX (x) per ogni x ∈ E : fX ∈ L1 (E),
iii) φXn (ξ) → φX (ξ) in accordo con il Teorema 31.
Dimostrazione. Osserviamo che vale la doppia implicazione i) ⇔ ii). Infatti, se vale
i), dalla 3.13 si ottiene ii). Inoltre, ii) ⇒ i) per il Teorema 32. Le implicazioni con la
iii) sono ovvie.
Esempio 28. Riprendiamo l’Esempio 25 e studiamo la convergenza in distribuzione
della variabile Zn . Si devono considerare nei diversi casi
lim µn = µ
n→∞
e
lim σn2 = σ 2
n→∞
e allora
1. Zn → Z ∼ N (0, 1)
2. Zn ∼ N (1, σ 2 ) dove σ 2 =
P∞
k=1
σk2 (se finita!)
3. Zn ∼ N (1, 1).
I seguenti esercizi sono estremamente istruttivi.
Esercizio 89. Studiare la convergenza di Xn ∼ U nif (−n, n) con n ∈ N.
Una v.a. univariata U nif ([0, `]) avrà densità 1/` dove ` è la lunghezza del supporto. Sembra ovvio che se ` → ∞ la densità tende a zero, tutti i punti hanno eguale
probabilità di essere considerati ed è nulla. Allo stesso tempo però la f.r. può non
essere nulla come nel precedente esercizio. Quindi l’operazione di passaggio al limite
sotto il segno di integrale può condurre a situazioni da analizzare con cura.
Esercizio 90. Studiare la convergenza di Xn ∼ fXn con n ∈ N dove fXn (x) =
2n2 x1(0,1/n) (x), x ∈ R.
Capitolo 3.
Variabili Aleatorie
125
Divergenza di variabili aleatorie. Ci siamo sempre interessati alla convergenza
in R = (−∞, +∞) di una successione di v.a. {Xn }n∈N , diamo una definizione di
divergenza.
Definizione 48. La successione {Xn }n∈N a valori in R∗ = [−∞, +∞] diverge q.c. se
∀ M > 0, ∃ n∗ ∈ N : ∀ n > n∗ , P (|Xn | > M ) = 1.
Se scelgo un M grande a piacere, allora |Xn | > M q.c. da qualche n∗ in poi se e
solo se Xn → ±∞ quasi certamente.
Esercizio 91. Siano Xj , j = 1, 2, . . . , n v.a. i.i.d. tali che
E[Xj ]k =
1
1(k=2) ,
n
k ≥ 1,
1. determinare la funzione caratteristica di Xj ,
2. determinare la funzione caratteristica di Zn =
Pn
j=1
Xj ,
3. determinare la legge di densità della v.a. Z∞ e dire che tipo di convergenza si
ottiene.
3.7.2
Teoremi limite
Studiamo il limite della v.a. somma parziale
Sn =
n
X
Xj
(3.80)
j=1
e della v.a. media campionaria
n
1X
1
X̄n =
Xj = S n .
n j=1
n
(3.81)
dove la successione Xj , j = 1, 2, . . . deve essere caratterizzata opportunamente.
Teorema 33. (Legge debole dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione
di v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ e V ar(Xj ) =
σ 2 < ∞ per ogni j. Allora
P
X̄n → µ
se n → ∞.
(3.82)
126
Dimostrazione. Scegliamo r = 2 per comodità, dalla disuguaglianza di Chebyshev,
P (|X̄n − µ| > ) ≤
E|X̄n − µ|2
V ar(X̄n )
=
2
2
dato che E X̄n = µ. La varianza di X̄n si calcola come segue
V ar(X̄n ) =
n
1 X
1
V ar(Xj ) = σ 2
2
n j=1
n
dato che le Xj sono i.i.d., segue dunque che
P (|X̄n − µ| > ) ≤
σ2
→0
n 2
se n → ∞.
Dalla definizione di convergenza in probabilità segue l’enunciato.
Osserviamo che non è importante conoscere σ 2 . Infatti basta sapere che V ar(Xj ) <
∞ per ogni j. Dire che la varianza e finita vale a dire che esiste una costante M > 0
tale per cui V ar(Xj ) ≤ M per ogni j e quindi
n
1 X
nM
V ar(X̄n ) = 2
V ar(Xj ) ≤ 2 .
n j=1
n
Si ottiene
P (|X̄n − µ| > ) ≤
M
→0
n 2
se n → ∞
e allora possiamo riformulare la legge debole dei grandi numeri come segue:
Sia {Xj }j∈N una successione di v.a. indipendenti con EXj = µ e varianza finita
P
per ogni j. Allora X̄n → µ.
Diamo ora una formulazione forte senza dimostrarla.
Teorema 34. (Legge forte dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione di
v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ e V ar(Xj ) = σ 2 <
∞ per ogni j. Allora
q.c.
X̄n → µ
se n → ∞.
(3.83)
Capitolo 3.
Variabili Aleatorie
127
Teorema 35. (Limite centrale) Sia Xj , j = 1, 2, . . ., una successione di v.a. i.i.d. con
EXj = µ e V ar(Xj ) = σ 2 per ogni j. Allora,
Sn − nµ d
√
→ N (0, 1)
σ n
e
se n → ∞
X̄ − E X̄n d
pn
→ N (0, 1)
V ar(X̄n )
se n → ∞
(3.84)
(3.85)
dove E X̄n = µ e V ar(X̄n ) = σ 2 /n.
Esercizio 92. Sia X ∼ U nif (0, 1) ed α > 1. Studiare la convergenza della v.a.
Yn = (n(1 − X 1/n ))1/α con α > 0.
Esercizio 93. Sia Xk , k ≥ 1 una successione di v.a. i.i.d. e U nif (0, 1/n). Studiare la
convergenza della v.a. Yn = max0≤k≤n {Xk }.
Esercizio 94. Sia Xk , k ∈ N una successione di v.a. i.i.d con media µ e varianza σ 2
per ogni k. Studiare la convergenza della successione
Yn =
n
X
(Xk − µ)
σ
k=1
n ∈ N.
,
Esercizio 95. Siano Xk ∼ U nif {−1, 1} v.a. indipendenti. Determinare il limite in
distribuzione della v.a.
−1/2
Zn = n
n
X
Xk .
k=1
Esercizio 96. Siano Xk ∼ P ois(λ), λ > 0 v.a. indipendenti e Yk = Xk −λ per k ∈ N.
Si vuole studiare la distribuzione limite della v.a.
Zn = (nλ)
−1/2
n
X
Yk .
k=1
Esercizio 97. Siano Xk ∼ Exp(λ), λ > 0 v.a. indipendenti e Yk = Xk − 1/λ per
k ∈ N. Si vuole studiare la distribuzione limite della v.a.
−1/2
Zn = n
n
X
Yk .
k=1
Osservazione 36. Si veda il test di Kolmogorov-Smirnov a pag. 166.
128
3.7.3
Metodi Monte Carlo
Data una v.a. X ∼ fX ed una successione di v.a. Xj ∼ X, j = 1, 2, . . ., sotto le
condizioni della legge dei grandi numeri sappiamo che
Z
n
1X
P
Xj → µ = EX =
xfX (x)dx
se n → ∞.
n j=1
supp(X)
Inoltre, se Xn → X in probabilità, vale
P
g(Xn ) → g(X) per ogni funzione continua e limitata g.
Otteniamo allora
n
1X
P
g(Xj ) → Eg(X) =
n j=1
Z
g(x)fX (x)dx.
supp(X)
Se X ∼ U nif (a, b), allora
n
1
1X
P
g(Xj ) →
n j=1
b−a
Z
b
g(x)dx.
a
Possiamo quindi considerare una successione {Xj }j∈N con componenti i.i.d e ognuna
convergente ad una v.a. Uniforme; di questa prendere solo una realizzazione finita,
data del vettore
X = (X1 , X2 , . . . , Xn )
per n sufficientemente grande; passare quindi alla v.a. media campionaria Ȳn relativa
al vettore
Y = (g(X1 ), g(X2 ), . . . , g(Xn )).
La v.a. Ȳn torna utile nel calcolare un integrale di g numericamente complicato (di
elevata complessità computazionale ad esempio). Le convergenze di cui si sta parlando si ottengono per n → ∞ ma in realtà si ottengono buone approssimazioni per n
sufficientemente grande (a volte può essere sufficiente n = 30, 100, 1000.).
La funzione somma in C:
#include <stdio.h>
#include <stdlib.h>
Capitolo 3.
Variabili Aleatorie
129
double sum(double v[])
{
int i;
int s;
s=0;
for(i=1; i<length(v)+1; i++)
{
s=s+v[i];
}
return s;
}
Definiamo inoltre la seguente funzione
#include <stdio.h>
/* altre librerie se necessario */
#include <stdlib.h>
double dist(double v)
{
double val;
...... /* il codice */
return val;
}
che restituisce un valore secondo la trasformazione della Proposizione 14. Il Metodo
Monte Carlo (MMC in breve) in C:
#include <stdio.h>
#include <stdlib.h>
void MMC(void)
{
double v[500];
double V[500];
int i;
for(i=1; i<=500; i++)
{
v[i]=simul(1);
v[i]=dist(v[i]);
/* qui cambiamo distribuzione
al vettore v che era uniforme */
130
}
/* supponiamo di inserire qui il codice
che restitutisce il vettore V=g(v) */
printf("il valore dell’integrale è %lf\n", sum(V)/500);
}
dove sum(V)/500 restituisce la media campionaria (avendo simulato V che può
essere visto come una realizzazione di un vettore aleatorio).
Esercizio 98. Si verifichi che il codice non restituisce errori.
Esempio 29. Si vuole trovare la successione di v.a. {Xj }j∈N tale da approssimare con
il MMC l’integrale
Z
2
g(x)e−x dx.
(3.86)
R
Si vede subito che
Z
2
g(x)e−x dx =
√
πE[g(X)] dove X ∼ N (0, 1/2)
R
e allora
√ X
n
π
g(Xj ) dove Xj ∼ N (0, 1/2)
n j=1
(3.87)
è la v.a. media campionaria cercata.
Ci riferiremo al problema appena affrontato come al problema MC. Quindi, seguendo il precedente Esempio 29 diremo che la caratterizzazione (3.87) di una v.a.
media campionaria è soluzione MC per l’integrale (3.86), cioè (3.87) è soluzione del
problema MC per l’integrale (3.86). Se la funzione g non è specificata, allora la soluzione del problema MC sarà data dalla caratterizzazione del tipo (3.87) ed una forma
esplicita per la funzione g.
Esempio 30. Trovare una soluzione MC per l’integrale
Z ∞
β
xα e−x dx, α, β > 0.
0
Si ottiene
n
βX α
X
n j=1 j
e quindi g(x) = βxα .
Xj ∼ Exp(1)
Capitolo 3.
Variabili Aleatorie
131
Esercizio 99. Trovare una soluzione MC per i seguenti integrali:
R
2
1. R x3 e−x dx,
R∞
2
2. 0 x3 e−x dx,
R
3. R (1 + x2 )−1/2 dx
Stima per intervalli. Dal teorema del limite centrale sappiamo che, per n → ∞,
Pn
1
d
j=1 g(Xj ) − Eg(X) √
n
p
n → N (0, 1)
Zn =
V ar(g(X))
ed è quindi possibile identificare un intervallo di confidenza21 del tipo
σ
σ
Eg(X) − zα/2 √ , Eg(x) + z1−α/2 √
n
n
dove σ 2 = V ar(g(X)) e z1−α/2 = −zα/2 = zα∗ , per il quale
P | lim Zn | ≤ zα∗ = P −zα∗ ≤ lim Zn ≤ zα∗ = 1 − α.
n→∞
n→∞
Il percentile zα∗ può essere individuato dalla tavola dei percentili in Tabella 7.1.
3.8
Processi aleatori
I processi aleatori si possono classificare per spazio e tempo. Una realizzazione del
processo Xt rappresenta un osservazione al tempo t di un fenomeno che può essere
continuo o discreto, in relazione a questo diciamo che il processo a valori in uno spazio
continuo o discreto (o semplicemente Xt è a spazio continuo o discreto). Il tempo t
può essere continuo ma se pensiamo che le osservazioni siano possibili solo a tempi
discreti, allora possiamo caratterizzare Xt dicendo che può essere a tempo continuo o
discreto.
Spazio continuo e tempo continuo
La soluzione del problema di Cauchy
∂u
∂ 2u
(x, t) =
(x, t),
∂t
∂x2
21
Si veda il Capitolo 5.
x ∈ R, t > 0
(3.88)
132
u(x, 0) = g(x)
si può scrivere come (supponiamo g ∈ Cb )
w2
e− 4t
u(x, t) = Eg(x + Bt ) =
g(x + w) √
dw =
4πt
R
Z
Z
(w−x)2
4t
e−
g(w) √
R
4πt
dw
dove Bt , t ≥ 0 è un moto Browniano con legge di probabilità
Z
P (Bt ∈ A) =
A
w2
e− 4t
√
dw.
4πt
(3.89)
Il moto Browniano è un processo aleatorio ”elementare” (volendo semplificare) nel
senso che rappresenta la base di partenza nello studio di processi aleatori molto più
generali e guidati dalle Stochastic differential equations o dalle più complicate Stochastic partial differential equations (il lettore interessato è invitato a fare una ricerca
in rete, ad esempio utilizzando Google!). Il moto Browniano rappresenta il movimento
di una particella, la diffusione del calore, l’andamento di un oggetto finanziario e molto altro ed è associato alla equazione (3.88). È quindi di interesse in Fisica, Economia,
Finanza e tutte le scienze applicate. Al variare del tempo, rappresenta un fenomeno
di evoluzione governato dalla equazione del calore. La (3.89) può quindi essere letta
come la probabilità che al tempo t una particella (o altro) si trovi in A (o occupi una
delle posizioni contenute nell’insieme A, un punto di A).
La soluzione del problema di Cauchy
∂ 2u
∂u
(x, t) =
(x, t),
∂t
∂x2
u(x, 0) = g(x)
x ∈ D, t > 0
(3.90)
si può scrivere come
u(x, t) = E[g(x + Bt ), t < τD ],
x ∈ D, t > 0
(3.91)
dove τD = inf{s ≥ 0 : Bs ∈
/ D} è il primo istante in cui il moto Browniano Bs esce
da D.
Si noti come oggetti aleatori possano essere utilizzati per fornire interessanti spunti
nello studio delle equazioni a derivate parziali e quindi nei vari modelli (o fenomeni)
collegati.
Esercizio 100. Sia u(x, t) la soluzione di (3.88). Scrivere il problema associato a
v(x, t) = u(x, 2t).
Capitolo 3.
Variabili Aleatorie
133
Esempio 31. La Figura 3.4 da un idea di traiettoria del moto Browniano, mentre nella
Figura 3.3 si è rappresentata una realizzazione di un vettore (sempre di dimensione
300) di v.a. Xi con ti = i, i = 1, 2, . . . , 300. È stata ottenuta considerando
>rnorm(n, media, varianza)
di R che genera un vettore con componenti
Xi ∼ N (0, ti ),
i = 1, 2, . . . , 300.
Il moto Browniano Bi è stato ottenuto dalle v.a.
Xj ∼ N (0, 1) dove Bi =
i
X
Xj ,
i = 1, 2. . . . , 300.
j=1
Si è considerata la funzione di R
>cumsum(vector)
che restituisce un vettore la cui componente i-esima è data dalla somma delle prime i
componenti.
Esercizio 101. Scrivere una soluzione MC per l’integrale
Z
2
f (y)e−ay dy, f ∈ Cb (R), a > 0.
R
Spazio continuo e tempo discreto
Si supponga di dover analizzare delle osservazioni che dipendono dal tempo, che sono
state osservate non allo stesso istante ma in un arco di tempo. Supponiamo che tali
osservazioni siano state effettuate nei tempi
t = (t1 , t2 , . . . tn )
dove ovviamente 0 ≤ t1 < t2 < · · · < tn < ∞. Tali osservazioni sono tra loro legate,
nel senso che rappresentano lo stesso fenomeno e la sua evoluzione nel tempo. Noi
però conosciamo di tale fenomeno solo quello che abbiamo osservato. Possiamo allora
pensare che le osservazioni fatte siano realizzazioni di uno stesso oggetto aleatorio ad
istanti dati dal vettore t. In particolare tale oggetto è un processo aleatorio, diciamo
Xt indicizzato da t ∈ t e la collezione di dati
{Xt , t ∈ t}
è una serie storica. Il processo è a tempo discreto e le equazioni governanti sono
discrete.
200
0
−400
−200
rnorm(300, 0, c(1:300))
400
600
134
0
50
100
150
200
250
300
Index
−5
−10
−15
cumsum(rnorm(300, 0, 1))
0
Figura 3.3: Collezione di Xi ∼ N (0, ti ).
0
50
100
150
200
250
300
Index
Figura 3.4: Esempio di traiettoria di un moto Browniano.
Capitolo 3.
Variabili Aleatorie
135
Processi multi-parametro
Sia
{Xz , z ∈ Rn }
con n > 1 un processo a valori reali. Il processo è indicizzato dalla variabile z ∈ Rn
che gioca il ruolo di multi-parametro. La realizzazione di X può dipendere dai parametri z = (z1 , . . . , zn ) e X viene anche chiamato campo aleatorio. Se z ∈ R2 , possiamo
considerare il processo come un campo aleatorio sul piano, se z ∈ R3 pensiamo ad un
campo nello spazio etc., in ogni caso rappresenta un oggetto molto utile nello studio
di fenomeni ambientali (statistica ambientale/statistica spaziale).
136
Capitolo 4
Gli universi campionari
4.1
Popolazioni finite
Supponiamo d’ora in avanti che la popolazione allo studio sia in corrispondenza biunivoca con un insieme delle etichette
P = {1, 2, . . . , i, . . . , N }
e che possiamo dunque riferirci alla unità i − esima della popolazione considerando
la etichetta i − esima di tale insieme, diremo anche che l’insieme P rappresenta la
popolazione allo studio. Ogni campione c di dimensione n sarà allora esprimibile con
cs = {ki1 , ki2 , . . . , kij , . . . , kin }
ed
s = {i1 , i2 , . . . , ij , . . . , in }
dove si è osservata la caratteristica k per ognuna delle n unità i di P appartenente al sottoinsieme s ∈ Sn e Sn rappresenta l’insieme dei campioni di dimensione
n che è possibile costruire a partire dalle unità (etichette) di P, Sn è detto universo
campionario. Introduciamo la notazione seguente
P (cs ) = P (ki ∈ cs ) = P (i ∈ s) = πi
P ({ki , kj } ∈ cs ) = P ({i, j} ∈ s) = πi,j
dove P (cs ) è la probabilità di osservare il campione cs e πi , πi,j sono le probabilità
del primo e secondo ordine rispettivamente, cioè le probabilità che in s sia compresa
l’etichetta i o siano comprese entrambe le etichette i, j. Inoltre,
X
P (cs ) = 1.
s∈Sn
137
138
Introduciamo anche la variabile indicatrice
δ(i, s) = 1(i∈s) =
1, i ∈ s
0, altrimenti
e la media E A [g], che è la media di g(x) per tutti i valori x ∈ A (data una opportuna
funzione g del campione). è il caso di notare che (media sullo spazio campionario)
X
X
E Sn [δ(i, s)] =
δ(i, s)P (cs ) =
δ(i, s)P (i ∈ s) = P (δ(i, s) = 1) = πi
s∈Sn
s∈Sn
che è la probabilità di considerare proprio l’unità i-esima e
E Sn [δ 2 (i, s)] = E Sn [δ(i, s)].
Se invece si considera (media sulle etichette o sulla popolazione)
E P [δ(i, s)] =
N
1 X
ν(s)
ν(cs )
n
=
=
δ(i, s) =
N i=1
N
N
N
dove ν(·) è l’ampiezza effettiva di s o di cs . Le probabilità di inclusione del secondo
ordine sono date da
E Sn [δ(i, s)δ(j, s)] = πi,j .
Definiamo disegno campionario la coppia (Sn , P (·)) ed introduciamo la funzione di riduzione r(s) del campione s, in particolare s? = r(s) è il campione ottenuto da s privandolo della ripetizione e dell’ordine sulle unità campionarie. Per un
campionamento non ordinato senza ripetizione sarà allora s? = s ed in generale
δ(i, s) = δ(i, r(s))
quindi presi s ∈ S e s? ∈ S ? si ha
P (δ(i, s) = 1) = P (δ(i, s? ) = 1).
Universi dei campioni con ripetizione
Universo Bernoulliano
È l’universo dei campioni ordinati, con ripetizione e a probabilità costanti caratterizzato da:
1
P (cs ) = n ,
N
1
πi =1 − (1 − )n ,
N
1
2
πi,j =1 − 2(1 − )n + (1 − )n .
N
N
Capitolo 4.
Gli universi campionari
139
Distribuzione della n-upla (x1 , x2 , . . . , xn ):
f (x1 , x2 , . . . , xn ) =
n
Y
fi (xi )
i=1
e
µ̂X = x̄
Distribuzione della variabile
P
2
σX̄
=
2
σX
n
xi :
La legge distributiva è
N k n−k
f (k) =
p q
n
e quindi la legge binomiale, si ha
E[K] = np
E[P ] = p
σk2 = npq,
pq
σp2 =
n
dove P = K/n.
Distribuzione della r-upla (n1 , n2 , . . . , nr ):
f (n1 , n2 , . . . , nr ) = Qr
r
Y
n!
i=1
ni !
pni i
i=1
Osserviamo che considerata la variabile
n
n
X
X
(nfi − npi )2
(fi − pi )2
2
χ =
=n
npi
pi
i=1
i=1
(dove fi sono frequenze) possiamo scrivere
1
f (n1 , n2 , . . . , nr ) ∝ exp − χ2 .
2
Osservazione 37. Introduciamo una variante dell’universo Bernoulliano. Prescindendo dalla permutazione sulle etichette si ottiene:
P (cs ) =
,
n
,
N +n−1
N −1
(N − 2)(N − 1)
=1 − 2
+
.
N + n − 1 (N + n − 2)(N + n − 1)
πi =
πi,j
1
N +n−1
n
140
Universi dei campioni senza ripetizione
Si considerano qui gli universi campionari che differiscono solo per l’ordine delle
unità, in sostanza quindi dalle permutazioni n! delle unità campionarie.
Universo esaustivo
È l’universo dei campioni ordinati, senza ripetizione e a probabilità costanti caratterizzato da:
1
,
n!
P (cs ) =
N
n
n
,
N
n(n − 1)
=
.
N (N − 1)
πi =
πi,j
Universo in blocco
È l’universo dei campioni non ordinati, senza ripetizione e a probabilità costanti caratterizzato da:
1
P (cs ) =
N
n
,
n
,
N
n(n − 1)
=
.
N (N − 1)
πi =
πi,j
Osserviamo che
N −1
n−1
N
n
πi =
X
s∈S
s3i
P (s) =
N −2
n−2
N
n
e
πi,j =
X
s∈S
s3i,j
P (s) =
.
Distribuzione della n-upla (x1 , x2 , . . . , xn ). Le stime valgono per entrambi gli universi campionari visto che si distinguono solo per l’ordine. Otteniamo
µ̂X = x̄ ⇒ E[X̄] = µX
2
σ̂X̄
=
2
N −n
σX
n N −1
Capitolo 4.
Gli universi campionari
141
n
1X
N n−1
2
s =
(xi − x̄)2 ⇒ E[S 2 ] = σX
n i=1
N −1 n
2
n
N −1 1 X
2
s =
(xi − x̄)2 ⇒ E[S 2 ] = σX
N n − 1 i=1
2
n
1X r
x̄r =
x ⇒ E[X̄r ] = µX r
n i=1 i
N −n1
(µX 2r − µ2X r ).
N −1n
r
Si sta usando la notazione Y = X e quindi µY = EY .
2
σX̄
=
r
P
Distribuzione della variabile
xi . Dobbiamo distinguere tra i due casi in cui X
è una variabile quantitativa oppure dicotomica, nel primo caso parliamo quindi della
distribuzione dei totali T , mentre nel secondo della distribuzione della variabile k. Iniziamo dalla descrizione della variabile k.
La v.a. X può assumere solo i valori 0 oppure 1, i campioni sono senza ripetizione e possiamo prescindere dall’ordine visto che dipende solo dalla permutazione n!,
otteniamo quindi la legge ipergeometrica a due modalità
N2 N1
f (k) =
k
n−k
N
n
dove, al denominatore, abbiamo le combinazioni di N = N1 + N2 elementi in classi
di n in cui k sono presi tra N1 di essi e n − k tra N2 , ad esempio N1 sono gli X = 1
ed N2 sono gli X = 0. Allora
E[K] = np
2
σK
=
N −n
npq
N −1
ed ovviamente per P = K/n
E[P ] = p
σP2 =
N − n pq
.
N −1 n
Si poteva scrivere
f (k) = f (k, n − k) = f (n1 , n0 )
e
p1 =
k
n1
= .
n
n
142
Distribuzione della r-upla (n1 , n2 , . . . , nr ).
diventa
La legge ipergeometrica ad r modalità
Qr N i f (n1 , n2 , . . . , nr ) =
i=1 ni
N
n
con Pi = Ni /n, allora
E[Ni ] = npi
e
4.2
N −n
npi qi
N −1
N − n p i qi
.
N −1 n
1 χ2
f (n1 , n2 , . . . , nr ) ∝ exp −
.
2 (1 − Nn )
E[Pi ] = pi
Osserviamo che
2
σN
=
i
σP2 i =
Popolazioni virtuali
Semplificando molto, diremo solo che ad una popolazione potrà sempre essere associata una legge di probabilità. Tale legge sarà una legge di densità. Diremo quindi che
una popolazione P è rappresentata dalla v.a. X, alternativamente diremo che X è la
popolazione oggetto di studio. Se X è la popolazione oggetto di studio, allora ogni
realizzazione delle v.a. X è legata alla f.r. FX e quindi alla sua legge di densità fX . In
questo caso, cioè quando X è continua, parleremo di popolazione continua.
Scriveremo
P∼X
dove P è la popolazione oggetto di studio.
Noi ci occuperemo solo di popolazioni virtuali per pura comodità di trattazione,
nelle applicazioni invece si è condotti a considerare tale popolazioni perché non sempre
si è in grado di identificare tutti gli elementi di una popolazione oggetto di studio.
Funzione di verosimiglianza
Sia X la popolazione oggetto di studio ed x un campione osservato. Si definisce
funzione di verosimiglianza la funzione
L(θ; x) = L(θ; x1 , . . . , xn ) =
n
Y
fX (xi ; θ).
(4.1)
i=1
Si osservi che la legge distributiva della popolazione fX (x; θ) è funzione di x (di parametro θ) mentre nel definire la funzione di verosimiglianza si definisce una funzione
Capitolo 4.
Gli universi campionari
143
di θ in cui i dati campionari svolgono il ruolo di parametri (infatti sono dati, una volta
osservato il campione). A questo punto la variabile di interesse è θ. Dobbiamo inoltre
osservare che si è introdotta implicitamente la condizione di indipendenza nelle realizzazioni di X. Infatti, per x ∈ Rn , la legge di densità del vettore X si può fattorizzare
come segue
fX (x) = fX1 ,...,Xn (x1 , . . . , xn ) =
n
Y
fXi (xi )
i=1
solo se le componenti di X sono indipendenti a due a due. Si assume quindi che le
osservazioni fatte siano realizzazioni indipendenti della stessa variabile. Si noti inoltre
che nella formula (4.1) si è assunto anche che la v.a. fossero identicamente distribuite,
cioè Xi ∼ X per ogni i = 1, 2, . . . , n.
Vogliamo introdurre una notazione compatibile con una trattazione unificata di funzione di verosimiglianza e quindi trattare allo stesso modo variabili continue e discrete.
Si è già introdotta la scrittura
dP = f · dµ
(4.2)
dove P è la probabilità associata ad una v.a. X. Quindi, scriviamo
Z
Z
f · dµ = 1B f · dµ =
per il Boreliano B ∈ B
P (X ∈ B) =
B
dove f è detta densità di P e µ è la misura rispetto alla quale si sta calcolando la
probabilità P (quindi f è la densità di P rispetto alla misura µ). Caratterizzare X,
significa anche caratterizzare µ e di conseguenza f . Se X è una variabile continua,
allora µ è la misura di Lebesgue e f = fX è una densità continua o integrabile. Se
invece X è una v.a. discreta, allora f sarà una densità discreta e µ dovrà essere tale da
associare massa di probabilità solo ai valori di X in B, cioè solo ai punti x ∈ spet(X)
che si trovano anche in B. Scriveremo, come già introdotto nei capitoli precedenti,
Lebesgue,
se X ∼ fX e quindi è continua
dµ =
Dirac relativa a spet(X), se X ∼ (xk , pk ), k ∈ IX e quindi è discreta
e di conseguenza
 Z


1B (x) fX (x)dx,

supp(X)
X
P (X ∈ B) =

1B (xk ) pk ,


k∈IK
se X è continua,
se X è discreta.
.
144
La legge di densità f è uguale rispettivamente a f (x) = fX (x) o f (xk ) = P (X =
xk ) = pk se X è continua o discreta. Se le pk dipendono da un parametro θ, scriviamo
f (xk ; θ) = pk . Si consideri ad esempio X ∼ P ois(λ), allora
f (xk ; θ) = f (k; λ) = e−λ
λk
.
k!
Se la v.a. allo studio è una Gaussiana, allora
x2
k
e− 2σ2
f (xk , θ) = f (xk ; µ, σ 2 ) = √
2πσ 2
dove θ = (µ, σ 2 ) è un vettore. Si deve notare che qui µ ∈ R è la media teorica della
variabile X (non la misura di cui sopra).
Si ottiene quindi, per una v.a. X che caratterizza la popolazione allo studio ed un
campione x di dimensione n, che
 n
Y



fXj (xj ) se X è continua,

n

Y
j=1
L(θ; x) =
f (xi ; θ) =
n
Y


i=1

pk
se X è discreta.


k=1
Osservazione 38. Indipendentemente dal fatto che X sia continua o discreta (e quindi
che la densità sia continua, integrabile o discreta) si deve notare che L(θ; x) è una
funzione continua e derivabile in θ.
Capitolo 5
Inferenza statistica
5.1
Stima parametrica -
Il problema di stima parametrica puntuale è quello di stimare un parametro incognito
θ ∈ Rm della legge distributiva di una popolazione X legata al campione, potremmo
anche essere interessati non alla stima di θ ma di una sua funzione τ (θ) oppure ad una
stima intervallare di θ o τ (θ).
Diciamo statistica una funzione g dei dati campionari come ad esempio
g(x) =
n
X
xi
g(x) =
i=1
n
X
x2i ,
i=1
dato il campione empirico x. Il campione x è una realizzazione del vettore aleatorio
X ∈ Rn che rappresenta la popolazione oggetto di studio. La legge di X, diciamo
fX (x; θ), dipende da un parametro θ. Si chiama stimatore di un parametro θ ∈ Rm una
statistica θ̂ opportunamente individuata e funzione dei dati campionari
θ̂ = g(x1 , x2 , . . . , xn )
dove x = (x1 , x2 , . . . , xn ) ∈ U ⊂ Rn è il campione osservato ed U l’universo campiocθ ∈ Rm costituito dai valori dello stimatore θ̂
nario, al variare di x in U resta definito U
ottenuti per i diversi campioni x ∈ U . In particolare, sia g : Rn 7→ Rm , allora
cθ ={θ̂; θ̂ = g(x), x ∈ U ⊆ Rn }
U
con m ≥ 1. Dato lo stimatore θ̂ = g(x) dove x è una realizzazione del vettore aleatorio
X, allora sembra immediata la definizione di v.a. stimatore Θ̂ = g(X)1 . Nel seguito
Pn
Se g(x) = n1 i=1 xi allora Θ̂ = X n è la v.a. media campionaria. Così per altre g corrispondenti
ad altre v.a. definite nei capitoli precedenti.
1
145
146
scriveremo anche
Z
X
g(x) dFX (x) = E[g(X)]
E [g] =
(5.1)
supp(X)
(come già definito, si è solo introdotto il simbolo E X ) e
X
E U [g] =
g(x) f req{x ∈ U }
(5.2)
x∈U
che equivale a scrivere
cθ
U
Z
E [g] =
θ̂ dFΘ̂ (θ̂) = E[Θ̂].
(5.3)
cθ
U
cθ , allora E A [g] sarà la media di tutti i valori che θ̂ = g(x) assume al
Quindi se A ∈ U
variare di θ̂ ∈ A o equivalentemente al variare di x ∈ g −1 (A). Si noti che
(X = x) ≡ (Θ̂ = θ̂)
(i due eventi sono equivalenti) e allora
E[Θ̂] = E[g(X)].
5.1.1
Proprietà desiderabili di uno stimatore
Assumiamo ora per comodità che θ ∈ R sia il parametro oggetto di stima e che sia
nota la forma distributiva di X nella popolazione2 . Dato che θ̂ è scritto in funzione di
c
g, la (5.3) si può anche scrivere come E Uθ [θ̂] ed ovviamente intendiamo la media di
cθ .
tutti i valori θ̂ di U
Correttezza. Uno stimatore Θ̂ si dice corretto se vale
E Uθ [θ̂] = θ
c
o equivalentemente E[Θ̂] = θ
mentre si dice distorto nel caso
Dn = E[Θ̂] − θ 6= 0
2
Con il termine popolazione si è qui rappresentato l’insieme delle unità statistiche sulle quali osservare la caratteristica X (o la caratteristica espressa dalla v.a. X) ma ci si poteva anche riferire alla
popolazione X visto che esiste un isomorfismo che collega ogni sottoclasse delle unità statistiche aventi
stessa caratteristica Xi ad una densità di tale sottoclasse.
Capitolo 5.
Inferenza statistica
147
dove Dn è detta distorsione dello stimatore Θ̂ ed n in pedice indica la numerosità
campionaria di x. La distorsione Dn può essere tale per cui
lim Dn = 0
n→∞
e allora diciamo che Θ̂ è asintoticamente corretto.
Esercizio 102. Verificare se la v.a. varianza campionaria
n
Sn2 =
1X
(Xk − X̄)2
n k=1
è uno stimatore corretto.
Esercizio 103. Si consideri
n
2
Sn−1
1 X
(Xk − X̄)2 .
=
n − 1 k=1
Verificare se è uno stimatore corretto.
Esercizio 104. Verificare che lo stimatore (v.a.) media campionaria è uno stimatore
corretto.
Indicheremo in generale la v.a. varianza campionaria con S 2 e con s2 la sua realizzazione (o varianza campionaria osservata). Più in dettaglio indicheremo con Sn2
la v.a. varianza campionaria scritta sopra (e con s2 o s2n la sua realizzazione) mentre
indicheremo con
2
Sn−1
=
n
S2
n−1 n
la v.a. varianza campionaria corretta (e con s2 o s2n−1 la sua realizzazione).
Consistenza. Ipotizziamo ora che alla simulazione i-esima si sia osservato un campione xi ∈ Rn di dimensione campionaria n e si abbia la stima θ̂i di θ ∈ R inoltre
supponiamo di aver effettuato un numero I di simulazioni ovviamente rispettando la
natura campionaria di xi . Considerando cioè che l’universo campionario U 3 sia lo
3
In realtà in situazioni come questa l’universo campionario è effettivamente lo stesso mentre ogni
simulazione va pensata come una estrazione di un diverso campione da uno stesso contenitore U . In
linea teorica quindi simulando campioni all’infinito si potrebbe ricreare lo stesso U e di fatto procedendo
ad un numero opportunamente grande di simulazioni possiamo costruire un ottimo banco di prova per
le proprietà desiderabili di uno stimatore.
148
stesso in ognuna delle I simulazioni e sia quindi la stessa anche la legge fX (x; θ) della
popolazione X oggetto di studio (pensiamo ad esempio alle simulazioni fatte partendo
dalla stessa legge distributiva in cui θ = µ, media della popolazione). Otteniamo così
un insieme
cθ (I, n) = {θ̂i ; θ̂i = g(xi ), xi ∈ U, i = 1, 2, . . . , I}
U
indicizzato rispetto ad n per via della numerosità campionaria di xi . Sia Θ̂ uno stimatore corretto, diciamo che è consistente se per piccolo a piacere si ha
cθ (I, n) : |θ̂i − θ| < } = 1
lim f req{θ̂i ∈ U
n→∞
postulando in questo modo la convergenza in probabilità dello stimatore Θ̂ al valore
vero θ e affermando che uno stimatore consistente aumenta in stabilità all’aumentare
della numerosità campionaria.
Teorema 36. Sia Θ̂ uno stimatore corretto o asintoticamente corretto, allora condizione sufficiente affinché Θ̂ sia consistente4 è che
2
lim σΘ̂
= 0.
n→∞
Esercizio 105. Dimostrare che lo stimatore media campionaria è consistente.
Efficienza. Dobbiamo innanzitutto distinguere tra efficienza relativa ed efficienza assoluta. Dati due stimatori corretti si dice efficiente (in senso relativo) quello dei due
con varianza minima. Siano allora Θ̂1 e Θ̂2 corretti, se vale
2
2
σΘ̂
≤ σΘ̂
1
2
diciamo che Θ̂1 è efficiente rispetto a Θ̂2 . Dato uno stimatore corretto Θ̂e si dice
efficiente (in senso assoluto) se è lo stimatore di varianza minima nella classe degli
stimatori corretti del parametro θ. Siano Θ̂e , Θ̂ ∈ Cθ e sia Cθ la classe degli stimatori
corretti di θ, allora
2
2
∀ Θ̂ ∈ Cθ .
σΘ̂
e ≤ σΘ̂
Teorema 37. (Disuguaglianza di Cramer-Rao) Considerato un campione x ∈ Rn
estratto da una popolazione con funzione di densità fX (x; θ) e θ ∈ Θ, se valgono:
i) il campo di definizione5 della v.a. X non dipende da θ,
ii) la funzione di verosimiglianza L(θ; x) ammette derivata prima e seconda rispetto a θ,
4
5
2
Considerato θ0 il valore vero ( da stimare ) e E[Θ̂] = θ, otteniamo E[Θ̂ − θ0 + θ0 − θ]2 = σΘ̂
+ Dn2 .
Si intende lo spettro o il supporto a seconda della natura della v.a. X.
Capitolo 5.
Inferenza statistica
149
iii) Θ̂ è uno stimatore corretto di θ ( cioè Θ̂ ∈ Cθ ),
allora si ha
2
E[Θ̂ − θ]2 = σΘ̂
≥
E
1
d log L 2 .
dθ
Esercizio 106. Siano X ∼ P ois(λ) e Y ∼ U nif (0, a) due v.a. indipendenti. Si
vogliono trovare le stime λ̂ e â di λ e di a. Scrivere il campo di definizione di entrambe
le v.a. e dire se vale il punto i) del teorema precedente.
Il teorema ci consente quindi di individuare l’estremo inferiore della varianza di
2
uno stimatore appartenente alla classe Cθ e se tale estremo coincide con σΘ̂
? allora
?
Θ̂ è più efficiente (in senso assoluto) se esiste, può capitare cioè che non esista uno
stimatore con varianza uguale all’estremo indicato dalla disuguaglianza di Cramer-Rao
mentre se esiste è unico. Sembra utile ricordare inoltre che dalla relazione
n
Y
L(θ; x1 , . . . , xn ) =
fX (xi ; θ)
i=1
e dalla v.a.
L(θ; X) =
n
Y
fX (Xi ; θ)
i=1
(dove le Xi sono i.i.d.) seguono le quantità
2
2
U d log fX
U d log L
= nE
E
dθ
dθ
che è detta informazione di Fisher espressa dal campione mentre
2
U d log fX
E
dθ
è detta informazione di Fisher espressa da X (quindi dalla popolazione). Inoltre,
"
#2
d
log
f
(
θ̂;
θ)
c
X
E Uθ
dθ
è l’informazione di Fisher espressa dallo stimatore. Vale la seguente rappresentazione
che lega momenti e derivate
2
2
d log L(θ; X)
d log L(θ; X)
I(θ) = E
= −E
dθ
dθ2
e risulta verificata solo sotto le ipotesi di Cramer-Rao e dove I(θ) è detta informazione
di Fisher (attesa).
150
Sufficienza. Sia dato un campione x ∈ Rn con densità fX (x; θ), θ ∈ Θ ed una
statistica g ? : Rn 7→ Rm . Si vuole stimare il parametro θ, può essere anche m ≥ 1
ma non m > n. Supponiamo che al fine di ottenere una stima di θ costituisca la
stessa informazione considerare il campione x o il valore assunto da g ? (x), allora
g ? è detta statistica sufficiente per θ. Quanto abbiamo appena detto ci consente di
passare da Rn ad Rm trattando quindi con dimensioni minori o addirittura scalari (cioè
m = 1) rappresentando così una prima utilità espressa da tali statistiche. Un ulteriore
definizione di statistica sufficiente è dovuta al seguente teorema di fattorizzazione di
Neyman.
Teorema 38. Sia x ∈ U ⊆ Rn un campione di dimensione n e X con densità fX (x; θ),
θ ∈ Θ, date due funzioni non negative γ : U 7→ R e ϕ : Θ × G? 7→ R, una statistica
sufficiente g ? : Rn 7→ G∗ ⊆ Rm , allora la verosimiglianza può scriversi
L(θ; x) = γ(x) · ϕ(θ, g ? (x)).
La funzione di verosimiglianza può essere quindi ricostruita a meno di un fattore
inessenziale γ(·) indipendente da θ a partire dal nucleo ϕ(·) e che a parità del valore
g0? = g ? (x0 ) per qualche x0 ∈ U della statistica sufficiente si ottiene equivalenza in
verosimiglianza. Quindi, diversi campioni x0 producono lo stesso g0∗ .
Di fatto vale il ragionamento inverso, se la verosimiglianza può decomporsi come
sopra allora resta definita una statistica sufficiente g ? .
Come tutte le statistiche campionarie le statistiche sufficienti effettuano una classificazione per livelli dei campioni di U a partire da tutti i campioni x ∈ Ugi? tali per cui
g ? (x) = gi∗ e i = 1, 2, . . . , I ( può essere anche I = 1 ), individuando così I insiemi
di livello in ognuno dei quali si può avere o meno equivalenza in verosimiglianza ( verosimiglianza proporzionale per i campioni appartenenti allo stesso insieme di livello
e per livello si intende appunto il livello della verosimiglianza ). La sufficienza comporta che dato gi? (e quindi tutto un insieme di livello Ugi? ) la distribuzione delle n-ple
x ∈ Ugi? è indipendente da θ e si ottiene
fX (x; θ|gi? ) = γ(x),
∀ x ∈ Ugi?
che è funzione della sola n-upla campionaria per tutti gli i ∈ {1, 2, . . . , I}. Sembra logico pensare quindi che il passaggio da Ugi? ad U sia definito in termini di
verosimiglianza dalla fattorizzazione di Neyman-Pearson. Basta ricordare che
fX (x; θ) = L(θ; x).
Consideriamo ora due campioni xa , xb ∈ U ⊆ Rn ed osserviamo che
γ(xa ) ϕ(θ, g ? (xa ))
L(θ; xa )
γ(xa )/γ(xb ), g ? (xa ) = g ? (xb )
=
=
c(xa , xb ),
g ? (xa ) 6= g ? (xb )
L(θ; xb )
γ(xb ) ϕ(θ, g ? (xb ))
(5.4)
Capitolo 5.
Inferenza statistica
151
dove in generale, c(·, ·) può dipendere da θ. Si vede quindi che la partizione su U
indotta da una statistica sufficiente g ? è tale per cui campioni appartenenti allo stesso
insieme di livello (xa , xb ∈ Ugi? ) sono equivalenti in verosimiglianza. Non è in generale
vero il contrario visto che può verificarsi c(xa , xb ) = γ(xa )/γ(xb ) a meno che g ? non
sia minimale, come vedremo!
Osserviamo che
log L(θ; x) = log γ(x) + log ϕ(θ; g ? (x))
per cui si ottiene
d log ϕ(θ; g ? (x))
d log L(θ; x)
=
dθ
dθ
e quindi ai fini dell’inferenza su θ, l’informazione espressa dalla statistica g ? sufficiente
per θ è equivalente a quella espressa dal campione x.
Teorema 39. (Blackwell-Rao) Sia x ∈ Rn un campione causale, fX (x; θ) con θ ∈ Θ
la densità per X. Se g ? : U ⊆ Rn 7→ G? è una statistica sufficiente per θ e g uno
stimatore corretto di θ, che non dipende da θ, allora per
?
g ?? (g0? ) = E U |g0 [g|g ? = g0? ]
valgono le seguenti :
?
i) E G [g ?? (g0? )] = θ , (sempre ricordando che g0? è funzione di (x1 , . . . , xn ) )
?
ii) V arG [g ?? (g0? )] ≤ V arUθ [g]
c
?
e possiamo riferirci a g ?? (g0? ) = E U |g0 [g|g ? = g0? ] come allo stimatore migliorato.
Per ricollegarci al formalismo già usato consideriamo il caso in cui lo stimatore Θ̂
cθ = G? .
sia una statistica sufficiente per θ, quindi se Θ̂ = g ? (x1 , x2 , . . . , xn ), si ha U
Indichiamo con
Ug0? = U |g0? = {x ∈ Rn t.c. g ? (x) = g0? }
un insieme di livello per la statistica sufficiente g ? . Vediamo allora che le proprietà
dello stimatore migliorato sono ottenute come media su tutti gli insiemi di livello delle
medie in ogni insieme di livello6 . Sembra utile chiarire quanto esposto per le applicazioni pratiche, osservato il campione x0 ∈ Rn e considerato uno stimatore migliorato
g ? ? di θ otteniamo
θ̂ = g ?? (g0? )
Si effettua la media tra i campioni di U che determinano un certo valore g0? della statistica sufficiente g ? (per i campioni che appartengono quindi a quell’insieme di livello) ed otteniamo lo stimatore
migliorato, il condizionamento rappresenta qui una regola di inclusione per i campioni di U , inclusione
in U |g0? . Le proprietà vanno verificate per ogni insieme di livello (quindi possiamo condizionare per
ogni g0? ∈ G? al fine di individuare tutte le partizioni U |g0? e quindi tutti i valori per g ?? ) o meglio per
tutti i campioni di U .
6
152
che è funzione dei dati campionari attraverso g0? = g ? (x0 ).
Esempio 32. Quanto visto vale anche per le popolazioni (virtuali) discrete. Dato un
campione x ∈ Rn estratto da una popolazione Bernoulliana X con densità (discreta)
fX (xi ; θ) = θxi (1 − θ)1−xi ,
xi ∈ {0, 1},
θ ∈ (0, 1)
e lo stimatore non distorto g(x) = xP
1 (o g(x) = xi per qualche i = 1, 2, . . . che è lo
?
stesso) di θ con la statistica g (x) = ni=1 xi sufficiente per θ, lo stimatore migliorato
è
" n
#
X
g ?? (x) = E ?? [g|g ? (x)] = E {0,1} g|
xi = k .
i=1
Si ottiene
P
P
n
X
!
P
P (x1 = 0, ni=1 xi = k)
n−k
Pn
=
,
x1 = 0|
xi = k =
P ( i=1 xi = k)
n
i=1
!
P
n
X
P (x1 = 1, ni=1 xi = k)
k
Pn
x1 = 1|
xi = k =
= ,
P ( i=1 xi = k)
n
i=1
" n
#
X
k
g ?? (x) = E ?? g|
xi = k = ,
n
i=1
e
σg2 = θ(1 − θ),
σg2?? =
θ(1 − θ)
n
quindi g ?? è uno stimatore corretto di varianza minima rispetto a g.
Statistiche sufficienti minimali. Si dice minimale la statistica sufficiente che produce la partizione con il minor numero di insiemi rispetto a tutte le altre statistiche
sufficienti per lo stesso parametro.
Per tali statistiche si possono osservare alcune particolarità di natura funzionale:
1. una statistica sufficiente h? è minimale se dati due campioni questi sono equivalenti in verosimiglianza se e solo se presentano lo stesso valore, in altri termini se si considera una statistica sufficiente minimale insiemi di livello diversi producono funzioni di verosimiglianza sostanzialmente diverse e dalla 5.4
scriviamo
c(xa , xb ) 6= γ(xa )/γ(xb ),
Capitolo 5.
Inferenza statistica
153
2. la caratteristica di dar luogo ad una partizione perfettamente coincidente con
quella dei campioni equivalenti in verosimiglianza, ci dice che ciascun insieme
della partizione associata ad una statistica sufficiente è necessariamente compresa interamente in un insieme della partizione indotta da una statistica sufficiente
minimale. In sostanza allora possiamo dire che la statistica sufficiente minimale
è funzione di quella statistica sufficiente,
3. se esistono due statistiche sufficienti minimali queste condurrebbero alla stessa
partizione di U quindi si potrebbe individuare una relazione biunivoca tra le due
statistiche. Diciamo allora che a meno di una relazione biunivoca la statistica
sufficiente minimale è unica.
Completezza. Teorema di Lehmann-Scheffé. Una statistica (o stimatore) θ̂ = h(·)
è completa se è completa la legge distributiva f (θ̂, θ) e cioè se è tale per cui data una
qualsiasi funzione reale g(θ̂) di θ̂, indipendente da θ, l’uguaglianza
Z
g(θ̂)f (θ̂; θ)dθ̂ = 0
E[g(Θ̂)] =
cθ
U
implica necessariamente che sia sempre g(θ̂) = 0 per ogni θ̂, quindi se g(·) è una
funzione nulla ovunque. Possiamo allora ricondurci anche allo studio della legge f (·)
ed in realtà ci potremmo riferire anche a particolari famiglie di distribuzioni complete,
ad esempio se f (·) è normale, sapendo che qualunque sia g(·) si avrà
E[g] = 0 ⇔ g = 0 ovunque.
Teorema 40. Sia x un campione estratto da una popolazione con densità f (X; θ)
e come al solito θ ∈ Θ, se h?,c è una statistica sufficiente e completa per θ e se
h = g(h?,c ) è uno stimatore corretto di θ, allora h è unico ed ha varianza non superiore
a quella di ogni altro stimatore.
Ancillarità. Teorema di Basu. Una statistica la cui distribuzione non dipende dal
parametro θ di interesse è chiamata statistica ancillare. In sostanza quindi tale statistica non fornisce informazioni su θ, resta comunque interessante il loro utilizzo nella
pratica, considerando ad esempio il condizionamento parziale.
Teorema 41. Se hm,c è una statistica completa e sufficiente minimale, allora hm,c è
indipendente da ogni statistica ancillare.
Si può così provare l’indipendenza di due statistiche senza dover passare per le
rispettive distribuzioni e quindi quella congiunta, resta però impegnativo (almeno a
volte) dover dimostrare la completezza.
154
In Breve. Possiamo sintetizzare quanto appena detto come segue:
i) la dis. di Cramer-Rao ci dice quale è l’estremo inferiore della varianza di uno
stimatore corretto che non necessariamente esiste, se non esiste tale estremo non
può essere raggiunto e lo stimatore corretto di varianza minima per il parametro
di interesse ha varianza maggiore dell’estremo trovato,
ii) il Teorema di Blacwell-Rao ci permette di individuare uno stimatore funzione di
una statistica sufficiente che è corretto e di varianza minima. In particolare, preso
uno stimatore Θ̂ ed una statistica sufficiente g ∗ , allora lo stimatore Θ̂∗ = Θ̂|g ∗
è detto stimatore migliorato ed ha varianza minore o uguale della varianza dello
stimatore Θ̂ (detto originale o di partenza).
iii) Inoltre, ricordiamo che
θ : il parametro da stimare,
θb : lo stimatore per θ,
b : la v.a. stimatore per θ,
Θ
x : campione osservato (denotato anche xoss ), realizzazione di X,
X : v.a. (in particolare, un vettore di n v.a.),
dove
x = (x1 , x2 , . . . , xn ) e X = (X1 , X2 , . . . , Xn ),
θb = g(x)
b = g(X),
e Θ
g è una statistica.
Esempio 33. Consideriamo media e varianza:
θ = µ, µ̂ = x̄ e la v.a. è X̄;
θ = σ 2 , σ̂ 2 = s2 e la v.a. è S 2 .
Capitolo 5.
5.1.2
Inferenza statistica
155
Metodi di stima
Stima di massima verosimiglianza. Lo stimatore di massima verosimiglianza θ̂M V
è tale per cui
L(θ̂M V ) = max.
Deve quindi soddisfare le condizioni
d L(θ; x) =0
dθ θ=θ̂M V
d2 L(θ; x) <0
dθ2 θ=θ̂M V
dove x = xoss rappresenta il campione osservato ed L(θ; x) deve essere massimizzata
rispetto a θ e dato il campione osservato. Risulta:
1. (invarianza degli stimatori MV) Sia θ̂M V lo stimatore di massima verosimiglianza di θ, se ψ è una funzione che ammette la funzione inversa lo stimatore di
massima verosimiglianza di λ = ψ(θ) è dato da λ̂ = ψ(θ̂M V ),
2. Se esiste per θ una statistica sufficiente h? , allora uno stimatore di massima
verosimiglianza di θ se esiste, è funzione di h? e θ̂M V = g(h? ),
3. Se esiste per θ uno stimatore corretto ed efficiente θ̂, allora è anche stimatore di
massima verosimiglianza, θ̂ = θ̂M V ,
4. Se per la fX (x; θ) valgono le condizioni di regolarità ed inoltre per ogni x e
θ ∈ Ω esiste ed è continua e limitata la derivata terza di fX (x; θ), lo stimatore di massima verosimiglianza è asintoticamente corretto e consistente e ha
distribuzione asintotica di tipo normale
Θ̂ ∼ N (θ, 1/I(θ)).
Inoltre
L(Θ; x) ∼ N (θ̂, 1/I(θ̂; x))
dove I(θ̂; x) è l’informazione di Fisher osservata. All’aumentare della numerosità campionaria Θ̂M V ha varianza sempre più vicina al limite di Cramèr-Rao ed
è corretto.
Esercizio 107. Sia P ∼ N (µ, σ 2 ), e sia x = (x1 , . . . , xn ) il campione osservato.
Determinare lo stimatore MV per la media della popolazione.
Esercizio 108. Sia P ∼ N (µ, σ 2 ) la popolazione allo studio e sia x = (x1 , . . . , xn ) il
campione osservato. Determinare lo stimatore MV per la varianza della popolazione.
156
Esercizio 109. Dire se la v.a. varianza campionaria trovata nel precedente esercizio
è uno stimatore corretto per la varianza della popolazione.
Esercizio 110. Sia P una popolazione in cui il fenomeno oggetto di studio X segue
una legge distributive uniforme, X ∼ U nif (0, θ) con θ > 0. Scrivere la funzione di
log-verosimiglianza.
Stima per intervalli. Supponiamo che si voglia ottenere la stima θ̂ di un parametro θ
da una osservazione campionaria, diciamo dal campione x ∈ Rn . Si possono costruire
degli intervalli per θ̂ se si conosce la legge distributiva fΘ̂ (·) di tale stimatore. Dalla
relazione
Z
θ1
fΘ̂ (u)du = 1 − α
P (θ0 ≤ Θ̂ ≤ θ1 ) =
θ0
standardizzando secondo una trasformazione G(·), si ricava
P G(θ0 ) ≤ G(Θ̂) ≤ G(θ1 ) = 1 − α
dove G(θ0 ) = gα/2 e G(θ1 ) = g1−α/2 sono i percentili della fG(Θ̂) (·) che una volta
calcolati o individuati (ad esempio attraverso le tavole dei percentili) consentono di
scrivere
−1
−1
P G (gα/2 ) ≤ Θ̂ ≤ G (g1−α/2 ) = 1 − α.
Se ad esempio Θ̂ = X̄n è la v.a. media campionaria ed X ∼ N (µ, σ 2 ) con varianza σ 2
nota, allora
X̄n − µ √
n ∼ N (0, 1)
G(X̄n ) =
σ
e dai passaggi visti sopra con α = 0.05 (si vedano le tavole dei percentili della
normale) scriveremo
P G−1 (g1−α/2 ) ≤ Θ̂ ≤ G−1 (gα/2 ) = P G−1 (−1.96) ≤ Θ̂ ≤ G−1 (1.96) = 0, 95.
Se invece θ̂ = σ 2 e X ∼ N (µ, σ 2 ) con media µ nota, si ottiene
G(S 2 ) =
(n − 1)S 2
∼ χ2(n)
σ2
dove S 2 è la v.a. varianza campionaria corretta
n
1 X
S =
(Xi − µ)2 .
n − 1 i=1
2
Capitolo 5.
Inferenza statistica
157
Inoltre
G(S 2 ) ∼ χ2(n−1)
se µ non è nota e la v.a. varianza campionaria diventa
n
1 X
S =
(Xi − X̄n )2 .
n − 1 i=1
2
Numerosità ottima del campione. Ricorriamo ancora alla trasformazione G vista
sopra e supponiamo che sia G(·; n), sottolineando cioè la dipendenza da n. Una simile
trasformata non è certo difficile da trovare poiché standardizzando è facile ricorrere a
grandezze che dipendono dalla numerosità campionaria n. Possiamo scegliere un θ0
per cui G(θ0 ; n) = g1−α/2 = f (n) sia funzione di n, quindi esplicitando rispetto ad n
troveremo
n = f −1 (g1−α/2 ; θ0 , . . .).
Consideriamo ad esempio X ∼ N (µ, σ 2 ) ed il campione x ∈ Rn , supponiamo σ 2 nota,
standardizziamo ed otteniamo
G(x̄; n, σ) =
x̄ − µ √
n ∼ N (0, 1)
σ
per cui g1−α/2 = z1−α/2 e z è il percentile della N (0, 1). Si ha per un certo livello
1 − α ed un errore e = x̄ − µ che G(e; n, σ) = f (n) = z1−α/2 ed ancora, calcolando
la funzione inversa
n=
2
σ
z1−α/2
e2
(dove considererò la parte intera se voglio che n ∈ N)
si è ottenuta la numerosità ottima per cui al livello 1 − α possiamo ottenere un intervallo di stima per µ di ampiezza 2e. Osserviamo che e = x̄−µ può essere scelto piccolo a
piacere, tale valore dipenderà dal grado di accostamento che vogliamo ottenere essendo incognita la media µ della popolazione. Come si è già osservato, il valore n trovato
non è intero, infatti si deve considerare il più piccolo n tra quelli che soddisfano alla
condizione richiesta. In altre parole, cerchiamo il più piccolo n per il quale
n≥
2
z1−α/2
σ
e2
che corrisponde alla parte intera superiore
n=
2
z1−α/2
σ
e2
.
158
Esercizio 111. Sia P la popolazione oggetto di studio, il fenomeno oggetto di studio è
ben rappresentato dalla v.a. X ∼ N (µ, σ 2 ). Vogliamo stimare la media µ del fenomeno X della popolazione. In particolare, si vuole trovare la numerosità campionaria n
del campione x ∈ Rn tale per cui, con probabilità pari al 95%, si commette un errore
minore di una quantità nella stima di µ. Trovare il minimo n.
Osservazione 39. Trovare il minimo n nel precedente esercizio significa anche trovare
il più piccolo n per cui |X̄n − µ| < nel 95% dei casi, cioè pensando di considerare
100 campioni, 95 di questi restituiscono una stima che non si discosta più di dal
valore vero µ (P (|b
µ − µ| < ) = 95%).
Stima dei minimi quadrati. Supponiamo di osservare la variabile dipendente Y e
le variabili esplicative X = (X1 , X2 , . . . , Xk ) dalla popolazione ed otteniamo un campione di numerosità n (ossia n unità statistiche) della forma {(yi , xi ); yi ∈ R, xi ∈
Rk , i = 1, 2, . . . , n}. Ipotizzando una relazione lineare tra le variabili potremmo
scrivere
k
X
yi =
aj xi,j
j=1
ed in termini matriciali
Y = Xa
dove X è una matrice n × k ed ovviamente Y ∈ Rn (si veda il Capitolo 6).
Se in generale esiste tra la variabile dipendente e le variabili esplicative una relazione del tipo
Y = f (X; a) + dato il campione (y, x) troviamo i valori ŷ = f (x; â) in modo che
n
X
(yi − ŷi )2 = min,
i=0
in particolare cerchiamo il vettore â ∈ Rk tale che per ei = yi − ŷi si possa scrivere
n
X
e2i = min
i=1
ed ei rappresenta l’errore che si commette approssimando gli yi con la relazione f (x; â),
diverso quindi dal significato di che rappresenta una v.a. qualunque (di media nulla)
e quindi il grado di incertezza o di imprecisione inevitabile nella realtà fattuale ( è interessante per il confronto con la verosimiglianza il caso in cui ∼ N (µ, σ 2 ) ). è il caso
di notare che il metodo dei MQ prescinde dalla conoscenza delle forme distributive
Capitolo 5.
Inferenza statistica
159
mentre si dovrà conoscere o identificare la relazione f (·; a) o meglio la dipendenza
funzionale tra i dati. Il metodo dei MQ trova la sua piú naturale applicazione nelle
relazioni f (·; a) che siano lineari o linearizzabili quindi nei modelli lineari.
Stima dei momenti. Il metodo dei momenti conduce a stimatori consistenti ed è il
piú semplice metodo di stima, consiste nello stimare caratteristiche della popolazione a partire dalle relazioni teoriche tra i momenti e supponendole valide anche per i
momenti campionari. Indichiamo un momento di ordine r con
Z
Mr =
xr fX (x; θ)dx,
U
2
è di immediata comprensione il fatto che la relazione teorica σX
= M2 − M12 porti,
n
dato un campione x ∈ R , a stimare la quantità
n
1X 2
2
σ̂X
= m2 − m21 =
x −
n i=1 i
n
1X
xi
n i=1
!2
P
oppure µ̂X = m1 = n1 ni=1 xi ottenute appunto dai momenti campionari m1 e m2
in questo caso del primo e del secondo ordine rispettivamente. In generale quindi si
dovranno conoscere le relazioni teoriche tra i momenti che non prescindono sempre
dalla legge distributiva come invece accade nel caso sopra illustrato. Se si devono
stimare k parametri della popolazione, diciamo θ ∈ Rk sarà possibile impostare un
sistema di k equazioni del tipo
Mr = mr ,
r = 1, 2, . . . , k
dove Mr = g(θ) dipende da θ = (θ1 , . . . , θk ) e risolvendo il sistema si trova θ̂ ∈ Rk .
Indichiamo lo stimatore dei momenti con il simbolo θbM .
Osservazione 40. Si osservi che si sta impostando un sistema di k equazioni in k
incognite.
Esercizio 112. Determinare lo stimatore dei momenti per il parametro θ = (µ, σ 2 )t
da una popolazione X ∼ N (µ, σ 2 ).
Stima bayesiana. Nella logica Bayesiana sappiamo che assegnata una legge di probabilità iniziali π(θ) per il parametro θ ∈ Uθ ed osservato il campione x ∈ Rn ,
possiamo calcolare la legge delle probabilità a posteriori
π(θ|x) = c L(θ; x) π(θ)
160
dove ovviamente L(θ; x) = f (x; θ) è la verosimiglianza e
Z
−1
L(θ; x) π(θ)dθ.
c =
Uθ
Sembra allora ovvio, dato x ottenere una stima θ̂ di θ dalla
Z
Uθ
θ π(θ|x) dθ.
θ̂ = h(x) = E [θ|x] =
Uθ
Possiamo iterare il calcolo delle probabilità a posteriori (aggiornare le π(θ|·) per successivi campioni x) un certo numero di volte e giungere a nuove stime Bayesiane di
θ.
5.2
5.2.1
Verifica delle ipotesi statistiche Test parametrici
Parleremo di ipotesi parametriche quando ci si riferisce ad un vettore incognito θ mentre chiameremo ipotesi funzionali quelle relative ad una forma f (x; θ), θ ∈ Θ, ci
occuperemo delle ipotesi funzionali nel paragrafo che segue. Un ipotesi si dice semplice se specifica completamente la f (x; θ) altrimenti si dice composta. Un ipotesi che
consideri un solo parametro θ può essere semplice se è della forma θ = θ0 , può essere
unilaterale se è del tipo θ > θ0 o θ ≥ θ0 oppure sostituendo con < o ≤, può essere
bilaterale se è del tipo θ 6= θ0 . Possiamo dire formalizzando il problema che un test di
ipotesi è del tipo θ ∈ Θ0 dove Θ0 rappresenta un insieme che può essere costituito da
un solo elemento, caso in cui l’ipotesi si dice semplice oppure può essere costituito da
più elementi, il caso delle ipotesi composte. Il test di ipotesi è strutturato in modo da
testare una certa congettura, solitamente l’ipotesi detta alternativa ed indicata con H1
mentre si descrive la situazione di base con l’ipotesi detta appunto di base o nulla H0 .
In linea di principio quindi si avrà a che fare con un test del tipo
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1 ,
un campione x = (x1 , . . . , xn ) verrà osservato (estratto) da una popolazione X con
densità fX (x; θ), verrà scelta una opportuna funzione dei dati campionari che potrà
essere una funzione test o uno stimatore, indichiamo tale funzione con g(x) e si potrà
individuare una distribuzione per g(X) a partire dalla densità fX (·|H0 ) e quindi valida
se θ ∈ Θ0 (o equivalentemente se è vera l’ipotesi di base) ed una distribuzione per
g(X) a partire dalla densità fX (·|H1 ) se θ ∈ Θ1 (o se è vera l’ipotesi alternativa).
Si devono introdurre gli errori
Capitolo 5.
Inferenza statistica
161
di prima specie: la decisione di rifiutare l’ipotesi nulla quando questa è vera,
di seconda specie: la decisione di rifiutare l’ipotesi alternativa quando questa è vera.
Si deve notare che si stanno considerando gli oggetti Y = g(X) e y = g(x).
Indichiamo rispettivamente con
Z
fg(X) (g(x)|H0 )dg,
θ̂ = g(x)
α=
R|H0
e
Z
β=
fg(X) (g(x)|H1 )dg,
θ̂ = g(x)
A|H1
le probabilità di commettere un errore di prima specie e di seconda specie rispettivamente. Risulta anche
P (g(X) ∈ R|H0 ) = P (R|H0 ) = α
e
P (g(X) ∈ A|H1 ) = P (A|H1 ) = β
dove R|H0 è la regione di rifiuto sotto l’ipotesi di base ed A|H1 è la regione di accettazione sotto l’ipotesi alternativa. La funzione h(x) è qui presentata nella notazione
piú usuale per uno stimatore del parametro θ piuttosto che per una funzione test, ovviamente sempre funzione dei dati campionari, θ̂ = h(x), il valore θ? in questo caso
delinea le regioni di accettazione e di rifiuto sotto entrambe le ipotesi.
Sono importanti anche le probabilità
P (A|H0 ) = 1 − α
detta livello di fiducia, mentre α è detta livello di significatività e la probabilità
P (R|H1 ) = 1 − β
detta potenza del test.
Il test migliore si ottiene rendendo piccole le probabilità di ottenere un errore (quindi
α e β), di norma si fissa α essendo strutturato il test in modo da rendere preferibile
mantenere l’ipotesi di base7 e si cerca di massimizzare la potenza del test ovvero la
probabilità di non commettere errori di seconda specie (la situazione ottimale può
essere ottenuta fissando entrambe le probabilità degli errori piccole a piacere o secondo
le necessità del caso). Se le ipotesi sono composte si avranno diversi valori di tali
probabilità e fissata α avremo una funzione di potenza da massimizzare.
7
Ad esempio se si sta testando l’affidabilità di un prodotto alternativo (espresso appunto dall’ipotesi alternativa) contro l’ipotesi nulla secondo cui il prodotto cosí come è proposto risulta il piú
affidabile, sarà certamente meno auspicabile commettere un errore di seconda specie perché evidentemente comporterebbe ammodernamenti nel meccanismo di produzione e quindi delle spese che non
rappresenterebbero un buon investimento.
162
Ipotesi di base semplici
Nel caso in cui entrambe le ipotesi siano semplici il test assume la forma
H0 : θ = θ0
H1 : θ = θ1 , θ0 < θ1
se X ∼ N (µ, σ 2 ) ed osserviamo un campione x di dimensione n, possiamo voler
verificare due stime campionarie, la media θ = µ oppure la varianza θ = σ 2 .
Ipotesi sulla media, θ = µ.
Il test assume la forma
H0 : µ = µ0
H1 : µ = µ1 , µ0 < µ1
P
2
sappiamo che µ̂ = x̄, quindi h(x) = n1 ni=1 xi ed inoltre X̄ ∼ N (µ, σn ), quindi x̄ è
una realizzazione della v.a. media campionaria X̄ = h(X). Conosciamo la fX̄ (·) ed
in particolare le distribuzioni
X̄|H0 ∼ N (µ0 , σ 2 /n),
X̄|H1 ∼ N (µ1 , σ 2 /n)
2
condizionate alle ipotesi da verificare. Si è comunque supposto che σP
fosse noto,
1
2
altrimenti bisogna ricorrere ad una stima campionaria corretta, s = n−1 ni=1 (xi −x̄)2
e si ottiene
X̄|H0 ∼ N (µ0 , s2 /n),
X̄|H1 ∼ N (µ1 , s2 /n).
Note le distribuzioni diciamo che x̄oss è la stima ottenuta (osservata) dal campione,
x̄oss = h(x), dobbiamo verificare se tale valore cade nella regione di accettazione o
di rifiuto dell’ipotesi di base. Al fine di individuare tali regioni fissiamo il livello di
significatività α (ad esempio α = 0.05) e standardizziamo le distribuzioni viste sopra
relativamente alla sola ipotesi nulla e al caso in sui σ 2 sia noto oppure no, si ottiene
rispettivamente
X̄ − µ0
X̄ − µ0
√ ∼ N (0, 1),
√ ∼ t(n−1)
σ/ n
s/ n
ed ancora, preso α ed x̄oss
σ
x̄? = µ0 + z1−α √
n
oppure
s
x̄? = µ0 + t(n−1), 1−α √
n
ed A = (−∞, x̄? ), R = (x̄? , ∞) quindi
x̄oss < x̄? ⇒ acettiamo H0
x̄oss > x̄? ⇒ rifiutiamo H0 .
Capitolo 5.
Inferenza statistica
163
Conclusioni simili si otterrebbero calcolando i percentili osservati
x̄oss − µ0
√
= zoss ,
σ/ n
x̄oss − µ0
√
= t(n−1),oss
s/ n
e successivamente le probabilità osservate
αoss = 1 − FN (zoss )
oppure
αoss = 1 − FT (t(n−1),oss )
ovviamente
αoss < α ⇒ al 1 − αoss % rifiutiamo H0
αoss > α ⇒ accettiamo H0 .
Il test così strutturato prescinde dall’ipotesi alternativa ed in effetti si sarebbe ovviamente giunti a regioni differenti ponendo H1 : θ < θ0 o H1 : θ > θ0 o ancora
H1 : θ 6= θ0 ma sempre seguendo la stessa procedura infatti questo è un test uniformemente più potente8 . La funzione di potenza nel caso H1 : θ > θ0 è data
da
P (X̄ > x̄oss |H1 )
mentre se H1 : θ < θ0 è data da
P (X̄ < x̄oss |H1 ).
Verifica P (X̄ ∈ W |H1 ).
Ipotesi sulla varianza, θ = σ 2 .
Supponendo µ nota il test assume la forma
H0 : σ 2 = σ02
H1 : σ 2 = σ12
sappiamo che la varianza campionaria e la varianza campionaria corretta9 sono rispettivamente date da
n
n
1X
1 X
2
2
2
S =
(xi − x̄)
e
s =
(xi − x̄)2
n i=1
n − 1 i=1
8
Un test in cui l’ipotesi di base è semplice, quindi la forma distributiva della v.a. X è completamente
specificata da un solo parametro, l’ipotesi alternativa H1 è invece composta e sia individuata da ogni
ipotesi semplice H1 ∈ H1 , si dice uniformemente più potente se per ogni ipotesi H1 ∈ H1 non variano
le regioni di accettazione e di rifiuto individuate mediante la procedura di Neyman e Pearson. Tali test
non sono molto frequenti ed in particolare non esistono, in condizioni regolari, se l’ipotesi alternativa è
parametrica bilaterale.
2
Pn Pn
9
L’espressione i=1 xiσ−ξ
∼ χ2(v) è giustificata dal fatto che i=1 Ui2 ∼ χ2(n) dove le Ui
sono normali standardizzate,
dobbiamo però precisare che v = n nel caso ξ = µ ovvero è nota, se
Pn
invece ξ = x̄ = n1 i=1 xi , funzione dei dati campionari, allora v = n − 1 perché non si ha più una
combinazione lineare dei dati indipendente.
164
mentre una stima corretta di σ 2 è σ̂ 2 = s2 , inoltre sotto l’ipotesi nulla si ha
nS 2
(n − 1)s2
=
∼ χ2(n−1)
2
2
σ0
σ0
quindi dato il campione x di dimensione n calcoliamo s2oss ed il percentile χ2oss , dalle
tavole dei percentili risulta 1 − Fχ2(n) (χ2oss ) = αoss e come sopra, fissato il livello di
significatività
αoss > α oppure χ2oss < χ2α ⇒ accetto H0 .
Si sono introdotti i valori osservati x̄oss e s2oss , in realtà entrambi sono delle stime
campionarie quindi usando una notazione più coerente si sarebbe scritto x̄ˆ e ŝ2 .
Il test ottimo. La procedura di Neyman-Pearson. La procedura di N-P consente
di individuare, fissato α, quel test per cui è massima la potenza 1 − β, quindi individua
le regioni di accettazione e di rifiuto di quei test detti piú potenti.
In termini più o meno pratici il problema può essere cosí rappresentato, sia U =
{xi }i=1,...,N l’universo campionario di interesse, il test sia del tipo
H0 : θ = θ0
H1 : θ = θ1
ovviamente θ̂ = h(xi ) e vogliamo costruire un test più potente di dimensione α (o
fissato α). Le probabilità dei campioni siano espresse da P (xi |H0 ) e P (xi |H1 ) rispet(xi |H1 )
tivamente in H0 o H1 e si definisca il rapporto Λ(xi ) = PP (x
, allora la regione
i |H0 )
di rifiuto sotto l’ipotesi nulla sarà costruita prendendo quei campioni di rapporto Λ(·)
massimo e via via inferiore fino ad ottenete un insieme Iα di campioni per cui si abbia
X
P (xi |H0 ) ' α
ed ovviamente
xi ∈Iα
X
P (xi |H1 ) = 1 − β
xi ∈Iα
quindi fissato α inseriamo campioni in Iα fino ad ottenere un valore prossimo o uguale
ad α e troviamo la potenza 1 − β, vale α ≤ 1 − β , inoltre il test è coerente nel senso
che la potenza del test relativa ad un campione di n unità è non superiore, fissato α, a
quella di un campione di n + 1 unità . La procedura operativa si basa sul fatto che il
lemma di N-P (in letteratura indicato anche come tale oltre che come procedura) dice
che il test piú potente è quello che si basa sulla regione di rifiuto W = Iα nella quale
per ogni n-upla campionaria è massimo il rapporto delle verosimiglianze
Λ(xi ) =
L(θ1 ; xi )
≥ Cα
L(θ0 ; xi )
Capitolo 5.
Inferenza statistica
165
dove ovviamente, per il test dato sopra, P (xi |Hj ) = L(θj ; xi ) e
Cα = max Λ(xi ).
xi ∈U \Iα
Bisogna fare delle precisazioni, la procedura garantisce l’esistenza del test ottimo ma
può capitare che la regione W non sia unica inoltre Λ(·) è un rapporto di verosimiglianze e se esiste una statistica sufficiente per θ, tale rapporto può scriversi come funzione
della statistica sufficiente evitando di considerare ulteriormente le n-ple campionarie.
Nota Bene. In linea di principio si tende sempre a considerare vera l’ipotesi di base
ma ogni volta si procede come per accettare l’ipotesi alternativa, lo spirito che spinge
quindi al test, in sostanza, è quello di poter considerare un’alternativa all’ipotesi di
base essendo però quest’ultima sempre preferita. Seguendo queste considerazioni si
sceglie α sempre più piccolo se si vuole rendere difficile commettere un errore di prima
specie, in questo modo se le risultanze campionarie conducessero al rifiuto dell’ipotesi
nulla, ”nulla” si potrebbe dire sul tentativo di mantenerla valida, in altre parole deve
necessariamente essere rifiutata. Sullo stesso principio ci si basa quando si sceglie la
regione di potenza minima tra quelle ottime (o con massima potenza), si vuole rendere
meno agevole il rifiuto dell’ipotesi di base.
Ipotesi di base composte
Lo scenario è rappresentato, nel semplice caso discreto, da una collezione di ipotesi
semplici H0 ∈ H0 che esauriscono l’ipotesi composta H0 , sembra quindi difficile
dover mantenere la porzione α per ognuna delle H0 ∈ H0 , si ricerca allora per ogni
H1 ∈ H1 l’insieme delle regioni ottime (di potenza massima) per ogni H0 ∈ H0 e tra
le |H0 | × |H1 | regioni (con |A| si è indicata la cardinalità dell’insieme A) si sceglie la
regione di rifiuto W 10 di potenza minima.
5.2.2
Test non parametrici
Tratteremo test su P o sulla sua densità f . In particolare, vogliamo confrontare la distribuzione di probabilità teorica di una certa variabile con la distribuzione di frequenze
(e quindi osservate).
Test del χ2 . Siano X ∼ (xk , pk ), k ∈ IX una v.a. e fk , k ∈ IX una successione
di frequenze osservate per il fenomeno oggetto di studio. Vogliamo vedere quanto X
10
Nel caso di ipotesi composte se tale regione non cambia al variare di H1 ∈ H1 si tratta di una
regione W che determina un test uniformemente piú potente.
166
descriva bene tale fenomeno. Una misura della distanza tra le distribuzioni è data da
X (fk − pk )2
χ2oss =
pk
k∈I
X
che può essere vista come una realizzazione della v.a. χ2 (|IX |−1), cioè una χ-quadrato
con |IX | − 1 gradi di libertà. Il test ci permette di individuare un p-value e quindi una
regione di rifiuto/accettazione per l’ipotesi nulla
H0 : χ2 = 0
(stesse distribuzioni)
(5.5)
che corrisponde all’ipotesi che X descriva bene il fenomeno oggetto di studio. Se
χ2oss = 0 allora fk = pk per ogni k ma se χ2oss > 0 dobbiamo individuare una soglia
(il p-value) al di sotto della quale si possa ancora accettare (con un certo livello di
significatività) l’ipotesi H0 .
È stata già introdotta la tabella di contingenza, in quel caso si voleva studiare la
dipendenza di due variabili osservate. Se si considera
χ2oss =
X (fk,s − pk,s )2
pk,s
(k,s)∈I
con distribuzione teorica pk,s = pk ps si sta considerando l’ipotesi
H0 : χ2 = 0
(variabili indipendenti).
(5.6)
Inoltre, bisogna notare che le osservazioni riguardano un fenomeno in cui X e Y (e
quindi la variabile doppia (X, Y ) con frequenze fk,s , (k, s) ∈ I = IX × IY ) rappresentano due caratteristiche di tale fenomeno. Allora l’ipotesi nulla da verificare è se le
due caratteristiche sono indipendenti o meno.
Test di Kolmogorov-Smirnov. Sia X ∼ fX e Xi ∼ X v.a. i.i.d. con i = 1, 2, . . . , n.
Definiamo la funzione di ripartizione empirica
n
1X
Fn (x) =
1(−∞,x] (Xi ).
n k=1
Il test prevede l’utilizzo della distanza
Dn = kFn − FX k∞ = sup |Fn (x) − FX (x)|.
x
q.c.
Dal teorema di Glivenko-Cantelli, Dn → 0, soddisfa cioè la legge forte dei grandi
numeri. In maniera analoga a quanto accade per la v.a. media campionaria, si ha che
q.c.
Fn (x) → E1(−∞,x] (X) = FX (x),
x ∈ R.
Capitolo 5.
Inferenza statistica
167
Inoltre, fissato x, notiamo che
EFn (x) = FX (x),
e V ar(Fn (x)) =
1
FX (x) (1 − FX (x))
n
ed in particolare Fn (x) ∼ Bin(n, FX (x)). Dal teorema del limite centrale si ottiene
che
√ d
Un (x) = (Fn (x) − FX (x)) n → N 0, FX (x) (1 − FX (x)) .
5.3
Stima in presenza di parametri di disturbo
Ci troviamo nel caso in cui oggetto di stima è il parametro λ = g(θ) e g(·) non ammette
la funzione inversa oppure nel caso in cui θ = (λ, µ) e µ è un parametro di disturbo
per l’inferenza su λ. Il problema quindi nasce quando si ha un esperimento del tipo
e = {X , Pθ , θ ∈ Θ}
in cui, poniamoci nel caso piú comune, θ = (λ, µ) ed oggetto di interesse è il parametro
( di interesse ) λ, allora se possiamo individuare una funzione h(·) per cui µ = h(λ)
allora possiamo anche scrivere θ = (λ, h(λ)) ed ottenere nella formalizzazione quello
che si dice ”eliminazione del parametro di disturbo”, altrimenti possiamo comunque
scegliere h(·) liberamente e con lo stesso obbiettivo, quello dell’eliminazione di µ, nel
seguito consideriamo due varianti di h, h1 ed h2 allo stesso scopo. Diamo allora la
seguente
Definizione 49. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono
parametri complementari se si ha una corrispondenza biunivoca tra gli insiemi Θ
e Θ0 = {(λ, µ) : λ = h1 (θ), µ = h2 (θ), θ ∈ Θ}.
Potremmo anche scrivere Θ0 = Λθ × Mθ , θ ∈ Θ in cui ovviamente Λθ = {λ :
λ = h1 (θ)} e Mθ = {µ : µ = h2 (θ)}. Inoltre
Definizione 50. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono parametri a variazione indipendente se si ha una corrispondenza biunivoca tra gli insiemi
Θ e Θ0 = Λ × M dove Λ = {λ : λ = h1 (θ), θ ∈ Θ} e M = {µ : µ = h2 (θ), θ ∈ Θ}.
L-indipendenza
Diamo la seguente
168
Definizione 51. Dato l’esperimento e, i parametri complementari λ e µ si dicono
L-indipendenti se esistono due funzioni l1 ed l2 tali che, per ogni x ∈ X sia
l(λ, µ; x) = l1 (λ; x)l2 (µ; x).
Si presenta quindi come una caratteristica strettamente legata alla verosimiglianza
( Lik-indipendenza ) ed è piuttosto estrema, si può verificare sostanzialmente nel caso
si considerino due esperimenti distinti o nel caso i parametri si riferiscano ad aspetti
essenzialmente differenti.
Profilo della verosimiglianza
Dato l’esperimento e, tale procedura consiste essenzialmente nel calcolare, fissato x ∈
X , la verosimiglianza lmax per ogni λ ∈ Λ massimizzando ogni volta rispetto a µ ∈ M ,
la soluzione sarà ovviamente data da λ per cui lmax è massima. Scriviamo
l(λ̂; x) = sup{lmax (λ)}
λ∈Λ
dove
lmax (λ) = max{l(λ, µ; x)},
µ∈M
λ ∈ Λ.
Esperimenti marginali
Abbiamo un esperimento marginale quando si considera come risultato dell’esperimento non x0 ∈ X ma h0 = h(x0 ) ∈ H.
Definizione 52. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→
H ⊆ Rm con 1 ≤ m ≤ n, allora si chiama esperimento marginale basato su h
l’esperimento
eh = {H, Pθh , θ ∈ Θ}
dove Pθh è la legge di probabilità indotta su H da Pθ e la funzione di verosimiglianza
associata a (eh , h0 ) è detta verosimiglianza marginale.
La verosimiglianza e la verosimiglianza marginale sono in generale diverse a meno
che h non sia sufficiente per θ, la marginalizzazione allora comporta in generale una
perdita di informazione. La statistica h ha qui il compito di generare una verosimiglianza ( quella marginale ) che dipende dal solo parametro di interesse, caso in cui si
dice che h è orientata a λ ( λ = g(θ) ad esempio ).
Capitolo 5.
Inferenza statistica
169
Esperimenti condizionati
Definizione 53. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→ H ⊆
Rm , si chiama esperimento condizionato ad h l’esperimento aleatorio
eh = {X , Pθ,h , θ ∈ Θ}
dove Pθ,h è la legge di probabilità su X calcolata per θ fissato e condizionatamente al valore h0 = h(x0 ). La funzione di verosimiglianza sarà detta verosimiglianza
condizionata.
5.4
Inferenza su particolari parametri
Diamo ora alcuni esempi sulla verifica di ipotesi in casi particolari di stima, si adotterà
sempre la regola αoss ≷ α dove αoss come sappiamo è dato dal percentile calcolato
in base ai risultati campionari ed α è il livello di significatività dato al test di ipotesi,
considereremo qui solo la individuazione dell’ αoss e della distribuzione della v.a. in
questione quindi si parlerà della sola ipotesi di base lasciando al lettore la costruzione
vera e propria del test anche in relazione alla ipotesi alternativa. Dove non specificato
si assumerà inoltre che X ∼ N (µ, σ 2 ) ed otteniamo:
1. H0 : µ = µ0 e σ 2 nota
µ̂ = x̄
X̄ ∼ N (µ, σ 2 /n)
X̄−µ0 √
n ∼ N (0, 1) sotto H0
σ
√
x̄oss −µ0
n = zαoss
σ
2. H0 : µ = µ0 e σ 2 non è nota
µ̂ = x̄
X̄ ∼ N (µ, σ 2 /n)
σ̂ 2 = s2 , varianza campionaria corretta
(n−1)s2
σ2
∼ χ2(n−1)
X̄−µ0 √
n ∼ t(n−1)
s
√
x̄oss −µ0
n = t(n−1), oss
s
170
0.0
0.1
0.2
0.3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−3
−2
−1
0
1
2
3
Figura 5.1: La densità in grassetto è di Student mentre l’altra è normale.
Per entrambe le situazioni viste sopra possiamo generalizzare alla normale se la
numerosità del campione e grande, otteniamo che zα < t(n),α e per n sempre
maggiore t(n),α → zα (o meglio t(n) → N (0, 1) per n → ∞) quindi passare
alla normale equivale a restringere la regione di accettazione del test se n non è
sufficientemente grande.
3. H0 : µ1 = µ2 , varianze note. Esistono due popolazioni X1 ed X2 , entrambe
supposte normali e due campioni x1 e x2 osservati per cui
X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 )
µ̂1 = x̄1 e µ̂2 = x̄2
X̄1 −µ1 √
n1 ∼ N (0, 1) e
σ1
√
X̄1 −X̄2
σ12 /n1 +σ22 /n2
X̄2 −µ2 √
n2
σ2
∼ N (0, 1)
∼ N (0, 1) sotto H0
x̄1, oss −x̄2, oss
√
= zoss
2
2
σ1 /n1 +σ2 /n2
4. H0 : µ1 = µ2 , varianze non note. Verifichiamo innanzitutto se le due varianze
possono considerarsi uguali oppure no. Supponiamo che σ12 = σ22 = σ 2 allora
σ̂ 2 =
(n1 − 1)s21 + (n2 − 1)s22
n1 + n2 − 2
e possiamo verificare H0 : σ12 = σ12 = σ 2 considerando
F(n1 −1), (n2 −1) =
s21
(n1 − 1)s21 (n2 − 1)σ 2
=
(n1 − 1)σ 2 (n2 − 1)s22
s22
che è una Fisher-Snedecor. Supposte allora uguali otteniamo
Capitolo 5.
Inferenza statistica
√X̄1 −X̄2
σ̂
1/n1 +1/n2
x̄1, oss −x̄2, oss
√
σ̂
1/n1 +1/n2
171
∼ t(n1 +n2 −2)
= t(n1 +n2 −2), oss
Se invece le varianza delle due popolazioni non possono considerarsi uguali
sorgono non pochi problemi, la distribuzione della variabile che si verrebbe a
considerare è
X̄ − X̄2
q 12
s1
s22
+
n1
n2
che è detta di Behrens-Fisher.
Avendo considerato la sola ipotesi nulla è il caso di notare che l’aggiunta di un ipotesi alternativa composta comporta le valutazioni operative che ora andiamo a vedere.
Si è sempre arrivati a considerare una v.a. standardizzata, diciamo Q con una sua
distribuzione, si è inoltre individuato un percentile in base al quale discriminare in relazione all ’ipotesi nulla, diciamo qα al livello di significatività α. Essendo l’ipotesi
nulla semplice e del tipo (o riconducibile a) θ = θ0 e non essendo sempre simmetrica la distribuzione in esame (o a valori tutti positivi dei percentili) ci avvaliamo di
un percentile di riferimento, quello modale che indichiamo con qM (ovviamente se la
distribuzione fosse discreta si avrebbe Q(qM ) = max). Diciamo che in generale si
avranno le seguenti situazioni
a) H1 : θ > θ0 , allora si ha un solo percentile di riferimento qα > qM per cui 1 −
Q(qα ) = α,
b) H1 : θ < θ0 , allora si ha ancora un unico percentile qα < qM e per cui Q(qα ) = α,
c) H1 : θ 6= θ0 , in questo caso abbiamo due percentili q1, α/2 < qM e q2, α/2 > qM tale
che Q(q1, α/2 ) = α/2 e 1 − Q(q2, α/2 ) = α/2 quindi, ovviamente, Q(q2, α/2 ) −
Q(q1, α/2 ) = 1 − α e rappresenta l’area sottesa alla curva di probabilità relativa
alla regione di accettazione.
Si è sempre considerato ovviamente che la distribuzione Q fosse del tipo Q|H0 , il caso
in cui Q|H1 dovrà essere considerato al fine di investigare sulla potenza del test.
Esercizio 113. Dato il campione x ∈ Rn con x̄ = 4/5 e n = 30, verificare l’ipotesi
che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di
significatività α = 0.05.
Esercizio 114. Dato il campione x ∈ Rn con x̄ = 3/5 e n = 30, verificare l’ipotesi
che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di
significatività α = 0.05.
172
5.5
Logiche inferenziali
Il principio della verosimiglianza
La funzione di verosimiglianza nasce dal presupposto che un evento verificatosi può
considerarsi l’evento con la probabilità maggiore di verificarsi ed infatti massimizziamo tale funzione. Il principio di base quindi è sviluppato attorno alla realizzazione o
all’evento realizzato, al risultato della prova o come diremo nel capitolo che segue al
risultato dell’esperimento
Definizione 54. Principio della verosimiglianza. Siano dati due esperimenti e0 ed e00
in cui l’ipotesi vera sia la stessa. Se per due risultati x0 e x00 le corrispondenti funzioni
di verosimiglianza l0 e l00 soddisfano la condizione di equivalenza
l0 (θ) = c · l00 (θ)
θ∈Θ
dove c può dipendere dai risultati campionari ma non da θ, allora gli esperimenti
(e0 , x0 ) ed (e00 , x00 ) forniscono la stessa informazione riguardo alle ipotesi. In altre
parole le due funzioni di verosimiglianza sono equivalenti (equivalenza in verosimiglianza) per il parametro θ.
Il principio del campionamento ripetuto
Il principio del campionamento ripetuto si pone in modo diverso da quello della verosimiglianza in quanto il risultato ottenuto assume qui importanza solo dopo che si
siano considerati tutti i risultati possibili o meglio la procedura statistica che meglio si
adatta a tali risultati. Per procedura intendiamo ad esempio una statistica e per miglior
adattamento ai dati intendiamo, ad esempio, miglior prestazioni della statistica:
Definizione 55. Principio del campionamento ripetuto. Le procedure statistiche devono essere valutate per il loro comportamento in ripetizioni ipotetiche dell’esperimento che si suppongono eseguite sempre nelle stesse condizioni.
Nei problemi di stima parametrica diciamo quindi che il risultato campionario
si rende utile non appena si sappia individuare nello scenario d’analisi una statistica che sia non distorta e di varianza minima, potremmo poi desiderare ancora delle
altre proprietà.
Esercizio 115.
1. Sia x = (1, 4, 1, 5, 2, 2, 3, 9) un campione proveniente da una
popolazione P (supposta) Esponenziale di parametro λ. Determinare lo stimatore λ̂M con il metodo dei momenti e λ̂M V di massima verosimiglianza.
Capitolo 5.
Inferenza statistica
173
2. Sia P una popolazione normale di media µ e varianza σ 2 = 1. Determinare
la numerosità campionaria n per cui stimando la media si commette un errore
minore con probabilità P (|X̄ − µ| < ) > 86%.
Esercizio 116. Sia P una popolazione in cui il fenomeno oggetto di studio X ha densità normale di media µX e varianza σ 2 = 1. Si supponga inoltre di conoscere la
relazione Y = aX in cui a > 0 ed Y è una seconda variabile di interesse. Dato il
campione
x = (x1 , . . . , xn )
a) si trovi una stima di massima verosimiglianza per la media µY di Y
b) si trovi una stima della media µY di Y con il metodo dei momenti
c) si trovi il minimo n tale per cui con probabilità maggiore del 95% si commette
un errore minore di nella stima della media di Y (si consideri |Ȳ − µY | < ).
Esercizio 117.
1. Sia x = (1, 4, −1, 5, 2, −2, −3, 9) un campione proveniente da
una popolazione P (supposta) di Poisson di parametro λ. Determinare lo stimatore λ̂M con il metodo dei momenti.
2. Sia x = (x1 , . . . , xn ) un campione proveniente da una P con legge
f (xi ; θ, λ) = κ θxi e−λxi 1(0,∞) (xi ),
0 < θ < eλ , λ > 0,
– determinare κ,
– determinare lo stimatore θ̂M V di MV per θ se λ = log
√
θ.
i = 1, 2, . . .
174
Capitolo 6
I modelli lineari
6.1
Il modello lineare generale
Il modello lineare o qualunque modello linearizzabile assume la forma matriciale
Y = Xβ + dove X ∈ Rn×k+1 e la prima colonna è costituita dal vettore unità, i vettori Y, ∈ Rn
e il secondo è costituito da componenti aleatorie, β ∈ Rk+1 è il vettore dei coefficienti
da stimare, le assunzioni di base che si fanno sono
1. E[] = 0,
2. Σ = E[t ] = σ2 In
dette anche ipotesi interne e determinano appunto il modello lineare generale (MLG).
Tale modello prende il nome di modello lineare normale se in aggiunta a tali ipotesi si
assume
∼ M N (0, Σ ).
Bisogna notare che in generale tra le Y e le X (qui intendiamo X = {X1 , X2 , . . .}
variabili osservate) si ipotizza una relazione del tipo
Y = f (X) + in cui è comunque un termine residuale aleatorio mentre la forma della f (·) dipenderà
dalla natura delle X, sia per quanto riguarda la linearizzabilità che la trasformazione
necessaria nel caso si passi da variabili a mutabili (vedi modelli anova ad esempio). In
breve si otterrà
E[Y|X] = f (X) = Aβ
dove A è una matrice strutturale del modello e β è ancora un vettore dei coefficienti,
entrambi saranno individuati diversamente nei tre casi in cui
175
176
• le X sono tutte quantitative ⇒ si ha un modello di regressione,
• le X sono tutte qualitative ⇒ si ha un modello di analisi della varianza,
• le X sono in parte quantitative ed in parte qualitative ⇒ si ha un modello di analisi
della covarianza
e Y è una variabile quantitativa continua o discreta, l’obbiettivo dell’analisi è quello
di studiare la dipendenza tra la variabile dipendente Y e le variabili esplicative X.
6.2
Stima dei parametri
Stima dei minimi quadrati
Il modello da identificare è il MLG (a rango pieno, detto così per questioni chiarite
sotto) quindi senza assunzioni sulla forma distributiva di , le stime sono date da
Ŷ = Xβ̂
e l’idea è quella di minimizzare la forma quadratica
M Q(β̂) = (Y − Xβ̂)t (Y − Xβ̂) = et e.
La soluzione è data dal vettore
β̂ = (Xt X)−1 Xt Y.
Teorema 42. (Gauss-Markov). Sotto le ipotesi interne 1. e 2. sopra specificate per v.a. qualunque si ha che β̂ è l’unica stima lineare non distorta di β di varianza minima
nella classe degli stimatori lineari non distorti.
Osserviamo che affinché esista l’inversa (Xt X)−1 deve essere det(Xt X) 6= 0, deve essere cioè rango(Xt X) = k + 1 (rango pieno). Una tale condizione è verificata se
non ci sono colonne di X correlate tra loro (per cui quindi ρ2 ' 1, massima correlazione) cosa che risulta anche scomoda sul piano logico visto che una forte correlazione
tra due variabili indurrebbe ad escludere dal modello una di esse (essendo di pari informazione) stando però di fatto molto attenti agli effetti finali. La stima della varianza
di è data dalla formula
σ̂2 =
1
et e
(Y − Xβ̂)t (Y − Xβ̂) =
.
n−k−1
n−k−1
Elenchiamo alcune proprietà:
Capitolo 6.
I modelli lineari
177
1. gli stimatori dei MQ β̂ e σ̂2 sono corretti,
2. lo stimatore dei MQ β̂ ha varianza uniformemente minima nella classe degli
stimatori lineari di β,
3. la varianza dello stimatore è σβ̂2 = σ 2 (Xt X)−1 ,
4. si ha il vettore dei residui e = [In − X(Xt X)−1 Xt ] ed inoltre
- E[e] = 0
- E[et e] = σ 2 (n − k − 1)
5. si ha σ 2 = σY2 = σ2 .
Riguardo alle proprietà appena elencate osserviamo soltato che
E β̂ =E[(Xt X)−1 Xt Y]
=E[(Xt X)−1 Xt (Xβ + )]
=E[(Xt X)−1 Xt Xβ] + E[(Xt X)−1 Xt ]
=E[β] + (Xt X)−1 Xt E[]
=β,
σβ̂2 =E[(β̂ − β)(β̂ − β)t ]
h
i
t
−1 t
t
−1 t t
=E (X X) X (X X) X = (Xt X)−1 Xt E[t ] X(Xt X)−1
=σ 2 (Xt X)−1
dove si è usato il fatto che E[t ] = σ 2 In .
Notiamo che e rappresenta l’errore osservato mentre è una v.a. che rappresenta
il modello non deterministico (possiamo dire che e è una possibile realizzazione del
vettore aleatorio ).
Stima di massima verosimiglianza
Sappiamo che gli stimatori di massima verosimiglianza possono non essere corretti o
unici comunque risultano legati attraverso la sufficienza a molte proprietà importanti
tanto da poter dire che se esiste uno stimatore corretto ed efficiente, allora è di massima
verosimiglianza. Resta poi aperta la questione riguardante la forma distributiva dei
dati (o meglio degli errori) dalla quale non si può prescindere nella verosimiglianza
178
come invece avviene nei minimi quadrati, in generale le due stime coincidono ma
assumendo che gli errori si distribuiscano normalmente otteniamo che le stime dei
minimi quadrati non saranno piú non distorti di varianza minima (corretti ed efficienti)
nella classe degli stimatori (corretti) lineari ma nella classe di tutte le stime possibili.
Notiamo che lo stimatore di massima verosimiglianza
σ̃2 =
1
(Y − Xβ̂)t (Y − Xβ̂)
n
non è corretto mentre lo è β̃ che coincide con lo stimatore dei MQ ( β̃ = β̂ ), scriviamo
allora
n
σ̃ 2
σ̂2 =
n−k−1 e lo stimatore corretto coincide con lo stimatore dei MQ. Elenchiamo i seguenti fatti:
1. β̂ e σ̂2 sono corretti,
2. β̂ e σ̂2 sono congiuntamente sufficienti per β e σ2 quindi sono di varianza
uniformemente minima nella classe degli stimatori di β e σ2 ,
3. β̂ ∼ M N (β, σ2 (Xt X)−1 ),
4.
(n−k−1)σ̂2
σ2
∼ χ2(n−k−1) ,
5. β̂ e σ̂2 sono stocasticamente indipendenti.
Ricordiamo che parleremo di modello lineare normale nel caso la forma distributiva
di sia nota e Normale mentre parleremo di modello lineare generale quando non
si fanno assunzioni sulla forma distributiva della tranne quelle fatte nel teorema di
Gauss-Markov.
6.3
Il caso di una variabile esplicativa
Sia osservato un campione del tipo (y, x) con y, x ∈ Rn , il modello lineare (detto
modello lineare semplice) sia
yi = β0 + β1 xi + i
con i ∼ N (0, σ2 ) ∀i ∈ {1, . . . , n}. Le stime dei coefficienti lineari sono date da
β̂0 = ȳ − β̂1 x̄,
β̂1 =
σ
bXY
,
2
σ
bX
Capitolo 6.
I modelli lineari
179
e sono le stesse sia con il metodo dei MQ che con la MV; inoltre sono corretti. Si
ottiene poi
P 2
xi
2
2
σβ0 = σ P
n (xi − x̄)2
σ2
σβ21 = P n (xi − x̄)2
dalla matrice della varianza (o delle covarianze)
E β̂02 E β̂0 β̂1
2
t
−1
σ (X X) =
.
E β̂1 β̂0 E β̂12
Esercizio 118. Dimostrare che βb = (βb0 , βb1 ) è uno stimatore MQ .
Uno stimatore corretto della varianza σ2 è dato da
P
(yi − ŷi )2
2
σ̂ =
n−2
2
ed infine, ricordando che i ∼ N (0, σ ), si ha
β̂0 ∼ N (β0 , σβ20 )
β̂1 ∼ N (β1 , σβ21 )
(n − 2)σ̂2
∼ χ2(n−2)
σ2
se σ2 è nota quindi possiamo dire che la standardizzazione dei coefficienti porta alla
distribuzione N (0, 1) altrimenti si ha
β̂0 − β0
∼ t(n−2)
σ̂β0
β̂1 − β0
∼ t(n−2) .
σ̂β0
Tornando alla formulazione matriciale scriviamo
σβ̂2 = σ2 (Xt X)−1
β̂j ∼ N (βj , σ2 [(Xt X−1 )]j+1,j+1 )
La devianza totale campionaria (DT) può essere così decomposta
n
X
i=1
2
(yi − ȳ) =
n
X
i=1
2
(ŷi − ȳ) +
n
X
(yi − ŷi )2
i=1
i cui addendi a secondo membro corrispondono rispettivamente alla DR (devianza di
regressione) e alla DE (devianza dell’errore), quindi
180
DT = DR + DE
ed è possibile esplicitare una misura della bontà di adattamento del modello attraverso
il coefficiente di determinazione così definito
R2 =
DR
DE
=1−
.
DT
DT
Si vede subito che:
1. 0 ≤ R2 ≤ 1,
2. R2 = 1 ⇒ DE = 0: tutte le yi giacciono sulla retta di regressione,
3. R2 = 0: non vi è relazione lineare tra x e y,
4. tanto più R2 → 1, tanto più l’accostamento è migliore,
5. R2 è il quadrato del coefficiente di Bravais-Pearson.
6.4
Modelli lineari generalizzati
Sia dato il campione {(yi , xi ), i = 1, 2, . . . , n} in cui yi ∈ R e xi ∈ Rn , allora il
modello postula l’uguaglianza
E[Yi |Xi ] = µi
ed in generale µi non potrà essere ritenuta lineare. Al fine di ottenere una relazione
lineare interveniamo su µi attraverso la riparametrizzazione indotta da una funzione
link g(·) che ammette la funzione inversa
g(µi ) = xti β
e
µi = g −1 (xti β),
al variare di tale funzione otterremo modelli diversi, lineari generalizzati. Alcuni
esempi sono dati dalle seguenti funzioni:
1. funzione identità: g(µi ) = µi ,
E[Yi |Xi ] = xti β
ed è il caso del modello lineare generale,
2. funzione logit: g(µi ) = logit(µi ),
exp{xti β}
E[Yi |Xi ] =
1 + exp{xti β}
Capitolo 6.
I modelli lineari
181
dove la funzione link è data da
logit(µi ) = ln
µi
1 − µi
ed è il caso del modello logistico lineare,
3. funzione logaritmo: g(µi ) = ln(µi ),
E[Yi |Xi ] = exp{xti β}
ed otteniamo un modello loglineare.
Il modello logistico lineare
A differenza del modello lineare classico nel quale si studia la dipendenza di una variabile quantitativa da un insieme di variabili quantitative e/o qualitative, il modello
logistico lineare costituisce uno strumento utile per lo studio della dipendenza tra una
variabile qualitativa e un insieme di variabili quantitative e/o qualitative. La variabile
dipendente non è più quantitativa ma qualitativa, può essere dicotomica o no.
Assumiamo che la variabile di interesse sia Bernoulliana quindi di tipo dicotomico ed
in particolare dato il campione x di dimensione n si ha
P (Y = 1|X = x) = π(x)
mentre il rapporto odds è dato da
odds(x) =
P (Y = 1|X = x)
π(x)
=
.
P (Y = 0|X = x))
1 − π(x)
Considerata la probabilità
π(x) =
exp(β0 + β1 x1 + β2 x2 + . . . + βk xk )
1 + exp(β0 + β1 x1 + β2 x2 + . . . + βk xk )
si ottiene
odds(x) = exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ),
il modello logit, ossia il logaritmo dell’odds, diventa allora una funzione lineare
logit(x) = ln odds(x) = β0 + β1 x1 + β2 x2 + . . . + βk xk
e possiamo dire che βj rappresenta l’influenza della variabile Xj finalizzato ad ottenere
Y = 1.
182
è evidente ora che se P (Y = y) = θy (1 − θ)1−y ( quindi se Y è Bernoulliana ) si ha
E[Y ] = θ e se Y = {Y1 , . . . , Yn } e θ = {θ1 , . . . , θn } si ha
P (Y|θ) =
n
Y
θiYi (1 − θi )1−Yi
i=1
e molto importante
V ar(Yi ) = θi (1 − θi )
quindi non si possono fare le assunzioni di omoschedasticità. La riparametrizzazione
che adottiamo è la seguente
E[Yi ] = θi = π(xi ),
i = 1, . . . , n
e
θi
logit(θi ) = ln
1 − θi
= logit(xi )
π(xi )
= ln
1 − π(xi )
= β0 + β1 xi1 + β2 xi2 + . . . + βk xik
= xti β
Capitolo 7
Distribuzioni di probabilità elementari
7.1
Variabili discrete -
Ricordiamo che una v.a. discreta X è caratterizzata dalla coppia
(xk , pk ), k ∈ IX
dove, per comodità, spesso potremo scrivere xk = k per ogni k in un opportuno
insieme di indici ottenuto da IX .
Uniforme. Sia X ∼ U nif ({1, 2, . . . , n}) con n ∈ N. La distribuzione di probabilità
della v.a. X è
pk = P (X = k) =
1
,
n
k ∈ IX = {1, 2, . . . , n}.
(7.1)
Si vede subito che
1. pk ≥ 0,
Pn 1
n
2.
k=1 n = n .
La funzione di ripartizione è data da

0, x < 1


X

x
pk = , x ∈ [1, n]
FX (x) =
n


 {k≥1 : k≤x}
1, x ≥ n
Esercizio 119. Siano X ∼ U nif ({1, 2, 3, 4}) e Y ∼ U nif ({1, 2}) e X ⊥ Y .
Calcolare la f.r. FZ della v.a. Z = X + Y .
183
184
Esercizio 120. Calcolare la funzione caratteristica di X.
Osservazione 41. Sia X ∼ U nif (0, n). Osserviamo che
µ] ({1, 2, n − 1})
|{1, 2, n − 1}|
=
n
n
cioè numero di casi favorevoli su numero di casi possibili.
P (X ∈ {1, 2, n − 1}) =
Zeta o Zipf. Se X ∼ Zipf , si definisce la successione
pk = P (X = k) =
C
k α+1
,
k≥1
detta anche legge di Zipf (vedi Zipf, Mandelbrot e Shannon), strettamente legata alla
funzione Zeta di Riemann.
Esercizio 121. Determinare C.
Esercizio 122. Determinare P (X > 4).
Esercizio 123. Calcolare la funzione caratteristica di X.
Geometrica. Sia X ∼ Geo(p) con p ∈ [0, 1]. La distribuzione delle probabilità di
X è data da
pk = P (X = k) = (1 − p)k−1 p,
k ∈ IX = {1, 2, . . .} = N.
La v.a. X rappresenta la probabilità di avere il primo successo esattamente alla kesima prova, cioè dopo k − 1 insuccessi (con prove indipendenti). Ogni insuccesso
ha probabilità (1 − p) di verificarsi. Se indichiamo con S il successo, P (S) = p e
ovviamente P (S̄) = 1 − p. Allora,
(X = k) ="primo successo alla k-esima prova" = S̄
{z· · · ∩ S̄} ∩S
| ∩ S̄ ∩
k−1 volte
ed essendo le prove indipendenti,
k−1
P (X = k) = P (S̄) · · · P (S̄) ·P (S) = P (S̄)
· P (S) = (1 − p)k−1 p.
|
{z
}
k−1 volte
Possiamo quindi associare alla distribuzione di probabilità Geometrica la v.a.
X = "istante di primo successo"
se P (S) = p
oppure la v.a.
X = "istante di primo insuccesso"
se P (S̄) = p.
Verifichiamo che pk sia effettivamente una distribuzione di probabilità. Dobbiamo
verificare
Capitolo 7.
Distribuzioni di probabilità elementari
185
1. (1 − p)k−1 p ≥ 0 infatti 0 ≤ p ≤ 1,
2.
X
pk =p
k≥1
∞
X
(1 − p)k−1
k=1
=p
∞
X
(1 − p)s
(si è posto s = k − 1)
s=0
=p
1
=1
1 − (1 − p)
(somma notevole di una serie geometrica).
Si vede che
EX =p
∞
X
kq k−1
k=1
∞
X
d k
=p
q
dq
k=1
(q = 1 − p)
∞
d X k
=p
q
dq k=1
(derivazione per serie)
d
=p
dq
∞
X
!
qk − 1
k=0
d
1
1
=p
−1 = .
dq 1 − q
p
Esercizio 124. Calcolare V ar(X) se X ∼ Geo(p) definita sopra.
La funzione di ripartizione è data da
FX (x) =



X
0, x < 1
pk , x ≥ 1
{k≥1 : k≤x}
Esercizio 125. Siano X1 ∼ Geo(θ1 ) e X2 ∼ Geo(θ2 ) due v.a. indipendenti. Caratterizzare Z = X1 + X2 .
Esercizio 126. Calcolare la funzione caratteristica di X.
186
Bernoulli e Binomiale. Sia X ∼ Ber(θ) con parametro θ ∈ [0, 1] una v.a. di
Bernoulli o Bernoulliana. Allora, la distribuzione di Bernoulli è data da
P (X = x) = θx (1 − θ)1−x ,
x ∈ {0, 1}.
Notiamo che X è dicotomica, può assumere solo due valori con probabilità P (X =
1) = θ e P (X = 0) = 1 − θ. Quindi, se scegliamo IX = {1, 2} potremmo scrivere
x1 = 0 e x2 = 1 con le rispettive probabilità. Otteniamo
EX = θ,
2
σX
= M2 − M12 = θ(1 − θ).
Se il campione x ∈ {0, 1}n è dato da n osservazioni su v.a. Bernulliane indipendenti,
diciamo {Xi }i=1,...,n , otteniamo (grazie all’indipendenza delle v.a.)
P (X1 = x1 , . . . , Xn = xn ) = θ
Pn
i=1
xi
Pn
(1 − θ)n−
i=1
xi
e se volessimo che esattamente k tra di loro rappresentino un successo (Xi = 1)
n
X
n
P
Xi = k =
P (X1 = x1 , . . . , Xn = xn ), 0 ≤ k ≤ n
k
i=1
ovvero, per le probabilità totali, basta che si osservi uno degli
n
n!
=
k!(n − k)!
k
campioni in cui k su n osservazioni sono dei successi, ognuno ovviamente con probabilità P (X1 = x1 , . . . , Xn = xn ). Chiamiamo K la v.a.
K=
n
X
Xi ∼ Bin(n, θ)
i=1
che è una Binomiale di parametri n e θ dove le Xi ∼ Ber(θ) sono indipendenti (le Xi
sono i.i.d.). Otteniamo
EK =
n
X
E[Xi ] = nθ,
V ar(K) =
i=1
n
X
2
σX
= nθ(1 − θ)
i
i=1
ed ovviamente per ogni Xi vale Xi ∼ Bin(1, θ).
Si può considerare una v.a. Q costruita a partire da Q =
EQ =
EK
= θ = q,
n
V ar(Q) =
K
n
e per cui
1 2 θ(1 − θ)
q(1 − q)
σ
=
=
.
k
n2
n
n
Capitolo 7.
Distribuzioni di probabilità elementari
187
Se K rappresenta il numero di successi in n prove indipendenti, allora Q rappresenta
la frequenza dei successi (ed è una v.a.).
Concludiamo ricordando che se X ∼ Bin(n, p) con p ∈ [0, 1] e n ∈ N, allora
n k
pk = P (X = k) =
p (1 − p)n−k , k ∈ IX = {s ∈ N ∪ {0} : s ≤ n} (7.2)
k
e la distribuzione Binomiale può essere associata alla v.a.
X = "numero di successi in n prove "
se P (Successo) = p.
Si vede subito che
1. pk ≥ 0,
Pn
2.
k=0 pk = 1.
Per verificare la somma ad uno si è usata una somma notevole, la formula del binomio
di Newton
n X
n k n−k
a b
= (a + b)n .
k
k=0
La funzione di ripartizione è data da

0, x < 0


X

pk , 0 ≤ x ≤ n
FX (x) =

0≤k≤n
:
k≤x


1, x ≥ n
Osservazione 42. Lo schema detto Bernoulliano è uno schema in cui si prevedono
prove (esperimenti, lanci, estrazioni, selezioni o campionamenti) indipendenti.
Esempio 34. Se un determinato pezzo prodotto da un macchinario è difettoso con
probabilità p = 0.03, come possiamo determinare la probabilità che una scatola di 10
pezzi ne contenga esattamente k difettosi con k ∈ N ∪ {0}.
Si deve considerare
" numero di pezzi difettosi in una scatola" = X ∼ Bin(10, 0.03)
quindi, segue che
  10
(0.03)k (0.97)n−k , k ∈ IX = {0, 1, 2, . . . , 10}
P (X = k) =
k

0,
k∈
/ IX .
Esercizio 127. Dimostrare che la Binomiale è chiusa rispetto alla somma. Cioè, se
X1 ∼ Bin(n, p) e X2 ∼ Bin(m, p), allora X1 + X2 ∼ Bin(n + m, p).
Esercizio 128. Calcolare la funzione caratteristica di X.
188
Multinomiale. Sia X ∼ M N om({pi }) dove le pi , i = 1, 2, . . . , n sono probabilità.
Allora, dato il vettore x = (x1 , x2 , . . . , xn ) con xi ∈ {0, 1, . . . , N } per ogni i =
1, 2, . . . , n, si ha


0, xi < 0 per qualche i


Pn
N!
x1
FX (x) =
p1 · · · pxnn ,
i=1 xi = N

x ! · · · xn !

 1
1, x ≥ N per ogni i
i
La Multinomiale generalizza la Binomiale (potremmo dire che una Binomiale a
più alternative) e l’evento che si vuole considerare prevede la realizzazione di xi volte
la caratteristica i-esima per ottenere N caratteristiche totali su n prove totali. Nello
schema Binomiale si avevano k e n − k realizzazioni delle caratteristiche "successo"
ed "insuccesso" su un totale di n prove. Si pensi ad un vettore
V = (](X1 ), ](X2 ), . . . , ](Xn ))
in cui le variabili Xi sono i.i.d. dove ](Xi ) ="il numero di volte che si è verificato Xi "
e la v.a Xi si verifica con probabilità pi . L’evento (](Xi ) = xi ) = "Xi si verifica xi
volte" ha probabilità pxi i di verificarsi (oppure P (](Xi ) = k) = pki ). La probabilità di
ottenere la n-upla x = (x1 , x2 , . . . , xn ), vista l’indipendenza, è data dal prodotto
P (V = x) =
n
Y
pxi i .
i=1
Di tutte le n-upla che si possono ottenere, vogliamo tenere solo quelle per cui
N . Allora la v.a. X si può ottenere considerando
dove |V | =
Pn
i=1
xi =
P (X = x) = P (V = x, |V | = N )
Pn
i=1 xi . In quanti modi si può ottenere |V | = N ? In
i=1 ](Xi ) =
Pn
N!
= |PxN1 ,...,xn |
x1 ! · · · xn !
modi, cioè il vettore (xi1 , xi2 , . . . xin ) può permutare in N ! modi mantenendo però lo
stesso numero di ripetizioni per ogni caratteristica xi . Ogni permutazione ha la stessa
probabilità di realizzarsi e quindi
n
P (X = x) = P (V = (x1 , . . . , xn ), |V | = N ) =
Y
N!
pxi = FX (x).
x1 ! · · · xn ! i=1 i
Nel caso n = 2, si ha che N = x1 + x2 e 1 = p1 + p2 , quindi
N ! x1 x2
N x1
P (X = x) =
p1 p2 =
p (1 − p1 )N −x1 = P (V1 = x1 , V2 = N − x1 )
x1 !x2 !
x1 1
con x1 ∈ {0, 1, . . . , N }. Quindi P (X = x) = P (Bin(N, p1 ) = x1 ).
Capitolo 7.
Distribuzioni di probabilità elementari
189
Ipergeometrica. Sia X ∼ Iperg(M1 , M2 )
M1 M2
m1
m2
M1 +M2
m1 +m2
pm1 ,m2 =
cioè la probabilità di estrarre (ad esempio da una scatola) un gruppo di m1 +m2 oggetti
prendendone m1 dal gruppo di M1 ed m2 dal gruppo di M2 . Possiamo semplificare
scrivendo X ∼ Iperg(K, N − K) e
K N −K
pk,n−k =
k
n−k
N
n
= pk .
Esercizio 129. Si consideri X ∼ Iperg(K, N − K). Determinare spet(X).
La v.a. Ipergeometrica viene utilizzata negli schemi di campionamento (o scelta)
in blocco, dove cioè non è previsto il reimbussolamento (schema senza ripetizione).
Inoltre, rappresenta la probabilità di estrarre da un urna in cui sono inseriti oggetti
divisi in gruppi (due in questo caso, n nel caso delle Ipergeometrica a n alternative).
Se in un scatola ci sono K palline rosse e N −K palline nere per un totale di N palline,
allora estraendo n palline a caso,
P (estrarne k rosse) = P (estrarne k rosse e n − k nere) = pk .
Osservazione 43. Lo schema detto in blocco è uno schema in cui le prove (esperimenti,
lanci, estrazioni, selezioni o campionamenti) sono dipendenti.
Nella Ipergeometrica a più alternative si considerano n gruppi di numerosità M =
M1 +M2 +. . .+Mn , di ogni gruppo si vogliono estrarre mi oggetti (con i = 1, 2, . . . , n)
per un totale di m = m1 + m2 + . . . + mn oggetti (la cardinalità degli oggetti estratti,
ad esempio da una scatola). La probabilità di effettuare una simile estrazione è data da
Q n Mi i=1 mi
M
m
che è la densità discreta di una Ipergeometrica a n alternative. Per n = 2 si ottiene
pm1 ,m2 introdotta sopra.
Poisson. Sia X ∼ P ois(λ) con λ > 0. Allora
pk = P (X = k) =
λk −λ
e ,
k!
k ∈ IX = N ∪ {0}.
190
Notiamo che si sta usando la scrittura xk = k con k ∈ IX = N∪{0} per pura comodità,
in generale avremmo scritto
pk = P (X = xk ) =
λxk −λ
e ,
xk !
k ∈ IX = N ∪ {0}.
Verifichiamo che sia una distribuzione di probabilità:
1. pk ≥ 0,
2.
X
−λ
pk =e
k≥0
∞
X
λk
k=0
k!
=1
(espansione di Maclaurin)
Si ottiene
EX =
X
xk p k
k≥0
=e
−λ
∞
X
λk
(k − 1)!
k=1
∞
X
−λ
=λe
k=1
=λe−λ
(per k = 0 il primo addendo è nullo)
λk−1
(k − 1)!
∞
X
λs
s=0
s!
=λ (espansione in serie della funzione esponenziale).
e
V ar(X) = EX 2 − (EX)2 = λ.
Infatti,
2
EX = e
−λ
∞
X
k=0
k
2λ
k
k!
=e
−λ
∞
X
∞
X
λk−1+1
λs+1
−λ
k
(s + 1)
=e
= λEX + λ.
(k − 1)!
s!
s=0
k=1
La funzione di ripartizione è data da


FX (x) =

X
k≥0 : k≤x
0, x < 0
pk , x ≥ 0
Capitolo 7.
Distribuzioni di probabilità elementari
191
Esercizio 130. Dimostrare che una v.a. di Poisson è chiusa rispetto alla somma, che
vale cioè X1 + X2 ∼ P ois(λ1 + λ2 ), se X1 ∼ P ois(λ1 ) e X2 ∼ P ois(λ2 ).
Esercizio 131. Calcolare la funzione caratteristica di X.
La v.a. di Poisson viene anche detta legge degli eventi rari perché, fissato λ, si ha
la convergenza in legge
Bin(n, λ/n) → P ois(λ) per
n→∞
partendo quindi da successi legati alla probabilità p = λ/n che decresce al crescere
delle prove.
7.2
Variabili continue -
Consideriamo alcune distribuzioni di probabilità FX (x) = P (X ≤ x) per le quali
possiamo calcolare la corrispondente legge di densità fX .
Uniforme. Sia X ∼ U nif (a, b) con a < b ed a, b ∈ R. Allora
fX (x) =
1
1[a,b] (x),
b−a
x ∈ R.
Se (a, b) = (0, 1) otteniamo che P (X ≤ x) = µ((a, x]) è la misura di Lebesgue
dell’insieme (a, x] ⊂ (0, 1).
EX =
1 b 2 − a2
a+b
=
b−a 2
2
che è la media aritmetica di a e b,
V ar(X) =
(b − a)2
12

x≤a
 0,
(x − a)/(b − a), a ≤ x ≤ b .
FX (x) =

1,
x≥b
Esercizio 132. Siano X, Y due v.a. U nif (0, 1) i.i.d., caratterizzare Z = X + Y .
Esercizio 133. Una v.a. Uniforme è continua o assolutamente continua?
Esercizio 134. Calcolare la funzione caratteristica di X.
192
Osservazione 44. Siano X1 , X2 due v.a. indipendenti e uniformi in (0, 1), allora X =
(X1 , X2 ) è uniforme in Q = (0, 1) × (0, 1) e scriveremo X ∼ U nif (Q). Se invece
R = (0, a) × (0, b) è un rettangolo con a, b > 0 e X ∼ U nif (R), cioè il vettore X è
uniforme in R, allora
fX (x) = fX1 ,X2 (x1 , x2 ) =
1
1
1R (x1 , x2 ) =
1R (x),
|R|
|R|
x = (x1 , x2 )
dove |R| = area(R) = ab. Si vede subito che
1
1
1
1R (x1 , x2 ) = 1(0,a) (x1 ) · 1(0,b) (x2 ).
|R|
a
b
Inoltre, vale una forma continua di impostazione classica della probabilità , cioè se
X ∼ U nif (R), per ogni A ⊆ R, si ha
P (X ∈ A) =
|A|
.
|R|
Esponenziale. Sia X ∼ Exp(λ) con λ > 0. Allora
fX (x) = λe−λx 1[0,∞) (x),
EX =
1
λ
V ar(X) =
FX (x) =
x ∈ R.
1
λ2
0,
x≤0
−λ x
1−e
, x≥0
λ > 0.
Esercizio 135. Siano X, Y esponenziali di parametro λ > 0 e X ⊥ Y . Calcolare fZ
dove Z = X + Y .
Esercizio 136. Calcolare la funzione caratteristica di X.
Gamma. Sia X ∼ Gamma(λ, ν) con parametri λ, ν > 0. Allora
fX (x) =
λν ν−1 −λx
x e 1[0,∞) (x),
Γ(ν)
x∈R
Capitolo 7.
Distribuzioni di probabilità elementari
dove
193
∞
Z
uz−1 e−u du,
Γ(z) =
z>0
(7.3)
0
è la funzione Gamma. Si ottiene che
EX =
ν
λ
V ar(X) =
FX (x) =
ν
λ2
0,
x≤0
Γ(x, λ, ν), x > 0
dove
Z
Γ(x, λ, ν) =
0
x
λν ν−1 −λu
u e du
Γ(ν)
è la Gamma incompleta.
Esercizio 137. Dimostrare che la Gamma è chiusa rispetto alla somma.
Esercizio 138. Calcolare la funzione caratteristica di X.
Diamo alcune proprietà molto importanti della funzione Gamma:
• (la formula di duplicazione) per m ∈ N, z > 0, si ha che
m
Y
m−1
1
k−1
Γ z+
= (2π) 2 m 2 −mz Γ(mz).
m
k=1
(7.4)
• (la formula di riflessione) per z > 0, si ha che
π
.
sin πz
(7.5)
per z ∈ N,
(7.6)
Γ(z)Γ(1 − z) =
• (la funzione fattoriale) per z > 0, si ha che
Γ(z + 1) = z!,
Γ(z + 1) = zΓ(z),
per z ∈ R.
194
Dalle proprietà del fattoriale,
Γ(1) = Γ(2) = 1.
Inoltre, per m = 2, si ottiene
√
1
4π
Γ(z)Γ z +
= z Γ(2z)
2
4
dalla quale si vede subito che
√
1
Γ
= π,
2
3
1√
Γ
=
π,
2
2
... .
Esercizio 139. Dimostrare che Γ(z) = (z − 1)! se z ∈ N.
Cauchy.
Se X ∼ Cauchy,
fX (x) =
1
,
π(1 + x2 )
x ∈ R.
EX =∞
FX (x) =
1 1
+ arctan(x),
2 π
x ∈ R.
Esercizio 140. Calcolare EX r per r ∈ (0, 1) ∪ [1, ∞).
Esercizio 141. Quale trasformata associamo ai momenti della Cauchy e per quali
valori è definita?
La funzione caratteristica di una Cauchy è data da
φX (ξ) = e−|ξ| ,
ξ ∈ R.
Normale e Normale standard (Gaussiana). Sia X ∼ N (µ, σ 2 ) con µ ∈ R e σ 2 >
0. Allora
(x−µ)2
1
fX (x) = √
e− 2σ2 ,
2πσ 2
EX =µ
x∈R
Capitolo 7.
Distribuzioni di probabilità elementari
195
V ar(X) =σ 2
FX (x) = √
1
2σ 2
Φ
x−µ
√
2σ 2
,
x∈R
dove
Φ(x) =
−∞
x
2
e−u
√ du,
x≤0
e
−∞ Z π
√ du =
x −u2

π
e
1

 +
√ du, x ≥ 0
2
π
0
−u2
x
Z
 Z



è la funzione degli errori. Se µ = 0 e σ 2 = 1, allora X ∼ N (0, 1) è detta Normale
standard. Se X ∼ N (0, 1) e Y = aX + b, si ottiene Y ∼ N (b, a2 ). Inoltre, se
X1 , . . . , Xn sono v.a. indipendenti tali che Xi ∼ N (µi , σi2 ) per ogni i, allora
!
X
X
X
a+
bi X i ∼ N a +
bi µ i ,
b2i σi2 .
i
i
i
La funzione caratteristica di una Normale standard è data da
ξ2
φX (ξ) = e− 2 ,
ξ ∈ R.
(7.7)
Infatti,
φX (ξ) =
∞
X
(iξ)r
r!
r=0
Mr (X)
dove
Mr (X) =
EX 2k ,
r = 2k
EX 2k+1 = 0, r = 2k + 1
k∈N
e
2
Z
− x2
2k e
Z
∞
2
− x2
2k e
Γ(k + 1/2)
√
x √ dx = 2k
x √ dx = 2
π
2π
2π
R
0
√
dove si è posto x = y (ricordiamo anche che Γ(1/2) = π 1/2 ). Dalla formula di
duplicazione della Gamma, si ottiene per r = 2k
√
4π Γ(2k)
k 1
Mr (X) =2 √
π 4k Γ(k)
EX
2k
=
196
1 2k Γ(2k)
2k k Γ(k)
1 Γ(2k + 1)
= k
2 Γ(k + 1)
1 (2k)!
= k
2 (k)!
=
e Mr (X) = 0 per r = 2k + 1. Si ottiene la (7.7) dalla serie
∞
X
(iξ)2k 1 (2k)!
φX (ξ) =
,
(2k)! 2k (k)!
k=0
ξ∈R
e ricordando che i2 = −1.
Esercizio 142. Dimostrare che Mr (X) = 0 per r = 2k + 1, k ∈ N.
Esercizio 143. Calcolare la funzione caratteristica di Y ∼ N (µ, σ 2 ).
Normale Multidimensionale. Sia X = (X1 , . . . , Xn ) un vettore di v.a. Gaussiane
(non necessariamente indipendenti!!), allora X è detta v.a. Normale (o v.a. Gaussiana)
multidimensionale. La densità di X è la densità multidimensionale
1
1
−1
T
exp − (x − µ)Σ (x − µ)
fX (x) = p
2
(2π)n |Σ|
dove x = (x1 , . . . , xn ) ∈ Rn , µ = (µ1 , . . . , µn ) ∈ Rn , (x − µ)T è il vettore (x − µ)
trasposto, |Σ| e Σ−1 sono rispettivamente il determinante e la matrice inversa di


σ1,1 σ1,2 . . . σ1,n
 σ2,1 σ2,2 . . . σ2,n 


Σ =  ..
..
..
..  = {σi,j } con 1 ≤ i, j ≤ n.
 .
.
.
. 
σn,1 σn,2 . . . σn,n
La matrice Σ è detta matrice di varianze e covarianze (o semplicemente, delle covarianze) di X e
σi,j = Cov(Xi , Xj ) = Cov(Xj , Xi ) = σj,i
per cui la matrice è simmetrica. Si vede subito che σi,i = V ar(Xi ), quindi la diagonale di Σ è costituita dalle varianze degli elementi del vettore X. Ovviamente se le
componenti sono indipendenti si ottiene
Σ = diag{σi,i }1≤i≤n
mentre se le componenti sono indipendenti e di varianza σi,i = σ 2 per ogni i,
Σ = σ2I
dove I è la matrice identità.
Capitolo 7.
Distribuzioni di probabilità elementari
197
Weibull. Sia X ∼ W eibull(λ, n) con parametri λ > 0 e n ∈ N. Allora
fX (x) =
λn
xn−1 e−λx 1[0,∞) (x),
(n − 1)!
x∈R
che è quindi una Gamma
Pn con ν = n. Inoltre, se X1 , . . . , Xn ∼ Exp(λ) sono v.a.
indipendenti, allora i=1 Xi ∼ W eibull(λ, P
n). Inoltre,P
per quanto appena detto, la
Weibull è chiusa rispetto alla somma, infatti ni=1 Xi + m
j=1 Xj ∼ W eibull(λ, n +
m).
Beta.
Sia X ∼ Beta(α, γ) con parametri α, γ > 0. Allora
fX (x) =
1
xα−1 (1 − x)γ−1 1[0,1] (x),
B(α, γ)
x∈R
Chi-quadrato, χ2 . Sia X ∼ χ2 (ν) dove ν (non necessariamente intero) sono detti
gradi di libertà. Allora
ν ν −1 ν
x
x 2 −1 e− 2
x ≥ 0, ν > 0
fX (x) = 2 2 Γ
2
e si ha:
EX = ν e V ar(X) = 2ν,
P
se N1 , . . . , Nn ∼ N (0, 1) e indipendenti, allora ni=1 Ni2 ∼ χ2 (n),
P
P
se X1 , . . . , Xn ∼ χ2 (νi ) e indipendenti, allora ni=1 Xi ∼ χ2 ( ni=1 νi ),
se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora
X1
X1 +X2
se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora
X1 /ν1
X2 /ν2
∼ Beta(ν1 /2, ν2 /2),
∼ F (ν1 , ν2 ).
T di Student. La variabile prende il nome da Gosset, ingegnere presso Guinnes che
si firmava come Student. Se X ∼ T ,
fX (x) =
1
B
1 ν
,
2 2
√
1
ν 1−
x2
ν
ν+1
2
x ∈ R, ν > 0
che è simmetrica e tende alla normale al crescere di n, si ha:
√
se Z ∼ N (0, 1) e G ∼ Gamma ν2 , ν2 sono indipendenti, allora Z/ G ∼ T (ν),
T 2 ∼ F (1, ν),
T (1) = Cauchy(0, 1).
198
La variabile F. La variabile di Fisher-Snedecor ha legge di densità
µ
ν
µ
x 2 −1
µ2 ν 2
fX (x) =
µ+ν ,
B µ2 , ν2 (µx + ν) 2
x ≥ 0, µ, ν > 0
Quartile, decile, centile
Data una distribuzione di probabilità, diciamo della v.a. X, su D ⊆ R sappiamo che
P (X ∈ D) = 1. Supponiamo ora di dividere D in intervalli disgiunti Dj tali che
D = ∪j Dj e P (X ∈ Dj ) = α costante. Allora: si definiscono quartili, quei valori per
cui α = 1/4 ed in particolare
Dj = [dj , dj+1 ),
j = 0, 1, 2, 3
dove d1 , d2 , d3 sono detti quartili; si definiscono decili, quei valori per cui α = 1/10 e
Dj = [dj , dj+1 ),
j = 0, 1, . . . , 9
dove d1 , . . . , d9 sono detti decili; si definiscono centili o percentili, quei valori per cui
α = 1/100 e
Dj = [dj , dj+1 ),
j = 0, 1, . . . , 99
dove d1 , . . . , d99 sono detti centili o percentili. Si possono definire tutti i quantili di
ordine α = 1/n. Il quantile di ordine 1/2 è la mediana.
Capitolo 7.
Distribuzioni di probabilità elementari
199
Tabella 7.1: Tavola della funzione di ripartizione Φ(z) di una N (0, 1).
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
0.00
0.50000
0.53983
0.57926
0.61791
0.65542
0.69146
0.72575
0.75804
0.78814
0.81594
0.84134
0.86433
0.88493
0.90320
0.91924
0.93319
0.94520
0.95543
0.96407
0.97128
0.97725
0.98214
0.98610
0.98928
0.99180
0.99379
0.99534
0.99653
0.99744
0.99813
0.99865
0.99903
0.99931
0.99952
0.99966
0.99977
0.99984
0.99989
0.99993
0.99995
0.01
0.50399
0.54380
0.58317
0.62172
0.65910
0.69497
0.72907
0.76115
0.79103
0.81859
0.84375
0.86650
0.88686
0.90490
0.92073
0.93448
0.94630
0.95637
0.96485
0.97193
0.97778
0.98257
0.98645
0.98956
0.99202
0.99396
0.99547
0.99664
0.99752
0.99819
0.99869
0.99906
0.99934
0.99953
0.99968
0.99978
0.99985
0.99990
0.99993
0.99995
0.02
0.50798
0.54776
0.58706
0.62552
0.66276
0.69847
0.73237
0.76424
0.79389
0.82121
0.84614
0.86864
0.88877
0.90658
0.92220
0.93574
0.94738
0.95728
0.96562
0.97257
0.97831
0.98300
0.98679
0.98983
0.99224
0.99413
0.99560
0.99674
0.99760
0.99825
0.99874
0.99910
0.99936
0.99955
0.99969
0.99978
0.99985
0.99990
0.99993
0.99996
0.03
0.51197
0.55172
0.59095
0.62930
0.66640
0.70194
0.73565
0.76730
0.79673
0.82381
0.84849
0.87076
0.89065
0.90824
0.92364
0.93699
0.94845
0.95818
0.96638
0.97320
0.97882
0.98341
0.98713
0.99010
0.99245
0.99430
0.99573
0.99683
0.99767
0.99831
0.99878
0.99913
0.99938
0.99957
0.99970
0.99979
0.99986
0.99990
0.99994
0.99996
0.04
0.51595
0.55567
0.59483
0.63307
0.67003
0.70540
0.73891
0.77035
0.79955
0.82639
0.85083
0.87286
0.89251
0.90988
0.92507
0.93822
0.94950
0.95907
0.96712
0.97381
0.97932
0.98382
0.98745
0.99036
0.99266
0.99446
0.99585
0.99693
0.99774
0.99836
0.99882
0.99916
0.99940
0.99958
0.99971
0.99980
0.99986
0.99991
0.99994
0.99996
0.05
0.51994
0.55962
0.59871
0.63683
0.67364
0.70884
0.74215
0.77337
0.80234
0.82894
0.85314
0.87493
0.89435
0.91149
0.92647
0.93943
0.95053
0.95994
0.96784
0.97441
0.97982
0.98422
0.98778
0.99061
0.99286
0.99461
0.99598
0.99702
0.99781
0.99841
0.99886
0.99918
0.99942
0.99960
0.99972
0.99981
0.99987
0.99991
0.99994
0.99996
0.06
0.52392
0.56356
0.60257
0.64058
0.67724
0.71226
0.74537
0.77637
0.80511
0.83147
0.85543
0.87698
0.89617
0.91308
0.92785
0.94062
0.95154
0.96080
0.96856
0.97500
0.98030
0.98461
0.98809
0.99086
0.99305
0.99477
0.99609
0.99711
0.99788
0.99846
0.99889
0.99921
0.99944
0.99961
0.99973
0.99981
0.99987
0.99992
0.99994
0.99996
0.07
0.52790
0.56749
0.60642
0.64431
0.68082
0.71566
0.74857
0.77935
0.80785
0.83398
0.85769
0.87900
0.89796
0.91466
0.92922
0.94179
0.95254
0.96164
0.96926
0.97558
0.98077
0.98500
0.98840
0.99111
0.99324
0.99492
0.99621
0.99720
0.99795
0.99851
0.99893
0.99924
0.99946
0.99962
0.99974
0.99982
0.99988
0.99992
0.99995
0.99996
0.08
0.53188
0.57142
0.61026
0.64803
0.68439
0.71904
0.75175
0.78230
0.81057
0.83646
0.85993
0.88100
0.89973
0.91621
0.93056
0.94295
0.95352
0.96246
0.96995
0.97615
0.98124
0.98537
0.98870
0.99134
0.99343
0.99506
0.99632
0.99728
0.99801
0.99856
0.99896
0.99926
0.99948
0.99964
0.99975
0.99983
0.99988
0.99992
0.99995
0.99997
0.09
0.53586
0.57535
0.61409
0.65173
0.68793
0.72240
0.75490
0.78524
0.81327
0.83891
0.86214
0.88298
0.90147
0.91774
0.93189
0.94408
0.95449
0.96327
0.97062
0.97670
0.98169
0.98574
0.98899
0.99158
0.99361
0.99520
0.99643
0.99736
0.99807
0.99861
0.99900
0.99929
0.99950
0.99965
0.99976
0.99983
0.99989
0.99992
0.99995
0.99997
Come si legge una tavola? Se voglio calcolare z tale P (Z ≤ z) = Φ(z) = 0.95 devo
cercare 0.9500 nella tavola, mi accorgo che non c’è ma posso considerare il valore più
vicino che è 0.95053. Tale valore corrisponde alla riga 1.6 e alla colonna 0.05. Allora,
z = 1.6 + 0.05 = 1.65 è il valore cercato.
200
Appendice A
Esercizi
Esercizio 144. In una stanza ci sono 100 persone che devono essere visitate da due
medici. Il primo medico arriva alle 8:00 AM e inizia le visite, osservati tutti i pazienti
arriva alla conclusione che 10 di loro sono affetti da crioglobulinemia. Il secondo
medico arriva alle 2:00 PM e non trova il primo medico, decide di iniziare le visite.
Preso un paziente a caso, con quale probabilità è affetto da crioglobulinemia?
Esercizio 145. Si consideri il precedente esercizio. Se il medico scegliesse a caso 3
pazienti, con quale probabilità tutti sono affetti da crioglobulinemia?
Esercizio 146. Da precedenti osservazioni una società ha registrato una perdita maggiore del 5% del fatturato nel 3% delle sue agenzie in un anno. Calcolare la probabilità
che nel prossimo anno la società registri una perdita maggiore del 5% in almeno una
delle sue 20 agenzie.
Esercizio 147. Da precedenti osservazioni una società ha registrato una perdita maggiore del 5% del fatturato nel 3% delle sue agenzie in un anno. Calcolare la probabilità
che nel prossimo anno la società non registri una perdita maggiore del 5% in almeno
una delle sue 20 agenzie.
Esercizio 148. Due fabbriche locali, diciamo A e B, producono telefoni cellulari e
la percentuale di telefoni difettosi è uguale al 5% per la ditta A e al 1% per la ditta
B. Il mercato è chiuso e si possono acquistare telefoni solo da queste due fabbriche.
Inoltre, A e B immettono sul mercato locale lo stesso numero di prodotti. Calcolare
la probabilità di acquistare un telefono difettoso. Dopo aver acquistato due telefoni
vedo che provengono dalla stessa fabbrica (senza sapere se è A oppure B). Se il primo
telefono è difettoso, con quale probabilità sarà difettoso anche il secondo?
Esercizio 149. Si consideri la situazione del precedente Esercizio 148 nel caso in cui
il mercato non è chiuso ed A immette sul mercato il 60% dei prodotti dei B. Inoltre, i
prodotti di entrambe le fabbriche rappresentano il 20% della domanda.
201
202
Esercizio 150. Una fabbrica produce sensori laser che escono da due linee di produzione, diciamo linea A e linea B. Dalla linea A escono il 30% dei prodotti. Si
riscontra che la percentuale di pezzi difettosi nelle due linee è pari al 15% e 12%
rispettivamente. Calcolare:
1. P (un sensore scelto a caso sia difettoso),
2. P (il sensore difettoso e scelto a caso provenga dalla linea A).
I sensori vengono confezionati in scatole da 10 pezzi della stessa linea. Viene ispezionata una scatola a caso e k sensori risultano difettosi (si noti che k ≤ 10). Calcolare:
3. P (la scatola proviene dalla linea A),
4. P (la scatola proviene dalla linea B)
Esercizio 151. In una slot machine si vincono 10 euro con una puntata di 1 euro. Si
vince una volta su dieci. Avendo a disposizione 10 euro, calcolare la probabilità di
vincere per la prima volta al decimo tentativo. Calcolare la probabilità di vincere 10
euro.
Esercizio 152. Siano X, Y due v.a. indipendenti e Z = g(X, Y ) con g(x, y) = x/y.
Caratterizzare Z nei seguenti casi:
1. X ∼ U nif (0, 1) e Y ∼ U nif (0, 2),
2. X ∼ U nif (0, 1) e Y ∼ Exp(λ),
3. X ∼ Exp(λ) e Y ∼ Exp(λ).
Esercizio 153. Siano X, Y due v.a. indipendenti e Z = g(X, Y ) con g(x, y) = xy.
Caratterizzare Z nei seguenti casi:
1. X ∼ U nif (0, 1) e Y ∼ U nif (0, 2),
2. X ∼ U nif (0, 1) e Y ∼ Exp(λ),
3. X ∼ Exp(λ), λ > 0 e Y ∼ U nif (0, 1),
4. X ∼ Exp(λ) e Y ∼ Exp(λ).
Esercizio 154. Siano X ∼ U nif (0, 1) e Y ∼ P ois(λ), λ > 0 due v.a. indipendenti.
Scrivere la f.r. della v.a. Z = X + Y .
Esercizio 155. Siano X ∼ U nif (0, 1) e g(x) = |x − 1|−1 . Studiare Y = g(X).
Appendice A.
Esercizi
203
Esercizio 156. Siano X ∼ U nif (0, 1) e Y ∼ U nif (0, 1) tali che X ⊥ Y . Sia
g(x, y) = |x − y|. Studiare Z = g(X, Y ).
Esercizio 157. Siano X ∼ Exp(λ), λ > 0 e U ∼ U nif (0, 1) due v.a. indipendenti.
Studiare la v.a.
s
1
Y = X − ln U .
λ
Esercizio 158. Sia {Xk }k∈N una successione di v.a. indipendentiP
ognuna esponenziale
di parametro λk > 0. Si dimostri che X(1) ∼ Exp(λ) dove λ = nk=1 λk . Si scriva la
densità di Z = X(n) .
Esercizio 159. Sia {Xk }k∈N una successione di v.a. i.i.d. e U nif (0, 1). Studiare la
convergenza della v.a.
Zn = min {Xk }.
1≤k≤n
Esercizio 160. Sia {Xk }k∈N una successione di v.a. i.i.d. e U nif (0, 1) e Zn =
min1≤k≤n {Xk } . Studiare la convergenza della v.a.
Yn = n · Zn .
204
Appendice B
Alcune somme notevoli
n
X
c=c+
k=0
n
X
k=
k=0
n
X
2
k =
k=0
n
X
n
X
k=0
n(n + 1)
2
k=
k2 =
k=1
3
k =
n
X
c = c(n + 1)
(banale!)
k=1
k=1
n
X
n
X
(somma dei primi n numeri)
n(n + 1)(2n + 1)
6
3
k =
k=1
n
X
n(n + 1)
2
(somma dei primi n quadrati)
2
(somma dei primi n cubi)
(2k − 1) = n2
(verificare!)
k=1
n X
n
k=0
k
= 2n
∞
X
1
=e
k!
k=0
(verificare!)
(verificare!)
205
206
∞
X
(−1)k
k=0
k!
∞
X
k=1
n
X
xk =
k=m
n
X
k=1
!2
xk
=
1
e
(verificare!)
k
=1
(k + 1)!
xm − xn−1
1−x
n
X
k=1
=
xk
n
X
s=1
xs =
(verificare!)
n
X
k=1
x2k +
X
0≤k≤n
0≤s≤n
k6=s
xk xs
Formulario
207
208
Appendice C
Svolgimenti
Svolgimento Esercizio 12. Dal vettore x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62) ricaviamo media x̄ e varianza σ̄ 2 . La stima puntuale del prezzo medio è la media campionaria. Non interviene la varianza campionaria che invece risulta essere un informazione importante. Per tale motivo cerchiamo una stima intervallare e rispondiamo
al secondo punto. Supponiamo che X ="prezzo" si distribuisce come una normale
di media µ e varianza σ 2 , le stime trovate sono µ̂ = x̄ e σ̂ 2 = σ̄ 2 quindi la variabile
standardizzata
Z=
X −µ
σ
per cui si ha X = µ + σZ
ci consente di definire gli estremi di interesse per l’intervallo che stiamo cercando. La
variabile Z è la normale standard, le quantità zα codificati nelle tavole dei percentili
della Z secondo la relazione P (z α2 < Z ≤ z1− α2 ) = 1 − α ci consentono di trovare
x1 , x2 tale che P (x1 < X ≤ x2 ) = 1 − α dalle relazioni
x1 = x̄ + σ̄z α2
e x2 = x̄ + σ̄z1− α2 .
(C.1)
Richiedendo una probabilità del 95% si deve scegliere α = 0.05 e per i percentili che
ci interessano vale z ∗ = zα/2 = −z1−α/2 essendo Z simmetrica e centrata in zero. Si
osserva che P (Z ≤ zα/2 ) = α/2 = P (Z > z1−α/2 ).
Soluzione Esercizio 28. Dato Ω = B ∪ B̄, si ottiene
P (A ∩ Ω) = P (A ∩ B) + P (A ∩ B̄) = P (A)P (B) + P (A ∩ B̄)
dove si sono considerate l’intersezione con un evento e l’indipendenza di A e B.
Allora,
P (A ∩ B̄) = P (A) 1 − P (B) = P (A)P (B̄).
209
210
Soluzione Esercizio 31.
a)
P (tutte minori o uguali ad n) =
n!(13 − n)!
1
= 13 ,
13!
n
n = 1, 2, . . . , 13
b)
13−n
n
13
n
P (tutte maggiori di n) =
n ≤ 13 − n
,
(C.2)
e
P (tutte maggiori di n) = 0,
c)
P (tutte di cuori) =
n > 13 − n
(C.3)
1
4
Soluzione Esercizio 32.
1. (4/9)4 + 2[(4/9)2 · (5/9)2 ] + (5/9)4
2. (5/9)2 · (4/9)2
3. 0 ⇔ (vince M ario) ∩ (vince P iero) = {∅}
4. 2 · [(5/9)2 · (4/9)2 ] − 2 · 0
5. 2 · (5/9)2 · (4/5)2
Svolgimento Esercizio 44. Si deve considerare
Z ∞
Z ∞
P (X ∈ (x, ∞))µ(dx)
P (X > x)µ(dx) =
0
0
Z ∞
=
E1(x,∞) (X)µ(dx)
0
Z ∞
=
E1(0,X) (x)µ(dx)
0
Z ∞
=E
1(0,X) (x)µ(dx)
(linearità media/intergale)
0
Z X
=E
µ(dx)
0
=EX
Appendice C.
Svolgimenti
211
infatti
Z
X
Z
dx = X
e
0
X
µδ (dx, spet(X)) = X ∈ spet(X).
0
Soluzione Esercizio 48.
1. Passando alle coordinate polari si ha che
x
ρ cos θ
=
lim
= 0 uniformemente
z→∞ x2 + y 2
ρ→∞
ρ2
lim
cioè per ogni angolo θ. Quindi il limite è 0.
2. Passando alle coordinate polari e considerando che la funzione è positiva si trova
che diverge positivamente (verificare!!). Inoltre, si poteva osservare che
3x2 + 2y 2
=
(x2 + y 2 )2
2
3 xy2 + 2
x2
y2
+2+
y2
x2
1
x2
e quindi
5 1
3x2 + 2y 2
= lim
= +∞.
2
2
2
x→0 4 x2
(x,y)→(0,0) (x + y )
lim
3. Si può passare alle coordinate polari, vedere che si ottiene una forma indeterminata (ma non uniformemente e questo già è sufficiente) e quindi usare la regola
di de l’Hôpital per vedere che il limite diverge ma non per tutti i valori di θ (non
per θ = π/4). Oppure si può vedere cosa succede sulle rette, basta considerare
y = mx per ottenere
x2 (1 + m2 )(1 − m) + (1 − m)
=∞
x→0
2x(1 + m2 )
lim
ma non uniformemente (cioè, non per m = 1). Il limite non esiste, la funzione
in (0, 0) non ammette limite.
2
2
2
2
Soluzione Esercizio 50. Basta osservare che e−(x1 +x2 ) = e−x1 e−x2 e riconoscere la
normale multidimensionale. Quindi κ = 1/π e
2
e−xj
fXj (xj ) = √ ,
π
j = 1, 2.
212
Soluzione Esercizio 54. Conosco la v.a. X e la sua legge di densità definita su
supp(X), devo trovare la densità della v.a. Y = g(X). Se g è invertibile, allora X =
g −1 (Y ) e posso usare le informazioni in mio possesso, i dati del problema. Essendo
g(x) = x2 continua e X v.a. continua, allora Y è continua e supp(Y ) = supp(X 2 ). In
particolare vale il teorema fondamentale del calcolo integrale e fY (y) = FY0 (y). Dalla
f.r.
FY (y) =P (Y ≤ y)
=P (X 2 ≤ y)
√
=P (|X| ≤ y)
√
√
=P (− y ≤ X ≤ y)
Z √y
= √ fX (x)dx
− y
e dalla formula (54), ricaviamo
1
√
√
fY (y) = √ fX ( y) + fX (− y) 1supp(X 2 ) (y).
2 y
Soluzione Esercizio 56. Conosco fX e fY , voglio trovare fZ . Le v.a. X, Y sono
continue, la funzione g(x, y) = x/y è continua, la composizione di funzioni continue Z = g(X, Y ) è continua, allora fZ = FZ0 . Il supporto della v.a. Z può essere
ricostruito a partire dai limiti
lim g(x, y0 ),
x→0+
lim g(x0 , y),
y→0+
lim g(x, y0 ),
fissato y0 ∈ (0, 1)
lim g(x0 , y),
fissato x0 ∈ (0, ∞)
x→∞
x→1−
e si ottiene supp(Z) = (0, ∞). Inoltre la coppia (Y, X) ∈ D dove il dominio D =
(0, 1) × (0, ∞) è una striscia infinita e rappresenta la regione del piano ammissibile
per il problema dato, posso considerare solo i punti in D ⊂ R2 . La f.r. si ottiene
considerando la probabilità
FZ (z) =P (Z ≤ z)
=P (X ≤ zY )
moltiplico per Y ≥ 0 e non cambio il verso della dis.
e quindi tutti i punti
Az = {(y, x) ∈ R2 : x ≤ zy},
z ∈ supp(Z).
Appendice C.
Svolgimenti
213
Si vede subito che per ogni z ∈ (0, ∞), Az ∩ D è una regione del piano che identifica
sempre la stessa figura geometrica, ho una sola figura e un solo caso per z, cioè z > 0.
Considerando un riferimento cartesiano (di assi y, x invertiti), rappresentando Az ∩ D
e quindi la retta X = zY , vedo che per ogni z > 0
Z 1 Z zy
dy
dxf(Y,X) (y, x)
P (X ≤ zY ) =
0
0
dove f(Y,X) (y, x) = fX (x)fY (y) per il fatto che X ⊥ Y . Sostituendo si ottiene
Z 1
Z zy
P (X ≤ zY ) =
dy1(0,1) (y)
dxλe−λx
0
Z0 1
=
dy 1 − e−λzy
0
=1 −
1 − e−λz
,
λz
z>0
ed avendo una sola figura geometrica,
0,
z<0
FZ (z) =
P (Z ≤ zY ), z > 0.
Si vede che
lim FZ (z) = 0,
z↑0
lim FZ (z) = lim 1 −
z→0
z↓0
1 − e−λz
λe−λz
= lim 1 −
=0
z→0
λz
λ
e scriviamo
FZ (z) =

 0,
 1−
z≤0
−λz
1−e
λz
, z > 0.
Inoltre, limz→∞ FZ (z) = 1. Derivando la f.r. si ottiene la densità
1
fZ (z) = 2 1 − e−λz − λze−λz 1(0,∞) (z), z ∈ R.
λz
Soluzione Esercizio 63.
1. κ = θ/aθ e θ > 0
2. si ottiene V ∈ (0, log(1 + a)1/2 ) e

v<0

 0, θ
2v
FV (v) =
, 0 ≤ v ≤ log(1 + a)1/2
1 − 1 + 1−ea


1,
v > log(1 + a)1/2
214
3.
θ 1
fZ (z) = θ 2
a z
θ−1
1
a−
1(1/a,∞) (z)
z
Soluzione Esercizio 64. Si vede subito che supp(Z) = (0, +∞). Passiamo al secondo punto dell’ Esempio 19: si vede che D = (0, +∞) × (0, +∞) = D1 , non occorre
costruire una partizione di D che identifichi diverse forme geometriche per D1 ∩ Az ,
z > 0. Infatti, per ogni z > 0, D1 ∩ Az è sempre un triangolo. Si noti che Az è
costituito da tutti i punti (x, y) del piano tali che x + y ≤ z, cioè anche dai punti con
x e y negativi. Invece, D1 ∩ Az è costituito dai soli punti di coordinate x > 0 e y > 0
(si ricordi che z > 0). Si ottiene la f.r.

z≤0
 0,
P (T ), z ∈ (0, ∞)
FZ (z) =

1,
z = ∞ (in questo caso non va considerato)
dove T = D1 ∩ Az è (sempre) un triangolo di vertici T1 = (0, 0), T2 = (0, z), T3 =
(z, 0). L’evento certo, non va considerato perché, in casi come questo, può essere
ricondotto a P (T ) con z → ∞. Si costruisca il grafico e si verifichi quanto appena
detto. Dal grafico se vede che
Z z Z z−x
P (T ) = P ((X, Y ) ∈ T ) =
dx
dyfX (x)fY (y)dxdy
0
0
e quindi
Z
z
P (T ) =
dxλe−λx 1 − e−µ(z−x) dx
0
=1 − e−λz −
λ
e−µz − e−λz = P (Z ≤ z).
λ−µ
Si ottiene la densità
fZ (z) =


λe−λz −
 0,
λ
λe−λz − µe−µz , z ∈ (0, ∞),
λ−µ
z∈
/ (0, ∞).
Soluzione Esercizio 67. Si disegni il grafico.
a)
P (Z < z) =P (X + Y < z) = P (Y < z − X)
Appendice C.
Svolgimenti
215
Si deve osservare che 0 < X < z se X + Y = z ∈ (0, 1) mentre 0 < X < 1 se
X + Y = z > 1. Quindi si ottiene

0,
z≤0




 R
R z−x −λy
z
dx
λe dy = z − e−λz (eλz − 1)/λ, z ∈ (0, 1]
P (Z < z) =
0
0




 R 1 R z−x −λy
dx 0 λe dy = 1 − e−λz (eλ − 1)/λ, z > 1
0
La legge di densità è quindi

1 − e−λz ,
z ∈ (0, 1]





e−λz (eλ − 1), z > 1
fZ (z) =





0,
altrove
b)
FW (w) = P (W < w) = P (λZ < w) = P (Z < w/λ) = FZ (w/λ).
c) La somma di due esponenziali di parametro λ è una gamma di parametri (2, λ),
quindi
fZ (z) = λ2 ze−λz 1(0,∞) (z)
Svolgimento Esercizio 69.
1. Si vede che f > 0 se κ > 0. Inoltre
Z
1
1=
f (x)dx se θ = 2 ≥ 0
2σ
R
r
κ=
θ
≥0
π
Quindi κ ∈ (0, ∞) e θ ∈ (0, ∞).
2. X ∼ N (0, 1/2θ)
3. Volendo fissare due valori
(per semplificare i conti) si può scegliere θ = 1 e di
√
conseguenza κ = 1/ π. Si ottiene
e−y
y 1/2−1 −y
fY (y) = √ =
e ,
yπ
Γ(1/2)
y≥0
che è una Gamma(1/2, 1).
4. Z ∼ Gamma(n/2, 1), quindi
fZ (z) =
z n/2−1 −z
e ,
Γ(n/2)
z≥0
216
Svolgimento Esercizio 73. Si consideri Ω = (X1 ≤ X2 ) ∪ (X1 > X2 ).
Svolgimento Esercizio 76. Si deve considerare che la somma di k Bernoulliane
indipendenti di parametro p è una Bin(k, p).
Svolgimento Esercizio 84. Dallo sviluppo in serie della funzione caratteristica e dal
fatto che
X X
X
=
+
r
r pari
r dispari
si vede che (ponendo r = 2k con k ∈ N, cioè r pari)
∞
∞
X
X
(−ξ 2 a)k
(iξ)r r! r
2
a 1(r pari) =
= e−aξ = φX (ξ).
r! (r/2)!
k!
r=0
k=0
Soluzione Esercizio 86. Si deve considerare che X ∈ (0, 1) q.c., infatti P (X =
1) = 0. Quindi, X n → 0 q.c., cioè ∀ω ∈ Ω, (X(ω))n → 0 e si ha convergenza
q.c.
puntuale in Ω. Si conclude che Zn → 0.
Soluzione Esercizio 87. Come nel precedente Esercizio 86 X ∈ (0, 1) q.c., cioè
q.c.
P (X ∈ (0, 1)) = 1 e xn → 0 se x ∈ (−1, 1). Quindi, Zn → 0.
Soluzione Esercizio 88. Un occhio attento vede subito che non conviene considerare
altre forme (più deboli) di convergenza, si può verificare subito la convergenza quasi
certa. In particolare, Y ∈ D è una v.a. finita e
1
∀ ω ∈ Ω Zn (ω) = X(ω) + Y (ω) → X(ω)
n
q.c.
(convergenza puntuale in Ω) e quindi Zn → X.
Soluzione Esercizio 89. Si vede subito che fXn → 0 uniformemente mentre la f.r.

x < −n

 0,
x+n
FXn (x) =
, x ∈ [−n, +n)

 2n
1,
x≥n
converge a FX (x) =
converge in R1 .
1
1
2
per ogni x ∈ R (puntualmente). Diciamo allora che Xn non
Potremmo dire però che Xn diverge con probabilità 1 (q.c.) ad X ”degenere” ed in particolare
P (X = −∞) = P (X = +∞). In questo caso P (X ∈ R∗ ) = 1 dove R∗ = R ∪ {−∞} ∪ {+∞} è
l’estensione di R (il completamento dei reali).
Appendice C.
Svolgimenti
Soluzione Esercizio 90.
f.r.
217
Si vede che fXn → 0 per ogni x ∈ R (puntualmente) e la

x<0
 0,
n2 x2 , x ∈ [0, n1 )
FXn (x) =

1,
x ≥ n1
converge a
FX (x) =
0, x < 0
1, x ≥ 0.
Concludiamo che Xn → 0 in legge e quindi Xn → 0 in probabilità.
Svolgimento Esercizio 91. Si deve sfruttare
iξX
Ee
=
∞
X
(iξ)k
k=0
k!
EX k
per una v.a. X e i2 = −1. Allora si ha che
2
ξ
1. φXj (ξ) = 1 − 2n
n
ξ2
2. φZn (ξ) = 1 − 2n
ξ2
3. φZ∞ (ξ) = e− 2 e quindi
x2
e− 2
fZ∞ (x) = √ ,
2π
x ∈ R.
Soluzione Esercizio 92.
n yα
α
→ P (X ≥ e−y )
P (Yn ≤ y) =P X ≥ 1 −
n
da cui si ricava
FY (y) =
d
0,
y≤0
.
−y α
1−e , y >0
Si noti che per α = 1, Yn → Y ∼ Exp(1).
218
Soluzione Esercizio 93.
fXk (x) = n1(0,1/n) (x),
x ∈ R,

 0, x ≤ 0
nx, 0 < x ≤ 1/n
FXn (x) =

1, x > 1
si vede che
lim FXn (x) =
n→∞
0, x < 0
1, x ≥ 0
e Xn → 0 in distribuzione (e quindi anche in probabilità). Inoltre, Yn → 0 in distribuzione essendo il massimo di una successione infinitesima (e quindi anche in
probabilità).
Soluzione Esercizio
√ 95. EXk = 0 e V ar(Xk ) = 1 per ogni k allora EZn = 0
e V ar(X̄n ) = 1/ n. Si può applicare il teorema del limite centrale e Zn → Z ∼
N (0, 1) in distribuzione. Infatti
Zn
1/n
X̄n − 0
√ .
=
1/n
1/ n
Soluzione Esercizio 96. EXk = λ e EYk = 0, V ar(Yk ) = V ar(Xk ) = λ. Inoltre,
V ar(Ȳn ) = λ/n. Posso applicare il teorema del limite centrale considerando che
Ȳn − 0
Zn = p
.
λ/n
Soluzione Esercizio 97. EYk = 0 e E[
n/λ2 , quindi
Zn =
Pn
Ȳn
√1
n
k=1
=
P
Yk ] = 0, V ar(Yk ) = 1/λ2 e V ar( nk=1 Yk ) =
1 Ȳn − 0
λ λ√1 n
e applicando il teorema del limite centrale
Zn →
in distribuzione.
1
Z ∼ N (0, 1/λ2 )
λ
Appendice C.
Svolgimenti
219
Soluzione Esercizio 99.
1. 0,
2. Bisogna osservare che l’integrale si riduce a
MC è data da
1
2
R∞
0
ye−y dy e quindi la soluzione
n
1 X
Xj ,
2n j=1
Xj ∼ Exp(1),
3. Si vede che
Z
1
√
dx =
1 + x2
R
e quindi una soluzione MC è
Z √
1 + x2
dx
2
R 1+x
n
π Xq
1 + Xj2 ,
n j=1
Xj ∼ Cauchy.
In alternativa, si può considerare che
1
1
√
=
Γ(1/2)
1 + x2
Z
∞
1
2
u 2 −1 e−u(1+x ) du
0
e quindi
Z
R
Z ∞
1
1
2
u 2 −1 e−u(1+x ) du dx
R Γ(1/2) 0
Z
−x2 Y
e
dx
=E
1
√
dx =
1 + x2
Z
R
dove Y ∼ Gamma(1, 1/2). Osservando che (integrale della densità N (0, (2a)−1 ))
Z
Z
p
p
x2
1
−x2 a
p
e
dx = π/a
e− 1/a dx = π/a
π/a
R
R
si ottiene
Z
R
p
1
√
dx = E π/Y
1 + x2
che introduce una soluzione MC per il problema dato, cioè
√ X
n
π
1
, Yk ∼ Gamma(1, 1/2).
n k=1 Yk
220
Soluzione esercizio 102. Il vettore (X1 , . . . , Xn ) è costituito da v.a. i.i.d., cioè sono
n copie di una stessa variabile X che rappresenta la popolazione di interesse. La v.a.
varianza campionaria è data dalla somma
n
n
1X
1 X
(Xk − µ)2 − 2(Xk − µ)(X̄ − µ) + (X̄ − µ)2
(Xk − µ + µ − X̄)2 =
n k=1
n k=1
n
=
1X
(Xk − µ)2 − (X̄ − µ)2 .
n k=1
Passando al valor medio si vede che
" n
#
n
1X
1X
2
E
(Xk − µ) =
E(Xk − µ)2
n k=1
n k=1
(linearità della media)
n
=
1X
V ar(Xk )
n k=1
2
=σX
(le v.a. sono identicamente distribuite)
e
E(X̄ − µ)2 = V ar(X̄) =
2
σX
.
n
Infatti,
n
1 X 2
1 X
X̄ = 2
Xk Xs
Xk + 2
n k=1
n 0≤k,s≤n
2
k6=s
2
2
per ogni k e Cov(Xk , Xs ) = 0 per ogni k 6= s. Quindi E X̄ 2 = σX
/n.
dove EXk2 = σX
Si ottiene che
" n
#
1X
n−1 2
E
(Xk − X̄)2 =
σX
n k=1
n
e lo stimatore non è corretto. Si vede però che è asintoticamente corretto.
Soluzione esercizio 103. Dal precedente Esercizio 102 si vede che
" n
#
X
n
1
2
2
ESn−1
=
E
(Xk − X̄)2 = σX
n−1
n k=1
quindi lo stimatore è corretto.
Appendice C.
Svolgimenti
221
Svolgimento Esercizio 104. La v.a. media campionaria
n
1X
X̄n =
Xk
n k=1
n
1X
ha media E X̄n =
EXk
n k=1
per la linearità della media. Le variabili Xk , per ogni k, sono supposte essere copie
(indipendenti, ma in questo caso non importa) di una v.a. X che descrive una certa
popolazione oggetto di studio. Quindi, se Xk ∼ X per ogni k (sono i.d.), allora
EXk = EX per ogni k. sia µ = EX la media vera della popolazione. Otteniamo che
µ
b = x̄ è lo stimatore per il parametro µ, X̄ (o X̄n ) è la v.a. stimatore per µ e E X̄ = µ.
Lo stimatore X̄ è corretto.
Svolgimento Esercizio 105. Si è già visto che la v.a. X̄ è uno stimatore corretto,
calcoliamo la sua varianza. Sia µ la media teorica, lo scostamento attorno al suo valore
centrale (cioè, il valore medio) è data da
2
σX̄
= E(X̄ − µ)2 = E X̄ 2 − µ2
dove (per la linearità della media ed il quadrato di una somma, Appendice B)
n
n
1 XX
E[Xk Xs ].
E X̄ = 2
n k=1 s=1
2
A questo punto è importante ricordare che le osservazioni sono realizzazione di v.a.
supposte indipendenti (le Xk , k = 1, . . . , n sono i.i.d) e quindi di covarianza nulla.
Inoltre Cov(Xk , Xs ) = E[Xk Xs ] − µ2 e si ottiene
n
n
n
2
1 XX 2
n2 2 σX
1 X 2
2
E X̄ = 2
σXk 1(s=k) + µ = 2
σX + 2 µ =
+ µ2 .
n k=1 s=1
n k=1
n
n
2
La varianza cercata è
2
σX̄
=
2
σX
n
cioè la varianza teorica (finita) della popolazione caratterizzata dalla v.a. X diviso la
numerosità campionaria n. Come al solito, volendo sottolineare la dipendenza da n
scriviamo X̄n invece di X̄. Si vede subito che
2
σX̄
=
n
2
σX
→ 0 quando n → ∞.
n
222
Svolgimento Esercizio 107. La v.a. allo studio è il vettore X = (X1 , . . . , Xn ) le cui
componenti sono Xk ∼ N (µ, σ 2 ) per ogni k = 1, 2, . . . , n e indipendenti (sono i.i.d.).
La realizzazione di X è il campione x. La densità della v.a. multidimensionale X,
essendo le componenti i.i.d., è data dal prodotto
1
n
Y
Pn
2
e− 2σ2 k=1 (xk −µ)
p
fX (x) =
fXk (xk ) =
(2πσ 2 )n
k=1
dove fX (x) = fX (x; µ) dipende ovviamente dai parametri µ e σ 2 ma a noi interessa,
in questo caso, sottolineare il fatto che dipende da µ. La funzione di verosimiglianza è
data dalla relazione L(µ; x) = fX (x; µ) ed il suo logaritmo restituisce la funzione
n
1 X
n
2
(xk − µ)2 .
log L(µ; x) = − log(2πσ ) − 2
2
2σ k=1
Si ottiene µ
bM V = x̄.
Svolgimento Esercizio 108. Dalla log-verosimiglianza calcolata nel precedente esercizio
n
1 X
n
2
(xk − µ)2
log L(µ; x) = − log(2πσ ) − 2
2
2σ k=1
si ottiene subito che
n
2
σ
bM
V
1X
(xk − µ)2 ,
=
n k=1
la varianza campionaria è stimatore di MV per la varianza della popolazione.
Svolgimento Esercizio 109. Si veda il precedente Esercizio 102.
Svolgimento Esercizio 110. Per il vettore X = (X1 , . . . , Xn ) in cui Xj ∼ U nif (0, θ)
per ogni j (variabili i.i.d.) si ha che
fX (x) =
n
Y
1
θ
j=1
1[0,θ] (xj )
con x = (x1 , . . . , xn ) ∈ [0, θ]n . La funzione di log-verosimiglianza si ottiene come al
solito dalla relazione L(θ; x) = fX (x; θ) e quindi
L(θ; x) =
n
1 Y
1[x ,∞) (θ)
θn j=1 j
Appendice C.
Svolgimenti
223
ed ovviamente
log L(θ; x) = −n log θ +
n
X
log 1[xj ,∞ (θ).
j=1
Svolgimento Esercizio 111. Si deve considerare
√ |X̄ − µ|
= P |N (0, 1)| ≤
P |X̄ − µ| ≤ = P
≤
n .
σX̄
σX̄
σ
Osservando che
P (|N (0, 1)| ≤ z) = P (−z ≤ N (0, 1) ≤ z) = 0.95
⇔
z = z0.975 ,
cioè 1.96 è il percentile z0.975 della tavola in Tabella 7.1 (si noti che 0.975 = 0.95 +
0.025 dove 0.025 = P (N (0, 1) ≤ −z) = Φ(−z)). Possiamo a questo punto sfruttare
l’identità
√
n = 1.96 ⇒ n = (1.96σ/)2
oppure n ≥ (1.96σ/)2 .
σ
2
Ovviamente, nella
relazione2 n ≥ (1.96σ/) sceglierò il più piccolo n, cioè la parte
intera superiore (1.96σ/) .
Svolgimento Esercizio 112.
incognite µ, σ 2 (θ ∈ R2 ),
Si deve impostare un sistema di due equazioni nelle due
EX =x̄
EX 2 =x̄2
dal quale si ottiene,
µ
b = x̄ e
σ
b2 = x̄2 − (x̄)2 .
Lo stimatore dei momenti è quindo dato dal vettore θbM = (b
µ, σ
b2 )t .
Svolgimento Esercizio 113. Il test consiste nel formalizzare le ipotesi H0 : µ = 1 e
quindi H1 : µ 6= 1 conoscendo la varianza σ 2 = 1 e la forma distributiva della X. Ci
interessa solo H0 . In particolare, per la v.a. media campionaria sotto l’ipotesi nulla si
ha che X̄n |H0 ∼ N (1, 1/n) con n = 30, quindi
P (a ≤ Z ≤ b|H0 ) = 1 − α = 0.95
224
dove la v.a. (standardizzata) in questione è
Z|H0 =
X̄n − 1
√ ∼ N (0, 1)
1/ n
si ottiene dai percentili
a = z0.025 = −1.96 e
b = z0.975 = 1.96
ottenuti dalla Tabella 7.1. Dal campione osservato si ha che
1√
x̄ − 1
30 < 1.96
−1.96 < √ =
5
1/ 30
e quindi si conclude che il valore stimato standardizzato (cioè zoss ) cade nella regione di accettazione per H0 : µ = 1. Possiamo accettare, al 95% (o al livello di
significatività α = 0.05), l’ipotesi che X ∼ N (1, 1).
Svolgimento Esercizio 114. Riprendiamo quanto visto nell’Esercizio 113. In questo
caso si deve considerare un valore zoss diverso e per quale
2√
x̄ − 1
zoss = √ =
30 > 1.96
5
1/ 30
e si conclude che il valore stimato standardizzato sotto H0 cade nella regione di rifiuto
per H0 . Non possiamo accettare l’ipotesi nulla.
Svolgimento Esercizio 115.
1. λ̂M = 1/x̄ = λ̂M V . Infatti, il sistema di una sola equazione da risolvere è
EX = x̄
mentre lo stimatore di massima verosimiglianza si calcola dalla
L(λ; x) = λn e−λnx̄
e
log L(λ; x) = −λnx̄ + n log λ
2. si deve osservare che
P (|X̄ − µ| ≤ ) = P (− ≤ |X̄ − µ| ≤ )
dove X̄ ∼ N (µ, 1/n) quindi
√
√
√
P (− ≤ |X̄ − µ| ≤ ) =P (− n ≤ n|X̄ − µ| ≤ n)
√
√
=P (− n ≤ Z < n)
dove Z ∼ N (0, 1) e dalle tavole si vede che
P (−z ≤ Z ≤ z) > 0.86 o P (Z ≤ z) > 0.93 se z > 1.48.
√
Quindi n > 1.48 e n > (1.48/)2 .
Appendice C.
Svolgimenti
225
Soluzione Esercizio 116.
a) Dalla trasformazione lineare Y = aX si ottiene che Y ∼ N (aµX , a2 ) quindi
la stima per µY è la media campionaria del vettore y = ax = (ax1 , . . . , axn ).
Ovvero
µ
bX = ȳ = ax̄
essendo x̄ uno stimatore di massima verosimiglianza per µX .
b) Con il metodo dei momenti otteniamo
ȳ = EY = aEX = aµX
e
x̄ = EX = µX
quindi
µ
bX = x̄
⇒
µ
bY = ax̄
c) Si deve calcolare la probabilità
P (|Ȳ − µY | < ) ≥ 0.95.
Quindi
√
|Ȳ − µX | √
√
√ P
n<
n =P −
n < N (0, 1) <
n = 0.95
a
a
a
a
dove
P (N (0, 1) < z) ≥ 0.975
z ≥ 1.96
per
ed otteniamo
√
n ≥ 1.96
a
⇒
n≥
a
2
1.96 .
Svolgimento Esercizio 117.
P
1. λ̂ = x̄ = n1 ni=1 xi = conti
2. κ = λ−log θ > 0, basta osservare che θx = ex log θ . Inoltre θ̂M V = exp(−2/x̄) ∈
(0, 1)
226
Svolgimento Esercizio 118. Sia y = (y1 , . . . , yn )t il vettore da stimare e yb = xβb una
stima per y dove x = (x1 , . . . , xn )t . Dobbiamo minimizzare la quantità (y − yb)2 =
b 2 rispetto al vettore βb = (βb0 , βb1 ), ovvero βb tale che Q(β)
b = min dove
(y − xβ)
b =
Q(β)
n
X
(yi − βb0 − βb1 xi )2 .
i=1
Si arriva al sistema
1 dQ
= ȳ − βb1 x̄ − βb0 = 0
2n dβb0
n
1X
1 dQ
=
xi yi − βb1 x̄2 − βb0 x̄ = 0
−
2n dβb1 n i=1
−
che è un sistema di due equazioni in due incognite. La soluzione è unica ed è quella
cercata. Infatti dalla prima equazione si ricava subito βb0 . Sostituendo nella seconda ed
2
2
) e che
(è la varianza campionaria, cioè una stima di σX
osservando che x̄2 − x̄2 = σ
bX
P
b
bXY (una stima della covarianza σXY ), si ricava β1 . Si verifica poi
i xi yi − x̄ȳ = σ
che il punto trovato è effettivamente un punto di minimo per Q.
Soluzione Esercizio 120.
n
1 X iξk eiξn 1 − eiξ
φX (ξ) =
,
e =
n k=1
n 1 − eiξn
ξ ∈ R.
Soluzione Esercizio 123.
φX (ξ) = C
∞
X
k −α−1 eiξk ,
ξ ∈ R.
k=1
Soluzione Esercizio 124. V ar(X) = q/p2 .
Soluzione Esercizio 126.
φX (ξ) = q
∞
X
peiξ
k=1
k
=
pqeiξ
,
1 − eiξ
ξ ∈ R.
Soluzione Esercizio 128.
φX (ξ) =
n X
n
k=0
k
peiξ
k
q n−k = q + peiξ
n
,
ξ ∈ R.
Appendice C.
Svolgimenti
227
Soluzione Esercizio 131.
φX (ξ) = e−λ
∞
X
k
1
iξ
λeiξ = e−λ(1−e ) ,
k!
k=0
ξ ∈ R.
Soluzione Esercizio 134.
φX (ξ) =
eibξ − eiaξ
,
ibξ − iaξ
ξ ∈ R.
Soluzione Esercizio 136.
φX (ξ) =
λ
,
λ − iξ
ξ ∈ R.
Soluzione Esercizio 138.
φX (ξ) =
λ
λ − iξ
ν
,
ξ ∈ R.
Soluzione Esercizio 143.
φY (ξ) = Eeiξµ+iξσX = eiξµ EeiξσX = eiξµ−
σ 2 ξ2
2
,
ξ ∈ R.
Svolgimento Esercizio 144. Le visite effettuate dal primo medico evidenziano una
distribuzione di frequenze relative:
• il 10% delle persone è affetto da crioglobulinemia,
• il 90% delle persone non è affetto da crioglobulinemia.
Il medico ha osservato ed ha ottenute delle frequenze. Il secondo medico sceglie a
caso, quindi per gli eventi
• A ="persona affetta da crioglobulinemia",
• Ac ="persona non affetta da crioglobulinemia",
si ha
P (A) = 0.1
che sono probabilità.
P (Ac ) = 0.9
228
Svolgimento Esercizio 145. Se sceglie 3 pazienti,
P (A, A, A) =
10 9 8
.
100 99 98
Svolgimento Esercizio 146. Se indichiamo che A ="Agenzia con perdita maggiore
del 5%", allora sappiamo che presa una agenzia a caso, P (A) = 0.03. Inoltre, se
B ="almeno una delle sue 20 agenzie è in perdita",
P (B) = 1 − P (B c )
dove B c =" nessuna agenzia della società è in perdita". Considerando i due eventi,
otteniamo
20
1−
(0.03)0 (0.97)20−0 = 1 − (0.97)20
0
che è la probabilità cercata. Infatti, se
Ak = "k agenzie su 20 registrano una perdita maggiore del 5% "
allora
20
P (Ak ) =
(0.03)k (0.97)20−k ,
k
k = 0, 1, . . . , 20
e Ak ∼ Binom(n, p) con n = 20 e p = 0.03.
Svolgimento Esercizio 147.
20
1−
(0.97)0 (0.03)20−0 = 1 − (0.03)20 .
0
Si deve considerare
Ack = "k agenzie su 20 registrano una perdita minore del 5% ".
Allora
P (Ack )
20
=
(0.97)k (0.03)20−k ,
k
e Ack ∼ Binom(n, p) con n = 20 e p = 0.97.
k = 0, 1, . . . , 20
Appendice C.
Svolgimenti
229
Svolgimento Esercizio 148. Indichiamo con Di l’evento "telefono i-esimo difettoso" con i = 1, 2. Allora
1
1
1 6
P (Di ) = P (Di ∩ A) + P (Di ∩ B) = P (Di |A) + P (Di |B) =
2
2
2 100
e P (D1 ) è la probabilità di acquistare un telefono difettoso (il primo!).
Si deve ora calcolare
P (D2 |D1 ) =
P (D1 ∩ D2 )
P (D1 )
dove
P (D1 ∩ D2 ) =P (D1 ∩ D2 ∩ A) + P (D1 ∩ D2 ∩ B)
=P (D1 ∩ D2 |A)P (A) + P (D1 ∩ D2 |B)P (B)
2
2
1
5
1
1
+
=
100 2
100 2
1 26
.
=
2 1002
Quindi si ottiene
P (D2 |D1 ) =
2 26 100
13
=
.
2
2 100 6
300
Svolgimento Esercizio 149. Dai dati del problema si evince che
60
100
20
P (A) + P (B) =
100
P (A) = P (B)
e risolvendo (sistema di due equazioni in due incognite, la soluzione è unica!)
12
160
20
P (B) =
.
160
P (A) =
Seguendo la linea del precedente esercizio,
P (D1 ) =P (D1 ∩ A) + P (D1 ∩ B) + P (D1 ∩ (A ∪ B)c )
=P (D1 |A)P (A) + P (D1 |B)P (B) + P (D1 ∩ (A ∪ B)c )
230
12 5
20 1
+
+x
160 100 160 100
80
+ x,
=
160 · 100
con x ∈ (0, 1) variabile incognita,
=
P (D1 ∩ D2 ) =P (D1 ∩ D2 |A)P (A) + P (D1 ∩ D2 |B)P (B) + P (D1 ∩ D2 ∩ (A ∪ B)c )
2
2
5
12
1
20
=
+
+y
100 160
100 160
con y ∈ (0, 1) variabile incognita. Osserviamo che
x = P (D1 ∩ (A ∪ B)c ) = P (D1 |(A ∪ B)c ) P ((A ∪ B)c ),
y =P (D1 ∩ D2 ∩ (A ∪ B)c )
=P (D1 ∩ D2 |(A ∪ B)c ) P ((A ∪ B)c )
=P (D1 |(A ∪ B)c ) P (D2 |(A ∪ B)c ) P ((A ∪ B)c )
e ponendo z = P (D|(A ∪ B)c ), otteniamo
x=
128
z,
160
y=
128 2
z .
160
Allora,
P (D2 |D1 ) =
1 + 4000z 2
,
25 + 4000z
z ∈ (0, 1).
Se P (D|(A ∪ B)c ) = 0 (cioè per z → 0),
P (D2 |D1 ) = 0.04
mentre per P (D|(A ∪ B)c ) ≈ 1,
P (D2 |D1 ) ≈ 0.99
è prossima ad uno.
Svolgimento Esercizio 150.
1. Sia D =”il sensore è difettoso”. Si ha che
P (A) = 0.3 P (B) = 1 − P (A) = 0.7 P (D|A) = 0.15 P (D|B) = 0.12
Quindi, osservando che A∩B = {∅} e A∪B = Ω, dalla formule delle probabilità totali e composta si ottiene P (D) = P (D∩(A∪B)) = P ((D∩A)∪(D∩B)) =
P (D|A)P (A) + P (D|B)P (B)
Appendice C.
Svolgimenti
231
2. Si utilizza la formula di Bayes
P (A|D) =
P (D|A)P (A)
P (D|A)P (A)
=
P (D|A)P (A) + P (D|B)P (B)
P (D)
3. e 4. I sensori sono difettosi in maniera indipendente quindi
P (k su 10|A) =P (su 10 sensori provenienti dalla linea A, k sono difettosi)
10 k
=
p (1 − pA )10−k
k A
dove pA = P (D|A) e P (k su 10|A) è una Bin(10, pA ). Allo stesso modo si
considera Bin(10, pB ) dove pB = P (D|B) per calcolare P (k su 10|B). Quindi
si usa la formula di Bayes e si ottiene
P (A|k su 10) =
P (k su 10|A)P (A)
P (T )
P (B|k su 10) =
P (k su 10|B)P (B)
P (T )
dove P (T ) = P (k su 10|A)P (A) + P (k su 10|B)P (B) = P (k su 10).
Svolgimento Esercizio 151. Sia p = P (vincere) = 0.1, allora
P (vincere per la prima volta al decimo tentativo) = (0.9)9 (0.1)
mentre
10
P (vincere 10 euro) =
(0.1)(0.9)9 .
1
Svolgimento Esercizio 152.
individuata dalla probabilità
Come già visto nel precedente Esercizio 56 la f.r. è
FZ (z) = P (X ≤ zY ),
z > 0.
1. Il dominio della coppia (Y, X) è D = (0, 2) × (0, 1) è un rettangolo. Disegnando il rettangolo in un sistema (Y, X) e disegnando la retta X = zY si deve
identificare
Az = {(y, x) ∈ R2 : x ≤ zy},
z ∈ supp(Z) = (0, ∞)
e la f.r. si deve ottenere considerando la probabilità
P (X ≤ zY ) = P (D ∩ Az ) z > 0.
232
L’insieme D ∩ Az identifica due figure geometriche distinte al variare di z ∈
(0, 1/2) e z ∈ (1/2, ∞) quindi, se z < 1/2
Z 2 Z zy
P (X ≤ zY ) =
dy
dxf(X,Y ) (x, y)
0
mentre per z > 1/2
Z
P (X ≤ zY ) =
1/z
0
zy
Z
Z
dxf(X,Y ) (x, y)
dy
0
1/z
0
1
Z
dyf(X,Y ) (x, y) +
dy
0
2
dove il punto 1/z dell’asse Y è il punto in cui la retta di equazione X = 1
interseca la retta di equazione X = zY (e quindi 1 = zy). La densità congiunta
si fattorizza per il fatto che X ⊥ Y e quindi si ottiene
Z
Z zy
1 2
P (X ≤ zY ) =
dy
dx, z ∈ (0, 1/2)
2 0
0
e
1
P (X ≤ zY ) =
2
Z
1/z
Z
dy
0
0
zy
1
dx +
2
Z
2
Z
1/z
1
dx,
dy
z > 1/2.
0
Quindi
(
P (X ≤ zY ) =
z,
0 < z < 1/2
1
1
1−
+
, 1/2 < z < ∞
2z 4z 2
che è continua nel punto z = 1/2 (e nel punto z = 0)
lim P (X ≤ zY ) = lim P (X ≤ zY ) =
z↑1/2
z↓1/2
1
2
(come ci si aspettava, infatti Z è una v.a. continua) e la f.r. diventa

z≤0

 0,
z,
0
< z ≤ 1/2
FZ (z) =
1

 1 − , z > 1/2
4z
Si osservi che
P (X ≤ zY ) = P (U ∈ Az ∩ D) =
dove U ∼ U nif (D) e |A| = area(A).
|Az ∩ D|
|D|
Appendice C.
Svolgimenti
233
2. Il dominio della coppia (Y, X) è D = (0, ∞) × (0, 1), basta invertire gli assi
nell’Esercizio 56.
3. Il dominio D = R2+ è dato da tutto il primo quadrante e Az ∩ D identifica una
sola figura geometrica (un triangolo) per ogni valore di z > 0. Si deve calcolare
Z ∞ Z zy
dy
dxf(X,Y ) (x, y),
P (X ≤ zY ) =
0
0
con z ∈ supp(Z) = (0, ∞) e per il fatto che X ⊥ Y ,
Z ∞
Z zy
−λy
P (X ≤ zY ) =
dyλe
dxλe−λx ,
0
Z0 ∞
=
dyλe−λy 1 − e−λzy
Z0 ∞
Z ∞
−λy
dyλe
−
dyλe−λy−λzy
=
0
0
Z
λ ∞ 0 −λ0 y
=1 − 0
λe
dove si è posto λ0 = λ(1 + z)
λ 0
1
=1 −
, z > 0.
1+z
Quindi
(
FZ (z) =
0,
z<0
1
, z>0
1−
1+z
I controlli da fare sono
lim FZ (z) = lim FZ (z) = 0,
z↑0
z↓0
lim FZ (z) = 1.
z↑∞
La densità è data da
fZ (z) = (1 + z)−2 1(0,∞) (z),
z ∈ R.
Svolgimento Esercizio 153. Si deve calcolare la f.r.
FZ (z) = P (XY ≤ z) = P (Y ≤ z/Y ) non cambio il verso della dis. perché Y > 0.
1. la coppia (X, Y ) varia in D = (0, 1) × (0, 2), la f.r. si ricava dalla probabilità
P (D ∩ Az ),
z ∈ supp(Z) = (0, 2)
234
dove
Az = {(x, y) ∈ R2 : y ≤ z/x}.
Dal grafico della funzione Y = z/X si vede subito che D ∩ Az identifica una
sola figura geometrica al variare di z e allora si deve calcolare, per z fissato,
Z z/x
Z 1
Z z/2 Z 2
dyf(X,Y ) (x, y)
dx
dyf(X,Y ) (x, y) +
dx
P (D ∩ Az ) =
0
z/2
0
0
dove il punto z/2 sull’asse X è il punto in cui la retta Y = 2 interseca la curva
Y = z/X (cioè 2 = z/X). Per il fatto che X ⊥ Y la congiunta è data dal
prodotto delle marginali,
Z
Z 2
Z
Z z/x
1 z/2
1 1
P (D ∩ Az ) =
dx
dy +
dx
dy
2 0
2 z/2
0
0
Z
Z z/2
z 1 dx
=
dx +
2 z/2 x
0
x=1
z z
= + log x
2 2
x=z/2
z
z
= 1 − log
, z ∈ (0, 2).
2
2
Inoltre,
−2/z
= 0,
z→0 −2/z 2
lim P (D ∩ Az ) = lim
z↓0
lim P (D ∩ Az ) = 1.
z↑2
Quindi,

z≤0
 0,
P (D ∩ Az ), z ∈ (0, 2]
FZ (z) =

1,
z>2
dove si sono considerati i limiti
lim FZ (z) = 0,
z↑0
lim FZ (z) = 1.
z↓2
Derivando la f.r. si ottiene
fZ (z) =
z
1
− log
2
2
1(0,2) (z),
Si osservi che fZ (z) ≥ 0 per ogni z ∈ (0, 2).
z ∈ R.
Appendice C.
Svolgimenti
235
2. Si ha (X, Y ) ∈ D = (0, 1) × (0, ∞) e
Az = {(x, y) ∈ R2 : y ≤ z/x},
z ∈ supp(Z) = (0, ∞).
Come si vede dal grafico, Az ∩ D identifica una sola figura geometrica e quindi,
per ogni z > 0,
1
Z
FZ (z) = P (Az ∩ D) =
z/x
Z
dyf(X,Y ) (x, y)
dx
0
0
dove (X ⊥ Y )
f(X,Y ) (x, y) = fX (x)fY (y) = 1(0,1) (x)λe−λy 1(0,∞) (y).
Quindi, per ogni z > 0
Z
1
P (Az ∩ D) =
z/x
Z
λe−λy
dx
0
Z0 1
z
dx 1 − e−λ x
0
Z 1
z
dx e−λ x
=1 −
=
0
e
FZ (z) =
0,
z≤0
P (Az ∩ D), z > 0
con
Z
fZ (z) = −
1
dx
0
d −λ z
e x
dz
Z
1
=λ
z
e−λ x
0
dx
.
x
Inoltre, FZ (0+ ) = 0, limz→∞ FZ (z) = 1.
3. Si ha che (X, Y ) ∈ D = (0, ∞) × (0, 1) e Az = {(x, y) ∈ R2 : y ≤ z/x}
con Az ∩ D che identifica sempre una sola figura geometrica al crescere di z ∈
supp(Z) = (0, ∞). Si deve fare attenzione al punto di intersezione della retta
Y = 1 con la curva Y = z/X, cioè nel punto z della retta X (1 = z/X), infatti
Z
P (Az ∩ D) =
z
Z
dx
0
1
Z
dyf(X,Y ) (x, y) +
0
∞
Z
dx
z
z/x
dyf(X,Y ) (x, y).
0
236
Utilizzando l’indipendenza delle v.a. ed esplicitando
Z
z
Z
∞
z
x
Z0 z
Zz ∞
dy
=
dxλe−λx +
λze−λzy
y
0
1
P (Az ∩ D) =
dxλe
−λx
dxλe−λx
+
(dove si è posto x = zy nel secondo integrale) e per z ∈ R
0,
z≤0
.
P (Az ∩ D), z > 0
FZ (z) =
Si vede che
Z
lim FZ (z) = 0,
∞
lim FZ (z) = 1 +
z→0
z→∞
1
lim λze−λzy
z→∞
dy
y
=1
dove si è usata la convergenza dell’integrale ed il limite uniforme in y (per ogni
y, la funzione esponenziale decresce più velocemente di ogni polinomio come
z → ∞). Inoltre, si ricava
FZ0 (z)
Z
∞
λe−λx
=fX (z) +
z
1
dx
− z fX (z)
x
z
e
Z
fZ (z) =
∞
−λx dx
λe
z
x
1(0,∞) (z),
z ∈ R.
4. si veda l’Esercizio 64 per µ = λ, in particolare
λ
λ
λe−λz − µe−µz = lim
µze−µz − e−µz
µ→λ λ − µ
µ→λ −1
=λe−λz − λ2 ze−λz
lim
e
fZ (z) = λ2 ze−λz 1(0,∞) (z) =
Quindi Z ∼ Gamma(λ, 2).
λ2 2−1 −λz
z e 1(0,∞) (z),
Γ(2)
z ∈ R.
Appendice C.
Svolgimenti
237
Svolgimento Esercizio 155. La v.a. Y ∈ supp(Y ) = (1, ∞) è continua quindi
consideriamo la f.r.
FY (y) =P (|X − 1|−1 ≤ y) tutte quantità positive
1
=P
≤ |X − 1|
y
1
1
=P (X − 1 ≤ − ) ∪ (X − 1 ≥ )
y
y
1
1
=P (X ≤ 1 − ) ∪ (X ≥ 1 + )
y
y
1
1
+P X ≥1+
=P X ≤ 1 −
y
y
1
=P X ≤ 1 −
+ P (∅)
y
1
=1 − , y > 1.
y
Si vede subito che FY (y) → 0 se y → 1 e FY (y) → ∞ se y → 0. Inoltre
fY (y) = FY0 (y) 1(1,∞) (y),
y ∈ R.
Svolgimento Esercizio 156. Si deve considerare la f.r. di Z e l’evento certo ΩX =
(X ≤ Y ) ∪ (X > Y ). Otteniamo
FZ (z) =P (|X − Y | ≤ z)
=P (|X − Y | ≤ z) ∩ [(X ≤ Y ) ∪ (X > Y )]
=P [(|X − Y | ≤ z) ∩ (X ≤ Y )] ∪ [(|X − Y | ≤ z) ∩ (X > Y )]
= [gli eventi sono incompatibili, legge delle prob. totali]
=P (|X − Y | ≤ z) ∩ (X ≤ Y ) + P (|X − Y | ≤ z) ∩ (X > Y )
= [utilizzo le informazioni X ≤ Y e X > Y ]
=P (Y − X ≤ z) ∩ (X ≤ Y ) + P (X − Y ≤ z) ∩ (X > Y )
=P (Y ≤ z + X) ∩ (X ≤ Y ) + P (X ≤ z + Y ) ∩ (Y < X)
=P X ≤ Y ≤ z + X + P Y < X ≤ z + Y
=2P X ≤ Y ≤ z + X
(entrambe le v.a. sono uniformi).
Dal grafico sul piano (X, Y ) si vede quindi che per z ∈ supp(|X − Y |) = (0, 1),
Z 1−z Z z+x
Z 1
Z 1
FZ (z) =2
dx
dy +
dx
dy
0
x
1−z
x
238
=2z − z 2
e quindi
fZ (z) = FZ0 (z)1(0,1) (z),
z ∈ R.
Per verificare che FZ sia una f.r. basta osservare che fZ ≥ 0 (la f.r. è non decrescente)
e FZ (z) → 0 se z → 0, FZ (z) → 1 se z → 1. Inoltre, potevamo ricavare la f.r.
FZ considerando le aree del quadrato unitario sopra e sotto la retta Y = z + X,
ovvero il triangolo superiore del quadrato ha area 1/2 mentre il triangolo sopra la retta
Y = z + X ha area (1 − z)2 /2. Quindi tra le due rette troviamo un area pari a
z2
1 (1 − z)2
−
=z− .
2
2
2
Dovendo calcolare due aree uguali, si moltiplica per 2 e si ottiene il risultato cercato.
Svolgimento Esercizio 157. La v.a Y è continua e quindi studiamo la f.r.
FY (y) = P (Y ≤ y),
dove
y ∈ supp(g(X, U ))
s
1
g(x, u) = x − ln u,
λ
x ≥ 0, 0 ≤ u ≤ 1.
In particolare, supp(Y ) = (0, ∞). Si può procedere in diversi modi, ad esempio
1
2
2
FY (y) =P − y ≤ X − ln U ≤ y
λ
1
1
2
2
=P − y ≤ X − ln U, X − ln U ≤ y
λ
λ
1
1
2
2
=P X ≥ −y + ln U, X ≤ y + ln U
λ
λ
1
= essendo ln u < 0 per ogni u ∈ (0, 1)
λ
1
2
=P X ≥ 0, X ≤ y + ln U
λ
= [essendo (X ≥ 0) = ΩX ]
1
2
=P X ≤ y + ln U .
λ
Appendice C.
Svolgimenti
239
Dal grafico si ottiene
Z
1
Z
1
y2 + λ
ln u
du
FY (y) =
e−λy2
dxλe−λx .
0
Vogliamo mostrare un procedimento più immediato, si deve notare che
1
P − ln U ≤ z = P (U ≥ e−λz ) = 1 − e−λz , z > 0.
λ
Quindi la v.a. Z = 1/λ ln U è una esponenziale di parametro λ > 0 e Z ⊥ X per il
fatto che U ⊥ X. Sappiamo che la somma di due esponenziali di parametro λ è una
Gamma, in particolare Z + X ∼ Gamma(λ, 2), quindi |X + Z| = X + Z e
Z
2
y2
FY (y) = P (X + Z ≤ y ) =
λ2 w2−1 e−λw dw,
y > 0.
0
Si ricava,
2
fY (y) = 2λ2 y 3 e−λy 1(0,∞) (y),
Svolgimento Esercizio 158. Sia λ =
P (X(1) > z) =
n
Y
Pn
k=1
y ∈ R.
λk . Per il minimo di v.a. si ha
P (Xk > z) =
n
Y
e−λk z = e−λz
k=1
k=1
quindi X(1) ∼ Exp(λ). Inoltre,
P (Z ≤ z) =
n
Y
P (Xk ≤ z) =
n
Y
FXk (z),
z>0
k=1
k=1
per cui
fZ (z) =
n
X
fXk (z)
k=1
Y
FXs (z)1(0,∞) (z),
z ∈ R.
s6=k
Svolgimento Esercizio 159.
1 − FZn (z) =P (Zn > z) = P (X1 > z, . . . , Xn > z)
Z 1
n
=
1(0,1) (u)du
z
240
da cui si ricava

z≤0
 0,
n
1 − (1 − z) , 0 < z ≤ 1
FZn (z) =

1,
z>1
che tende, per n → ∞,
FZ (z) =
0, z < 0
1, z ≥ 0
Diciamo che Zn → 0 in distribuzione che implica Zn → 0 in probabilità perché Z = 0
è una v.a. degenere. Inoltre si vede che il minimo di v.a. in (0, 1) converge q.c. a 0.
Svolgimento Esercizio 160.
vede inoltre che
La v.a. Zn è stata studiata nel precedente esercizio. Si

y≤0
 0,
1 − (1 − y/n)n , 0 < y ≤ n
FYn (y) =

1,
y>n
da cui Yn → Exp(1) in distribuzione.
Bibliografia
[1] P. Baldi. Calcolo delle probabilità. McGraw Hill, 2011.
[2] K. L. Chung. A Course in Probability Theory. Academic Press, 2000.
[3] E. Giusti. Analisi matematica 2. Bollati Boringhieri, 1994.
[4] E. Giusti. Analisi matematica 1. Bollati Boringhieri, 1996.
[5] I. S. Gradshteyn and I. M. Ryzhik. Tables of integrals, series, and products.
Academic Press, Elsevier Inc., 2007.
[6] E. Orsingher and L. Beghin. Introduzione alla probabilità. Dalle nozioni
fondamentali alle applicazioni. Carocci editore, 2009.
[7] S. M. Ross. Calcolo delle probabilità. Apogeo, ultima versione.
[8] S. M. Ross. Probabilità e statistica per l’ingegneria e le scienze. Apogeo, ultima
versione.
[9] W. Rudin. Real and complex analysis. McGraw-Hill, 1987.
[10] A. Tesei. Istituzioni di analisi superiore. Bollati Boringhieri, 1997.
[11] A. W. van der Vaart. Asymptotic Statistics. Cambridge University Press., 2006.
241
Indice analitico
approssimazioni
di v.a., 95
covarianza, 66
decile, 198
dipendenza, 79
binomio di Newton, 187
disposizioni
con ripetizione, 47
calcolo combinatorio, 46
semplici, 47
campione
disuguaglianza
grande, approssimazioni, 95
di Boole, 36
numerosità ottima, 157
di Chebyshev, 114
centile, 198
di Doob, 116
combinazioni
di Hölder, 34
con ripetizione, 48
di Jensen, 34
semplici, 10
di Kolmogorov, 116
continuità
di Lévy, 115
di funzioni, 56
di Markov, 114
separata, 75
di Marshal, 116
convergenza
p
di Minkowski, 34
in L , 30, 120
in distribuzione, in legge, debole, 116 divergenza di v.a., 125
in media, 119
eventi
in media quadratica, 119
compatibili, 36
in misura, 30
complementari, 36
in probabilità, in misura, 118
incompatibili, 36
pointwise, 29
indipendenti, 40
puntuale, 29
quasi certa, forte, 120
formula
quasi completa, 121
di Bayes, 42
quasi ovunque, q.o., 30
di duplicazione, 193
stabile, 122
di riflessione, 193
uniforme, 29
funzione
convergenze, 29
caratteristica, 107
convoluzione, 88
continua, 56
correlazione, 77
convessa, 33
242
INDICE ANALITICO
dei momenti generalizzati, 113
di Lipschitz (o Lipshitziana), 60
di verosimiglianza, 142, 155
Gamma, 193
generatrice dei momenti, 112
generatrice delle probabilità, 113
limitata, 60
uniformemente limitata, 60
identità di Wald, 96
indice
di Bravais-Pearson, 77
indicie
di correlazione, 77
legge
debole dei grandi numeri, 125
delle pr. composte a più alternative,
42
delle probabilità composte, 38
delle probabilità totali, 38
forte dei grandi numeri, 126
limite
centrale, 126
limiti
notevoli, 106
mancanza di memoria, 77
media, 66
media
campionaria, 2
memoria, 77
metodo
dei minimi quadrati, 158
dei momenti, 159
di massima verosimiglianza, 155
Monte Carlo, 128
misura
di conteggio, 25
di Dirac, 26
di Lebesgue, 24
243
modello
aleatorio, 66
deterministico, 66
lineare, 70, 77
momenti, 66
numeri casuali
generatori, 101
passeggiata aleatoria, 96
percentile, 198
permutazioni
con ripetizione, 47
semplici, 9
popolazione
finita, 137
virtuale, 142
problema MMC, 130
quantile, 198
quartile, 198
random walk, 96
regola del
ne fisso uno, 12
procedo per iterazioni successive, 14
serie
armonica, 104
di funzioni, 104
di Maclaurin, 105
di potenze, 106
di Taylor, 105
geometrica, 106
numerica, 103
telescopica, 104
simulazione, 101
soluzione MMC, 130
somme
aleatorie, 96
di v.a., 88
spettro, 63–65
244
statistica
descrittiva, 1
funzione, 1
inferenziale, 15, 145
stima
dei minimi quadrati, 158
dei momenti, 159
di Bayes, 159
di massima verosimiglianza, 155
per intervalli, 156
successioni
monotone di v.a., 99
supporto, 55, 57, 64, 65
tabella di contingenza, 79
tempi di attesa, 99
test
del χ2 , 165
di Kolmogorov-Smirnov, 166
valore
atteso, 66
medio, 66
variabile
χ-quadrato, 82
Bernoulli, 186
Beta, 197
Binomiale, 186
Cauchy, 194
Chi-quadrato, 197
degenere, 118
di Fisher-Snedecor, 198
di Poisson, 189
di Student, 197
Esponenziale, 192
Gamma, 192
Geometrica, 184
Ipergeometrica, 189
media campionaria, 6
Multinomiale, 188
Normale, 194
Normale Multidimensionale, 196
Uniforme continua, 191
Uniforme discreta, 183
varianza campionaria corretta, 82
Weibull, 197
Zipf, 184
variabili
i.i.d., 72
indipendenti, 72
ordinate, 96, 99
varianza, 66
varianza
campionaria, 2
campionaria corretta, 82
INDICE ANALITICO
Finito di stampare (ultima modifica) il 5 maggio 2015 utilizzando LATEX 2ε
245
Scarica