StatisticaAutogestita-Book

Alessandro Reina
Laura Sorgiacomo
Paolo Rotta
1
“Anyone who has never made a mistake has never tried anything new.”
[Albert Einstein]
2
Indice
04-10-2004
08-10-2004
11-10-2004
15-10-2004
18-10-2004
22-10-2004
25-10-2004
29-10-2004
05-11-2004
08-11-2004
12-11-2004
15-11-2004
19-11-2004
22-11-2004
26-11-2004
29-11-2004
03-12-2004
10-12-2004
13-12-2004
17-12-2004
20-12-2004
10-01-2005
14-01-2005
17-01-2005
21-01-2005
24-01-2005
4
6
8
11
15
18
22
26
29
34
34
38
41
46
51
55
58
63
68
74
77
80
83
87
91
95
3
4-10-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Gnedenko 1931
Il Calcolo della probabilità è quel ramo della matematica che si occupa di modelli
matematici, di fenomeni casuali aventi la proprietà della stabilità della frequenza.
I fenomeni casuali sono quei fenomeni con i quali si possono ottenere risultati differenti a
parità di condizioni iniziali.
I fenomeni deterministici sono quei fenomeni che grazie alla conoscienza delle condizioni
iniziali determinano l’evoluzione futura del sistema.
Ripasso sugli insiemi
Differenza simmetria, A B , corrisponde agli elementi che
appartengono sia ad A che a B ma non a tutti e due.
A B = (A
A
B)
B )C
(A
B
La cardinalità di un insieme è il numero degli elementi dell’insieme stesso.
Dato un insieme A indicheremo la sua cardinalità con la notazione A .
A = {a, b, c}
A =3
L’insieme delle parti di un insieme è costituito da tutti i sottoinsiemi dello stesso
insieme.Per ogni insieme B , l’insieme delle sue parti sarà ( B ) = 2 B
Nell’esempio si prima:
( A) ={{a, b, c} , {a, b} , {a, c} , {b, c} , {a} , {b} , {c} , {
La cardinalità dell’insieme delle parti di A è:
P( A) = 23 = 8
Il prodotto cartesiano è:
C = A× B
A × B = {( , )
A,
B}
4
}}
Ad esempio dati gli insiemi seguenti:
A = {c, d }
B = {7, 42}
Il prodotto cartesiano è:
A × B = {(c,7), (c, 42), (d , 7), (d , 42)}
Cardinalità del prodotto cartesiano:
Se A = n
e B =m
allora
A × B = nm
A × B = 2* 2 = 4
definizione di coppia ordinata:
(a, b) ={{a} , {a, b}}
(b, a) = {{b} , {a, b}}
Tips: Notare bene l’ordine lessicografico!!!
Ovvero data la coppia ordinata
(a, b)
Il suo insieme è esso stesso un insieme i cui elementi sono gli insiemi di {a, b} ed {a} .
{a, b} ovviamente è diversa da {b, a}
che è l’insieme degli elementi su {b, a} e {b} .
5
8-10-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Secondo il nostro “linguaggio naturale” il concetto di funzione può essere espresso nel
modo seguente:
Una funzione f è una regola che associa ad ogni elemento di un insieme di partenza A uno
e uno solo punto di un insieme di arrivo B. L’insieme di partenza A viene chiamata dominio
mentre l’insieme di arrivo B è chiamato codominio.
In termini matematici si può rappresentare come di seguito:
f
A B
( x
A) !( y
B ) : ( x, y )
f
Una funzione f con dominio A e codominio B, è una collezione di coppie ordinate (x,y),
con x appartenente ad A e y appartenente a B, dove ogni elemento dell’insieme A appare
come primo elemento di una coppia ordinata. Non esistono due coppie ordinate che
abbiano lo stesso primo elemento.
Esempio 1.
Determinare la funzione che descrive l’area di un rettangolo.
y
1
A (insieme ambiente)
b2
R
a2
a1
b1
1
x
R= (a1 , b1 ) × (a2 , b)
f :R
A
(b1 a1 )(b2 a2 )
Base
Altezza
Area
6
Modello Kolmogoroviano
Uno spazio di probabilità è una terna ordinata formata da:
( , , P)
= spazio campionario oppure insieme degli esiti
= insieme degli eventi (un evento è una proprietà di interesse)
P = funzione di probabilità
Consideriamo:
Spazio campionario:
Insieme degli eventi:
( )
A
Ac
A
,B
(A
Esempio:
= { A, Ac , , }
B)
Funzione di probabilità:
P:
( × )
P
P( ) = 1 evento certo
A
P ( A) 0
7
11-10-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Articolo I.
Articolo II.
Ripresa del modello Kolmogoroviano
Definizione: è una tripletta ( , , p ) ,dove
è uno spazio campionario, è una collezione
di eventi e p è una funzione di probabilità con dominio (vedere lezione del 8\10)
Esempio 1:
M = {nomi di tutti i cittadini di Milano}
Dati due insiemi
A = numero di cittadini favorevoli a un partito
B = numero di cittadini non favorevoli.
Indichiamo con :
P(A) la probabilità che per la prima estrazione abbia un cittadino favorevole ad un partito;
P(B) la probabilità che per la prima estrazione abbia un cittadino non favorevole.
Poniamo:
A
Ac
P ( A)
0
= { A, Ac , ,
}
rappresenta i milanesi che non sono milanesi
nuove proprietà:
A
,B
A B
P(A
( )
c
A e B sono proprietà di interesse perché appartengono a
B ) = P ( A ) + P ( B ) se A
B=
cioè se sono mutuamente esclusivi
Quindi per calcolare la probabilità che si verificano entrambi gli eventi si deve sommare la
probabilità che si verifichi A con la probabilità che si verifichi B.
Per cercare di capire meglio l’ ultima proprietà scritta facciamo un ulteriore esempio:
Esempio 2:
Prendiamo un dado e lo lanciamo solo una volta.
Alessandro scommette sui pari (P(A)) e Laura scommette sui dispari(P(B))
A = {2, 4, 6}
B = {1,3,5}
= {Tutte le facce del dado con rispettivi numeri}
ovvero: = {1, 2,3, 4,5, 6, 7}
= { A, AC = B, ,
P(
) =1
P( ) = 0
C
=
}
scommetto che con un lancio possa uscire 1 o 2 …6
scommetto che esca 7
scommettere che esca pari ( P( A) ), significa che ho 3 possibilità sul totale (=6) ;
scommettere che esca dispari ( P ( B ) ) , significa che ho ancora 3 possibilità sul totale;
8
scommettere che mi esca pari o dispari ( P ( A
Ipotesi:
A
B
A B=
B ) ) , significa sommare le due probabilità.
i due insiemi devono essere disgiunti ovvero mutuamente esclusivi
Tesi:
P ( A B ) = P ( A) + P ( B )
IMPORTANTE: visto che la probabilità dell’evento certo( P (
dell’evento nullo( P (
fra 0 e 1 compresi.
) )=1 e visto che la probabilità
) )=0, allora la funzione di probabilità sarà compreso
Sezione 2.01 Altri esempi:
Esempio 3:
P( ) = 1
Dimostriamo che P( ) = 0
Poniamo:
A=
B=
Per l’assioma:
P( A B) = P( A) + P( B)
A B=
A
,B
Quindi:
P( A B) = P( A) + P( B) =
P( ) + P( ) = P( ) = 0
Esempio 4:
= {1, 2,3, 4,5, 6}
A = {2, 4, 6}
B = {4,6}
9
in un intervallo
B
A
P (B)
Ogni esito che soddisfa la probabilità B soddisfa anche la A
P ( A)
(A
A= B
(
Bc )
(A
P ( A) = P B
A
Bc = A
B
A=B
Bc )
)
Ciò che ci manca è dimostrare che:
A B
Ipotesi:
A
B
Tesi:
A B
Dimostrazione:
A
B=
(( A
B)
) =(A
c c
c
Bc ) = A
c
B
Cosa succede se A e B non sono disgiunti?
Cioè se A B
Ipotesi:
A
B
Tesi:
P ( A B ) = P ( A) + P ( B ) P ( A
B)
Dimostrazione:
A
B=A
P(A
B=B
(B
Ac )
B ) = P ( A) + P ( B
=B
P (B) = P ( B
(A
Ac )
Ac ) = ( B
A) + P ( B
A)
(B
Ac )
Ac )
P(B
Ac ) = P ( B ) P ( B
P(A
B ) = P ( A) + P ( B ) P ( B
A)
A)
10
15-10-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Ripasso veloce:
Modello Kolmogoroviano:
{ ,{
{
{
,
} ,{
, , P}}
} = spazio misurabile
, P} = spazio misurato
,
,
Ovvero: ( , , P )
1.
Ac
,A
,A
,B
(A
B)
2.
A
,B
(A
B)
3.
A
,B
A = (A
B)
(A
Bc )
4.
A
P( A) 0
P( ) = 1
A
,B
(A
B) =
P( A
B) = P( A) + P( B)
5.
P( ) = 0
6.
A
B
P( A)
P( B)
7.
A
0
P ( A) 1
11
8.
P( Ac ) = 1 P( A)
9.
P( A) = P( A B) + P( A
Bc )
10.
i j
Bi B j =
n
Bi =
i =1
P( A) = P( A
B1 ) + P( A
B2 ) + ... + P( A
Bn )
11.
A
,B
P ( A B ) = P ( A) + P ( B ) P ( A
Teorema del piastrellista
B)
( , , P)
1) che cosa significa? (“non siamo filosofi
”)
2) quali dati sperimentali devo raccogliere per assegnarla utilimente?
3) supposta assegnata che previsione fà?
Keyword: misurazione (ciò che si misura ad esempio in laboratorio, ...)
Variabile casuale: è una funzione definita su
a valori in
.
Esempio 1:
Definiamo una variabile che associa 1 sse il numero uscito laciando il dado è pari.
= {1, 2,3, 4,5, 6}
1
X ( w) =
0
{w
b
Se w è pari
altrimenti
:X ( w) = 1}
, {w
: X ( w) b}
12
Esempio 2:
Sia dato l’insieme rappresentante tutti i cittadini milanesi:
= {1, 2,3,..., n}
Voglio prendere un certificato a caso (esperimento casuale).
A
cittadini filogovernativi
c
A
cittadini non filogovernativi
c
B=A
L’insieme degli eventi sarà così costituito:
= { A, Ac , , }
Osserviamo l’insieme degli esiti in modo ordinato, evidenziando sulla sinistra i cittadini
filogovernativi mentre sulla destra i non filogovernativi.
= {1, 2,..., na , na +1 ,..., n}
Identifichiamo i cittadini filogovernativi:
1...na = n
Identifichiamo i cittadini non filogovernativi:
na +1...n = nb
Definiamo la variabile casuale che mi permette di sapere se ho avuto successo di trovare
cittadini filogovernativi, ricercando tra cittadini a caso:
I A ( x) =
1; x A
0; x A
1.{ x
: I A ( x) = 1} = A
A
2.{ x
: I A ( x) = 0} = Ac
Ac
3.{ x
: I A ( x) 17} =
Il numero 17 nel punto 3 non è sbagliato ,ma non ci serve perché in realtà sappiamo che i
valori possono essere solamente compresi tra 0 e 1.
13
b<0
{x
: I A ( x) b} =
0 b <1
{x
: I A ( x) b} = Ac
Ac
Poniamoci ora un’altra domanda:
E è funzione età
E:x
Numero di giorni intercorsi tra la sua nascita e una data fissata
{x
: E ( x) (40*365)} = Q
Q
A
Q
Q
Q
Ac
E’ una domanda ben posta ma Q non appartiene a nessun sottoinsieme di
Quindi E non è una variabile casuale ammissibile per il problema dato.
Posso dire anche che:
P( A) = P({ x
: I A ( x) = 1})
P( B) = P({ x
: I A ( x) = 0})
Formalizzando:
X:
si dice essere funzione utile o variabile casuale
b
{x
: X ( x) b}
14
.
18-10-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Si dice funzione di ripartizione di una variabile casuale X, quella funzione che ha per
dominio la retta reale e codominio l’intervallo [0,1]
e che soddisfa
FX ( x ) = P ( X
(
)
x ) = P {w : X ( w )
x} per ogni numero reale x.
( , )
X:
c
{w
: X ( w) c}
P( X
c) = P(" X
che possiamo scrivere come " X
c ") = P({w
: X ( w) c}) = FX (c)
Conoscendo FX possiamo rispondere a:
{w
: X ( w) b} = {w
a
P({w
P(a < X
: X ( w) a}
{w
: a < X ( w) b}
b
: a < X ( w) b}) = P({w
b) = P ( X
c"
b) P ( X
: X ( w) b}) P({w
a)
P(a < X
: X ( w) a})
b) = FX (b) FX (a)
Esercizio: proiezione delle votazioni elettorali
Supponiamo le seguenti condizioni:
- si vota in un solo seggio;
- votano n cittadini;
- si possono votare solo due partiti:
e ;
- non ci sono schede bianche o nulle;
- possiamo identificare il cittadino della scheda estratta.
Il partito
Il partito
ottiene n voti.
ottiene n voti, che coincide con n = n n .
Vogliamo sapere
n
n
n
e
che coincide con 1
.
n
n
n
15
Dopo aver mischiato bene l’urna elettorale, per dare un’equiprobabilità ad ogni scheda,
possiamo scegliere in modo arbitrario una scheda da estrarre nell’insieme degli esiti
possibili: 1 = {1, 2,..., n}
Avviene solo una estrazione
Gli eventi possibili sono dunque:
1
= ({1},{2},...,{n}) .
Il nostro spazio campionario è dunque: (
1
,
1
, P1 ???) .
Sapendo che A = {i1 , i2 ,..., i| A| } vogliamo calcolare P1 ( A) .
Se | A |= 0 allora P ( A) = 0 (evento impossibile).
Se A = n allora P ( A) = 1 (evento certo).
P1 ( A) = P1 ({i1 , i2 ,...i| A| }) = P1 ({i1} {i2 } ... {i| A| }) = P1 ({i1}) + P1 ({i2 }) + ... + P1 ({i| A| })
Essendo in condizioni di equiprobabilità:
P1 ({i1}) = P1 ({i2 }) = ... = P1 ({i| A| }) =| A | *P1 ({id }) con 1 < d <| A | , quindi | A | *
Considerando | A |= n , avremo n *
1
n
1
1
= 1 ; dove: la prima n è | A | e è P1 ({i}) con 1 i
n
n
n.
Ovvero il numero di palline totali moltiplicato la probabilità di un singolo evento (in
condizioni di equiprobabilità sono tutte uguali) .
Da questo ricaviamo che P1 ( A) =
| A|
|B|
e P1 ( B) =
.
n
n
| A|
è uguale alla concentrazione di schede per A contenute nell’urna che
n
A n
indicheremo con C quindi C =
=
.
n
n
|B|
Nello stesso modo
è uguale alla concentrazione di schede per B contenute nell’urna
n
B n
che indicheremo con C quindi C =
=
.
n
n
Notiamo che
Introduciamo la variabile casuale
con i
X 1 (i ) =
1.
Se X 1 =1 allora
1
se i
A
0
se i
B
ha almeno un voto, quindi sappiamo che C > 0 .
16
Consideriamo ora che vengano effettuate due estrazioni
(
2
=
2
= (
1
i
1
2
)
2
2
=
1
(
2
) =2
2
,
2
2
1
, P2 ???)
P2 ( ) = 0
P2 (
2
) =1
P2 ({i1 , i2 } =
1
n2
In questo caso con reimmissione, si hanno n scelte di palline per la prima estrazione e n
scelte per la seconda estrazione. Ci sono così n 2 scelte in totale.
17
22-10-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Consideriamo un’urna con palline bianche e palline nere.
n = numero di palline totali (bianche più nere)
n = numero di palline bianche
n = numero di palline nere
n =n +n
c =
c =
n
n
n
concentrazione di palline bianche
concentrazione di palline nere
n
m =numero di estrazioni
nel caso m=1:
1
= {1, 2,3,..., n}
In generale in m estrazioni con reimmissione:
m
=
1
*....*
1
= {( i1 , i2 ,..., im ) ; ik
1
, k = 1,.., m}
Esempio:
A
1
con A = { palline nere
B
con B = { palline bianche
1
IB (" ) =
1
Se "
B
0
Se "
B
}
}
“La prima pallina estratta è bianca”
( i1 , i2 ,..., im ) =
1
0
( i1 , i2 ,..., im ) = 1 se
( i1 , i2 ,..., im ) = 0
i1
B
se i1
B
18
Mi interessa sapere la i1 pallina
X 1 è una variabile causale
X1 :
X 1 ( ( i1 , i2 ,..., im ) ) = I B ( i1 ) dove i1 è la prima estrazione
X 2 ( ( i1 , i2 ,..., im ) ) = I B ( i2 ) i2 e la seconda estrazione
X m ( ( i1 , i2 ,..., im 1 , im ) ) = I B ( im ) im è la m-esima estrazione
m
= (i1 , i2 ,...im )
Consideriamo ora Sm e la definiamo come il numero di successi in m prove considerate
(è una VARIABILE CASUALE)
Si scrive in questo modo:
Sm =”numero di di successi nelle m prove”
Sm ( ( i1 , i2 ,..., im ) ) = I B ( i1 ) + I B ( i2 ) + ... + I B ( im )
NB: Sm indica la quantità di successi (estrazione palline bianche)
Ma quanto è la frequenza di successi?
S m X 1 + X 2 + ... + X m
=
m
m
Per capire meglio quest’ultimo passaggio facciamo un esempio :
Se escono Sm = 10 palline bianche la frequenza, con m = 15 , è
NB: anche
10
.
15
Sm
è una variabile casuale e m è il numero di prove.
m
Attenzione non stiamo parlando di probabilità,ma stiamo facendo una stima.
Esistono due modalità di estrazione :
•
Con reimissione(ad esempio pesco una scheda dall’urna e poi la rimetto dentro),
che indicheremo Pc.r
•
Senza reimissione indicheremo con Qs.r
19
Consideriamo ora la modalità con reimissione.
(
P
m
(
,
m
), P)
({( i , i ,..., i )}) = n1
1
2
m
m
=
1
|
m
|
S m X 1 + X 2 + ... + X m
=
m
m
X 1 può assumere il valore 0 o il valore 1
P (" X 1 = 1") = P
(
{( i1 , i2 ,..., im )
m
1
: i1
)
B} =
n * nm
n
m
1
=
n * nm * n
n
m
1
=
n *n
1
Abbiamo calcolato P (" X 1 = 1") , ma quanto vale P (" X k = 1") ?
Che probabilità ho che alla k –esima estrazione esca una pallina bianca
Consideriamo k compreso tra 1 e m cioè:
1 k
m
P (" X k = 1") =
n * nm
nm
1
=
n
n
=c
Consideriamo la modalità senza reimissione
(
m
(
,
m
) , Qs.r )
Qs.r (" X k = 1")
Suppongo n = m (voglio svuotare l’urna)
= {( i1 , i2 ,..., im )}
m
|
m
|= n m
X 1 = ( ( i1 , i2 ,..., im ) ) = I B ( i1 )
Q
|
({( i , i ,..., i )}) = ?
1
2
m
|= n ! numero di eventi accettabili
Q
({( i , i ,..., i )}) = 0 se " è un evento negativo
Q
({( i , i ,..., i )}) = n1! se "
1
1
2
2
m
m
Q ( " X 1 = 1") =
n * ( n 1) !
n!
=
è un evento positivo
n * ( n 1) !
n * ( n 1) !
=
n
n
20
1
=
n
n
Questo calcolo probabilistico vale per la prima estrazione ma anche per la k-esima
estrazione:
Q ( " X k = 1") =
n * ( n 1) !
n!
=
n
n
21
25-10-2004
Alessandro Reina, Laura Sorgiacomo. Paolo Rotta
Consideriamo il nostro solito esempio sulle schede favorevoli ad un determinato partito
M = numero di estrazioni che si effettueranno
m = numero di estrazioni che noi osserveremo
.
• • • • • • • • • • • • • • • •M
m
1
= {1, 2,..., n}
B = {" schede favorevoli al parito
B
"}
1
I B ( w) =
1 se w favorevole al partito
0 se w favorevole al partito
Variabile casuale che assegna uno se si ha un successo alla prima estrazione
X 1 ((i1 , i2 ,..., iM )) = I B (i1 )
Variabile casuale che assegna uno se si ha un successo alla k-esima estrazione
X 1 ((i1 , i2 ,..., ik ,..., iM )) = I B (ik )
M
=
1
*
1
*
1
*
1
*
1
*
1
*
1
*...*
1
M
P con reimmissione
((
M
, (
M
),
)
P senza reimmissione
Pc.r . ( X 1 = 1) =
Pc.r . ( X 2 = 1) =
n
n
n
n
...
Pc.r . ( X m = 1) =
n
n
Ovviamente si considera sempre l’inizio dell’esperimento in quanto, se solo fossimo alla
seconda estrazione, e alla prima ci fosse stato un successo, il numero di palline da
considerare sarebbe n 1 nel caso senza reimmissione.
Condizione: M = n (numero di estrazioni totali uguale al numero di palline totali)
n
Qs.r . ( X 1 = 1) =
n
n
Qs.r . ( X 2 = 1) =
n
22
...
n
Qs.r . ( X n = 1) =
n
n
1
Qs.r . ( X k = 1) = * n (n 1)! =
n!
n
1
è la probabilità di ogni singolo evento
n!
n indica che nella prima prova ho estratto una pallina bianca
(n 1)! siccome ho avuto un successo nella prova precedente ora ho una pallina bianca in
meno nell’urna per le restanti n-uple.
C =
n
n
concentrazione iniziale (prima che iniziano le estrazione)
Variabile casuale (non è un numero!!!)
Sm = X 1 + X 2 + ... + X m
Per m sufficientemente grandi abbiamo che:
Sm n
(non è uguale è circa uguale )
m
n
Poniamoci la seguente domanda nel caso reimmissione:
Pc.r . (( X 1 = 1) $ ( X 2 = 1)) =
Pc.r . ({(i1 ,..., iM )
n * n * nM
2
M
: i1
B}) =
B $ i2
2
%n &
=' ( =
n
n n * n )
Pc.r . ( X 1 = 1) * Pc.r . ( X 2 = 1)
M
=
n
*
n
Ora nel caso senza reimmissione:
Qs.r . (( X 1 = 1) $ ( X 2 = 1)) =
Qs.r . ({(i1 ,..., iM )
M
: i1
B}) =
B $ i2
A differenza della modalità di estrazione con reimmissione non tutti gli eventi elementari
hanno la stessa probabilità.
=
1
* n *(n
n!
1) *(n 2)! =
In generale: P ( A
B)
n
n
*
(n
1)
(n 1)
P ( A) * P ( B )
23
Se ogni volta che faccio una estrazione e vedo il colore della pallina ne aggiungo all’urna
una del medesimo colore otterrò:
n
Qs.r . (( X 1 = 1) $ ( X 2 = 1)) =
n
*
n +1
n +1
Nelle condizioni di estrazione con reimmissione, esaminiamo il caso in cui venga estratta
una pallina in posizione h e una pallina in posizione k:
Pc.r . (( X h = 1) $ ( X k = 1)) =
Pc.r . ({(i1 ,..., iM )
n * n * nM
2
M
: ih
B}) =
B $ ik
2
%n &
= * =' ( =
M
n
n n * n )
Pc.r . ( X h = 1) * Pc.r . ( X k = 1)
n
n
Nelle condizione di estrazione senza reimmissione, esaminiamo il caso in cui venga
estratta una pallina in posizione h e una pallina in posizione k:
Qs.r . (( X h = 1) $ ( X k = 1)) =
Qs.r . ({(i1 ,..., iM )
1
* n * (n
n!
M
: ih
B}) =
B $ ik
1) *(n 2) ! =
n
n
*
(n
1)
(n 1)
Pc.r . ( Bh
Bk ) = Pc.r . ( Bh ) * Pc.r . ( Bk )
Qs.r . ( Bh
Bk ) Qs.r . ( Bh ) * Qs.r . ( Bk )
Inziamo ad intrudurre un nuovo concetto: la probabilità condizionata
n 1
Qs.r . ( Bh Bk ) = Qs.r . ( Bh )*
n 1
h = 1, k = 1
n 1
Qs.r . ( B1 B2 ) = Qs.r . ( B1 ) *
n 1
Questa è la probabilità che all’evento B2 attribuisce un giocatore che ha già visto
presentarsi l’evento B1 alla prima prova.
Qs.r . ( B1 B2 ) n 1
=
Qs.r . ( B1 )
n 1
Qs.r . ( B1 B2 )
= Qs.r . ( B2 B1 )
Qs.r . ( B1 )
24
A1 = B1c
Q ( A1
B2 ) = Q ( A1 ) *
Q ( B2 | A1 ) =
Q ( A1
Q ( A1
B2 )
Q ( A1 )
=
n
* Q ( B2 | A1 )
n
n
n 1
B2 ) =
({( i ,..., i ) : i
1
n
1
A, i2
)
B} =
1
* n * n * ( n 2 )! =
n!
1
è la probabilità di ogni singolo evento
n!
n indica che nella prima prova ho estratto una pallina nera
n indica che nella seconda prova ho estratto una pallina bianca
(n 2)! siccome ho estratto una pallina bianca e una nera ora ci sono due palline in meno
nell’urna per le restanti n-uple possibili.
=
n *n
n * ( n 1)
Q ( B1
= Q ( A1 ) *
A2 ) = Q ( B1 ) *
n
n 1
n %n n &
Q ( B1 A2 ) n
= * Q ( A2 | B1 ) = * '
(
Q ( B1 )
n
n * n 1 )
25
29-10-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Inziamo con il sottolineare una frase comune che può provocare equivoci:
Non si parla di “La probabilità di un certo evento” in quanto dipende da come viene
effettuato l’esperimento (condizioni sperimentali).
In condizione di modalità di estrazione con reimmissione gli eventi elementari hanno la
stessa probabilità mentre nella modalità senza reimmissione gli eventi elementari non
hanno la stessa probabilità.
Negli appunti della precedente lezione eravamo arrivati alla conclusione che nel calcolo
della probabilità condizionata nella condizione che l’esperimento avvenisse senza
reimmissione:
n n 1
Q( B1 B2 ) = *
n n 1
Definiamo quinidi in maniera precisa il concetto di probabilità condizionata:
Considerando la tripletta: ( , , P+ )
C
,D
e P+ (C ) > 0
La probabilità condizionata è come di seguito scritta:
P (D C)
P+ ( D C ) = +
P+ (C )
Probabilità di D sotto condizione sperimentali + e sotto condizione dell’evento C
Studiamo ora il secondo membro della moltiplicazione precedente:
n
1
n 1
=
P+ ( B1 B2 )
P+ ( B1 )
dove + indica le condizioni sperimentali con le quali stiamo lavorando
Considerando la tripletta ( , , P+ )
Se + indica l’estrazione con reimmissione allora
P+ ( B1 B2 )
= P+ ( B2 )
P+ ( B1 )
Mentre è diverso se + indica che la modalità di estrazione avviene senza reimmissione
P+ ( B1 B2 )
P+ ( B2 )
P+ ( B1 )
Teniamo presente che è la probabilità condizionata di
n n 1
*
n 1
Ps.r . ( B2 | B1 ) = n n 1 =
n
n 1
n
26
La probabilità condizionata viene utilizzata molto spesso quando si cerca la probabilità di
un intersezione.
P+ (C D) = P+ (C ) * P+ ( D C )
Esercizio:
Data la tripletta ( , , P ) e gli eventi D
, C1
e C2
dove C1 C2 =
(eventi
mutuamente esclusivi), C1 C2 = , sapendo che P(C1 ) > 0 e P(C2 ) > 0 per calcolare
P ( D) potremo fare i seguenti calcoli:
(utilizzo della proprietà distributiva)
D=D
= D (C1 C2 ) = ( D C1 ) ( D C2 )
quindi
P( D) = P(( D C1 ) ( D C2 )) = P( D C1 ) + P( D C2 )) =
P( D C1 )
P ( D C2 )
=
* P (C1 ) +
* P(C2 ) = P( D | C1 )* P(C1 ) + P( D | C2 )* P(C2 )
P(C1 )
P(C2 )
Quindi posso calcolare P( D) sotto condizione sperimentali e sotto condizioni di C1 e C2
Se ora poniamo B1 = C1 e A1 = B1c =C2 (infatti C1
Psr ( B2 ) = Psr ( B2 | B1 )* Psr ( B1 ) + Psr ( B2 | A1 ) * Psr ( A1 )
C2 =
) e B2 = D
Analizziamo nel particolare:
Psr ( B2 | B1 ) =
n
1
n 1
probabilità di avere successo alla seconda prova dopo che si è svolta
una prima prova con successo
Psr ( B1 ) =
n
probabilità successo nella prima prova
n
Psr ( B2 | A1 ) =
n
n 1
probabilità che nella seconda prova ci sia un successo se nella prima
c’è stato un insuccesso
Psr ( A1 ) = 1
n
n
probabilità che nella prima prova ci sia un insucesso
Quindi
Psr ( B2 ) = Psr ( B2 | B1 )* Psr ( B1 ) + Psr ( B2 | A1 ) * Psr ( A1 ) =
1 n
(n n ) * n
n
% n & (n 1) * n
+
+
=
*
* '1
(=
n 1 n n 1 *
n )
n * (n 1)
n * (n 1)
n 2 n + n*n n 2 n*n n
n * (n 1) n
=
=
=
n * (n 1)
n * (n 1)
n * (n 1)
n
n
Quindi, senza reimmissione, Psr ( Bk ) =
n
n
27
Infatti Psr ( Bk ) = Psr ( Bk | B1 ) * Psr ( B1 ) + Psr ( Bk | A1 ) * Psr ( A1 ) =
Dimostriamo ora che Psr ( Bi
Bi +1 ) =
n
*
n
n
1 n
n
n n
n
* +
*
=
n 1 n n 1
n
n
1
n n 1
Pensando di fare l’estrazione k 1 su un’urna con una pallina in meno (bianca o nera), per
induzione, avremo che:
Bk +1 ) = P( Bk Bk +1 | B1 ) * P( B1 ) + P( Bk Bk +1 | A1 ) * P( A1 ) =
n 1 n 2 n
n
n 1 n n
n *(n 1) *(n 2) + n (n 1)(n n )
=
*
* +
*
*
=
=
n 1 n 2 n n 1 n 2
n
n *(n 1)*(n 2)
n *(n 2 n 2n + 2) + (n 2 n ) *(n n ) n 3 3n 2 + 2n + n * n 2 n * n n 3 + n
=
=
n *(n 1) *(n 2)
n *(n 1) *(n 2)
2
2
n + n * n + 2n nn
n ( 2n + n * n + 2 n) n *(n 1)*(n 2) n n 1
=
=
=
= *
n *(n 1)*(n 2)
n *(n 1)*(n 2)
n *(n 1) *(n 2)
n n 1
Psr ( Bk
2
=
Svolgendo gli stessi calcoli troveremo anche che
Psr ( B1 B3 ) = P( B1 B3 | B2 ) * P( B2 ) + P( B1 B3 | A2 ) * P( A2 )
Se invece + indica l’estrazione con reimmissione, abbiamo già dimostrato più volte che
2
n
%n &
P( Bi ) =
e anche P( B1 B2 ) = P( B1 ) * P( B2 ) = ' (
n
* n )
Per completezza dimostriamo comunque che:
Bk +1 ) = P(( Bk
P( Bk
2
%n & %n
' ( *'
* n ) * n
Bk +1 ) B1 ) P( B1 ) + P(( Bk
Bk +1 ) A1 ) P( A1 ) =
2
& %n & % n &
( + ' ( * '1
(
n )
) * n ) *
Inoltre dato i
j si ottiene che:
2
%n &
P( Bi B j ) = P( Bi ) * P( B j ) = ' (
* n )
Dato lo spazio campionario ( , , P+ ) e gli eventi D
indipendente dall’evento C se P ( D | C ) = P ( D )
,C
, diremo che l’evento D è
Se + indica l’estrazione con reimmissione Pcr ( B2 | B1 ) = Pcr ( B2 ) =
n
n
e quindi B2 è indipendente da B1 .
Se, invece, + indica l’estrazione senza reimmissione Pcr ( B2 | B1 ) Pcr ( B2 ) in quanto
n 1
. Quindi nella modalità di estrazione senza reimmissione diremo che
P( B2 ) =
n 1
B2 dipende dall’evento B1 .
28
5-11-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Articolo III. Definiamo ancora una volta :
P probabilità con modalità con estrazione
Q probabilità con modalità senza estrazione
Bi evento che alla i-esima prova abbia una pallina bianca
Ai = Bic
Modalità di estrazione con reimmissione
P ( Bi ) =
n
n
Se invece guardiamo due prove distinte ( i
P ( Bi
j ) con Bi e B j successi
2
%n &
B j ) = ' ( = P ( Bi ) * P ( B j )
* n )
dove P ( Bi ) = P ( B j ) perché le condizioni in cui eseguo le due estrazioni i e j sono le
stesse (infatti dopo avere eseguito un’estrazione reinserisco la pallina nell’urna).
Quindi otterremo che la probabilità che si verifichi una pallina bianca alla
estrazione è proprio P ( B j ) .
j-esima
In formula: P ( B j Bi ) = P ( B j )
B j risulta indipendente da Bi nel caso di estrazione con reimmissione.
Modalità di estrazione senza reimmissione
n
Q ( Bi ) =
n
Se invece guardiamo due prove distinte ( i
Q ( Bi
Bj ) =
n
n
*
n
1
n 1
= Q ( Bi ) *
n
1
n 1
j ) , con Bi e B j successi
= Q ( Bi ) * Q ( B j Bi )
Attenzione: Q ( B j Bi ) Q ( B j )
Quindi la probabilità condizionata di avere un successo B j dopo aver avuto un successo
nella prova Bi non è uguale B j come nella modalità con reimmissione. B j risulta
dipendente da Bi nel caso di estrazione senza reimmissione.
29
Consideriamo ora la tripletta
(
, , R)
R è la funzione di probabilità!
C
D
Proprietà:
I. D si dice indipendente da C se:
R( D C ) = R ( D )
cioè se
R(D
C)
R (C )
= R ( D)
R (C ) > 0
con
R ( D ) 0 (necessaria per ciò che vogliamo raggiungere)
II. R ( C ) *
Quindi
III.
R ( D C ) R ( D)
R(D C)
1
=
= R (C )
*
* R (C ) =
R ( D)
R (C )
R ( D)
R ( D)
R (C
D)
R (D)
R (C D )
= R (C )
R (D)
= R ( C ) = R(C D)
R (C
D ) = R (C ) * R ( D )
R (C D )
= R ( D)
R (C )
I) implica II) che implica III) che implica a sua volta I).
Quindi D e C sono indipendenti se R ( C
D ) = R (C ) * R ( D )
In italiano diremmo che C è indipendente dal presentarsi o non presentarsi di D .
30
Esercizio1:
Data la tripletta
(
, , P ) ,due eventi H
e K
indipendenti dimostrare che lo sono
anche H e K c
Ipotesi:
P(H K ) = P(H )* P(K )
Tesi:
P(H
K c ) = P ( H )* P (K c )
“Se due coniugi sono separati, allora, il marito è separato dalla moglie e la moglie è
separata dal marito”
Dimostrazione:
K Kc =
K
Kc =
P(Kc ) + P(K ) =1
P(H ) = P(H
P(H
Kc) =
) = P ( H ( K K c )) = P (( H K ) ( H K c )) = P ( H K ) + P ( H K c )
P ( H K ) + P ( H ) = P ( H ) * P ( K ) + P ( H ) = P ( H ) * (1 P ( K ) ) = P ( H ) * P ( K c )
Esercizio2:
Da un’urna estraiamo con reimissione tre palline: abbiamo tre eventi indipendenti B1 , B2 e
B3 .
P ( B1
B3 ) = P ( B1 ) * P ( B2 ) * P ( B3 ) =
n * n * n * nM
3
n 3 * nM * n
3
=
nM
nM
NB:Questa formula in generale non vale, me nel nostro esempio sì.
B2
3
%n &
= 3 =' (
n
* n )
n
3
Tre eventi si dicono indipendenti se ciascuna coppia è indipendente e se la probabilità
della intersezione degli eventi è uguale al prodotto delle probabilità di ogni singolo evento.
Una terna di eventi è indipendenti se ogni coppia lo è ( B1
P ( B1
B2
B3 ) = P ( B1 ) * P ( B2 ) * P ( B3 )
31
B2 ) , ( B2
B3 ) , ( B1
B3 ) e se
Esempio3:
Ci sono m estrazioni con modalità con reimissione.
In quali di queste estrazioni comparirà per la prima volta una scheda favorevole al mio
partito?
P ("T = K ") = P ( A1
A2 ...
n
dove P ( Bk ) = c =
n
Ak
1
Bk ) = P ( A1 ) * P ( A2 ) * P ( Ak
1
) * P ( Bk ) = (1
c
)
k 1
*c
.
Cosa è T?
T agisce su un esito dell’esperimento i1 , i2 ..., in palline. Agisce sull’indice in cui si trova per
la prima volta la pallina bianca.
T ( ( i1 , i2 ,..., iM 1 , iM ) )
E’ un ciclo che esce con M, o se una pallina è bianca
1 k M 1
P ( " T = k ") =
k=M
Nel primo caso la probabilità si calcolerà : (1 c
)
k 1
*c
Nel secondo caso la probabilità si calcolerà: (1 c ) M
P ("T = M ") = P ( A1
A2
...
AM
1
1
)
Sm = numeri successi
S m = X 1 + X 2 + X m = I B1 + I B2 + I Bm
Guardo le palline che sono nelle prime m posizioni
m
S m ( ( i1 ,..., im , im +1 , iM ) ) = , ( if ix
x =1
P (" Sm = 0") = P ( A1
P ( A ) = (1 P ( B1 ) )
c =
n
n
m
A2
Am ) = P ( A1 ) * P ( A2 ) *...* P ( Am )
...
% n &
= '1
(
n )
*
B 1, else 0 )
m
=p
P (" S m = 0") = (1 p )
m
P (" S m = 1") = m * p * (1 p )
m 1
m
%n &
m
P(" S m = m ") = P( B1 B2 ... Bm ) = '
( =p
* n )
dove m mi permette di scegliere il modo di estrazione
dove p * (1 p )
m 1
è la probabilità di avere successo in una preassegnata prova
% m&
m
P (" Sm = 2") = ' ( * p 2 (1 p )
*2 )
2
32
IN GENERALE:
Distribuzione Binomiale
%m&
m
P (" S m = k ") = ' ( * p k * (1 p )
*k )
1< k < m
p k prefissate prove
(1
p)
m k
k
insuccesso in m k prefissate prove
% m&
' ( numero di sottoinsiemi di numerosità k su un insieme di numerosità m
*k )
33
(08 e 12)-11-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Riassiumiamo i concetti sulla legge di distribuzione binomiale:
n
p= C =
n
P( S m = 0)=(1 p ) m
P ( S m = m) = p m
%m&
P( Sm = k ) = ' ( p k (1 p ) m
*k )
0 k m
k
La legge è svincolata che la modalità di estrazione avvenga con o senza reimmissione.
%m&
' ( rappresenta un sottoinsieme di numerosità k in un insieme di numerosità m
*k )
Ora supponiamo una scatola in cui ci sono m palline.
Le posso scegliere in m ! modi.
Scelgo poi k palline e le metto nelle prime k posizioni.
Le posso scegliere in k ! modi.
Le rimanenti palline le posso scegliere in (m k )! modi.
In questo modo stiamo scoprendo come viene fuori il binomiale...
%m&
m ! = ' ( k !(m k )!
*k )
%m&
m!
=' (
k !(m k )! * k )
%m&
' ( =1
*m)
%m&
'0 ( =1
* )
Mostriamo ad esempio un grafico che rappresenta sottoinsiemi di k palline da un insieme
di 50 palline (m = 50)
Binomiale @50,kD
1.2 × 10
14
1× 10 1 4
8× 10 1 3
6× 10
13
4× 10 1 3
2× 10 1 3
10
20
30
40
50
k
34
Come nelle elezioni americane, possiamo sapere il vincitore dopo un’estrazione parziale di
S
m schede. Significa che conoscendo m supponiamo il valore di C .
m
Nella lezione di oggi, prendiamo in considerazione estrazioni con reimmissione (sarà più
semplice visto che sono estrazioni indipendenti fra loro).
Estratte m schede, valuteremo Sm , calcoleremo
Sm
e assegneremo questo valore, come
m
congettura, a C .
Prendiamo in considerazione il campione
X 1 , X 2 ,..., X m
1 se è a favore di
Xi =
0 altrimenti
Calcoliamo quindi:
m
Sm
=
m
,X
i =1
m
i
(stimatore di C )
Sarà la quantità di successi, diviso il numero di prove.
Ricordiamo che m è una variabile da assegnare. Dobbiamo sceglierla in modo ottimale in
quanto:
- se troppo piccola, rischio di sbagliare;
- se troppo grande, devo aspettare troppo tempo.
Noi non conosciamo il risultato di X 1 , ma sappiamo che sarà a favore di
Che relazione vogliamo che ci sia tra C e
oppure no.
Sm
?
m
Sm
- dove - > 0
C
m
Se stiamo estraendo con reimmissione, non esiste un valore che posso assegnare ad
m per il quale la disuaglianza sia sicuramente vera. Se invece estraiamo senza
S
reimmissione e m = n , allora m = C .
m
%S
&
Vogliamo sapere quanto vale P ' m C
- ( ? - Funzione di - , di m , ma non di C .
* m
)
A noi interessa che la loro differenza non superi un certo errore:
Dato lo spazio campionario ( , , P ) e la variabile casuale Z possiamo studiare
| Z a | b dove a e b equivalgono a costanti decise a priori; studiare questa
disuguaglianza significa studiare l’insieme degli esiti che la soddisfano.
35
P (| Z a | b) = 1 P (| Z a |> b)
P (| Z a |> b) ?
Ci chiediamo quindi quant’è la probabilità che Z non cada nell’intervallo (a b, a + b) .
Z può assumere k valori, che indicheremo con zi . Supponiamo di conoscere P( Z = zi ) zi .
Allora
,
P(| Z a |> b)
i:| zi a| >b
| zi
a |> b
| zi
a|
b
P ( Z = zi )
>1
a)2
( zi
b
2
> 12
quindi
,
P(| Z a |> b)
i:1<
( zi a )2
k
,
1* P( Z = zi )
( zi
a)2
b2
i =1
* P ( Z = zi )
b2
Infine, diremo che:
1 k
P(| Z a |> b)
, ( zi a ) 2 * P ( Z = zi )
b 2 i =1
Ora ci poniamo la seguente domanda:
considerando b fissato, quale valore dovrà assumere a per far sì che
k
, (z
i =1
i
a ) 2 * P ( Z = zi ) assuma valore minimo?
Per fare ciò dovremo calcolarne la derivata prima e indicheremo il risultato con a .
k
g (a ) = , ( zi
i =1
k
a ) 2 * P( Z = zi )
g '(a ) = , 2( zi
i =1
a ) * P( Z = zi ) =
k
, 2( z
i =1
i
a) * P( Z = zi )
La costante 2 possiamo non considerarla. Dobbiamo cercare il valore da assegnare ad a :
k
k
i =1
i =1
zi * P( Z = zi ) a * P( Z = zi ) = , zi * P( Z = zi ) a * , P( Z = zi )
k
quindi
k
k
i =1
i =1
, zi * P(Z = zi ) = a * , P(Z = zi ) e allora a =
, z * P( Z = z )
i
i =1
i
k
, P( Z = z )
i =1
.
i
Se osserviamo, il denominatore, vale 1, in quanto è la sommatoria della probabilità di tutti
k
gli eventi. Quindi troviamo che a = , zi * P ( Z = zi ) .
i =1
Chiamiamo, ora, il valore P( Z = zi ) con la lettera pi con i = 1, 2,..., k .
36
Il valore
k
, z * p viene definito “valore atteso della variabile casuale Z” e lo indicheremo
i =1
i
i
con µ Z .
P(| Z
µ Z |> b)
Il valore
k
, (z
i =1
i
1 k
* , ( zi µ Z ) 2 * P ( Z = zi )
2
b i =1
1
b2
k
, (z
i =1
i
a ) 2 * P ( Z = zi )
µ Z ) 2 * P( Z = zi ) viene chiamato “varianza di Z” e si indica con var( Z ) .
Anche la varianza è un valore atteso dove però la variabile casuale è differente:
Z = ( zi µ Z ) 2 .
Concediamoci un po’ di calcoli matematici per arrivare ad una conclusione:
1
var( Z )
P(| Z µ Z |> b)
* var( Z ) =
2
b
b2
Ricordiamo che b è una costante che definiamo noi; poniamo allora b = r * var( Z ) , quindi:
var( Z )
1
P | Z µ Z |> r * var( Z )
= 2
2
r * var( Z ) r
% Z µ
& 1
Z
P'
> r(
' var( Z )
( r2
*
)
1
Notiamo come P , Z , µ Z e var( Z ) non li conosciamo. Conosciamo solo i valori r e 2 .
r
(
)
37
15-11-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
%S
Come abbiamo già ripetuto più volte, stiamo provando che P ' m
* m
di p .
&
g(
)
p
f ( g , m) e non
Sia Z un’assegnata variabile casuale su un assegnato spazio campionario ( , , P )
supponendo che
sia finito e che Z assuma k valori.
a
e
b > 0 avremo: P(| Z a | b) 1
1 k
* , ( zi
b 2 i =1
a ) 2 * P ( Z = zi )
k
a è la scelta ottimale per rendere minima la sommatoria e vale a = , zi * P ( Z = zi ) . Questo
i =1
valore viene detto “valore atteso” della variabile casuale Z e lo indicheremo con /( Z ) o
µZ .
Il valore minimo della sommatoria è dunque
k
, ( zi
i =1
k
a ) 2 * P ( Z = zi ) = , ( z i
i =1
µ Z ) 2 * P ( Z = zi )
e viene detto “varianza di Z ” e indicato con var( Z ) ed è il valore atteso di ( zi
µZ )2 .
Introduciamo oggi il concetto di deviazione standard della variabile casuale Z che
indicheremo con 0 Z e indica
var( Z ) o anche
/(( zi
µ Z )2 ) .
Quindi la nostra disequazione iniziale possiamo scriverla come P(| Z
Poniamo ora b = r *0 Z dove r > 0 e Z > 0 .
1
P(| Z µ Z | (r * 0 Z )) 1
* 0 Z 2 e come
2
(r *0 Z )
% Z µZ
arriveremo a P ''
* 0Z
abbiam
visto
la
µ Z | b) 1
lezione
1
*0 Z 2 .
2
b
precedente
&
1
r (( 1 2 .
r
)
Se noi puntiamo su un intervallo [ µ Z 0 Z , µ Z + 0 Z ] e supponiamo di conoscere r = 2 , allora
% Z µZ
P ''
* 0Z
&
1
= 0.75 .
2 (( 1
4
)
Se Z assume solo 0,1 allora P( Z = 1) = p e P( Z = 0) = 1 p .
38
% m&
P( Z = k ) = ' ( p k (1 p )m k * I{0,1,...,m} (k ) dove
*k)
I{0,1,...,m} (k ) è la “funzione indicatrice”, in modo da controllare che non vengano assegnati
Se Z assume valori da 0 a m , allora
valori alla variabile casuale che essa non può assumere.
Sostituendo P( S m = k ) nella funzione della variabile casuale, troveremo
m
/( S m ) = , k *
k =0
m!
* p k (1 p )m
k !* (m k )!
k
Ricordiamo che il binomio di Newton è
m
%m&
,' k (*a
k
* bm
k
= ( a + b) m .
* )
Potremmo utilizzare questa uguaglianza nella nostra funzione /( Sm ) se non ci fosse la
k =0
k moltiplicata al binomiale. Vediamo infatti che verrebbe ( p + 1 p )m = 1m = 1 .
Dobbiamo fare un po’ di passaggi per ricondurci alla forma corretta.
Possiamo far partire la sommatoria da k = 1 perché con k = 0 , l’espressione vale 0 ; inoltre
%m&
m!
1
1
1
ricordiamo che ' ( =
e che k * = k *
=
k!
k *(k 1)! (k 1)!
* k ) k !* (m k )!
La sommatoria, quindi, diventa:
m
, (k
k =1
m!
* p k *(1 p ) m
1)!*(m k )!
k
Sostituiamo k con h + 1 , ossia h = k 1 .
m 1
m * (m 1)!
* p h +1 *(1 p )( m 1) h
,
h)!
h = 0 h !*(( m 1)
Ora per arrivare alla forma che vogliamo, portiam fuori dalla sommatoria le costanti m e p .
m 1
(m 1)!
* p h *(1 p )( m 1) h
m* p*,
h)!
h = 0 h !* (( m 1)
La sommatoria vale 1, quindi /( S m ) = mp .
m
%m&
E ( S m ) = , ' ( * p k *(1 p) m k * k = mp
k =0 * k )
%S
E' m
*m
k
1& 1
1
& m %m& k
%
m k
( = , ' k ( * p *(1 p) * m = / ' Sm i m ( = m / ( S m ) = mp m = p
*
)
) k =0 * )
1
%S &
Se vogliamo cercare E ' m ( basterà portar fuori la costante dalla sommatoria e quindi
m
*m)
n
1
%S &
troveremo / ' m ( = mp * = p = C =
m
n
*m)
39
Possiamo dimostrare questa uguaglianza in altri modi, esaminiamone uno.
Supponiamo che l’uguaglianza sia vera per m 1 prove.
Se m = 1 allora /( X 1 ) = 0* (1 p ) + 1* p = 1* p = p .
Supponiamo che qualunque m 1 prove, risulti vero /( Sm 1 ) = (m 1) * p .
m
/( S m ) = , k * P( X 1 + X 2 + ... + X m = k ) =
k =0
m
m
= , k * P( X 1 + ... + X m = k | X 1 = 1) * P( X 1 = 1) + , k * P( X 1 + ... + X m = k | X 1 = 0)* P( X 1 = 0) =
k =0
k =0
m
m
k =0
k =0
= P( X 1 = 1)* , k * P( X 1 + ... + X m = k | X 1 = 1) + P( X 1 = 0) * , k * P( X 1 + ... + X m = k | X 1 = 0) =
Facciamo alcune considerazioni.
Siccome stiamo lavorando con reimmissione, la dipendenza dalla prima estrazione delle
estrazioni successive non c’è, quindi P( X 1 + ... + X m = k | X 1 = 1) = P( X 1 + ... + X m = k ) .
Nella probabilità della prima sommatoria possiamo notare che, avendo un risultato positivo
alla prima estrazione, k non varrà mai 0, allora la sommatoria può partire da k = 1 .
Nella probabilità della seconda sommatoria possiamo notare che, avendo un risultato non
positivo alla prima estrazione, allora la sommatoria può arrivare fino a m 1 .
Inoltre ricordiamo che P( X 1 = 1) = p e che P( X 1 = 0) = 1 p
Quindi:
m
m 1
k =1
k =0
= p * , k * P( X 2 + ... + X m = k 1) + (1 p ) * , k * P( X 2 + ... + X m = k 1) =
m 1
m 1
= p * , (h + 1) * P( X 2 + ... + X m = h) + (1 p ) * , k * P( X 2 + ... + X m = k )
h =0
k =0
m 1
m 1
m 1
h =0
k =0
= p * , h * P( X 2 + ... + X m = h) + p * , 1* P( X 2 + ... + X m = k ) + (1 p ) * , k * P( X 2 + ... + X m = k )
h =0
Notiamo che
m 1
, k * P( X
k =0
2
+ ... + X m = k ) = /( S m 1 ) = (m 1) * p , quindi:
/( S m ) = (1 p ) * (m 1)* p + p *(m 1) * p + p = mp mp 2
40
p + p 2 + mp 2
p 2 + p = mp
19-11-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Sia Sm = X 1 + X 2 + ... + X m la variabile casuale somma dei successi.
Procederemo ora considerando la modalità con reimmissione.
%m&
P( Sm = k ) = ' ( p k (1 p ) m k * I{0,1,...,m} (k )
*k)
p=C =
n
n
q = 1 p probabilità di insuccesso
h=k 1
/( Sm ) valore atteso
m
m
k =0
k =0
/( S m ) = , k * P ( S m = k ) = , k
m
% m 1& k 1 ( m
= mp , '
(p q
k =1 * k 1 )
1) ( k 1)
m!
pk qm
k !(m k )!
k
m
m(m 1)!
pk qm
(k 1))!
k =1 (k 1)!(( m 1)
=,
m 1
= mp ,1* P( Sm = h) = mp
h =0
1
/( Sm ) = mp
con reimmissione
mp m 1
%S & m k
/ ' m ( = , P(Sm = k ) =
,1* P( Sm 1 = h) = p
m h=0
* m ) k =0 m
1
%S
/' m
*m
&
(= p
)
con reimmissione
Abbiamo così dimostrato anche le seguenti proprietà:
/(1) = 1
/( Z ) = /( Z )
41
k
=
Supponiamo ora: Sm = X 1 + X 2 + ... + X m 1 + X m
Sm = X 1 +
Sm
1
In uno schema di m estrazioni ci chiediamo che la quantità di successi sia pari a k .
P( Sm = k )
P( Sm = k ) = P( X 1 + X 2 + ... + X m = k ) = P( X 1 + Sm 1 = k ) =
=P((( X 1 + S m 1 = k )
= P(( Sm 1 = k )
( X 1 = 0))
(( X 1 + Sm 1 = k )
( X 1 = 0)) + P(( Sm 1 = k 1)
( X 1 = 1)) =
( X 1 = 1)) =
Si annulla se k = m
Si annulla se k = 0
(ex: se faccio 10
estrazioni è impossibile
avere 10 successi
quando il primo è
andato male)
=
P(( S m 1 = k ) ( X 1 = 0)) P( X 1 = 0) P(( S m 1 = k 1) ( X 1 = 1)) P( X 1 = 1)
+
=
P( X 1 = 0)
P( X 1 = 1)
Moltiplicando e dividendo il primo membro per la probabilità di insuccesso nella prima
prova e il secondo membro per la probabilità di successo nella prima estrazioni ci portiamo
nelle condizioni e quindi nella corretta espressione della probabilità condizionata.
P( Sm = k ) = P(( Sm 1 = k ) | ( X 1 = 0)) P( X 1 = 0) + P (( Sm 1 = k 1) | ( X 1 = 1)) P( X 1 = 1)
m
/( Sm ) = , kP( Sm = k )
k =0
m
m 1
k =0
k =0
, kP(Sm = k ) = , kP((Sm 1 = k ) | ( X 1 = 0)) P( X1 = 0) +
m
+ , kP(( Sm 1 = k 1) | ( X 1 = 1)) P( X 1 = 1)
k =1
m 1
/( Sm ) = P( X 1 = 0), kP(( Sm 1 = k ) | ( X 1 = 0)) +
k =0
m
+ P( X 1 = 1), kP(( Sm 1 = k 1) | ( X 1 = 1))
k =1
42
Imponiamo h = k 1
m 1
/( S m ) = P( X 1 = 0), kP(( S m 1 = k ) | ( X 1 = 0)) +
k =0
m 1
+ P( X 1 = 1), (h + 1) P(( S m 1 = h) | ( X 1 = 1))
h =0
Ora eseguiamo questo passaggio sottile ma importante, possiamo dividere in due parti il
m 1
secondo addendo P( X 1 = 1), (h + 1) P(( S m 1 = h) | ( X 1 = 1)) dato che abbiamo h + 1 . Quindi:
h =0
m 1
m 1
h =0
h=0
P( X 1 = 1), hP(( S m 1 = h) | ( X 1 = 1)) + P( X 1 = 1),1P(( S m 1 = h) | ( X 1 = 1))
1
m 1
/( S m ) = P( X 1 = 0), kP(( S m 1 = k ) | ( X 1 = 0)) +
k =0
m 1
+ P( X 1 = 1), hP(( Sm 1 = h) | ( X 1 = 1)) +
h =0
+ P( X 1 = 1)
Sappiamo che /( S1 ) = /( X 1 ) dove X 1 è la nostra variabile bernoulliana.
P( X 1 = 0) = 0* q
Inoltre :
P( X 1 = 1) = 1* p
Quindi:
/( S1 ) = p
/( Sm 1 ) = (m 1) p
m-1 estrazioni con concentrazione p di palline bianche
m 1
/( Sm ) = q , kP( Sm 1 = k ) +
k =0
m 1
+ p, kP( Sm 1 = k ) +
k =0
+p
m 1
/( S m ) = (q + p ), kP( S m 1 = k ) + p =
k =0
= /( S m 1 ) + p = (m 1) p + p = mp
/( Sm ) = mp
43
Ed eccoci finalmente a trattare il caso della modalità senza reimmissione
?
Q( S m = k ) = P( Sm = k )
m
, kQ( S
k =0
m
= k ) = f (m, p)
???
Supponiamo m = 1
/( S1 ) = Q( X 1 = 1) = p
palline bianche presenti nell ' urna al
momento di effettuare la prima di (m 1)
/( S m 1 ) = (m 1) *
estrazioni
totale di palline presenti nell ' urna al
momento di effettuare la prima di (m 1)
estrazioni
*
1
*
*
*
Sm
q =1 p =1
=
=
=
*
1
n
n
1 n
+
=
n 1
n 1 n
n
n
p (m 1)
+ ( p + q )(m 1)
=
n
n 1
n 1
n (n 1) + (m 1)n n n (m 1)
=
n(n 1)
n (n 1 + nm n m + 1)
=
n(n 1)
n (nm m) n m(n 1) n m
=
=
n(n 1)
n(n 1)
n
/( S m ) = q(m 1)
=
*
/( S m ) = m
n
+ p(m 1)
n
n
n
n
%S &
/' m ( =
=p
*m) n
44
Quindi lavorando sia con sia senza reimmissione:
%S
P' m
* m
%S
&
- ( = P' m
)
* m
p
%S &
/' m (
*m)
&
-( 1
)
%S &
var ' m (
*m)
-2
Possiamo notare che
%S &
var ' m (
* m ) = 1 % 1 * var( S m ) & = 1 var( S m )
1
' 2
-2
- 2 ()
m2 * - 2
*m
inoltre
%S
- > 0 lim P ' m
m 1
* m
p
&
- ( =1
)
Introduciamo ora la seguente proprietà:
var( Z ) =
2
* var( Z )
costante
Dimostrazione:
var( Z ) = /(( Z /( Z )) 2 ) = /(( Z
= 2 * var( Z )
* /( Z )) 2 ) = /(
45
2
*( Z /( Z )) 2 ) =
2
* /(( Z /( Z ))2 ) =
22-11-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Proprietà Valore Atteso:
1) / ( k ) = k
k costante
2) / ( X ) = / ( X )
3) / ( X 1 + X 2 ) = / ( X 1 ) + / ( X 2 )
4) / ( Y + Z ) = / (Y ) + / ( Z )
5) / ( Y +
)=
/ (Y ) +
Dimostriamo la proprietà 3:
Y = y1 , y2 ,..., yh
Z = z1 , z2 ,..., zk
h
k
/ ( Y + Z ) = ,, ( yi + z j ) * P(Y = yi $ Z = z j ) =
i =1 j =1
h
k
h
k
= ,, yi * P (Y = yi $ Z = z j ) + ,, z j * P(Y = yi $ Z = z j ) =
i =1 j =1
i =1 j =1
Le sommatorie si possono invertire come preferiamo. Invertiamo la seconda in modo da
poter portar fuori la z j .
h
k
k
h
i =1
j =1
j =1
i =1
= , yi , P(Y = yi $ Z = z j ) + , z j , P(Y = yi $ Z = z j ) =
k
, P(Y = y $ Z = z )
Notiamo come in
j =1
h
, P(Y = y $ Z = z ) dove
i
i =1
j
h
k
i =1
j =1
i
j
la P ( Z = z j ) sia uguale a 1. Lo stesso vale per la
P(Y = y j ) è uguale a 1. Quindi:
= , yi * P(Y = yi ) + , z j * P( Z = z j ) =
Quindi concludiamo con il seguente risultato: / ( Y ) + / ( Z )
46
Proprietà Varianza:
1) var ( Z ) =
2
var ( Z )
2) var (1) = 0 dimostrazione:var (1) = / ( (1 1) 2 ) = 0
3) var ( Z +
) = var ( Z )
4) cov (Y , Z ) = cov( Z , Y ) = / ( (Y / ( Y ))*( Z / ( Z )) )
5) var (Y + Z ) = var (Y ) + var ( Z ) + 2 cov (Y , Z )
6) var ( Y + Z ) =
2
var ( Y ) +
2
var ( Z ) + 2
Dimostriamo la proprietà 3:
Ricordiamo: var( Z ) = /
(
var( Z + ) = / ( Z +
(
= / ( Z /( Z ) )
2
((
Z /( Z ) )
/( Z + ) )
2
) = var ( Z )
2
cov (Y , Z )
)
) = / (( Z +
/( Z )
)
2
)=
Dimostriamo la proprietà 5:
(
var (Y + Z ) = / ( (Y + Z ) / (Y + Z ) )
(
= / ( (Y
2
) = / ( ( (Y
/ (Y ) ) + ( Z / ( Z ) )
)
) )=
2
= / (Y / ( Y ) ) + ( Z / ( Z ) ) + 2 (Y / ( Y ) ) * ( Z / ( Z ) ) =
2
2
) (
)
(
)
/ ( Y ) ) + / ( Z / ( Z ) ) + 2/ ( Y / ( Y ) ) * ( Z / ( Z ) ) =
2
2
var (Y ) + var ( Z ) + 2 cov (Y , Z )
Abbiamo così introdotto un nuovo concetto, quello di covarianza:
cov(Y , Z ) = / (Y / (Y ) ) * ( Z / ( Z ) )
(
)
Andiamo ora all’origine dei nostri problemi:
%S &
var ' m (
%S
&
*m)
P' m p - ( 1
-2
* m
)
Ad esempio, dobbiamo saper prendere un campione “piccolo” di sangue in modo da
stimare la concentrazione dei globuli rossi presenti nel nostro corpo, con un errore molto piccolo.
Andremo a dimostrare che Sm cresce con m meno rapidamente di m 2 ottenendo così che
comunque si assegni - > 0 il:
%S
lim P ' m
m 1
* m
p
&
- ( = 1 (Legge debole dei grandi numeri)
)
47
%S &
Cerchiamo di determinare la var ' m ( con un po’ di calcoli:
*m)
2
%% 1 m
& &
%S &
var ' m ( = / ' ' * , ( X i p ) ( ( = ricordiamo che a 2 = a * a, quindi
' * m i =1
*m)
) ()
*
%1 m
/' *, (Xi
* m i =1
& %1 m
p) ( * / ' , ( X j
) * m j =1
&
% 1 m m
p ) ( = / ' 2 * ,, ( X i
)
* m i =1 j =1
p )( X j
& 1
p) ( = 2
) m
m
m
,, / ( ( X
i =1 j =1
i
p )( X j
Stiamo considerando variabili casuali bernoulliane.
Nel caso in cui i = j , / ( ( X i
p ) 2 ) , sia con, sia senza reimmissione, è uguale a
var ( X i ) = p(1 p) .
Quanti casi avremo in cui i = j ? Esattamente m , quindi continuando i conti
=
1
1 m m
mp
(1
p
)
+
,, / ( ( X i
m2
m 2 i =1 j =1
Studiamo ora / ( ( X i
/ (( Xi
p )( X j
p )( X j
p) ) = / ( X i X j
p)( X j
p ) ) con i
pX i
p) )
j:
pX j + p 2 ) = p 2
p/ ( X j )
p/ ( X i ) + E ( X i X j ) =
Ricordiamo che p = / ( X i ) e che quindi / ( X i ) = p e ricordiamo anche che / ( X ) = P( X = 1)
Sostituendolo nella nostra espressione, troveremo:
= p 2 p 2 / ( X j ) / ( X i ) + E ( X i X j ) = E ( X i X j ) P( X i = 1) * P( X j = 1) =
= P( X i X j = 1) P( X i = 1) * P( X j = 1) = P( X i = 1 $ X j = 1) P( X i = 1) * P( X j = 1)
Attenzione al passaggio in blu ;-)
Ora dobbiamo specificare i casi in cui lavoriamo con reimmissione e quelli in cui lavoriamo
senza.
Con Reimmissione
P ( X i = 1 $ X j = 1) P ( X i = 1) * P ( X j = 1) = P ( X i = 1) * P ( X j = 1) P ( X i = 1) * P ( X j = 1) = 0
% S & p (1 p )
Quindi varcr ' m ( =
m
*m)
Per il teorema dei due carabinieri possiamo affermare che:
%S
1 P' m
* m
p
&
-( 1
)
p(1 p)
m- 2
- >0
48
p) ) =
%S
Quindi lim P ' m
m 1
* m
&
- ( =1
p
)
Senza Reimmissione
P( X i = 1 $ X j = 1) P( X i = 1) * P( X j = 1) =
n
1
n
n n 1
Quindi
n
*
n
*
n
n
=
%n 1
*'
n * n 1
n
n (n
1)(n 2)! n
n!
n
*
n
n
=
n &
(
n )
% n % n 1 n &&
% S & p (1 p ) 1
varsr ' m ( =
+ 2 * m * (m 1) * ' * '
((
m
m
*m)
* n * n 1 n ))
n 1 n
Noi sappiamo che tranne
, tutti gli altri membri sono positivi.
n 1 n
n 1 n
<
quindi n(n 1) < n (n 1) se n > n . Questo risulta falso solo se abbiamo
n 1
n
n 1 n
n = n , quindi, in linea di massima,
è negativo.
n 1 n
Quindi sappiamo che
%S &
%S &
varsr ' m ( = varcr ' m ( * qualcosa di negativo
*m)
*m)
%S &
%S &
Possiamo allora dedurre che varsr ' m ( < varcr ' m ( .
*m)
*m)
Per rispondere finalmente alla nostra domanda ecco la risposta:
%S &
%S &
varsr ' m (
varcr ' m (
%S
&
*m) 1
* m ) = 1 p (1 p )
P' m p - ( 1
2
-2
m *- 2
* m
)
Studiamo f ( p ) = p * (1 p ) che vale p
p2 .
La derivata prima vale f '( p ) = 2 p + 1 e se la uguagliamo a 0 troveremo che p =
equivale al punto sull’asse delle x del massimo della parabola. Se sostituiamo
%1& 1
f ( p ) , troveremo f ' ( = .
*2) 4
49
1
che
2
1
a p in
2
H1 pL p
0.25
0.2
0.15
0.1
0.05
0.2
%S
Quindi P ' m
* m
p
&
-( 1
)
0.4
0.6
1
4m- 2
50
0.8
1
p
26-11-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Articolo IV. Legge (debole) dei grandi numeri
Consideriamo la tripletta
(
, , P ) e una collezione di eventi costituita da
{
, , A, Ac , B, B c }
Dato un evento B ,in modalità con reimissione,cos’è P ( B ) ?
Pc.r ( B ) = c =
n
n
=p
Come stimare questa quantità?
e consideriamo m estrazioni.
Prendiamo uno spazio campionario
Come posso scegliere in modo opportuno il numero di estrazione m da effettuare per
calcolare con una certa precisione la probabilità di un evento?
Consideriamo le variabili casuali X i che seguono la legge bernoulliana con parametro p e
la loro rispettiva funzione indicatrice I Bi
X 1 = I B1
X 2 = I B2
...
X m = I Bm
Gli statistici dicono che le variabili casuali X 1 , X 2 ,..., X m sono un campione estratto della
popolazione bernoulliana.
Indichiamo con Sm il numero di successi in m prove:
Sm = X 1 + X 2 + ... + X m
Sm
a cui associo p .
m
Questo è un lavoro abbastanza semplice se lavoriamo con reimissione.
Consideriamo invece la frequenza di successi
Sappiamo che Pc.r ( B1
B2 ) = Pc.r ( B1 ) Pc.r ( B2 ) .
Ciò accade per qualsiasi coppia di prove: Pc.r ( Bi
B j ) = Pc.r ( Bi ) Pc.r ( B j ) .
Facciamo m esperimenti indipendenti tra loro,con probabilità di successo p e sotto le
stesse condizioni sperimentali.
Il numero di successi Sm segue la legge binomiale con parametri m e p .Ciò è una magra
consolazione perché p non lo conosco e non conosciamo neppure m perché dobbiamo
decidere ancora il numero di prove da effettuare.
51
Ciò che sappiamo è :
%S &
Ec.r ' m ( = p
s .r * m )
% m
&
varc.r ( S m ) = varc.r ' , X i ( = var ( X 1 ) + var ( X 2 ) + ... + var ( X m ) = mp (1 p )
* i =1 )
varc.r ( X 1 ) = varc.r ( X 2 ) = varc.r ( X i ) = varc.r ( X m )
% m
&
ATTENZIONE: varc.r ' , X 1 (
* i =1 )
cov c.r ( X i , X j ) = 0 con i j
m
, var ( X )
i =1
c.r
1
cov s.r ( X i , X j ) < 0
varc.r ( Sm ) = mp (1 p )
p (1 p )
%S & 1
varc.r ' m ( = 2 varc.r ( Sm ) =
m
*m) m
%S &
/' m ( = p
*m)
%% S
/'' m
'* m
*
%S
Pc.r ' m
* m
- >0
&
p(
)
p
2
& p (1 p )
(( =
m
)
Errore Quadratico Medio
%S
varc.r ' m
&
*m
-( 1
-2
)
&
(
) = 1 p (1 p )
m- 2
questa formula nasconde apparentemente un limite perché per conoscere questa quantità
dobbiamo conoscere p e m
Noi non conosciamo p ma possiamo studiare come varia p (1 p ) al variare di
p (compreso tra 0 e 1 ).Se riesco a lavorare sui risultati peggiori di p (1 p ) posso lavorare
anche con risultati migliori.
52
H1 pL p
0.25
0.2
0.15
0.1
0.05
0.2
0.4
0.6
0.8
1
p
p (1 p ) si annulla per p = 0 e p = 1
1
4
p (1 p ) =
per p =
1
2
ho un punto di simmetria
1
1
so che è il punto massimo della curva quindi p (1 p ) <
4
4
Di conseguenza:
p (1 p )
1
1
2
m4
%S
&
1
Pc.r ' m p - ( 1
4- 2
* m
)
1
l’errore assoluto è 1
“Questo non è da matematici,ma
4- 2
da persone serie”
p (1 p ) =
%S &
vars.r ' m (
*m)
%S
Ps.r ' m
* m
p
%S &
varc.r ' m (
*m)
%S &
%S &
vars.r ' m (
varc.r ' m (
&
1
*m) 1
*m) 1
-( 1
2
2
4- 2 m2
)
53
Facciamo un esempio:
Sm è il numero di manichini che subiscono danni
m è il numero di prove
p è la probabilità che una macchina lanciata a 40 km h contro un muro uccida 5 persone
- = 0.1 percentuale d’errore massima che la normativa europea mi chiede di non superare
+ = 0.01 probabilità sufficientemente grande di commettere come errore Cosa mi chiede la normativa europea?
Mi chiede di calcolare con una probabilità dello 0.01 un errore sufficientemente piccolo
( - ).
Se voglio soddisfare - e + è sufficiente porre:
1
>1 +
1
4- 2 m
1
<+
4- 2 m
1
m> 2
4- +
L’errore che non vorrei commettere cade in 1 + .
1
Se m > 2 ciò non accade.
4- +
Sostituendo nella formula i valori forniti otteniamo:
1
1
10 4
m> 2 =
=
= 25000
4- + 4 1 1
4
102 10 2
%S
Pc.r ' m
* m
p
&
-( 1 +
)
più 1 + è prossima a 1 più esperimenti devo fare
1 + è la probabilità tanto grande di commettere un errore tanto piccolo.
Abbiamo capito che :
%S
1
se m > 2 allora Ps.r ' m
4- +
* m
p
&
-( 1 +
)
In Soldoni: la probabilità di un evento è misurabile.
54
29-11-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Facciamo un riassunto dei passi da noi effettuati:
- definiamo
il nostro spazio campionario;
- definiamo B un evento appartenente a ;
- vogliamo individuare P ( B ) ;
- effettuiamo m esperimenti e in ognuno studiamo X i . La funzione X i vale 1 se ho
un esito positivo e 0 altrimenti;
- consideriamo S m ( B) come la somma dei successi in m prove differenti, quindi
m
Xi
S m ( B) ,
i =1
=
;
Sm ( B) = , X i e
m
m
i =1
n
S
consideriamo m circa
che è anche P( Bi ) ;
m
n
abbiamo poi effettuato una misurazione, ma ricordiamo che quando se ne effettua
una, si commette un errore, che chiameremo - , quindi
Sm ( B)
P ( B) m
vorremmo che l’errore da noi commesso sia inferiore di - e che
% S ( B)
&
P' m
P( B) - ( 1 + dove 1 + rappresenta il livello di confidenza del
* m
)
modello;
purché prendiamo m abbastanza grande, riusciamo ad approssimare in modo
migliore il valore che vogliamo ottenere;
1
se abbiamo abbastanza fondi da poter effettuare m prove tali che m- 2+ > e se tra
4
% S ( B)
&
le prove i, j con i j , P ( Bi B j ) P ( Bi ) P ( B j ) allora P ' m
P( B) - ( 1 +
* m
)
sarà soddisfatta;
nel caso in cui P ( Bi B j ) > P ( Bi ) P ( B j ) la disequazione NON risulterà più vera.
m
-
-
-
-
Se A e B sono due eventi e A
Sm ( A
B=
allora possiamo calcolare S m ( A) , S m ( B) e
S ( A B ) S m ( A) S m ( B )
B) = S m ( A) + Sm ( B ) . Quindi sappiamo anche che m
=
+
.
m
m
m
Supponiamo ora che A
P ( B A)
P ( B | A) =
P ( A)
B
, allora:
P ( A) lo calcoliamo con uno schema di
S m ( A)
;
m
P ( B A) lo calcoliamo con uno schema di
S ( B A)
m estrazioni trovando m
;
m
m estrazioni trovando
55
S m ( B A)
S ( B A)
m
S ( B A)
m
infine P( B | A) =
*
= m
= m
Sm ( A)
m
Sm ( A)
S m ( A)
m
Supponiamo di avere uno spazio campionario
(tutti i cittadini milanesi) e che Z sia il
patrimonio del cittadino milanese preso in considerazione.
: Z ( w) t} per t
. Consideriamo t
visto
Il nostro insieme degli eventi è = {w
che nella dichiarazione dei redditi si arrotonda il totale all’intero più vicino.
Possiamo semplificare questa complessa struttura dati con FZ che è una funzione di
ripartizione tale che x0
FZ ( x0 ) = P( Z x0 )
Per esempio, se supponiamo di avere un dado truccato definiamo la variabile casuale
Z che può assumere valori da 1 a 6, rispettivamente al numero che compare sulla faccia
del dado, con le rispettive probabilità (ovviamente non uguali ):
Fz HxL
1
0.8
0.6
0.4
0.2
1
2
3
4
5
6
7
x
Notiamo come il gradino tra un valore e l’altro, equivale alla probabilità che la variabile
casuale sia minore di quel valore.
56
Se Z assume i valori z1 < z2 < z3 < z4 , che hanno le loro rispettive probabilità p1 , p2 , p3 , p4 .
Avremo di conseguenza il seguente grafico:
4
Notiamo che il valore atteso /( Z ) = p1 z1 + p2 z2 + p3 z3 + p4 z4 = , zi • P( Z = zi ) quindi
i =1
+1
/( Z ) = area ( A) area ( B) =
2 (1
FZ ( x) ) dx
0
2 F ( x)dx
Z
1
0
Se poniamo z1 come il cittadino più povero di Milano e zk come il più ricco, possiamo
affermare che:
0
con x < z1 allora P( Z x) la stimiamo a
=0
m
m
con x > zk allora P( Z x) la stimiamo a
=1
m
Se invece ci chiediamo quanto vale p1 o Fz ( z1 ) (è la stessa cosa) avremo che
m
P( Z
z1 ) si può stimare con
,I
i=1
( 1 , z1 ]
( zi )
m
Nella sommatoria al numeratore abbiamo la funzione indicatrice del patrimonio del
cittadino i interrogato. La sommatoria indica, invece, il numero di cittadini con reddito
inferiore a z1 .
Infine diremo che
m
x
Fz ( x) la stimiamo con
,I
( 1,x ]
( zi )
i=1
m
57
3-12-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Si dice funzione di ripartizione di una variabile casuale X , indicata da FX , quella
funzione che ha per dominio la retta reale e codominio l’intervallo [0,1] e che soddisfa, per
ogni numero reale x , FX ( x) = P( X x) = P({w : X ( w) x}) .
Risponde ovviamente alla domanda, fissato x , quanto vale la probabilità che la variabile
casuale X assuma un valore minore o uguale a x ?
Introduciamo il concetto di funzione di densità di una variabile casuale discreta che
viene descritta nel seguente modo
Se Z è una variabile casuale discreta con valori distinti z1 , z2 ,..., zn allora la funzione f z è
definita da:
fZ ( z) =
P ( Z = zi )
se z = zi , i = 1, 2,3,..., n
0
se z
zi
che è appunto la funzione di densità discreta di Z .
Se lo spazio campionario
è finito (
un numero finito di valori distinti.
< +1 ) allora anche la variabile casuale assumerà
Indichiamo con Z la variabile casuale che ci accompagnerà nei ragionamenti seguenti.
In conoscenza dello spazio campionario finito definiamo k
quindi:
z1 < z2 < ... < zk 1 < zk
Ovviamente (proprietà):
lim FZ ( x) = 0
x
1
lim FZ ( x) = 1
x
+1
Se zk è un valore tale che P( Z = zk ) = p > 0 allora FZ è discontinua in zk .
58
Fz HxL
1
0.8
0.6
0.4
0.2
-2
2
4
6
a
x
b
+1
Il valore atteso /( Z ) = area ( A) area ( B) =
2 (1
0
FZ ( x) )dx
0
2 F ( x)dx
Z
1
Non disperiamoci per la visione di un integrale ma analizziamo per ordine.
Siamo a conoscenze che l’integrale rappresenta l’area di sottografico di una funzione. Nel
primo caso, ovvero la determinazione dell’area(A) dobbiamo trovare l’area del soprastante
la funzione di ripartizione. Siccome la nostra funzione di ripartizione potrà prendere valori
+1
tra 0 e 1 escludiamo l’area di sottografico e ricaviamo l’area(A) pari a
2 (1
FZ ( x) )dx . Per
0
0
l’area(B) invece è scontato in quanto si tratta dell’area di sottografico quindi
2 F ( x)dx .
Z
1
Ricordiamo inoltre che il valore atteso o media, indica dove sono centrati i valori della
variabile casuale.
P (a < Z
b ) = FZ (b) FZ (a)
59
FZ ( x) = P ( Z x )
Ma attenzione, la probabilità è incognita e di conseguenza anche la funzione di
ripartizione, ma possiamo pensare di analizzare la funzione di ripartizione in un punto x0 e
vedere se sarà valida anche negli altri punti x .
FZ HxL
1500
1250
1000
750
500
250
-10
-5
Quanto vale il valore di FZ ( x0 ) ?
Vogliamo quindi misurare P ( Z
5
x0
10
x
x0 ) .
Possiamo pensare ad esempio che se il cittadino milanese ha un patrimonio netto minore
o uguale ad x 0 (un fissato patrimonio netto) allora la variabile casuale bernoulliana X i
assumera valore 1, altrimenti 0.
X 1 = I ( z1 ) funzione indicatrice
( 1 , x0 ]
X 2 = I ( z2 )
( 1 , x0 ]
X 3 = I ( z3 )
( 1 , x0 ]
...
X m = I ( zm )
( 1 , x0 ]
Per stimare il valore, nel punto x 0 , di FZ ( x0 ) scelgo m cittadini e domando il loro
patrimonio netto zi .
60
FZ ( x0 ) = P ( Z
x0 ) stimato
m
,
I ( zi )
( 1 , x0 ]
=
m
= Gm ( x0 , z1 , z2 ,..., zm ) funzione di ripartizione empirica o campionaria
i =1
Come possiamo vedere G è costitutità dalle zi ordinate in modo da formare una statistica
d’ordine. Quindi attenzione a non farsi portar fuori strada dal nome funzione di ripartizione
empirica in quanto non è una funzione di ripartizione ma una statistica perchè è una
funzione del campione.
Possiamo comprimere la scrittura in Gm ( x0 , Z ) dove m indica la numerosità del campione.
Livello di confidenza
1 +
P ( Gm ( x0 , Z ) FZ ( x0 )
-) 1 +
%1 m
&
/ ( Gm ( x0 , Z ) ) = / ' , I ( zi ) ( =
* m i =1 ( 1, x0 ]
)
m
m
1
1
m
P ( Z i x0 ) = , FZ ( x0 ) = FZ ( x0 )
,
m i =1
m i =1
m
in conclusione / ( Gm ( x0 , Z ) ) = FZ ( xo )
P ( Gm ( x0 , Z ) FZ ( x0 )
var(Gm ( x0 , Z ))
-) 1
-2
Troviamo la varianza:
%1 m
& 1
% m
&
var(Gm ( x0 , Z )) = var ' , I ( zi ) ( = 2 var ' , I ( zi ) ( =
x
x
(
,
]
(
,
]
1
1
0
0
* m i =1
) m
* i =1
)
=
&
1 % m
& % m m
I
z
(
)
+
/ ZZ
/ ( Zi ) / ( Z j ) ( =
2 ' , ( 1 , x ] i ( ' ,, ( i j )
0
m * i =1
) * i =1 j =1
)
con i
j
Ma siccome le m osservazioni sono indipendenti (il nostro giornalista non chiama a casa
di
una
persona
e
poi
si
fa
passare
tutta
la
famiglia)
allora
P ( Z i = 1 $ Z j = 1) P ( Z i = 1) P ( Z j = 1) è uguale 0.
var(Gm ( x0 , Z )) =
=
1
var
m
(
1 % m
, var
m2 '* i =1
I ( zi )
( 1 , x0 ]
var(Gm ( x0 , Z )) =
)
1
var
m
(
(
(
I ( zi )
( 1 , x0 ]
)
& 1
I ( zi ) ( = 2 m var
1 , x0 ]
) m
)
61
(
)
I ( zi ) =
( 1 , x0 ]
Ora:
- >0
P ( Gm ( x0 , Z ) FZ ( x0 )
-) 1
P ( Gm ( x0 , Z ) FZ ( x0 )
-) 1
P ( Gm ( x0 , Z ) FZ ( x0 )
-)
var(Gm ( x0 , Z ))
-2
FZ ( x0 )(1 FZ ( x0 ))
m- 2
1
1
4m- 2
Quindi comunque fissato x
P ( Gm ( x0 , Z ) FZ ( x0 )
-) 1
1
4m- 2
Fissiamo m , e prendiamo il campione Z1 , Z 2 ,..., Z m (le variabili casuali di m esperimenti) che
seguono tutte la probabilità FZ ( x) . m sarà la numerosità del nostro campione.
Diremo campione casuale se dati a, b, c, d arbitrari e i
P ( a < Z i b $ c < Z j d ) = P ( a < Z i b ) P (c < Z j d )
Variabili casuali a due a due indipendenti.
j:
m
Parte della nostra stima sarà, dopo aver fatto l’esperimento, calcolare
,I
i =1
( 1 , x0 )
( Zi )
m
%
&
' , I ( 1, x0 ) ( Z i ) (
( Stimatore non distorto
Inoltre possiamo affermare che FZ ( x) = / ' i =1
m
'
(
'
(
*
)
m
Se Z è un campione casuale di numerosità m estratto dalla popolazione secondo la legge
FZ allora Gm ( x0 , Z ) è una successione consistente di stimatori non distorti di FZ ( x) .
var(Gm ) =
costante
m m
(
a)
x
- >0 + >0
/ ( Tm
2
)
m
1
1
0
0
P ( Gm ( x0 , Z ) FZ ( x0 )
-) 1
1
4m- 2
62
10-12-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Inizio Ripasso:
Consideriamo la tripletta
(
, , 3)
Dato B
• Nel caso del modello di estrazione con reimissione Sm ( B ) segue la legge
binomiale di parametri m e P ( B ) .
•
Sia nel caso con reimmissione sia nel caso senza reimmissione il valore atteso è:
Ec.r ( Sm ( B ) ) = mi P ( B )
s .r
1
1
Ec.r ( Sm ( B ) ) = imi P ( B )
m s .r
m
% S ( B) &
Ec.r ' m
( = P( B)
m )
s .r *
E’ interessante vedere che sebbene non conosciamo P ( B ) , sappiamo che il valore
atteso è uguale P ( B ) .
Sm ( B )
è uno stimatore non distorto:
m
stimatore in quanto sappiamo che il valore atteso è uguale a P ( B ) ;
IMPORTANTE:
-
non distorto in quanto il suo valore atteso è uguale a P ( B ) . Abbiamo anche
stimatori distorti per eccesso (usiamo il simbolo > ) o stimatori distorti per difetto
(usiamo il simbolo < )
•
varc.r ( S m ( B ) ) = mP ( B ) (1 P ( B ) )
spostiamo la m al primo membro:
1
varc.r ( S m ( B ) ) = P ( B ) (1 P ( B ) )
m
moltiplichiamo entrambi i membri per
1
:
m
1 1
1
varc.r ( S m ( B ) ) = P ( B ) (1 P ( B ) )
mm
m
P ( B ) (1 P ( B ) )
1
S
B
var
=
(
)
(
)
.
c
r
m
m2
m
dato che per estrarre una costante dalla varianza, bisogna elevarla al quadrato, per
inserirla dovremo calcolare la sua radice quadrata.
63
% 1
& P ( B ) (1 P ( B ) )
Sm ( B ) ( =
varc.r '
2
m
* m
)
% S ( B ) & P ( B ) (1 P ( B ) )
1
varc.r ' m
(=
m
4m
* m )
P ( B ) (1 P ( B ) )
m
0 per m
Dato che sappiamo che il massimo
1
di P ( B ) (1 P ( B ) ) è
4
+1
Cosa dice la legge dei grandi numeri?
- >0
+ >0
% S ( B)
&
P' m
P (B) - ( 1 +
' m
(
*
)
Sappiamo che Sm ( B ) = I B1 + I B2 + ... + I Bm
m- 2+ >
1
4
Sm ( B ) I B1 + I B2 + ... + I Bm
=
m
m
La legge dei grandi numeri può essere riassunta in questo modo:
sia nel caso con reimissione sia nel caso senza reimissione, la successione di statistica di
Sm ( B )
è una successione consistente di stimatori non distorti della probabilità di
m
successo P ( B ) .
Fine Ripasso
Consideriamo di nuovo la tripletta
= { , , B, B c , A, Ac , A
B, A
B}
(
, , 3)
Per ogni singolo evento posso calcolarne la probabilità.
Sm ( B )
m
S (B)
P ( Bc ) 4 1 m
m
S ( A)
P ( A) 4 m
m
S ( A)
P ( Ac ) 4 1 m
m
S ( A) Sm ( B )
P ( A B) 4 m
+
m
m
P ( B) 4
Sm ( A
m
B)
=
Sm ( A) + S m ( B ) Sm ( A
m
64
B)
Se voglio calcolare la probabilità condizionata P ( B | A) =
P(B
A)
P ( A)
Guardiamo separatamente il numeratore e il denominatore:
P(A
B) 4
P ( A) 4
Sm ( A
B)
m
Sm ( A)
m
Sm ( A B )
S ( A B)
S ( A B)
m
m
4
= m
•
= m
S m ( A)
P ( A)
m
Sm ( A)
Sm ( A)
m
Sm ( A B ) è il numero di volte in cui accanto alla proprietà B ho trovato la proprietà A
P( A
B)
Sm ( A ) è il numero di in cui si è presentata la proprietà A .
Consideriamo la tripletta ( , , 3 )
Consideriamo la variabile casuale Z
x
(
P {"
)
x} = FZ ( x )
, Z (" )
Funzione di ripartizione empirica
Consideriamo m successioni di variabili casuali che modellano m esperimenti sotto le
stesse condizioni sperimentali, ma senza dipendenza tra un esperimento e gli altri.
In corrispondenza di ciascuna estrazione andiamo a calcolare FZ ( x) = P ( Z
m
FZ ( x ) 4 , I (
1, x]
i =1
Consideriamo
Z:
( Zi ) 6 Gm ( x; Z1 ,..., Z m ) = Gm ( x; Z )
(
, , 3)
FZ ( x ) 4 Gm ( x; Z )
/(Z ) =
+1
2 (1
FZ ( x ) ) dx
0
0
2
1
k
FZ ( x ) dx = , z j P ( Z = z j )
j =1
k
/( Z ) 4 , z jP( Z = z j )
j =1
65
x ) cioè :
Per misurare questa quantità:
supponiamo di conoscere quali valori la variabile casuale può assumere
Z ( ) = {Z1 , Z 2 ,..., Z k } . Ci resta però da decidere come dobbiamo stimarli.
Li stimeremo utilizzando la legge dei grandi numeri.
Consideriamo Z1 , Z 2 ,..., Z m ed estraiamo m campioni da FZ . Dobbiamo misurare
P(Z = zj ) .
I{ z } =
j
1 se Z=z j
0 altrimenti
m
P(Z = z j ) =
, I{ } ( Z )
i
zj
i =1
m
m
k
, I{ } ( Z )
j =1
m
/(Z ) 4 , zj
zj
i =1
k
, z I{ } ( Z ) = z
j =1
j
i
zj
i
1 m k
1 m
= ,, z j I{z } ( Z i ) = , zi
j
m i =1 j =1
m i =1
zi è l’unico addendo diverso da 0
i
m
E (Z ) 4
%
' , zi
P ' i =1
' m
'
*
,z
i =1
i
m
&
(
-( 1 +
(
(
)
m
/(Z )
m
La statistica
,z
i =1
m
i
è detta media campionaria.
% m
&
' , Zi (
La media campionaria è uno stimatore non distorto di / ( Z ) se / ' i =1 ( = / ( Z )
' m (
'
(
*
)
m
%
&
' , Zi ( 1 m
/ ' i =1 ( = , / ( Z i ) =/ ( Z i ) = / ( Z )
' m ( m i =1
'
(
*
)
Ogni /( Z i ) = /( Z ) perché tutte le Z i hanno la stessa distribuzione, la stessa legge di
probabilità e lo stesso valore atteso.
66
% m
' , zi
P ' i =1
' m
'
*
% m &
' , zi (
var ' i =1 (
&
' m (
(
'
(
*
)
-( 1
2
(
(
)
/(Z )
Prossimo passo è quindi studiare:
% m &
' , zi ( 1
% m &
var ' i =1 ( = 2 var ' , zi ( =
' m ( m
* i =1 )
'
(
*
)
% m &
Nasce un problema: studiare var ' , zi (
* i =1 )
Cominceremo a studiare la varianza di una somma di 2 variabili casuali Z per capire
come si risolva una sommatoria.
Articolo V.
Articolo VI. Esercizio:
Date due variabili casuali Z1 e Z 2 calcolare var ( Z1 + Z 2 ) .
(
var ( Z1 + Z 2 ) = E ( Z1 + Z 2
(
= E ( Z1
E ( Z1 ) )
2
E ( Z1 + Z 2 ) )
) + E (( Z
2
= var ( Z1 ) + var ( Z 2 ) + 2 E ( Z1
E ( Z2 ))
2
) = E ((( Z
2
1
) + 2E ( Z
1
E ( Z1 ) ) ( Z 2
E ( Z1 ) ) + ( Z 2
E ( Z1 ) ) ( Z 2
E ( Z2 ))
)
2
)=
E ( Z2 )) =
E ( Z2 ))
________________________________________________________________________
Ricordiamo le definizione di covarianza: cov ( Z1 , Z 2 ) = E ( Z1 E ( Z1 ) ) ( Z 2 E ( Z 2 ) )
(
m m
% m & m
var ' , zi ( = , var ( zi ) + 2,, cov ( Z i , Z j )
i =1 j =1
* i =1 ) i =1
quindi
% m &
' , zi ( 1 % m
m m
&
var ' i =1 ( = 2 ' , var ( zi ) + 2,, cov ( Z i , Z j ) (
' m ( m * i =1
i =1 j =1
)
'
(
*
)
Possiamo ora scrivere la disuguaglianza in questo modo:
% m
' , zi
P ' i =1
' m
'
*
/(Z )
&
(
-( 1
(
(
)
m
m
m
, var ( zi ) + 2,, cov ( Zi , Z j )
i =1
i =1 j =1
2 2
m-
67
)
13-12-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
A conoscenza che il valore atteso di una variabile casuale Z è pari a:
• µZ = / ( Z )
e la varianza:
• 0 Z 2 = var ( Z )
Affermiamo attraverso la legge di Tchebycheff che:
•
- >0
P( Z
µZ
-) 1
0Z2
-2
Ponendo:
- = r0 Z
P( Z
µZ
r0 Z ) 1
1
r2
Facendo m prove, osserverò (notare bene il futuro)
Z1 , Z 2 ,..., Z m variabili casuali
FZ1 = FZ2 = ... = FZm distribuite tutte secondo la stessa funzione di ripartizione
Esprimendo tutto ciò in linguaggio tecnico diremo:
Consideriamo un campione Z1 , Z 2 ,..., Z m estratto dalla popolazione FZ
Proponiamo ora uno stimatore di µ Z (il valore atteso) basandoci sul campione.
m
,Z
i =1
m
i
= Z ( m ) che definiamo media campionaria (stimatore µ Z )
Ora ci domandiamo se la media campionaria Z ( m ) è uno stimatore non distorto del valore
atteso
m
%1 m & 1 m
/ ( Z ( m) ) = / ' , Zi ( = , / ( Zi ) = / ( Z ) = / ( Z )
m
* m i =1 ) m i =1
Abbiamo dimostrato che la media campionaria è uno stimatore non distorto del valore
atteso.
68
7 >0
(
P Z(m)
µZ
7
)
1
var ( Z ( m ) )
72
Bene... Solito problema, dobbiamo determinare la varianza della media campionaria.
Esplicitiamola da definizione:
(
var ( Z ( m ) ) = / ( Z ( m )
µZ )
2
)
Errore quadratico medio
(varianza)
Mezzo con il quale stimiamo
Quantità che vogliamo
stimare
Tips: Se noi confrontiamo gli stimatori non distorti guardando i loro errori quadratici medi,
preferiamo quelli che hanno un errore quadratico medio piccolo.
Procediamo alla nostra ricerca della varianza della media campionaria
% m
' , Zi
var ( Z ( m ) ) = var ' i =1
' m
'
*
&
( 1
% m &
( = 2 var ' , Z i (
( m
* i =1 )
(
)
% m &
Ma cosa vale ora var ' , Z i ( ?
* i =1 )
m m
% m & m
var ' , Z i ( = , var ( Z i ) + ,, cov ( Zi , Z j )
i =1 j =1
* i =1 ) i =1
con i
j
Non spaventiamoci dalla mancaza del due del doppio prodotto, non è stato dimenticato
ma imponendo i j avremmo sia cov ( Zi , Z j ) che cov ( Z j , Z i ) .
Essendo sotto le stesse condizione sperimentali le varianze sono tutte uguali quindi è
lecito scrivere m var ( Z ) .
Riprendiamo:
% m
&
' , Z i ( m var ( Z ) 1
+ 2
var ' i =1 ( =
m
m2
' m (
'
(
*
)
m
m
,, cov ( Z , Z )
i =1 j =1
i
j
cm ( m 1)
negativo. Quindi viene
m2
imposta la condizione che c < 0 . In questo modo possiamo dire:
Ora chiamiamo cov ( Zi , Z j ) = c e otteniamo quindi
69
% m
' , Zi
var ' i =1
' m
'
*
&
(
(
(
(
)
var ( Z )
m
Ma ci siamo mai chiesti quale sia il significato della covarianza di due variabili casuali? No,
quindi cerchiamo di capirlo!
((
cov ( Zi , Z j ) = / Z i
•
µZ
i
)(Z
j
))
Ora se consideriamo i = j otteniamo la varianza della variabile casuale in esame,
infatti:
(
cov (Y , Y ) = / (Y
•
µZ
j
E (Y ) )
2
) = var (Y ) = / (Y )
Ora invece consideriamo il caso i
((
cov ( Zi , Z j ) = / Z i
µZ
i
( / (Y ) )
2
)(Z
j
µZ
j
2
j:
)) = / (( Z Z
i
j
µZ Z j µZ Zi + µZ µZ
i
j
i
j
)) =
Fermiamoci ed evidenziamo alcuni elementi della nostra espressione:
/ µ Zi Z j = µ Zi / ( Z j ) = µ Zi µ Z j
(
)
(
)
/ µ Z j Z i = µ Z j / ( Z i ) = µ Z j µ Zi
Di conseguenza, con le relative sostituizioni e semplificazioni immediate otteniamo:
(
cov ( Zi , Z j ) = / ( Z i Z j )
)
µZ µZ
i
j
Ma ora, siccome siamo “curiosi” (forse un po sadici), ci poniamo la domanda quando
cov ( Zi , Z j ) = 0 ? Ovvero quando c = 0 ?
Ok, iniziamo ad arrampicarci sugli specchi...
cov ( Zi , Z j ) = 0
?
/ ( Zi Z j ) = / ( Zi ) / ( Z j )
?
In generale è falso, ma vogliamo vedere in questo caso se è effettivamente possibile
scriverlo.
Per semplificare la scrittura supponiamo Z i = X e Z j = Y
?
/ ( XY ) = / ( X ) / (Y )
70
Sia ora h il numero di valori distinti che la variabile casuale X può assumere e k i relativi
valori che può assumere la variabile casuale Y.
h
k
,, x y P( X = x
j =1 l =1
j
l
j
$ Y = yl )
primo membro
% h
&% k
& h k
' , x j P( X = x j ) ( ' , yl P(Y = yl ) ( = ,, x j yl P( X = x j ) P(Y = yl )
) j =1 l =1
* j =1
) * l =1
secondo membro
Attenzione, non stiamo dimostrando nessun teorema, ma cercando un ipotesi valida per
cui valga l’uguaglianza.
Quindi:
P ( X = x j $ Y = yl ) = P ( X = x j ) P (Y = yl )
Ma ecco che ritornano in gioco le nostre solite “regolette” dell’inzio del corso:
P ( A j Bl ) = P ( Aj ) P ( Bl )
E ciò risulta vero se e solo se i due eventi sono indipendenti.
Ora se le m prove effettuate sono indipendenti possiamo affermare che:
m prove sono effettuate sotto condizione di campionamento casuale!!!
% m
' , Zi
var ' i =1
' m
'
*
&
( var ( Z )
(=
m m
(
(
)
1
0
% m
&
' , Zi (
/ ' i =1 ( = / ( Z )
' m (
'
(
*
)
Quindi una semplice considerazione che salta subito all’occhio, è che più grande è il
var ( Z )
campione, tanto più piccolo sarà l’errore quadratico medio, in quanto
0.
m m 1
Possiamo così dire che è la successione di stimatori di µ Z gode della consistenza in
media quadratica in quanto il limite della varianza con m all’infinto tende a 0.
71
Riassumiamo per evidenziare il fatto che:
% m
&
' , Zi (
/ ' i =1 ( = / ( Z )
' m (
'
(
*
)
non richiede il campionamento casuale
% m
' , Zi
var ' i =1
' m
'
*
richiede il campionamento casuale
&
( var ( Z )
(=
m
(
(
)
Verifichiamo ora se la successione Z ( m ) è una successione semplicemente consistente:
- >0
P( Y
µY < - ) 1
var (Y )
-2
ma è anche vero che (notare
P( Y
µY
P( - < Y
-)
- ) P ( Y µY < - ) 1
µY
-) 1
var (Y )
var (Y )
-2
-2
Quindi riprendendo il discorso sulla media campionaria
% m
&
' , Zi
(
var ( Z )
P ' i =1
µZ < - ( 1
-2
' m
(
'
(
*
)
dove var ( Z ) è la varianza della popolazione
% m
&
' , Zi
(
var ( Z )
µZ < - ( 1
1 P ' i =1
-2
' m
(
'
(
*
)
Per il Teorema dei due carabinieri
- >0
% m
&
' , Zi
(
i =1
'
lim P
µZ < - ( = 1
m 1
' m
(
'
(
*
)
Siccome il limitie tende a 1 possiamo affermare che la successione è semplicemente
consistente.
72
Però possiamo svelare un trucco e dire che se uno stimatore è consistente in media
quadratica, esso sarà anche uno stimatore semplicemente consistente, ma attenzione non
è necessariamente vero il viceversa.
P ( µZ - < Z ( m )
µZ + - ) = FZ
(m)
( µZ + - )
FZ( m ) ( µZ - )
FZ( m ) ( x )
Questa distanza vale 1
quando m va all’infinito
x
µZ -
µZ
µZ + -
Vogliamo calcolare il limite di una funzione che non conosco... e la nostra arte di
arrampicarci sugli specchi deve tornarci in aiuto.
Ma notiamo dal grafico e dalle considerazioni fatte in precedenza che:
- >0
lim FZ( m ) ( µ Z + - ) = 1
m
1
- >0
lim FZ( m ) ( µ Z - ) = 0
m
1
Non so come sia distribuita FZ( m ) ( x ) ma so che:
lim FZ( m ) ( x ) =
m
1
1
0
µ Z (continua da destra)
se x µ Z
se x
73
17-12-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Poniamoci la seguente domanda:
arrivati alla stazione di Cernobil, quanto ci metterà la prima particella
a raggiungere il
mio corpo?!?
Consideriamo le variabili casuali Z1 , Z 2 ,..., Z m i.i.d. (indipendenti ed identicamente
distribuite). Il valore che assume ogni Z i è pari al tempo passato dal mio arrivo alla
stazione al momento in cui vengo colpito dalla i-esima particella .
Consideriamo ora la funzione di ripartizione empirica Gm ( x, Z ) =
1 m
, I(
m i =1
1, x]
( Zi ) .
Consideriamo con k(i ) il numero di volte che compare Z i .
/(Z ) 4
(
)
1
1 m
i k(1) Z (1) + k( 2) Z ( 2) + ... + k( m ) Z ( m ) = , Z i 6 Z ( m ) che è la media campionaria
m
m i =1
estratta da una popolazione Z.
Facciamo notare che / ( Z ( m ) ) = / ( Z ) di conseguenza
di / ( Z ) e che var ( Z ( m ) ) =
Se m
(
+1 allora P Z ( m )
var ( Z )
m
che è successione consistente.
/(Z ) < -
)
1
Della FZ( m ) sappiamo soltanto che, con m
-
se x > / ( Z ) tende a 1;
-
se x = / ( Z ) tende a 1;
-
se x < / ( Z ) tende a 0.
1 m
, Zi è uno stimatore non distorto,
m i =1
var ( Z )
m- 2
tende a 1.
+1 :
Se consideriamo un’altra variabile casuale Y , FY e FZ saranno differenti, ma FY( m ) e FZ( m ) con
/ ( Z ) = / (Y ) saranno molto simili (tendono agli stessi valori).
Se un fenomeno casuale può essere governato con una variabile casuale uguale alle
sommatorie di X i , allora la legge di probabilità è universale.
Se prendo due diverse successioni le loro funzioni di ripartizione hanno lo stesso limite e
si devono assomigliare. (“Teorema del limite centrale”)
74
Definita T come variabile casuale del tempo passato da un certo avvenimento ci
chiediamo la relazione esistente tra
P (T > t + s | T > s ) e P (T > t )
Nel ragionamento comune si va a pensare che la prima sia maggiore della seconda, ma in
realtà, data l’indipendenza di ogni evento, la probabilità presa in questione è la stessa.
Esempio:
Il 53 non esce sulla ruota di Venezia da molte settimane (è un ritardatario). La probabilità
che esca tra 5 estrazioni, dato che non esce da 53 estrazioni, è uguale alla probabilità che
esca tra 5 estrazioni senza sapere da quanto tempo non esce.
Vediamo quanto vale la probabilità di avere un successo alla prima prova:
P(T = 1) = P( B1 ) = p
mentre la probabilità di avere successo alla seconda
P (T = 2) = P ( B1 B2 ) = (1 p ) p
la probabilità di avere successo alla k-esima prova sarà
P (T = k ) = P ( B1 B2 ... Bk 1 Bk ) = (1 p ) k 1 p
Fissato k > 0 , la probabilità che il primo successo avvenga dopo k estrazioni, è la
probabilità che le prime k estrazioni siano tutte insuccessi:
P (T > k ) = P ( B1 B2 ... Bk ) = (1 p ) k = q k
Dimostriamo ora che P (T > h + k | T > h) = P (T > k ) :
P(T > h + k | T > h) =
P ( (T > h + k )
(T > h ) )
P(T > h)
notiamo come al numeratore, l’intersezione delle due probabilità è uguale a P(T > h + k ) in
quanto, se consideriamo P(T > h + k ) come l’insieme A e P(T > h) come l’insieme B, ci
rendiamo conto che l’insieme A è contenuto nell’insieme B, quindi la loro intersezione è
uguale all’insieme A stesso. Quindi:
P ( (T > h + k )
(T > h ) )
P(T > h)
=
P(T > h + k ) q h + k
= h = q K = P (T > k )
P(T > h)
q
Poniamo P(T > x) = H ( x) per x
allora
H (h + k )
H (k ) =
H (h)
Possiamo notare quindi che gode della seguente proprietà: H (h + k ) = H (h) H (k ) .
Chiediamoci quanto vale la probabilità che T sia pari:
P(T pari) = P(T = 2 8 T = 4 8 T = 6 8 ...)
Poniamo (T = 2) = C2 e(T = 4) = C4 e così via.
75
Dato I = insuccesso e S = successo , sappiamo dunque che vorremmo avere IS o IIIS o IIIIIS .
Quindi:
1
P(C2 8 C4 8 C6 8 ...) = , P(T = 2 j )
j =1
1
1
j =1
j =1
, P(T = 2 j) = , q 2 j 1 p =
p 1 2 j
p% 1
(q ) = serie geometrica = '
,
q j =1
q * 1 q2
&
1(
)
Quanto vale P ( D = t )?
9 P ( ( D > t + s ) | D > s ) = P( D > t )
9D 0
Notiamo che non si parla più di successione ma dell’insieme dei numeri reali
H ( X ) = 1 FD ( x) = P( D > x)
H (t ) =
H (t + s )
H (s)
Non sappiamo la funzione di ripartizione, non sappiamo come è fatta H , ma sappiamo
che gode di quelle proprietà.
H (t + s ) = H (t ) H ( s )
Chi è la funzione che trasforma la somma in prodotto?
L’esponenziale
H =e
: >0
:t
FD (t ) = 1 e
:t
FD (t ) = I (t ) (1 e
(0, +1 )
:t
)
P( D = t ) = 0
Il salto di discontinuità è pari a 0.
FD HtL
1
0.8
0.6
0.4
0.2
2
4
6
8
10
t
76
20-12-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Quando consideriamo un campione casuale di m variabili casuali Z1 , Z 2 ,..., Z m , la media
1 m
, Zi con m
m i =1
proprio valore atteso / ( Z ) .
campionaria
1 , avrà un salto di discontinuità nel punto coincidente con il
Sottolineiamo ora alcuni punti importanti:
- con m 1 studiamo variabili casuali non limitate;
m
-
con
,Z
i =1
i
avremo variabili casuali non discrete;
m
avremo variabili casuali continue quando possono assumere tutti i valori reali.
DISTRIBUZIONE GEOMETRICA
P(T = k ) = I{1,2,...} (k )i pq k
1
(ci chiediamo la probabilità che il primo successo avvenga alla
k-esima estrazione).
FT (k ) = (1 q =; >< ) I{1,2,...} (k )
k
FTHxL
0.6
0.5
0.4
0.3
0.2
0.1
1
2
3
4
5
6
7
x
Dopo le prime k estrazioni, avremo al punto x = k un salto di discontinuità di altezza p . Il
secondo salto sarà di altezza pq , il terzo di altezza pq 2 , il quarto pq3 e così via...
1
/ (T ) = , kpq k 1 =
k =1
1 n
=
p n
%n &
Questo significa che più è probabile un successo elementare ' ( , meno dovremo
* n )
aspettare il primo successo.
77
DISTRIBUZIONE ESPONENZIALE
Consideriamo la variabile casuale D 0 .
Sappiamo che P ( D > s ) = P ( D > t + s | D > t ) .
: > 0 : FD ( x) = I (0,+1 ] ( x)i(1 e : x )
FD HxL
2
4
6
8
10
x
0.9
0.8
0.7
0.6
Fissato x sappiamo che P ( D = x ) = 0 in quanto il grafico è formato da una linea continua
e non ha salti di discontinuità.
0
P( D > x )
P( x - < D
notiamo come con - > 0 :
0 P( D = x ) e : ( x +- ) e : ( x
x + - ) = FD ( x + - ) FD ( x - ) = 1 e
-)
=e
:x
(e
:-
e
:-
) < lim(e
:-
-
0
e
:-
: ( x +- )
1+ e
: (x - )
)=0
Quindi 0 P ( D = x ) 0 . Di conseguenza abbiamo dimostrato che il salto di discontinuità
nel punto x è nullo.
Il / ( D ) lo calcoleremo con l’ area ( A) , in quanto non possiamo calcolarlo con la
, xP( D = x) in quanto non possiamo elencare tutti i valori che D può assumere.
x 0
78
1
/ ( D ) = 2 (1 FD ( x))dx
0
quindi / ( D ) 4
1
:
0
2F
D
1
1
1
0
0
( x)dx = 2 (1 FD ( x))dx = 2 (1 1 + e
:x
1
)dx = 2 e
1
:x
0
?e :x @
1
dx = ;
< = 0+
:
= : >0
ma noi non conosciamo : , come la calcoliamo?!?
Se prendiamo un campione casuale di m elementi D1 , D2 ,..., Dm non possiamo tracciarne
direttamente il grafico. Useremo a questo scopo Gm ( x, D) =
1 m
, I(
m i =1
1, x ]
( Di ) .
F AHxL
1
0.8
0.6
0.4
0.2
1
D(1)
/( D) 4
1
:
4
2
3
4
5
6
D(4)
7
x
D(7) ... D(m)
1
( D(1) + D(2) + ... + D( m) ) quindi
m
1 m
, Di lo stimo con la media campionaria
m i =1
79
10-01-2005
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Facciamo un ripasso veloce.
DISTRIBUZIONE GEOMETRICA
Vengono effettuate m prove. La probabilità di successo a una singola prova è uguale a p.
P(T > k ) = q k
FT (k ) = P (T k ) = 1 P (T > k ) = 1 q k
FT ( x) = I[1, 1 ) ( x) * (1 q =; >< )
x
P(T = x) = I{1,2,...} ( x)i pq x
1
Ricordiamo il teorema di “assenza di memoria”
P (T > k + h | T > h) = P (T > k )
DISTRIBUZIONE ESPONENZIALE
La variabile casuale D assume un valore reale non negativo che rappresenta il tempo
passato dal punto di origine da noi scelto e il primo successo.
Anche qui
P( D > s + t | D > s ) = P( D > t )
FD (t ) = I (0,1 ) (t )i(1 e : t )
: >0
P( D = x) = 0
P( D = x1 8 D = x2 ) = P( D = x1 ) + P( D = x2 ) = 0 + 0 = 0
con b > a
80
P (a < D b) = FD (b) FD (a ) = (1 e
:b
) (1 e
:a
)
se b tende ad a, la probabilità vale 0 in quanto è uguale a e
:b
( e
:a
)
Ma quanto rapidamente accade questo?
P (a D b)
e :b ( e :a )
=
b a
b a
:b
:a
e
( e )
=: e :a
lim
b a
b a
Definiamo densità di probabilità di D
d
d
d
A D ( x) = FD ( x) = (1 e : x ) = ( e
dx
dx
dx
b
2 A ( x ) dx = F ( b )
D
D
FD ( a ) = P ( a
:x
) =: e
:x
D b)
a
Proviamo ora a fare lo stesso discorso per la v.c. geometrica:
d
FT ( x) = 0
dx
b
d
2a dx FT ( x )dx = 0 accade che dove esiste, la derivata di FT ( x ) è nulla.
Confrontiamo ora i casi appena visti:
ESPONENZIALE
GEOMETRICA
f D ( x ) = P ( D = x) = 0
fT ( x) = P (T = x)
A D ( x) =
d
FD ( x)
dx
AT ( x ) =
Def: Una variabile casuale X si dice “continua” se
b
d
2 dx F
X
( x)dx = P (a
X
d
FT ( x) = 0
dx
a, b a < b abbiamo
b)
a
dove
d
FX ( x) = A X ( x)
dx
Quindi comunque si fissa una ragionevole regione A della retta la P( X
A) = 2 A X ( x)dx
A
81
/ ( D) =
+1
=
2 (x
0
+1
+1
0
0
2 (1 FD ( x))dx = 2
dx
(1 FD ( x))dx = = uv
dx
+1
0
1
d
+1
(1 FD ( x))dx) + ( x(1 FD ( x)) 0 = = 2 ( x A D ( x)dx) + ( xe
dx
0
dx
=u
dx
/(D
+1
)= 2 x A
2
D
( x)dx
1
se x < 0
0
AD ( x ) =
:e
:x
se x > 0
var ( D ) = / ( D 2 ) / ( D )
FD ( x ) = (1 e
:x
2
) I ( x)
(0, +1 )
: =?
/( D) =
d
2 u dx (1
FD ( x))dx =
0
(1 FD ( x)) = v
2
+1
1
:
D1 + D2 + ... + Dn
1
stimatore di
n
:
82
:x
1
1
) = 2 ( x A D ( x)dx)
0
0
14-01-2005
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Variabili Casuali “Continue”
Una variabile casuale X viene detta continua se esiste una funzione A X tale che
x
FX ( X ) = P ( X
P(X
x ) = 2 A X (k )dk per ogni numero reale x .
1
B) = 0
length ( B ) = 0
BC
P( X
AX : A
A) = 2 A X ( x ) dx
b
P ( a < X < b ) = 2 A X ( x ) dx
a<b
a
Siccome siamo nel continuo l’uguale nei segni di minore e maggiore può essere omesso
in quanto la probabilità nel punto è pari a 0.
dFX ( x )
dx
= AX ( x)
AX ( x) 0
monotona decrescente
9 +1
9 2 A X ( x ) dx = 1
1
/( X ) =
+1
2 xA ( x ) dx
X
1
/( X 2 ) =
+1
2 x A ( x ) dx
2
X
1
var ( X ) =
+1
2 (x
/ ( X ) ) A X ( x ) dx
2
1
P(x
x + x ) = FX ( x + x ) FX ( x ) = A X x + ...errore trascurabile
X
FX ( x + x ) FX ( x )
0
x
A X ( x ) = lim
x
Variabili Casuali Discrete
T1 numero estrazioni che aspetto affinchè esca il numero 53
T2 numero di tentativi per cui esca di nuovo il numero 53
P (T1 = x1 $ T2 = x2 ) = P (T1 = x1 ) P ( T2 = x2 )
P (T1
( a1 , b1 ) $ T2 ( a2 , b2 ) ) = P (T1 ( a1 , b1 ) ) P (T2 ( a2 , b2 ) )
/ ( T1T2 ) = / (T1 ) / (T2 )
83
Variabili Casuali Continue
D1 tempo nel quale aspetto che passi il primo autobus a Napoli
D2 tempo nel quale aspetto che passi il secondo autobus a Napoli
Non ho informazioni se D1 arriva prima di D2 dato che il traffico a Napoli è disordinato. Si
tratta di variabili casuali indipendenti.
Vediamo quindi di descrivere questo fenomeno di indipendenza.
P ( D1 = x1 $ D2 = x2 ) = P ( D1 = x1 ) P ( D2 = x2 )
=0
segue
legge exp
=0
segue
legge exp
=0
Però notiamo che il risultato non è dato dal fatto che il traffico è disordinato ma da un fatto
puramente matematico dato che la probabilità in un punto è pari a 0. DI conseguenza
questa espressione non descrive il fenomeno di indipendenza come invece accade nel
discreto.
Invece la seguente lo descrive perfettamente:
A1
P ( D1
, A2
A1 $ D2
A2 ) = P ( D1
x1
P ( D1
x1
D2
A1 ) P ( D2
A2 )
x1 ) P ( D2
x2 )
x2
x2 ) = P ( D1
FD1 , D2 ( x1 , x2 ) = FD1 ( x1 ) FD2 ( x2 )
Funzione di ripartizione congiunta.
/ ( D1 D2 ) = / ( D1 ) / ( D2 )
Se X 1 e X 2 sono variabili casuali indipendenti
B
/ ( X1 X 2 ) = / ( X1 ) / ( X 2 )
g , h / ( g ( x ) h ( x )) = / ( g ( x )) / ( h ( x ))
84
Variabili casuali indipendenti e identicamente distribuite
X 1 , X 2 ,..., X n ,...
FX i = FX
Xn =
stimatore
1 n
Xi
µX
,
n i =1
/( Xn )
stimatore non distorto
=
var ( X n )
consistenza in media quadratica
(
lim P X n
h
1
=
µX < - )
lim FX n ( x ) =
n
µX
1
var ( X )
n
consistenza semplice
=
1
se x > µ X
0
se x < µ X
1
Fxn HxL
1
0.8
0.6
0.4
0.2
-3
-2
-1
1
2
µX
3
4
x
Consideriamo una variabile casuale X la funzione generatrice dei momenti di X è
mX ( t ) = / ( etX )
X 1 + X 2 = S 2 variabili casuali indipendenti
(
mS2 ( t ) = / ( etS2 ) = / e (
t X1 + X 2 )
) = / (e
tX1 tX 2
e
) = / ( e ) / ( e ) = m (t ) m (t )
tX1
X 1 , X 2 indipendenti
i .i .d .
(
mX1 + X 2 ( t ) = mX1 ( t ) mX 2 ( t ) = mX1 ( t )
)
2
X 1, X 2 ,..., X n i.i.d .
(
mX1 + X 2 +...+ X n ( t ) = mX1 ( t )
)
n
85
tX 2
X1
X2
i.i.d. bernoulliane
X 1, X 2 ,... X n
( )
mSn ( t ) = / etSn
n
mSn ' ( t ) = , ketk P ( S n = k )
k =0
n
mSn ' ( 0 ) = , kP ( Sn = k ) = / ( Sn )
k =0
n
mSn '' ( 0 ) = , k 2 P ( S n = k ) = / ( S n 2 )
k =0
(
( )
mSn ( t ) = / etSn = / e (
mSn ( t ) = ( q + pet )
t X1 + X 2 +..+ X n )
) = (m
X1
(t ))
n
= ( et 0 q + pet1 ) = ( q + pet )
n
n
n
mSn ' ( t ) = n ( q + pet )
n 1
pet
mSn ' ( 0 ) = np
Ovvero il valore atteso della binomiale
Proviamo a ricavare dalla funzione generatrice dei momenti la funzione di distribuzione:
mA ( t ) = ( q + pet )
n
( q + pe ) = , %' k &( q
* )
n
t n
n
n k
p k etk
k =0
%n&
f K ( k ) = f K ( k ; n, p ) = ' ( q n k p k I ( k )
(0,1,..., n )
*k )
Ottenendo la funzione di densità della distribuzione binomiale.
In questo caso è stato facile ricavare la funzione di denstià dalla funzione generatrice dei
momenti ma negli altri casi è un operazione molto difficile. Inoltre la funzione generatrice
dei momenti definisce univocamente la funzione di densità ad essa associata.
FX
mX
mX ( t ) =
+1
2e
tX
A X ( x ) dx
1
86
17-01-2005
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Consideriamo una variabile casuale X , la sua FX e t , che è un numero appartenente ad
un qualsiasi insieme (naturale, intero, razionale, reale o immaginario...).
Consideriamo
/ ( etX ) =
+1
2e
tX
A x ( x)dx
1
Chiamiamo M l’insieme delle t tali che esiste finito il valore atteso di etX :
M = {t : / ( etX ) esiste finito}
Chiamiamo Funzione generatrice dei momenti, e la indichiamo con mX :
mX (t ) = / ( etX )
La funzione generatrice dei momenti è un ottimo sistema per calcolare valore atteso e
varianza, infatti / ( X ) è uguale alla derivata prima della funzione generatrice dei momenti
calcolata nel punto t = 0 .
/ ( X ) = m ' X (0)
Se vogliamo calcolare la varianza (ricordiamo che var ( X ) = / ( X 2 ) / ( X ) ) ci basta
2
calcolare la derivata seconda della funzione generatrice dei momenti nel punto t = 0
E ( X 2 ) = m '' X (0)
e calcolare poi la varianza come visto prima.
Ricordiamo che se conosciamo FX possiamo calcolare mX e viceversa. (anche se non è
poi così facile determinare dalla funzione generatrice dei momenti la sua funzione di
ripartizione)
Supponiamo di avere una successione di variabili casuali X 1 , X 2 ,..., X n , una successione
delle funzioni di ripartizione FX1 , FX 2 ,..., FX n e quindi le relative funzioni generatrici dei
momenti mX1 , mX 2 ,..., mX n allora
lim mX n (t ) = m(t )
n
1
lim FX n = F
n
1
e risulteranno tali che m(t ) D F
87
Consideriamo una successione di variabili casuali indipendenti ed identicamente
distribuite.
1 n
Z ( n ) = , Z i è la media campionaria.
n i =1
n
n
% %' t &( , Zi &
t
% % nt Z1 & &
Zn &
% nt Z1 nt Z2
tZ ( n )
n ) i =1
*
n
( = / ' e ie i...ie ( = ' / ' e ( (
= /' e
mZ( n ) (t ) = / e
'
(
'
(
*
) * *
))
*
)
t
Z1
%t&
n
quindi sostituendo e con mZ1 ' ( troveremo
*n)
( )
n
2
%
&
t
n
m ''Z1 (0)
'
(
%
t
% t &&
n + ... ( =
mZ( n ) (t ) = ' mZ1 ' ( ( = sviluppo di Mac Laurin = ' mZ1 (0) + m 'Z1 (0) +
n
2!
* n ))
'
(
*
'
(
*
)
n
%
µZ1 t µZ2 t 2 &
µZ t &
%
= '1+
+
( = glia addendi dopo il secondo possiamo trascurarli = ' 1 + 1 (
2
'
n
n )
2n ()
*
*
n
se calcoliamo il limite per n che tende ad infinito...
n
% µZ t &
lim '1 + 1 ( = et µZ
n 1
n )
*
Consideriamo la variabile casuale D come il tempo passato dal successo precedente
oppure come il tempo che intercorre tra il mio arrivo alla pensilina dei pullman e l’arrivo del
primo autobus, o dall’arrivo dell’autobus che ho appena perso all’arrivo del prossimo.
Questa variabile casuale è i.i.d (Indipendente ed Identicamente Distribuita).
La funzione di ripartizione di D è FD ( x) = (1 e : x ) I (0,+1 ) ( x) .
Supponiamo di aspettare il pullman T secondi.
Quanti pullman vedo passare in T secondi? Nell’intervallo (0, T ) ? Questa domanda può
essere posta per un qualsiasi intervallo (a, b) , basta porre a = 0 e b = T . Indichiamo con
N (a, b) il numero di pullman che passano nell’intervallo (a, b) .
Vediamo che P ( N (a, b) = 0) = P ( D > (b a )) , che significa che il primo pullman arrivo dopo
un tempo maggiore che trascorre dal nostro arrivo a , a quando ce ne andiamo b .
Visto che FD ( x) = P( D
k ) , allora
P ( D > (b a )) = 1 FD ( x) = 1 P ( D
Quindi P( N (0, T ) = 0) = +e
: (T 0)
k ) = 1 (1 e
= +e
: (b a )
) = 1 1+ e
: (b a )
= +e
: (b a )
:T
Questo non ci dice poi molto visto che siamo abituati ad attese abbastanza lunghe.
Prendiamo allora l’intervallo da noi considerato, (0, T ) , e suddividiamo in n intervalli distinti,
T
disgiunti e della stessa ampiezza .
n
88
Fissiamo la nostra attenzione su uno di questi singoli intervalli e chiamiamo qn la
probabilità che, nell’intervallo considerato, non passi nemmeno un autobus:
qn = e
:
Non passa nessun autobus
T
n
pn = 1 qn = 1 e
:
Il suo complementare, passa ALMENO un autobus, quindi anche
2,3...
T
n
Consideriamo la variabile casuale Sn con legge binomiale di parametri n e pn . Questa
variabile casuale indica il numero di intervalli nei quali è passato un autobus (abbiamo
avuto un successo). Ma Sn è il numero di autobus che vediamo passare?!
NO, in quanto, come detto, in un intervallo di tempo (non conosciamo quanto tempo vale
un intervallo, può essere di 1 minuto come di un’ora) possono passare più autobus.
Se n 1 , il tempo di un intervallo diventa talmente minimo, che possiamo considerare Sn
come il numero di autobus che vediamo passare (non possono passare due autobus in un
secondo, dovrebbero stare uno sopra l’altro... ).
Quindi FN (0,T ) = lim FSn .
n
mSn ( t ) = ( qn + pn et )
qn = e
:
n
t
n
pn = 1 e
:
ex = 1 + x +
pn = 1 e
pn
1
:
t
n
x2
+ ...
2!
t
n
2
%
&
t
t
2 t
= 1 '1 : +:
+ ... ( 1 1 + :
2
n
n
2!n
*
)
:t
n
npn : t
Con n
+1 abbiamo npn : t da cui pn
:t
n
=
E
n
.
La funzione generatrice dei momenti di Sn vale:
E
E
n
E
%
& %
mSn (t ) = (qn + pn et ) n = (1 pn + pn et ) n = '1
+ et ( = ' 1 + (
n n ) *
n
*
Quindi dato FN (0,T ) = lim FSn sappiamo che
n
1
89
% E ( et 1) &
t &
(
1 + e ) ( = '1 +
(
n
) '*
)
n
n
% E ( et 1) &
E et 1
( =e ( )
= lim '1 +
n 1'
(
n
*
)
n
( )
mN (0,T ) (t ) = lim mSn
1
n
Ora scriviamo N (0, T ) come NT 0 ossia NT .
Ci chiediamo ora quanto vale P( NT = k ) , ponendo k come un numero intero non negativo.
1
Ricordiamo che / ( etNT ) = mNT (t ) = , etk P( NT = k )
k =0
Cominciamo a calcolarci mNT :
mNT (t ) = lim ( (1 pn ) + pn et ) = e
n
(
1
n
) = e E eE e
E et 1
t
1
x 2 x3
xk
ricordiamo, per aiutarci nei conti, che e = 1 + x + + + ... = , .
2! 3!
k =0 k !
t
Se poniamo x = E e , viene facile scrivere che
x
E E et
e e
E
=e
1
,
( Ee )
t k
k!
k =0
se uguagliamo
1
, etk
k =0
1
e E E k etk
e E E k tk
=,
e
k!
k!
k =0
k =0
1
=,
1
e EEk
= , etk P( NT = k ) , vediamo facilmente che
k!
k =0
E
e Ek
I (0,1,2...) (k )
k!
dalla quale, sostituendo E = : t , e tornando quindi indietro, troviamo che
e : t (: t ) k
P ( NT = k ) =
I (0,1,...) (k )
k!
P ( NT = k ) =
Questa legge di probabilità si chiama LEGGE DI POISSON con parametro : t .
Vediamo ora i vari punti di questa legge:
e : t (: t ) k
P( N = k ) =
k!
mN (t ) = e
(
)
E et 1
/ ( N ) = m ' N (0) = e
(
)E et = 1iE i1 = E
E et 1
E ( et 1)
E ( et 1)
/ ( N 2 ) = m '' N (0) = E %' et e
+ et e
E et &( = E (1 + E ) = E + E 2
*
)
var ( N ) = / ( N 2 ) / ( N ) = E + E 2
2
E2 = E
90
21-01-2005
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Supponiamo due variabili casuali X ,Y e le loro rispettive funzioni generatrici dei momenti
mX e mY . Vogliamo studiare la variabile casuale Z così definita: Z = X + Y .
Se X eY sono indipendenti è elementare calcolare la funzione generatrice dei momenti
di Z.
( )
(
)
( ) ( )
mZ (t ) = / etZ = / etX e tY = / etX / e tY = mX (t )mY (t )
Ripassiamo qualche proprietà dell’esponenziale:
1
xk
ex = ,
x
k =0 k !
e x + y = e xe y
g ( x ) = e x g '( x ) = g ( x ) = e x
g (0) = 1
Fissato un numero positivo E > 0 definiamo N variabile casuale di Poisson se
mN (t ) = e E ( e
t
1)
.
Ricordiamoci l’esempio dei pullman di Napoli...la variabile casuale D1 indica il tempo che
un pulmann impiega ad arrivare alla mia fermata. Questa variabile segue l’esponenziale e
la funzione di ripartizione vale: FD1 ( x ) = (1 e : x ) I(0,+1 ) ( x ) . Consideriamo D2 indipendente
da D1 .
Per stimare : ricordiamo che / ( D ) =
1
:
, ma non conoscendo / ( D ) , diremo che uno
stimatore non distorto del nostro valore atteso è la media
stimatore
1 1
1
Di
,
:
n i =1
Siccome non sappiamo il valore di : , non sappiamo quanto tempo ci mettiamo a veder
passare n autobus.
E’ meglio fissare un tempo T di osservazione.
T
Suddividiamo T in n intervalli di lunghezza .
n
0
T
Studiamo, come fatto precedentemente, qn e pn = 1 qn (la probabilità che passa almeno
un autobus).
Studiamo Sn con n
1 per trovare NT , ovvero il numero di autobus che passano alla
mia fermata. L’intervallo nel quale possiamo avere un successo è talmente breve che
possiamo stimare con esso il numero di bus passati dalla pensilina nell’intervallo di tempo
T.
91
(
mNT (t ) = lim mSn (t )
n
1
mNT (t ) = e(: t )( e
t
1)
)
che viene chiamata legge di Poisson di parametro : t .
La probabilità che N assuma un valore intero non negativa vale:
P (N = k ) =
Ek
k!
e E I{0,1,2,...} (k )
Il valore atteso di N vale:
/ ( N ) = m 'N (0) = E
La varianza di N vale:
2
var(N ) = / ( N ) / N 2 = E + E 2
( )
E2 = E
Ricordando che E = : t possiamo affermare che / ( NT ) = : T .
Come possiamo stimare : in maniera non distorta basandoci sul numero di conteggi degli
autobus da effettuare?
1
%N &
/ ( NT ) = : T
/ ( NT ) = :
: = / ' T ( ovvero il valore atteso della frequenza media in
T
*T )
cui passa un autobus
Certo che con questa stima T può essere 2 minuti o 2 anni...questa cosa è sospetta,
quanto può essere accurata questa misurazione?
Possiamo valutarla in base al valore della varianza, più piccola sarà la varianza più
accurata sarà la nostra misurazione.
1
:
%N & 1
var ' T ( = 2 var ( NT ) = 2 : T = .
T
T
*T ) T
Sapendo che : è una costante, vediamo che più T sarà grande, quindi più tempo starò alla
pensilina, più la nostra misurazione sarà accurata.
Dato che il parametro E = : T e che T deve tendere all’infinito per avere una stima
corretta, allora anche E tende all’infinito.
Usiamo Tchebycheff, scrivendo E come / ( NE ) diremo che:
P ( NE
E <-) 1
var(NE )
-2
- >0
92
Possiamo scriverla, come mostra il libro di testo:
(
P NE
E <r E
)
1
1
r2
r >0
% N E
&
1
P' E
< r( 1 2
r
E
*
)
Ma in questo caso ci accorgiamo come Tchebycheff possa sviarci dal nostro vero obiettivo
in quanto noi vorremmo scriverla esplicitamente senza fare intervenire E .
Osservando Tchebycheff possiamo dire che
E
,
0 k
k E
k!
e
E
e facendo lim
E
<r
E
1
,
0 k
k E
E
E
k!
e
E
<r
Ci accorgiamo che se lo facciamo della funzione di ripartizione sarà molto difficile
calcolarlo mentre è estremamente semplice se lo si fa prendendo come argomento la
nostra funzione generatrice dei momenti.
lim m NE
E
1
E
(t )
E
N /(N )
= N*
var ( N )
/( N* ) = 0
var ( N * ) = 1
(
)
%
%
% t (N E ) & &
%
(t ) = / ( e ) = / ( exp(tN ) ) = / ' exp '
( ( = / ' exp '
E ))
*
*
*
*
lim mN F (t ) =
1
n
mN F
E
t
E
E
tNEF
F
t
E
E
E
( NE
&&
E)( (
))
=s
(
/ ( exp ( sNE
sE ) ) = / esNE e
sE
)=e
sE
(
)
/ e sNE = e
sE
mNE (s ) = e
sE
%
%
t
% t & &&
= exp '' E
+ E ' exp '
( 1( ((
E
E
*
) ))
*
*
dato che lim eT = lim (T )
n
1
( )
n
1
%
%
%
%
t
% t & &&
% t & &&
+ E ' exp '
lim '' E
1( (( = lim '' t E + E ' exp '
(
( 1( ((
n 1
n 1
E
E
E
*
)
*
) ))
*
)
*
*
)
*
93
eE (e
s
1)
=
1 t 2 ?; 1 t 3 @<
+
. Il fattore tra parentesi quadre
3
E 2 E ; 3! 2 <
= E >
possiamo trascurarlo in quanto è un infinitesimo di grado maggiore rispetto al precedente.
Quindi:
Sviluppo di Mac Laurin dell’exp: 1 +
t
+
%
% t
%
1 t2 &&
t2 & t2
quindi il limite dell’esponenziale
lim '' t E + E '
lim
+
=
t
E
+
t
E
+
( (( n 1 '
(=
n 1
2
2
2
E
E
*
)
*
)
*
)
vale
e
1 2
t
2
Osservando nell’appendice del nostro libro di testo individuiamo la funzione generatrice
dei momenti in corrispondenza della distribuzione normale.
Quindi riprendendo il nostro discorso da Tchebycheff
% N E
&
1
lim P ' E
< r ( = P( G < r) =
E 1
2G
E
*
)
r
2e
x2
2
dx
r
94
24-01-2005
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Riassumiamo brevemente quello che abbiamo visto nelle ultime due lezioni.
Consideriamo X 1 , X 2 ,..., X n variabili casuali bernoulliane, indipendenti e identicamente
distribuiti con 0 < p < 1 .
n
Sn = , X i
i =1
SnF =
Sn / ( Sn )
var ( Sn )
=
Sn
np
np (1 p )
/ ( SnF ) = 0
var ( SnF ) = 1
lim mS F ( t ) = e
1
n
t2
2
n
Osserviamo che il limite è la funzione generatrice dei momenti della normale.
+1
1
e
2G
2
1
x2
2
t2
2
e dx = e = / ( etG ) Dove con G si intende una variabile casuale Gaussiana
tx
(Normale standarizzata)
1
AG ( x ) =
e
2G
/ (G ) = 0
x2
2
var ( G ) = 1
lim FS F ( x ) = FG ( x )
n
1
n
Consideriamo ora N E variabile casuale di Poisson di parametro E > 0 .
/ ( NE ) = E
var ( N E ) = E
Notiamo un caso particolare, ovvero valore atteso uguale varianza.
Effettuiamo l’operazione di standarizzazione.
N E
N EF = E
E
lim mN F ( t ) = e
n
1
t2
2
E
Ed ecco di nuovo che il riusultato del limite è la funzione generatrice dei momenti della
normale standarizzata. Ricordiamo che la variabile casuale Gaussina è una variabile
casuale continua.
95
1
è!!!!!!!!
2
0.4
x2
2
0.3
0.2
0.1
-4
-2
2
4
x
Notiamo che la normale standarizzata è simmetrica rispetto all’asse delle ordinate.
x0
P (G
x0 ) = P ( 1 < G
x0 ) =
x0
2 A ( y ) dy
G
1
96
Ora non vogliamo più parlare di variabili casuale Bernoulliane e Poissoniane.
Consideriamo semplicemente X 1 , X 2 ,..., X n variabili casuali indipendenti e identicamente
distribuite.
/ ( X i ) = µX
var ( X i ) = 0 X2
i = 1, 2,..., n
n
Sn = , X i
i =1
% n
&
X
/
,
i
', Xi (
* i =1 )
= i =1
n
%
&
var ' , X i (
* i =1 )
n
SnF =
S n / ( Sn )
var ( Sn )
?
Ma ora non sappiamo se lim mS F ( t ) = e
n
1
n
t2
2
però possiamo tentare di verificarlo.
% n
& % n
&
/
X
X
,
i
' , i ( ' , X i ( nµ X
* i =1 ) = * i =1 )
= i =1
=
n
n0 X2
%
&
var ' , X i (
* i =1 )
n
F
n
S =
S n / ( Sn )
var ( S n )
n
1
S =
n
F
n
Yi =
,( X
Xi
i =1
i
µX )
0X
µX
0X
/ ( Yi ) = 0
var (Yi ) = 1
SnF =
1 n
, Yi
n i =1
97
n
, Xi
i =1
n
, µX
i =1
n0 X
n
=
,( X
i =1
i
µX )
n0 X
% t ,Yi &
n
mS F ( t ) = / ' e i=1 (
n
'
(
*
)
n
s=
t
n
% t ,Yi &
% s ,Yi
n i=1 (
'
mS F ( t ) = / e
= / ' e i=1
n
'
(
'
*
)
*
n
(
mS F ( t ) = mY1 ( s )
n
n
)
&
i .i .d .
n
( = / e sY1 e sY2 ...e sYn = / ( e sY1 )
(
)
n sviluppo di Mac Laurin
=
(
)
&
%
s2
s3
'
''
'''
m
0
+
m
0
s
+
m
0
+
m
0
+ ... (
' Y1 ( )
Y1 ( )
Y1 ( )
Y1 ( )
2!
3!
)
*
n
/ ( e0Y1 ) = / (1) = 1
m'Y1 ( 0 ) = / (Y1 ) = 0
m''Y1 ( 0 ) = / (Y12 ) = var (Y1 ) = / (Y12 ) / ( Y1 ) = 1
2
3 &
% % t &2
t
%
&
' '
3 n
(
'
( (
% s2
' * n)
n) (
3 s &
3 *
+ / (Y1 )
mS F ( t ) = '1 + + / (Y1 ) ( = '1 +
n
2
3! )
2
3! (
*
'
(
'
(
*
)
n
Il terzo addendo è un infinitesimo più grande rispetto al secondo addendo di conseguenza
può essere trascurato.
Il momenti terzo è chiamato Curtosi e rappresenta quanto la densità sia simmetrica intorno
al suo valore atteso.
%
t2 &
mS F ( t ) = '1 + (
n
* 2n )
n
n
2
t
%
t2 &
lim mS F ( t ) = lim '1 + ( = e 2
n
n 1
n 1
* 2n )
Ed ecco dimostrata la nostra congettura: lim mS F ( t ) = e
n
1
98
n
t2
2
Dedichiamoci ora a Tchebycheff e ad alcune osservazioni.
a<b
P (a
S
F
n
b
1
e
2G
b) = P ( a G b) = 2
a
x2
2
dx
a<b
µX = / ( X i )
%
'
lim P ' a
n 1
'
'
*
n
,X
i =1
nµ X
i
n0 X
&
(
b(
(
(
)
n
%
X i nµ X
n
,
'
%
&
i
1
=
X i nµ X
'
,
'
(
n
i =1
'
(
P a
b = P'a
'
n0 X
n0 X
'
(
'
(
'
n
*
)
'
*
n
1
%
&
%
X i µX
,
'
(
X n µX
n
n
i =1
= P'a
b ( = P '' a
'
(
'
var X n
var X n
'
(
*
*
)
( )
%
lim P '' a
n 1
'
*
Xn
µX
( )
&
1
b (( =
2G
(
)
n
( )
var X n
a= r
b
2e
y2
2
&
(
%
(
'
b( = P'a
(
'
'
(
*
(
)
1 n
, Xi µX
n i =1
1
0X
n
&
(
b( =
(
(
)
&
b ((
(
)
dy
a
b=r
0
r >0
% X µ
&
n
1
Xn
'
< r (( =
lim P '
n 1
2G
' var X n
(
*
)
( )
r
2e
y2
2
dy
r
Noi vogliamo che la maggiorazione della disuguaglianza di Tchebycheff sia fatta con il
1
risultato del limite e non con 1 2 .
r
99
Se vogliamo calcolare la probabilità all’interno dell’intervallo (–r,r) possiamo più
rapidamente calcolarla come 1 meno tutto ciò che non sta nell’intervallo ovvero:
1
2
e
2G 2r
1
y2
2
dy
Il due al numeratore viene fuori dal discorso di simmetria della densità normale rispetto
all’asse delle ordinate, di conseguenza le aree (“blu”) sottese al grafico sono uguali.
r
r
Ora vogliamo dimostrare che:
1
2
e
2G 2r
1
y2
2
1
r2
dy 1
Studiare però quell’integrale risulta difficile, ma vediamo se riusciamo ad arrampicarci sugli
specchi
1
2 1ie
x2
2
r
? 1
x
dx 2 ie
r
r
x2
2
dx
Possiamo fare il confronto in quanto: x > r quindi
1
1
xe
r 2r
x2
2
1%
dx = ' e
r '*
x2
2
r2
& +1 e 2
(( =
r
)r
Quindi:
1
2
2G
r>0
+1
2e
r
x2
2
dx 1
r2
2
2 e
2G r
100
x
>1
r
In conclusione se n è molto grande (tendente all’infinito nelle nostre considerazioni)
possiamo affermare che:
r >0
% X µ
&
n
11
Xn
'
< r (( 1
P'
1
r
r
' var X n
(
*
)
( )
21
e
G r
r2
2
101
4-10-2004
Alessandro Reina, Laura Sorgiacomo, Paolo Rotta
Gnedenko 1931
Il Calcolo della probabilità è quel ramo della matematica che si occupa di modelli
matematici, di fenomeni casuali aventi la proprietà della stabilità della frequenza.
I fenomeni casuali sono quei fenomeni con i quali si possono ottenere risultati differenti a
parità di condizioni iniziali.
I fenomeni deterministici sono quei fenomeni che grazie alla conoscienza delle condizioni
iniziali determinano l’evoluzione futura del sistema.
Ripasso sugli insiemi
Differenza simmetria, A B , corrisponde agli elementi che
appartengono sia ad A che a B ma non a tutti e due.
A B = (A
A
B)
(A
B )C
B
La cardinalità di un insieme è il numero degli elementi dell’insieme stesso.
Dato un insieme A indicheremo la sua cardinalità con la notazione A .
A = {a, b, c}
A =3
L’insieme delle parti di un insieme è costituito da tutti i sottoinsiemi dello stesso
insieme.Per ogni insieme B , l’insieme delle sue parti sarà ( B ) = 2 B
Nell’esempio si prima:
( A) ={{a, b, c} , {a, b} , {a, c} , {b, c} , {a} , {b} , {c} , {
}}
La cardinalità dell’insieme delle parti di A è:
P( A) = 23 = 8
Il prodotto cartesiano è:
C = A× B
A × B = {( , )
A,
B}
102
Ad esempio dati gli insiemi seguenti:
A = {c, d }
B = {7, 42}
Il prodotto cartesiano è:
A × B = {(c,7), (c, 42), (d , 7), (d , 42)}
Cardinalità del prodotto cartesiano:
Se A = n
e B =m
allora
A × B = nm
A × B = 2* 2 = 4
definizione di coppia ordinata:
(a, b) ={{a} , {a, b}}
(b, a) = {{b} , {a, b}}
Tips: Notare bene l’ordine lessicografico!!!
Ovvero data la coppia ordinata
(a, b)
Il suo insieme è esso stesso un insieme i cui elementi sono gli insiemi di {a, b} ed {a} .
{a, b} ovviamente è diversa da {b, a}
che è l’insieme degli elementi su {b, a} e {b} .
103