Capitolo 4.3 Calcolo della probabilità e statistica

Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
APPENDICE - CALCOLO DELLA PROBABILITÀ E STATISTICA
1. Variabili aleatorie
1.1. Variabili 1D a valori in R - I risultati di ripetute misure di una stessa quantità non sono in
generale tutti uguali, a causa di errori che sono presenti in ciascuna misura. A ciascuna operazione di misura
corrisponde in generale un numero diverso, ma i valori ottenuti tendono ad addensarsi in un intervallo tanto
più piccolo quanto più precise sono le misure. Il risultato di ciascuna misura non è prevedibile a priori, ma se
si fa un numero molto elevato di misure si può prevedere che i loro valori si distribuiscono in modo piuttosto
regolare (per esempio, la maggior parte di essi è contenuto in un piccolo intervallo, e si diradano sempre di
più allontanandosi da tale intervallo.
Questo comportamento, che si ripete quando si eseguono più serie di misure, mentre i singoli valori sono
diversi da serie a serie, può essere descritto in un linguaggio matematico rigoroso introducendo il concetto
di probabilità, che consente di associare ad ogni intervallo della retta reale un numero compreso fra 0 e 1
che indica la frazione del numero totale di misure che prevedibilmente cade in quell’intervallo.
La probabilità è definita a priori, e non ci si aspetta che i risultati la rispecchino esattamente, ma solo
approssimativamente, e con un’approssimazione tanto migliore quanto maggiore è il numero di ripetizioni
della misura. Questi concetti, che sono qui espressi in maniera imprecisa, vengono rigorosamente precisati
nell’ambito della teoria della probabilità e della statistica (ad esempio, non solo si definisce la probabilità
che il risultato di una misura cada in un certo intervallo, ma si può anche calcolare, in funzione del numero
totale di ripetizioni della misura eseguite, la probabilità che il numero effettivo di misure che cadono in
quell’intervallo si discosti dal numero previsto più di una quantità fissata).
Nei casi che saranno esaminati in seguito la probabilità per una quantità X (ad esempio la misura di una
grandezza) può essere definita introducendo una funzione non negativa fX (x) (densità di probabilità - dp)
tale che la probabilità che X cada in [a, b] è data da
P {[a, b]} =
b
fX (x)dx
(1)
a
La quantità X è detta variabile aleatoria (va).
fX (x) può essere definita su tutto R anche se la probabilità di X è diversa da 0 solo in un intervallo
limitato. In tal caso fX = 0 al di fuori di tale intervallo.
Ovviamente
∞
−∞
fX (x)dx = 1
(2)
Inoltre, poichè la probabilità che X cada in un intervallo tende a 0 al tendere a 0 dell’ampiezza
dell’intervallo, P (X = x̄) = 0 per ogni singolo punto x̄ . Questo non vuol dire che sia impossibile che il
valore di una misura sia esattamente x̄ ; vuol solo dire che, fissato in precedenza x̄ ed eseguendo poi un
numero finito di misure, in generale nessuna misura ha esattamente il valore x̄ . La cosa non ha grandi
conseguenze pratiche, poichè, quando si fa una misura, a causa della risoluzione finita dello strumento, non
si determina mai un preciso numero reale, ma piuttosto un piccolo intervallo. Ad esempio, se si dice che la
lunghezza di un segmento è 1.013 m, si intende che essa è compresa fra 1.013 m e 1.014 m e che la risoluzione
dello strumento è 1 mm. Se lo strumento avesse risoluzione maggiore, si userebbero più cifre decimali.
NOTA: in teoria della probabilità esistono situazioni (non esaminate in questo contesto) in cui probabilità
finite sono concentrate su singoli valori (si pensi ad esempio al lancio di un dado). Si parla allora di
distribuzione di probabilità discreta. In questo caso non è possibile definire la funzione densità di probabilità.
Si definisce funzione di distribuzione cumulativa (fdc)
1
1
Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
FX (x) =
x
−∞
fX (t)dt = P {X ≤ x}
(3)
Quindi fX (x) = (d/dx)FX (x) . È facile vedere che FX (x) è non decrescente per ogni x . Nel caso
di distribuzioni di probabilità discrete la fdc può essere ugualmente definita dalla (3) omettendo il termine
intermedio. In corrispondenza dei valori in cui sono concentrate probabilità finite FX (x) presenta una
discontinuità.
ESEMPI:
- distribuzione uniforme:
fX (x) =
1
I[a,b] (x)
b−a
(4)
dove in generale si definisce
IA (x) =
x∈A
x ∈ A
1
0
(5)
La probabilità di sottointervalli di [a, b] è in questo caso proporzionale alla loro lunghezza.
- distribuzione normale (o gaussiana):
fX (x) = √
1 (x − a)2 1
exp −
2 α2
2πα
(6)
Questa dp è quella più frequentemente adottata per descrivere la distribuzione di misure affette da errori
casuali. Si noti che essa è simmetrica rispetto ad a ; il parametro α indica quanto il picco è concentrato
intorno ad a .
1.2. Generalizzazione a Rn . Marginale e condizionata. - In modo analogo si procede quando si
vogliono trattare contemporaneamente le misure di diverse grandezze scalari, che possono essere ordinate in
un vettore di Rn . In questo caso ha senso chiedersi qual’è la probabilità che il vettore le cui componenti
sono le misure delle grandezze prese in considerazione (variabile aleatoria n-dimensionale) appartenga ad
un certo sottoinsieme A di Rn , ad esempio un determinato quadrato o cerchio in R2 , ed è possibile,
nella maggior parte dei casi che saranno qui trattati, introdurre anche in questo caso una funzione densità
di probabilità fX (x) = fX (x1 , ..., xn ) (densità di probabilità congiunta - dpcg), tale che
P {X ∈ A} =
fX (x)dn x
(7)
A
Spesso accade che si sia interessati a conoscere la distribuzione di probabilità di una singola componente
Xk , indipendentemente dalle altre. Si introduce allora la densità di probabilità marginale (dpm) di Xk :
fXk (xk ) =
∞
−∞
dx1 ...
∞
−∞
dxk−1
∞
−∞
dxk+1 ...
∞
−∞
dxn fX (x)
(8)
Si ha allora
P {a ≤ Xk ≤ b} =
a
b
fXk (xk )dxk
(9)
2
2
Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
che rappresenta la probabilità che la coordinata Xk appartenga all’intervallo [a, b] , mentre le altre sono
arbitrarie. L’insieme a cui appartiene il vettore X è ad esempio in dimensione 3 uno strato infinito limitato
da 2 piani paralleli ad uno dei piani coordinati.
In modo analogo si ottiene la dpm congiunta di un sottoinsieme delle componenti di X , {Xk1 , ..., Xkm } ,
integrando la dpcg rispetto alle restanti componenti.
Per introdurre il concetto di probabilità condizionale con la corrispondente densità, si considerino inizialmente
per semplicità due sole quantità con dpcg fX (x1 , x2 ) , e si supponga di voler conoscere la probabilità che la
componente X1 appartenga ad un intervallo [a, b] , quando si sappia che la componente X2 appartiene
all’intervallo [c, d] (indicata con P {X1 ∈ [a, b] | X2 ∈ [c, d] ). Si vuole cioè prevedere, qualora si eseguano
ripetutamente misure della coppia di grandezze X1 e X2 , e si selezionino quelle misure per cui X2 sta
nell’intervallo [c, d] , in quale frazione di queste misure X1 sta nell’intervallo [a, b] . È facile rendersi conto
che
d
b
dx1 c dx2 fX (x1 , x2 )
P {X1 ∈ [a, b] , X2 ∈ [c, d]}
a
= ∞
P {X1 ∈ [a, b] | X2 ∈ [c, d]} =
d
P {X2 ∈ [c, d]}
dx1
dx2 fX (x1 , x2 )
−∞
(10)
c
Si supponga ora che l’intervallo [c, d] abbia un’ampiezza molto piccola ∆x2 ( d = c + ∆x2 ). In tal
caso l’integrale sulla variabile x2 può essere approssimato da una semplice moltiplicazione del valore della
funzione integranda in x2 = c per ∆x2 . Di conseguenza, la (10) diventa
b
dx1 fX (x1 , c)∆x2
a
=
P {X1 ∈ [a, b] | X2 ∈ [c, c + ∆x2 ]} = ∞
dx1 fX (x1 , c)∆x2
−∞
b
b
dx1 fX (x1 , c)
fX (x1 , c)
a
=
dx1
= ∞
fX2 (c)
dx1 fX (x1 , c)
a
−∞
(10)
(nell’ultimo passaggio si è usata la definizione (8) per il denominatore).
La funzione integranda nell’ultimo termine è detta densità di probabilità condizionale (dpcd):
fX1 |X2 (x1 |x2 ) =
fX (x1 , x2 )
fX2 (x2 )
(11)
Questa definizione è facilmente generalizzabile a Rn , quando si voglia introdurre la dpcd relativa ad un
insieme di componenti {Xk1 , ..., Xkm } , condizionata a valori fissati per le rimanenti:
fXk1 ,...,Xkm |Xj1 ,...,Xjn−m (xk1 , ..., xkm |xj1 , ..., xjn−m ) =
fX (x)
fXj1 ,...,Xjn−m (xj1 , ..., xjn−m )
(12)
Tornando al caso 2-dimensionale, si osservi che, se è possibile esprimere la dpcg nella forma fX1 X2 (x1 , x2 ) =
g(x1 )h(x2 ) , allora g e h coincidono a meno di un fattore di proporzionalità con le marginali fX1 e fX2 ,
e si può scrivere senz’altro fX1 X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 ) . Si vede allora dalla (11) che la dpcd relativa
a X1 coincide con la dpm, e non dipende da x2 . Si dice in tal caso che X1 e X2 sono indipendenti.
Generalizzando al caso n-dimensionale, si dice che n variabili aleatorie X1 , ..., Xn sono tra di loro a due a
due indipendenti se fX (x) = fX1 (x1 )...fXn (xn ) .
3
3
Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
1.3. Cambiamento di variabile - Sia X una va scalare e sia y = φ(x) una funzione reale. Si può allora
definire la va Y che ad ogni estrazione x dalla va X (cioè ad ogni misura della grandezza X avente
come risultato x ) fa corrispondere il valore y = φ(x) .
Si supponga inizialmente che φ(x) sia monotona crescente e continua. Allora l’immagine dell’intervallo
[x, x + ∆x] è l’intervallo [φ(x), φ(x) + ∆y] , dove, se ∆x è piccolo e se φ(x) è derivabile, ∆y può essere
approssimato con φ (x)∆x . Per introdurre la dp di Y , si osservi che, ovviamente,
P {φ(x) ≤ Y ≤ φ(x) + ∆y} = P {x ≤ X ≤ x + ∆x}
(13)
P {x ≤ X ≤ x + ∆x} fX (x)∆x
P {φ(x) ≤ Y ≤ φ(x) + ∆y} fY (φ(x))∆y fY (φ(x))φ (x)∆x
(14)
D’altra parte
Da (13) e (14) segue
fY (φ(x)) =
fX (x)
φ (x)
(15a)
ovvero
fX (φ−1 (y))
φ (φ−1 (y))
fY (y) =
(15b)
Queste formule sono facilmente generalizzabili al caso che φ(x) non sia monotona e diversi valori x(i)
abbiano la stessa immagine y (cioè φ(x(i) ) = y per i = 1, ..., k ). Si ha allora
fY (y) =
k
fX (x(i) )
|φ (x(i) )|
1
(16)
Ad esempio, se y = x2 , si ha
fY (y) =
√
√
fX (− y) fX (+ y)
+
√
√
2 y
2 y
(17)
È possibile anche una generalizzazione al caso n-dimensionale. In questo caso y = φ(x) è una funzione da
Rn a Rn (cioè ogni componente di y è esprimibile in funzione delle componenti di x ). Come esempi
si possono considerare le espressioni delle coordinate cartesiane in funzione delle coordinate polari nel piano
( R2 ) o nello spazio ( R3 ). Sia Jφ (x) la matrice Jacobiana di φ (cioè quella matrice i cui elementi sono
(Jφ )ij = ∂φi /∂xj ). Allora
fY (y) =
k
1
fX (x(i) )
| det Jφ (x(i) )|
(18)
4
4
Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
1.4. Media e varianza. Momenti. Matrice di covarianza. Teorema della media e propagazione
della covarianza. - Media e varianza: indici che esprimono la localizzazione e la dispersione di una va.
Analogia con i concetti di centro di massa e di momento di inerzia per masse distribuite.
- Media ( in dim.1)
E{X} ≡ µX =
+∞
−∞
xfX (x)dx
(19)
- Generalizzazione a dim.n
E{Xi } =
Rn
xi fX dn x =
+∞
−∞
xi fXi dxi
(20)
E{X} ≡ µX è il vettore di componenti E{Xi }
- Teorema della media: se y = φ(x)
E{Y } =
+∞
yfY (y)dy =
−∞
+∞
−∞
φ(x)fX (x)dx ≡ E{φ(X)}
(21)
Dimostrazione semplice per φ(x) monotona crescente e derivabile:
+∞
−∞
yfY (y)dy =
+∞
−∞
fX (φ−1 (y))
dy =
y −1
φ (φ (y))
+∞
−∞
fX (x) φ (x)dx =
φ(x) φ (x)
+∞
−∞
φ(x)fX (x)dx
(22)
La formula però è valida in generale.
- Linearità della media
E{αX + βY } =
+∞
+∞
dx
−∞
+∞
=α
−∞
−∞
dy(αx + βy)fXY (x, y) =
dx xfX (x) + β
+∞
−∞
(23a)
dyyfY (y) = αE{X} + βE{Y }
e anche
E{αφ(x) + βψ(x)} =
+∞
dx(αφ(x) + βψ(x))fX (x) =
−∞
+∞
=α
−∞
dxφ(x)fX (x) + β
(23b)
+∞
−∞
dxψ(x)fX (x) = αE{φ(X)} + βE{ψ(X)}
- Varianza (in dim.1)
2
var{X} ≡ σX
= E{(X − µX )2 } =
σX =
+∞
−∞
(x − µX )2 fX (x)dx
(24)
var{X} scarto quadratico medio
- Matrice di covarianza (in dim.n) CX :
5
5
Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
(CX )ij = E{(Xi − µXi )(Xj − µXj )}
(25a)
CX = E{(X − µX )(X − µX )T }
(25b)
ovvero, in forma vettoriale,
CX è evidentemente una matrice simmetrica. Gli elementi diagonali sono le varianze delle componenti.
NOTA
vi (Xi − µXi ))2 } =
(CX )ij vi vj = vT CX v
E{(
i
(26)
ij
Quindi, per ogni v ∈ Rn , v = 0 , vT CX v > 0 . Si dice allora che la matrice CX è definita positiva. Si
prova facilmente che il determinante di una matrice def.pos. è positivo.
ESEMPIO (in dim.1)
2
= α2 . Si usa il simbolo N [a, α2 ] .
Per la distr. normale (densità di prob. def. in (6)) µX = a , σX
In particolare, per a = 0 , α = 1 si ha una normale standardizzata.
- Momenti (semplici): µ(n) = E{X n } .
- Momenti centrali: µ̄(n) = E{(X − µX )n } .
NOTA: µ̄(1) = 0 ; µ̄(2) = σ 2 ; se fX è simmetrica rispetto a µX , i momenti centrali di ordine dispari sono
nulli.
OSSERVAZIONE:
(2)
var{X} = E{(X − µX )2 } = E{X 2 } − 2µX E{X} + µ2X = µX − µ2X
(27)
- Coefficiente di correlazione fra X e Y .
Posto σXY = E{(X − µX )(Y − µY )} si definisce coefficiente di correlazione ρXY = σXY /σX σY .
2 2
2
σY − σXY
= det CXY > 0 , segue che |ρ| < 1 .
Poichè σX
NOTA: siano X e Y indipendenti. Allora
σXY =
+∞
−∞
+∞
−∞
(x − µX )(y − µY )fXY (x, y)dxdy =
+∞
+∞
−∞
dx(x − µX )fX (x)
+∞
+∞
+∞
−∞
dy(y − µY )fY (y) = 0
(27bis)
dato che −∞ (x − µX )fX (x)dx = −∞ xfX (x)dx + µX −∞ fX (x)dx = µX − µX = 0 . Quindi due
va indipendenti sono anche incorrelate. Il viceversa non è però vero: basta osservare che, se ad esempio
fXY (x, y) è simmetrica per cambio di segno di x e y , allora σXY = 0 . Per le distribuzioni normali,
tuttavia, come si può vedere dalla (30), se le componenti del vettore X sono incorrelate, la loro matrice
di covarianza è diagonale, e quindi la loro ddp congiunta si spezza nel prodotto delle ddp delle singole
componenti, che risultano quindi indipendenti.
- Propagazione della covarianza
Se y = Ax + b , allora
CY = E{[(AX + b) − (AµX + b)][(AX + b) − (AµX + b)]T } = AE{(X − µX )(X − µX )T }AT = ACX AT (28)
6
6
Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
2
2
= a2 σX
In particolare, in dim.1 σaX+b
.
NOTA: si ha anche
CYX ≡ E{[(AX + b) − (AµX + b)](X − µX )T } = ACX
(29)
T
.
Si noti che CYX non è simmetrica e che CYX = CXY
Se y = φ(x) (in dim.1) è una funzione non lineare, non c’è in generale una relazione semplice fra E{X} e
E{Y } . Se però X è molto concentrata intorno alla sua media, nell’intervallo in cui FX (x) è significativamente diversa da 0 φ(x) può essere approssimata con la sua linearizzazione φ(µX ) + φ (µX )(x − µX ) .
Si può quindi applicare il teorema della media e la propagazione della covarianza alla forma linearizzata ed
ottenere buone approssimazioni di µY e σY2 .
È possibile dare una generalizzazione a dim.n (Qui non viene scritta esplicitamente).
1.5. Distribuzione normale in dim. n
1
fX (x) = (2π)−n/2 (det C)−1/2 exp[− (x − a)T C −1 (x − a)]
2
(30)
dove C è una matrice simm. def. pos..
Caso particolare: C = I , a = 0 :
1
1 2
1
zi ] =
(2π)−1/2 exp[− zi2 ]
fZ (z) = (2π)−n/2 exp[− zT z] = (2π)−n/2 exp[−
2
2 i
2
i
(31)
ovvero le componenti di Z sono normali standardizzate indipendenti. In tal caso si dice che Z è una
normale standardizzata in dim. n.
Media e matr. di cov. di una normale in dim. n: µX = a , CX = C .
Cenno di dimostrazione:
- si opera la decomposizione C = HH T (è sempre possibile)
- si introduce la va Z = H −1 (X − a)
- si verifica che Z è normale standardizzata (usando la regola di cambiamento di variabile)
- si giunge al risultato applicando la linearità della media e la propagazione della covarianza.
Si possono provare i seguenti risultati:
- la somma di 2 normali è una normale. Più in generale, applicando una trasformazione lineare (anche fra
spazi di dim. diversa) ad una normale, si ottiene ancora una normale
- le marginali e le condizionate di una normale sono normali.
In dim. 2 si ha
(x − µX )T C −1 (x − µX ) =
1
1 − ρ212
(x1 − µ1 ) (x2 − µ2 ) (x2 − µ2 )2
(x1 − µ1 )2
+
− 2ρ12
2
σ22
σ2
σ1
σ1
(32)
L’equazione
(x − µX )T C −1 (x − µX ) = cost.
(33)
7
7
Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
è l’equazione di un ellisse nel piano x1 x2 , con gli assi paralleli agli assi coordinati se ρ12 = 0 in (32), e
rappresenta una curva di livello per la dp. Il fatto che un asse dell’ellisse sia molto più piccolo dell’altro
significa che nella direzione corrispondente la va è molto più concentrata che nella direzione ortogonale, e
quindi si ha una precisione molto più elevata. Cambiando la cost. a secondo membro si ottengono ellissi
tutte simili fra loro e orientate nello stesso modo. Esse possono essere caratterizzate ad esempio indicando
la probabilità che la va cada al loro interno.
2. Stimatori. Correttezza e consistenza.
Problema: disponendo di estrazioni da variabili aleatorie, trarre da questi dati informazioni riguardanti le
distribuzioni di probabilità (ad es., sulla media o la varianza, più in generale su parametri che compaiono
nelle densità di probabilità). Si cerca di costruire funzioni dei valori estratti (dette statistiche), i cui valori ”approssimano” (nel senso che hanno elevata probabilità di essere vicini) quantità calcolabili a priori
utilizzando le distribuzioni di probabilità.
Esempio: se da una stessa distribuzione
di prob. si eseguono n estrazioni indipendenti xi (campione
bernoulliano), la quantità m = n−1 i xi (detta media campionaria) ”approssima” la media µX. Per
chiarire bene in quale senso, bisognerebbe in generale conoscere la distrib. di prob. della va M = n−1 i Xi ,
Tuttavia in questo
indipendentemente
dove le Xi sono tutte ugualmente distribuite e indipendenti.
caso,
2
2
2
da tale distrib., si può subito dire che E{M } = n−1 i µX = µX ; σM
= n−2 i σX
= σX
/n . Il fatto che
2
limn→∞ σM = 0 prova che, quanto più il campione è numeroso, tanto più elevata è la probabilità che M
sia effettivamente vicino a µX .
Una statistica usata per approssimare il valore di una quantità a priori q è detta stimatore di q ; il valore
ottenuto in base alle estrazioni disponibili è detto stima. Si osservi che uno stimatore è una va, in quanto
funzione di va, mentre la stima è un numero, in corrispondenza ad ogni estrazione.
Uno stimatore Q di q è detto corretto se E{Q} = q (ad esempio, la media campionaria).
Si consideri ora per un campione bernoulliano la statistica S 2 = n−1 i (Xi − M )2 (varianza campionaria),
2
. Per verificare se è corretto bisogna calcolare E{S 2 } .
da utilizzare come stimatore della varianza σX
Tenendo conto che
1
1
Xk − µX )+
Xk )2 = (Xi − µX )2 − 2(Xi − µX )(
n
n
k
k
1 1
1
(Xk − µX ) + 2 [ (Xk − µX )]2
Xk − µX )2 = (Xi − µX )2 − 2(Xi − µX )
+(
n
n
n
(Xi − M )2 = (Xi − µX + µX −
k
k
k
si ottiene
1
2
1
2
E{(Xi − µX )(Xk − µX )} + 2 E{ (Xk − µX )(X − µX )} =
E{(Xi − µX ) } −
E{S } =
n
n
n i
k
k
1
1
2
1
2
2
2
2
(1 − ) = σX
+ 2 · n · n · σ 2 = σX
nσX
− nσX
=
n
n
n
n
(34)
2
2
; inoltre, si
Quindi S 2 non è uno stimatore corretto di σ 2 . Si osservi però che limn→∞ E{S 2 } = σX
2
può provare (con calcoli molto laboriosi) che limn→∞ σS 2 = 0 . Di conseguenza, si può concludere anche
2
, ed è
in questo caso che per un campione numeroso S 2 ha elevata probabilità di essere prossimo a σX
2
quindi ragionevole utilizzarlo come stimatore di σX . Uno stimatore che ha le proprietà viste sopra per S 2
è detto consistente.
8
8
Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
Si osservi inoltre che la statistica [n/(n − 1)]S 2 = (n − 1)−1
essa è detta varianza campionaria corretta.
i (Xi
2
− M )2 è uno stimatore corretto di σX
;
Gli esempi visti non esauriscono ovviamente l’illustrazione delle proprietà degli stimatori, nè indicano regole
generali per costruirli. Viene qui indicata una procedura per ottenere, partendo da un insieme di dati
(non necessariamente campione bernoulliano) che ammette una densità di probabilità congiunta (funzione
di verosimiglianza) dipendente da un parametro a , uno stimatore di a : si calcola il valore di a (se esiste)
che massimizza la funzione di verosimiglianza (stimatore di massima verosimiglianza).
Non è però detto a priori che gli stimatori di max. ver. abbiano particolari proprietà (siano ad esempio
corretti o consistenti). Ad esempio, M e S 2 sono entrambi stimatori di max. ver.; come si è già visto,
M è corretto, mentre S 2 non lo è. Si noti che per un campione bernoulliano la funz. di ver. è il prodotto
n volte della stessa dp, in virtù dell’indipendenza delle estrazioni.
3. Verifica di ipotesi
3.1. Test parametrici - si assume noto il tipo di densità di prob. (ad es. gaussiana), dipendente da uno o
più parametri; l’ipotesi da verificare è che una parte o tutti i parametri assumano determinati valori.
Il procedimento generale consiste nell’usare una particolare statistica, la cui distribuzione di prob. è completamente nota quando i parametri assumono i valori ipotizzati, e nell’individuare un insieme di valori (in
genere un intervallo) in cui il valore empirico di quella statistica ha un’elevata probabilità di cadere. Si
decide allora di accettare l’ipotesi se, in corrispondensa dei valori estratti, il valore di quella statistica cade
in quell’insieme, di rifiutarla in caso contrario.
Naturalmente si corre sempre il rischio (indicato con α e detto livello di significatività del test) di rifiutare
l’ipotesi quando essa è verificata.
NOTA 1: Se si vuole verificare un’ipotesi su una parte soltanto dei parametri ed il valore dei rimanenti non
è noto, bisogna utilizzare statistiche che non dipendono dai parametri sconosciuti.
NOTA 2: Non sempre è facile, anche quando sia noto il tipo di dp dei dati, dedurre da esso la forma della dp
della statistica. La situazione in generale è più semplice nel caso di distribuzioni gaussiane. Spesso accade
di dover ricorrere a dp approssimate (valide, ad es., per campioni molto numerosi).
NOTA 3: Esistono anche altre famiglie di test (non parametrici), ad esempio test per verificare l’appartenenza
di una distrib. di prob. ad una certa famiglia.
ESEMPIO: estrazioni indipendenti da una gaussiana N [µ, σ 2 ] . Si suppone noto σ 2 , e si fa l’ipotesi
H0 : µ = µ̄ . È naturale usare come statistica la media campionaria M , la cui dp è N [µ, σ 2 /n] (n=numero
dei valori estratti) e, fissato α , in assenza di motivazioni specifiche in senso contrario, prendere come
intervallo di accettazione di H0 un intervallo simmetrico intorno a µ̄ : µ̄ − aα < m < µ̄ + aα , dove m è
il valore empirico di M e aα è determinato in modo che il livello di significatività sia proprio α .
NOTA: Il fatto che m cada nell’intervallo sopra indicato consente di accettare ipotesi diverse da H0 allo
stesso livello di significatività, ovvero tutti i valori µ tali che m − aα < µ < m + aα (intervallo fiduciario)
vengono accettati.
Mentre, come si è visto, è facile valutare la prob. di commettere l’errore di rifiutare l’ipotesi quando è vera,
in generale è più difficile determinare la prob. di commettere l’errore opposto, cioè di accettare l’ipotesi
quando è falsa, perchè in questo caso non è individuata una precisa dp. Può però accadere di formulare
. Si possono fare allora le
un’ipotesi alternativa H1 semplice: ad es., nel caso sopra esaminato, µ = µ
seguenti osservazioni:
sono vicine e
. la prob. β di accettare H0 quando è vera H1 può anche essere molto elevata, se µ̄ e µ
se σ 2 è grande;
. non c’è più ragione di prendere un intervallo simmetrico: se ad es. µ̄ ≤ µ
, a parità di α , β viene
minimizzata scegliendo come insieme di accettazione di H0 la semiretta −∞ < m < µ̄ + bα ;
9
9
Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica
. fissati µ̄ , µ
, α , β è tanto più piccolo quanto più numeroso è il campione estratto.
3.2. Densità di probabilità più usate
. χ2n (chi quadro a n gradi di libertà):
fX (x) = Cn e−(x/2) x(n/2)−1
. distrib. Fλ,ν di Fisher con parametri λ , ν :
fX (x) = Cλ,ν
x(λ−2)/2
(λx + ν)(λ+ν)/2
. distrib. tν di Student a ν gradi di libertà:
fX (x) = Cν (1 +
x2 −(ν+1)/2
)
ν
n
- se Zi , i = 1, · · · , n sono Gaussiane standardizzate indipendenti, allora la va Y = i=1 Zi2 ha distrib.
χ2n . Segue che, se Yn , Ym hanno rispettivamente distrib. χ2n , χ2m ; e sono fra loro indip., allora
W = Yn + Ym ha distrib. χ2n+m ;
1/2
, W distribuita come χ2ν , e Z e W sono fra loro indipendenti, allora
- se Z
√ è Gauss. stand., X = W
Y = νZ/X ha distrib. tν ;
- se Wλ ha distrib. χ2λ e Wν ha distrib. χ2ν , e Wλ , Wν sono fra loro indip., allora Y = (Wλ /λ)/(Wν /ν)
ha distrib. Fλ,ν . Segue che Z = 1/Y ha distrib. Fν,λ .
NOTA1: tutte queste ddp sono tabulate
NOTA2: si può verificare che limν→∞ tν = Z (nel senso che, se Xν è una successione di va con distrib.
tν e Z è Gauss. stand., P (a ≤ Xν ≤ b) → P (a ≤ Z ≤ b) ; nello stesso senso limν→∞ Fλ,ν = χ2λ .
- Si può provare che, se Y è un vettore aleatorio n-dim con dp congiunta Gaussiana e C è la sua
matrice di covarianza, allora (Y − EY)T C −1 (Y − EY) ha distribuzione χ2n . Infatti, essendo C
simmetrica definita positiva, è sempre possibile scrivere C = H 2 , H simmetrica definita positiva. Posto
Z = H −1 (Y − EY) , evidentemente (Y − EY)T C −1 (Y − EY) = ZT Z , e Z è gaussiana standardizzata,
ovvero EZ = 0 , CZ = H −1 CH −1 = I .
10
10