Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica APPENDICE - CALCOLO DELLA PROBABILITÀ E STATISTICA 1. Variabili aleatorie 1.1. Variabili 1D a valori in R - I risultati di ripetute misure di una stessa quantità non sono in generale tutti uguali, a causa di errori che sono presenti in ciascuna misura. A ciascuna operazione di misura corrisponde in generale un numero diverso, ma i valori ottenuti tendono ad addensarsi in un intervallo tanto più piccolo quanto più precise sono le misure. Il risultato di ciascuna misura non è prevedibile a priori, ma se si fa un numero molto elevato di misure si può prevedere che i loro valori si distribuiscono in modo piuttosto regolare (per esempio, la maggior parte di essi è contenuto in un piccolo intervallo, e si diradano sempre di più allontanandosi da tale intervallo. Questo comportamento, che si ripete quando si eseguono più serie di misure, mentre i singoli valori sono diversi da serie a serie, può essere descritto in un linguaggio matematico rigoroso introducendo il concetto di probabilità, che consente di associare ad ogni intervallo della retta reale un numero compreso fra 0 e 1 che indica la frazione del numero totale di misure che prevedibilmente cade in quell’intervallo. La probabilità è definita a priori, e non ci si aspetta che i risultati la rispecchino esattamente, ma solo approssimativamente, e con un’approssimazione tanto migliore quanto maggiore è il numero di ripetizioni della misura. Questi concetti, che sono qui espressi in maniera imprecisa, vengono rigorosamente precisati nell’ambito della teoria della probabilità e della statistica (ad esempio, non solo si definisce la probabilità che il risultato di una misura cada in un certo intervallo, ma si può anche calcolare, in funzione del numero totale di ripetizioni della misura eseguite, la probabilità che il numero effettivo di misure che cadono in quell’intervallo si discosti dal numero previsto più di una quantità fissata). Nei casi che saranno esaminati in seguito la probabilità per una quantità X (ad esempio la misura di una grandezza) può essere definita introducendo una funzione non negativa fX (x) (densità di probabilità - dp) tale che la probabilità che X cada in [a, b] è data da P {[a, b]} = b fX (x)dx (1) a La quantità X è detta variabile aleatoria (va). fX (x) può essere definita su tutto R anche se la probabilità di X è diversa da 0 solo in un intervallo limitato. In tal caso fX = 0 al di fuori di tale intervallo. Ovviamente ∞ −∞ fX (x)dx = 1 (2) Inoltre, poichè la probabilità che X cada in un intervallo tende a 0 al tendere a 0 dell’ampiezza dell’intervallo, P (X = x̄) = 0 per ogni singolo punto x̄ . Questo non vuol dire che sia impossibile che il valore di una misura sia esattamente x̄ ; vuol solo dire che, fissato in precedenza x̄ ed eseguendo poi un numero finito di misure, in generale nessuna misura ha esattamente il valore x̄ . La cosa non ha grandi conseguenze pratiche, poichè, quando si fa una misura, a causa della risoluzione finita dello strumento, non si determina mai un preciso numero reale, ma piuttosto un piccolo intervallo. Ad esempio, se si dice che la lunghezza di un segmento è 1.013 m, si intende che essa è compresa fra 1.013 m e 1.014 m e che la risoluzione dello strumento è 1 mm. Se lo strumento avesse risoluzione maggiore, si userebbero più cifre decimali. NOTA: in teoria della probabilità esistono situazioni (non esaminate in questo contesto) in cui probabilità finite sono concentrate su singoli valori (si pensi ad esempio al lancio di un dado). Si parla allora di distribuzione di probabilità discreta. In questo caso non è possibile definire la funzione densità di probabilità. Si definisce funzione di distribuzione cumulativa (fdc) 1 1 Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica FX (x) = x −∞ fX (t)dt = P {X ≤ x} (3) Quindi fX (x) = (d/dx)FX (x) . È facile vedere che FX (x) è non decrescente per ogni x . Nel caso di distribuzioni di probabilità discrete la fdc può essere ugualmente definita dalla (3) omettendo il termine intermedio. In corrispondenza dei valori in cui sono concentrate probabilità finite FX (x) presenta una discontinuità. ESEMPI: - distribuzione uniforme: fX (x) = 1 I[a,b] (x) b−a (4) dove in generale si definisce IA (x) = x∈A x ∈ A 1 0 (5) La probabilità di sottointervalli di [a, b] è in questo caso proporzionale alla loro lunghezza. - distribuzione normale (o gaussiana): fX (x) = √ 1 (x − a)2 1 exp − 2 α2 2πα (6) Questa dp è quella più frequentemente adottata per descrivere la distribuzione di misure affette da errori casuali. Si noti che essa è simmetrica rispetto ad a ; il parametro α indica quanto il picco è concentrato intorno ad a . 1.2. Generalizzazione a Rn . Marginale e condizionata. - In modo analogo si procede quando si vogliono trattare contemporaneamente le misure di diverse grandezze scalari, che possono essere ordinate in un vettore di Rn . In questo caso ha senso chiedersi qual’è la probabilità che il vettore le cui componenti sono le misure delle grandezze prese in considerazione (variabile aleatoria n-dimensionale) appartenga ad un certo sottoinsieme A di Rn , ad esempio un determinato quadrato o cerchio in R2 , ed è possibile, nella maggior parte dei casi che saranno qui trattati, introdurre anche in questo caso una funzione densità di probabilità fX (x) = fX (x1 , ..., xn ) (densità di probabilità congiunta - dpcg), tale che P {X ∈ A} = fX (x)dn x (7) A Spesso accade che si sia interessati a conoscere la distribuzione di probabilità di una singola componente Xk , indipendentemente dalle altre. Si introduce allora la densità di probabilità marginale (dpm) di Xk : fXk (xk ) = ∞ −∞ dx1 ... ∞ −∞ dxk−1 ∞ −∞ dxk+1 ... ∞ −∞ dxn fX (x) (8) Si ha allora P {a ≤ Xk ≤ b} = a b fXk (xk )dxk (9) 2 2 Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica che rappresenta la probabilità che la coordinata Xk appartenga all’intervallo [a, b] , mentre le altre sono arbitrarie. L’insieme a cui appartiene il vettore X è ad esempio in dimensione 3 uno strato infinito limitato da 2 piani paralleli ad uno dei piani coordinati. In modo analogo si ottiene la dpm congiunta di un sottoinsieme delle componenti di X , {Xk1 , ..., Xkm } , integrando la dpcg rispetto alle restanti componenti. Per introdurre il concetto di probabilità condizionale con la corrispondente densità, si considerino inizialmente per semplicità due sole quantità con dpcg fX (x1 , x2 ) , e si supponga di voler conoscere la probabilità che la componente X1 appartenga ad un intervallo [a, b] , quando si sappia che la componente X2 appartiene all’intervallo [c, d] (indicata con P {X1 ∈ [a, b] | X2 ∈ [c, d] ). Si vuole cioè prevedere, qualora si eseguano ripetutamente misure della coppia di grandezze X1 e X2 , e si selezionino quelle misure per cui X2 sta nell’intervallo [c, d] , in quale frazione di queste misure X1 sta nell’intervallo [a, b] . È facile rendersi conto che d b dx1 c dx2 fX (x1 , x2 ) P {X1 ∈ [a, b] , X2 ∈ [c, d]} a = ∞ P {X1 ∈ [a, b] | X2 ∈ [c, d]} = d P {X2 ∈ [c, d]} dx1 dx2 fX (x1 , x2 ) −∞ (10) c Si supponga ora che l’intervallo [c, d] abbia un’ampiezza molto piccola ∆x2 ( d = c + ∆x2 ). In tal caso l’integrale sulla variabile x2 può essere approssimato da una semplice moltiplicazione del valore della funzione integranda in x2 = c per ∆x2 . Di conseguenza, la (10) diventa b dx1 fX (x1 , c)∆x2 a = P {X1 ∈ [a, b] | X2 ∈ [c, c + ∆x2 ]} = ∞ dx1 fX (x1 , c)∆x2 −∞ b b dx1 fX (x1 , c) fX (x1 , c) a = dx1 = ∞ fX2 (c) dx1 fX (x1 , c) a −∞ (10) (nell’ultimo passaggio si è usata la definizione (8) per il denominatore). La funzione integranda nell’ultimo termine è detta densità di probabilità condizionale (dpcd): fX1 |X2 (x1 |x2 ) = fX (x1 , x2 ) fX2 (x2 ) (11) Questa definizione è facilmente generalizzabile a Rn , quando si voglia introdurre la dpcd relativa ad un insieme di componenti {Xk1 , ..., Xkm } , condizionata a valori fissati per le rimanenti: fXk1 ,...,Xkm |Xj1 ,...,Xjn−m (xk1 , ..., xkm |xj1 , ..., xjn−m ) = fX (x) fXj1 ,...,Xjn−m (xj1 , ..., xjn−m ) (12) Tornando al caso 2-dimensionale, si osservi che, se è possibile esprimere la dpcg nella forma fX1 X2 (x1 , x2 ) = g(x1 )h(x2 ) , allora g e h coincidono a meno di un fattore di proporzionalità con le marginali fX1 e fX2 , e si può scrivere senz’altro fX1 X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 ) . Si vede allora dalla (11) che la dpcd relativa a X1 coincide con la dpm, e non dipende da x2 . Si dice in tal caso che X1 e X2 sono indipendenti. Generalizzando al caso n-dimensionale, si dice che n variabili aleatorie X1 , ..., Xn sono tra di loro a due a due indipendenti se fX (x) = fX1 (x1 )...fXn (xn ) . 3 3 Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica 1.3. Cambiamento di variabile - Sia X una va scalare e sia y = φ(x) una funzione reale. Si può allora definire la va Y che ad ogni estrazione x dalla va X (cioè ad ogni misura della grandezza X avente come risultato x ) fa corrispondere il valore y = φ(x) . Si supponga inizialmente che φ(x) sia monotona crescente e continua. Allora l’immagine dell’intervallo [x, x + ∆x] è l’intervallo [φ(x), φ(x) + ∆y] , dove, se ∆x è piccolo e se φ(x) è derivabile, ∆y può essere approssimato con φ (x)∆x . Per introdurre la dp di Y , si osservi che, ovviamente, P {φ(x) ≤ Y ≤ φ(x) + ∆y} = P {x ≤ X ≤ x + ∆x} (13) P {x ≤ X ≤ x + ∆x} fX (x)∆x P {φ(x) ≤ Y ≤ φ(x) + ∆y} fY (φ(x))∆y fY (φ(x))φ (x)∆x (14) D’altra parte Da (13) e (14) segue fY (φ(x)) = fX (x) φ (x) (15a) ovvero fX (φ−1 (y)) φ (φ−1 (y)) fY (y) = (15b) Queste formule sono facilmente generalizzabili al caso che φ(x) non sia monotona e diversi valori x(i) abbiano la stessa immagine y (cioè φ(x(i) ) = y per i = 1, ..., k ). Si ha allora fY (y) = k fX (x(i) ) |φ (x(i) )| 1 (16) Ad esempio, se y = x2 , si ha fY (y) = √ √ fX (− y) fX (+ y) + √ √ 2 y 2 y (17) È possibile anche una generalizzazione al caso n-dimensionale. In questo caso y = φ(x) è una funzione da Rn a Rn (cioè ogni componente di y è esprimibile in funzione delle componenti di x ). Come esempi si possono considerare le espressioni delle coordinate cartesiane in funzione delle coordinate polari nel piano ( R2 ) o nello spazio ( R3 ). Sia Jφ (x) la matrice Jacobiana di φ (cioè quella matrice i cui elementi sono (Jφ )ij = ∂φi /∂xj ). Allora fY (y) = k 1 fX (x(i) ) | det Jφ (x(i) )| (18) 4 4 Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica 1.4. Media e varianza. Momenti. Matrice di covarianza. Teorema della media e propagazione della covarianza. - Media e varianza: indici che esprimono la localizzazione e la dispersione di una va. Analogia con i concetti di centro di massa e di momento di inerzia per masse distribuite. - Media ( in dim.1) E{X} ≡ µX = +∞ −∞ xfX (x)dx (19) - Generalizzazione a dim.n E{Xi } = Rn xi fX dn x = +∞ −∞ xi fXi dxi (20) E{X} ≡ µX è il vettore di componenti E{Xi } - Teorema della media: se y = φ(x) E{Y } = +∞ yfY (y)dy = −∞ +∞ −∞ φ(x)fX (x)dx ≡ E{φ(X)} (21) Dimostrazione semplice per φ(x) monotona crescente e derivabile: +∞ −∞ yfY (y)dy = +∞ −∞ fX (φ−1 (y)) dy = y −1 φ (φ (y)) +∞ −∞ fX (x) φ (x)dx = φ(x) φ (x) +∞ −∞ φ(x)fX (x)dx (22) La formula però è valida in generale. - Linearità della media E{αX + βY } = +∞ +∞ dx −∞ +∞ =α −∞ −∞ dy(αx + βy)fXY (x, y) = dx xfX (x) + β +∞ −∞ (23a) dyyfY (y) = αE{X} + βE{Y } e anche E{αφ(x) + βψ(x)} = +∞ dx(αφ(x) + βψ(x))fX (x) = −∞ +∞ =α −∞ dxφ(x)fX (x) + β (23b) +∞ −∞ dxψ(x)fX (x) = αE{φ(X)} + βE{ψ(X)} - Varianza (in dim.1) 2 var{X} ≡ σX = E{(X − µX )2 } = σX = +∞ −∞ (x − µX )2 fX (x)dx (24) var{X} scarto quadratico medio - Matrice di covarianza (in dim.n) CX : 5 5 Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica (CX )ij = E{(Xi − µXi )(Xj − µXj )} (25a) CX = E{(X − µX )(X − µX )T } (25b) ovvero, in forma vettoriale, CX è evidentemente una matrice simmetrica. Gli elementi diagonali sono le varianze delle componenti. NOTA vi (Xi − µXi ))2 } = (CX )ij vi vj = vT CX v E{( i (26) ij Quindi, per ogni v ∈ Rn , v = 0 , vT CX v > 0 . Si dice allora che la matrice CX è definita positiva. Si prova facilmente che il determinante di una matrice def.pos. è positivo. ESEMPIO (in dim.1) 2 = α2 . Si usa il simbolo N [a, α2 ] . Per la distr. normale (densità di prob. def. in (6)) µX = a , σX In particolare, per a = 0 , α = 1 si ha una normale standardizzata. - Momenti (semplici): µ(n) = E{X n } . - Momenti centrali: µ̄(n) = E{(X − µX )n } . NOTA: µ̄(1) = 0 ; µ̄(2) = σ 2 ; se fX è simmetrica rispetto a µX , i momenti centrali di ordine dispari sono nulli. OSSERVAZIONE: (2) var{X} = E{(X − µX )2 } = E{X 2 } − 2µX E{X} + µ2X = µX − µ2X (27) - Coefficiente di correlazione fra X e Y . Posto σXY = E{(X − µX )(Y − µY )} si definisce coefficiente di correlazione ρXY = σXY /σX σY . 2 2 2 σY − σXY = det CXY > 0 , segue che |ρ| < 1 . Poichè σX NOTA: siano X e Y indipendenti. Allora σXY = +∞ −∞ +∞ −∞ (x − µX )(y − µY )fXY (x, y)dxdy = +∞ +∞ −∞ dx(x − µX )fX (x) +∞ +∞ +∞ −∞ dy(y − µY )fY (y) = 0 (27bis) dato che −∞ (x − µX )fX (x)dx = −∞ xfX (x)dx + µX −∞ fX (x)dx = µX − µX = 0 . Quindi due va indipendenti sono anche incorrelate. Il viceversa non è però vero: basta osservare che, se ad esempio fXY (x, y) è simmetrica per cambio di segno di x e y , allora σXY = 0 . Per le distribuzioni normali, tuttavia, come si può vedere dalla (30), se le componenti del vettore X sono incorrelate, la loro matrice di covarianza è diagonale, e quindi la loro ddp congiunta si spezza nel prodotto delle ddp delle singole componenti, che risultano quindi indipendenti. - Propagazione della covarianza Se y = Ax + b , allora CY = E{[(AX + b) − (AµX + b)][(AX + b) − (AµX + b)]T } = AE{(X − µX )(X − µX )T }AT = ACX AT (28) 6 6 Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica 2 2 = a2 σX In particolare, in dim.1 σaX+b . NOTA: si ha anche CYX ≡ E{[(AX + b) − (AµX + b)](X − µX )T } = ACX (29) T . Si noti che CYX non è simmetrica e che CYX = CXY Se y = φ(x) (in dim.1) è una funzione non lineare, non c’è in generale una relazione semplice fra E{X} e E{Y } . Se però X è molto concentrata intorno alla sua media, nell’intervallo in cui FX (x) è significativamente diversa da 0 φ(x) può essere approssimata con la sua linearizzazione φ(µX ) + φ (µX )(x − µX ) . Si può quindi applicare il teorema della media e la propagazione della covarianza alla forma linearizzata ed ottenere buone approssimazioni di µY e σY2 . È possibile dare una generalizzazione a dim.n (Qui non viene scritta esplicitamente). 1.5. Distribuzione normale in dim. n 1 fX (x) = (2π)−n/2 (det C)−1/2 exp[− (x − a)T C −1 (x − a)] 2 (30) dove C è una matrice simm. def. pos.. Caso particolare: C = I , a = 0 : 1 1 2 1 zi ] = (2π)−1/2 exp[− zi2 ] fZ (z) = (2π)−n/2 exp[− zT z] = (2π)−n/2 exp[− 2 2 i 2 i (31) ovvero le componenti di Z sono normali standardizzate indipendenti. In tal caso si dice che Z è una normale standardizzata in dim. n. Media e matr. di cov. di una normale in dim. n: µX = a , CX = C . Cenno di dimostrazione: - si opera la decomposizione C = HH T (è sempre possibile) - si introduce la va Z = H −1 (X − a) - si verifica che Z è normale standardizzata (usando la regola di cambiamento di variabile) - si giunge al risultato applicando la linearità della media e la propagazione della covarianza. Si possono provare i seguenti risultati: - la somma di 2 normali è una normale. Più in generale, applicando una trasformazione lineare (anche fra spazi di dim. diversa) ad una normale, si ottiene ancora una normale - le marginali e le condizionate di una normale sono normali. In dim. 2 si ha (x − µX )T C −1 (x − µX ) = 1 1 − ρ212 (x1 − µ1 ) (x2 − µ2 ) (x2 − µ2 )2 (x1 − µ1 )2 + − 2ρ12 2 σ22 σ2 σ1 σ1 (32) L’equazione (x − µX )T C −1 (x − µX ) = cost. (33) 7 7 Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica è l’equazione di un ellisse nel piano x1 x2 , con gli assi paralleli agli assi coordinati se ρ12 = 0 in (32), e rappresenta una curva di livello per la dp. Il fatto che un asse dell’ellisse sia molto più piccolo dell’altro significa che nella direzione corrispondente la va è molto più concentrata che nella direzione ortogonale, e quindi si ha una precisione molto più elevata. Cambiando la cost. a secondo membro si ottengono ellissi tutte simili fra loro e orientate nello stesso modo. Esse possono essere caratterizzate ad esempio indicando la probabilità che la va cada al loro interno. 2. Stimatori. Correttezza e consistenza. Problema: disponendo di estrazioni da variabili aleatorie, trarre da questi dati informazioni riguardanti le distribuzioni di probabilità (ad es., sulla media o la varianza, più in generale su parametri che compaiono nelle densità di probabilità). Si cerca di costruire funzioni dei valori estratti (dette statistiche), i cui valori ”approssimano” (nel senso che hanno elevata probabilità di essere vicini) quantità calcolabili a priori utilizzando le distribuzioni di probabilità. Esempio: se da una stessa distribuzione di prob. si eseguono n estrazioni indipendenti xi (campione bernoulliano), la quantità m = n−1 i xi (detta media campionaria) ”approssima” la media µX. Per chiarire bene in quale senso, bisognerebbe in generale conoscere la distrib. di prob. della va M = n−1 i Xi , Tuttavia in questo indipendentemente dove le Xi sono tutte ugualmente distribuite e indipendenti. caso, 2 2 2 da tale distrib., si può subito dire che E{M } = n−1 i µX = µX ; σM = n−2 i σX = σX /n . Il fatto che 2 limn→∞ σM = 0 prova che, quanto più il campione è numeroso, tanto più elevata è la probabilità che M sia effettivamente vicino a µX . Una statistica usata per approssimare il valore di una quantità a priori q è detta stimatore di q ; il valore ottenuto in base alle estrazioni disponibili è detto stima. Si osservi che uno stimatore è una va, in quanto funzione di va, mentre la stima è un numero, in corrispondenza ad ogni estrazione. Uno stimatore Q di q è detto corretto se E{Q} = q (ad esempio, la media campionaria). Si consideri ora per un campione bernoulliano la statistica S 2 = n−1 i (Xi − M )2 (varianza campionaria), 2 . Per verificare se è corretto bisogna calcolare E{S 2 } . da utilizzare come stimatore della varianza σX Tenendo conto che 1 1 Xk − µX )+ Xk )2 = (Xi − µX )2 − 2(Xi − µX )( n n k k 1 1 1 (Xk − µX ) + 2 [ (Xk − µX )]2 Xk − µX )2 = (Xi − µX )2 − 2(Xi − µX ) +( n n n (Xi − M )2 = (Xi − µX + µX − k k k si ottiene 1 2 1 2 E{(Xi − µX )(Xk − µX )} + 2 E{ (Xk − µX )(X − µX )} = E{(Xi − µX ) } − E{S } = n n n i k k 1 1 2 1 2 2 2 2 (1 − ) = σX + 2 · n · n · σ 2 = σX nσX − nσX = n n n n (34) 2 2 ; inoltre, si Quindi S 2 non è uno stimatore corretto di σ 2 . Si osservi però che limn→∞ E{S 2 } = σX 2 può provare (con calcoli molto laboriosi) che limn→∞ σS 2 = 0 . Di conseguenza, si può concludere anche 2 , ed è in questo caso che per un campione numeroso S 2 ha elevata probabilità di essere prossimo a σX 2 quindi ragionevole utilizzarlo come stimatore di σX . Uno stimatore che ha le proprietà viste sopra per S 2 è detto consistente. 8 8 Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica Si osservi inoltre che la statistica [n/(n − 1)]S 2 = (n − 1)−1 essa è detta varianza campionaria corretta. i (Xi 2 − M )2 è uno stimatore corretto di σX ; Gli esempi visti non esauriscono ovviamente l’illustrazione delle proprietà degli stimatori, nè indicano regole generali per costruirli. Viene qui indicata una procedura per ottenere, partendo da un insieme di dati (non necessariamente campione bernoulliano) che ammette una densità di probabilità congiunta (funzione di verosimiglianza) dipendente da un parametro a , uno stimatore di a : si calcola il valore di a (se esiste) che massimizza la funzione di verosimiglianza (stimatore di massima verosimiglianza). Non è però detto a priori che gli stimatori di max. ver. abbiano particolari proprietà (siano ad esempio corretti o consistenti). Ad esempio, M e S 2 sono entrambi stimatori di max. ver.; come si è già visto, M è corretto, mentre S 2 non lo è. Si noti che per un campione bernoulliano la funz. di ver. è il prodotto n volte della stessa dp, in virtù dell’indipendenza delle estrazioni. 3. Verifica di ipotesi 3.1. Test parametrici - si assume noto il tipo di densità di prob. (ad es. gaussiana), dipendente da uno o più parametri; l’ipotesi da verificare è che una parte o tutti i parametri assumano determinati valori. Il procedimento generale consiste nell’usare una particolare statistica, la cui distribuzione di prob. è completamente nota quando i parametri assumono i valori ipotizzati, e nell’individuare un insieme di valori (in genere un intervallo) in cui il valore empirico di quella statistica ha un’elevata probabilità di cadere. Si decide allora di accettare l’ipotesi se, in corrispondensa dei valori estratti, il valore di quella statistica cade in quell’insieme, di rifiutarla in caso contrario. Naturalmente si corre sempre il rischio (indicato con α e detto livello di significatività del test) di rifiutare l’ipotesi quando essa è verificata. NOTA 1: Se si vuole verificare un’ipotesi su una parte soltanto dei parametri ed il valore dei rimanenti non è noto, bisogna utilizzare statistiche che non dipendono dai parametri sconosciuti. NOTA 2: Non sempre è facile, anche quando sia noto il tipo di dp dei dati, dedurre da esso la forma della dp della statistica. La situazione in generale è più semplice nel caso di distribuzioni gaussiane. Spesso accade di dover ricorrere a dp approssimate (valide, ad es., per campioni molto numerosi). NOTA 3: Esistono anche altre famiglie di test (non parametrici), ad esempio test per verificare l’appartenenza di una distrib. di prob. ad una certa famiglia. ESEMPIO: estrazioni indipendenti da una gaussiana N [µ, σ 2 ] . Si suppone noto σ 2 , e si fa l’ipotesi H0 : µ = µ̄ . È naturale usare come statistica la media campionaria M , la cui dp è N [µ, σ 2 /n] (n=numero dei valori estratti) e, fissato α , in assenza di motivazioni specifiche in senso contrario, prendere come intervallo di accettazione di H0 un intervallo simmetrico intorno a µ̄ : µ̄ − aα < m < µ̄ + aα , dove m è il valore empirico di M e aα è determinato in modo che il livello di significatività sia proprio α . NOTA: Il fatto che m cada nell’intervallo sopra indicato consente di accettare ipotesi diverse da H0 allo stesso livello di significatività, ovvero tutti i valori µ tali che m − aα < µ < m + aα (intervallo fiduciario) vengono accettati. Mentre, come si è visto, è facile valutare la prob. di commettere l’errore di rifiutare l’ipotesi quando è vera, in generale è più difficile determinare la prob. di commettere l’errore opposto, cioè di accettare l’ipotesi quando è falsa, perchè in questo caso non è individuata una precisa dp. Può però accadere di formulare . Si possono fare allora le un’ipotesi alternativa H1 semplice: ad es., nel caso sopra esaminato, µ = µ seguenti osservazioni: sono vicine e . la prob. β di accettare H0 quando è vera H1 può anche essere molto elevata, se µ̄ e µ se σ 2 è grande; . non c’è più ragione di prendere un intervallo simmetrico: se ad es. µ̄ ≤ µ , a parità di α , β viene minimizzata scegliendo come insieme di accettazione di H0 la semiretta −∞ < m < µ̄ + bα ; 9 9 Prof. Fausto Sacerdote - Topografia e cartografia digitale - Capitolo 4.3 Calcolo della probabilità e statistica . fissati µ̄ , µ , α , β è tanto più piccolo quanto più numeroso è il campione estratto. 3.2. Densità di probabilità più usate . χ2n (chi quadro a n gradi di libertà): fX (x) = Cn e−(x/2) x(n/2)−1 . distrib. Fλ,ν di Fisher con parametri λ , ν : fX (x) = Cλ,ν x(λ−2)/2 (λx + ν)(λ+ν)/2 . distrib. tν di Student a ν gradi di libertà: fX (x) = Cν (1 + x2 −(ν+1)/2 ) ν n - se Zi , i = 1, · · · , n sono Gaussiane standardizzate indipendenti, allora la va Y = i=1 Zi2 ha distrib. χ2n . Segue che, se Yn , Ym hanno rispettivamente distrib. χ2n , χ2m ; e sono fra loro indip., allora W = Yn + Ym ha distrib. χ2n+m ; 1/2 , W distribuita come χ2ν , e Z e W sono fra loro indipendenti, allora - se Z √ è Gauss. stand., X = W Y = νZ/X ha distrib. tν ; - se Wλ ha distrib. χ2λ e Wν ha distrib. χ2ν , e Wλ , Wν sono fra loro indip., allora Y = (Wλ /λ)/(Wν /ν) ha distrib. Fλ,ν . Segue che Z = 1/Y ha distrib. Fν,λ . NOTA1: tutte queste ddp sono tabulate NOTA2: si può verificare che limν→∞ tν = Z (nel senso che, se Xν è una successione di va con distrib. tν e Z è Gauss. stand., P (a ≤ Xν ≤ b) → P (a ≤ Z ≤ b) ; nello stesso senso limν→∞ Fλ,ν = χ2λ . - Si può provare che, se Y è un vettore aleatorio n-dim con dp congiunta Gaussiana e C è la sua matrice di covarianza, allora (Y − EY)T C −1 (Y − EY) ha distribuzione χ2n . Infatti, essendo C simmetrica definita positiva, è sempre possibile scrivere C = H 2 , H simmetrica definita positiva. Posto Z = H −1 (Y − EY) , evidentemente (Y − EY)T C −1 (Y − EY) = ZT Z , e Z è gaussiana standardizzata, ovvero EZ = 0 , CZ = H −1 CH −1 = I . 10 10