Propagazione delle varianze, conosciuta come

Propagazione delle varianze,
conosciuta come propagazione
degli errori.
Siano x1, x2, … x n n variabili casuali e
poniamo
, ,… )=y( )
Supponiamo inoltre nota la matrice delle
covarianze delle x e vogliamo determinare la
varianza di y.
Se facciamo uno sviluppo in serie di Taylor,
bloccata al primo ordine, intorno al valore
=( , ,…
di (x1, x2, … x n ), abbiamo
y ( ) = y( ) + ∑
)
-
)
più termini di ordine superiore e dove la
derivata è calcolata in = .
Il valore atteso di questa espressione vale
{ ( )}
)
più termini di ordine superiore, poiché ogni
termine del primo ordine vale zero.
Solo nel caso in cui le quantità ( xi – μi )
siano piccole, i termini di ordine superiore
possono essere trascurati.
A questo punto si può ottenere la varianza di
y.
V{ (
)}=E{ ( )
[ ( )]}2
{ ( )
( )}
Per quanto detto prima, sempre trascurando i
termini di ordine superiore, si ha che
V{ (
∑
)}
∑
( )
dove le derivate sono calcolate in
=
.
Per n variabili indipendenti tutti i termini di
covarianza sono zero e la varianza di y vale
V{ (
)}
∑
(
)²
(
)
Un esempio.
Consideriamo la media aritmetica di n
variabili indipendenti x1, x2, … x n aventi tutti
la stessa varianza σ²:
̅= ∑
Le derivate parziali di y rispetto ad ogni xi
valgono 1/n e le derivate di ordine più alto
sono nulle.
Ne consegue, senza nessuna approssimazione
che la varianza della media aritmetica vale
̅)=∑
(
)² σ²
²
Campione e popolazione
Una funzione di densità di probabilità f(x) per
una variabile continua o, equivalentemente,
un insieme di probabilità nel caso discreto
descrivono le proprietà di una popolazione. In
fisica si associa una variabile casuale all’esito
di una osservazione e la p.d.f. f(x)
descriverebbe l’esito di tutte le possibili
misure su un sistema se le misure fossero
ripetute infinite volte nelle stesse condizioni
sperimentali. Poiché ciò è impossibile, il
concetto di popolazione per un fisico
rappresenta un'idealizzazione che non può
essere ottenuta nella pratica.
Un reale esperimento consiste di un numero
finito di osservazioni e una successione x1, x2,
… xn di una certa quantità costituisce un
campione di dimensione n. Per questo
campione possiamo definire la media
aritmetica o media del campione
̅= ∑
e la varianza del campione
∑
=
- ̅ )²
la cui distribuzione dipenderà dalla
distribuzione parente e dalla dimensione del
campione Le due quantità sono funzioni di
variabili casuali e sono anche esse variabili
casuali. Infatti se prendiamo un nuovo
campione di dimensione n otterremo in
generale una nuova media aritmetica e una
nuova varianza : ossia queste grandezze
avranno una loro distribuzione, che dipenderà
dalle proprietà della distribuzione “parente” e
dalla dimensione n del campione.
Il nostro obiettivo è adesso come ricavare, a
partire dalle informazioni che ricaviamo da
un campione, informazioni che riguardano
l’intera
popolazione.
Naturalmente
il
campione deve essere rappresentativo della
popolazione, altrimenti, come accade spesso
nei sondaggi, si ottengono risultati sbagliati.
Per la legge dei grandi numeri la media del
campione tende alla media della popolazione
al tendere di n all’infinito.
Infatti questa legge ( nella forma debole )
prevede che, dato un intero positivo ε, la
probabilità che la media del campione
differisca da μ di una quantità maggiore di ε
tende a zero nel limite di n infinito :
̅
Si può anche dimostrare che il valore atteso
della media del campione coincide con la
media della popolazione e che il valore atteso
di s2 coincide con σ2 .
Distribuzioni di probabilità
Si possono diverse distribuzioni di
probabilità: quelle di cui parleremo per il
momento è la distribuzione binomiale, quella
di Poisson, quella uniforme, quella normale e
quella del χ².
Distribuzione binomiale.
Supponiamo di avere due esiti esclusivi A e Ā
di un certo esperimento: A è chiamato un
“successo” e Ā un “insuccesso”. Per ogni
esperimento sia p ( 0 ≤ p ≤ 1 ) la probabilità
che si verifichi un successo e q=1-p la
probabilità di un insuccesso. Allora per una
successione di n prove indipendenti, la
probabilità di avere r successi e n-r insuccessi
è data :
) ( ) pr ( 1-p)n-r
dove il coefficiente binomiale
( )=
)
tiene conto che non è importante l’ordine con
cui si verificano gli r successi. Questa
distribuzione si dice anche di Bernoulli, dal
nome dello scienziato svizzero Jakob
Bernoulli.
Si può dimostrare ( vedi “Severi”) che μ=
E(r) = np e che la varianza V(r) =np(1-p).
Il grafico che segue mostra l’andamento di
una binomiale per diversi valori di p e di n:
all’aumentare di n tende ad una distribuzione
normale.
Distribuzione di Poisson
In una distribuzione binomiale può capitare
che p sia molto piccola ed n molto grande,
sicché il valore atteso μ = np può essere
considerevole.
Nel caso limite che p tenda a zero ed n tenda
all’infinito con μ finito, si dimostra che la
binomiale può essere scritta come
)
con r=1,2,….
che costituisce la distribuzione scoperta da
Siméon_Denis Poisson.
Un tipico caso in cui si applica questa
distribuzione è quella degli eventi rari.
Si può dimostrare che E(r) = μ e che la
varianza vale ancora μ.
La prossima figura illustra la distribuzione di
Poisson per diversi valori di p: anche essa
tende ad una distribuzione normale al
crescere di μ.
Distribuzione uniforme
Immaginiamo di avere una variabile continua
x che abbia p.d.f. costante sull’intero
intervallo in cui essa sia definita. Allora
)=
con a ≤x ≤ b fornisce una p.d.f. costante.
Si può vedere che
)
)
)
)²
)
dove F(x) è la funzione di distribuzione
cumulativa.
La prossima figura illustra f(x) e F(x).
Distribuzione normale ( o di Gauss )
Questa distribuzione deriva da una
binomiale quando n tende all’infinito. Fu
trovata inizialmente da Abraham de
Moivre e da Pierre-Simon de Laplace;
deve il suo nome anche a Gauss in quanto
egli l’ha applicata agli errori di misura. La
p.d.f. normale ad una dimensione ha la
forma generale :
)
)
√
con - ∞ ≤ x ≤ ∞
Si può dimostrare che E(x) = μ e che V(x) =
σ2. Quindi i parametri μ e σ2 che compaiono
nella distribuzione hanno il solito significato
di valore medio e varianza della distribuzione.
La distribuzione normale è simmetrica
intorno a μ e quindi la mediana coincide con
μ. Inoltre ha la sua moda ( ossia il suo
massimo) per x = μ. Si può vedere inoltre che
ad una distanza ± σ da μ si hanno due punti di
flesso. La figura successiva illustra differenti
distribuzioni normali aventi la stessa media.
La distribuzione normale N(μ, σ2 ) può essere
trasformata in una forma più conveniente
mediante l’introduzione della variabile ridotta
z = (x-μ)/σ.
Questo dà origine alla p.d.f. normale
N(0,1) = 1/√2π exp( -1/2 z2 )
con z compreso fra -∞ e +∞.
Questa forma di p.d.f. è più semplice da
tabellare perché dipende dalla sola variabile z.
La distribuzione cumulativa G(z) gode della
proprietà che G(-z) = 1 – G(z). La successiva
figura illustra N(0,1) e la sua funzione di
distribuzione cumulativa.
La funzione di distribuzione cumulativa
standard G(z) è usata per determinare il
contenuto di probabilità di un dato intervallo
per un valore distribuito normalmente e
viceversa per determinare un intervallo
corrispondente ad una certa probabilità.
Sia x una variabile casuale distribuita secondo
N(μ, σ2 ). Vogliamo determinare la probabilità
che x cada entro un certo intervallo [a,b].
Ora P( a ≤ x ≤ b) = P( x ≤ b) – P( x ≤ a), che è
equivalente a scrivere che
P( a ≤ x ≤ b) = G[(b-μ)/σ] - G[(a-μ)/σ].
Usando le opportune tavole si trova che :
)
P(
-
2 G(1) -1 = 0,6827
P(
-
)
2 G(2) -1 = 0,9545
P(
-
)
2 G(3) -1 = 0,9973
La prossima figura mostra N(μ, σ2 ) con le
varie zone che corrispondono a scarti da μ
pari a 1 σ, 2 σ e 3 σ.
È interessante sapere che la media aritmetica
di un campione di dimensione n , estratto da
una popolazione normale, si distribuisce
normalmente con media μ e varianza σ2/n .
È interessante sapere inoltre che (n-1) s2/ σ2 si
distribuisce come un χ2 con n-1 gradi di
libertà, come vedremo in seguito.
Concludiamo con l’enunciare il teorema del
Limite Centrale dovuto sempre a Laplace.
Se x1, x2, … x N sono un insieme di N variabili
casuali indipendenti, ognuno aventi media
della popolazione μi e varianza finita ,
allora la variabile
∑
∑
√∑
ha, come distribuzione limite, una
distribuzione normale, centrata su zero e
varianza pari ad 1.
In particolare la media aritmetica di n misure
xi della stessa grandezza fisica x nelle stesse
condizioni tende ad una distribuzione normale
con media µ e varianza σ² per n
anche
se la distribuzione di x non è normale: la
cosa importante è che la varianza sia finita.Il
motivo per cui in laboratorio è consigliabile
effettuare misure ripetute è proprio legato al
Teorema del Limite Centrale.
La distribuzione del χ
2
Consideriamo una grandezza x, che si
distribuisca secondo una distribuzione
normale, centrata intorno a X con varianza
σ². Introduciamo il concetto di variabile
standard z definendola come z = (x-X)/σ.
Si può dimostrare che z si distribuisce
secondo una distribuzione normale, centrata
sullo zero e con varianza pari ad 1.
Consideriamo ora ν variabili standard zi.
Possiamo definire allora la grandezza χ2
come la somma dei quadrati di ν variabili
standard:
Il parametro ν viene chiamato numero di
gradi di libertà.
Si può ricavare la funzione di distribuzione
fν(χ2), tale che fν(χ2) d χ2 dia la probabilità di
trovare un valore del chi quadro compreso fra
χ2 e χ2+d χ2:
dove C è un fattore di normalizzazione. Si
può vedere che
C= 2½ν Γ(½ν)
dove Γ è la funzione Gamma di Eulero, che le
seguenti proprietà :
Γ(x+1) = x Γ(x)
Γ(½) = √π
Γ(1) = 1
A questo punto è possibile ricavare la
probabilità P(χ2 > χ20 ), ossia la probabilità di
trovare un valore di χ2 maggiore di uno
fissato χ20 .
e quindi ottenere il valore atteso e la varianza
del chi quadro :
In alcune situazioni è più opportuno usare il
cosiddetto chi quadro ridotto, definito come
rapporto fra il chi quadro e il numero di gradi
di libertà. Si ha in tal caso
La tabella A.16 del Severi mostra i valori
χ2 ridotto ordinati per righe, individuate
valori di ν e per colonne individuate
valori di P(χ2/
χ20/ν ). La tabella D
Taylor illustra i valori di P(χ2/
χ20/ν )
funzione di ν e di χ20/ν.
del
dai
dai
del
in
Nella figura seguente sono riportati gli
andamenti della funzione di distribuzione
fν(χ2)=f(u,ν) al variare di χ2 per diversi valori
di ν.
In particolare si nota che f1 (χ2) , essendo
proporzionale a exp(-χ2/2)/√ χ2, diverge per χ2
tendente a zero.
Inoltre si nota che f2(χ2), essendo
proporzionale a exp(- χ2/2 ) , ha l'andamento
di un esponenziale decrescente.
Per ν maggiore di due, la funzione vale zero
per χ2 uguale a zero, manifesta un massimo
per un valore del χ2 pari a ν-2 e poi decresce
con una coda, più o meno lunga, verso lo
zero al divergere di χ2.
Come si vede, la funzione non è simmetrica,
ma tende, al crescere di ν ad una distribuzione
normale di pari valore atteso e varianza.
Nella pratica questo limite si ritiene raggiunto
per ν pari a circa 30.
È opportuno rimarcare infine che , quando
viene usato ai fini di test di ipotesi, il χ2
sperimentale χ20 deve essere tale che
P(χ2 > χ20 ) ≥ 0.05
( ossia l'area sottesa dalla funzione di
distribuzione fra χ20 e ∞ deve essere
maggiore od uguale al 5 per cento ), affinché
l'ipotesi non sia rigettata. Talora questo taglio
del 5 per cento viene portato al 10 per cento.
Il motivo di questo taglio è dovuto al
desiderio di ridurre la possibilità di accettare
per buona un'ipotesi falsa a costo di perdere
un'ipotesi buona ma avente bassa probabilità
di verificarsi.