Propagazione delle varianze, conosciuta come propagazione degli errori. Siano x1, x2, … x n n variabili casuali e poniamo , ,… )=y( ) Supponiamo inoltre nota la matrice delle covarianze delle x e vogliamo determinare la varianza di y. Se facciamo uno sviluppo in serie di Taylor, bloccata al primo ordine, intorno al valore =( , ,… di (x1, x2, … x n ), abbiamo y ( ) = y( ) + ∑ ) - ) più termini di ordine superiore e dove la derivata è calcolata in = . Il valore atteso di questa espressione vale { ( )} ) più termini di ordine superiore, poiché ogni termine del primo ordine vale zero. Solo nel caso in cui le quantità ( xi – μi ) siano piccole, i termini di ordine superiore possono essere trascurati. A questo punto si può ottenere la varianza di y. V{ ( )}=E{ ( ) [ ( )]}2 { ( ) ( )} Per quanto detto prima, sempre trascurando i termini di ordine superiore, si ha che V{ ( ∑ )} ∑ ( ) dove le derivate sono calcolate in = . Per n variabili indipendenti tutti i termini di covarianza sono zero e la varianza di y vale V{ ( )} ∑ ( )² ( ) Un esempio. Consideriamo la media aritmetica di n variabili indipendenti x1, x2, … x n aventi tutti la stessa varianza σ²: ̅= ∑ Le derivate parziali di y rispetto ad ogni xi valgono 1/n e le derivate di ordine più alto sono nulle. Ne consegue, senza nessuna approssimazione che la varianza della media aritmetica vale ̅)=∑ ( )² σ² ² Campione e popolazione Una funzione di densità di probabilità f(x) per una variabile continua o, equivalentemente, un insieme di probabilità nel caso discreto descrivono le proprietà di una popolazione. In fisica si associa una variabile casuale all’esito di una osservazione e la p.d.f. f(x) descriverebbe l’esito di tutte le possibili misure su un sistema se le misure fossero ripetute infinite volte nelle stesse condizioni sperimentali. Poiché ciò è impossibile, il concetto di popolazione per un fisico rappresenta un'idealizzazione che non può essere ottenuta nella pratica. Un reale esperimento consiste di un numero finito di osservazioni e una successione x1, x2, … xn di una certa quantità costituisce un campione di dimensione n. Per questo campione possiamo definire la media aritmetica o media del campione ̅= ∑ e la varianza del campione ∑ = - ̅ )² la cui distribuzione dipenderà dalla distribuzione parente e dalla dimensione del campione Le due quantità sono funzioni di variabili casuali e sono anche esse variabili casuali. Infatti se prendiamo un nuovo campione di dimensione n otterremo in generale una nuova media aritmetica e una nuova varianza : ossia queste grandezze avranno una loro distribuzione, che dipenderà dalle proprietà della distribuzione “parente” e dalla dimensione n del campione. Il nostro obiettivo è adesso come ricavare, a partire dalle informazioni che ricaviamo da un campione, informazioni che riguardano l’intera popolazione. Naturalmente il campione deve essere rappresentativo della popolazione, altrimenti, come accade spesso nei sondaggi, si ottengono risultati sbagliati. Per la legge dei grandi numeri la media del campione tende alla media della popolazione al tendere di n all’infinito. Infatti questa legge ( nella forma debole ) prevede che, dato un intero positivo ε, la probabilità che la media del campione differisca da μ di una quantità maggiore di ε tende a zero nel limite di n infinito : ̅ Si può anche dimostrare che il valore atteso della media del campione coincide con la media della popolazione e che il valore atteso di s2 coincide con σ2 . Distribuzioni di probabilità Si possono diverse distribuzioni di probabilità: quelle di cui parleremo per il momento è la distribuzione binomiale, quella di Poisson, quella uniforme, quella normale e quella del χ². Distribuzione binomiale. Supponiamo di avere due esiti esclusivi A e Ā di un certo esperimento: A è chiamato un “successo” e Ā un “insuccesso”. Per ogni esperimento sia p ( 0 ≤ p ≤ 1 ) la probabilità che si verifichi un successo e q=1-p la probabilità di un insuccesso. Allora per una successione di n prove indipendenti, la probabilità di avere r successi e n-r insuccessi è data : ) ( ) pr ( 1-p)n-r dove il coefficiente binomiale ( )= ) tiene conto che non è importante l’ordine con cui si verificano gli r successi. Questa distribuzione si dice anche di Bernoulli, dal nome dello scienziato svizzero Jakob Bernoulli. Si può dimostrare ( vedi “Severi”) che μ= E(r) = np e che la varianza V(r) =np(1-p). Il grafico che segue mostra l’andamento di una binomiale per diversi valori di p e di n: all’aumentare di n tende ad una distribuzione normale. Distribuzione di Poisson In una distribuzione binomiale può capitare che p sia molto piccola ed n molto grande, sicché il valore atteso μ = np può essere considerevole. Nel caso limite che p tenda a zero ed n tenda all’infinito con μ finito, si dimostra che la binomiale può essere scritta come ) con r=1,2,…. che costituisce la distribuzione scoperta da Siméon_Denis Poisson. Un tipico caso in cui si applica questa distribuzione è quella degli eventi rari. Si può dimostrare che E(r) = μ e che la varianza vale ancora μ. La prossima figura illustra la distribuzione di Poisson per diversi valori di p: anche essa tende ad una distribuzione normale al crescere di μ. Distribuzione uniforme Immaginiamo di avere una variabile continua x che abbia p.d.f. costante sull’intero intervallo in cui essa sia definita. Allora )= con a ≤x ≤ b fornisce una p.d.f. costante. Si può vedere che ) ) ) )² ) dove F(x) è la funzione di distribuzione cumulativa. La prossima figura illustra f(x) e F(x). Distribuzione normale ( o di Gauss ) Questa distribuzione deriva da una binomiale quando n tende all’infinito. Fu trovata inizialmente da Abraham de Moivre e da Pierre-Simon de Laplace; deve il suo nome anche a Gauss in quanto egli l’ha applicata agli errori di misura. La p.d.f. normale ad una dimensione ha la forma generale : ) ) √ con - ∞ ≤ x ≤ ∞ Si può dimostrare che E(x) = μ e che V(x) = σ2. Quindi i parametri μ e σ2 che compaiono nella distribuzione hanno il solito significato di valore medio e varianza della distribuzione. La distribuzione normale è simmetrica intorno a μ e quindi la mediana coincide con μ. Inoltre ha la sua moda ( ossia il suo massimo) per x = μ. Si può vedere inoltre che ad una distanza ± σ da μ si hanno due punti di flesso. La figura successiva illustra differenti distribuzioni normali aventi la stessa media. La distribuzione normale N(μ, σ2 ) può essere trasformata in una forma più conveniente mediante l’introduzione della variabile ridotta z = (x-μ)/σ. Questo dà origine alla p.d.f. normale N(0,1) = 1/√2π exp( -1/2 z2 ) con z compreso fra -∞ e +∞. Questa forma di p.d.f. è più semplice da tabellare perché dipende dalla sola variabile z. La distribuzione cumulativa G(z) gode della proprietà che G(-z) = 1 – G(z). La successiva figura illustra N(0,1) e la sua funzione di distribuzione cumulativa. La funzione di distribuzione cumulativa standard G(z) è usata per determinare il contenuto di probabilità di un dato intervallo per un valore distribuito normalmente e viceversa per determinare un intervallo corrispondente ad una certa probabilità. Sia x una variabile casuale distribuita secondo N(μ, σ2 ). Vogliamo determinare la probabilità che x cada entro un certo intervallo [a,b]. Ora P( a ≤ x ≤ b) = P( x ≤ b) – P( x ≤ a), che è equivalente a scrivere che P( a ≤ x ≤ b) = G[(b-μ)/σ] - G[(a-μ)/σ]. Usando le opportune tavole si trova che : ) P( - 2 G(1) -1 = 0,6827 P( - ) 2 G(2) -1 = 0,9545 P( - ) 2 G(3) -1 = 0,9973 La prossima figura mostra N(μ, σ2 ) con le varie zone che corrispondono a scarti da μ pari a 1 σ, 2 σ e 3 σ. È interessante sapere che la media aritmetica di un campione di dimensione n , estratto da una popolazione normale, si distribuisce normalmente con media μ e varianza σ2/n . È interessante sapere inoltre che (n-1) s2/ σ2 si distribuisce come un χ2 con n-1 gradi di libertà, come vedremo in seguito. Concludiamo con l’enunciare il teorema del Limite Centrale dovuto sempre a Laplace. Se x1, x2, … x N sono un insieme di N variabili casuali indipendenti, ognuno aventi media della popolazione μi e varianza finita , allora la variabile ∑ ∑ √∑ ha, come distribuzione limite, una distribuzione normale, centrata su zero e varianza pari ad 1. In particolare la media aritmetica di n misure xi della stessa grandezza fisica x nelle stesse condizioni tende ad una distribuzione normale con media µ e varianza σ² per n anche se la distribuzione di x non è normale: la cosa importante è che la varianza sia finita.Il motivo per cui in laboratorio è consigliabile effettuare misure ripetute è proprio legato al Teorema del Limite Centrale. La distribuzione del χ 2 Consideriamo una grandezza x, che si distribuisca secondo una distribuzione normale, centrata intorno a X con varianza σ². Introduciamo il concetto di variabile standard z definendola come z = (x-X)/σ. Si può dimostrare che z si distribuisce secondo una distribuzione normale, centrata sullo zero e con varianza pari ad 1. Consideriamo ora ν variabili standard zi. Possiamo definire allora la grandezza χ2 come la somma dei quadrati di ν variabili standard: Il parametro ν viene chiamato numero di gradi di libertà. Si può ricavare la funzione di distribuzione fν(χ2), tale che fν(χ2) d χ2 dia la probabilità di trovare un valore del chi quadro compreso fra χ2 e χ2+d χ2: dove C è un fattore di normalizzazione. Si può vedere che C= 2½ν Γ(½ν) dove Γ è la funzione Gamma di Eulero, che le seguenti proprietà : Γ(x+1) = x Γ(x) Γ(½) = √π Γ(1) = 1 A questo punto è possibile ricavare la probabilità P(χ2 > χ20 ), ossia la probabilità di trovare un valore di χ2 maggiore di uno fissato χ20 . e quindi ottenere il valore atteso e la varianza del chi quadro : In alcune situazioni è più opportuno usare il cosiddetto chi quadro ridotto, definito come rapporto fra il chi quadro e il numero di gradi di libertà. Si ha in tal caso La tabella A.16 del Severi mostra i valori χ2 ridotto ordinati per righe, individuate valori di ν e per colonne individuate valori di P(χ2/ χ20/ν ). La tabella D Taylor illustra i valori di P(χ2/ χ20/ν ) funzione di ν e di χ20/ν. del dai dai del in Nella figura seguente sono riportati gli andamenti della funzione di distribuzione fν(χ2)=f(u,ν) al variare di χ2 per diversi valori di ν. In particolare si nota che f1 (χ2) , essendo proporzionale a exp(-χ2/2)/√ χ2, diverge per χ2 tendente a zero. Inoltre si nota che f2(χ2), essendo proporzionale a exp(- χ2/2 ) , ha l'andamento di un esponenziale decrescente. Per ν maggiore di due, la funzione vale zero per χ2 uguale a zero, manifesta un massimo per un valore del χ2 pari a ν-2 e poi decresce con una coda, più o meno lunga, verso lo zero al divergere di χ2. Come si vede, la funzione non è simmetrica, ma tende, al crescere di ν ad una distribuzione normale di pari valore atteso e varianza. Nella pratica questo limite si ritiene raggiunto per ν pari a circa 30. È opportuno rimarcare infine che , quando viene usato ai fini di test di ipotesi, il χ2 sperimentale χ20 deve essere tale che P(χ2 > χ20 ) ≥ 0.05 ( ossia l'area sottesa dalla funzione di distribuzione fra χ20 e ∞ deve essere maggiore od uguale al 5 per cento ), affinché l'ipotesi non sia rigettata. Talora questo taglio del 5 per cento viene portato al 10 per cento. Il motivo di questo taglio è dovuto al desiderio di ridurre la possibilità di accettare per buona un'ipotesi falsa a costo di perdere un'ipotesi buona ma avente bassa probabilità di verificarsi.