Lezione 3 Distribuzioni di Probabilità Notevoli Distribuzioni di Probabilità Vi sono famiglie parametriche di diverse distribuzioni par=colarmente importan= nelle applicazioni della sta=s=ca Alcune di queste distribuzioni (gaussiana, poissoniana, ecc) sono comunissime nei fenomeni fisici Si hanno distribuzioni sia discrete che con=nue 2 Distribuzione Binomiale Consideriamo un esperimento che può avere solo due risuta= (ad esempio testa, croce nel lancio di una mone=na). Questa variabile è discreta. Sia p (costante) la probabilità di avere l’evento A e q = 1‐p la probabilità che si verifichi l’evento B. Ripe=amo N volte l’esperimento. Qual è la probabilità di avere n volte l’evento A? La probabilità che i primi n esperimen= diamo come risultato A è pari a pn qN‐n . Ma non sono interessato solo al caso che i primi n tenta=vi mi diano l’evento A. Quindi devo considerare quan= sono i casi in cui ho n even= A indipendentemente dall’ordine in cui si realizzano. Il numero di ques= casi è Distribuzione Binomiale La probabilità di avere n volte A e N‐n volte B, dove n = 0,1,2,…,N è la variabile casuale e N e p sono parametri della distribuzione, è data da: Valore di aspeWazione di n: Varianza di n : f(n;N,p) f(n;N,p) Esempi di Distribuzione Binomiale n f(n,N,p) f(n,N,p) n n n Numero N di esperimen= costante e diversi valori della probabilità p f(n;N,p) f(n;N,p) Esempi di Distribuzione Binomiale n f(n;N,p) f(n;N,p) n n n Numero N di esperimen= variabile e iden=co valore della probabilità p Esempi di Distribuzione Binomiale Lancio 5 volte una mone=na e sia n il numero di volte che ho testa. Dare la distribuzione di probabilità di n e calcolare il valore medio e la varianza. ‐‐‐‐‐‐‐‐‐‐‐ La distribuzione è binomiale con N = 5 e p = 0.5. Quindi Per ogni n abbiamo Valore medio Np = 2.5, varianza Npq = 1.25 Esempi di Distribuzione Binomiale Uno strumento musicale ha un tempo di durata (in ore) che ha una pdf data da : Qual è la probabilità che su 100 strumen= simili 8 durino più di 2 ore? ‐‐‐‐‐‐‐‐‐‐‐‐ La probabilità che uno strumento duri più di 2 ore è: La probabilità che 8 durino più di 2 ore è: Esempio di Distribuzione binomiale Compro 20 bulbi di giacinto di cui 10 aspeWa= di colore rosso e 10 di colore blu. Quando crescono scopro che 16 sono blu. Qual è la probabilità che possa succedere questo? ====== La distribuzione è binomiale. La probabilità di avere 16 o più giacin= blu è uguale alla probabilità di avere quaWro o meno giacin= rossi. Questa probabilità è 0.0059 Distribuzione Mul=nomiale Questa è una generalizzazione della distribuzione binomiale al caso di n =pi di risultato. Esempio: risultato di una par=ta di calcio (1,0,2). Siano m i possibili risulta= e pi la probabilità che si realizzi l’i‐esimo risultato. Vale la condizione di normalizzazione: La probabilià in N esperimen= di avere n1 risulta= di =po 1, n2 risulta= di =po 2, … e nm risulta= di =po m è : Questa distribuzione è deWa mul=nomiale. n1, …, nm sono le variabili casuali mentre N e p1,… pm sono i parametri della distribuzione Il valore di aspeWazione e la varianza per il risultato i‐esimo E[ni] = Npi V[ni] = Npiqi = Npi (1 – pi) Distribuzione di Poisson Se in un distribuzione binomiale il numero di esperimen= N è molto grande e se la probabilità p di oWenere un par=colare valore della variabile è molto piccolo (evento raro) ma tale che il valore di aspeWazione del numero di successi sia un numero finito ν, allora la distribuzione binomiale diventa: Questa distribuzione è deWa di Poisson. n è la variabile casuale e ν il parametro. Vediamo con un esempio come si passa dalla distribuzione binomiale a quella poissoniana. Prendiamo un intervallo di tempo [0, T] e dividiamolo in N soWointervalli di lunghezza T/N Sia p = λ T/N la probabilità che l’evento si verifichi in uno di ques= intervalli (λ numero reale posi=vo). Sia n il numero di volte che si realizza l’evento. U=lizzando la distribuzione binomiale si ha: Distribuzione di Poisson che possiamo riscrivere cosi: Facendo aumentare N possiamo approssimare : Ponendo poi ν = λ T (= Np costante), abbiamo: Distribuzione di Poisson n è la variabile distribuita poissonianamente mentre ν è il parametro della distribuzione. Il valore di aspeWazione di n è: La varianza di n è: Vediamo ora come appaiono distribuzioni poissoniane con diversi valori di aspeWazione ν f(n;N,p) ;N,p) f(nf(n;N,p) Distribuzione di Poisson n n f(n;N,p) f(n;N,p) f(n;N,p) n n n n Distribuzioni poissoniane con diversi valori di aspeWazione f(n;ν) f(n;N,p) Distribuzione di Poisson n n In questa distribuzione binomiale (a sinistra) Np = 2. Confrontare questa distribuzione con quella poissoniana (a destra) con ν = 2. Con N molto grande e p molto piccolo in modo che Np res= un numero di even= finito e osservabile , allora la distribuzione binomiale diventa quella di Poisson. La distribuzione poissoniana è tra quelle più adoWate nella descrizione di fenomeni naturali (come nei decadimen= radioahvi, ecc) Distribuzione Gaussiana Per ragioni che vedremo presto, la distribuzione gaussiana è la più importante e la più usata in Fisica e nella Sta=s=ca in generale. p.d.f. di una gaussiana con x variabile casuale , μ e σ2 due parametri Valore di aspeWazione di x: Varianza di x : La distrib. gaussiana (deWa anche normale) ha una forma a campana simmetr. aWorno all’asse x = μ con due pun= di flesso in x = μ – σ e in x = μ + σ È indicata cosi N(μ,σ2). Quando μ = 0 e σ = 1 si ha gaussiana standard N(0,1) e si scrive: Distribuzione Gaussiana La c.d.f. della gaussiana standard è definita da: È deWa anche funzione degli errori. Non è calcolabile esplicitamente. È calcolata in modo approssimato (calcolo numerico) ed è tabulata (vedi calcolatori sta=s=ci). Se una variabile Y ha distribuzione gaussiana N(μ, σ2), allora la variabile X = (Y – μ)/σ segua una distribuzione gaussiana standard N(0,1). Le corrisponden= c.d.f. sono uguali F(y) = Φ(x). I valori di Φ(x) ed i quan=li xα = Φ‐1(x) sono tabula=. Quindi data una generica funzione gaussiana la sua c.d.f. ed i suoi quan=li si oWengono da quelli della distribuzione gaussiana standard. Queste quan=tà si oWengono da tavole (ma oggi è più comodo oWenerli in rete con un calcolatore sta=s=co). f(x;μ,σ) Gaussiane Gaussiana standard, gaussiana con μ = 3 e σ = 1.5 e gaussiana con μ = e σ=2 (in rosso) f(x;μ,σ) x Le due linee ver=cali sono a distanza di 1 σ dal valore valore centrale. L’area compresa tra queste due linee è il 68.27% dell’area totale soWesa dalla curva gaussiana. x Esempio ‐ 1 Una variabile casuale X ha una p.d.f. gaussiana con valore medio 5 e varianza 4. Calcolare la probabilità p che la variabile assuma un valore minore di 2. La variabile (X – 5)/2 ha una p.d.f. gaussiana standard e quindi: Si verifica facilmente che un intervallo centrale [μ – σ, μ + σ] soWende il 68.27 % dell’area soWesa dalla gaussiana; entro 2σ l’area soWesa è il 95.45 %, il 99% entro 3 σ. Entro 1.645 σ è soWesa il 90% dell’area totale; entro 1.960 σ è soWeso il 95% mentre entro 2.576 σ è soWeso il 99% dell’area. Qui si stanno considerando sempre intervalli centrali (aWorno al valore medio). Una variabile ha distribuzione gaussiana con media uguale a 10 e varianza uguale a 100. Calcolare la probabilità che 8 ≤ x ≤ 16 : Gaussiana come Limite della Poissoniana Per valori di aspeWazione ν > 10 la distribuzione poissoniana è approssimata bene da una gaussiana di valore medio μ = ν e varianza σ2 = ν In figura alla distribuzione di probabilità poissoniana con ν =25 è sovrapposta una gaussiana con μ =25 e varianza σ2 = 25. f(x;25,25) f(n;25) n Esercizio In una zona del Canada ci sono in media 2 alci per lago. 1) Quale potrebbe essere la distribuzione del numero di alci per lago ? 2) Se trovo 5 alci in un lago qual è la probabilità che ciò sia accaduto per caso? 3) Se si approssima la distribuzione con una gaussiana, qual è la probabilità di trovare in un lago 5 o più alci? 4) Cosa direste se dichiarassi che ciò è avvenuto dopo aver visitato altri 19 laghi ====== 1) La distribuzione è poissoniana con media 2 2) f(alci =5) = e‐2 25/5! = 0.0361 Probabilità di trovare 5 o più alci in un lago: f(alci ≥ 5) = 1‐ f(alci ≤ 4 ) = 0.0526 3) La distribuzione potrebbe essere approssimata da una gaussiana N(2,2). In questo caso la probabilità di osservare 5 o più alci è: Approssimazione non buona. Valore medio troppo basso ! Esercizio 4) Dopo 20 laghi la probabilità di trovare 5 o più alci è data da: f = 1 ‐ (1‐0.0526)20 = 0.66 dove 1 ‐ 0.0526 rappresenta la probabilità di non trovare 5 o più alci in un lago. Dopo 20 laghi elevo alla potenza di 20. Di conseguenza non mi meraviglio affaWo di aver trovato più di 5 alci dopo ven= laghi . Gaussiana come Limite della Binomiale Pe N grande e tenendo p e q costan= , allora la distribuzione binomiale tende ad una gaussiana di valore medio N p e varianza N p q f(n;30,0.5) La binomiale in figura con N = 30 e p =0.5 è ben approssimata da una gaussiana con valore medio N p = 15 e varianza N p q = 7.5 n Diistribuzone Gaussiana Mul=dimensionale Supponiamo di avere n variabili x = (x1, … , xn ), ognuna distribuita gaussianamente e sia μ = (μ1, μ2, …, μn) il veWore dei valori medi. I due veWori x e μ sono veWori colonna. In generale le n variabili non sono scorrelate per cui nella p.d.f. bisogna tener conto delle loro eventuale correlazione : dove i veWori xT e μT sono i veWori riga dei corrisponden= veWori colonna x e μ mentre V è la matrice degli errori (matrice di covarianza) Distribuzione Binormale La distribuzione gaussiana a due dimensioni è deWa generalmente binormale. La matrice degli errori in questo caso si scrive così: Questa matrice si può inver=re se e solo se ρ ≠ ±1 (ρ = ±1 significa che le due variabili sono correlate al 100 %). Se la matrice si può inver=re allora : La p.d.f. binormale si scrive così: Distribuzione Binormale Si dicono linee di contorno (o di livello) le linee che si oWengono ponendo ad un valore costante il valore dell’esponente nella p.d.f. Servono a visualizzare la p.d.f. Questa è l’equazione di una ellisse. Se il valore costante del parametro è preso uguale a ‐1/2 , allora l’ellisse è centrata sui valore μx e μy . Le tangen= all’ellisse intersecano gli assi cartesiani nei pun= μx ± σx e μy ± σy Se fissiamo un valore di x, la distribuzione in y è una gaussiana con media uguale a μy + ρσy(x – μx)/σx e deviazione standard uguale a σy √(1 – ρ2) Distribuzione Uniforme Serve a descrivere una variabile che ha probabilità di realizzarsi costante in un certo intervallo e zero all’esterno: Valore di aspeWazione Varianza No=amo che se a = 0 e b = 1 allora la c.d.f. G(x) della distribuzione uniforme della variabile casuale x è : Distribuzione Esponenziale Questa distribuzione della variabile casuale X (0≤ x < ∞ ) è definita da : con ξ parametro della distribuzione. Valore di aspeWazione di x : Varianza di x : Questa distribuzione appare quando per esempio si misura il tempo di decadimento di una risonanza nel proprio sistema di riferimento. ξ in questo caso rappresenta il tempo di vita medio della par=cella. Si no= che non dipende dall’istante iniziale t0 Questa proprietà vale solo per questo =po di p.d.f. Distribuzione Esponenziale Distribuzione χ2 La distribuzione χ2 della variabile casuale Z (0 ≤ z < ∞ ) è definita da : con n parametro della distribuzione deWo numero di gradi di libertà . La funzione Γ è cosi definita ed ha queste proprietà: Valore di aspeWazione di z : Varianza di z : Distribuzione χ2 La distribuzione χ2 è par=colarmente importante in sta=s=ca e molto comune in Fisica. Se si hanno N variabili casuali Xi tuWe distribuite gaussianamente con valore medio νi e varianza σ2i , allora la funzione : è distribuita secondo una distribuzione del χ2 con N gradi di libertà. Questa distribuzione è par=colarmente importante nei test di bontà del fit. Applicazione: nella somma di probabilità di Poisson è comodo usare la relazione: con fχ2 e Fχ2 p.d.f. e c.d.f. del χ2 Esempio Supponiamo che in un fascio di par=celle il numero di par=celle per impulso abbia una distribuzione poissoniana con valore di aspeWazione 16. Qual è la probabilità che un impulso abbia un numero di par=celle compreso tra 12 e 20 ? ‐ La distribuzione di Poisson in questo caso è : ‐ La probabilità richiesta è quindi: che possiamo calcolare così: Distribuzione χ2 Distribuzione χ2 Distribuzione di Cauchy Questa distribuzione, deWa anche Breit‐Wigner o anche Lorentziana, della variabile casuale X (0 ≤ x < ∞ ) è definita da : con a > 0. In fisica subnucleare è usata nella descrizione di risonanze che decadono in altre par=celle più leggere. Gli integrali che definiscono il valore di aspeWazione e la varianza di questa distribuzione sono divergen=. Dato l’integrale di f(x) esteso da ‐∞ a + ∞ si dice valore principale di Cauchy U=lizzando i valori di Cauchy, a è legato al tasso di decadimento della par=cella (a=Γ/2) e b è interpretabile come valore medio x0. (x0 e Γ sono la massa e la larghezza della risonanza, rispehvamente) Distribuzione di Cauchy Distribuzione t di “Student” Distribuzione di notevole rilevanza in sta=s=ca. Sia Z una variabile casuale che segua una distribuzione gaussiana ed U un’altra variabile casuale, indipendente da Z, che segua una distribuzione χ2 con n gradi di libertà, allora la variabile casuale segue la distribuzione deWa distribuzione t di Student con n gradi di libertà. È una curva simmetrica (media = 0) Distribuzione t di Student Distribuzione t di Student Legge dei Grandi Numeri Data una serie di n misure (campione di dimensione n) di una variabile casule X posso estrarre informazioni su questa variabile da questo campione, per esempio la media (aritme=ca) xn ecc. ‐ Per il calcolo della media μ della variabile X dovrei conoscere tuh i possibili valori di X (popolazione), teoricamente infinita. ‐ Problema: A par=re dalla media xn , che chiamiamo media campionaria, posso fare delle inferenze sta=s=che sulla media (vera) μ ? Si, posso farlo grazie alla legge (debole) dei grandi numeri: Si può determinare un intero posi?vo n tale che prendendo un campione casuale di dimensione maggiore o uguale ad n di una variabile casuale X, distribuita con valore di aspeEazione μ, la media campionaria xn differisca da μ per una quan?tà piccola a piacere. ‐ Questa legge ha un ruolo fondamentale nell’inferenza sta=s=ca Teorema Limite Centrale Questo teorema è molto importante Si abbiano n variabili casuali Xi (supposte con=nue ed indipenden= ) con media μi e varianza σi2. Il teorema limite centrale stabilisce che la variabile casuale per grandi n tende ad essere distribuita secondo una gaussiana con valore medio e varianza Notate bene che NON ha alcuna importanza la natura delle distribuzioni delle variabili Xi. L’effeWo cumula=vo di molte variabili (comunque distribuite) porta ad una distribuzione gaussiana. Pensate all’errore di misura casuale dovuto a tan=ssimi effeh indipenden= che si sommano incoerentemente. AWenzione nella pra=ca all’uso di questo teorema. Con un campione finito (e limitato) di misure ci sono situazioni in cui la distribuzione è tuW’altro che gaussiana. Ci sono cioè code non gaussiane. TraWazione di effeh non gaussiani pone spesso problemi delica=.