ELEMENTI DI CALCOLO DELLE PROBABILITA’ Premessa importante: il comportamento della popolazione rispetto una variabile casuale X viene descritto attraverso una funzione parametrica di probabilità p X (x | θ) dove θ è l’insieme dei parametri che caratterizza la popolazione. In questo contesto, i dati osservati o raccolti rappresentano possibili realizzazioni della variabile casuale avvenute attraverso esperimenti casuali. Data la legge p X (x | θ), possiamo calcolare la probabilità/densità di probabilità per ogni realizzazione X = x o insieme di realizzazioni X1 = x 1 , . . . , X n = x n . Statistica, CLEA – p. 1/55 Esperimento casuale L’esperimento casuale è un esperimento il cui risultato non si può determinare con certezza. Ad esempio: risultato del lancio di una moneta colore di una pallina estratta da un’urna contente palline di vario colore numeri estratti per il gioco del lotto Ciò che si può fare è calcolare la probabilità di ogni relizzazione dell’esperimento. Si necessita: spazio di tutti i possibili eventi Ω variabile aleatoria X distribuzione di probabilità pX (x | θ) Statistica, CLEA – p. 2/55 Spazio degli eventi Ω Definiamo con Ω, l’insieme di tutti i possibili eventi elementari ω che si possono realizzare da un esperimento casuale. Consideriamo gli esperimenti k lanci consecutivi di una moneta k estrazioni da un’urna contenente palline bianche e nere Spazio degli eventi Ω Spazio degli eventi Ω k=1 k=2 k=3 k=1 k=2 k=3 T TT TTT B BB BBB C TC TTC N BN BBN CT T CT NB BN B CC CT T NN N BB T CC BN N CCT NNB CT C N BN CCC NNN Statistica, CLEA – p. 3/55 Insiemi di eventi Consideriamo 3 lanci consecutivi di una moneta. L’insieme degli eventi elemenatari ω: Ω = {T T T, T T C, T CT, CT T, T CC, CCT, CT C, CCC} Altri eventi almeno una volta testa: A = {T T T, T T C, T CT, CT T, T CC, CCT, CT C} due volte croce: B = {T CC, CCT, CT C} al massimo una volta testa: C = {T CC, CCT, CT C, CCC} tre volte croce, coincide con un evento elementare: ω = CCC Statistica, CLEA – p. 4/55 Operazione fra insiemi di eventi Consideriamo 2 eventi in Ω = {T T T, T T C, T CT, CT T, T CC, CCT, CT C, CCC}: A = {T CC, CCT, CT C}, B = {T T T, T CC, CT C, CCC} UNIONE di eventi A ∪ B: insieme di eventi in A o in B A ∪ B = {T CC, CCT, CT C, T T T, CCC} INTERSEZIONI di eventi A ∩ B: insieme di eventi in A e in B A ∩ B = {T CC, CT C} NEGAZIONE di eventi A: insieme di eventi che non sono in A Ω \ A = {T T T, T T C, T CT, CT T, CCC} Statistica, CLEA – p. 5/55 Alcune proprietà Dato Ω lo spazio di tutti gli eventi e A, B ⊆ Ω, con A, B 6= ∅ A ∪ B non è mai un insieme vuoto ∅ A ∩ B può essere un insieme vuoto, allora A e B sono due eventi incompatibili, non si possono verificare contemporaneamente dati k eventi H1 , . . . , Hk fra loro incompatibili, Hi ∩ Hj = ∅, i, j = 1, . . . , k, sono anche esaustivi se Ω = H 1 ∪ H2 ∪ · · · ∪ H k A = ∅, se e solo se A ≡ Ω A è un evento impossibile se non può mai verificarsi, quindi A * Ω A è un evento certo se si verifica sempre, ad esempio: A ≡ Ω dato A, l’evento complementare è l’evento negato A = Ω \ A Statistica, CLEA – p. 6/55 Eventi condizionati Condizionare significa ridurre lo spazio Ω poiché si è verificato l’evento B ⊆ Ω, per cui B diventa un evento certo B = Ω \ B è un evento impossibile Consideriamo nello spazio Ω = {T T T, T T C, T CT, CT T, T CC, CCT, CT C, CCC} A = {T T T, T T C, T CT, CT T }: almeno due volte testa C = {T T C, T CT, CT T, T CC, CCT, CT C, CCC}: almeno 1 volta croce D = {CCT, CCC}: i primi due lanci croce Supponiamo di conoscere l’esito del primo lancio che è T : evento certo B= testa al primo lancio e evento impossibile B= non testa al primo lancio. Lo spazio degli eventi possibili diventa Ω | B = {T T T, T T C, T CT, T CC} da cui gli eventi condiziontati sono relativi non a Ω, ma a Ω | B A | B = {T T T, T T C, T CT } C | B = {T T C, T CT, T CC} D | B = ∅ è un evento impossibile perché D e B sono incompatibili Statistica, CLEA – p. 7/55 Probabilità: approccio classico Approccio classico: se tutti i casi sono equiprobabili, la probabilità di ogni evento A è il rapporto P (A) = numero dei casi favorevoli all’evento numero di tutti i casi possibili Esempi di esperimenti casuali con risultati equiprobabili: lancio di un dado P (1) = P (2) = P (3) = P (4) = P (5) = P (6) = 1/6 lancio di una moneta non truccata P (T ) = P (C) = 1/2 = 0.5 estrazione di un numero da 1 a 90 P (1) = P (2) = · · · = P (90) = 1/90 Statistica, CLEA – p. 8/55 Esempio Consideriamo lo spazio Ω = {T T T, T T C, T CT, CT T, T CC, CCT, CT C, CCC} A = {T T T, T T C, T CT, CT T }: due volte testa P (A) = 4/8 = 0.5 C = {T T C, T CT, CT T, T CC, CCT, CT C, CCC}: almeno 1 volta croce P (C) = 7/8 = 0.875 D = {CCT, CCC}: i primi due lanci croce P (D) = 2/8 = 0.25 Statistica, CLEA – p. 9/55 Probabilità condizionata Supponiamo di conoscere l’esito del primo lancio che è T . Lo spazio degli eventi possibili diventa Ω | B = {T T T, T T C, T CT, T CC} A | B = {T T T, T T C, T CT } P (A | B) = 3/4 = 0.75 C | B = {T T C, T CT, T CC} P (C | B) = 3/4 = 0.75 D|B=∅ P (D | B) = 0 Statistica, CLEA – p. 10/55 Assiomi e proprietà La probabilità è una funzione definita sullo spazio degli eventi Ω che associa ad ogni evento A ⊆ Ω un numero reale P (A) 0 ≤ P (A) ≤ 1 la prob. di un evento certo è 1: P (Ω) = 1 la prob. di un evento impossibile è 0, ma viceversa non è vero P (A ∪ B) = P (A) + P (B) − P (A ∩ B) P (A ∪ B) = P (A) + P (B) se A ∩ B = ∅ P (A) = 1 − P (A) P (A ∩ B) = P (A | B)P (B) = P (B | A)P (A), da cui P (A | B) = P (A ∩ B)/P (B) P (A ∩ B) = P (A)P (B) se e solo se A e B sono indipendenti, da cui P (A | B) = P (A) e P (B | A) = P (B) Statistica, CLEA – p. 11/55 Indipendenza Due eventi A e B sono indipendenti, A⊥⊥B se e solo se P (A ∩ B) = P (A)P (B) Questo vuol dire che il verificarsi di B non influisce sulla probabilità di A e viceversa P (A | B) = P (A ∩ B) P (A)P (B) = = P (A) P (B) P (B) P (B | A) = P (A ∩ B) P (A)P (B) = = P (B) P (A) P (A) N.B. Se due eventi A e B con probabilità positive sono incompatibili, sicuramente non sono indipendenti, poiché se A e B sono incompatibili, A | B = ∅, quindi P (A | B) = 0 6= P (A). Analogamente, se due eventi sono indipendenti sono necessariamente compatibili. Statistica, CLEA – p. 12/55 Teorema delle probabilità totali Siano E1 , . . . , Ek k eventi esaustivi ed incompatibili Ω = E1 ∪ · · · ∪ E k Ej ∩ Ei = ∅, i, j = 1, . . . , k Dato un qualunque evento B ⊆ Ω P (B) = P (B ∩ E1 ) + · · · + P (B ∩ Ek ) P (B) = P (B | E1 )P (E1 ) + · · · + P (B | Ek )P (Ek ) Esempio. Ci sono k urne E1 , . . . , Ek contenenti palline bianche e nere. La probabilità di estrarre una pallina bianca considerando che la scelta delle urne è equiprobabile P (Ei ) = P (B) = 1 , k P (B | Ei ) = numero palline bianche in Ei numero palline in Ei numero palline bianche in E1 1 numero palline bianche in Ek 1 + ··· + numero palline in E1 k numero palline in Ek k Statistica, CLEA – p. 13/55 Teorema di Bayes Consideriamo un modo alternativo di calcolare la probabilità condizionata P (A | B) = P (B | A)P (A) P (B ∩ A) = P (B) P (B | A)P (A) + P (B | A)P (A) dove il denominatore si può calcolare col teorema delle probabilità totali Interpretazione: supponiamo che l’evento B sia l’EFFETTO che può essere causato da tanti eventi E1 , . . . , Ek che sono CAUSE esaustive e disgiunte P (CAU SAi | EF F ET T O) = P (Ei | B) = P (EF F ET T O | CAU SAi )P (CAU SAi ) P (EF F ET T O) P (B | Ei )P (Ei ) P (B | Ei )P (Ei ) = P (B) P (B | E1 )P (E1 ) + · · · + P (B | Ek )P (Ek ) P (Ei ): probabilità a priori della CAUSA (scegliere l’urna E i ) P (Ei | B): probabilità a posteriori della CAUSA Ei dato l’EFFETTO B (estratta pallina bianca) Statistica, CLEA – p. 14/55 Variabile aleatoria X Una variabile aleatoria X è una funzione definita sullo spazio Ω che associa un numero reale X(ω) = x ad ogni elemento elementare ω ∈ Ω. X: numero di volte testa X: numero di palline nere Spazio degli eventi Ω e var. aleatoria X Spazio degli eventi Ω e var. aleatoria X k=1 X k=2 X k=3 X k=1 X k=2 X k=3 X T 1 TT 2 TTT 3 B 0 BB 0 BBB 0 C 0 TC 1 TTC 2 N 1 BN 1 BBN 1 CT 1 T CT 2 NB 1 BN B 1 CC 0 CT T 2 NN 2 N BB 1 T CC 1 BN N 2 CCT 1 NNB 2 CT C 1 N BN 2 CCC 0 NNN 3 N.B. Con X indichiamo una var. aleatoria, con x una possibile realizzazione. Statistica, CLEA – p. 15/55 Variabile aleatoria discreta Una variabile aleatoria X descrive il comportamento di un fenomeno a prescindere della realizzazione del singolo esperimento casuale dopo la realizzazione dell’esperimento casuale, la variabile aleatoria assume un valore certo X = x la variabile aleatoria è DISCRETA se X assume un’infinità numerabile di valori numero di volte testa in 3 lanci de una moneta numero di palline bianche estratte da un’urna numero di prodotti difettosi al giorno numero di auto al casello ogni giorno etc... Statistica, CLEA – p. 16/55 Distribuzione di probabilità pX (x) Data una var. aleatoria X discreta, la distribuzione di probabilità p X (x) è una funzione che associa ad ogni x la probabilità di verificarsi p(x) = P (X = x) p(x) ≥ 0 P i p(xi ) = 1 0.5 0.45 0.4 probabilità 0.35 0.3 0.25 0.2 0.15 0.1 N.figli 0.05 0 −1 0 1 2 numero di figli 3 4 5 X p(x) 0 1 2 3 4 tot 0.24 0.47 0.17 0.08 0.04 1.00 Statistica, CLEA – p. 17/55 Funzione di ripartizione F (x) = P (X ≤ x) = X p(xi ) xi ≤x è non decrescente, continua a destra, limx→−∞ F (x) = 0,limx→∞ F (x) = 1 Funzione di ripartizione 1 0.9 frequenze rel. cumulate 0.8 0.7 0.6 0.5 0.4 0.3 0.2 N.figli 0.1 0 −1 0 1 2 numero di figli 3 4 5 X 0 1 2 3 4 p(x) 0.24 0.47 0.17 0.08 0.04 F (x) 0.24 0.71 0.88 0.96 1.00 Statistica, CLEA – p. 18/55 Valore atteso e varianza Il valore atteso di una variabile casuale X discreta è E(X) = µX = X xi p(xi ) i E(X) = µX = 0 × 0.24 + 1 × 0.47 + 2 × 0.17 + 3 × 0.08 + 4 × 0.04 = 1.21 La varianza di una variabile casuale X discreta è 2 V(X) = E(X − µX ) = X i (xi − µX )2 p(xi ) V(X) = 1.46 × 0.24 + 0.04 × 0.47 + 0.62 × 0.17 + 3.20 × 0.08 + 7.78 × 0.04 = 1.04 N.figli X 0 1 2 3 4 p(x) 0.24 0.47 0.17 0.08 0.04 (xi − µX )2 1.46 0.04 0.62 3.20 7.78 Statistica, CLEA – p. 19/55 Varianza e deviazione standard La varianza si può calcolare anche 2 V(X) = E(X ) − µ2x = X i x2i p(xi ) − µ2X V(X) = 0 × 0.24 + 1 × 0.47 + 4 × 0.17 + 9 × 0.08 + 16 × 0.04 − 1.21 2 = 1.04 la deviazione standard è p √ SD(X) = V(X) = 1.04 = 1.01 N.figli X p(x) x2i 0 1 2 3 4 0.24 0.47 0.17 0.08 0.04 0 1 4 9 16 Statistica, CLEA – p. 20/55 Indipendenza fra var. casuali Date 2 variabili casuali X e Y rispettivamente con legge di probabilità p X (x) e pY (x), la distribuzione della variabile congiunta (X, Y ) è pXY (x, y) = pX (x) × pY (y) ⇐⇒ X⊥⊥Y Esempio. Consideriamo il lancio di una moneta per cui P (1) = 0.2 e P (0) = 0.8 dove 1 indica il successo T e 0 l’insuccesso C. Consideriamo le variabili X= risultato del primo lancio Y = risultato del secondo lancio Dato che i due lanci sono indipendenti, possiamo calcolare p XY (x, y) pXY (X = 1, Y = 0) = pX (1) × pY (0) = 0.2 × 0.8 pXY (X = 0, Y = 1) = pX (0) × pY (1) = 0.8 × 0.2 pXY (X = 1, Y = 1) = pX (1) × pY (0) = 0.2 × 0.2 pXY (X = 0, Y = 0) = pX (1) × pY (0) = 0.8 × 0.8 Statistica, CLEA – p. 21/55 Combinazioni lineari di var. casuali Date n variabili casuali Xi ognuna distribuita con una legge di probabilità p Xi (xi ) con un certo valore atteso E(Xi ) e una certa varianza V(Xi ), consideriamo la variabile casuale Y ottenuta come combinazione lineare Y = n X a i Xi + b i , dove ai , bi sono costanti i=1 Se le Xi sono tutte indipendenti fra loro E(Y ) = n X ai E(Xi ) + bi , V(Y ) = i=1 n X a2i V(Xi ) i=1 Esempio. Siano due variabili casuali indipendenti X e Z con E(X) = 8, V(X) = 0.5 e con E(Z) = 0.4, V(Z) = 0.01. Consideriamo Y = 3X − 4Z + 5 E(Y ) = 3 × 8 − 4 × 0.4 + 5, V(Y ) = 9 × 0.5 + 16 × 0.01 Statistica, CLEA – p. 22/55 Alcune variabiabili casuali discrete X ∼ U (a, b) Uniforme, a ≤ x ≤ b X ∼ Be(π) Bernoulli, x = 0, 1 X ∼ Bin(n, π), Binomiale, 0 ≤ x ≤ n X ∼ P o(λ), Poisson, x ≥ 0 N.B. I valori a, b, n, π e λ sono i parametri che caratterizzano la distribuzione di probabilità che descrive il comportamento della variabile casuale X nella popolazione. Statistica, CLEA – p. 23/55 Distribuione discreta Uniforme La variabile casuale discreta X assume un numero finito di valori x 1 , . . . , xK ed assume probabilità costante per ogni xi p(xi ) = 1 , K F (x) = num. di xi ≤ x , K i = 1...,K Esempio: X = lancio di un dado {1, 2, 3, 4, 5, 6} ha una distribuzione uniforme discreta Distribuzione uniforme discreta 1.5 Distribuzione uniforme discreta 1 0.9 1 0.8 Funz. ripartizione probabilità 0.7 0.5 0 0.6 0.5 0.4 0.3 −0.5 0.2 0.1 −1 0 1 2 3 X 4 5 6 7 0 0 1 2 3 X 4 5 6 7 Statistica, CLEA – p. 24/55 Distribuzione di Bernoulli (1) La variabile casuale discreta X ∼ Be(x | π), dove π è la probabilità di successo, assume due valori x = 1: successo x = 0: insuccesso p(x) = π x (1 − π)1−x , 0≤π≤1 x = 1, p(x) = π, prob. successo x = 0, p(x) = 1 − π, prob. insuccesso E(X) = µx = 1 × π + 0 × (1 − π) = π V(X) = E(X 2 ) − µ2X = 1 × π + 0 × (1 − π) − π 2 = π(1 − π) Esempio: consideriamo una moneta truccata per cui la probabilità di successo (T ) è π = 0.7 P (X = 1) = 0.71 × 0.31−1 = 0.7 P (X = 0) = 0.70 × 0.31−0 = 0.3 Statistica, CLEA – p. 25/55 Distribuione di Bernoulli (2) (nei grafici p si legga π) Distribuzione di Bernoulli 1 Distribuzione di Bernoulli 1 Distribuzione di Bernoulli 1 0.9 0.8 p = 0.8 0.8 p = 0.3 0.8 p = 0.5 0.4 0.6 probabilità 0.6 probabilità probabilità 0.7 0.4 0.6 0.5 0.4 0.3 0.2 0.2 0.2 0.1 0 −1 −0.5 0 0.5 X 1 1.5 0 −1 2 Distribuzione di Bernoulli 1 −0.5 0 0.5 X 1 1.5 2 0 −1 Distribuzione di Bernoulli 1 −0.5 0 0.5 X 1 1.5 2 1.5 2 Distribuzione di Bernoulli 1 0.9 0.8 0.6 0.4 0.2 0.8 p = 0.5 0.7 Funz. ripartizione p = 0.8 Funz. ripartizione Funz. ripartizione 0.8 p = 0.3 0.6 0.4 0.6 0.5 0.4 0.3 0.2 0.2 0.1 0 −1 −0.5 0 0.5 X 1 1.5 2 0 −1 −0.5 0 0.5 X 1 1.5 2 0 −1 −0.5 0 0.5 X 1 Statistica, CLEA – p. 26/55 Distribuzione Binomiale (1) La variabile casuale discreta X ∼ Bin(x | n, π), dove π è la probabilità di successo e n è la dimensione del campione assume valori 0 ≤ x ≤ n p(x) = n x π x (1 − π)n−x , 0≤π≤1 dove x indica il numero di successi in n prove indipendenti. E(X) = µx = nπ, V(X) = nπ(1 − π) Esempio: consideriamo un’urna contenente 10 palline bianche e 15 palline nere. Il successo è l’estrazione di pallina bianca (B) la cui probabilità è π = 10/25 = 0.4. La probabilità di ottenere x = 3 successi in n = 5 prove è P (X = 3) = P (X = 0) = 5 0 0 5 3 0.43 × 0.65−3 = 5 0.4 × 0.6 = 0.08, 5! 0.43 × 0.62 = 0.23 3!2! P (X = 5) = 5 5 0.45 × 0.60 = 0.01 Statistica, CLEA – p. 27/55 Distribuione Binomiale (2) (nei grafici p si legga π) Distribuzione binomiale 0.45 0.4 0.3 0.3 p = 0.5 p = 0.7 0.25 0.25 0.2 probabilità 0.25 probabilità probabilità 0.3 Distribuzione binomiale 0.35 0.35 p = 0.2 0.35 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 0 −1 Distribuzione binomiale 0.4 0 1 2 X 3 4 5 6 0 −1 0 1 2 X 3 4 5 6 0 −1 0 1 2 X 3 4 5 6 Prob. di più di 3 successi: P (X > 3) = P (X = 4) + P (X = 5) Prob, di al massimo 2 successi: P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) Prob. di almeno 1 successo: P (X ≥ 1) = P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) + P (X = 5) = 1 − P (X = 0) Statistica, CLEA – p. 28/55 Binomiale come somma di Bernoulli (1) La variabile casuale X Binomiale può essere vista come somma di n variabili Y Bernoulli indipendenti e identicamente distribuite (con lo stesso parametro p) X= n X Yi i=1 Per l’indipendenza E(X) = n X i=1 E(Yi ) = n X i=1 π = nπ, V(X) = n X i=1 V(Yi ) = n X i=1 π(1 − π) = nπ(1 − π) Per ogni var. Yi Bernoulli si può calcolare la prob. di successo P (Y i = T ) in un singolo lancio di una moneta secondo una prob. di successo π. La var. X binomiale calcola la prob. di x volte testa (successi) in n lanci indipendenti ognuno dei quali ha la stessa prob. di successo π. Statistica, CLEA – p. 29/55 Binomiale come somma di Bernoulli (2) Esempio. Dati n = 3 lanci indipendenti di una moneta in cui la probabilità di successo (T ) è π = 0.3, calcolare la probabilità di una volta testa, P (X = 1), X ∼ Bin(x | n, π). Ad esempio calcoliamo la prob. di questo risultato, che, data l’indipendenza delle prove, P (T ∩ C ∩ C) = P (T ) × P (C) × P (C) = 0.3 × 0.7 × 0.7 = 0.31 × 0.72 Quanti sono i possibili risultati per cui si ha un solo successo? n x = 3 1 = 3 : (T CC), (CT C), (CCT ). Da cui, se X è Binomaile con n = 3 e π = 0.3, P (X = 1) = 3 1 0.3 × 0.72 . Statistica, CLEA – p. 30/55 Variabile aleatoria continua Una variabile aleatoria X è CONTINUA se X assume un’infinità non numerabile di valori altezza peso distanza tempo di percorrenza etc... Alcuni aspetti delle variabili continue: Se ogni possibile realizzaione della X è equiprobabile, allora P (X = x) = 0, per ogni x ∈ R. La funzione di probabilità non si può usare, come nel caso discreto per descrivere il comportamento di una var. casuale continua. Con la funzione di ripartizione possiamo calcolare la prob. di un intervallo F (x) = P (X ≤ x) Per descrivere la X si utilizza la funzione di densità f X (x) = d F (x) dx Statistica, CLEA – p. 31/55 La funzione di densità fX (x) Data una variabile aleatoria continua X, la funzione di densità f (x) = d F (x) dx è una curva per ogni valore x attribuisce la densità di probabilità 6= probabilità. La probabilità è l’area al di sotto della curva P (a ≤ X ≤ b) = Z b a fX (x)dx = F (b) − F (a) Proprietà: f (x) ≥ 0, per ogni x ∈ R, ma non necessariamente f (x) ≤ 1 R +∞ −∞ fX (x)dx = 1 Statistica, CLEA – p. 32/55 Funzione di ripartizione F (x) = P (X ≤ x) = Z x f (x)dx −∞ è non decrescente, continua, limx→−∞ F (x) = 0,limx→∞ F (x) = 1 Funzione di ripartizione 1 0.9 0.8 Funzione di densità 4 3.5 media = 1.60 varianza = 0.1 media = 1.60 varianza = 0.1 3 0.7 2.5 f(x) F(x) 0.6 0.5 0.4 2 1.5 0.3 1 0.2 0.5 0.1 0 1 1.2 1.4 altezza 1.6 1.8 2 0 1 1.2 1.4 1.6 altezza 1.8 2 2.2 Statistica, CLEA – p. 33/55 Valore atteso e varianza Il valore atteso di una variabile casuale X continua è E(X) = µX = Z +∞ xf (x)dx −∞ La varianza di una variabile casuale X continua è 2 V(X) = E(X − µX ) = Z +∞ −∞ (x − µX )2 f (x)dx oppure 2 V(X) = E(X ) − µ2x = Z +∞ −∞ x2 f (x)dx − µ2X la deviazione standard è p SD(X) = V(X) Statistica, CLEA – p. 34/55 Variabili standardizzate Una variabile Z è standardizzata quando E(X) = 0 V(X) = 1 Una variabile X con valore atteso E(X) e varianza V(X) si può standardizzare Z= X − E(X) p , V(X) E(Z) = E(X) − E(X) p = 0, V(X) V(Z) = V(X) =1 V(X) 5 4.5 Media = 1.60 Varianza = 0.1 4 0.5 3.5 Variabile standardizzata Media = 1.60 Varianza = 0.1 0.4 densità densità 3 2.5 2 0.3 0.2 1.5 1 0.1 0.5 0 1.2 1.3 1.4 1.5 1.6 altezza 1.7 1.8 1.9 2 0 −3 −2 −1 0 1 2 3 altezza standardizzata Statistica, CLEA – p. 35/55 Indipendenza e combinazioni lineari Date 2 variabili casuali X e Y rispettivamente con funzione di densità f X (x) e fY (x), la distribuzione della variabile congiunta (X, Y ) è fXY (x, y) = fX (x) × fY (y) ⇐⇒ X⊥⊥Y Date n variabili casuali Xi ognuna con funzione di densità fXi (xi ) con un certo valore atteso E(Xi ) e una certa varianza V(Xi ), consideriamo la variabile casuale Y ottenuta come combinazione lineare Y = n X a i Xi + b i , dove ai , bi sono costanti i=1 Se le Xi sono tutte indipendenti fra loro E(Y ) = n X i=1 ai E(Xi ) + bi , V(Y ) = n X a2i V(Xi ) i=1 Statistica, CLEA – p. 36/55 Alcune variabili aleatorie continue X ∼ N (µ, σ 2 ) Normale, −∞ < x < +∞ X ∼ t(r) t-Student, −∞ < x < +∞ X ∼ χ2 (r) chi-quadrato, x ≥ 0 X ∼ F (r1 , r2 ) Fisher x ≥ 0 N.B. I valori µ, σ 2 , r, r1 e r2 sono i parametri che caratterizzano la distribuzione di probabilità che descrive il comportamento della variabile casuale X nella popolazione. Statistica, CLEA – p. 37/55 Distribuzione Normale La variabile casuale X Normale o Gaussiana ha una forma campanulare ed è simmetrica. E’ caratterizzata da due parametri E(X) = µ la media V(X) = σ 2 la varianza (x − µ)2 fX (x | µ, σ ) = √ exp[ ], 2 2 2σ 2πσ 1 2 −∞ ≤ x ≤ +∞ La probabilità si calcola attraverso l’integrale P (a ≤ X ≤ b) = P (X ≤ a) = Z a −∞ 2 Z b a fX (x | µ, σ 2 )dx = F (b) − F (a) fX (x | µ, σ )dx = F (a), P (X ≥ a) = Z +∞ a fX (x | µ, σ 2 )dx = 1−F (a) R N.B. Si dimostra che fX (x | µ, σ 2 )dx = 1, ma questi integrali non si possono calcolare in forma analitica, ma numerica (uso delle tavole). Statistica, CLEA – p. 38/55 Distribuzione Normale (2) 0.9 4 Funzione di ripartizione 1 P(a < X < b) = F(b)−F(a) = = 0.8 − 0.4 = 0.4 3.5 0.8 F(b) media = 1.60 varianza = 0.1 P(a < X < b) = 0.4 3 0.7 2.5 0.6 media = 1.60 varianza = 0.1 0.5 2 0.4 0.4 1.5 F(a) 0.3 1 0.2 0.5 0.1 0 1 b a 1.2 1.4 altezza 1.6 1.8 2 0 1 b a 1.2 1.4 1.6 1.8 2 altezza Statistica, CLEA – p. 39/55 La media: parametro di posizione 3 3 2.5 Media = 1.60 Varianza = 0.2 2 2 1.5 1.5 densità densità 2.5 1 0.5 0 1 media = 1.40 varianza = 0.2 1 0.5 1.2 1.4 1.6 1.8 2 0 0.8 2.2 1 1.2 1.8 2 0.9 media = 1.60 varianza = 0.2 0.9 0.8 0.8 0.7 0.7 Funz. ripartizione Funz. ripartizione 1.6 1 1 0.6 0.5 0.4 0.5 0.4 0.3 0.2 0.2 0.1 0.1 1.5 altezza 2 2.5 media = 1.40 varianza = 0.2 0.6 0.3 0 1 1.4 altezza altezza 0 0.8 1 1.2 1.4 1.6 1.8 2 altezza Statistica, CLEA – p. 40/55 La varianza: parametro di dispersione 3 9 8 2.5 Media = 1.60 Varianza = 0.2 2 6 5 densità densità Media = 1.60 Varianza = 0.05 7 1.5 4 1 3 2 0.5 1 0 1 1.2 1.4 1.6 1.8 2 0 1.2 2.2 1.3 altezza 1.6 1.7 1.8 1.9 2 1 media = 1.60 varianza = 0.2 0.9 0.8 0.8 0.7 0.7 0.6 0.5 0.4 0.6 0.5 0.4 0.3 0.3 0.2 0.2 0.1 0.1 1.5 altezza 2 media = 1.60 varianza = 0.05 0.9 Funz. ripartizione Funz. ripartizione 1.5 altezza 1 0 1 1.4 2.5 0 1 1.2 1.4 altezza 1.6 1.8 2 Statistica, CLEA – p. 41/55 Combinazioni lineari di Normali Se X1 , . . . , Xn sono var. casuali N (µi , σi2 ) indipendenti, la combinazione lineare Y = n X a i Xi i=1 Y ∼ N( X i ai µ i , X a2i σi2 ) i Se X1 , . . . , Xn sono i.i.d. N (µ, σ 2 ), Y ∼ N (nµ, nσ 2 ) Statistica, CLEA – p. 42/55 Z: la Normale standard La variabile casuale Z normale standardizzata ha la caratteristica di avere µ=0 σ2 = 1 1 z2 fZ (z | 0, 1) = √ exp[ ] 2 2π 0.4 1 0.9 0.35 media = 0 varianza = 1 0.3 Funz. ripartizione 0.7 densità 0.25 0.2 0.15 0.6 0.5 0.4 0.3 0.1 0.2 0.05 0 −3 media = 0 varianza = 1 0.8 0.1 −2 −1 0 Z 1 2 3 0 −3 −2 −1 0 Z 1 2 3 Statistica, CLEA – p. 43/55 Z: esempio (1) Attraverso le tavole della Normale standard si può calcolare la probabilità P (Z ≤ 0) = 0.5, Normale standard 0.5 0.45 P (Z ≥ 0) = 0.5 P(Z < 0.31) = 0.62 P(Z > 0.31) = 1 − P(Z < 0.31) = 1 − 0.62 = 0.38 0.4 0.35 0.3 0.25 0.2 0.15 0.62 0.38 0.1 0.05 0 −3 −2 −1 0 0.31 1 2 3 P (Z ≤ 0.31) = 0.62 > 0.5, P (Z ≥ 0.31) = 0.38 < 0.5 Statistica, CLEA – p. 44/55 Z: esempio (2) Normale standard 0.5 P(Z < −0.45) = P(Z > 0.45) = 1 − P(Z < 0.45) = 0.45 = 1 − 0.67 = 0.33 P(Z > −0.45) = P(Z < 0.45) = 0.67 0.4 0.35 0.3 0.25 0.2 0.33 0.67 0.15 0.1 0.05 0 −3 0.67 0.33 −2 −1 −0.45 0 0.45 1 2 3 P (Z ≥ 0.45) = 1 − P (Z ≤ 0.45) = 1 − 0.67 = 0.33 P (Z ≤ −0.45) = P (Z ≥ 0.45) = 1 − P (Z ≤ 0.45) = 1 − 0.67 = 0.33 Statistica, CLEA – p. 45/55 Distribuzione t-Student La variabile casuale X ∼ t(r) ha una forma campanulare ed è simmetrica rispetto allo 0. Rispetto alla Normale standard ha le code più pesanti. E’ caratterizzata dal parametro r: gradi di libertà Γ[(r + 1)/2] , fX (x | r) = √ πrΓ(r/2) −∞ ≤ x ≤ +∞, r ∈ N + La probabilità si calcola attraverso l’integrale P (a ≤ X ≤ b) = Z b a fX (x | r)dx = F (b) − F (a) R N.B. Si dimostra che fX (x | r)dx = 1, ma questi integrali non si possono calcolare in forma analitica, ma numerica (uso delle tavole). E(X) = 0, V(X) = r r−2 Statistica, CLEA – p. 46/55 I gradi di libertà t − Student 0.4 r = 30 densità 0.3 0.9 r=5 0.8 r=1 r = 30 r=5 r=1 0.7 Funz. ripartizione 0.35 t − Student 1 0.25 0.2 0.6 0.5 0.4 0.3 0.15 0.2 0.1 0.05 −2 0.1 −1.5 −1 −0.5 0 X 0.5 1 1.5 2 0 −2 −1.5 −1 −0.5 0 X 0.5 1 1.5 2 Quando aumentano i gradi di libertà diminuisce la varianza e quindi la dispersione Statistica, CLEA – p. 47/55 t-Student: esempio Attraverso le tavole si può calcolare la probabilità P (X ≤ 0) = 0.5, P (X ≥ 0) = 0.5 0.4 0.35 0.3 r=1 P(X > 3.08) = 0.10 r=5 P(X > 1.48) = 0.10 r = 30 P(X > 1.31) = 0.10 0.25 0.2 0.15 0.1 0.05 0 −4 1.31 −3 −2 −1 0 1 1.48 2 3 3.08 4 Statistica, CLEA – p. 48/55 t-Student → Normale standard Quando i gradi di libertà aumentano, la t-Student tende ad una Normale standard 0.4 0.35 0.3 densità 0.25 Normale Standard r = 30 r=5 r=1 0.2 0.15 0.1 0.05 0 −4 −3 −2 −1 0 X 1 2 3 4 Statistica, CLEA – p. 49/55 Distribuzione chi-quadrato La variabile casuale X ∼ χ2(r) mostra un’asimmetria positiva. E’ caratterizzata dal parametro r: gradi di libertà fX (x | r) = 1 r/2−1 −x/2 x e , 2r/2 Γ(r/2) x ≥ 0, r ∈ N + La probabilità si calcola attraverso l’integrale P (a ≤ X ≤ b) = Z b a fX (x | r)dx = F (b) − F (a) N.B. Si dimostra che fX (x | r)dx = 1, ma questi integrali non si possono calcolare in forma analitica, ma numerica (uso delle tavole). R E(X) = r, V(X) = 2r Statistica, CLEA – p. 50/55 I gradi di libertà 0.25 1 r = 15 0.9 r = 10 0.2 0.8 r=3 r = 15 Funz. ripartizione 0.7 densità 0.15 0.1 r = 10 0.6 r=3 0.5 0.4 0.3 0.05 0.2 0.1 0 0 5 10 15 X 20 25 30 0 0 5 10 15 X 20 25 30 Quando aumentano i gradi di libertà diminuisce l’asimmetria Statistica, CLEA – p. 51/55 χ2(r) : esempio Attraverso le tavole si può calcolare la probabilità 0.25 0.2 r=3 P(X > 6.25) = 0.10 r = 10 P(X > 15.99) = 0.10 r = 15 P(X > 22.31) = 0.10 densità 0.15 0.1 0.05 0 0 5 6.25 10 15 15.99 20 25 30 22.31 Statistica, CLEA – p. 52/55 Teorema del limite centrale Se X1 , . . . , Xn sono i.i.d. E(Xi ) = µ, allora la loro somma Y = Pn i=1 V(Xi ) = σ 2 Xi , Y ≈ N (nµ, nσ 2 ) L’approssimazione è tanto migliore quanto maggiore è n. Inoltre, la bontà dell’approssimazione dipende molto dalla forma della distribuzione di partenza. Esempio. Consideriamo n variabili χ2(1) : X1 , . . . , Xn , con E(Xi ) = 1 e V(Xi ) = 2 Y = n X Xi i=1 Per le proprietà della distribuzione χ2 , Y ∼ χ2(n) . Per il teorema del limite centrale, quando n è molto grande Y ≈ N (n, 2n) Statistica, CLEA – p. 53/55 TLC: esempio (1) Chi−quadro 5 d.f. e N(5, 10) 0.16 0.14 0.09 chi − quadro (5) chi − quadro (10) 0.08 N(5,10) 0.12 Chi−quadro 10 d.f. e N(10, 20) 0.1 N(10,20) 0.07 0.06 densità densità 0.1 0.08 0.05 0.04 0.06 0.03 0.04 0.02 0.02 0 0 0.01 5 10 15 20 25 30 0 0 5 10 15 20 25 30 Statistica, CLEA – p. 54/55 TLC: esempio (2) Chi−quadro 15 d.f. e N(15, 30) 0.08 Chi−quadro 30 d.f. e N(30, 60) 0.06 chi − quadro (15) 0.07 chi − quadro (30) N(15,30) N(30,60) 0.05 0.06 0.04 densità densità 0.05 0.04 0.03 0.03 0.02 0.02 0.01 0.01 0 0 5 10 15 20 25 30 0 0 10 20 30 40 50 60 Statistica, CLEA – p. 55/55