TEORIA DELLE VARIABILI ALEATORIE Una variabile aleatoria v.a. (o variabile casuale v.c. o variabile stocastica) X è una funzione misurabile a valori reali definita sullo spazio campione Ω . Si definisce una v.a. quando si crea una corrispondenza fra insieme dei risultati di una prova e insieme dei numeri reali (corrispondenza non necessariamente biunivoca). Una v.a. prima della prova può assumere un valore qualsiasi, ma dopo la prova assume uno ed un solo valore numerico detto determinazione della v.a. Una v.a. X è discreta se i valori che assume sono in corrispondenza con un insieme numerabile. Ad essa è allora associata una funzione probabilità di ogni valore assunto dalla v.a., P( X x) p x ed è definita se e solo se p ( x) 0 i 1,2,..... - p( x ) 1 i 1 i Una v.a. è continua se i valori che può assumere sono tutti quelli dell’intervallo reale. Ad essa è associata la funzione densità di probabilità (probability density function pdf) che è proporzionale alla probabilità che la v.a. assuma valori in un intervallino infinitesimo centrato su x rispetto all’area sottesa alla curva: P( x X x dx) f ( x)dx Questa funzione è ben definita se e solo se f ( x) 0 - f ( x)dx 1 La differenza fra una v.a. ed una variabile statistica sta nel fatto che alle frequenze sono sostituite le probabilità. Quindi avremo a che fare con distribuzioni di probabilità della v.a. Si può rappresentare la funzione di distribuzione di una v.a. ponendo in ascissa i valori reali che assume, ed in ordinata le rispettive probabilità: FUNZIONE DI RIPARTIZIONE La funzione di ripartizione (cumulative distribution function , cdf) esprime la probabilità che la v.a. X assuma valori inferiori o uguali ad un valore prefissato, cioè per ogni x reale: p x x F ( x) P( X x { x i f (w)dw a seconda che la v.a. sia discreta o continua. Quindi data la funzione di ripartizione di una v.a. continua, la sua funzione di ripartizione può essere interpretata come l’area sottesa alla funzione densità di probabilità fino al valore numerico prefissato x 0 . La funzione di ripartizione è non decrescente, continua da destra, e tale per cui lim F ( x) 0 x lim F ( x) 1 x VARIABILI ALEATORIE MULTIVARIATE Una v.a. multivariata (X 1 , X2, …, Xm) si può definire come una regola che associa ad ogni evento dello spazio campione una m-pla ordinata di valori reali (x 1 , x2, …, xm ) Rm , realizzazioni delle v.a. X 1 , X2, …, Xm . In un esperimento reale possono esistere caratteristiche diverse di un evento aleatorio: allora si assocerà al verificarsi di un evento E Ω una m-pla ordinata (x 1 , x2, …, xm ). Interesserà allora conoscere la probabilità con cui tale m-pla si presenta, in modo da valutare la relazione fra le componenti. Si avranno v.a. multivariate discrete e continue analogamente a quelle univariate. Ad una v.a. discreta multivariata è associata la funzione di probabilità P(X1=x1 X2=x2 … Xm=xm) = P(X1=x1, X2=x2, … ,Xm=xm) = px1,x2,…,xm (x1,x2,…,xm)Rm VARIABILI ALEATORIE CONDIZIONATE Dalla distribuzione di probabilità congiunta P(X 1 , X2, …, Xm) è possibile ottenere la distribuzione di probabilità di una variabile condizionatamente ad eventi realizzatisi con riferimento alle altre variabili, detta v.a. condizionata. Trattiamo per semplicità la v.a. bivariata (X,Y), con funzione di probabilità P(X=x Y=y)=P(X=x,Y=y)=pX,Y che è definita solo se P(X=x,Y=y) 0 P( X x, Y y) 1 X Y . Allora la distribuzione di probabilità della v.a. discreta condizionata (X|Y=y0) è definita da P(X=x|Y=y0) = P( X x, Y y0 ) P(Y y0 ) che risulta definita solo se P(Y=y0)>0. INDIPENDENZA TRA VARIABILI ALEATORIE Data una v.a. discreta multivariata (X 1 , X2, …, Xm), le v.a. X 1 , X2, …, Xm si dicono indipendenti se, per qualsiasi m-pla di valori (x 1 , x2, …, xm ) Rm, la funzione di probabilità congiunta si fattorizza nel prodotto delle funzioni di probabilità componenti: m P(X1=x1, X2=x2,…, Xm=xm) = P(X1=x1) P(X2=x2)…..P(Xm=xm)= P(X i x i ) i 1 E analogamente per una v.a. continua multivariata: le v.a. X 1 , X2, …, Xm si dicono indipendenti se, per qualsiasi m-pla di valori (x 1 , x2, …, xm ) Rm, la funzione di densità congiunta si fattorizza in fx1,x2,…xm(x 1 , x2, …, xm)= fx1(x1) fx2(x2)…. fxm(xm)= m f i 1 xi (x i ) VALORE MEDIO DI VARIABILI ALEATORIE Il valor medio o valore atteso di una v.a. X (discreta o continua) si definisce in questo modo: data una v.a. X e g(X) una funzione misurabile della v.a. X, il valor medio di g(X) è g(x ) p i i 1 i E(g(X))= g ( x) f ( x)dx Se la v.a. continua X assume valori in un intervallo [a,b], allora si ha b g ( x) f ( x)dx E(g(X))= a Se g(X) è la funzione identità si ottiene: x p i 1 i i E(X)= xf ( x)dx E sta in inglese per Expectation, esito medio teorico atteso in caso di prove ripetute all’infinito. Si chiama anche speranza matematica. Il valor medio di una v.a. multivariata (discreta o continua si ottiene estendendo l’espressione del valor medio di una v.a. univariata al caso di più variabili: g( X i 1 1, , X 2, ,..., , X m, ) p x1, x 2,..., xm ( x1, x 2 ,..., x m ) E(g(X 1 , X2, …, Xm)= ... g ( X 1, , X 2,..., X m ) f x1, x 2,..., xm ( x1, x2 ,..., xm )dx1dx2 ....dxm PROPRIETA’ DEL VALOR MEDIO 1. Il valor medio E(X) di una v.a. x è sempre compreso fra il minimo ed il massimo dei valori che la v.a. assume. 2. Siano X e Y due v.a. nel medesimo spazio campione Ω: se e sono due costanti, si dimostra che E(.) è un operatore lineare e vale E(X + Y) = E(X) + E(Y) . 3. Sia = 1 e =±1, si ha E(X ± Y) = E(X) ± E(Y) , Ossia il valor medio della somma (differenza) di v.a. è pari alla somma (differenza) dei valori medi rispettivi: In generale E(1X1 + 2X2 +…mXm ) = 1E(X1) + 2E(X2) +….+mE(Xm) = j E ( X j ) . j 1 4.Il valor medio degli scarti di una v.a. dal suo valor medio è nullo: E(X - µ)=0 5. Il valor medio degli scarti al quadrato di una v.a. dal valor medio è minimo rispetto allo stesso valore per una qualsiasi altra media. E(X - µ)2=min In altre parole, la somma dei quadrati degli scarti dei valori dalla media è sempre minore della somma dei quadrati degli scarti dei valori da qualsiasi altro valore v: (x i x ) 2 ( xi v ) 2 i i come si potrebbe facilmente dimostrare. 5. Se due v.a. X ed Y sono indipendenti, il valor medio E(XY) coincide con il prodotto dei loro due valori medi: E(XY)=E(X)E(Y) (3) Non vale in generale il viceversa: se si verifica la (3) non è detto che X ed Y siano indipendenti. VALORI MEDI CONDIZIONATI Definiamo il valor medio della distribuzione condizionata (X|Y=yj) r E(X|Y=yj) = x j P( X x | Y y j ) j 1 Analogamente per la distribuzione simmetrica (Y|X=xj). I valori medi condizionati E(X|Y=yj) e E(Y|X=xj) sono detti funzioni di regressione. Essi rivestono importanza nell’evidenziare l’indipendenza di due v.a.: infatti se, al variare di y, E(X|Y=y) resta invariato, si dice che Y è indipendente in media da X (e analogamente per X). Analogamente per le variabili continue. MODA E MEDIANA DI VARIABILI ALEATORIE La moda M0 della distribuzione di X è quel valore di X per cui è massima la funzione di probabilità (o densità): p M 0 pi i M0(x)= f x ( M 0 ) f x ( x)x La mediana rientra nella definizione di quantile xp di ordine p, per p(0,1), t.c. F(xp)=p Parliamo di Quartile se p=0.25 Decile se p=0.1 Percentile se p=0.01 Mediana se p=0.5, ossia Me=x0.5 cioè per una v.a. X la mediana è quel valore di X in corrispondenza del quale F(Me)=1/2 VARIANZA La dispersione caratterizza il grado di addensamento dei valori di una v.a. attorno ad una media. La varianza di una v.a. è il valore che indica la dispersione dei valori della v.a. intorno al valor medio: (x i 1 E ( X ) 2 E[( X E ( X )) 2 ] i ) 2 pi ( x ) 2 f ( x)dx a seconda che la variabile sia discreta o continua. Esistono altre notazioni: 2 Var( X ) V ( X ) e l’utile espressione Var(X)=E(X2)-[E(X)] 2 Dove E(X2) è la media quadratica di X, e [E(X)]2 è il quadrato del valor medio di X. E’ utile però avere una grandezza non quadratica, da confrontare con la distribuzione stessa. Si utilizza allora lo scarto quadratico medio o deviazione standard: Var(X ) PROPRIETA’ DELLA VARIANZA 1. Var(C)=0, C=costante 2. Var(X+C)=Var(X) 3. Var(X)= 2Var(X), numero reale 4. Var(-X) = Var(X) dalla 3. 5. Var(X+Y)=Var(X)+Var(Y) se X e Y sono due v.a. indipendenti. La varianza di distribuzioni condizionate è detta varianza condizionata. Nel caso della distribuzione condizionata bivariata (X|Y=yi) Var(X|Y=yi)=E(X2|Y=yi)-[E(X|Y=yi)]2 e analogamente per Var(Y|X=xj). Se al variare di y la varianza Var(X|Y=yi) resta costante, si parla di v.a. omoschedastica, ossia di indipendenza in varianza di Y da X. La forma assunta da una v.a. può essere valutata in base alle caratteristiche di simmetria e di curtosi. L’asimmetria (skewness) è assenza di specularità di una distribuzione di v.a. rispetto al suo asse di simmetria (e quindi della distribuzione delle probabilità rispetto al valore centrale). Si vede che si ha Simmetria se µ=Me=Mo Asimmetria positiva se Mo<Me<µ (coda a destra) Asimmetria negativa se µ<Me<Mo (coda a sinistra). La curtosi fa invece riferimento alla gibbosità della curva, e di conserva alla lunghezza delle code. Prendendo come riferimento la curva normale (detta mesocurtica) con uguale valor medio e scarto quadratico medio, una curva è platicurtica o iponormale se è più piatta (code più ampie) della normale, e leptocurticao ipernormale se è più appuntita (code più piccole). MOMENTI Sono i valori caratteristici della distribuzione di probabilità di una v.a. Sia r = 0,1,2,…. I momenti r-esimi, o momenti rispetto all’origine, sono i valori medi delle potenze resime della v.a. X : x r E( X r ) i 1 pi x Si vede che: r i r f ( x)dx se r=0 allora µ0=1 se r=1 allora µ1= µ=E(X) , il momento primo è pari al valor medio se r=2 allora µ2=E(X2) , si usa nel calcolo della varianza ecc. I momenti r-esimi rispetto al valor medio, o momenti centrali o momenti scarto, sono definiti rispetto alla v.a. scarto Y=X-µ nel modo seguente: (x r E( X ) r i 1 i ) r pi (x ) r f ( x)dx Si ha: per r =0, allora 0 1 per r=1, allora 1 0 per r=2 allora 2 E ( X ) 2 ossia il momento secondo coincide con la varianza. VARIABILE Z STANDARDIZZATA E’ utile introdurre la v.a. standardizzata Z, ottenuta per trasformazione dalla v.a. X: Z X E( X ) Var ( x) X Questa v.a. non ha bisogno di far riferimento ad alcuna unità di misura. Si dimostra inoltre che E(Z)=0 e Var(Z)=1 COVARIANZA E COEFFICIENTE DI CORRELAZIONE LINEARE Introduciamo un indice statistico che consenta di misurare l’eventuale dipendenza lineare fra due v.a. X ed Y. Date due v.a. X ed Y, di media E( X ) x E (Y ) Y La covarianza così calcolata è un indicatore di dipendenza fra X ed Y: ( x Cov( X , Y ) xy E[( X x )(Y y )] xR yR (x x x )( y y ) p xy )( y y ) f xy ( x, y )dxdy dove p xy p x p y . Quando scarti positivi e negativi di X tendono ad associarsi a scarti positivi o negativi di Y si parla di concordanza, ed i prodotti saranno positivi e la varianza positiva. Quando invece scarti positivi di X si associano a scarti negativi di Y o viceversa (discordanza), i prodotti saranno negativi e la covarianza negativa. Un’altra utile espressione della covarianza si ottiene in questo modo: Cov( X , Y ) E[( X x )(Y y )] E ( XY X y Y x x y ) E ( XY ) E ( X ) y E ( X ) x x y Da cui si trae Cov( X , Y ) E ( XY ) E ( X ) E (Y ) Se le due variabili sono indipendenti, p XY p X pY oppure f XY f X ( x) f Y (Y ) quindi (x Cov( X , Y ) xy E[( X x )(Y y )] xR x ) px ( y y ) p y yR ( x x ) f x ( x)dx ( y y ) f y ( y)dy Ed essendo il valor medio degli scarti uguale a zero si ottiene Cov( X , Y ) 0 Non è vero in generale il viceversa, ossai se la covarianza è nulla non è detto che le v.a. siano indipendenti. Per la covarianza valgono le seguenti proprietà: 1. Cov( X , X ) E[( X x )( X x )] E ( X x ) 2 Var ( X ) 2. Cov( 0 1 X , Y ) Cov( X , 0 1Y ) 1Cov( X , Y ) 3. Cov( 0 1 X , 0 1Y ) 1 1Cov( X , Y ) 0 , 1 R (linearità) 0 , 1 , 0 , 1 R (bilinearità) 4. Var (X ) Cov(X , X ) 2 Cov( X , X ) 2Var( X ) da 1. e 3. Ne segue che, data una combinazione lineare di v.a. X ed Y, Var ( X Y ) Var ( X ) Var (Y ) 2Cov( X , Y ) Ma se X ed Y sono indipendenti Var ( X Y ) Var ( X ) Var (Y ) La covarianza presenta però il limite di dipendere dall’unità di misura delle v.a. . E’ sufficiente allora vedere che dalla proprietà 1. discende (caso di massima dipendenza fra X ed Y) Cov( X , Y ) xy x y Quindi dividendo la covarianza per questo valore si ottiene un numero puro: il coefficiente di correlazione lineare di Bravais Pearson Corr ( X , Y ) xy Cov( X , Y ) x y xR yR = x x y y x x x y y x y y p xy f xy ( x, y )dxdy Ma in queste espressioni figurano le variabili standardizzate Zx X x x e Zy X y y Quindi il coefficiente di correlazione si può vedere come momento misto di ordine 1+1 di queste variabili. Notiamo per il coefficiente di correlazione queste proprietà: 1. Assume valori fra +1 e -1 2. Se Corr ( X , Y ) 1 allora fra le due variabili esiste un legame lineare perfetto concorde o discorde (+1 o -1). 3. Se non esiste relazione lineare fra le variabili, Corr ( X , Y ) 0 e le due variabili si dicono incorrelate. Questo non significa che non possa esistere una relazione non lineare fra le variabili: il coefficiente di correlazione indica concordanza più che dipendenza. 4. Viceversa Corr ( X , Y ) può essere alto senza che esista alcuna relazione fra le variabili, ma a causa dell’influenza su di esse da parte di fattori (correlazione spuria). esterni REGRESSIONE Vogliamo cercare un modello che descriva la relazione fra una variabile dipendente e una o più variabili indipendenti (o esplicative). La scelta fra l’una e le altre dipende dal fenomeno: si sceglie come indipendente la variabile logicamente antecedente rispetto all’altra, quella che spiega o controlla l’altra. Il termine regressione fu coniato da Galton per intendere la regressione verso la media dell’altezza dei figli rispetto ai padri. Per evidenziare il tipo di legame fra variabili è utile il diagramma di dispersione (scatterplot) che rappresenta n coppie di osservazioni ( ( x1, y1 ), ( x 2, y 2 ),..., ( xn, y n ) sulle variabili X ed Y. Dallo scatterplot si evidenzia immediatamente l’esistenza di una relazione lineare se i punti sono addensati lungo una retta, detta retta di regressione. Se Y è la variabile indipendente e X la variabile dipendente, la retta di regressione si indica con Yˆ 0 yx X i cui coefficienti 0 e 1 (coefficienti di regressione) sono incogniti. Si deduce che - se yx >0 l’associazione fra X ed Y è positiva, ossia al crescere di X cresce anche Y - se yx <0 l’associazione fra X ed Y è negativa, ossia al crescere di X decresce Y - se yx = 0 non esiste associazione lineare fra X ed Y. Ovviamente se X è la variabile indipendente e Y la variabile dipendente, la retta di regressione si indica con Xˆ 0 xy Y . METODO DEI MINIMI QUADRATI – Dati due punti qualsiasi (x1 ,y1) e (x2 ,y2) , vogliamo determinare 0 e xy . Si ha y y1 ( y 2 y1 )( x x1 ) x2 x1 y 2 y1 xy x2 x1 mentre 0 equivale ad y per x=0 (ordinata all’origine). Vogliamo ora determinare i valori dei parametri che rendono minima la somma dei quadrati degli scarti fra valori teorici (retta) e valori osservati. Date due variabili X ed Y, la funzione teorica lineare è Yˆ 0 yx X ed i parametri da determinare sono 0 e xy . Chiamiamo Dn la deviazione (o errore) fra il valore Yn e il corrispondente valore della retta/curva (positiva o negativa) • Una misura della “bontà dell’interpolazione” è la somma D12 + D22 …..+ Dn2 • La retta/curva avente la proprietà per cui D12 + D22 …..+ Dn2 è minima è detta migliore interpolante o retta/curva dei minimi quadrati. Dobbiamo quindi determinare i valori dei parametri per cui n S ( yˆ i y i ) 2 min ossia i 1 n S ( 0 yx xi y i ) 2 min i 1 Da cui, derivando rispetto ai due parametri ed uguagliando a zero: S 2 0 n ( i 1 0 yx xi y i ) 1 0 n S 2 ( 0 yx xi y i ) xi 0 xy i 1 Operativamente i valori dei parametri si ottengono risolvendo il sistema normale n n i 1 i 1 n 0 xy xi y i n n n i 1 i 1 i 1 0 xi xy xi2 xi y i che si ottiene in questo modo: • La prima delle due equazioni si ottiene dalla sommatoria su tutti i punti di entrambi i membri dell’equazione Yˆ 0 yx X , • la seconda moltiplicando i membri per xi e poi facendo la sommatoria. Si ottengono anche: 0 = n n n n i 1 i 1 n i 1 n i 1 yi xi2 xi xi yi n xi2 ( xi ) 2 i 1 i 1 n yx = xy x2 (x i 1 i x )( y i y ) e simmetricamente per la regressione di X su Y. n (x i 1 i x ) 2 INDICE R2 DI DETERMINAZIONE LINEARE Abbiamo ora bisogno di disporre di indici per valutare l’affidabilità del modello. L’indice di determinazione lineare misura la bontà di accostamento della nuvola di punti alla retta di regressione. La devianza di Y vale n (y i 1 i n n n i 1 i 1 i 1 y ) 2 ( y i yˆ i ) 2 ( yˆ i y ) 2 2 ( y i yˆ i )( yˆ i y ) Ma l’ultimo termine è nullo per le proprietà della media. n Il termine (y i 1 i y ) 2 viene detto TSS (total Sum of Squares) o Devianza totale D(Y). n Il termine (y i 1 i yˆ i ) 2 viene detto RSS (Regression Sum of Squares) o Devianza di Regressione D (Yˆ ) . n Il termine ( yˆ i 1 i y ) 2 si dice ESS (Error Sum of Squares) o Devianza residua D(E) e rappresenta la parte di devianza non spiegata dalla regressione. L’indice di determinazione lineare si calcola allora come R2 D(Yˆ ) D( E ) 1 D(Y ) D(Y ) ossia è il rapporto fra devianza di regressione e devianza totale. In effetti se le differenze ( yi yˆi ) sono piccole, D(E) è piccola e quindi è grande la devianza spiegata, per cui R2 è grande. Il coefficiente di determinazione ha range fra 0 ed 1: quando vale 0 vuole dire che retta di regressione e retta y y coincidono, quindi la variabilità di Y non è spiegata dalla retta di regressione. Invece quando vale 1 tutti i punti giacciono sulla retta di regressione, quindi il modello è appropriato. Chiamiamo coefficiente di correlazione di Pearson R2 e si dimostra che vale: yx y x xy x y xy yx . DISUGUAGLIANZA DI CHEBISHEV La varianza di una v.a. indica la sua dispersione intorno al valor medio e si può valutare dalla forma della curva di densità di probabilità. Con la disuguaglianza di Chebishev si valutano anche altri parametri significativi. Data una qualsiasi v.a. X discreta o continua t.c. E( X ) Var ( X ) 2 vale P(| X | k ) 1 1 k2 k 0 o equivalentemente P( k X k ) 1 1 k2 La disuguaglianza si legge così: La probabilità che la v.a. assuma un valore nell’intervallo k centrato sul valor medio e raggio pari alla deviazione standard è pari a 1 1 . k2 Questo significa che la probabilità che la v.a. disti dal valor medio per meno di un multiplo di k della deviazione standard tende ad 1 col crescere di k. Per k =1 si riottene P( X ) 0 Per k=3 la probabilità diventa già molto bassa. SUCCESSIONI DI VARIABILI ALEATORIE Le seguenti definizioni sono necessarie per teoremi successivi. Chiamiamo successione di v.a. X una regola che associa ad ogni n=0,1,2,… una v.a. con funzione di ripartizione Fn(x): X n Fn(x) n=0,1,2,… La successione Xn converge in distribuzione alla v.a. X d Xn X se per ogni punto in cui F(x) è continua si ha lim Fn ( x) F ( x) . n La successione Xn converge in probabilità alla v.a. X p Xn X se per qualsiasi 0 lim P(| X n X | ) 1 n Ossia l’evento (| X n X | ) diviene certo al tendere di n all’infinito. La successione Xn converge in media quadratica alla v.a. X m Xn X se lim E( X n X ) 2 0 n La successione Xn converge quasi certamente alla v.a. X qc X n X se lim P( lim X n X ) 1 . n n