1. Richiami di Statistica Metodi Statistici per il Credito e la Finanza Stefano Di Colli Dati: Fonti e Tipi • I dati sperimentali sono provenienti da un contesto delimitato, definito per rispettare le caratteristiche del modello in esame e controllato • I dati non sperimentali derivano dall’ osservazione del comportamento reale delle variabili di interesse, al di fuori di un contesto sperimentale ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 2 Dati: Fonti e Tipi • I dati su entità diverse osservati per un solo periodo sono detti dati sezionali (cross section) • I dati su una singola entità raccolti in momenti diversi scadenzati per unità temporali sono detti serie storiche (time series) • I dati panel (o longitudinali) sono relativi a entità diverse e riferibili a due o più unità temporali ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 3 Probabilità • Definizione classica La probabilità di un risultato è la proporzione tra il numero di casi in cui esso si verifica (favorevoli) e il totale dei casi possibili n Pr( e ) = lim n→∞ e n • L’insieme di tutti i casi possibili è detto spazio campionario Ω . L’evento è un sottoinsieme dello spazio campionario ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 4 Variabili casuali Definizione: La Variabile Casuale (vc) è una funzione definita nello spazio campione Ω, l’insieme degli eventi elementari. Essa associa ad ogni evento di Ω un numero reale • L’insieme dei valori che una vc può assumere in una prova specifica si dice supporto della vc • Una vc può essere discreta o continua ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 5 Variabili casuali • Esempio 1: La variabile casuale che descrive l’esperimento lancio di un dado associa a ciascuna faccia del dado un numero intero compreso fra 1 e 6 • Esempio 2: quotazione di un indice azionario. La gamma degli esiti possibili è infinita e la variabile casuale associa a ciascun risultato dell’attività di contrattazione un numero reale positivo (il prezzo) ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 6 Variabili casuali discrete Una v.c. discreta è una corrispondenza tra gli eventi di Ω ed un insieme discreto (finito o numerabile) di numeri reali • Una vc discreta è nota se si conoscono i valori che può assumere e le rispettive probabilità. In altre parole ne è nota la distribuzione di probabilità • Condizione necessaria e sufficiente affinchè la vc sia ben definita è che le prob. pi soddisfino ∞ 1) pi ≥ 0, ∀i = 1,2,... 2) ∑ pi = 1 i =1 ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 7 Variabili casuali continue Una vc è continua se può assumere tutti i valori in un qualsiasi intervallo reale • Una vc continua è nota se, per ogni x0 reale e prefissato, è nota la probabilità che tale vc assuma un valore in un intervallo di ampiezza infinitesima Pr( x0 < X ≤ x0 + dx) = f ( x0 )dx Dove f(x) è la funzione di densità della vc continua X ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 8 Variabili casuali continue (II) • Alcune proprietà della funzione di densità x2 Pr( x1 < X ≤ x2 ) = ∫ f ( x)dx x1 x0 Pr( X = x0 ) = Pr( x0 < X ≤ x0 ) = ∫ f ( x)dx = 0 x0 • Condizioni necessarie e sufficienti perché una vc continua sia ben definita sono +∞ i) f ( x) ≥ 0 ii) ∫ f ( x)dx = 1 −∞ ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 9 Funzione di ripartizione • La funzione di ripartizione è definita nello stesso modo per entrambi i tipi di vc, anche se il calcolo si sviluppa con metodi diversi • La funzione di ripartizione F(x0) di una vc X è definita dalle relazioni seguenti: ∑ pi x≤ x F ( x0 ) = Pr( X ≤ x0 ) = x ∫ f ( w)dw −∞ 0 0 ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 10 Funzione di ripartizione (II) • È la distribuzione di probabilità cumulata, cioè la prob che una vc sia < o = a un certo valore • La funzione di ripartizione ha le seguenti proprietà: 1) F(x) è non decrescente, cioè x1 < x2 ⇒ F(x1) ≤ F(x2 ) F ( x) = 0; lim F ( x) = 0 2) xlim →−∞ x→+∞ F ( x ) = F ( x0 ) 3) F(x) è continua da destra, cioè: xlim →x + 0 ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 11 Valore medio di una vc • Data una vc X ben definita, il valor medio di X è dato dalle seguenti quantità: ∞ xi pi ∑ i =1 E ( X ) = +∞ ∫ xf ( x)dx − ∞ Il simbolo E(X) deriva dall’inglese Expectation, ad indicare che si tratta di un termine di sintesi della vc X. ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 12 Valore medio di una vc (II) • Si può anche definire il valore medio di una funzione di X, come X2, X3,…, Xr. In questo caso i valori E(X), E(X2), E(X3), …, E(Xr) si chiamano momenti della vc. • Proprietà: Se esiste (finito) il valore E(Xr), allora esistono anche i momenti E(Xs) per tutti i valori s ≤ r ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 13 Valore medio di una vc (III) • L’operatore E è lineare, cioè per ogni α e β costanti si ha E(αX + βY ) = αE( X ) + βE(Y ) da cui, ponendo β = 0, si ha E(αX) = αE(X). Invece, ponendo α = 1 e β =1: E( X ± Y ) = E( X ) ± E(Y ) cioè il valor medio di una somma o di una differenza è uguale alla somma (differenza) dei valori medi ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 14 Valore medio di una vc (IV) • Dato che una costante c è una vc discreta X che assume valore c con prob 1, il valor medio di una costante è E(c)=c Pr (X=c)= c 1 = c • La relazione di linearità può essere generalizzata ad una successione di costanti αi e di vc Xi ∞ ∞ i =1 i =1 E( ∑ αi X i ) = ∑ αi E( X i ) ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 15 La variabile casuale scarto • Se si sottrae alla vc X una costante µ = E(X), la vc che ne deriva, X – µ, si definisce scarto. • Il valor medio dello scarto è sempre 0 E(X – µ) = E(X) – E[E(X)] = 0 • La distribuzione della vc scarto consente di valutare il rischio attraverso il valor medio del quadrato dello scarto E(X – µ)2 ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 16 La Varianza • La varianza di una vc X è data dalla quantità ∞ ( x − µ )2 p ∑ i i = 1 i Var ( X ) = E( X − µ )2 = +∞ ∫ ( x − µ )2 f ( x )dx −∞ • La varianza gode di alcune proprietà i) Var (X) = 0 se e solo se Pr (X = c) = 1 ii) Var (cX) = c 2 Var (X) iii) Var(X±c) = Var (X) iv) Var(X) = E(X2) – [E(X)]2 ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 17 Variabili casuali standardizzate • Se la vc non è degenere e possiede valor medio E(X) = µ e varianza Var(X) = E(X – µ)2 =σ 2 si può definire la vc standardizzata Z come X − E( X ) X − µ Z= = σ Var ( X ) dove E(Z) = 0 e Var(Z) = 1 • Il coefficiente di asimmetria e di curtosi di X 3 4 X −µ X −µ 3 4 = = = Asym( X ) = E E Z ; Kurt X E E Z ( ) ( ) ( ) σ σ ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 18 La Covarianza • Date due vc discrete X e Y con valori medi E(X)= µx e E(Y)= µy , si definisce covarianza il valore medio del prodotto degli scarti: ( ) Cov ( X , Y ) = E ( X − µx ) ( Y − µ y ) = ∑∑( xi − µx ) ( y j − µ y ) pij k h i =1 j =1 • Da cui Cov(X,Y)=E(XY)-E(X)E(Y) • La covarianza misura la variazione congiunta tra le vc considerate ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 19 La Covarianza • Per qualsiasi costante a, b, c, d la covarianza gode delle seguenti proprietà i) ii) iii) iv) Cov(X,Y)=Cov(Y,X) Cov(X,X)=Var(X) Cov(a +b X, Y)=Cov(X, a +bY)=b Cov(X, Y) Cov(a +b X, c +dY)= bd Cov(X,Y) ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 20 La Correlazione • Si prenda la covarianza tra le variabili standard., si ottiene il coefficiente di correlazione lineare di Bravais e Pearson X − µx Y − µ y σxy Cov ( X,Y ) Corr ( X,Y ) = E = = σ σ y Var ( X)Var ( X ) σxσ y x • Tenuto della relazione tra covarianza, varianza e valori medi, si può calcolare anche come E( XY ) − E( X ) E( Y ) Corr ( X,Y ) = E( X2 ) −[ E( X )]2 E( Y 2 ) −[ E( Y )]2 ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 21 La variabile casuale Normale • Una vc continua si dice Normale (o Gaussiana) con parametri µ e σ 2 e si indica con N~(µ, σ 2) se è definita su tutto l’asse reale con funz. di densità f (x ) = 1 2̟σ 2̟σ • i) ii) iii) 2 e 1 ( x − µ )2 − 2 2 σ La Normale è importante per tre motivi: diversi fenomeni continui seguono una normale, può approssimare varie distr. discrete; è alla base dell’inferenza statistica ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 22 La variabile casuale Normale (II) • I momenti caratteristici della Normale sono E(X)= µ ; Var(X)= σ 2; Asym(X)=0; Kurt(X)=3 • Le principali caratteristiche sono: i) La funzione f(x) è definita su tutto l’asse reale ii) È simmetrica rispetto alla media (retta x = µ) iii) Moda e mediana coincidono con il valor medio iv) Ha forma a campana v) È completamente individuata da µ e σ ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 23 La Normale standardizzata 1 • La Normale standardizzata − z 1 2 φ( z ) = e ha la funzione di densità: 2̟ • Ha media zero e varianza unitaria • Si dispone di appropriate tavole statistiche che forniscono valori delle aree sotto la curva (probabilità) • La combinazione lineare di vc Normali e indipendenti è ancora una vc normale 2 ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 24 La Chi-quadrato • La somma di g vc Normali standardizzate e indipendenti al quadrato è una vc continua sul supporto (0, +∞) detta Chi-quadrato X~χ 2(g) • È caratterizzata dal parametro g, detto gradi di libertà della vc Chi-quadrato • La funzione di densità è asimmetrica positiva • I momenti caratteristici sono E(X)=g ; Var(X)=2g; Asym(X)= 8/ g ; Kurt(X)=3+12/g ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 25 La Chi-quadrato ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 26 La F di Fisher • È il rapporto tra due vc Chi-quadrato indipendenti tra loro e divise per i rispettivi gradi di libertà • Se X1~χ 2(g1) e X2~χ 2(g2) sono due Chi-quadrato indipendenti si definisce vc F di Fisher, indicata da X~F(g1, g2), la vc X 1 / g1 X= X2 / g2 • Ha una funzione di densità asimmetrica positiva ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 27 La t di Student • Se Z~N(0, 1) e indipendente da Y~χ 2(g), allora si definisce t di Student (Y~ t(g)) la vc X =Z/ Y g • Il quadrato di una t è una F con g1=1 e g2=2 • Ha fd simmetrica, con media 0 e tende a una N • Per valori di g piccoli è leptocurtica, il che la rende adatta a fenomeni che assumono con più frequenza valori estremi ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 28 La t di Student ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 29 Convergenza • La successione di vc Xn (per n =1,2,…) converge alla vc Y per n che tende a +∞ se: • Convergenza in distribuzione: la funzione di ripartizione di Xn tende per n → +∞ ad approssimare la funzione di ripartizione di Y • Convergenza in media quadratica: il valore medio E(Xn - Y)2 → 0 per n → +∞ ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 30 Legge dei grandi numeri • Constatazioni sperimentali: a) Ripetendo nelle medesime condizioni un esperimento casuale, al crescere del numero delle prove la frequenza relativa di un evento tende a stabilizzarsi b) La media rilevata su un campione di osservazioni si stabilizza al crescere della dimensione campionaria convergendo verso la media della popolazione ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 31 Legge dei grandi numeri “La frequenza relativa di un evento converge alla sua probabilità ” ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 32 Teorema del Limite Centrale • Il Teorema del Limite Centrale è stato definito “centrale” da Polya (1920) perché vc di forma qualunque tendono a convergere verso una distribuzione centrata sulla media, la Normale • Il TLC asserisce che la somma di una successione di vc iid e con varianza finita converge in distribuzione al vc Normale ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 33 Teorema del Limite Centrale • Nella formulazione di Lindeberg e Lévy “Se Xn è una successione di vc iid co valore medio µ e varianza 0 < σ 2 < +∞ allora la vc somma standardizzata Zn tende ad avere la stessa distribuzione della vc Normale standardizzata Z ~(0, 1) ” 1n Xi − µ ∑ Sn − nµ n i =1 d Zn = = →Z ∼ N(0,1) σ n σ/ n ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 34 Variabili casuali doppie • Distribuzioni congiunte: La distribuzione di probabilità congiunta di due variabili casuali discrete, X e Y, rappresenta la probabilità che tali vc assumano simultaneamente valori x e y • La somma delle probabilità di tutte le possibili combinazioni (x, y) è pari a uno • La distribuzione di probabilità congiunta è espressa dalla funzione Pr(X=x, Y=y) ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 35 Variabili casuali doppie • Distribuzione di probabilità marginale: è la distribuzione di probabilità della singola variabile casuale Y, da distinguersi rispetto alla distribuzione congiunta di Y rispetto a X • La distribuzione marginale di Y può essere calcolata a partire da quella congiunta di Y e X sommando le probabilità di tutti i possibili risultati per i quali Y assume un valore specifico l Pr(Y = y ) = ∑ Pr( X = xi ,Y = y ) i =1 ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 36 Variabili casuali doppie • Distribuzione condizionata di Y data X: è la distribuzione di una vc Y condizionatamente al fatto che un’altra vc X assuma uno specifico valore • La probabilità condizionata di Y data X=x è Pr( X = x , Y = y ) Pr(Y = y X = x) = Pr( X = x ) • Aspettativa condizionata di Y data X: è detta anche media condizionata di Y data X ed è la media della distribuzione condizionata di Y data X k E(Y X = x) = ∑ yi Pr(Y = yi , X = x) i =1 ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 37 Variabili casuali doppie • Legge delle aspettative iterate: E E (Y X ) = E ( Y ) ovvero la media di Y è la media ponderata delle aspettative di Y data X, con pesi dati dalla distribuzione di probabilità di X. Se X assume l valori x1, …, xl l E(Y ) = ∑ E (Y X = xi ) Pr( X = xi ) i =1 • Varianza condizionata di Y data X: è la varianza della distribuzione condizionata di Y data X k var(Y X = x ) = ∑ yi − E (Y X = x ) Pr(Y = yi X = x ) ©2009 Stefano Di Colli i =1 2 Metodi Statistici per il Credito e la Finanza 38 Variabili casuali doppie • Indipendenza: due vc X e Y sono indipendentemente distribuite se conoscere il valore di una di esse non fornisce alcuna informazione circa l’altra • X e Y si dicono indipendenti se la distribuzione di Y data X è uguale alla distribuzione marginale di Y Pr(Y = y X = x ) = Pr (Y = y ) • da cui si può affermare che la distribuzione congiunta di di due variabili casuali indipendenti è il prodotto delle loro distribuzioni marginali Pr( X = x,Y = y) = Pr( X = x) Pr(Y = y) ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 39 Variabili casuali doppie • La distribuzione normale multivariata: la distribuzione normale può essere generalizzata per descrivere la distribuzione congiunta di un gruppo di vc • Se si considerano soltanto due vc si dice normale bivariata • 1) Se X e Y hanno una distribuzione normale bivariata con cov σXY e a e b sono due costanti, allora aX+bY ha una distribuzione normale aX + bY ∼ ( aµX + bµY , a2σ X2 + b2σY2 + 2abσ XY ) ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 40 Variabili casuali doppie • 2) Se un gruppo di vc ha una distribuzione normale multivariata, la distribuzione marginale di ciascuna delle variabili è normale (segue dalla 1) ponendo a =1 e b =0) • 3) Se vc con distribuzione normale mulivariata hanno covarianza nulla, tali variabili sono indipendenti ©2009 Stefano Di Colli Metodi Statistici per il Credito e la Finanza 41