DIEGO ZAPPA - SILVIA FACCHINETTI APPUNTI DI STATISTICA II Note a uso degli studenti DIEGO ZAPPA - SILVIA FACCHINETTI APPUNTI DI STATISTICA II Note a uso degli studenti Milano 2013 © 2013 EDUCatt - Ente per il Diritto allo Studio Universitario dell’Università Cattolica Largo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215 e-mail: [email protected] (produzione); [email protected] (distribuzione) web: www.educatt.it/libri Associato all’AIE – Associazione Italiana Editori ISBN edizione cartacea: 978-88-6780-049-0 ISBN edizione elettronica: 978-88-6780-050-6 L’edizione cartacea di questo volume è stata stampata nel mese di novembre 2013 presso la Litografia Solari (Peschiera Borromeo - Milano) Premessa Questo volumetto di Appunti è stato pensato per gli studenti del corso di Statistica II della facoltà di Scienze Bancarie Finanziarie e Assicurative. Comprende alcuni argomenti complementari a quanto contenuto nel testo di riferimento. La selezione degli argomenti da approfondire è stata effettuata in base alle esigenze formative presenti negli attuali corsi erogati nell’indirizzo Metodi Quantitativi per la Finanza e le Assicurazioni della facoltà di Scienze Bancarie Finanziarie e Assicurative dell’Università Cattolica del Scaro Cuore di Milano. Approfondimenti su argomenti rilevanti come statistiche sufficienti e loro ruolo per l’ottimalità degli stimatori, famiglia esponenziale, test di potenza, modelli lineari generalizzati e altro vengono rinviati a corsi successivi. Il volume include due appendici: una a cura di Silvia Facchinetti sul tema della selezione di un modello, l’altra a cura di Andrea Lattuada su un’introduzione sulla simulazione di v.c. multidimensionali basata sull’uso delle copule. Per una proficua lettura si assume la conoscenza di almeno le basi di statistica descrittiva e di calcolo delle probabilità. Gli argomenti presentati non hanno pretese di esaustività. La lettura dei testi complementari è fortemente suggerita. Per le applicazioni si è fatto uso dei sw R ed Excel. Si ringraziano i proff. Giuseppe Boari e Benito Vittorio Frosini per gli utili suggerimenti sui contenuti della dispensa. Un particolare ringraziamento va inoltre agli studenti del III anno LTSBFA dell’indirizzo Metodi Quantitativi per la Finanza e le Assicurazioni, frequentanti il corso di Statistica II nell’a.a. 2011/12, che hanno contribuito a filtrare gli errori e sono stati di stimolo per rendere più chiari i contenuti. L’indicazione di eventuali errori e/o omissioni sarà sempre ben accetta. 3 Sommario 1. Introduzione ................................................................................. 7 2. Richiami di elementi di probabilità ............................................. 10 3. Variabili casuali (v.c.) ................................................................. 15 4. Funzioni di variabili casuali ........................................................ 21 5. I momenti di una v.c.: valore atteso di una v.c. ........................... 28 6. Variabili casuali multidimensionali ............................................. 34 7. Le statistiche d’ordine ................................................................. 61 8. Diseguaglianze notevoli .............................................................. 67 9. Successioni di v.c. ....................................................................... 69 10. Introduzione all’inferenza ........................................................... 84 a. Cenni su stima puntuale....................................................... 84 b. Un’applicazione di tecniche di simulazione per studio degli stimatori: il metodo Bootstrap ..................................... 93 c. Metodi per la ricerca di stimatori ......................................... 99 d. Stima per intervalli ............................................................. 123 e. Intervalli di massima verosimiglianza .................................. 146 f. Test di significatività (Ronald Fisher) ................................. 149 g. Test del rapporto di verosimiglianza .................................. 158 11. Appendici ................................................................................. 164 a. Statistiche sufficienti (cenni) ............................................... 164 b. Selezione del modello statistico (a cura di Silvia Facchinetti) ............................................... 170 c. Simulazione di v.c. multivariate: un’introduzione (a cura di Andrea Lattuada) ............................................... 188 Riferimenti bibliografici .................................................................. 205 5 1. Introduzione1 Per comprendere alcuni degli obiettivi di questo modulo del corso di Statistica II, si riporta un estratto degli appunti distribuiti agli studenti del corso di Statistica I a.a. 2011-2012 facoltà SBFA, in cui si descrive: Un problema tipico dello sperimentatore: come assegnare una misura (un valore) ad un qualche indicatore sintetico, tipicamente una media ma in generale un parametro della popolazione, , (es. la frazione di potenziali acquirenti, la media dei depositi, la volatilità di un derivato finanziario, il rischio di sinistro, ...) sapendo che non si possiedono i dati della intera popolazione? Soluzione: si effettua un’estrazione, tramite campionamento casuale, di un sottoinsieme di n unità da , ovvero di un campione , , … , , su cui misurare le grandezze x , x , … , x con cui fare una sintesi tramite una statistica ∙ . Il risultato numerico, ̂ x , x , … , x , assegnato al parametro , prende il nome di stima di . Nella pratica il problema sopra descritto è in genere preceduto da due altrettanto tipiche domande: a) “come effettuare il campionamento in modo che il campione sia rappresentativo della popolazione?” b) “quanto costa fare il campionamento ovvero quanto deve essere minimamente grande n affinché ̂ sia una buona stima di ?“ Una volte effettuato il campionamento segue in genere la domanda: c) “quale statistica ∙ devo scegliere per avere una buona stima di ? La stima ̂ che ho ottenuto può essere ritenuta “uguale” ad un valore 0 di mio specifico interesse? “ 1 Questa sezione, fino alle Appendici, è a cura di Diego Zappa con la preziosa e attenta revisione da parte di Silvia Facchinetti. 7 Dalle espressioni: “...assegnare una misura (un valore) ad un qualche indicatore sintetico [...] ...estrazione casuale di un sottoinsieme da , con cui fare delle opportune sintesi tramite una statistica t()” si deduce che: a) il vettore x={x1, x2, ..., xn} (il campione) contiene osservazioni provenienti da n v.c. {X1, X2, , Xn}: spesso quest’ultime si ipotizzano essere v.c. aventi tutte la stessa distribuzione e indipendenti tra loro in senso stocastico. In tal caso definiscono un insieme di v.c. i.i.d. (indipendenti ed identicamente distribuite); b) in generale la variabile X (da cui provengono le Xi) ha distribuzione (), che può dipendere dal vettore di parametri ={1, 2, ..., k}. Nota la famiglia delle distribuzioni (), la distribuzione da cui provengono i dati sarà identificabile assegnando un vettore, es. ^t, al vero ma ignoto vettore di parametri ; c) limitandoci al caso uniparametrico, se valgono a) e b) significa che ̂ è intesa come realizzazione della v.c. campionaria T T(X1, X2, ..., Xn) che, nel caso venga usato per ottenere una stima di , prende il nome di stimatore. Un esempio di v.c. campionaria Si consideri la variabile X {1 , 0 , 1} i cui eventi possono manifestarsi con probabilità pari rispettivamente a {¼, ½ , ¼}. Si estragga con reimmissione un campione di due unità da X, ovvero si costruisca la v.c. {X1, X2}, dove X1 e X2 sono v.c. i.i.d. a X. Le possibili determinazioni del campione casuale {X1, X2} con l’associata probabilità sono: 8 {X1,X2} 1,1 1,0 Pr{X1X2} 1/41/4 1,1 0,1 0,0 0,1 1,1 1,0 1,1 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4 Ipotizzando che ad ogni campione vengano applicate le statistiche media e varianza campionaria, si potrà completare la tabella aggiungendo ulteriori righe del tipo: {X1,X2} Pr{X1X2} S2 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1 ¼1/4 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4 1 0 0,5 0 2 0,5 0 0 0,5 0.5 0 2 0,5 0.5 1 0 Lo studio delle v.c. e consentirà di stabilire se si tratta di buoni stimatori per i parametri , di X. In generale è rilevante studiare la v.c. T(X) al fine di individuare i criteri per la sua scelta e/o di sue trasformazioni che consentiranno di ottenere il miglior stimatore per in modo da perdere la minor quantità di informazioni. Analogamente si potrà essere interessati allo studio di come scegliere la distribuzione . R-lab set.seed(123) X <- c(-1,0,0,1) boot <- function(Y) sample(Y, size=2, replace=T) sampleX <- NULL for(i in 1:10000){ sampleX <- rbind(sampleX,boot(X)) } table(apply(sampleX, MARGIN=1, mean))/10000 -1 -0.5 0 0.5 1 0.0634 0.2487 0.3824 0.2461 0.0594 table(apply(sampleX, MARGIN=1, var))/10000 0 0.5 2 0.3768 0.4948 0.1284 9 2. Richiami di elementi di probabilità (vedi Zanella 2007) Si definiscano: • - Spazio degli eventi elementari. Contiene tutti i possibili risultati (x) relativi alla manifestazione di un fenomeno aleatorio (X). Condensa tutta la struttura sperimentale relativa al fenomeno stesso. può essere un intervallo (o un sottoinsieme dello spazio kdimensionale ) o l’insieme delle modalità di un carattere qualitativo. X non può manifestarsi con un risultato che sia al di fuori di . • - Classe di sottoinsiemi di . È tipicamente un’algebra (se è di cardinalità finita) o una -algebra (se è di cardinalità al più numerabile o continua). è una -algebra se: i) ii) B B iii) Presa una successione B1, B2,… Bi i=1 Se i possibili eventi sono in numero M finito, il numero di sottoinsiemi di ampiezza n=1, 2, , M che possono essere formati con gli elementi dell’insieme di ampiezza M sono 2M. Infatti il M M , ma ricordando che per il binomio di Newton numero è n=0 n M (a+b)M = M n an bMn , Posto b=a=1 si ottiene 2M. n=0 • B è un evento. È un sottoinsieme di nei cui confronti l’osservatore è interessato. = l’evento B può essere un intervallo. In tale caso non può essere costituito da singoli valori ma la algebra relativa allo spazio euclideo sarà generata dalla classe degli intervalli del tipo I = {x : a1 < x a2, a1, a2 , a1<a2}. Quest’ultima classe di eventi si “rapporta” ad tramite una -algebra detta di Borel e la si ottiene con operazioni elementari a partire da I. 10 Se è una -algebra si ha: 1. Bi = B i=1 2. Bi = B i=1 3. B\B* = C 4. 5. O / per B, B* Si tratta di una classe chiusa rispetto a queste operazioni. La coppia {, } è detta spazio misurabile. • Probabilità P su . P() è una funzione di insieme avente come dominio e codominio l’intervallo [0, 1] e tale da soddisfare i seguenti assiomi: per B 1. P(B)0 2. P() = 1 3. B1, …, Bn, e BjBs= 0/, js: P( Bi )= P(Bi) i=1 i=1 Si ha, quindi, in particolare, la completa additività anche nei confronti di una successione numerabile (non solo finita). Questa affermazione - dell'additività numerabile - può venire garantita formalmente aggiungendo a quella finita: 4. B1 B2…Bn…: lim Bi = Bi = 0/ lim P(Bi)= 0. i i P(B) esprime il grado di aspettativa del verificarsi di un evento; è una definizione matematica di probabilità e ci dice quali funzioni di insieme possono essere chiamate funzioni di probabilità ma non quale valore assegnare ad un certo evento B. La terna {, , P} si dice spazio probabilistico. In questa direzione si innesta lo studio dei modi per attribuire il valore alla probabilità P (frequentista, classica, soggettivista, ecc.). • Teoria frequentista - Si basa sull'ammissione di esistenza di "esperimenti aleatori statisticamente stabili". Si definisce statisticamente stabile un esperimento E con le seguenti proprietà: 11 a) è ripetibile quante volte si vuole nelle stesse condizioni b) ai risultati può associarsi una coppia {, } c) se S è una possibile successione illimitata di replicazioni di E, N il numero di replicazioni effettivamente eseguito, NB il numero di risultati xB nelle N replicazioni, B , >0, P(B), N0(,B,S) tale che se N>N0 NB N P(B)< con N0 aleatorio, poiché dipende dalla successione S in studio. Il valore della costante P(B) anzidetta viene identificato con il valore della probabilità. • Teoria classica – Se un esperimento è caratterizzato da simmetria fisica (vedi Frosini, 2009) e può dar luogo a N esiti escludentisi a vicenda ed egualmente possibili e se si è interessati agli esiti di numerosità NB allora la probabilità di B è data dal rapporto NB/N. • Teoria soggettivista – La probabilità di un evento E è la misura del grado di fiducia che un individuo coerente attribuisce, secondo le sue informazioni e opinioni, all’avverarsi di E ovvero (cfr. de Finetti) è il prezzo P che egli stima equo attribuire ad un importo unitario esigibile al verificarsi di E. Probabilità condizionata Con riferimento ad un assegnato spazio probabilistico {, ,P} si considerino due eventi A, B appartenenti alla -algebra . Si supponga B 0. Si definisce probabilità dell'evento A condizionata al verificarsi dell'evento B: ∩ | Il condizionamento stabilisce una restrizione sullo spazio degli eventi elementari, ponendo un limite alla manifestazione di A. A |B allora P(A|B) è una funzione di probabilità, infatti: ∩ | | | | 12 0 1 | se ∩ Esempio di impiego della probabilità condizionata. Regola del prodotto ∩ si ottiene Da | Dato l’insieme ∗ ∗ | ∩ | ∩ ∩ …∩ ∩ | . ∗ tale che | … ∩ 0, si ha ∩ …∩ Formula di Bayes Dato uno spazio {, , P|B} se B1, B2, …, Bn sono a due a due n Bi e P(Bi)>0 per i=1, 2, ,n si ha che incompatibili e tali che =i=1 A per cui P(A)>0 | | ∑ | dove il denominatore prende anche il nome di Formula delle probabilità totali. --------------------o-o-o-------------------La probabilizzazione di un evento aleatorio: la Funzione di Ripartizione Al fine di ottenere una misura di probabilità di un evento aleatorio o di un insieme di eventi aleatori, si utilizza la funzione di ripartizione (F.d.R.) : ⟶ 0,1 definita come . Proprietà (caratterizzazione di F) cui deve soddisfare una F.d.R.. Sia : ⟶ 0,1 , affinché F sia una F.d.R. deve soddisfare: 1. Comportamento asintotico lim 1 lim ⟶ ⟶ 2. Monotonicità ⇒ 13 0 3. F può presentare dei salti, cioè possono esistere dei punti nei quali sussiste una discontinuità del primo tipo; è però sempre continua da destra. Precisamente si può avere lim ⟶ mentre si ha sempre lim ⟶ I punti di discontinuità sono al più un'infinità numerabile. --------------------o-o-o-------------------- 14 3. Variabili casuali (v.c.) Def: Dato lo spazio misurabile {, } si definisce v.c. ogni funzione -misurabile a valori reali definita su , ∶ → , tale che ∈∶ B∈ ∀ ∈ Una volta assegnata la probabilità agli insiemi ∈ ∶ e avendo quindi probabilizzato , X() diventa una v.c. solo se è misurabile rispetto alla probabilità introdotta su . Da ∈∶ ∈∶ B ne deriva che ∈ , dove F(x) è la F.d.R. della v.c. X. N.B. ogni v.c. ha una F.d.R. ma ad una F.d.R. possono essere associate più v.c.. In generale, dato {, ,P}, si chiama v.c. la funzione misurabile X : {, }{ , } definita da : ∈ ∈ Si chiama F.d.R. ≔ ∞, ∞, ∈ --------------------o-o-o-------------------- 15 V.c. Discrete Una v.c. si dice discreta se i valori X() costituiscono un insieme finito o al più numerabile. La F.d.R. è quindi definita da ∶ La funzione è detta funzione di probabilità e assegna massa (di probabilità) p 0 all’evento X=x. --------------------o-o-o-------------------R-Lab v.c. Bin(10, 0.3) 0.6 0.4 Fn(x) 0.15 0.2 0.10 0.0 0.00 0.05 dbinom(x, n, 0.3) 0.20 0.8 0.25 1.0 ecdf(qbinom(seq(0, 1, len = 10000), n, 0.3)) 0 2 4 6 8 10 0 x 2 4 6 x n <- 100 x <- 0:n par(mfrow=c(1,2)) 16 8 10 for(p in seq(.1,.9,len=90)){ plot(x,dbinom(x, n, p), type="h") points(x, dbinom(x,n,p), col="red") plot(ecdf(qbinom(seq(0,1,len=10000),n,p))) } v.c. Poisson(10) 0.8 Fn(x) 0.6 0.08 0.4 0.06 0.0 0.00 0.02 0.2 0.04 dpois(x, lambda) 0.10 0.12 1.0 ecdf(qpois(seq(0, 0.9999, len = 100), lambda)) 0 5 10 15 20 25 30 0 5 10 x 15 20 25 x x <- 0:50 par(mfrow=c(1,2)) for(lambda in seq(1,20,len=1000)){ plot(x,dpois(x,lambda),type="h",main=paste("lambda =",lambda)) points(x, dpois(x,lambda), col="red") plot(ecdf(qpois(seq(0,0.9999,len=100),lambda))) } --------------------o-o-o-------------------V.c. Continue Per le v.c. continue i valori X() non sono numerabili. Dalla definizione di F.d.R. è noto che , ∶ a , X Si introduca la funzione di densità (f.d.d.) f(x) con le seguenti proprietà: f(x) : + x 17 tale che 1e Se F() è assolutamente continua si può scrivere per la monotonicità di F È quindi teoricamente possibile misurare la probabilità di qualunque insieme di . Si noti che definita una successione an crescente con anx0 si ha per n lim → lim , → 0 per la proprietà di continuità da destra della F. Ne consegue che: a. X=x0 è un evento non impossibile ma di misura nulla; b. P(X=x0)=0 ovvero f(x0) non rappresenta una probabilità ma solo la densità della v.c. X in x0; c. tutti gli intervalli continui del tipo (a,b], (a,b), [a,b] hanno la stessa misura di probabilità; d. essendo la derivata prima di , allora f(x)(b-a) = f(x)x, con x piccolo a piacere e per xx, può interpretarsi, per il teorema del valor medio del calcolo integrale, come una probabilità (∃ ∈ a, b : ovvero che è una differenza di probabilità). --------------------o-o-o-------------------- 18 R- Lab: v.c. Gaussiana, LogNormale, Gamma, Esponenziale par(mfrow=c(1,2)) 1.0 0.8 0.6 0.4 pnorm(x, mean = 0, sd = 1) 0.0 0.2 0.3 0.2 0.1 0.0 dnorm(x, mean = 0, sd = 1) 0.4 # Normale curve(dnorm(x,mean=0, sd=1), from=-3, to=3) curve(pnorm(x,mean=0, sd=1), from=-3, to=3) -3 -2 -1 0 1 2 3 -3 -2 -1 0 x 1 2 3 x 0.8 0.6 0.4 plnorm(x, mean = 0, sd = 1) 0.0 0.2 0.5 0.4 0.3 0.2 0.0 0.1 dlnorm(x, mean = 0, sd = 1) 0.6 1.0 # logNormale curve(dlnorm(x,mean=0, sd=1), from=0, to=10) curve(plnorm(x,mean=0, sd=1), from=0, to=10) 0 2 4 6 8 10 0 x 2 4 6 8 10 x # chi quadro con n=4 gdl = gamma(n/2,2) curve(dgamma(x,shape=4/2, scale=2), from=0, to=20) 19