DIEGO ZAPPA - SILVIA FACCHINETTI
APPUNTI DI STATISTICA II
Note a uso degli studenti
DIEGO ZAPPA - SILVIA FACCHINETTI
APPUNTI DI STATISTICA II
Note a uso degli studenti
Milano 2013
© 2013
EDUCatt - Ente per il Diritto allo Studio Universitario dell’Università Cattolica
Largo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215
e-mail: [email protected] (produzione); [email protected] (distribuzione)
web: www.educatt.it/libri
Associato all’AIE – Associazione Italiana Editori
ISBN edizione cartacea: 978-88-6780-049-0
ISBN edizione elettronica: 978-88-6780-050-6
L’edizione cartacea di questo volume è stata stampata nel mese di novembre 2013
presso la Litografia Solari (Peschiera Borromeo - Milano)
Premessa
Questo volumetto di Appunti è stato pensato per gli studenti del corso
di Statistica II della facoltà di Scienze Bancarie Finanziarie e
Assicurative. Comprende alcuni argomenti complementari a quanto
contenuto nel testo di riferimento.
La selezione degli argomenti da approfondire è stata effettuata in base
alle esigenze formative presenti negli attuali corsi erogati nell’indirizzo
Metodi Quantitativi per la Finanza e le Assicurazioni della facoltà di
Scienze Bancarie Finanziarie e Assicurative dell’Università Cattolica del
Scaro Cuore di Milano.
Approfondimenti su argomenti rilevanti come statistiche sufficienti e
loro ruolo per l’ottimalità degli stimatori, famiglia esponenziale, test di
potenza, modelli lineari generalizzati e altro vengono rinviati a corsi
successivi.
Il volume include due appendici: una a cura di Silvia Facchinetti sul
tema della selezione di un modello, l’altra a cura di Andrea Lattuada su
un’introduzione sulla simulazione di v.c. multidimensionali basata
sull’uso delle copule.
Per una proficua lettura si assume la conoscenza di almeno le basi di
statistica descrittiva e di calcolo delle probabilità. Gli argomenti
presentati non hanno pretese di esaustività. La lettura dei testi
complementari è fortemente suggerita. Per le applicazioni si è fatto uso
dei sw R ed Excel.
Si ringraziano i proff. Giuseppe Boari e Benito Vittorio Frosini per gli
utili suggerimenti sui contenuti della dispensa.
Un particolare ringraziamento va inoltre agli studenti del III anno LTSBFA dell’indirizzo Metodi Quantitativi per la Finanza e le
Assicurazioni, frequentanti il corso di Statistica II nell’a.a. 2011/12, che
hanno contribuito a filtrare gli errori e sono stati di stimolo per rendere
più chiari i contenuti.
L’indicazione di eventuali errori e/o omissioni sarà sempre ben accetta.
3
Sommario
1.
Introduzione ................................................................................. 7
2.
Richiami di elementi di probabilità ............................................. 10
3.
Variabili casuali (v.c.) ................................................................. 15
4.
Funzioni di variabili casuali ........................................................ 21
5.
I momenti di una v.c.: valore atteso di una v.c. ........................... 28
6.
Variabili casuali multidimensionali ............................................. 34
7.
Le statistiche d’ordine ................................................................. 61
8.
Diseguaglianze notevoli .............................................................. 67
9.
Successioni di v.c. ....................................................................... 69
10. Introduzione all’inferenza ........................................................... 84
a. Cenni su stima puntuale....................................................... 84
b. Un’applicazione di tecniche di simulazione per studio
degli stimatori: il metodo Bootstrap ..................................... 93
c. Metodi per la ricerca di stimatori ......................................... 99
d. Stima per intervalli ............................................................. 123
e. Intervalli di massima verosimiglianza .................................. 146
f. Test di significatività (Ronald Fisher) ................................. 149
g. Test del rapporto di verosimiglianza .................................. 158
11. Appendici ................................................................................. 164
a. Statistiche sufficienti (cenni) ............................................... 164
b. Selezione del modello statistico
(a cura di Silvia Facchinetti) ............................................... 170
c. Simulazione di v.c. multivariate: un’introduzione
(a cura di Andrea Lattuada) ............................................... 188
Riferimenti bibliografici .................................................................. 205
5
1. Introduzione1
Per comprendere alcuni degli obiettivi di questo modulo del corso di
Statistica II, si riporta un estratto degli appunti distribuiti agli studenti
del corso di Statistica I a.a. 2011-2012 facoltà SBFA, in cui si
descrive:
Un problema tipico dello sperimentatore: come assegnare una misura
(un valore) ad un qualche indicatore sintetico, tipicamente una media
ma in generale un parametro  della popolazione, , (es. la frazione di
potenziali acquirenti, la media dei depositi, la volatilità di un derivato
finanziario, il rischio di sinistro, ...) sapendo che non si possiedono i
dati della intera popolazione?
Soluzione: si effettua un’estrazione, tramite campionamento casuale,
di un sottoinsieme di n unità da , ovvero di un campione
 ,  , … ,  , su cui misurare le grandezze x , x , … , x con cui
fare una sintesi tramite una statistica ∙ . Il risultato numerico,
̂
x , x , … , x , assegnato al parametro , prende il nome di stima
di .
Nella pratica il problema sopra descritto è in genere preceduto da due
altrettanto tipiche domande:
a) “come effettuare il campionamento in modo che il campione
sia rappresentativo della popolazione?”
b) “quanto costa fare il campionamento ovvero quanto deve
essere minimamente grande n affinché ̂ sia una buona stima di
?“
Una volte effettuato il campionamento segue in genere la domanda:
c) “quale statistica ∙ devo scegliere per avere una buona stima
di ? La stima ̂ che ho ottenuto può essere ritenuta “uguale”
ad un valore 0 di mio specifico interesse? “
1
Questa sezione, fino alle Appendici, è a cura di Diego Zappa con la preziosa e
attenta revisione da parte di Silvia Facchinetti.
7
Dalle espressioni:
“...assegnare una misura (un valore) ad un qualche indicatore
sintetico [...]
...estrazione casuale di un sottoinsieme da , con cui fare delle
opportune sintesi tramite una statistica t()”
si deduce che:
a) il vettore x={x1, x2, ..., xn} (il campione) contiene osservazioni
provenienti da n v.c. {X1, X2, , Xn}: spesso quest’ultime si
ipotizzano essere v.c. aventi tutte la stessa distribuzione e
indipendenti tra loro in senso stocastico. In tal caso
definiscono un insieme di v.c. i.i.d. (indipendenti ed
identicamente distribuite);
b) in generale la variabile X (da cui provengono le Xi) ha
distribuzione (), che può dipendere dal vettore di parametri
={1, 2, ..., k}. Nota la famiglia delle distribuzioni (), la
distribuzione da cui provengono i dati sarà identificabile
assegnando un vettore, es. ^t, al vero ma ignoto vettore di
parametri ;
c) limitandoci al caso uniparametrico, se valgono a) e b) significa
che ̂ è intesa come realizzazione della v.c. campionaria
T  T(X1, X2, ..., Xn) che, nel caso venga usato per ottenere una
stima di , prende il nome di stimatore.
Un esempio di v.c. campionaria
Si consideri la variabile X  {1 , 0 , 1} i cui eventi possono
manifestarsi con probabilità pari rispettivamente a {¼, ½ , ¼}. Si
estragga con reimmissione un campione di due unità da X, ovvero si
costruisca la v.c. {X1, X2}, dove X1 e X2 sono v.c. i.i.d. a X.
Le possibili determinazioni del campione casuale {X1, X2} con
l’associata probabilità sono:
8
{X1,X2}
1,1
1,0
Pr{X1X2}
1/41/4
1,1
0,1
0,0
0,1
1,1
1,0
1,1
1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4
Ipotizzando che ad ogni campione vengano applicate le statistiche
media e varianza campionaria, si potrà completare la tabella
aggiungendo ulteriori righe del tipo:
{X1,X2}
Pr{X1X2}
S2
1,1
1,0
1,1
0,1
0,0
0,1
1,1
1,0
1,1
¼1/4
1/41/2
1/41/4
1/21/4
1/21/2
1/21/4
1/41/4
1/41/2
1/41/4
1
0
0,5

0
2
0,5

0
0
0,5
0.5
0
2
0,5
0.5
1
0
Lo studio delle v.c. e
consentirà di stabilire se si tratta di buoni
stimatori per i parametri ,  di X.
In generale è rilevante studiare la v.c. T(X) al fine di individuare i
criteri per la sua scelta e/o di sue trasformazioni che consentiranno di
ottenere il miglior stimatore per  in modo da perdere la minor
quantità di informazioni. Analogamente si potrà essere interessati allo
studio di come scegliere la distribuzione .
R-lab
set.seed(123)
X <- c(-1,0,0,1)
boot <- function(Y) sample(Y, size=2, replace=T)
sampleX <- NULL
for(i in 1:10000){
sampleX <- rbind(sampleX,boot(X))
}
table(apply(sampleX, MARGIN=1, mean))/10000
-1
-0.5
0
0.5
1
0.0634 0.2487 0.3824 0.2461 0.0594
table(apply(sampleX, MARGIN=1, var))/10000
0
0.5
2
0.3768 0.4948 0.1284
9
2. Richiami di elementi di probabilità
(vedi Zanella 2007)
Si definiscano:
•  - Spazio degli eventi elementari. Contiene tutti i possibili
risultati (x) relativi alla manifestazione di un fenomeno aleatorio (X).
Condensa tutta la struttura sperimentale relativa al fenomeno stesso.
 può essere un intervallo (o un sottoinsieme dello spazio kdimensionale
) o l’insieme delle modalità di un carattere
qualitativo.
X non può manifestarsi con un risultato che sia al di fuori di .
•
- Classe di sottoinsiemi di . È tipicamente un’algebra (se  è
di cardinalità finita) o una -algebra (se  è di cardinalità al più
numerabile o continua).
è una -algebra se:
i)
ii)

B  B 
iii)
Presa una successione B1, B2,…   Bi 
i=1
Se i possibili eventi sono in numero M finito, il numero di
sottoinsiemi di ampiezza n=1, 2, , M che possono essere formati
con gli elementi dell’insieme di ampiezza M sono 2M. Infatti il
M
M  , ma ricordando che per il binomio di Newton
numero è

n=0 n 
M
(a+b)M = M  n  an bMn , Posto b=a=1 si ottiene 2M.
n=0


• B 
è un evento. È un sottoinsieme di  nei cui confronti
l’osservatore è interessato.  = l’evento B può essere un intervallo.
In tale caso
non può essere costituito da singoli valori ma la algebra relativa allo spazio euclideo sarà generata dalla classe degli
intervalli del tipo I = {x : a1 < x  a2, a1, a2 , a1<a2}.
Quest’ultima classe di eventi si “rapporta” ad  tramite una -algebra
detta di Borel e la si ottiene con operazioni elementari a partire da I.
10
Se
è una -algebra si ha:
1.  Bi = B 
i=1
2.  Bi = B 
i=1
3. B\B* = C 
4.  
5. O
/ 
per B, B* 
Si tratta di una classe chiusa rispetto a queste operazioni.
La coppia {, } è detta spazio misurabile.
• Probabilità P su . P() è una funzione di insieme avente come
dominio
e codominio l’intervallo [0, 1] e tale da soddisfare i
seguenti assiomi: per B 
1. P(B)0
2. P() = 1
3. B1, …, Bn, 
e BjBs= 0/, js: P( Bi )= P(Bi)
i=1
i=1
Si ha, quindi, in particolare, la completa additività anche nei confronti
di una successione numerabile (non solo finita). Questa affermazione
- dell'additività numerabile - può venire garantita formalmente
aggiungendo a quella finita:
4. B1 B2…Bn…: lim Bi = Bi = 0/  lim P(Bi)= 0.
i
i
P(B) esprime il grado di aspettativa del verificarsi di un evento; è una
definizione matematica di probabilità e ci dice quali funzioni di
insieme possono essere chiamate funzioni di probabilità ma non quale
valore assegnare ad un certo evento B.
La terna {, , P} si dice spazio probabilistico.
In questa direzione si innesta lo studio dei modi per attribuire il valore
alla probabilità P (frequentista, classica, soggettivista, ecc.).
• Teoria frequentista - Si basa sull'ammissione di esistenza di
"esperimenti aleatori statisticamente stabili". Si definisce
statisticamente stabile un esperimento E con le seguenti proprietà:
11
a) è ripetibile quante volte si vuole nelle stesse condizioni
b) ai risultati può associarsi una coppia {, }
c) se S è una possibile successione illimitata di replicazioni di E, N il
numero di replicazioni effettivamente eseguito, NB il numero di
risultati xB nelle N replicazioni, B , >0, P(B), N0(,B,S)
tale che se N>N0
NB

 N P(B)<
con N0 aleatorio, poiché dipende dalla successione S in studio. Il
valore della costante P(B) anzidetta viene identificato con il valore
della probabilità.
• Teoria classica – Se un esperimento è caratterizzato da simmetria
fisica (vedi Frosini, 2009) e può dar luogo a N esiti escludentisi a
vicenda ed egualmente possibili e se si è interessati agli esiti  di
numerosità NB allora la probabilità di B è data dal rapporto NB/N.
• Teoria soggettivista – La probabilità di un evento E è la misura del
grado di fiducia che un individuo coerente attribuisce, secondo le sue
informazioni e opinioni, all’avverarsi di E ovvero (cfr. de Finetti) è il
prezzo P che egli stima equo attribuire ad un importo unitario esigibile
al verificarsi di E.
Probabilità condizionata
Con riferimento ad un assegnato spazio probabilistico {, ,P} si
considerino due eventi A, B appartenenti alla -algebra . Si
supponga
B
0. Si definisce probabilità dell'evento A
condizionata al verificarsi dell'evento B:
∩
|
Il condizionamento stabilisce una restrizione sullo spazio degli eventi
elementari, ponendo un limite alla manifestazione di A.
A |B allora P(A|B) è una funzione di probabilità, infatti:
∩
|
|
|
|
12
0
1
|
se
∩

Esempio di impiego della probabilità condizionata.
Regola del prodotto
∩
si ottiene
Da
|
Dato l’insieme
∗
∗
|
∩
|
∩
∩ …∩
∩
|
.
∗
tale che
|
…
∩
0, si ha
∩ …∩
Formula di Bayes
Dato uno spazio {, , P|B} se B1, B2, …, Bn sono a due a due
n
Bi e P(Bi)>0 per i=1, 2, ,n si ha che
incompatibili e tali che =i=1
A per cui P(A)>0
|
|
∑
|
dove il denominatore prende anche il nome di Formula delle
probabilità totali.
--------------------o-o-o-------------------La probabilizzazione di un evento aleatorio: la Funzione di
Ripartizione
Al fine di ottenere una misura di probabilità di un evento aleatorio o di
un insieme di eventi aleatori, si utilizza la funzione di ripartizione
(F.d.R.) : ⟶ 0,1 definita come

 .
Proprietà (caratterizzazione di F) cui deve soddisfare una F.d.R..
Sia :
⟶ 0,1 , affinché F sia una F.d.R. deve soddisfare:
1. Comportamento asintotico
lim
1 lim
⟶ 
⟶ 
2. Monotonicità

⇒

13
0
3. F può presentare dei salti, cioè possono esistere dei punti nei quali
sussiste una discontinuità del primo tipo; è però sempre continua da
destra. Precisamente si può avere

lim
⟶
mentre si ha sempre
lim
⟶
I punti di discontinuità sono al più un'infinità numerabile.
--------------------o-o-o--------------------
14
3. Variabili casuali (v.c.)
Def: Dato lo spazio misurabile {, } si definisce v.c. ogni funzione
-misurabile a valori reali definita su ,  ∶  → , tale che
∈∶

B∈
∀ ∈
Una volta assegnata la probabilità agli insiemi  ∈  ∶ 
e
avendo quindi probabilizzato , X() diventa una v.c. solo se è
misurabile rispetto alla probabilità introdotta su . Da

∈∶
∈∶

B
ne deriva che
 ∈
,

dove F(x) è la F.d.R. della v.c. X.
N.B. ogni v.c. ha una F.d.R. ma ad una F.d.R. possono essere
associate più v.c..
In generale, dato {, ,P}, si chiama v.c. la funzione misurabile
X : {, }{ ,
}
definita da
:
 ∈
∈
Si chiama F.d.R.
≔
∞,
∞,
∈
--------------------o-o-o--------------------
15
V.c. Discrete
Una v.c. si dice discreta se i valori X() costituiscono un insieme
finito o al più numerabile. La F.d.R. è quindi definita da
 ∶




La funzione


è detta funzione di probabilità e assegna massa (di probabilità) p  0
all’evento X=x.
--------------------o-o-o-------------------R-Lab
v.c. Bin(10, 0.3)
0.6
0.4
Fn(x)
0.15
0.2
0.10
0.0
0.00
0.05
dbinom(x, n, 0.3)
0.20
0.8
0.25
1.0
ecdf(qbinom(seq(0, 1, len = 10000), n, 0.3))
0
2
4
6
8
10
0
x
2
4
6
x
n <- 100
x <- 0:n
par(mfrow=c(1,2))
16
8
10
for(p in seq(.1,.9,len=90)){
plot(x,dbinom(x, n, p), type="h")
points(x, dbinom(x,n,p), col="red")
plot(ecdf(qbinom(seq(0,1,len=10000),n,p))) }
v.c. Poisson(10)
0.8
Fn(x)
0.6
0.08
0.4
0.06
0.0
0.00
0.02
0.2
0.04
dpois(x, lambda)
0.10
0.12
1.0
ecdf(qpois(seq(0, 0.9999, len = 100), lambda))
0
5
10
15
20
25
30
0
5
10
x
15
20
25
x
x <- 0:50
par(mfrow=c(1,2))
for(lambda in seq(1,20,len=1000)){
plot(x,dpois(x,lambda),type="h",main=paste("lambda
=",lambda))
points(x, dpois(x,lambda), col="red")
plot(ecdf(qpois(seq(0,0.9999,len=100),lambda))) }
--------------------o-o-o-------------------V.c. Continue
Per le v.c. continue i valori X() non sono numerabili.
Dalla definizione di F.d.R. è noto che
 ,
 ∶ a
 ,
X  
Si introduca la funzione di densità (f.d.d.) f(x) con le seguenti
proprietà:
f(x) : + x
17
tale che

1e


Se F() è assolutamente continua si può scrivere per la monotonicità di
F


È quindi teoricamente possibile misurare la probabilità di qualunque
insieme di
.
Si noti che definita una successione an crescente con anx0 si ha per
n
 lim
→
lim
,
→
0
per la proprietà di continuità da destra della F.
Ne consegue che:
a. X=x0 è un evento non impossibile ma di misura nulla;
b. P(X=x0)=0 ovvero f(x0) non rappresenta una probabilità ma solo la
densità della v.c. X in x0;
c. tutti gli intervalli continui del tipo (a,b], (a,b), [a,b] hanno la stessa
misura di probabilità;
d. essendo
la derivata prima di
, allora f(x)(b-a) = f(x)x,
con x piccolo a piacere e per xx, può interpretarsi, per il teorema
del valor medio del calcolo integrale, come una probabilità (∃ ∈
a, b :
ovvero
che è
una differenza di probabilità).
--------------------o-o-o--------------------
18
R- Lab: v.c. Gaussiana, LogNormale, Gamma, Esponenziale
par(mfrow=c(1,2))
1.0
0.8
0.6
0.4
pnorm(x, mean = 0, sd = 1)
0.0
0.2
0.3
0.2
0.1
0.0
dnorm(x, mean = 0, sd = 1)
0.4
# Normale
curve(dnorm(x,mean=0, sd=1), from=-3, to=3)
curve(pnorm(x,mean=0, sd=1), from=-3, to=3)
-3
-2
-1
0
1
2
3
-3
-2
-1
0
x
1
2
3
x
0.8
0.6
0.4
plnorm(x, mean = 0, sd = 1)
0.0
0.2
0.5
0.4
0.3
0.2
0.0
0.1
dlnorm(x, mean = 0, sd = 1)
0.6
1.0
# logNormale
curve(dlnorm(x,mean=0, sd=1), from=0, to=10)
curve(plnorm(x,mean=0, sd=1), from=0, to=10)
0
2
4
6
8
10
0
x
2
4
6
8
10
x
# chi quadro con n=4 gdl = gamma(n/2,2)
curve(dgamma(x,shape=4/2, scale=2), from=0, to=20)
19