3/16/2015
Cross validazione
Cross validazione
Strumenti quantitativi per la gestione
Emanuele Taufer
Metodi di ricampionamento
Cross validazione
Validation set approach
Esempio: Auto data set
Svantaggi del Validation set approach
LOOCV
Schema LOOCV
Vantaggi LOOCV
k­fold CV
Schema k­fold CV
LOOCV e k­fold CV
Simulazioni
Riferimenti bibliografici
Metodi di ricampionamento
I metodi di ricampionamento includono una serie di tecniche statistiche computazionali che attraverso la
ripetizione di
a. campionamento
b. adattamento di un modello
su uno stesso training set, permettono di ottenere ulteriori informazioni sul modello adattato
La cross validazione può essere utilizzata per stimare il test MSE, o in generale qualsiasi misura di
precisione, di una tecnica di statistical learning al fine di valutarne la performance (valutazione del
modello) o selezionarne il livello di flessibilità (selezione del modello).
Cross validazione
Vediamo tre tecniche di base che possono essere applicate sia a problemi di regressione che di
classificazione:
1. uso del set di validazione (Validation set approach)
2. Leave­one­out cross validation (LOOCV)
3. k­fold cross validation
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html
1/6
3/16/2015
Cross validazione
Validation set approach
Consiste nel dividere in modo casuale il set di dati disponibile in due parti:
1. un training set
2. un set di validazione (o hold­out set)
Un modello di statistical learning è adattato sui training data e successivamente utilizzato per la
previsione con i dati del set di validazine
La misura del test error risultante (tipicamente l’MSE in caso di regressione) fornisce una stima del reale
test error.
Infatti il set di validazione è frutto di una procedura di campionamento e pertanto differenti
campionamenti risultano in differenti stime del test error
Esempio: Auto data set
Sinistra: un campione
Destra: più campioni
Svantaggi del Validation set approach
1. Il metodo tende ad avere elevata variabilità ossia i risultati possono cambiare sostanzialmente al
variare del test set selezionato
2. Solo una parte delle unità disponibili è utilizzata per stimare f . Questo può portare a minor
precisione nella stima di f e sovra­stima del test error
Le due tecniche di cross validazione che vediamo di seguito, cercano di ovviare a questi problemi
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html
2/6
3/16/2015
Cross validazione
LOOCV
Anche la LOOCV divide il set di osservazioni in due parti. Tuttavia, invece di creare due sottoinsiemi di
dimensioni paragonabili, si procede come segue:
1. una singola osservazione (x1 , y1 ) è utilizzata per la validazione e le restanti osservazioni {(x 2 , y2 ), … , (x n , yn )} compongono il training set.
2. f è stimata sulla base delle n − 1 osservazioni del training set
^ utilizzando x 1 . Poiché (x 1 , y1 ) non è stato utilizzato nella stima dif ,
3. si effettua la previsione y
1
^ )
M S E1 = (y1 − y
1
2
fornisce una stima del test error . Ma anche se M S E1 è imparziale per il test error, è una stima
scadente perché è molto variabile, in quanto si basa su una singola osservazione (x1 , y1 ) .
4. La procedura è ripetuta selezionando (x2 , y2 ) per la validazione , una nuova stima di f è fatta
sulla base delle n − 1 osservazioni {(x1 , y1 ), (x3 , y3 ), . . . , (xn , yn )} , e calcolando 2
^ ) .
M S E2 = (y2 − y
2
5. La ripetizione di questo approccio n volte produce n M S E , M S E1 , … , M S En .
6. La stima LOOCV per il test MSE è la media degli n M S E disponibili:
1
C V(n) =
n
n
∑ M S Ei
i=1
Schema LOOCV
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html
3/6
3/16/2015
Cross validazione
Vantaggi LOOCV
La LOOCV ha alcuni vantaggi rispetto al validation set approach:
1. utilizzando n − 1 unità per la stima di f ha meno bias e di conseguenza, l’approccio LOOCV non
tende a sovrastimare il test error
2. poichè non vi è casualità nella scelta del test set non vi è variabilità nei risultati per lo stesso data
set iniziale.
La LOOCV può essere intensiva dal punto di vista computazionale.
Nel caso della regressione lineare tuttavia esistono forumule computazionali dirette a bassa intensità
computazionale
k­fold CV
In questo approccio si divide casualmente l’insieme delle n osservazioni in k gruppi, o folders, all’incirca
di uguale dimensione.
Il primo folder viene considerato come un validation set e f è stimata sui restanti k − 1 folder. L’errore
quadratico medio, M S E1 , è poi calcolato sulle osservazioni del folder tenuto fuori
Questa procedura è ripetuta k volte; ogni volta scegliendo un folder differente per la validazione
ottenendo k stime del test error, M S E1 , M S E2 , … M S Ek
La stima k­fold CV viene calcolata facendo la media questi valori,
1
C V(k) =
k
k
∑ M S Ei
i=1
Il metodo ha il vantaggio di essere meno intensivo dal punto di vista computazionale se k
<< n
.
Inoltre la k­fold CV tende ad avere minore variabilità (su differenti data set di dimsensione n ) rispetto al
LOOCV
Schema k­fold CV
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html
4/6
3/16/2015
Cross validazione
LOOCV e k­fold CV
Sinistra: LOOCV
Destra: 10­fold CV
Simulazioni
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html
5/6
3/16/2015
Cross validazione
Blu: vero test error
Nero (tratteggiato): test error LOOCV
Arancio: test error 10­fold CV
Riferimenti bibliografici
An Introduction to Statistical Learning, with applications in R. (Springer, 2013)
Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James,
D. Witten, T. Hastie e R. Tibshirani
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html
6/6