3/16/2015 Cross validazione (1) Cross validazione Strumenti quantitativi per la gestione Emanuele Taufer file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 1/15 3/16/2015 Cross validazione (1) Metodi di ricampionamento I metodi di ricampionamento includono una serie di tecniche statistiche computazionali che attraverso la ripetizione di 1. campionamento 2. adattamento di un modello su uno stesso training set, permettono di ottenere ulteriori informazioni sul modello adattato La cross validazione può essere utilizzata per stimare il test MSE, o in generale qualsiasi misura di precisione, di una tecnica di statistical learning al fine di valutarne la performance (valutazione del modello) o selezionarne il livello di flessibilità (selezione del modello). file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 2/15 3/16/2015 Cross validazione (1) Cross validazione Vediamo tre tecniche di base che possono essere applicate sia a problemi di regressione che di classificazione: 1. uso del set di validazione (Validation set approach) 2. Leave-one-out cross validation (LOOCV) 3. k-fold cross validation file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 3/15 3/16/2015 Cross validazione (1) Validation set approach Consiste nel dividere in modo casuale il set di dati disponibile in due parti: 1. un training set 2. un set di validazione (o hold-out set) Un modello di statistical learning è adattato sui training data e successivamente utilizzato per la previsione con i dati del set di validazine La misura del test error risultante (tipicamente l’MSE in caso di regressione) fornisce una stima del reale test error. Infatti il set di validazione è frutto di una procedura di campionamento e pertanto differenti campionamenti risultano in differenti stime del test error file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 4/15 3/16/2015 Cross validazione (1) Esempio: Auto data set Sinistra: un campione Destra: più campioni file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 5/15 3/16/2015 Cross validazione (1) Svantaggi del Validation set approach 1. Il metodo tende ad avere elevata variabilità ossia i risultati possono cambiare sostanzialmente al variare del test set selezionato 2. Solo una parte delle unità disponibili è utilizzata per stimare f . Questo può portare a minor precisione nella stima di f e sovra-stima del test error Le due tecniche di cross validazione che vediamo di seguito, cercano di ovviare a questi problemi file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 6/15 3/16/2015 Cross validazione (1) LOOCV Anche la LOOCV divide il set di osservazioni in due parti. Tuttavia, invece di creare due sottoinsiemi di dimensioni paragonabili, si procede come segue: 1. una singola osservazione (x , y ) è utilizzata per la validazione e le restanti osservazioni {(x , y ), … , (x , y )} compongono il training set. 1 2 2 n 1 n 2. è stimata sulla base delle n − 1 osservazioni del training set 3. si effettua la previsione y^ utilizzando x . Poiché (x , y ) non è stato utilizzato nella stima dif , f 1 1 1 1 2 M S E 1 = (y 1 − y ^1 ) fornisce una stima del test error . Ma anche se M SE è imparziale per il test error, è una stima scadente perché è molto variabile, in quanto si basa su una singola osservazione (x , y ) . 1 1 1 file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 7/15 3/16/2015 Cross validazione (1) 4. La procedura è ripetuta selezionando (x , y ) per la validazione , una nuova stima di f è fatta sulla base delle n − 1 osservazioni {(x , y ), (x , y ), . . . , (x , y )}, e calcolando M S E = (y − y ^ ) . 2 1 1 3 3 n 2 n 2 2 5. 2 2 La ripetizione di questo approccio n volte produce n M SE , M S E , … , M S E . 1 6. n La stima LOOCV per il test MSE è la media degli n M SE disponibili: 1 C V(n) = file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) n n ∑ M S Ei i=1 8/15 3/16/2015 Cross validazione (1) Schema LOOCV file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 9/15 3/16/2015 Cross validazione (1) Vantaggi LOOCV La LOOCV ha alcuni vantaggi rispetto al validation set approach: 1. utilizzando n − 1 unità per la stima di f ha meno bias e di conseguenza, l’approccio LOOCV non tende a sovrastimare il test error 2. poichè non vi è casualità nella scelta del test set non vi è variabilità nei risultati per lo stesso data set iniziale. La LOOCV può essere intensiva dal punto di vista computazionale. Nel caso della regressione lineare tuttavia esistono forumule computazionali dirette a bassa intensità computazionale file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 10/15 3/16/2015 Cross validazione (1) k-fold CV In questo approccio si divide casualmente l’insieme delle n osservazioni in k gruppi, o folders, all’incirca di uguale dimensione. Il primo folder viene considerato come un validation set e f è stimata sui restanti k − 1 folder. L’errore quadratico medio, M SE , è poi calcolato sulle osservazioni del folder tenuto fuori 1 Questa procedura è ripetuta k volte; ogni volta scegliendo un folder differente per la validazione ottenendo k stime del test error, M S E1 , M S E2 , … M S Ek La stima k-fold CV viene calcolata facendo la media questi valori, 1 C V(k) = k k ∑ M S Ei i=1 Il metodo ha il vantaggio di essere meno intensivo dal punto di vista computazionale se k << n. Inoltre la k-fold CV tende ad avere minore variabilità (su differenti data set di dimsensione n ) rispetto al LOOCV file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 11/15 3/16/2015 Cross validazione (1) Schema k-fold CV file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 12/15 3/16/2015 Cross validazione (1) LOOCV e k-fold CV Sinistra: LOOCV Destra: 10-fold CV file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 13/15 3/16/2015 Cross validazione (1) Simulazioni Blu: vero test error Nero (tratteggiato): test error LOOCV Arancio: test error 10-fold CV file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 14/15 3/16/2015 Cross validazione (1) Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 15/15