3/16/2015 Cross validazione Cross validazione Strumenti quantitativi per la gestione Emanuele Taufer Metodi di ricampionamento Cross validazione Validation set approach Esempio: Auto data set Svantaggi del Validation set approach LOOCV Schema LOOCV Vantaggi LOOCV k­fold CV Schema k­fold CV LOOCV e k­fold CV Simulazioni Riferimenti bibliografici Metodi di ricampionamento I metodi di ricampionamento includono una serie di tecniche statistiche computazionali che attraverso la ripetizione di a. campionamento b. adattamento di un modello su uno stesso training set, permettono di ottenere ulteriori informazioni sul modello adattato La cross validazione può essere utilizzata per stimare il test MSE, o in generale qualsiasi misura di precisione, di una tecnica di statistical learning al fine di valutarne la performance (valutazione del modello) o selezionarne il livello di flessibilità (selezione del modello). Cross validazione Vediamo tre tecniche di base che possono essere applicate sia a problemi di regressione che di classificazione: 1. uso del set di validazione (Validation set approach) 2. Leave­one­out cross validation (LOOCV) 3. k­fold cross validation file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html 1/6 3/16/2015 Cross validazione Validation set approach Consiste nel dividere in modo casuale il set di dati disponibile in due parti: 1. un training set 2. un set di validazione (o hold­out set) Un modello di statistical learning è adattato sui training data e successivamente utilizzato per la previsione con i dati del set di validazine La misura del test error risultante (tipicamente l’MSE in caso di regressione) fornisce una stima del reale test error. Infatti il set di validazione è frutto di una procedura di campionamento e pertanto differenti campionamenti risultano in differenti stime del test error Esempio: Auto data set Sinistra: un campione Destra: più campioni Svantaggi del Validation set approach 1. Il metodo tende ad avere elevata variabilità ossia i risultati possono cambiare sostanzialmente al variare del test set selezionato 2. Solo una parte delle unità disponibili è utilizzata per stimare f . Questo può portare a minor precisione nella stima di f e sovra­stima del test error Le due tecniche di cross validazione che vediamo di seguito, cercano di ovviare a questi problemi file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html 2/6 3/16/2015 Cross validazione LOOCV Anche la LOOCV divide il set di osservazioni in due parti. Tuttavia, invece di creare due sottoinsiemi di dimensioni paragonabili, si procede come segue: 1. una singola osservazione (x1 , y1 ) è utilizzata per la validazione e le restanti osservazioni {(x 2 , y2 ), … , (x n , yn )} compongono il training set. 2. f è stimata sulla base delle n − 1 osservazioni del training set ^ utilizzando x 1 . Poiché (x 1 , y1 ) non è stato utilizzato nella stima dif , 3. si effettua la previsione y 1 ^ ) M S E1 = (y1 − y 1 2 fornisce una stima del test error . Ma anche se M S E1 è imparziale per il test error, è una stima scadente perché è molto variabile, in quanto si basa su una singola osservazione (x1 , y1 ) . 4. La procedura è ripetuta selezionando (x2 , y2 ) per la validazione , una nuova stima di f è fatta sulla base delle n − 1 osservazioni {(x1 , y1 ), (x3 , y3 ), . . . , (xn , yn )} , e calcolando 2 ^ ) . M S E2 = (y2 − y 2 5. La ripetizione di questo approccio n volte produce n M S E , M S E1 , … , M S En . 6. La stima LOOCV per il test MSE è la media degli n M S E disponibili: 1 C V(n) = n n ∑ M S Ei i=1 Schema LOOCV file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html 3/6 3/16/2015 Cross validazione Vantaggi LOOCV La LOOCV ha alcuni vantaggi rispetto al validation set approach: 1. utilizzando n − 1 unità per la stima di f ha meno bias e di conseguenza, l’approccio LOOCV non tende a sovrastimare il test error 2. poichè non vi è casualità nella scelta del test set non vi è variabilità nei risultati per lo stesso data set iniziale. La LOOCV può essere intensiva dal punto di vista computazionale. Nel caso della regressione lineare tuttavia esistono forumule computazionali dirette a bassa intensità computazionale k­fold CV In questo approccio si divide casualmente l’insieme delle n osservazioni in k gruppi, o folders, all’incirca di uguale dimensione. Il primo folder viene considerato come un validation set e f è stimata sui restanti k − 1 folder. L’errore quadratico medio, M S E1 , è poi calcolato sulle osservazioni del folder tenuto fuori Questa procedura è ripetuta k volte; ogni volta scegliendo un folder differente per la validazione ottenendo k stime del test error, M S E1 , M S E2 , … M S Ek La stima k­fold CV viene calcolata facendo la media questi valori, 1 C V(k) = k k ∑ M S Ei i=1 Il metodo ha il vantaggio di essere meno intensivo dal punto di vista computazionale se k << n . Inoltre la k­fold CV tende ad avere minore variabilità (su differenti data set di dimsensione n ) rispetto al LOOCV Schema k­fold CV file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html 4/6 3/16/2015 Cross validazione LOOCV e k­fold CV Sinistra: LOOCV Destra: 10­fold CV Simulazioni file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html 5/6 3/16/2015 Cross validazione Blu: vero test error Nero (tratteggiato): test error LOOCV Arancio: test error 10­fold CV Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html 6/6