Campioni Casuali Marco Brandi, Alberto Di Iorio, Tullia Padellini, Giorgia Rocco and Marco Stefanucci June 8, 2016 Negli ultimi anni, dato il rapido sviluppo delle tecnologie informatiche, si é assistito ad un incremento delle transazioni finanziarie, soprattutto virtuali. Per l’Italia, ad esempio, i dati della Bce ci informano che nel 2013 i pagamenti elettronici pro capite nel nostro paese sono stati 75, 9 in piú rispetto al 2009. La velocit e la diffusione di questo fenomeno ha spinto intermediari finanziari e specialisti del settore a cercare soluzioni al problema delle frodi. Dagli inizi degli anni Novanta si quindi assistito ad un interesse da parte della comunit scientifica, volto a sviluppare metodologie per il “fraud - detecting”. Tra i modelli maggiormente supportati dalla letteratura, troviamo alberi decisionali [?], SVM, [?], reti neurali, e perfino approcci bayesiani. Il dataset oggetto di questa competizione si inquadra perfettamente in questo contesto. Non possiamo dilungarci sulla natura delle variabili che compongono il dataset, in quanto la loro composizione non nota. Abbiamo comunque potuto osservare che molti degli indicatori fornitici presentano strutture di correlazione piuttosto marcate (ad esempio, la correlazione tra Anomalia3, Anomalia4 e Anomalia5 si attesta intorno a 0.9). Tra questi indicatori l’unico a presentare dati mancanti Anomalia9; la quantit di dati mancanti (quasi 23.000 su poco pi di 90.000 osservazioni) ha reso impossibile l’imputazione automatica dei missing values. Sebbene i dati sembrassero suggerire che la presenza degli NA in quell’unica variabile fosse in realt informativa (infatti su 114 transazioni fraudolente a circa 100 corrispondeva un missing value in Anomalia9), abbiamo 1 deciso, vista la composizione ignota e il poco tempo a disposizione, di escluderla dall’analisi. In condizioni di maggiore calma sicuramente sarebbe valsa la pena approfondire l’impatto di tale variabile sulla previsione. Il principale elemento di difficoltá riscontrato in fase di analisi stato la frequenza estremamente bassa delle frodi. Abbiamo dunque deciso di non focalizzarci tanto sulla scelta di un classificatore, anche alla luce dell’ampia letteratura sovra citata, quanto piuttosto su tale problema di non bilanciamento del campione a disposizione. Per quanto riguarda il bilanciamento abbiamo usato un pacchetto in R che implementa l’algoritmo SMOTE, un ben noto metodo per contrastare la presenza di eventi rari in problemi di classificazione [?]. L’idea alla base dell’algoritmo quella di generare nuove osservazioni appartenenti alla classe rara utilizzando un sistema di vicinato. SMOTE aggiunge cos osservazioni “artificiali” alla classe rara e, al contempo, sottocampiona la classe maggioritaria. Nello specifico, abbiamo bilanciato il campione portando la percentuale delle frodi da poco piú di 1/1000 a circa il 2%. Per ragioni computazionali abbiamo scelto di sottomettere una predizione ottenuta con alberi di classificazione, in particolare abbiamo utilizzato l’algoritmo C5. Abbiamo comunque implementato altri modelli pi computationally intensive, quali random forest e neural network e abbiamo potuto constatare che le loro performance sono peggiori. Vogliamo sottolineare che per la valutazione del modello ci siamo avvalsi di una cross validation “ridotta” (tenendo conto dei tempi computazionali), sul training set utilizzando il criterio F 1 indicato dalla consegna. Questo procedimento stato introdotto per evitare l’overfitting che sarebbe potuto derivare dal considerare esclusivamente gli scores della leaderboard. Piú nello specifico, tale cross validation é stata utilizzata esclusivamente per la scelta del modello, mentre i parametri di tuning sono stati decisi in modo automatico dagli algoritmi utilizzati. 2