report - Aula Informatica Multimediale di Economia UniSA

Campioni Casuali
Marco Brandi, Alberto Di Iorio, Tullia Padellini,
Giorgia Rocco and Marco Stefanucci
June 8, 2016
Negli ultimi anni, dato il rapido sviluppo delle tecnologie informatiche, si
é assistito ad un incremento delle transazioni finanziarie, soprattutto virtuali.
Per l’Italia, ad esempio, i dati della Bce ci informano che nel 2013 i pagamenti
elettronici pro capite nel nostro paese sono stati 75, 9 in piú rispetto al 2009.
La velocit e la diffusione di questo fenomeno ha spinto intermediari finanziari e
specialisti del settore a cercare soluzioni al problema delle frodi.
Dagli inizi degli anni Novanta si quindi assistito ad un interesse da parte della
comunit scientifica, volto a sviluppare metodologie per il “fraud - detecting”.
Tra i modelli maggiormente supportati dalla letteratura, troviamo alberi decisionali [?], SVM, [?], reti neurali, e perfino approcci bayesiani.
Il dataset oggetto di questa competizione si inquadra perfettamente in questo
contesto. Non possiamo dilungarci sulla natura delle variabili che compongono
il dataset, in quanto la loro composizione non nota. Abbiamo comunque potuto
osservare che molti degli indicatori fornitici presentano strutture di correlazione
piuttosto marcate (ad esempio, la correlazione tra Anomalia3, Anomalia4 e
Anomalia5 si attesta intorno a 0.9). Tra questi indicatori l’unico a presentare
dati mancanti Anomalia9; la quantit di dati mancanti (quasi 23.000 su poco pi
di 90.000 osservazioni) ha reso impossibile l’imputazione automatica dei missing values. Sebbene i dati sembrassero suggerire che la presenza degli NA in
quell’unica variabile fosse in realt informativa (infatti su 114 transazioni fraudolente a circa 100 corrispondeva un missing value in Anomalia9), abbiamo
1
deciso, vista la composizione ignota e il poco tempo a disposizione, di escluderla dall’analisi. In condizioni di maggiore calma sicuramente sarebbe valsa la
pena approfondire l’impatto di tale variabile sulla previsione.
Il principale elemento di difficoltá riscontrato in fase di analisi stato la frequenza
estremamente bassa delle frodi. Abbiamo dunque deciso di non focalizzarci tanto
sulla scelta di un classificatore, anche alla luce dell’ampia letteratura sovra citata, quanto piuttosto su tale problema di non bilanciamento del campione a
disposizione. Per quanto riguarda il bilanciamento abbiamo usato un pacchetto
in R che implementa l’algoritmo SMOTE, un ben noto metodo per contrastare
la presenza di eventi rari in problemi di classificazione [?]. L’idea alla base
dell’algoritmo quella di generare nuove osservazioni appartenenti alla classe
rara utilizzando un sistema di vicinato. SMOTE aggiunge cos osservazioni “artificiali” alla classe rara e, al contempo, sottocampiona la classe maggioritaria.
Nello specifico, abbiamo bilanciato il campione portando la percentuale delle
frodi da poco piú di 1/1000 a circa il 2%.
Per ragioni computazionali abbiamo scelto di sottomettere una predizione ottenuta con alberi di classificazione, in particolare abbiamo utilizzato l’algoritmo
C5. Abbiamo comunque implementato altri modelli pi computationally intensive, quali random forest e neural network e abbiamo potuto constatare che le
loro performance sono peggiori.
Vogliamo sottolineare che per la valutazione del modello ci siamo avvalsi di una
cross validation “ridotta” (tenendo conto dei tempi computazionali), sul training set utilizzando il criterio F 1 indicato dalla consegna. Questo procedimento
stato introdotto per evitare l’overfitting che sarebbe potuto derivare dal considerare esclusivamente gli scores della leaderboard.
Piú nello specifico, tale cross validation é stata utilizzata esclusivamente per
la scelta del modello, mentre i parametri di tuning sono stati decisi in modo
automatico dagli algoritmi utilizzati.
2