Tecniche di Triage applicate alla Digital Forensics

Tecniche di Triage applicate alla
Digital Forensics
Rosamaria Berté
Dipartimento di Informatica, Sistemi e Produzione
Universitá degli studi di Roma Tor Vergata
Tesi finale del percorso di
Dottorato di Ricerca in Informatica ed Ingegneria dell’Automazione
Ciclo XXIII
1. Docente Tutor: Prof. Giuseppe F. Italiano
2. Coordinatore: Prof. Salvatore Tucci
ii
Abstract
Nel corso degli ultimi anni si é registrato un trend costante di diffusione di
smartphone e personal computer sul mercato globale che ha raggiunto, nel
solo 2011, incrementi di vendita, pari rispettivamente al 5,6% ed al 3,2%
[(1),(2)]. Le ragioni del fenomeno sono legate a fattori di successo commerciale quali l’elevata capacitá elaborativa e di memorizzazione, da un lato, ed
i prezzi al dettaglio sempre piú contenuti dall’altro. Essendo cosı́ permeati nella comunitá mondiale, questi dispositivi sono divenuti, di fatto, una
fonte di informazioni preziose utilizzabili in un numero sempre crescente di
indagini investigative e, come é facile intuire, principalmente nei casi in cui
le fattispecie criminali sono strettamente correlabili al loro utilizzo (es. stalking, pedofilia, violazione del diritto d’autore, hacking, ecc.). D’altro canto,
essendo cosı́ diffuso nella societá l’utilizzo di dispositivi high-tech, le investigazioni forensi sui dispositivi digitali (Digital Forensics) sono spesso eseguite
anche nel caso di reati ’comuni’ quali, a titolo esemplificativo, l’omicidio,
il sequestro di persona o nel corso di indagini di antiterrorismo, volendo
citarne solo alcune fattispecie. Ció premesso, le forze dell’ordine hanno registrato nel corso degli anni un aumento costante del numero dei dispositivi
da analizzare e della quantitá dei dati memorizzati con un notevole aggravio
di lavoro per l’espletamento di tutte le fasi correlate alle indagini di Digital Forensics [(3)]. Al fine di invertire la tendenza citata, gli investigatori
avvertono pertanto come prioritaria l’esigenza di poter gestire velocemente
una lista di prioritá dei dispositivi sottoposti a sequestro al fine di snellire
le successive attivitá di analisi e verbalizzazione a fini probatori. In questo lavoro viene affrontato il problema relativo all’approccio metodologico
di conduzione delle indagini forensi su dispositivi mobili (cellulari e smartphone) e personal computer sottoposti a sequestro da parte dell’Autoritá e
della Polizia Giudiziaria, proponendo una razionalizzazione del tradizionale
workflow a 4 fasi (identificazione, acquisizione, analisi e verbalizzazione). A
tale scopo é stato introdotto uno step intermedio, definito Triage, che ha
l’obiettivo di rendere piú performante l’analisi della quantitá ingente di
informazioni estratte, fornendo una classificazione dei dispositivi basata
sulla rilevanza del reperto nel contesto di indagine e discriminante dell’importanza relativa delle prove potenziali da esso estraibili. Per raggiungere
lo scopo si é resa necessaria l’individuazione e la classificazione di caratteristiche specifiche (features) che distinguono il reperto relazionandolo al
contesto investigativo specifico. In particolare, nel contesto della computer
forensics, abbiamo proposto una metodologia che riuscisse ad estrarre conoscenza dalle informazioni presenti sugli hard disk, nel corso di indagini
inerenti i reati di pedopornografia, violazione del diritto d’autore, pirateria
informatica, omicidio e terrorismo. Grazie alla collaborazione con il Servizio di Polizia Postale e delle Comunicazioni, abbiamo potuto sperimentare
l’approccio nel caso specifico di violazione del diritto d’autore. Nel caso
della mobile forensics, invece, abbiamo identificato nel cosiddetto “profilo”
di utilizzo del telefono, determinabile dal confronto tra le capacitá tecniche dell’utilizzatore e le funzionalitá offerte dal dispositivo, un parametro
determinante per classificare il reperto ed assegnare ad esso un punteggio
relativo. Tale “profilo” di utilizzo, classificabile come “base, medio, esperto” ha attinenza specifica con la probabilitá che il reperto abbia relazione
con l’indagine in corso e contenga, quindi, elementi di prova utilizzabili in
dibattimento o indizi utili al prosieguo delle indagini. Nel lavoro svolto ci
siamo concentrati sulla validazione della metodologia applicata all’analisi di
telefoni cellulari utilizzati in indagini di pedofilia, uno dei reati piú comuni
e rilevanti nel corso di indagini di mobile forensics. Nell’elaborato vengono
dettagliate tutte le fasi della metodologia proposta ed il workflow operativo
impiegato.
Alla mia famiglia e al mio amore e compagno di vita Angelo.
Acknowledgements
Ringrazio la mia famiglia ed Angelo per il sostegno morale e per la forza
che mi hanno dedicato in questi anni di ricerca e studio. Un ringraziamento
al mio Professore Giuseppe Italiano, a Gianluigi Me, a Fabio Marturana, a
Simone Tacconi, che hanno collaborato proficuamente al mio lavoro, consigliandomi e sostenendomi durante tutta la durata del percorso di Dottorato.
Grazie a tutti coloro che mi hanno sopportata.
Indice
Elenco delle figure
vii
Elenco delle tabelle
ix
1 Motivazione
1
1.1
Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Contributo della ricerca . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2.1
Acquisizione forense delle informazione e collazione dei referti
investigativi sulle fattispecie criminose . . . . . . . . . . . . . . .
1.2.2
Normalizzazione dei dati ed individuazione delle caratteristiche
(features) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
Classificazione delle informazioni e triaging . . . . . . . . . . . .
10
Organizzazione della tesi . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.2.3
1.3
8
2 Panoramica sulla Mobile e Computer Forensics
13
2.1
Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.2
La Digital Forensics - storia di una scienza . . . . . . . . . . . . . . . . .
13
2.3
Il processo di investigazione forense . . . . . . . . . . . . . . . . . . . . .
17
2.3.1
Identificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.3.2
Preservazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.3.3
Acquisizione
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.3.4
Analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.3.5
Presentazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
L’analisi forense oggi . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.4.1
I tool per la Digital Forensics . . . . . . . . . . . . . . . . . . . .
22
2.4.2
Access Data Forensics Toolkit . . . . . . . . . . . . . . . . . . . .
23
2.4
iii
INDICE
2.4.3
Encase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.4.4
CAINE (Computer Aided INvestigative Environment) . . . . . .
23
2.4.5
DFF (Digital Forensics Framework) . . . . . . . . . . . . . . . .
24
2.4.6
Paraben Device Seizure . . . . . . . . . . . . . . . . . . . . . . .
24
2.4.7
XRY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.4.8
MobileEdit Forensics . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.4.9
UFED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.4.10 MIAT (Mobile Internal Acquisition Tool) . . . . . . . . . . . . .
25
3 Triage & Digital Forensics
29
3.1
Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.2
Un nuovo supporto alle investigazioni digitali . . . . . . . . . . . . . . .
31
3.3
Nuovi orientamenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
4 Un approccio quantitativo al Triage nella Digital Forensics
37
4.1
La metodologia fase per fase . . . . . . . . . . . . . . . . . . . . . . . . .
37
4.2
Raccolta dei referti investigativi . . . . . . . . . . . . . . . . . . . . . . .
39
4.3
Normalizzazione dei dati ed estrazione delle feautures . . . . . . . . . .
40
4.4
Classificazione e triaging . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
5 I risultati sperimentali
57
5.1
Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.2
Attivitá di pre-processamento dei data set . . . . . . . . . . . . . . . . .
57
5.3
Classificazione e Triaging per la Mobile Forensics . . . . . . . . . . . . .
59
5.3.0.1
Prima sperimentazione . . . . . . . . . . . . . . . . . .
59
5.3.0.2
Seconda sperimentazione . . . . . . . . . . . . . . . . .
66
5.4
Classificazione e Triaging per la Computer Forensics . . . . . . . . . . .
71
5.5
Osservazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
6 Conclusioni e sviluppi futuri
75
A La rappresentazione grafica dei risultati sperimentali attraverso l’ambiente WEKA
79
A.1 Prima sperimentazione su dispositivi mobili: predizione profilo di utilizzo 79
A.1.1 Caso del dataset completo . . . . . . . . . . . . . . . . . . . . . .
iv
79
INDICE
A.1.2 Caso del dataset ridotto solo numerico . . . . . . . . . . . . . . .
83
A.1.3 Caso del dataset ridotto numerico e nominale . . . . . . . . . . .
87
A.2 Seconda sperimentazione su dispositivi mobili: predizione del profilo di
utilizzo in base alla fattispecie criminale afferente la pedofilia . . . . . .
91
A.2.1 Caso del dataset ridotto solo numerico . . . . . . . . . . . . . . .
91
A.2.2 Caso del dataset ridotto numerico e nominale . . . . . . . . . . .
93
A.3 Sperimentazione su dispositivi laptop e desktop . . . . . . . . . . . . . .
96
A.3.1 Caso del dataset completo: predizione del profilo di utilizzo in
base alla fattispecie criminale afferente la violazione del diritto di
copyright . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
A.3.2 Caso del dataset ridotto a 15 attributi: predizione del profilo di
utilizzo in base alla fattispecie criminale afferente la violazione
del diritto di copyright . . . . . . . . . . . . . . . . . . . . . . . . 101
A.3.3 Caso del dataset ridotto a 30 attributi: predizione del profilo di
utilizzo in base alla fattispecie criminale afferente la violazione
del diritto di copyright . . . . . . . . . . . . . . . . . . . . . . . . 105
A.3.4 Caso del dataset ridotto a 45 attributi: predizione del profilo di
utilizzo in base alla fattispecie criminale afferente la violazione
del diritto di copyright . . . . . . . . . . . . . . . . . . . . . . . . 109
Bibliografia
113
v
INDICE
vi
Elenco delle figure
1.1
Unitá di vendita di personal computer nel mondo stimate nel terzo
trimestre 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
2
Unitá di vendita di device mobili nel mondo stimate nel terzo trimestre
2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
Mobile/Tablet Operating System Market Share. December 2011 . . . .
4
1.4
Desktop Operating System Market Share. December 2011 . . . . . . . .
4
1.5
Processo di Knowledge Discovery in Database . . . . . . . . . . . . . . .
6
1.6
Processo di implementazione del Triaging . . . . . . . . . . . . . . . . .
7
1.7
Ciclo virtuoso di scoperta della conoscenza . . . . . . . . . . . . . . . . .
9
2.1
La Digital Forensics e le sue specializzazioni . . . . . . . . . . . . . . . .
15
2.2
Il processo di investigazione forense . . . . . . . . . . . . . . . . . . . . .
18
2.3
Metodi di analisi forense . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.4
Modalitá operativa di MIAT . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.5
I risultati di MIAT, versione per Symbian, comparati con il tool Paraben
Device Seizure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6
27
I risultati di MIAT, versione per Windows Mobile, comparati con il tool
Paraben Device Seizure . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.1
Processo di triage nel settore medico-ospedaliero . . . . . . . . . . . . .
30
3.2
Traige methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.3
Il modello di processo del Computer Forensics Field Triage . . . . . . .
33
3.4
Approccio unificato alla digital investigation . . . . . . . . . . . . . . . .
35
4.1
Digital Forensics Research Workshop . . . . . . . . . . . . . . . . . . . .
37
4.2
Il processo di Triage per la Digital Forensics . . . . . . . . . . . . . . . .
39
vii
ELENCO DELLE FIGURE
4.3
Il flusso per la raccolta dei referti investigativi . . . . . . . . . . . . . . .
40
4.4
Il flusso di normalizzazione dei dati ed estrazione delle feautures . . . .
44
4.5
Esempio di input matrix . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.6
Esempio di input matrix . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.7
Una rappresentazione dell’accuratezza dei classificatori . . . . . . . . . .
49
4.8
Un esempio del Fenomeno di Hughes . . . . . . . . . . . . . . . . . . . .
51
4.9
Esempio di rete bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.10 Esempio di struttura ad albero prodotta dall’elaborazione di una algoritmo di tipo Decision Tree . . . . . . . . . . . . . . . . . . . . . . . . .
54
4.11 Un esempio di problema separabile in uno spazio bidimensionale . . . .
56
5.1
L’ambiente grafico Explorer . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.2
Esempio di file in formato ARFF . . . . . . . . . . . . . . . . . . . . . .
59
5.3
Visualizzazione quantitativa delle differenze di performance degli algoritmi implementati sul data set . . . . . . . . . . . . . . . . . . . . . . .
5.4
Visualizzazione quantitativa delle differenze di performance degli algoritmi implementati sul data set . . . . . . . . . . . . . . . . . . . . . . .
5.5
62
64
Visualizzazione quantitativa delle differenze di performance degli algoritmi implementati sul data set . . . . . . . . . . . . . . . . . . . . . . .
65
5.6
Dataset ridotto, composto da 23 attributi di tipo numerico . . . . . . .
68
5.7
Dataset ridotto, composto da 22 attributi di tipo numerico e nominale .
70
viii
Elenco delle tabelle
5.1
Tabella di comparazione delle performance degli algoritmi di classificazione, nel caso del data set completo . . . . . . . . . . . . . . . . . . . .
5.2
Tabella di comparazione delle performance degli algoritmi di classificazione, nel caso del data set ridotto, con soli attributi di tipo numerico .
5.3
62
64
Tabella di comparazione delle performance degli algoritmi di classificazione, nel caso del data set ridotto, con attributi di tipo numerico e
nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4
65
Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di pedofilia. Metodo predittivo 10-folds cross validation 67
5.5
Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di pedofilia, con training set composto da 19 istanze
e test set da 2 istanze (Pedo e Non-Pedo). . . . . . . . . . . . . . . . . .
5.6
67
Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di pedofilia, con data set ridotto composto da 23
attributi di tipo numerico . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7
69
Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di pedofilia, con data set ridotto composto da 22
attributi di tipo numerico e nominale . . . . . . . . . . . . . . . . . . . .
5.8
69
Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di violazione del diritto di copyright. Metodo predittivo
10-folds cross validation . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.9
72
Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di violazione del diritto di copyright. Metodo iterativo,
15 attributi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix
72
ELENCO DELLE TABELLE
5.10 Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di violazione del diritto di copyright. Metodo iterativo,
30 attributi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.11 Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di violazione del diritto di copyright. Metodo iterativo,
45 attributi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
x
73
1
Motivazione
1.1
Introduzione
La pervasivitá delle moderne tecnologie di informazione e comunicazione nella vita
quotidiana di ciascuno di noi ha cambiato radicalmente le abitudini ed i costumi del
vivere moderno. I personal computer ed i telefoni cellulari di ultima generazione hanno
dimensioni sempre piú ridotte, ma al contempo mettono a disposizione funzionalitá
nuove, maggiore potenza elaborativa e di memorizzazione a costi sempre piú accettabili. Ciascuno di noi oggi possiede ed utilizza quotidianamente tali dispositivi sia per
funzionalitá basilari, come telefonare o navigare su internet, ma ancora di piú per attivitá di interazione, comunicazione e di business.
Secondo quanto riportato da Gartner, la vendita di personal computer nel terzo
trimestre del 2011 é ammontata a 91,8 milioni di unitá, con un incremento del 3,2%
rispetto allo stesso periodo del 2010 [Fig. 1.1]. mentre le vendite mondiali di dispositivi mobili sono state pari a 440,5 milioni di unitá nel terzo trimestre del 2011, con un
incremento annuo del 5,6% [Fig. 1.2].
Se da un lato, quindi, l’evoluzione tecnologica ha semplificato la vita quotidiana
di milioni di persone in tutto il mondo modificandone irreversibilmente lo stile di vita, dall’altro essa ha comportato un crescente numero di nuove fattispecie criminose
legate all’utilizzo di dispositivi digitali, siano essi computer o dispositivi mobili. Il fenomeno, definito cybercrime, derivato dall’utilizzo illecito dell’innovazione tecnologica
1
1. MOTIVAZIONE
Figura 1.1: Unitá di vendita di personal computer nel mondo stimate nel terzo
trimestre 2011 -
Figura 1.2: Unitá di vendita di device mobili nel mondo stimate nel terzo
trimestre 2011 -
2
1.1 Introduzione
per finalitá criminali, ha, peraltro, indotto la comunitá internazionale ad intervenire
prontamente in una duplice direzione, da un lato uniformando le condotte ritenute illecite, in quanto lesive di interessi condivisi, dall’altro attuando una complessa rete di
cooperazione giudiziaria con mezzi di intervento nuovi rispetto a quelli tradizionali, che
coinvolgono il maggior numero di soggetti possibile. La Legge n. 48 del 2008, di ratifica
della convenzione di Budapest, ne é l’esempio italiano; con essa sono stati introdotti,
per la prima volta, all’interno del codice di procedura penale alcuni importanti elementi
di principio, che disciplinano un nuovo approccio metodologico e tecnologico, scientificamente riconosciuto, rivolto agli specialisti dell’informatica forense, con la finalitá
di trattare e preservare il dato digitale affinché possa avere valenza probatoria in un
processo giuridico.
Questo fenomeno ha avuto ripercussioni sostanziali nelle investigazioni delle forze
dell’ordine i cui operatori si sono dovuti adeguare alle nuove metodiche di investigazione, divenendo sempre piú specializzati nel settore investigativo informatico. Anche
per tipologie di reato c.d. tradizionali (es.omicidio) dove i dispositivi digitali non rappresentano il mezzo o il corpo di reato, infatti, le informazioni da questi estraibili ed
analizzabili, possono far emergere indizi utili ai fini della comprensione e risoluzione
dei casi quali abitudini, interessi, relazioni sociali, competenze tecniche dei sospettati,
permettendo talora, a ricostruire la sequenza temporale del crimine e il modus operandi.
Questo lavoro di ricerca si é sviluppato a seguito di esigenze e problematiche emerse da interviste a eminenti specialisti italiani sulla criminalitá informatica della Polizia
Postale e delle Comunicazioni (Ing. Simone Tacconi), che hanno rilevato una crescente complessitá gestionale delle moderne indagini forensi, legata, in special modo,
all’aumento dei reperti sui quali dover operare, ma anche alla diversificazione delle caratteristiche che contraddistinguono i personal computer e i telefoni cellulari che ogni
anno vengono rilasciati sul mercato. L’eterogeneitá dei sistemi operativi (Windows,
Linux, Mac, Android, RIM, Windows mobile, Apple iOS, ecc), dei file system, la differente organizzazione della memoria, richiedono, infatti, un grado di specializzazione
tecnico piú elevato e qualificato nell’approccio investigativo forense, rispetto a quello
tradizionale. Fig.[1.3,1.4].
3
1. MOTIVAZIONE
Figura 1.3: Mobile/Tablet Operating System Market Share. December 2011 -
Figura 1.4: Desktop Operating System Market Share. December 2011 -
4
1.2 Contributo della ricerca
Da anni sia il settore universitario che commerciale hanno recepito queste difficoltá,
contribuendo alla standardizzazione ed al miglioramento dei processi di Digital Investigation, proponendo alla comunitá scientifica e tecnologica nuovi modelli, metodologie
e workflow operativi ed implementando strumenti di estrazione ed analisi delle informazioni molto complessi.
Purtuttavia, permangono alcune limitazioni, causate in special modo dalla rapiditá
di evoluzione e rilascio di nuovi sistemi operativi desktop e mobile, nuove funzionalitá e
modalitá di memorizzazione dei dati che impongono altrettanta rapiditá nello sviluppo
di strumenti forensi e relativi aggiornamenti. Pertanto, le forze dell’ordine si ritrovano ad avere a disposizione un parco applicativo ed infrastrutturale eterogeneo, ma
anche, necessariamente specializzato piú su alcune tipologie di dispositivi che su altri.
Nell’insieme di prodotti impiegabili, é necessario di volta in volta effettuare la scelta
adeguata per le singole casistiche d’indagine [(4),(5),(6),(7),(8),(9)], se non addirittura
impiegarne piú tipologie nell’ambito della stessa indagine.
Il NIST (National Institute of Standard and Technology) ha fatto fronte a questo
aspetto pubblicando dei rapporti, relativi ai settori della Computer e Mobile Forensics,
che riassumono i risultati di un’analisi comparativa tra i diversi software forensi disponibili sul mercato, con la duplice finalitá di testarne il rispetto alle procedure forensi
e fornire agli operatori del settore tutta una serie di informazioni utili per operare la
scelta piú idonea ai casi in esame.
1.2
Contributo della ricerca
Il percorso di ricerca, condotto in questi anni nel campo della sicurezza informatica,
con particolare riguardo alla tematica della Digital Forensics ed, in special modo, ai
settori della Computer e del Mobile Forensics, é stato finalizzato allo studio e all’approfondimento di metodiche sviluppate ed utilizzate per agevolare e rendere piú incisivo
il lavoro di investigazione e di acquisizione di evidenze digitali di valore probatorio. In
questo contesto é stato implemento un nuovo approccio metodologico che trasla il concetto di triage, tipicamente utilizzato in ambito medico, nel settore delle investigazioni
5
1. MOTIVAZIONE
su reperti digitali cosiddetti “freddi”, modificando, in parte, il tradizionale processo di
lavoro operativo.
Utilizzando i concetti derivanti dal Knowledge Discovery Process e applicando strumenti di Data Mining e Machine Learning alla Digital Forensics, si é cercato di estrapolare della conoscenza a partire dalle informazioni presenti sui reperti digitali utilizzati
a scopi illeciti, al fine di determinare, per casi futuri e non noti a priori, la probabilitá
dell’esistenza di una relazione tra il reperto, il colpevole e la fattispecie criminosa.
Figura 1.5: Processo di Knowledge Discovery in Database -
Per raggiungere questo obiettivo, é stato studiato e progettato un flusso di lavoro che si
innesta all’interno del tradizionale processo di investigazione forense sui devices digitali
ed, in particolare, fra la fase di acquisizione delle informazioni e quella di analisi delle
stesse.
In particolare, nell’elaborato vengono approfonditi i seguenti argomenti:
1. Acquisizione forense delle informazione e collazione dei referti investigativi sulle fattispecie criminose: grazie alla collaborazione con la Polizia
6
1.2 Contributo della ricerca
Figura 1.6: Processo di implementazione del Triaging -
Postale e delle Comunicazioni, sono state effettuate delle acquisizioni/estrazioni
forensi di dispositivi digitali (hard disk, cellulari e smartphones) afferenti ad alcune tipologie criminali (c.d. pattern), di cui successivamente sono stati prodotti
report relativi ai dati estratti.
2. Normalizzazione dei dati ed individuazione delle caratteristiche (features): a causa della eterogeneitá dei formati generati dai toolkit di estrazione
forense e delle differenti modalitá di storage delle informazioni nei vari supporti
presi in esame, é stato necessario procedere ad una fase intermedia di normalizzazione ed omogeneizzazione dei dati (c.d. data cleaning), ed eliminazione di
informazioni anomale e/o ridondanti (c.d. outlier ). In seguito sono state definite
le caratteristiche (c.d. features) distintive ogni pattern, dalla cui valorizzazione
deriva il data set oggetto della successiva fase di classificazione. E’ stata, quindi,
generata una machine readable representation, definita, input matrix, strutturata in una matrice NxM nei cui campi vengono riportati i dati statistici calcolati
su ciascuna istanza (devices) presa in esame, sulla base dei suddetti attributi
(features).
3. Classificazione delle informazioni e triaging: in quest’ultima fase si sono
adottate tecniche di classificazione al fine di:
7
1. MOTIVAZIONE
• Valutare il profilo di utilizzo dei dispositivi cellulari e/o smartphone esaminati e classificati come base, medio, avanzato;
• Valutare il profilo di utilizzo dei dispositivi cellulari e/o smartphone esaminati e classificati in base alla fattispecie criminale afferente la pedofilia;
• Valutare il profilo di utilizzo degli hard disk esaminati e classificati in base
alla fattispecie criminale afferente il reato di violazione del diritto d’autore;
informazioni, quest’ultime, ritenute dagli operatori d’ausilio all’attivitá investigativa,
in quanto permettono una piú immediata individuazione dei reperti (device) reputati
prioritari per investigazioni forensi specifiche, attribuendo loro, pertanto, una rilevanza
maggiore per la prosecuzione nel successivo step di analisi del tradizionale workflow
procedurale (triage).
1.2.1
Acquisizione forense delle informazione e collazione dei referti
investigativi sulle fattispecie criminose
L’importanza dell’acquisizione delle informazioni digitali, nell’ambito della Digital Forensics, é un argomento assai dibattuto vista la natura immateriale del dato digitale che
impone di adottare delle cautele appropriate, volte ad assicurare che la prova acquisita
si mantenga integra, evitando modifiche al supporto originale e garantendo in ogni momento la perfetta corrispondenza tra i dati presenti sul supporto sequestrato e la copia
utilizzata per eseguire le attivitá di accertamento. Trattandosi di oggetti immateriali,
infatti, le informazioni digitali contenenti le prove del reato devono essere necessariamente sempre “accostate” ad un supporto di memorizzazione e, per tutta la durata del
procedimento, si dovrá essere sempre in grado di dimostrare la corrispondenza tra la
copia sulla quale si eseguono gli accertamenti e quella in possesso dell’indagato (o del
terzo non sottoposto ad indagini ma in possesso di materiale probatorio) al momento
dell’intervento.
In commercio esistono molti software che si occupano dell’acquisizione forense dei
dati digitali. Ma, come giá premesso, l’eterogeneitá dei digital devices sotto molteplici
aspetti tecnologici, rende a volte incompleto l’utilizzo di un solo strumento applicativo.
A fronte di ció, nell’ambito del lavoro, abbiamo cercato di individuare di volta in
8
1.2 Contributo della ricerca
volta, gli strumenti software idonei al caso specifico ed alla tipologie di informazioni da
analizzare.
1.2.2
Normalizzazione dei dati ed individuazione delle caratteristiche
(features)
Una volta espletata l’acquisizione dei dati, raccolti e collazionati i referti investigativi,
sui dati estratti viene eseguita una operazione di normalizzazione, al fine di eliminare
eventuali ridondanze, nonché le differenze di presentazione del dato causate dall’eterogeneitá degli strumenti di acquisizione utilizzati nella prima fase.
In accordo con le linee guida del processo di Knowledge Discovery, prima di elaborare il data set definitivo, da sottoporre agli algoritmi di classificazione é necessario
eseguire una serie di passi che vanno dalla pulizia del dato per ridurre il rumore (noise
reduction), quindi procedere con l’analisi delle rilevanze per eliminare eventuali ridondanze ed infine con la normalizzazione vera e propria.
Figura 1.7: Ciclo virtuoso di scoperta della conoscenza -
L’approccio di estrazione delle feautures si é basato sullo studio e l’analisi del contesto investigativo correlato alle fattispecie criminali. Avvalendoci dell’esperienza ope-
9
1. MOTIVAZIONE
rativa degli investigatori in materia, si sono estrapolate dai reperti investigativi, le
informazioni ritenute di maggiore interesse e usualmente elaborate nei processi di investigazione forense. Ad esempio, sui reperti mobili, ci si é concentrati sui dati attinenti
la rubrica telefonica, la cronologia delle chiamate, gli sms, eventuale navigazione internet, ma si sono ricavate, da queste ultime, anche informazioni statistiche relative a
percentuale e numero di eventi, ove possibile, suddivise altresı́ in slot temporali.
Relativamente alla Computer Forensics, invece, sono stati presi in considerazione i dati
normalmente analizzati nei casi di computer incident response. Ad esempio dati relativi alla configurazione del sistema, al tipo di software installato, alla cronologia del
browser, al registro eventi di sistema, nonché elaborazione statistiche sui file (inclusi i
file e le cartelle cancellati).
Durante l’analisi delle immagini dei dischi, abbiamo supposto di raccogliere l’insieme
delle caratteristiche utente afferenti le abitudini, le competenze tecniche e gli interessi.
1.2.3
Classificazione delle informazioni e triaging
Nell’ultima fase della metodologia proposta, le informazioni vengono opportunamente classificate al fine di identificare rapidamente le prove che consentono di porre in
relazione il digital device e la fattispecie criminosa in esame. Nel caso della Mobile
Forensics l’obbiettivo é stato dapprima classificare il profilo di utilizzo del proprietario
del dispositivo (base, medio o esperto), quindi prevedere la probabilitá dell’utilizzo di
smartphones per il reato di pedofilia. In modo analogo la classificazione sui computer
si é orientata alla definizione della probabilitá di utilizzo finalizzato alla violazione del
diritto di copyright.
1.3
Organizzazione della tesi
Questo elaborato viene organizzato nei seguenti capitoli, nei quali viene ampliata e
dettagliata la trattazione degli argomenti oggetto dell’introduzione.
Capitolo 2 viene fatta una rassegna delle attuali tecnologie utilizzate nella Mobile e Computer Forensics. In questo capitolo viene esaminata la letteratura
esistente in materia, con particolare riferimento ai diversi approcci scientifici in
materia di analisi dei dati e nuove metodiche implementate.
10
1.3 Organizzazione della tesi
Capitolo 3 espone la metodologia del triage nei contesti della Mobile e Computer
Forensics.
Capitolo 4 descrive il workflow metodologico sviluppato.
Capitolo 5 espone nel dettaglio le sperimentazioni eseguite ed i risultati ottenuti.
Capitolo 6 riassume i risultati della tesi e riporta delle considerazioni ed i possibili sviluppi futuri, estendendo il concetto di triage anche ad altre casistiche di
indagine forense, quali ad esempio nel settore del cloud.
11
1. MOTIVAZIONE
12
2
Panoramica sulla Mobile e
Computer Forensics
2.1
Introduzione
In questo capitolo viene fatta una panoramica introduttiva sulle piú recenti tecnologie
e metodologie adottate nella Mobile e Computer Forensics, soffermandosi su quelle
ritenute in letteratura piú innovative ed interessanti. Il presente capitolo descrive gli
elementi di base dell’approccio metodologico seguito nella ricerca e meglio descritto nel
prosieguo dell’elaborato.
2.2
La Digital Forensics - storia di una scienza
Una prima definizione scientifica di Digital Forensics viene coniata giá nel 2001 durante
First Digital Forensic Research Workshop (DFRWS), nel quale Gary Palmer nel suo
articolo “A Road Map for Digital Forensic Research” presenta una prima panoramica
su questa materia, all’epoca emergente [(10)]. In realtá é il ricercatore Brian Carrier
che, nel 2003 nell’articolo “Defining Digital Forensic Examination and Analysis Tools
Using Abstraction Layers” [(11)], fornisce una prima definizione scientifica di Digital
Forensics, enunciandola nel seguente modo:
“The use of scientifically derived and proven methods toward the preservation,
collection, validation, identification, analysis, interpretation, documentation and
presentation of digital evidence derived from digital sources for the purpose of
13
2. PANORAMICA SULLA MOBILE E COMPUTER FORENSICS
facilitating or furthering the reconstruction of events found to be criminal, or helping
to anticipate unauthorized actions shown to be disruptive to planned operations.”
E’ da allora che la Digital Forensics viene riconosciuta quale disciplina che si avvale di
metodi “scientificamente derivati e dimostrati” al fine di preservare, collazionare, validare, identificare, analizzare, interpretare, documentare ed infine presentare le evidenze
derivate da sorgenti digitali, al fine di facilitare o comunque permettere la ricostruzione
di eventi criminali e prevenire azioni potenzialmente illegali.
Le best practices derivate dalla Digital Forensics Investigation costituiscono un utile
strumento a disposizione delle forze dell’ordine nelle attivitá di ricostruzione dell’evento
criminale, fornendo metodiche utili ad approfondire il modus operandi, le abitudini, gli
interessi, le capacitá del sospettato.
A seconda del tipo di area su cui si concentra l’indagine, la Digital Forensics si
specializza nelle seguente sotto-categorie:
• Computer Forensics, la cui attivitá di verifica ha per oggetto i supporti di memorizzazione dei dati, memorie di massa, storage rimovibili, personal computer,
ecc;
• Mobile Forensics, dove i reperti d’indagine sono costituiti da telefoni cellulari,
SIM card e smartphone;
• Database Forensics, che si concentra sulle tecniche e gli strumenti per la verifica
e l’analisi dei database;
• Network Forensics, che ha come ambito la verifica delle attivitá svolte in reti di
comunicazione pubbliche e private;
• Cloud Forensics, l’ultima nata in ordine di tempo e che, partendo dalle tradizionali metodiche della Digital Forensics, cerca di adattarsi alle novitá investigative
introdotte dal nuovo paradigma di erogazione di servizi informatici denominato
Cloud Computing.
14
2.2 La Digital Forensics - storia di una scienza
Figura 2.1: La Digital Forensics e le sue specializzazioni -
Nel primo decennio di vita, la Digital Forensics si é rapidamente evoluta, grazie all’interesse manifestato da molti ricercatori e sviluppatori che hanno implementato metodologie e strumenti utili all’intercettazione delle evidenze digitali assicurandone, altresı́,
il valore probatorio in sede di giudizio [(12)]. D’altro canto, il continuo miglioramento
degli strumenti high-tech ha introdotto nuove criticitá nell’attivitá di Digital Forensics
Investigation, fra i quali:
• La dimensione crescente di dispositivi di storage, che implica maggior tempo nella
creazione di un’immagine forense e nell’elaborazione di tutti i dati estratti;
• La crescente prevalenza di supporti di memorizzazione ’Solid State Drives’ e la
proliferazione di interfacce hardware diversificate;
• La proliferazione di sistemi operativi e formati di file, anche molto diversi fra
loro, che aumenta notevolmente i requisiti e la complessitá degli strumenti di
valorizzazione dei dati e il costo di sviluppo degli stressi;
• La moltiplicazione di investigazioni complesse che richiedono l’analisi di piú dispositivi seguita dalla correlazione dei dati trovati per identificare le prove;
• La crittografia pervasiva che complica notevolmente l’attivitá di analisi dei supporti, rendendo vana l’interpretazione dei dati, nel caso in cui non si riesca a
decodificare il contenuto cifrato;
15
2. PANORAMICA SULLA MOBILE E COMPUTER FORENSICS
• L’utilizzo del Cloud Computing per l’erogazione di servizi informatici che condividono una piattaforma hardware e software virtuale (Software as a Service,
Platform as a Service e Infrastructure as a Service) e hanno il comune denominatore dell’accesso remoto a larga banda attraverso VPN di autenticazione
dell’utente.
Gli strumenti di analisi forense, sviluppati per aiutare gli operatori ad identificare le potenziali prove digitali, diventano tanto piú obsoleti quanto piú velocemente si
evolvono e si rinnovano le tecnologie. Inoltre, nella individuazione di elementi di prova
per casistiche di indagine, quali ad esempio omicidio, terrorismo, associazione a delinquere, dove lo strumento informatico utilizzato non risulta strettamente correlabile
alla tipologia di reato, diversamente da casi quali la pedo-pornografia o lo stalking, le
potenzialitá di supporto di questi strumenti si abbassano notevolmente. In questi casi,
poiché risulta difficile ottenere una ricostruzione cronologica degli eventi o delle azioni
dell’autore del reato, sono gli operatori che eseguono tali attivitá basandosi sull’esperienza investigativa pregressa. Una possibile soluzione alle limitazioni sin qui esposte,
puó essere rappresentata da un nuovo approccio metodologico che consenta una maggiore astrazione ed indipendenza dallo specifico device digitale che si va ad investigare.
La ricerca scientifica é orientata anche allo sviluppo di metodiche e strumenti che
consentano una maggior grado di astrazione dalla tipologia del dato da analizzare,
anche se gli sforzi profusi nella standardizzazione delle modalitá di rappresentazione
e di elaborazione delle informazioni non hanno ottenuto i risultati sperati [(13)]. In
questa direzione sono stati fatti dei passi avanti verso l’utilizzo di strumenti standard
quali, ad esempio, l’utilizzo del linguaggio XML; la Digital Forensics XML, ideata ed
implementata da Garfinkel nel 2009, é, infatti, una metodologia applicabile ad una vasta
gamma di metadati associati alle informazioni forensi ed é considerata, dalla comunitá
scientifica, uno strumento utile per l’incrocio e la validazione dei processi di carving
[(14),(15),(16)]. Analoga esigenza di standardizzazione si avverte anche per il campo
delle architetture; pertanto si cerca, oggi, di sviluppare tool di Digital Forensics il piú
possibili portabili (cross-language e multi-piattaforma).
16
2.3 Il processo di investigazione forense
2.3
Il processo di investigazione forense
La necessitá di linee guida che standardizzassero un processo di analisi forense si avvertı́
da subito, sia nel mondo accademico che nel settore operativo ed investigativo.
Nel 2001, il Laboratorio di Ricerca sulla Digital Forensics (DFRWS) identificó un
processo a sette fasi: identificazione, conservazione, raccolta, esame, analisi, presentazione e decisione [(10)]; nel 2004 il Dipartimento di Giustizia statunitense (DOJ)
pubblicó una guida per le forze dell’ordine, avente ad oggetto l’Analisi Forense delle
prove digitali [(17)]. Nella guida venivano rappresentati tre principi fondamentali per
l’indagine forense su dispositivi digitali:
• Ogni azione intrapresa ai fini della raccolta delle prove digitali non deve pregiudicarne l’integritá;
• Le persone che intervengono in questa tipologia di casi devono essere opportunamente addestrate e formate;
• Le attivitá relative al sequestro, l’esame, la conservazione o il trasferimento di dati
digitali dovrebbero essere documentati, conservati e disponibili per la revisione.
Negli anni a seguire si sono succedute tutta una serie di pubblicazione e di linee guida
per descrivere e cercare di standardizzare le operazioni di Digital Forensics Investigation. Fra questi é doveroso citare la tesi di Dottorato di Carrier B., nella quale
vengono tecnicamente spiegati i concetti di trasferimento, identificazione, classificazione, individualizzazione, associazione e ricostruzione [(18)]e la guida redatta da ACPO
(Association of Chief Police Officers) per il trattamento delle prove digitali [(19)]. Come
si puó osservare, il filo conduttore che guida tutti e tre i sopracitati approcci é sempre
il medesimo: recuperare la prova digitale per trarne conoscenza dalla sua analisi, preservandone l’integritá in modo che possa avere valenza probatoria dinanzi ad una corte
giudiziaria.
I passi principali previsti per la gestione delle cosiddette Digital Evidence (handling
steps) in un tipico workflow di investigazione forense, prevedono almeno le seguenti fasi:
identificazione, preservazione, acquisizione, analisi e presentazione [(20),(21)]. Fig. 2.2.
17
2. PANORAMICA SULLA MOBILE E COMPUTER FORENSICS
Figura 2.2: Il processo di investigazione forense -
Vediamo nel dettaglio ciascuna di esse.
2.3.1
Identificazione
La prima fase del processo di Digital Forensics Investigation é finalizzata all’identificazione dei potenziali supporti e dei dati in esso contenuti. L’aumento delle capacitá di
memorizzazione dei dati e delle funzionalitá presenti oggi su tutti i dispositivi digitali,
complica l’individuazione dei device sui quali possa effettivamente risiedere l’ipotetico
dato digitale utile ai fini dell’indagine. Si corre il rischio, infatti, di sottoporre ad analisi, per loro natura complesse e lunghe, dispositivi di nessun rilievo ai fini investigativi.
L’attivitá di identificazione deve essere certa ed univoca, in quanto l’obiettivo primario é il collegamento incontestabile di un dato col supporto dal quale é stato estratto.
Va tuttavia sottolineato che il processo di identificazione non é limitato al solo supporto
(l’hard disk, cd, chiave usb, telefono cellulare, ecc...) in cui la prova, intesa come insieme di dati é contenuta, bensı́ si estende anche sullo stesso insieme di dati e sui singoli
elementi di prova che da quest’ultima possono essere estratti. Appare, quindi, evidente
che l’identificazione non é un step a se stante, ma ricorre successivamente anche nelle
fasi di acquisizione e analisi.
18
2.3 Il processo di investigazione forense
2.3.2
Preservazione
Come l’identificazione, anche la preservazione non é un passaggio a se stante, ma che
anzi si fonde indissolubilmente con i passaggi di acquisizione ed analisi. La prova digitale viene preservata, tecnicamente, attraverso l’utilizzo di dispositivi/software c.d.
write blocker, ed operando le attivitá di analisi solo su copie/immagini forensi. Inoltre,
al fine di garantire la ripetibilitá delle evidenze digitali in sede di giudizio, gli operatori
mantengono aggiornata la cosiddetta chain of custody, ove documentano tutte le operazioni eseguite sui reperti e sulle copie forensi, anch’esse prove liberamente valutabili
da una corte giuridica. L’inosservanza di queste modalitá operative e precauzionali,
invalida la stessa valenza probatoria della prova.
2.3.3
Acquisizione
Una volta identificati i possibili supporti contenenti le informazioni rilevanti all’indagine, é necessario eseguire la copia forense dei dati presenti sul supporto, o, nei casi di
Network Forensics, in transito su una rete. Rappresenta una fase delicata del processo
perch, operazioni svolte da personale non adeguatamente addestrato e/o competente,
potrebbero portare alla distruzione di dati potenzialmente rilevanti o all’invalidazione
del supporto e/o dei dati in esso contenuti. La fase di acquisizione si compone di un
processo in tre fasi: lo sviluppo di una strategia per l’acquisizione, l’acquisizione vera
e propria, la verifica dell’integritá dei dati acquisiti.
Sviluppare un piano per acquisire i dati é un primo passo importante, nella maggior
parte dei casi, perch potrebbero esserci piú fonti potenzialmente importanti. L’analista
dovrebbe, pertanto, creare un piano che determini una prioritá alle fonti, stabilendo
l’ordine in cui i dati devono essere acquisiti. Fattori determinanti alla strategia potrebbero essere rappresentati, ad esempio, dall’esperienza pregressa in situazioni simili, che
dovrebbero aiutare l’analista a stimare il valore di ciascuna probabile fonte di dati.
Per la fase di acquisizione vera e propria, esistono, oggi, in commercio molti pacchetti
software deputati a svolgere in modo automatico questa operazione, dei quali parleremo piú nel dettaglio nel seguito dell’elaborato. Infine, la verifica dell’integritá dei dati
acquisiti, rappresenta un’operazione determinante e necessaria affinch la prova possa
assumere valore probatorio in una corte giudiziaria. A tal fine vengono calcolati, con
19
2. PANORAMICA SULLA MOBILE E COMPUTER FORENSICS
appositi strumenti software, i digest dei dati originali e copiati, quindi raffrontati per
appurare eventuali alterazioni.
2.3.4
Analisi
Una volta estratte le informazioni ritenute importanti per l’indagine forense, viene eseguito uno studio ed un’analisi dettagliata delle evidenze digitali.Le tecniche che vengono
impiegate in questa fase hanno lo scopo di studiare ed interpretare tutti gli attributi e
le caratteristiche dei singoli dati estratti che potranno essere utili anche per stabilire ad
esempio relazioni, abitudini, capacitá tecniche del sospettato. L’analisi deve condurre
alla rintracciabilitá di tutte le possibili prove informatiche utili ai fini probatori e, a tal
fine, i dispositivi di memoria odierni offrono una considerevole quantitá di informazioni.
Spesso, peró, questo processo si complica, come nel caso di dati parzialmente cancellati
che potrebbero fornire le informazioni piú interessanti. Gli operatori forensi possono
avvalersi di alcune basilari linee guida, da utilizzare per orientarsi su cosa e dove andare
a ricercare eventuali prove informatiche, e di tool forensi sviluppati proprio con questa
finalitá. Le problematiche di maggiore rilievo, per la fase di analisi, sono dovute da
una molteplicitá di cause: la variegata tipologia di dispositivi, con sistemi operativi
differenti, diversa modalitá di memorizzazione dei dati, diverse tipologie di file system
e di organizzazione della memoria. Spesso, quindi, gli operatori forensi sono costretti
ad utilizzare, per uno stesso caso, differenti toolkit o, addirittura , effettuare alcune
delicate operazioni di analisi in modo manuale.
Nella sezione dedicata alla descrizione dei prodotti forensi disponibili, si evidenzieranno le potenzialitá e le criticitá di ciascuno, con riferimento alle problematiche qui
evidenziate.
2.3.5
Presentazione
La fine del ciclo di investigazione forense, prevede la redazione di referti contenenti i
dettagli piú importanti relativi ad ogni step, compresi i riferimenti ai protocolli operativi seguiti e ai metodi impiegati per sequestrare, documentare, collazionare, preservare
e analizzare ogni singola evidenza di valenza presumibilmente probatoria. La presentazione é, quindi, una sorta di descrizione riassuntiva e conclusiva di tutto il processo
20
2.4 L’analisi forense oggi
investigativo forense che ne dá visibilitá e trasparenza a tutti gli attori coinvolti nella
causa in esame.
2.4
L’analisi forense oggi
A seconda dello stato in cui si trova il dispositivo da esaminare, l’analisi forense puó
essere condotta in due modalitá: dead o live. Nel primo caso lo strumento sul quale eseguire il processo di investigazione forense si trova in uno stato di inattivitá (es.
computer o cellulare spento); viene, quindi, sequestrato dalle autoritá preposte e trasportato presso laboratori di analisi forense per essere processato seguendo le fasi sopra
citate. A volte, peró, le forze dell’ordine si ritrovano a dover operare sulla scena del
crimine. Ad esempio nel caso in cui il dispositivo é in uno stato di attivitá o non puó
essere fisicamente rimosso o, ancora, se si ritengono utili ai fini dell’indagine le informazioni volatili. A differenza dell’analisi dead, quella live presenta delle complessitá
maggiori, in ordine alla pervasivitá delle azioni che vengono intraprese che ne determinano, spesso, l’irrepetibilitá e l’impossibilitá di utilizzo diretto in sede dibattimentale.
In tal caso, l’attivitá di documentazione dettagliata di tutte le operazioni che vengono
espletate assume un rilievo maggiore, cosı́ come é improcrastinabile il mantenimento
della catena di custodia. Un approccio che viene spesso utilizzato é la combinazione di
analisi live seguita da quella dead sulle informazioni non volatili. Fig. 2.3.
Figura 2.3: Metodi di analisi forense -
21
2. PANORAMICA SULLA MOBILE E COMPUTER FORENSICS
2.4.1
I tool per la Digital Forensics
Per venire incontro agli operatori del settore, in considerazione della proliferazione di
nuovi dispositivi da analizzare e di strumenti software per l’analisi forense, il NIST
(National Institute of Standard and Technology) ha pubblicato una delle raccolte piú
complete sulle funzionalitá e le caratteristiche degli strumenti sviluppati per le indagini
forensi [(4),(5),(6),(7),(8),(9)].
La necessitá di garantire l’affidabilitá e la rispondenza ai requisiti legislativi degli
strumenti di informatica forense ha fatto sı́ che, nel 2004, presso il NIST fosse costituito un apposito gruppo di progetto, il Computer Forensic Tool Testing (CFTT), con
l’obiettivo di delineare una metodologia per la verifica degli strumenti software a supporto dell’informatica forense. I risultati rappresentano un feedback importante per gli
sviluppatori ed un incentivo a migliorarne le caratteristiche funzionali. D’altro canto,
tali informazioni risultano essere, anche, preziose linea guida per gli utilizzatori finali
(es. forze dell’ordine) che si trovano a dover selezionare gli strumenti di Computer
Forensics, di volta in volta, piú adeguati alle casistiche investigative. La metodologia
utilizzata dal NIST é basata sui test funzionali che vanno a coprire ogni singola fase
del processo di investigazione forense.
La maggior parte degli strumenti sviluppati per le investigazioni forensi sono dotati di
strumentazione hardware a supporto che permettono all’operatore forense di collegarsi,
in modalitá forense, con il dispositivo da sottoporre ad indagine. Questo approccio ha
il vantaggio di minimizzare l’interazione con i dispositivi ed evitare eventuali alterazioni e/o corruzione dei dati, sebbene, in tal modo, non si é grado di misurare eventuali
trasformazioni che possono verificarsi in fase di trasporto dei dati stessi. Esistono anche
distribuzioni live open-source basate su Linux e corredate di tutti gli strumenti forensi
che permettono all’operatore di eseguire tutti i passaggi del processo, dall’acquisizione
dei dati sino alla presentazione finale dei risultati. Vediamo le caratteristiche principali
degli strumenti piú utilizzati dagli specialisti del settore, sia per la Computer che la
Mobile Forensics.
22
2.4 L’analisi forense oggi
2.4.2
Access Data Forensics Toolkit
Si tratta di un toolkit di estrazione ed analisi forense molto utilizzato in tutto il mondo
dagli esperti del settore. Fra le sue caratteristiche piú evolute, si annoverano il recupero e l’analisi di password, di e-mail, contatti, oltre alle normali funzionalitá presenti
sui personal computer. Permette di effettuare l’immagine della sorgente in modalitá
forense e di mantenere aggiornata la catena di custodia, attraverso moduli di reportistica e archiviazione dei casi esaminati. E’ intuitivo grazie ad un interfaccia grafica
facile e personalizzabile. Permette di effettuare, altresı́, elaborazioni distribuite per
ridurre drasticamente i tempi, nei casi piú complessi ove la quantitá di informazioni da
analizzare sono molto elevate [(22)].
2.4.3
Encase
Anche la suite di prodotti forensi di Encase é largamente utilizzata dalle forze dell’ordine e riconosciuta come uno dei piú validi supporti di investigazione nell’ambito
della Digital Forensics. Si tratta di un software modulare, contenente diversi moduli,
ognuno deputato ad espletare una fase del processo di investigazione forense. A partire
dall’acquisizione dei dati da disco o dalla RAM, quali documenti, immagini, e-mail,
webmail, navigazione Internet (cache, ricostruzione di pagine HTML), sessioni di chat,
file compressi, file di backup, file criptati, sia per workstation che per smartphone e
tablet. Ovviamente, permette di eseguire la copia bit a bit delle sorgenti e la verifica
dell’integritá della stessa attraverso la generazione di hash, per la validitá e la presentazione in ambito procedimentale. Come altri software, anche Encase permette di
mantenere la catena di custodia e di elaborare reportistica riepilogativa delle evidenze
digitali ritrovate [(23)].
2.4.4
CAINE (Computer Aided INvestigative Environment)
Si tratta di una delle distribuzione live di linux per la Computer Forensics. Sviluppato
in Italia, integra software per la forensics, presentandoli con interfacce grafiche che
rendono piú agevole il lavoro investigativo. Le caratteristiche principali si possono cosı́
riassumere:
• ambiente interoperabile che supporta l’investigatore digitale durante le quattro
fasi dell’indagine digitale;
23
2. PANORAMICA SULLA MOBILE E COMPUTER FORENSICS
• interfaccia grafica user friendly;
• compilazione semi-automatica della relazione finale.
Al suo interno sono inclusi script progettati per rendere semplice l’esame delle evidenze
digitali recuperate [(24)].
2.4.5
DFF (Digital Forensics Framework)
DFF é sia uno strumento di investigazione digitale che una piattaforma di sviluppo.
Il framework é utilizzato dagli amministratori di sistema, dalle forze dell’ordine, da
ricercatori e studenti in Digital Forensics, ma anche da professionisti della sicurezza in
tutto il mondo. Scritto in Python e C + +, utilizza esclusivamente tecnologie Open
Source. DFF combina un’interfaccia utente intuitiva con una architettura modulare e
multi-piattaforma.
La funzione di base riguarda l’aggregazione delle informazioni e l’analisi metodologica di volumi, file system, dati utente e applicazioni, fra i quali l’estrazione dei metadati,
cancellati e nascosti oggetti. Le informazioni vengono processate su macchine virtuali
di sola lettura, preservando cosı́ l’integritá e l’autenticitá dei dati [(25)].
2.4.6
Paraben Device Seizure
Si tratta di un tool avanzato di acquisizione forense ed analisi dei telefoni cellulari, PDA
e dispositivi GPS. Permette di effettuare sia l’acquisizione logica della sorgente, ma
anche quella fisica, aiutando l’investigatore ad intercettare altresı́ dati cancellati, anche
solo parzialmente, quali ad esempio testo di messaggi, immagini, video, etc. Supporta
la stragrande maggioranza dei device mobili in commercio e permette l’acquisizione
praticamente di tutte le informazioni reperibili su tali dispositivi [(26)].
2.4.7
XRY
XRY é un software progettato per girare sul sistema operativo Windows e consente di
eseguire estrazioni forensie dei dati da una vasta gamma di dispositivi mobili, come
smartphone, unitá di navigazione GPS, modem 3G, lettori di musica portatili e i piú
recenti tablet, come l’iPad. Poich la maggior parte dei dispositivi mobili non condividono gli stessi sistemi operativi , ma anzi hanno configurazioni e caratteristiche univoci,
24
2.4 L’analisi forense oggi
XRY é stato progettato e sviluppato per facilitare tale processo, supportando 5.971
diversi dispositivi mobili. Oltre all’acquisizione logica e fisica dei dati, XRY presenta una terza modalitá definita completa che combina le precedenti e che permette di
confrontare eventuali differenze di risultato tra i due metodi di recupero [(27)].
2.4.8
MobileEdit Forensics
MobileEdit Forensics é uno strumento software sviluppato per eseguire investigazioni
forense su dispositivi mobili. Apprezzato dal NIST, risulta utilizzato in piú di 70 paesi. Il suo funzionamento risulta molto semplice ed intuitivo, basta, infatti, collegare il
dispositivo cellulare alla workstation dov’é installato il software, perché venga automaticamente riconosciuto il dispositivo. Permette l’estrazione delle evidenze digitali e produce una reportistica dettagliata, in diverse lingue e formati, per la presentazione delle
prove innanzi ad un tribunale. Per garantire l’integritá delle evidenze digitali estratte,
MobileEdit Forensics opera in modalitá di sola lettura, verificando l’attendibilitá delle
informazione attraverso l’apposizione di hashing MD5 [(28)].
2.4.9
UFED
UFED, acronimo di Universal Forensics Extraction Device, é considerato il miglior tool
di acquisizione forense dati estraibili da telefoni cellulari, smartphone e PDA. Rispetto
agli altri prodotti della medesima categoria, non ha bisogno di un computer su cui
girare, in quanto é dato giá in dotazione di un apparato hardware ad hoc che é in grado
di estrarre informazioni quali, ad esempio, la rubrica, le immagini della fotocamera, file
video e audio, messaggi di testo, registri delle chiamate, codici IMEI, ICCID e IMSI.
Opera su piú di 3.000 modelli di device mobili e permette, altresı́, la clonazione ID della
SIM consentendo l’analisi del telefono senza alcun collegamento in rete e la creazione
di una identitá SIM duplicato dell’originale [(29)].
2.4.10
MIAT (Mobile Internal Acquisition Tool)
E’ un software open source per la Mobile Forensics, progettato per acquisire i dati,
con accesso in sola lettura, direttamente dalla memoria interna del dispositivo senza
l’utilizzo di hardware esterno [(30)]. Questo comporta degli enormi vantaggi per gli
operatori forensi che non hanno necessitá di equipaggiarsi con cavi e periferiche di ogni
25
2. PANORAMICA SULLA MOBILE E COMPUTER FORENSICS
tipo e dimensione, a seconda del telefono da analizzare, ma é sufficiente detenere una
micro SD forense, sulla quale é contenuto il sorgente di MIAT e sulla quale vengono,
in seguito, memorizzate le informazioni acquisite. MIAT calcola un hash MD5 prima
e dopo la copia di ciascun file, al fine di evidenziare eventuali corruzioni. Inoltre, a
differenza degli altri software per la Mobile Forensics, MIAT non necessita di un sorgente intermediario fra la workstation forense e il dispositivo cellulare da analizzare; ció
implica un grado di garanzia dell’integritá e verificabilitá dell’informazione piú elevate
[(31)] Fig.2.4.
MIAT é stato sviluppato per i sistemi operativi Symbian e Windows
Figura 2.4: Modalitá operativa di MIAT -
Mobile con risultati soddisfacenti. Dal confronto con Paraben Device Seizure si é osservato che, relativamente alla garanzia di integritá dei dati successiva all’acquisizione,
MIAT ha risposto nel medesimo modo per entrambe le versioni Fig. 2.5,2.6. Relativamente ai tempi di acquisizione dei dati, MIAT risulta piú lento rispetto a Paraben;
ció dipende principalmente dal tipo di dispositivo e dalla tipologia di file system oltre
che alla modalitá di acquisizione logica sui dati [(32)]. I risultati di questo lavoro sono
consultabili agli articoli [(31),(32)] della bibliografia.
26
2.4 L’analisi forense oggi
Figura 2.5: I risultati di MIAT, versione per Symbian, comparati con il tool
Paraben Device Seizure -
Figura 2.6: I risultati di MIAT, versione per Windows Mobile, comparati con
il tool Paraben Device Seizure -
27
2. PANORAMICA SULLA MOBILE E COMPUTER FORENSICS
28
3
Triage & Digital Forensics
3.1
Introduzione
La quantitá crescente di informazioni ritenute utili ai fini investigativi, correlata all’aumento delle capacitá dei supporti digitali e alla dinamicitá con cui si evolvono le
tecnologie, ha comportato un aggravio del lavoro di investigazione digitale forense e
la necessitá di personale sempre piú qualificato ed esperto in tecnologia, oltre che in
materie giuridiche. Gli investigatori avvertono, pertanto, prevalente l’esigenza di poter
individuare velocemente i dispositivi che potrebbero contenere evidenze digitali utili ai
fini probatori. Sia i ricercatori universitari di tutto il mondo, che le case produttrici di
prodotti software a supporto della forensics, si sono rivelati sensibili a queste esigenze.
Negli ultimi anni, pertanto, si é potuta osservare una proliferazione di approcci metodologici ed implementazioni commerciali che hanno l’obiettivo comune di rendere piú
efficace e veloce l’attivitá investigativa nel campo della Digital Forensics.
Il concetto di triage trae la sua naturale origine e collocazione nel settore medico ospedaliero; un approccio metodologico attuato nei pronto soccorsi per individuare velocemente i sintomi e la gravitá patologica dei pazienti, al fine di assegnare a ciascuno
un codice con livello di prioritá piú o meno alto ed intervenire seguendo tale lista di
precedenza [Fig.3.1].
Il medesimo concetto é stato traslato ed applicato al settore della Digital Forensics
Investigation ed, in particolare, nei casi di live forensics investigation, ovvero quando
29
3. TRIAGE & DIGITAL FORENSICS
Figura 3.1: Processo di triage nel settore medico-ospedaliero -
le forze dell’ordine hanno la necessitá di operare sulla scena del crimine e/o nell’immediatezza del fatto, ad esempio perché dati o informazioni potrebbero andar perse
o essere danneggiate nel caso di spegnimento o/e trasporto del dispositivo nei laboratori utilizzati all’uopo. In tali casi strumenti e processi di triage possono rendere
immediatamente evidenti prove che, altrimenti, andrebbero irrimediabilmente perdute
Fig.3.2. Rappresentano un tipico esempio investigazioni che interessano sistemi critici,
nel campo militare o governativo, database condivisi, o ancora in situazioni ove occorre individuare subito responsabilitá in ambienti condivisi e per evidenziare subito
le informazioni piú rilevanti rispetto a quelle secondarie. D’altro canto procedure di
live forensics determinano irrimediabilmente, dal punto di vista legale, l’irripetibilitá
delle attivitá , inoltre senza opportune cautele si rischia di inquinare il reperto o di
tralasciare, per mancanza di tempo, evidenze apparentemente poco significative.
In questo capitolo vengono descritti i lavori scientifici piú rilevanti nel contesto sopra
descritto, considerati propedeutici ed introduttivi al capitolo seguente nel quale verrá
dettagliata la metodologia sviluppata come risultato obiettivo di questa tesi di dotto-
30
3.2 Un nuovo supporto alle investigazioni digitali
Figura 3.2: Traige methodology -
rato. A titolo di completezza vengono evidenziati, altresı́, alcuni prodotti commerciali
giá disponibili sul mercato sviluppati secondo la metodica del triage.
3.2
Un nuovo supporto alle investigazioni digitali
Come giá premesso, nel corso degli ultimi anni, il settore della Digital Forensics ha
assistito ad una proliferazione di teorie e strumenti finalizzati ad agevolare e coadiuvare le attivitá investigative, rendendo piú efficace il recupero delle evidenze digitali
dai supporti, secondo modalitá e tecniche che non ne inficiassero la valenza probatoria.
Un nuovo settore di ricerca si é concentrato sul concetto di triage al fine di classificare
gruppi di dispositivi sequestrati e/o sottoposti ad analisi investigativa e individuare
rapidamente quelli piú rilevanti ai fini probatori. La metodologia del triage puó essere
applicata in due modalitá: live o post mortem a seconda del tipo di analisi forense che
si vuole e si puó adottare, in relazione, altresı́, allo stato in cui si trova il supporto
digitale al momento del repertamento.
Per alcune fattispecie criminose specifiche, quali ad esempio omicidio, minacce, rapimento, solo per citarne alcuni, la tempestivitá dell’azione investigativa e l’individuazione rapida di prove digitali, attraverso metodiche di live triage, puó diventare di vitale
importanza per la presunta vittima, in quanto fornisce alle forze dell’ordine indizi rilevanti e discriminanti per la loro attivitá. D’altro canto, quando lo scopo investigativo si
concentra sulla individuazione di evidenze digitali probatorie reperibili da una molteplicitá di dispositivi sequestrati, metodi di triage post mortem che riescono a classificare
31
3. TRIAGE & DIGITAL FORENSICS
e conferire prioritá a ciascun dispositivo, possono rappresentare un valido supporto e
semplificare la successiva fase di analisi forense, nel senso classico del termine.
Un primo approccio metodologico di live forensics triage, definito “Computer Forensics
Field Triage Process Model (CFFTPM)”, viene descritto da Rogers M. K. et al. nel
2006 nell’ambito della conferenza scientifica Conference on Digital Forensics, Security
and Law. La metodologia si presenta innovativa da un punto di vista teorico in quanto
propone un approccio on site, sulla scena del crimine o nel luogo del ritrovamento del
dispositivo digitale, atta ad identificare, analizzare ed interpretare le prove digitali in un
breve lasso di tempo, senza la necessitá imminente che la sorgente venga trasportata in
laboratorio e ne venga effettuata una immagine forense. Il modello aderisce ai principi
forensi descritti nei capitoli precedenti e, d’altro canto, non impedisce agli operatori di
condurre, successivamente alla fase di triage, le indagini secondo il classico processo a
cinque fasi.
Il Computer Forensics Field Triage Process Model (CFFTPM) [Fig.3.3] viene definito come un processo investigativo effettuato nell’immediatezza del fatto, finalizzato a
reperire prove immediatamente utilizzabili dagli inquirenti, identificare le potenziali
vittime a rischio e guidare le indagini in corso evitando ulteriori ipotesi di delinquere
e che, allo stesso tempo, preserva l’integritá delle prove.Il modello implementa le varie
fasi utilizzando i risultati derivati dal processo di Carrier B. e Spafford E., “Integrated
Digital Investigation Process model ” (IDIP) [(33)] e implementato da Rogers M. “Digital Crime Scene Analysis” (DCSA) nel 2006 [(34)]. Come si evince dalla figura 3.3,
il CFFTPM si sviluppa in un workflow a sei fasi: la pianificazione, il triage, l’identificazione del profilo di utilizzo dell’utente, la ricostruzione temporale delle attivitá, la
ricostruzione della navigazione internet ed, infine, l’identificazione delle prove dello specifico caso. Senza entrare nel dettaglio delle singole fasi della metodologia, ampiamente
argomentate dagli autori nell’articolo [(35)], ci soffermiamo solo a quella di triage, in
quanto ritenuta significativa da un punto di vista teorico applicativo all’approccio metodologico oggetto di questo elaborato di ricerca.
Nell’ambito del CFFTPM, infatti, con il termine triage viene identificata la fase durante la quale gli elementi di prova e/ o i loro potenziali contenitori, vengono classificati
in termini di importanza o prioritá. In altre parole, i dispositivi digitali che potenzialmente potrebbero contenere al loro interno evidenze probatorie importanti o volatili,
devono essere identificati per primi e in un lasso di tempo ragionevolmente breve. Per
32
3.2 Un nuovo supporto alle investigazioni digitali
Figura 3.3: Il modello di processo del Computer Forensics Field Triage - Rogers
M. K. et al.
33
3. TRIAGE & DIGITAL FORENSICS
la prima volta, quindi, la piatta sequenza di operazioni che, usualmente, vengono portate avanti per l’estrapolazione delle prove, diventa dinamica grazie all’introduzione
dell’elemento discriminante basato sulla prioritá e sull’importanza del dispositivo nel
contesto criminale ed investigativo specifico.
Piú recentemente, i ricercatori R. P. Mislan et al. in “The growing need for on-scene
triage of mobile devices” [(36)], hanno formalizzato, nel settore della Mobile Forensics,
il processo di triage sulla scena del crimine, fornendone le linee guida per la standardizzazione e i requisiti di base necessari a strumenti di triage automatizzati. L’obiettivo
sotteso é quello di aiutare gli operatori forensi ad individuare velocemente
evidenze digitali che potrebbero avere un potenziale valore probatorio. Allo
stesso tempo, strumenti automatici che implementino tale metodologia devono risultare
semplici da utilizzare e capaci di raccogliere tutte le informazioni rilevanti all’attivitá
investigativa.
R. P. Mislan et al. sottolineano l’importanza della tecnica di triage forensics sulla scena del crimine, in quanto propedeutico ad una successiva e piú dettagliata analisi in
laboratorio, ma altresı́ perché tale attivitá puó essere condotta, nell’immediatezza del
fatto, anche da tecnici non specializzati in analisi forense. In particolare, tecniche di
live forensics triage risultano essere preziose quando viene richiesto agli investigatori di
rispondere rapidamente ad un’ipotesi di reato o quando si delineano altri aspetti non
strettamente forensi, come la gravitá del caso, indizi o circostanze connesse ad altre
evidenze digitali elaborate. L’individuazione rapida di informazioni possibili fonti di
prova, aiuta gli investigatori a prendere decisioni piú consapevoli sulla prosecuzione
dell’indagine stessa. A partire dai concetti teorico metodologico sopra esposti, anche
il settore applicativo e tecnologico, negli ultimi due anni, ha sviluppato strumenti commerciali che permettono di implementare il cosiddetto live triage, agevolando le forze
dell’ordine nell’individuazione e repertamento rapido di evidenze digitali ritenute indizi
o prove rilevanti per la prosecuzione delle indagini investigative. Fra questi Spektor
di DELL [(37)], un kit forense portatile in grado di estrapolare dai dispositivi digitali,
ritrovati sulla scena del crimine, informazioni di sistema, navigazione internet, parco
applicativo, contenuti (anche cancellati), che, in seguito, possono essere elaborati, con
un grado di dettaglio maggiore, nei laboratori forensi. A differenza di altri tool, quali
le distribuzioni live di linux come Helix, Knoppix, Caine, Spektor di DELL si presenta
di facile utilizzo anche per utilizzatori meno esperti.
34
3.3 Nuovi orientamenti
Un approccio simile viene adottato da Access Data Toolkit AD Triage [(38)] che permette di cercare i dati, anche, impostando dei criteri, quali parole chiave, hash, espressioni
regolari, dimensione del file, data e ora, estensioni, etc.
3.3
Nuovi orientamenti
Piú recentemente la ricerca scientifica nel campo della digital forensics ha ampliato le
proprie prospettive combinando i principi dell’informatica forense classica con i metodi
statistici derivanti dai settori del Data Mining e del Machine Learning [(39)]. Veena et.
al propongono un approccio unificato per la generazione, memorizzazione ed analisi dei
dati recuperati da device digitali che hanno valore di prova. Per convalidare l’attendibilitá dei dati pre-processati, viene utilizzato un approccio statistico, applicato nel
contesto di investigazione forense su dispositivi flash. Il framework proposto puó essere
sinteticamente riassunto nella Fig.3.4
Figura 3.4: Approccio unificato alla digital investigation - Veena et. al
E’ interessante osservare come, dopo la fase di estrazione dei dati, venga operata prima
una trasformazione degli stessi al fine di convertirli in un formato standard; quindi,
prima di essere analizzati da Data Mining server, vengono validati statisticamente utilizzando dei test ad hoc (test di sfericitá di Bartlett e la misura di adeguatezza del
campionamento di Kaiser-Meyer-Olkin (KMO)).
Il data set cosı́ elaborato, viene processato dal Data Mining server sul quale vengono applicati prima algoritmi di clustering (nel caso specifico l’algoritmo é il Simple
Kmeans), quindi effettuata una classificazione ad albero attraverso l’algoritmo C4.5.
35
3. TRIAGE & DIGITAL FORENSICS
Tecniche di Data Mining sono state applicate alla forensics anche per individuare reati
legati alle frodi finanziarie o per addestrare sistemi evoluti di Intrusion Detection e
rilevare attacchi ai sistemi informatici [(40),(41)].
L’argomento é, attualmente, molto sentito e dibattuto nel mondo accademico; proprio
di recente alcuni ricercatori dell’Universitá di Cagliari hanno pubblicato un articolo nel
quale dissertano sull’importanza delle tecniche di Machine Learning combinate a quelle della Computer Forensics e le possibili applicazioni ed evoluzioni di questo settore
di ricerca interdisciplinare [(42)]. In particolare, vengono messe in risalto le attuali
implementazioni di apprendimento automatico finalizzate a coadiuvare e migliorare il
settore investigativo forense. E’, ad esempio, il caso delle analisi testuali eseguite sulle
e-mail, a volte anonime, per individuarne la paternitá [(43),(44),(45)] o ancora, come
nel caso della Network Forensics, dove gli algoritmi di machine learning permettono
di classificare flussi di rete in condizioni normali e non, in modo da evidenziare eventuali host coinvolti in un attacco informatico [(46)]. Spesso peró la scarsa conoscenza
del dominio applicativo e la mancanza di data set rappresentativi di situazioni reali,
rischia di produrre soluzioni non corrette o naive. Per tale motivo quando vengono
adottate tecniche di Machine Learning per affrontare problematiche relative ad uno
specifico dominio applicativo, come nel caso della Computer Forensics, é assolutamente
indispensabile raccogliere e definire accuratamente , con l’aiuto di esperti del dominio
d’interesse, i dati, la rappresentazione delle feautures e delle classi [(47)].
36
4
Un approccio quantitativo al
Triage nella Digital Forensics
I risultati esposti in questo capitolo sono stati pubblicati negli articoli (48),(49),(50),(51)
4.1
La metodologia fase per fase
Secondo quanto la letteratura in materia ci insegna, l’ormai consolidato processo di
investigazione forense su dispositivi digitali si sviluppa secondo un flusso operativo che
prevede almeno cinque fasi fondamentali: identificazione, preservazione, acquisizione,
analisi e presentazione Fig.[4.1,(52)].
Figura 4.1: Digital Forensics Research Workshop - [10]
37
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
Nell’approfondire le tecniche e le metodologie di Digital Forensics, che negli anni
si sono susseguite e si sono evolute, si é potuta osservare una certa inadeguatezza del
tradizionale processo forense a rispondere in modo efficace e veloce ad alcune esigenze
investigative. I tempi di risposta che permettono di estrapolare dalle evidenze digitali
quelle che sono candidate a divenire prove dibattimentali, aumentano piú che proporzionalmente con il numero di reperti sequestrati. Ció a causa sequenzialitá con la quale
vengono analizzati dagli operatori, in mancanza di caratteristiche discriminanti che ne
possano determinare la maggiore o minore importanza, ad esempio, in relazione al caso
investigativo e/o al tipo di reato presumibilmente commesso.
A fronte di questa considerazione e da quanto emerso dall’esperienza maturata sul campo dal personale specializzato della Polizia Postale e delle Comunicazione, si é deciso
di implementare una modifica metodologica al classico processo investigativo, introducendo una fase intermedia tra quelle di acquisizione ed analisi, denominata Triage, con
l’obiettivo di delimitare l’area di interesse delle investigazioni ad un numero di reperti
che presentano caratteristiche discriminanti ritenute piú rilevanti per l’indagine specifica, in relazione al particolare contesto criminale.
L’approccio metodologico implementato si é ispirato a quei modelli che hanno introdotto il concetto di triage applicato alle indagini ’live’, quali CFFTPM, proponendo, peró,
uno schema alternativo basato sulla selezione ’post-mortem’ dei reperti maggiormente
interessanti dal punto di vista investigativo, contestualizzati alla particolare fattispecie
criminale. In questo capitolo viene descritta, passo per passo, la metodologia sviluppata
ed applicata sia in ambito Mobile che Computer Forensics, con l’obiettivo di semplificare il processo di analisi investigativa su supporti digitali, introducendo il concetto
di prioritá correlato al tipo di reato commesso attraverso l’utilizzo del reperto digitale.
Si é cercato di ridurre, cosı́, la complessitá delle competenze di natura tecnica, oggi
necessarie a coloro che operano nel settore delle investigazioni digitali, uniformando
tecniche, metodologie e strumenti.
Allo scopo é stato applicato il concetto medico di triage alla Digital Forensics effettuata
su reperti freddi (c.d. analisi dead ), per classificare gruppi di dispositivi sequestrati
e/o sottoposti ad analisi investigativa e individuare rapidamente quelli piú rilevanti ai
fini dell’indagine.
Il flusso di lavoro proposto si compone di tre fasi, schematizzate nella Fig.[4.2 seguente,
e dettagliate nei paragrafi seguenti.
38
4.2 Raccolta dei referti investigativi
Figura 4.2: Il processo di Triage per la Digital Forensics - Le fasi della metodologia
4.2
Raccolta dei referti investigativi
Il processo operativo del triage, nel contesto della metodologia proposta, prende in input
una raccolta di referti elaborati da reperti di persone condannate per tipiche fattispecie
criminali, nonché dati derivanti da acquisizioni effettuate sui dispositivi sottoposti a
sequestro giudiziario Fig.[4.3. Queste ultime vengono eseguite presso i laboratori forensi
avvalendosi dei strumenti all’uopo implementati, che producono copie fedeli ai supporti
originali mediante la procedura di bit streaming, ovvero riproducendo sia i dati presenti
sul supporto, ma anche le tracce di quelli cancellati, nascosti o crittografati.
Allo scopo sono stati impiegati vari strumenti di estrazione dei dati in modalitá forense,
molti dei quali sono stati giá brevemente descritti [22]. In particolare nel caso della
Mobile Forensics ci si é avvalsi di Paraben Device Seizure, XRY, MobilEdit ed UFED
[(26),(27),(28),(29)], mentre per l’estrazione dei dati da hard disk sono stati adoperati
script bash basati su Sleuthkit e ambienti linux-live per la forensics, quali CAINE,
DEFT, DFF [(53),(23),(24),(25)].
I vari strumenti sono stati scelti di volta in volta sulla base delle loro caratteristiche
funzionali e le capacitá correlandole ai modelli, ai sistemi operativi e ai tipi di file
system presenti sui reperti indagati.
Ove lo strumento lo prevedesse, gli output sono stati prodotti in formato elettronico tipo
CVS (Comma-Separated Value) per facilitare le successive operazioni di elaborazione
ed interrogazione dei dati. Nei casi in cui l’attivitá di estrazione dei dati fosse giá stata
eseguita dagli operatori della Polizia Postale e delle Comunicazioni, i referti investigativi
si sono ottenuti anche in formati differenti, ad esempio file di testo o report in formato
39
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
html.
Figura 4.3: Il flusso per la raccolta dei referti investigativi - Prima fase del processo
di Triage per la Digital Forensics
4.3
Normalizzazione dei dati ed estrazione delle feautures
Una volta raccolti i referti investigativi e i report prodotti dall’estrazione forense dei
dati, il processo prosegue con l’attivitá di normalizzazione dei dati ed estrazione delle caratteristiche. L’obiettivo prefissato é l’estrazione dai dispositivi delle cosiddette
evidenze digitali, ovvero di quelle informazioni generate, memorizzate e trasmesse in
formato digitale e deputate ad assumere un possibile valore probatorio per la specifica fattispecie criminosa. In accordo con i principi derivanti dal Knowledge Discovery
Process [(54)], i dati raccolti sono stati dapprima normalizzati, al fine di eliminare i disallineamenti di output prodotti dai vari strumenti di estrazione forense, quindi caricati
in un database. Questa fase risulta fondamentale per eliminare quelli che in letteratura
vengono definiti outliers, ovvero valori inconsistenti, anomali, incompleti e/o ridondanti
che potrebbero falsare la classificazione degli stessi. Pertanto, prima di sottomettere il
data set al processo di classificazione, si sono adottate tecniche di pre-processamento.
In particolare sono stati eseguiti i seguenti passaggi:
40
4.3 Normalizzazione dei dati ed estrazione delle feautures
1. Data Cleaning , consistente nella ripulitura del dato per eliminare rumore (cd.
noise reduction) e trattare i casi di dati mancanti,
2. Relevance Analysis, per individuare gli attributi non rilevanti per l’analisi
oppure ridondanti,
3. Data Transformation, consistente nell’attivitá di normalizzazione, in modo
che i dati assumano valori in determinati intervalli, e generalizzazione degli stessi
a livelli concettuali piú elevati.
I valori cosı́ ottenuti sono stati memorizzati in un database sul quale sono state effettuate delle elaborazioni di tipo sia statistico-quantitative che qualitativo-nominale, che
hanno permesso di produrre gli attributi (feautures) caratterizzanti il nostro data set.
La scelta delle feautures é stata oculatamente effettuata sulla base dell’esperienza maturata negli anni da parte degli operatori di polizia, le cui osservazioni ci hanno aiutato
ad individuare le informazioni che, di volta in volta, sulla base del tipo di crimine specifico presentano parametri e valori discriminatori. Ad esempio, nel caso del reato di
pedofilia, analizzato in seguito come caso di studio, si nota un elevato numero di file
video e di immagini presenti sui reperti, spesso scaricati dalla rete e memorizzati in
locale sul dispositivo. Cosı́ come puó rappresentare un valore discriminatorio, per il
reato di stalking, la percentuale di telefonate effettuate verso un dato numero, la loro
durata e l’arco temporale. Per la costruzione del data set, sono stati considerati reperti
mobili sia di tipo tradizionale (GSM) che i piú evoluti smartphone contenenti anche
informazioni multimediali, per i quali le forze dell’ordine hanno dimostrato l’utilizzo
per scopi illeciti per tipologie di reato quali: pedofilia, estorsione, omicidio, spionaggio
industriale, stalking. Oltre ai dati riguardanti la cronologie delle chiamate, i contatti
presenti nella rubrica telefonica, la navigazione internet e la messagistica, sono state
eseguite elaborazioni statistiche per determinare, ad esempio, sul totale delle chiamate
effettuate, il numero telefonico piú contattato o messaggiato, correlato, ove possibile,
anche ad uno slot temporale suddiviso per fasce nell’arco di una determinata data. E
ancora, in presenza di file, si sono calcolate quantitá e percentuali di quelli prodotti
e/o scaricati suddivisi per tipologia. In particolare nel contesto della Mobile Forensics,
sono state individuate 114 feautures afferenti alle seguenti informazioni:
• Modello del telefono;
41
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
• Numero di contatti presenti in rubrica;
• Numero di chiamate ricevute, perse, effettuate (anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Percentuale di chiamate ricevute, perse, effettuate (anche suddivise per arco
temporale durante il mattino, pomeriggio e sera);
• Numero di chiamate ricevute, perse, effettuate correlate ad un numero specifico
(anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Percentuale di chiamate ricevute, perse, effettuate correlate ad un numero specifico (anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Durata media delle chiamate ricevute, perse, effettuate anche suddivise per arco
temporale durante il mattino, pomeriggio e sera);
• Numero di sms/mms ricevuti ed inviati (anche suddivise per arco temporale
durante il mattino, pomeriggio e sera);
• Percentuale di sms/mms ricevuti ed inviati (anche suddivise per arco temporale
durante il mattino, pomeriggio e sera);
• Numero di sms/mms ricevuti ed inviati correlate ad un numero specifico (anche
suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Percentuale di sms/mms ricevuti ed inviati correlate ad un numero specifico
(anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Numero di file scaricati e prodotti suddivisi per tipologia (video, immagini, audio);
• Percentuale di file scaricati e prodotti suddivisi per tipologia (video, immagini,
audio);
• Numero di URL visitate (anche suddivise per arco temporale durante il mattino,
pomeriggio e sera);
• Percentuale di URL visitate (anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
42
4.3 Normalizzazione dei dati ed estrazione delle feautures
• Numero di URL memorizzate nei bookmarks;
• Numero di email inviate e ricevute;
• Numero di note memorizzate.
Nel contesto della Computer Forensics, l’individuazione degli attributi é stata effettuata
mantenendo elevato il grado di astrazione dal sistema operativo e suddividendo i dati
per macrocategorie attinenti ai file di configurazione del sistema, software installato,
elaborazione di statistiche sui file (inclusi i file e le cartelle cancellati), cronologia del
browser e del registro eventi di sistema. Nel dettaglio si sono calcolati i seguenti 45
attributi:
• Numero di applicazioni installate;
• Numero di applicazioni suddivise per categoria funzionale (chat, Communication, Instant Messaging, Peer to peer, per la crittografia, browser, utilitá, per la
conversione di file, di forensics,);
• Numero e percentuale di URL visitate e suddivise per tipologia di siti (hacking,
illegali);
• Numero e percentuale di file (audio, video, MP3, ISO, PDF, compressi, office,
criptati) prodotti, scaricati e suddivisi anche per dimensione.
É bene precisare che il data set cosı́ costruito risulta sempre strettamente correlato
alla relazione che intercorre tra il possibile imputato condannato e il reperto sottoposto
ad indagine forense nel contesto di fattispecie criminose specifiche. Il flusso operativo,
schematizzato in Fig.[4.4], termina con la creazione della struttura dati definita Input
Matrix (Fig.4.5,4.6), una matrice NxM in cui si riportano, nella colonna di sinistra
tutti gli attributi (feautures) elaborati e nelle colonne seguenti i rispettivi valori, di
tipo numerico o nominale, per ogni singola istanza rappresentativa i reperti analizzati.
Di fatto la input matrix non é altro che la rappresentazione dei dati di input (c.d. data
set) per il successivo passo della metodologia che prevede l’esecuzione di tecniche di
classificazione, meglio descritte nel paragrafo seguente.
43
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
Figura 4.4: Il flusso di normalizzazione dei dati ed estrazione delle feautures Seconda fase del processo di Triage per la Digital Forensics
Figura 4.5: Esempio di input matrix - Contesto della Mobile Forensics
44
4.4 Classificazione e triaging
Figura 4.6: Esempio di input matrix - Contesto della Computer Forensics
4.4
Classificazione e triaging
Lo step della metodologia, definito classificazione dei dati & triaging, adotta tecniche
di classificazione supervisionata, allo scopo di acquisire conoscenza dalle feautures individuate per predire il grado di utilizzo del proprietario del reperto, relazionandolo
sempre al tipo di reato commesso.
Questa attivitá é stata eseguita avvalendosi del supporto di WEKA [(55)], un pacchetto software open source, ideato ed implementato dall’Universitá di Waikato in Nuova
Zelanda, che al suo interno implementa una vasta collezione di algoritmi di Machine
Learning per attivitá di Data Mining. WEKA contiene al suo interno strumenti per il
pre-processing dei dati, per la classificazione e la regressione, per il clustering, per le
regole di associazione e per la visualizzazione.
L’obiettivo generale di un processo di classificazione é quello di analizzare i dati in input
e sviluppare un’accurata descrizione o un modello per ogni classe, usando le caratteristiche (espresse nel nostro caso dagli attributi elaborati nello step precedente) presenti
nei dati. Gli algoritmi di classificazione permettono di identificare schemi o insiemi
di caratteristiche che definiscono la classe cui appartiene un dato record. In genere,
partendo dall’utilizzo di insiemi esistenti e giá classificati, si cerca di definire alcune
regolaritá che caratterizzano le varie classi. Le descrizioni delle classi vengono usate
per classificare records, di cui non si conosce la classe di appartenenza, o per sviluppare
una migliore conoscenza di ogni classe nel data set.
Nel caso di studio esaminato, gli algoritmi di classificazione utilizzati sono stati applicati a dei data set costituiti dalle feautures di cui al [40], con la finalitá di definire
45
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
un modello per ogni classe individuata, (ad es. base, medio, esperto), sulla base dell’utilizzo del reperto da parte del proprietario. Prima di specificare nel dettaglio il
processo di classificazione eseguito nel terzo step della metodologia proposta ed i risultati ottenuti, che saranno oggetto del prossimo capitolo, si richiamano brevemente
alcuni fondamentali concetti di carattere teorico sulla materia. In letteratura esistono
due tipi di approccio all’apprendimento automatico [(56)] :
- apprendimento supervisionato, si pone l’obiettivo di prevedere, dato un elemento di cui si conoscono un insieme di parametri (feauture), il valore di un diverso
parametro di output relativo all’elemento stesso. A tal fine, nell’apprendimento
supervisionato, viene definito un modello (pattern) mediante l’apprendimento da
insiemi di esempi. Il problema é definito a partire da un insieme T di elementi
(training set) descritti dai valori assunti da un insieme X di feautures considerate
come input del problema. In altri termini, a partire dalla conoscenza del training
set T formato da elementi ciascuno dei quali é descritto da una coppia di valori
(xi , yi ) , dove xi é il vettore dei valori delle d feautures xi1 , ...xid e yi é il relativo output, si deriva un modello della relazione sconosciuta tra features e valori
di output, che consenta, dato un nuovo elemento x, di predire il corrispondente
valore di output y.
- apprendimento non supervisionato o clustering, in assenza di un valore
corretto di output che funga da riferimento, non é possibile misurare la correttezza
della soluzione trovata rispetto ad una soluzione corretta (almeno nel training set
e nel test set), ma solo effettuare una valutazione del modello ottenuto sulla base
della misura di verosimiglianza dell’insieme di elementi considerato, rispetto al
modello ottenuto.
Nel caso della classificazione supervisionata, il processo di Machine Learning si compone
di due fasi :
- Learning o addestramento, durante il quale viene costruito il modello descrittivo di un determinato insieme di classi (c.d. training set) rappresentativo di
campioni preclassificati, in base ai quali vengono ottimizzati struttura e parametri
del riconoscitore, fino a raggiungere una corretta classificazione. In altre parole,
46
4.4 Classificazione e triaging
l’algoritmo di classificazione costruisce il classificatore analizzando ed apprendendo da un training set composto da tuple del data set e dalle classi etichettate loro
associate. Ogni tupla X rappresenta un insieme n-dimensionale di feautures e si
presume appartenere ad una classe predefinita.
- Test o verifica, durante il quale il modello costruito viene utilizzato per classificare nuovi casi. Tale fase é svolta operando su un test set composto da dati
anch’essi preclassificati, ma non utilizzati in fase di training; ottenute buone prestazioni sul test set, l’algoritmo é in grado di operare su dati appartenenti a classi
non predeterminate.
La scelta dei dati di training e di test deve essere molto oculata; idealmente essi dovrebbero rappresentare tutte le varie casistiche, ossia dovrebbero essere “statisticamente
completi”. Inoltre, onde evitare problemi di overfitting, ovvero di eccessivo adattamento del modello a caratteristiche che sono specifiche solo del training set e, quindi,
ottenere stime troppo ottimistiche, ma falsate, riguardanti le prestazioni del classificatore, é necessario che i dati appartenenti al training non siano i medesimi del test.
A tal proposito, esistono dei metodi randomici che permettono di suddividere il data
set di partenza nei due insiemi di training e di test. I piú noti sono i seguenti :
- 10 fold Cross validation: il data set iniziale viene suddiviso, in modo casuale, in
k-folds, cioé in k sottoinsiemi, con k = 10, mutuamente esclusivi, D1 , D2 , ..., Dk ,
ognuno di dimensione approssimativamente uguale. Il ciclo viene quindi ripetuto k
volte. Durante la i -esima iterazione, la partizione Di viene riservata come test set,
mentre le rimanenti partizioni vengono collettivamente utilizzate per addestrare
il modello (training set). L’accuratezza complessiva viene ottenuta sommando
il numero dei casi correttamente classificati nelle k iterazioni e dividendo questa
somma per il numero totale di tuple appartenenti al data set iniziale.
- Hold Out, in questo caso il data set iniziale viene di solito diviso in modo tale che
2/3 di esso vengano usati come training set ed il resto come test set; la stima che
si ottiene é di solito pessimistica in quanto viene utilizzata una porzione dei dati
fissa per ottenere il classificatore.
- Bagging o Bootstrap aggregation, permette di costruire classificatori composti che
associano un evento alla classe piú votata dai classificatori base. Migliora l’errore
47
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
di generalizzazione e risulta particolarmente utile per quei tipi di classificatori
sensibili alle variazioni del training set.
- Boosting, é un approccio iterativo che permette di adattare progressivamente
la composizione del training set al fine di concentrarsi sui record classificati in
modo incorretto. Ad ogni training set vengono assegnati dei pesi; il Boosting
genererá una sequenza di classificatori dove ogni classificatore consecutivo nella
sequenza diventa un ‘esperto’ nelle osservazioni da classificare che non sono state
ben classificate da quelli precedenti ad esso.
Nel contesto di questa ricerca sperimentale, é stato adottato l’approccio supervisionato;
il data set, suddiviso poi nei due sottoinsiemi di training, per addestrare il classificatore,
e di test per verificarne l’accuratezza, raccoglie una collezione di modelli rappresentativi
alcune specifiche fattispecie criminali; ovvero informazioni estrapolate da reperti reali
appartenenti a persone condannate per tipologie di reato specifiche.
L’ipotesi di correlazione tra condannato-colpevole e reperto assunta per la definizione delle classi predeterminate, é stata effettuata sulla base del contesto criminale e
dell’esperienza investigativa suggeritaci dagli esperti della Polizia Postale e delle Comunicazioni con i quali abbiamo collaborato.
Le metriche di valutazione riguardo le performance degli algoritmi di classificazione
utilizzati per la sperimentazione si é basata sulle tecniche di stima suggerite dalla letteratura in materia. É bene precisare sin d’ora che, in veritá , non esiste un assoluto
modello di classificazione migliore rispetto ad un altro, bensı́ dipende sempre dal data
set in input: la qualitá e tipologia dei dati e la sua complessitá. In particolare la bontá
o la determinazione di quanto sia accurato un determinato classificatore, puó essere
misurato sulla base dei seguenti parametri:
a. Accuratezza della classificazione;
b. Velocitá di costruzione;
c. Velocitá di esecuzione;
d. Precision, Recall ed F-Measure.
48
4.4 Classificazione e triaging
L’accuratezza rappresenta la percentuale di istanze classificate correttamente, per le
quali la classe predetta coincide con la classe reale, sul numero totale di istanze classificate. Si definiscono:
• TP (True Positive) : le istanze positive che vengono correttamente classificate
come tali;
• TN (True Negative) : le istanze negative che vengono correttamente classificate
come tali;
• FP (False Positive) : le istanze negative che vengono erratamente classificate
come positive;
• FN (False Negative) : le istanze positive che vengono erratamente classificate
come negative.
Questi concetti vengono sintetizzati nella cosiddetta matrice di confusione (confusion matrix ), una tabella che restituisce una rappresentazione dell’accuratezza del
classificatore utilizzato, permettendo di valutare in che modo sono distribuiti gli errori
e le decisioni corrette effettuate dal classificatore. Nella matrice di confusione le righe
rappresentano le classi reali, mentre le colonne quelle predette dal classificatore; sulla
diagonale principale si ritrovano espressi i casi correttamente classificati. Fig. [4.7].
Figura 4.7: Una rappresentazione dell’accuratezza dei classificatori - La confusion
matrix
Quando viene stimata l’accuratezza di un classificatore, non si fa altro che verificare
la percentuale di istanze, appartenenti al test set, che sono state correttamente classificate, ovvero la somma dei True Positive e True Negative rapportata alla somma di
istanze sia positivamente che negativamente classificate.
Sinteticamente l’accuratezza si rappresenta come:
49
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
Accuracy =
T rueP ositive+T rueN egative
T rueP ositive+T rueN egative+F alseP ositive+F alseN egative
La Precision misura la correttezza del classificatore, data dal rapporto tra i corretti
positivi e questi ultimi sommati ai falsi positivi:
P recision =
T rueP ositive
T rueP ositive+F alseP ositive
come é facilmente desumibile dalla formula, piú il numero dei falsi positivi si abbassa,
maggiore risulterá il grado di precisione del classificatore che si avvicina ad 1.
La Recall misura, invece, la completezza dell’algoritmo, data dal rapporto tra i corretti
positivi e la somma di questi ultimi con i falsi negativi:
Recall =
T rueP ositive
T rueP ositive+F alseN egative
anche in questo caso, piú il numero dei falsi negativi tende a zero, maggiore risulterá
la completezza del classificatore tendente ad 1.
F-Measure, é la misura che rappresenta la media armonica tra la Precision e la Recall:
F − M easure =
2∗Recall∗P recision
Recall+P recision
Oltre alle tecniche di misurazione appena descritte, quando si effettua la valutazione prestazionale di un algoritmo di classificazione, un altro aspetto da considerare
rilevante riguarda la complessitá del data set. Infatti all’aumentare del numero n di feature, il progetto di un classificazione presenta problematiche legate alla dimensione del
problema. In particolare, al crescere delle n feature la complessitá computazionale del
classificatore aumenta, incrementandosi per lo piú in modo lineare ad n, ma in alcuni
casi anche con un ordine di grandezza maggiore. L’incremento di complessitá si traduce
in un allungamento dei tempi di calcolo ed in una maggiore occupazione di memoria.
Uno dei fenomeni che si osserva in questi casi é il cosiddetto Fenomeno di Hughes [(57)].
Intuitivamente, infatti, all’aumentare di n ci si aspetterebbe un aumento della quantitá
di informazione disponibile al classificatore e, con essa, una maggiore accuratezza. In
realtá ció che si osserva é una crescita del grado di correttezza del classificatore fino ad
un valore massimo n*,con 1 ≤ n ≤ n∗, che decresce per n ≥ n∗. (Fig.4.8) Infatti, fissato
con N il numero di campioni di training, al crescere di n il numero Pn di parametri del
classificatore sempre pi alto; all’aumentare del rapporto Pn/N, é diventa troppo esigua la disponibilitá di campioni di training che permette, in fase di addestramento, di
effettuare stime affidabili dei parametri che caratterizzano il classificatore [(58)]. Una
50
4.4 Classificazione e triaging
Figura 4.8: Un esempio del Fenomeno di Hughes - Il problema della dimensione
dello spazio delle feautures
soluzione a questi problemi di dimensionalitá puó essere rappresentata dalla riduzione
del numero n di feature impiegate nel processo di classificazione (c.d. feature reduction)
che, peró, implica una perdita di informazione. Esistono due strategie di riduzione dei
parametri :
- la selezione dei parametri, ovvero l’identificazione, all’interno dell’insieme delle n
feature disponibili, di un sottoinsieme di m feature, scelto in modo da minimizzare
la perdita di informazione, misurata mediante un dato criterio di ottimalitá;
- l’estrazione di parametri, ossia la trasformazione (spesso lineare) dello spazio
originale delle n feature in uno spazio di dimensione minore m, definito in modo
da minimizzare la perdita di informazione.
Queste strategie sono molto utilizzate nell’ambito di problemi di analisi semantica di
testi, dove lo spazio degli attributi raggiunge dimensioni talmente elevate da implicare
la necessaria adozione di tecniche adeguate di feautures selection e/o reduction.
Nell’ambito della metodologia proposta, la fase di classificazione é stata elaborata
con l’ausilio di quattro differenti algoritmi, per i quali é stata operata una valutazione
51
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
prestazionale di tipo comparativo, basandosi sulle metriche di valutazione delle performance dei classificatori sopra citate. In particolare ci si é avvalsi dell’ausilio dei
seguenti classificatori: Bayesian Network [(59)], Decision Tree [(60)], Locally Weighted
Learning (LWL) [(61)] e Support Vector Machine (SVM) [(62), (63)]. Per completezza
espositiva, si richiamano brevemente i concetti piú importanti relativi agli algoritmi
sopra citati. I risultati ottenuti verranno meglio esplicitati nel capitolo successivo, dedicato alla sperimentazione sui casi di studio.
Le Bayesian Network sono algoritmi di classificazione statistica basati sul teorema di
Bayes che calcolano la distribuzione di probabilitá condizionata dei valori dell’attributo classe; l’approccio, pertanto, é di tipo probabilistico. Sono fondati sull’assunzione
di indipendenza delle classi condizionate, ovvero, data una classe di una determinata
istanza, i valori degli attributi sono assunti essere condizionalmente indipendenti l’uno
dall’altro. Questo assunto semplifica la computazione, infatti in tutti i casi ove tutte
le istanze rispondano all’ipotesi di indipendenza condizionale, i classificatori bayesiani
risultano essere piú accurati rispetto ad altri algoritmi. Le reti di Bayes vengono graficamente rappresentate come una rete di nodi [Fig. 4.9], ciascuno rappresentante un
diverso attributo, e collegati direttamente in un grafo diretto aciclico [(59)], i cui archi
rappresentano la dipendenza probabilistica. Se con
A = {a1 , ..., an }, n ≥ 0
indichiamo l’insieme delle variabili attributi, con
C = {c1 , ..., ck }, k ≥ 0
l’insieme delle classi, P(C |A) l’insieme delle relazioni probabilistiche condizionate,
allora:
∀ai , cj P (cj |ai ) =
P (ai |cj )P (cj )
P (ai )
Dato a0 ∈ A, é possibile calcolare la cj che massimizza la probabilitá a posteriori
P (cj |a0 ):
P (cj |a0 ) = P (ci |a0 ); ∀i 6= j
52
4.4 Classificazione e triaging
Figura 4.9: Esempio di rete bayesiana - I nodi in cima alla rete (in blu) non hanno
genitori, mentre i nodi grigi sono condizionati da altre variabili della rete
Diversamente dalle reti di Bayes, i classificatori ad albero operano suddividendo
(splitting) ripetutamente l’insieme dei dati di training in partizioni che risultano omogenee rispetto ad una determinata variabile. La suddivisione produce una struttura
ad albero [Fig. 4.10], dove i nodi corrispondono a valori di tipo logico sui valori assunti da uno o piú attributi dell’osservazione. Il primo nodo viene definito radice; da
essa si dipartono i nodi sottostanti, a sinistra nel caso l’esito dell’assunzione logica sia
positivo, a destra nell’altro caso. I nodi finali, definiti foglie, contengono la funzione
che approssima la classe di appartenenza. La costruzione di un albero delle decisioni
prevede alcuni passi fondamentali:
• Selezione delle variabili di splitting: la suddivisione dell’insieme dei dati,
implica l’individuazione degli attributi che esprimono meglio l’osservazione (nel
nostro caso il contesto criminale). Ció significa che, per ogni nodo, l’algoritmo
tenta di individuare quale attributo produce la suddivisione migliore rispetto
all’insieme dei dati che verificano le condizioni sui nodi padre precedenti.
• Numero di ramificazioni (branch): ogni nodo padre puó generare due o piú
nodi figli.
• Valutazione della migliore suddivisione: comporta di misurare la separazione che massimizza le osservazioni nel nodo corrente.
53
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
Figura 4.10: Esempio di struttura ad albero prodotta dall’elaborazione di una
algoritmo di tipo Decision Tree - J.48, WEKA Decion Tree
• Termine della procedura di crescita dell’albero: implica di calcolare quando terminare la successione delle fasi di separazione. Questa attivitá risulta essere molto delicata, in quanto alberi troppo profondi rischiano di generare errori
dovuti ad un modello previsivo eccessivamente conformato ai dati di stima, viceversa un albero poco profondo puó incorrere in errori dovuti alla mancanza di
addestramento. In generale il processo di selezione degli attributi puó terminare
quando:
- tutti i membri di un sottogruppo hanno lo stesso valore per l’attributo di
output;
il sottogruppo contiene un singolo nodo oppure non é piú possibile individuare un attributo in base al quale fare differenziazioni.
•- Potatura o Pruning: consiste in criteri di ottimizzazione della dimensione dell’albero. E’ un processo iterativo che affina la grandezza dell’albero, misurando,
di volta in volta, il grado di accuratezza dello stesso. La potatura continua fino
a quando non si rileva un peggioramento delle prestazioni del classificatore.
54
4.4 Classificazione e triaging
Fra i piú noti algoritmi ad albero é doveroso citare quelli ideati da Ross Quinlan: ID3,
C4.5 e C5., la cui procedura di crescita dell’albero é basata sul valore dell’entropia [(60)].
Ció che viene calcolato é, pertanto, il grado di incertezza. Il Locally Weighted Learning
(LWL) é un algoritmo di classificazione di tipo generale, basato sulla regressione lineare
ponderata locale [(61)]. Puó essere applicato con qualsiasi tecnica di apprendimento
che sia in grado di gestire istanze ponderate. L’approccio é basato sulla pesatura delle
istanze e sulla classificazione ponderata dei vari casi. Il LWL é un modello locale che
classifica le istanze non globalmente, ma solo nel suo intorno.
Le Support Vector Machines (SVM) costituiscono una classe di macchine di apprendimento recentemente introdotte in letteratura [(62),(63)]. Le SVM traggono origine
da concetti riguardanti la teoria statistica dell’apprendimento e presentano proprietá
teoriche di generalizzazione; é una metodologia di programmazione matematica per risolvere problemi di classifcazione. Le SVM sono un metodo di classificazione binaria che
permette di restituire il piú ampio margine di separazione tra classi di oggetti. L’idea
alla base dell’algoritmo SVM é quella di utilizzare gli oggetti che stanno tra le frontiere delle varie classi per identificare l’iperpiano separatore ottimale che massimizza il
margine di separazione tra le classi, chiamato Maximum Marginal Hyperplane (MMH);
l’approccio si basa sulla proiezione degli esempi in uno spazio multidimensionale ove
si cerca di individuare il miglior iperpiano di separazione, ovvero la porzione di spazio
che massimizza la sua distanza (il ‘margine’) dagli esempi di training piú vicini, per
classificare un insieme di punti (linearmente separabili)Fig. [4.11].
55
4. UN APPROCCIO QUANTITATIVO AL TRIAGE NELLA DIGITAL
FORENSICS
Figura 4.11: Un esempio di problema separabile in uno spazio bidimensionale - I
vettori di supporto, contrassegnati in grigio, definiscono il maggiore margine di separazione
tra le due classi
56
5
I risultati sperimentali
I risultati esposti in questo capitolo sono stati pubblicati negli articoli[(48),(49),(50),(51)]
5.1
Introduzione
In questo capitolo viene meglio descritta la terza fase della metodologia, inerente la
fase di classificazione e triaging, nella quale vengono illustrati i data set utilizzati, la
descrizione dei parametri sperimentali ed i risultati ottenuti con gli algoritmi di classificazione utilizzati, comparandone le performance sulla base delle metriche discusse nel
capitolo precedente.
Il capitolo viene suddiviso in tre sezioni: una prima parte nella quale vengono descritte le attivitá eseguite per il pre-processamento dei dati attraverso la piattaforma
per Data Mining WEKA e comuni a tutti i casi sperimentati, una sezione nella quale
viene descritta l’attivitá di classificazione ed i risultati sperimentali ottenuti nel contesto della Mobile Forensics ed infine una sezione dedicata agli obiettivi conseguiti nel
contesto della Computer Forensics.
5.2
Attivitá di pre-processamento dei data set
Come anticipato nel capitolo precedente, la fase di classificazione é stata eseguita usufruendo dell’ausilio del software per Data Mining open source WEKA. In particolare é
stato utilizzato l’ambiente Explorer (Fig. 5.1), suddiviso in un set di pannelli, ognuno
dei quali permette all’utente di eseguire determinate attivitá:
57
5. I RISULTATI SPERIMENTALI
Preprocess: serve per importare il data set e preparare i dati alla classificazione;
Classify: serve per applicare ai dati pre-processati gli algoritmi di classificazione
o i modelli per la regressione;
Cluster : utilizzato per la cluster analysis;
Associate: per applicare algoritmi di apprendimento delle regole di associazione;
Select Attributes: per selezionare sottogruppi di attributi per l’analisi;
Visualize: per visualizzare le proprietá grafiche dei dati.
Figura 5.1: L’ambiente grafico Explorer - WEKA
Prima di procedere alla fase di pre-processamento dei data set, si é resa necessaria
un’attivitá di trasformazione dei dati dal formato CSV al formato ARFF, uno standard
utilizzato da WEKA. Un file ARFF (Fig. 5.2) é composto da una intestazione e dal
corpo dati vero e proprio. L’intestazione contiene il nome del set dei dati e degli
attributi; per ogni attributo é possibile specificare il tipo: numerico, categoriale, stringa
o data. I dati veri e propri sono forniti creando una riga per ogni istanza, e separando
i campi con delle virgole; in ogni caso é possibile inserire dei commenti, facendoli
precedere dal simbolo %.
58
5.3 Classificazione e Triaging per la Mobile Forensics
Figura 5.2: Esempio di file in formato ARFF - WEKA
Una volta parserizzati i dati nel formato proprietario, attraverso il pannello Preprocess é stato possibile effettuare l’attivitá di pre-processamento dei data set per eliminare
eventuali ouliers e/o presenza di rumore (noise reduction) e procedere, quindi, con l’attivitá di classificazione vera e propria. A tal fine, attraverso la sezione Classify, si sono
applicati ai data set gli algoritmi di classificazione selezionati ed effettuata la valutazione comparativa delle loro prestazioni: Bayesian Network, Decision Tree, Locally
Weighted Learning (LWL) e Support Vector Machine (SVM).
5.3
5.3.0.1
Classificazione e Triaging per la Mobile Forensics
Prima sperimentazione
La prima sperimentazione della metodologia é stata eseguita nel contesto della Mobile
Forensics. L’esame é stato condotto su un set di reperti reali (smartphone e telefoni
cellulari), con caratteristiche funzionali ed operative anche differenti l’uno dall’altro,
appartenenti a persone condannate o comunque indagate perché ritenute colpevoli di
avere commesso un illecito penale. In particolare ci siamo concentrati su casistiche
criminali che potessero avere una certa correlazione con l’utilizzo, piú o meno esperto,
59
5. I RISULTATI SPERIMENTALI
del dispositivo, e precisamente: stalking, pedofilia, estorsione, spionaggio industriale.
Con l’aiuto e l’esperienza della Polizia Postale e delle Comunicazioni, abbiamo cercato di individuare, dalle informazioni estrapolabili dai reperti, la classe considerata
informazione discriminante, dalla quale un algoritmo di classificazione potesse acquisire conoscenza per casi futuri e non noti a priori, veicolando ed indirizzando, in prima
battuta, le attivitá investigative sui reperti potenzialmente piú interessanti per il contesto criminale specifico. L’ipotesi iniziale si é basata sul discriminare il profilo di utilizzo
del reperto da parte del proprietario, considerando informazione discriminante la classe
usage profile; si é, infatti, presupposto che, a fronte di un dispositivo piú complesso,
le interazioni tra questo e l’utente siano di tipo piú avanzato e, pertanto, si presume
si possano ricavare una maggiore quantitá di informazioni utili ai fini investigativi e
correlabili con l’evento criminoso.
Il data set é composto da 114 attributi, come dettagliate nel capitolo precedente
40, e precisamente:
• Modello del telefono;
• Numero di contatti presenti in rubrica;
• Numero di chiamate ricevute, perse, effettuate (anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Percentuale di chiamate ricevute, perse, effettuate (anche suddivise per arco
temporale durante il mattino, pomeriggio e sera);
• Numero di chiamate ricevute, perse, effettuate correlate ad un numero specifico
(anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Percentuale di chiamate ricevute, perse, effettuate correlate ad un numero specifico (anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Durata media delle chiamate ricevute, perse, effettuate anche suddivise per arco
temporale durante il mattino, pomeriggio e sera);
• Numero di sms/mms ricevuti ed inviati (anche suddivise per arco temporale
durante il mattino, pomeriggio e sera);
60
5.3 Classificazione e Triaging per la Mobile Forensics
• Percentuale di sms/mms ricevuti ed inviati (anche suddivise per arco temporale
durante il mattino, pomeriggio e sera);
• Numero di sms/mms ricevuti ed inviati correlate ad un numero specifico (anche
suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Percentuale di sms/mms ricevuti ed inviati correlate ad un numero specifico
(anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Numero di file scaricati e prodotti suddivisi per tipologia (video, immagini, audio);
• Percentuale di file scaricati e prodotti suddivisi per tipologia (video, immagini,
audio);
• Numero di URL visitate (anche suddivise per arco temporale durante il mattino,
pomeriggio e sera);
• Percentuale di URL visitate (anche suddivise per arco temporale durante il mattino, pomeriggio e sera);
• Numero di URL memorizzate nei bookmarks;
• Numero di email inviate e ricevute;
• Numero di note memorizzate.
Per ciascuna delle 23 istanze elaborate, é stata individuata una classe di appartenenza
usage profile, la quale puó assumere uno dei tre seguenti valori: (Base usage, Medium
usage, Expert usage).
Nel primo esperimento, il data set é stato suddiviso nei set di training e test applicando il metodo, implementato in WEKA, del 10-folds cross validation, quindi applicando gli algoritmi di classificazione Bayesian Network, LWL e Decision Tree (J.48),
senza adottare a monte nessun criterio di pre-processamento.
Per ciascun algoritmo é stato prodotto un output nel quale vengono riportati i
parametri di accuratezza, con il dettaglio della percentuale di istanze correttamente
classificate e non. In particolare i valori relativi ai parametri di: True Positive Rate
(TPR), False Positive Rate (FPR), Precision, Recall e F Meausure. Per non appesantire la presentazione dell’elaborato, gli output testuali dei risultati ottenuti e la loro
61
5. I RISULTATI SPERIMENTALI
Tabella 5.1: Tabella di comparazione delle performance degli algoritmi di classificazione,
nel caso del data set completo
Model Classifier
TPR
FPR
Precision
Recall
F-Measure
BayesNet
0.739
0.264
0.737
0.739
0.724
LWL
0.739
0.289
0.79
0.739
0.722
J.48
0.826
0.139
0.825
0.826
0.823
rappresentazione grafica attraverso la cosiddetta matrice di confusione vengono riportati nell’Appendice A .
Schematizzando in Tab. [5.1] i risultati di performance dei classificatori adottati nella
prima sperimentazione, si possono effettuare delle analisi comparative che mettono in
rilievo un maggiore grado di accuratezza dell’algoritmo di Decision Tree J.48 rispetto
alle reti di Bayes e all’algoritmo generico LWL.
Il risultato puó essere visualizzato anche secondo un’altra prospettiva che si pu’øevincere
dall’istogramma Fig. [5.3 nel quale sono graficamente riportati, per ogni algoritmo, le
percentuali di istanze non correttamente classificate, ovvero i False Positive Rate (FPR),
rispetto a quelle esatte o True Positive Rate (TPR).
Figura 5.3: Visualizzazione quantitativa delle differenze di performance degli
algoritmi implementati sul data set - data set completo
62
5.3 Classificazione e Triaging per la Mobile Forensics
I risultati, ci hanno indotto ad analizzare piú nel dettaglio il comportamento dei
classificatori durante l’elaborazione dei dati, osservando, ad esempio, che l’algoritmo di
Decision Tree J.48 costruiva l’albero utilizzando solo 4 o 5 attributi sui 114 totali.
L’idea é stata, pertanto, di applicare regole di pre-processamento, riducendo il numero di attributi originariamente presenti nel data set, con particolare riguardo a quelli
non valorizzati (cd. outliers) per le istanze presenti nel training set. Quindi si sono
eseguite delle sperimentazioni con due data set ridotti, uno contenente solo attributi di tipo numerico e l’altro con attributi sia numerici che nominali, per studiare il
comportamento della classificazione in questa nuova ipotesi. La scelta degli attributi
si é basata sull’analisi del comportamento dei classificatori nella prima sperimentazione; pertanto, sono stati estrapolati dal data set originale le feautures sulle quali é gli
algoritmi sembravano lavorare meglio.
A tal fine sono stati applicati dei concetti di algebra lineare sulla riduzione delle
matrici rettangolari ed in particolare il metodo di eliminazione di Gauss [(64)]. Sono
state calcolate il numero di righe linearmente indipendenti, risultanti pari a 23 ovvero
al rango della input matrix NxM, con N=23 ed M=114. Si é quindi considerata la
matrice ridotta NxM’, con N=23 ed M=63, di rango 23, contenente attributi solo di
tipo numerico e una seconda matrice NxM” , con N, M”= 23 con attributi sia numerici
che nominali.
Per entrambe i modelli suddetti, il training set ed il test set, sono stati costruiti con
il metodo 10-folds cross validation.
Per la fase di verifica si é utilizzato un test set di 3 istanze, ognuna appartenente
ad una classe di utilizzo differente (Base usage, Medium usage, Expert usage). In
questo secondo esperimento é stato realizzato, altresı́, un albero customizzato dove la
selezione delle variabili di splitting é stata eseguita sull’osservazione degli attributi che
erano risultati, nella prima sperimentazione, esprimere meglio l’osservazione.
Come prevedibile, la riduzione del numero di feautures, ha prodotto in entrambe i
casi dei risultati piú accurati. In particolare, il set di dati contenente feautures di tipo
numerico ha evidenziato, ancora una volta, risultati migliori con gli algoritmi di tipo
Decision Tree (sia quello customizzato che il J.48). Diversamente, nel caso del data
set ridotto ma con attributi sia numeri che nominali, i gradi di accuratezza migliori
sono stati prodotti sia dal classificatore customizzato, ma anche dalle reti di Bayes,
63
5. I RISULTATI SPERIMENTALI
Tabella 5.2: Tabella di comparazione delle performance degli algoritmi di classificazione,
nel caso del data set ridotto, con soli attributi di tipo numerico
Model Classifier
TPR
FPR
Precision
Recall
F-Measure
BayesNet
0.333
0.333
0.333
0.333
0.333
LWL
0.333
0.333
0.111
0.333
0.167
J.48
0.333
0.333
0.167
0.333
0.222
Custom Decision Tree
1
0
1
1
1
grazie alla presenza di maggiori istanze condizionalmente indipendenti l’uno dall’altra,
rispetto al data set completo.
Ancora una volta, quanto osservato puó essere schematizzato nelle tabelle riepilogative e negli istogrammi di seguito riportati [Tab.5.2] [Fig.5.4] [Tab.5.3] [Fig.5.5].
Figura 5.4: Visualizzazione quantitativa delle differenze di performance degli algoritmi implementati sul data set - data set ridotto, con soli attributi di tipo
numerico
64
5.3 Classificazione e Triaging per la Mobile Forensics
Tabella 5.3: Tabella di comparazione delle performance degli algoritmi di classificazione,
nel caso del data set ridotto, con attributi di tipo numerico e nominale
Model Classifier
TPR
FPR
Precision
Recall
F-Measure
BayesNet
1
0
1
1
1
LWL
0.667
0.167
0.5
0.667
0.566
J.48
0.667
0.167
0.5
0.667
0.566
Custom Decision Tree
1
0
1
1
1
Figura 5.5: Visualizzazione quantitativa delle differenze di performance degli
algoritmi implementati sul data set - Dataset ridotto, con attributi di tipo numerico
e nominale
65
5. I RISULTATI SPERIMENTALI
5.3.0.2
Seconda sperimentazione
I risultati incoraggianti della prima sperimentazione ci hanno convinto ad implementare la metodologia di triaging sui device mobili, focalizzando, questa volta, l’attenzione
sullo studio di casi reali attinenti la fattispecie criminale della pedofilia.
Anche in questo secondo caso, la ricerca é stata eseguita operando su referti estratti
da device mobili dalla Polizia Postale utilizzati a scopi delittuosi quali: pedofilia e pedopornografia, omicidio, terrorismo, traffico umano, estorsione e violazione del segreto
professionale.
Come nel caso precedente , il data set é stato strutturato con i medesimi 114 attributi e sottoposto dapprima ad un’azione di normalizzazione per eliminare i disallineamenti
prodotti dai software di estrazione.
A differenza della prima sperimentazione, dove la finalitá della classificazione si concentrava sulla predizione del grado di utilizzo del reperto da parte del proprietario, in
questo seconda sperimentazione abbiamo deciso, d’accordo con la collaborazione della
Polizia Postale e delle Comunicazioni, di provare ad operare una classificazione il cui
obiettivo si concentra sulla previsione della probabilitá che un determinato reperto sia
stato utilizzato per commettere o meno il reato di pedofilia.
La scelta della fattispecie criminale afferente la pedofilia, si é basata su alcune considerazioni di carattere operativo derivanti dall’esperienza degli investigatori in materia,
i quali ci hanno confermato una ricorrenza di dati simili in casi precedentemente analizzati in tale contesto. Per predire il profilo di utilizzo criminale afferente alla pedofilia,
sono stati utilizzati, ancora una volta, gli algoritmi: Bayesian Network, Decision Tree
e Locally Weighted Learning (LWL).
A differenza del caso precedente la classe di predizione del profilo di utilizzo del
proprietario del supporto mobile, é stata valorizzata in base allo specifico crimine:
(Pedo; Non-Pedo).
Nel primo scenario é stato utilizzato un data set composto da 21 istanze, utilizzato
per addestrare i classificatori. I dati di training e di test sono stati ottenuti utilizzando
il metodo predittivo 10-folds cross validation. Quindi sono stati comparati i risultati
di performance dei vari algoritmi.
Cosı́ come risultato nella prima sperimentazione, ancora una volta il classificatore
di tipo Decision Tree J.48 ha mostrato un grado di accuratezza nella classificazione
66
5.3 Classificazione e Triaging per la Mobile Forensics
Tabella 5.4: Tabella di comparazione delle performance degli algoritmi per la
classificazione del reato di pedofilia. Metodo predittivo 10-folds cross validation
Model Classifier
Precision
Recall
F-Measure
BayesNet
0.553
0.579
0.56
LWL
0.644
0.632
0.636
J.48
0.68
0.684
0.644
Tabella 5.5: Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di pedofilia, con training set composto da 19 istanze e test set da 2 istanze
(Pedo e Non-Pedo).
Model Classifier
Precision
Recall
F-Measure
BayesNet
0
0
0
LWL
1
1
1
J.48
0
0
0
maggiore rispetto alle reti di Bayes e all’algoritmo LWL. Tab.[5.4].
Tuttavia, per ridurre ulteriormente il tasso di errore, é stata condotta la medesima
strategia operativa della prima sperimentazione.
Il data set costituito da 21 istanze, associate a diversi profili criminali, é stato
suddiviso nei set di training e di test, considerando 19 istanze per l’addestramento e
le restanti 2, entrambe con un profilo non-pedo, per la fase di verifica. Dopo il primo
addestramento, abbiamo studiato il comportamento dei classificatori, analizzando le
performance risultanti, come riportato nella Tab.[5.5].
Come si puó osservare, l’algoritmo di classificazione generico LWL é riuscito a classificare correttamente entrambe le istanze, a differenza degli altri due che hanno mostrato
la peggiore performance.
A valle di ció, per aumentare il grado di precisione, abbiamo operato sul data set
originale una riduzione lineare, ricavando due data set ridotti, uno con attributi solo di
tipo numerico, l’altro con attributi di tipo numerico e nominale.
67
5. I RISULTATI SPERIMENTALI
Addestrando i classificatori con il training set ridotto di 21 istanze, basato su 23
attributi numerici indicati in Fig.[5.6], ed effettuando la verifica col test set composto
da 2 istanze, ciascuna con un profilo non-pedo, i tre algoritmi hanno mostrato un grado
di accuratezza massimo, [Tab.5.6]. Da ció si evince che la riduzione della dimensione
del data set con attributi solo numerici e non ridondanti ha permesso una classificazione
piú precisa e con migliori prestazioni.
Figura 5.6: Dataset ridotto, composto da 23 attributi di tipo numerico - Caso
di classificazione per il reato di pedofilia
68
5.3 Classificazione e Triaging per la Mobile Forensics
Tabella 5.6: Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di pedofilia, con data set ridotto composto da 23 attributi di tipo
numerico
Model Classifier
Precision
Recall
F-Measure
BayesNet
1
1
1
LWL
1
1
1
J.48
1
1
1
Tabella 5.7: Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di pedofilia, con data set ridotto composto da 22 attributi di tipo numerico
e nominale
Model Classifier
Precision
Recall
F-Measure
BayesNet
1
1
1
LWL
1
0.5
0.667
J.48
1
1
1
Abbiamo ulteriormente addestrato i classificatori con il training set ridotto, costituito
da 22 attributi numerici e nominali, come riportato nella Fig.[5.7] e, ancora una volta,
effettuato la verifica attraverso il test set composto da 2 istanze, ciascuna con un profilo
non-pedo.
Calcolando gli indicatori di performance dei classificatori, é risultato che due algoritmi
(BayesNet e J.48) su tre, hanno classificato correttamente tutte le istanze [Tab.5.7].
Anche in questo caso, pertanto, la riduzione della dimensione del data set ha prodotto
una classificazione, mediamente piú efficiente.
69
5. I RISULTATI SPERIMENTALI
Figura 5.7: Dataset ridotto, composto da 22 attributi di tipo numerico e
nominale - Caso di classificazione per il reato di pedofilia
70
5.4 Classificazione e Triaging per la Computer Forensics
5.4
Classificazione e Triaging per la Computer Forensics
Le sperimentazioni metodologiche eseguite nel contesto della Mobile Forensics sono state, successivamente applicate anche al contesto della Computer Forensics, con lo scopo
di valutare il profilo di utilizzo di hard disk esaminati e classificati in base alla fattispecie criminale afferente il reato di violazione del diritto d’autore.
E’ una tipologia di reato equiparabile sia alla pirateria che al furto, in quanto non
solo lede il diritto di copyright, esclusivo dell’autore, ma viene perpetrato senza alcuna
autorizzazione e per scopi personali.
Per applicare la metodologia di triaging, esposta in questo elaborato, abbiamo considerato una serie di computer, con piattaforme differenti, estraendone delle caratteristiche
che riuscissero ad addestrare i classificatori per discriminare, per casi futuri e non noti
a priori, la probabilitá di appartenenza alla classe il cui contesto criminale si delinea
nella violazione del diritto di autore.
Precisamente, per ciascun reperto, si sono estrapolate le seguenti informazioni:
• Numero di applicazioni installate;
• Numero di applicazioni suddivise per categoria funzionale (chat, Communication, Instant Messaging, Peer to peer, per la crittografia, browser, utilitá, per la
conversione di file, di forensics,);
• Numero e percentuale di URL visitate e suddivise per tipologia di siti (hacking,
illegali);
• Numero e percentuale di file (audio, video, MP3, ISO, PDF, compressi, office,
criptati) prodotti, scaricati e suddivisi anche per dimensione.
Il data set delle feautures é stato, pertanto, costruito con l’obiettivo di formare un
sistema di apprendimento automatico per classificare ogni dispositivo in relazione alla
violazione del diritto di copyright.
A partire da un insieme di 13 istanze e 45 attributi, sono stati definiti i set di training
e di test, avvalendosi del metodo iterativo e predittivo del 10-folds cross validation.
L’attivitá di classificazione é stata eseguita avvalendosi degli algoritmi BayesNet, LWL,
Decision Tree (J.48) e Support Vector Machine. In questo caso, la valutazione comparativa dei parametri di accuratezza e precisione degli algoritmi utilizzati, é stata
71
5. I RISULTATI SPERIMENTALI
Tabella 5.8: Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di violazione del diritto di copyright. Metodo predittivo 10-folds cross
validation
Model Classifier
BayesNet
J.48
LWL
SVM
Percentage correct (%)
99
89.5
78.5
93.5
Mean absolute error
0.03
0.11
0.22
0.07
Root mean square error
0.04
0.12
0.23
0.07
Precision
0.99
0.88
0.77
0.93
Recall
0.99
0.88
0.77
0.93
F-Measure
0.99
0.89
0.77
0.93
Tabella 5.9: Tabella di comparazione delle performance degli algoritmi per la classificazione del reato di violazione del diritto di copyright.
Metodo iterativo, 15
attributi
Feauture’s Dataset Number
15
Model Classifier
BayesNet
J.48
LWL
SVM
Percentage correct (%)
83
100
100
76.5
Precision
0.8
1
1
0.73
Recall
0.83
1
1
0.77
F-Measure
0.81
1
1
0.74
eseguita avvalendosi del supporto dell’ambiente grafico Experimenter di Weka [(55)],
che permette di effettuare analisi comparative dei risultati su piú algoritmi di mining
e/o su pi data set.
Dalla comparazione dei risultati, riportati in Tab.[5.8, si puó osservare come le reti di
Bayes abbiano prodotto la migliore classificazione, con una percentuale di precisione
pari al 99%, seguite dalle prestazioni dei Support Vector Machine con un grado di
precisione del 93,5%. Al fine di valutare e migliorare ulteriormente le performance degli algoritmi di classificazione, é stato adottato un approccio incrementale utilizzando
tre differenti data set, calcolati sui medesimi esempi dello scenario appena descritto
(13 istanze), ma con un diverso numero di caratteristiche, progressivamente crescenti,
rispettivamente 15, 30 e 45, studiando il comportamento di ciascun classificatore al
crescere del numero di attributi. I risultati vengono riassunti, schematicamente, nelle
Tabelle [5.9],[5.10],[5.11]. Confrontando i risultati, si puó osservare che le Reti di Bayes
72
5.4 Classificazione e Triaging per la Computer Forensics
Tabella 5.10: Tabella di comparazione delle performance degli algoritmi per la
classificazione del reato di violazione del diritto di copyright. Metodo iterativo, 30 attributi
Feauture’s Dataset Number
30
Model Classifier
BayesNet
J.48
LWL
SVM
Percentage correct (%)
90
97
98.5
88
Precision
0.89
0.97
0.98
0.87
Recall
0.9
0.97
0.99
0.88
F-Measure
0.89
0.97
0.98
0.87
Tabella 5.11: Tabella di comparazione delle performance degli algoritmi per la
classificazione del reato di violazione del diritto di copyright. Metodo iterativo, 45 attributi
Feauture’s Dataset Number
45
Model Classifier
BayesNet
J.48
LWL
SVM
Percentage correct (%)
99
89.5
78.5
93.5
Precision
0.99
0.88
0.77
0.93
Recall
0.99
0.9
0.79
0.94
F-Measure
0.99
0.89
0.77
0.93
e le Support Vector Machine presentano sempre un miglior grado di precisione, in tutti
e tre i casi, aumentando il grado di accuratezza al crescere del numero di feautures.
Diversamente i classificatori ad albero J.48 e l’apprendimento ponderato a livello locale
(LWL) si comportano contrariamente alle aspettative, degradando le proprie prestazioni al crescere del numero di attributi. Il ricercatore Hughes G.F. [(57)] ha studiato
e descritto questo tipo comportamento, riguardante il grado medio di accuratezza dei
riconoscitori di modelli statistici, dimostrando che, diversamente da quanto ci si aspetterebbe, l’accuratezza di un modello cresce inizialmente all’aumentare dei parametri da
stimare fino ad un limite massimo oltre il quale decresce al crescere delle variabili.
Ció é dovuto, altresı́, al numero ridotto di campioni disponibili per il training, che
non fornisce una sufficiente quantitá di dati affidabili al classificatore.
Hall M.A. e Holmes G. [(65)] e B. Wang et al.[(66)] hanno proposto e confrontato
diverse tecniche di riduzione dello spazio delle feautures, mostrando la possibilitá di
migliorare, in generale, le prestazioni classificatori.
73
5. I RISULTATI SPERIMENTALI
74
6
Conclusioni e sviluppi futuri
In questo lavoro é stato presentato un nuovo approccio metodologico per la Digital
Forensics ed, in particolare, per i settori specialistici della Mobile e della Computer
Forensics, che si occupano rispettivamente delle attivitá di repertamento, estrazione
ed analisi delle evidenze digitali da potenziali fonti di prova, quali telefoni cellulari,
smartphones, PDA e dispositivi laptop e desktop, secondo metodologie ben definite e
tecniche standardizzate, con lo scopo di fornire ad una corte giudiziaria informazioni
aventi valore probatorio.
I colloqui e l’attivitá di collaborazione con gli esperti di investigazioni digitali, appartenenti al Servizio della Polizia Postale e delle Comunicazioni, ci hanno permesso di
rilevare alcune criticitá intrinseche al tradizionale flusso operativo, adottato in materia di investigazione su supporti digitali e basato sulla rigida sequenza a quattro passi
(identificazione, estrazione, analisi e presentazione). In particolare é emersa la necessitá
di indicare una prioritá, nella mole di dispositivi sequestrati, che potesse diminuire il
grado di accumulo di lavoro degli operatori, crescente piú che proporzionalmente con il
numero e la quantitá di dati da estrarre ed analizzare.
L’idea alla base della ricerca é stata, quindi, quella di ridefinire il flusso di lavoro forense, introducendo un ulteriore passo intermedio fra la fase di acquisizione ed analisi,
definito triage, con lo scopo di ridurre la quantitá di tempo di lavoro impiegata dagli
investigatori di criminalitá informatica per identificare le potenziali prove utili ai fini
probatori e dibattimentali.
L’obiettivo della ricerca puó essere riassunto in una nuova modalitá operativa che coadiuvi le gli investigatori a focalizzare, sin da principio, la propria attenzione su quei
75
6. CONCLUSIONI E SVILUPPI FUTURI
reperti contenenti potenzialmente le prove digitali piú utili al contesto criminale ricercato, rispondendo velocemente alla domanda: ‘qual é il profilo di utilizzo del proprietario
del dispositivo?’ .
Questo risultato puó essere ottenuto indicando una prioritá per ogni apparato sequestrato, che sia legata al contesto criminale e all’interazione, piú o meno avanzata, fra
utilizzatore e dispositivo.
Allo scopo sono state adottate le migliori pratiche discendenti dal processo di Knowledge Management alla Mobile e Computer Forensics, per classificare ed isolare le
potenziali prove digitali estraibili da dispositivi mobili, computer e ogni altro strumento che abbia capacitá di memorizzazione e comunicazione delle informazioni.
La metodologia di triage é stata adottata su reperti freddi, compiendo tre passi fondamentali: l’acquisizione forense dei dati, la normalizzazione degli stessi e l’estrazione di
caratteristiche discriminanti, la classificazione e il triaging.
Grazie all’opportunitá di operare su dispositivi realmente utilizzati per la commissione
di reati informatici, é stato possibile raccogliere ed esaminare una notevole quantitá di
prove riscontrabili sia in smartphones che in computer laptop e desktop.
In particolare, nel contesto della Mobile Forensics, abbiamo sperimentato la metodologia proposta, dapprima per valutare il profilo di interazione fra utilizzatori e dispositivi
cellulari e/o smartphone esaminati, classificandoli sulla base del loro utilizzo (base, medio, avanzato), quindi per prevedere la probabilitá che un dispositivo mobile fosse stato
utilizzato per commettere o meno il reato di pedofilia.
I reperti investigativi, messi a nostra disposizione, ci hanno permesso di creare un datset
di 21 istanze classificato con differenti tipologie di algoritmi (BayesNet, LWL, Decision
Tree, SVM).
Sono stati, quindi, studiati quattro scenari differenti, due dei quali impiegando il set
completo di 114 attributi per creare il set di addestramento (trainingset), gli altri con
un set di attributi ridotto (uno solo con attributi di tipo numerico, l’altro con attributi
numerici e nominali), al fine di valutare l’efficacia delle performance degli algoritmi di
classificazione in termini di accuratezza e precisione (Precision, Recall, F-Meausure).
Successivamente, nell’ambito della Computer Forensics, é stato valutato il profilo di
utilizzo degli hard disk esaminati, stimandone l’associazione alla fattispecie criminale
afferente il reato di violazione del diritto d’autore.
76
Anche in questo caso sono stati studiati quattro scenari differenti; nel primo é stato utilizzato il dataset completo di tutti i 45 attributi individuati come qualificanti. Quindi,
con un metodo iterativo (15, 30 e 45), si sono costruiti progressivamente tre differenti
set di dati, sui quali sono stati valutati gli indicatori di performance degli algoritmi di
classificazione utilizzati per tutti i casi (BayesNet, LWL, Decision Tree e SVM).
Il modello proposto in questo elaborato potrebbe essere approfondito anche per altre
casistiche criminali non cosı́ correlate all’utilizzo di un dispositivo digitale, ad esempio
per l’omicidio, il terrorismo, l’associazione criminale. Lo sforzo richiesto é dapprima la
raccolta di un numero consistente di campioni reali e l’individuazione di caratteristiche che discriminino le singole tipologie di reato e che andranno a rappresentare, nel
modello, le variabili indipendenti. E’, infatti, importante, sottolineare che il successo
della classificazione dipende molto dall’accuratezza con cui viene creato il set di dati
per la fase di addestramento (trainingset); piú elevato sará il numero dei campioni che
si potranno analizzare, tanto piú risulteranno correttamente classificati i nuovi modelli sottoposti al processo. Inoltre, sarebbe auspicabile un’ulteriore analisi comparativa
delle performance riguardante algoritmi di classificazione, qui non trattati.
Un ulteriore spunto di riflessione puó essere rappresentato dalla sperimentazione del
modello proposto ad altri ambiti forensi, di piú recente scoperta quali, ad esempio,
quelli riguardanti il settore del Cloud Computing, analizzando le caratteristiche del
contesto e verificando il grado di attendibilitá di questo approccio a questo dominio
applicativo.
77
6. CONCLUSIONI E SVILUPPI FUTURI
78
Appendice A
La rappresentazione grafica dei
risultati sperimentali attraverso
l’ambiente WEKA
A.1
Prima sperimentazione su dispositivi mobili: predizione profilo di utilizzo
A.1.1
Caso del dataset completo
• Dataset di input: 114 attributi e 23 istanze
• Costruzione dei set di training e di test col metodo predittivo 10-folds cross
validation
• Algoritmi di classificazione adottati:BayesNet,Weka Decision Tree (J.48), Locally
Weighted Learning
Algoritmo di classificazione BayesNet: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.bayes.BayesNet
Telephone data
23
114
10-fold cross-validation
79
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
17
6
0.5071
0.1819
0.407
45.9931 %
91.4423 %
73.913 %
37.6812 %
23
TP
Rate
0.923
FP
Rate
0.4
Precision
Recall
0.75
0.429
0.125
0.667
0.739
73.913 %
26.087 %
0.923
FMeasure
0.828
ROC
Area
0.746
0.6
0.429
0.5
0.679
0
1
0.667
0.8
0.967
0.264
0.737
0.739
0.724
0.754
Class
Base
usage
Medium
usage
Expert
usage
Confusion Matrix
a
12
4
0
b
1
3
1
c
Classified as
0 a=
Base usage
0 b = Medium usage
2 c = Expert usage
Algoritmo di classificazione Weka Decision Tree (J.48): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.J48
Telephone data
23
114
10-fold cross-validation
80
A.1 Prima sperimentazione su dispositivi mobili: predizione profilo di
utilizzo
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
19
4
0.6892
0.1201
0.3291
30.3619
73.9382
91.3043
40.5797
23
TP
Rate
0.923
FP
Rate
0.2
Precision
Recall
0.857
0.714
0.063
0.667
0.826
82.6087 %
17.3913 %
%
%
%
%
0.923
FMeasure
0.889
ROC
Area
0.923
0.833
0.714
0.769
0.942
0.05
0.667
0.667
0.667
0.8
0.139
0.825
0.826
0.823
0.913
Class
Base
usage
Medium
usage
Expert
usage
Confusion Matrix
a
12
2
0
b
1
5
1
c
Classified as
0 a=
Base usage
0 b = Medium usage
2 c = Expert usage
Algoritmo di classificazione Locally Weighted Learning (LWL): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy.LWL
Telephone data
23
114
10-fold cross-validation
81
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
17
6
0.5036
0.1949
0.3811
49.2843%
85.6194 %
86.9565 %
65.2174 %
23
TP
Rate
0.923
FP
Rate
0.5
Precision
Recall
0.706
0.429
0
0.667
0.739
0.923
FMeasure
0.8
ROC
Area
0.638
1
0.429
0.6
0.737
0.05
0.667
0.667
0.667
0.733
0.289
0.79
0.739
0.722
0.681
Confusion Matrix
a
12
4
1
73.913 %
26.087 %
b
0
3
0
c
Classified as
1 a=
Base usage
0 b = Medium usage
2 c = Expert usage
82
Class
Base
usage
Medium
usage
Expert
usage
A.1 Prima sperimentazione su dispositivi mobili: predizione profilo di
utilizzo
A.1.2
Caso del dataset ridotto solo numerico
• Dataset di input : 114 attributi e 23 istanze
• Costruzione ad hoc dei set di training e di test con tecniche di riduzione delle
matrici
• trainingset: 23 attributi di tipo solo numerico e 23 istanze
• testset: 23 attributi numerico e 3 istanze
• Algoritmi di classificazione adottati: BayesNet, Weka Decision Tree (J.48), Custom Decision Tree, Locally Weighted Learning
Algoritmo di classificazione BayesNet: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.bayes.BayesNet
Telephone data
23
23
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
1
2
0
0.4467
0.5144
100.5056 %
105.3753 %
66.6667 %
88.8889 %
3
TP
Rate
1
FP
Rate
0
Precision
Recall
1
0
0.5
0
0.333
33.3333 %
66.6667 %
1
FMeasure
1
ROC
Area
1
0
0
0
0.5
0.5
0
0
0
0
0.333
0.333
0.333
0.333
0.5
83
Class
Base
usage
Medium
usage
Expert
usage
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Confusion Matrix
a
1
0
0
b
0
0
1
c
Classified as
0 a=
Base usage
1 b = Medium usage
0 c = Expert usage
Algoritmo di classificazione Weka Decision Tree (J.48): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.J48
Telephone data
23
23
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
1
2
0
0.4444
0.6394
100 %
130.9825 %
33.3333 %
44.4444 %
3
TP
Rate
0
FP
Rate
0
Precision
Recall
0
1
0.5
0
0.333
33.3333 %
66.6667 %
0
FMeasure
0
ROC
Area
0.25
0.5
1
0.667
1
0.5
0
0
0
0.25
0.333
0.167
0.333
0.222
0.5
84
Class
Base
usage
Medium
usage
Expert
usage
A.1 Prima sperimentazione su dispositivi mobili: predizione profilo di
utilizzo
Confusion Matrix
a
0
0
0
b
0
1
1
c
Classified as
1 a=
Base usage
0 b = Medium usage
0 c = Expert usage
Algoritmo di classificazione Locally Weighted Learning (LWL): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy
Telephone data
23
23
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
1
2
0
0.5423
0.6341
122.012 %
129.8953 %
33.3333 %
66.6667 %
3
TP
Rate
0
FP
Rate
0.5
Precision
Recall
0
1
0.5
0
0.333
33.3333 %
66.6667 %
0
FMeasure
0
ROC
Area
0
0.5
1
0.667
0.5
0
0
0
0
0.5
0.333
0.167
0.333
0.222
0.333
Confusion Matrix
85
Class
Base
usage
Medium
usage
Expert
usage
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
a
0
0
1
b
1
1
0
c
Classified as
0 a=
Base usage
0 b = Medium usage
0 c = Expert usage
Algoritmo di classificazione Custom Decision Tree: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.UserClassifier
Telephone data
23
23
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
3
0
1
0
0
3
TP
Rate
1
FP
Rate
0
Precision
Recall
1
1
0
1
1
100 %
0%
1
FMeasure
1
ROC
Area
1
1
1
1
1
0
1
1
1
1
0
1
1
1
1
Confusion Matrix
a
1
0
0
b
0
1
0
c
Classified as
0 a=
Base usage
0 b = Medium usage
1 c = Expert usage
86
Class
Base
usage
Medium
usage
Expert
usage
A.1 Prima sperimentazione su dispositivi mobili: predizione profilo di
utilizzo
A.1.3
Caso del dataset ridotto numerico e nominale
• Dataset di input : 114 attributi e 23 istanze
• Costruzione ad hoc dei set di training e di test con tecniche di riduzione delle
matrici
• trainingset: 22 attributi di tipo numerico e nominale e 23 istanze
• testset: 22 attributi di tipo numerico e nominale e 3 istanze
• Algoritmi di classificazione adottati: BayesNet, Weka Decision Tree (J.48), Custom Decision Tree, Locally Weighted Learning
Algoritmo di classificazione BayesNet: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.bayes.BayesNet
Telephone data
23
22
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
3
0
1
0.0454
0.0923
10.2215 %
18.9019 %
3
TP
Rate
1
FP
Rate
0
Precision
Recall
1
1
0
1
1
100 %
0%
1
FMeasure
1
ROC
Area
1
1
1
1
1
0
1
1
1
1
0
1
1
1
1
87
Class
Base
usage
Medium
usage
Expert
usage
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Confusion Matrix
a
1
0
0
b
0
1
0
c
Classified as
0 a=
Base usage
0 b = Medium usage
1 c = Expert usage
Algoritmo di classificazione Weka Decision Tree (J.48): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.J48
Telephone data
23
22
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
2
1
0.5
0.2222
0.4714
50 %
96.5616 %
3
66.6667 %
33.3333 %
ROC
Area
1
TP
Rate
1
FP
Rate
0
Precision
Recall
1
1
FMeasure
1
1
0.5
0.5
1
0.667
0.75
0
0
0
0
0
0.5
0.667
0.167
0.5
0.667
0.556
0.75
Confusion Matrix
88
Class
Base
usage
Medium
usage
Expert
usage
A.1 Prima sperimentazione su dispositivi mobili: predizione profilo di
utilizzo
a
1
0
0
b
0
1
1
c
Classified as
0 a=
Base usage
0 b = Medium usage
0 c = Expert usage
Algoritmo di classificazione Locally Weighted Learning (LWL): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy.LWL
Telephone data
23
22
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
2
1
0.5
0.2222
0.4714
50 %
96.5616 %
3
66.6667 %
33.3333 %
ROC
Area
1
TP
Rate
1
FP
Rate
0
Precision
Recall
1
1
FMeasure
1
1
0.5
0.5
1
0.667
0.75
0
0
0
0
0
0.5
0.667
0.167
0.5
0.667
0.556
0.75
Confusion Matrix
89
Class
Base
usage
Medium
usage
Expert
usage
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
a
1
0
0
b
0
1
1
c
Classified as
0 a=
Base usage
0 b = Medium usage
0 c = Expert usage
Algoritmo di classificazione Custom Decision Tree: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy.LWL
Telephone data
23
22
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
3
0
1
0
0
3
TP
Rate
1
FP
Rate
0
Precision
Recall
1
1
0
1
1
100 %
0%
1
FMeasure
1
ROC
Area
1
1
1
1
1
0
1
1
1
1
0
1
1
1
1
Confusion Matrix
a
1
0
0
b
0
1
0
c
Classified as
0 a=
Base usage
0 b = Medium usage
1 c = Expert usage
90
Class
Base
usage
Medium
usage
Expert
usage
A.2 Seconda sperimentazione su dispositivi mobili: predizione del profilo
di utilizzo in base alla fattispecie criminale afferente la pedofilia
A.2
Seconda sperimentazione su dispositivi mobili: predizione del profilo di utilizzo in base alla fattispecie
criminale afferente la pedofilia
A.2.1
Caso del dataset ridotto solo numerico
• Dataset di input : 114 attributi e 23 istanze
• Costruzione ad hoc dei set di training e di test con tecniche di riduzione delle
matrici
• trainingset: 23 attributi di tipo solo numerico e 19 istanze
• testset: 23 attributi numerico e 2 istanze
• Algoritmi di classificazione adottati: BayesNet, Weka Decision Tree (J.48), Locally Weighted Learning
Algoritmo di classificazione BayesNet: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.bayes.BayesNet
Telephone data
19
23
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
2
0
1
0.2101
0.2101
55.1391 %
55.1391 %
2
TP
Rate
0
1
FP
Rate
0
0
Precision
Recall
0
1
1
0
1
91
100 %
0%
0
1
FMeasure
0
1
ROC
Area
0
0
1
1
0
Class
Pedo
Non Pedo
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Confusion Matrix
a b
Classified as
0 0 a=
Pedo
0 2 b=
Non Pedo
Algoritmo di classificazione Weka Decision Tree (J.48): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.J48
Telephone data
19
23
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
2
0
1
0
0
0%
0%
2
TP
Rate
0
1
FP
Rate
0
0
Precision
Recall
0
1
1
0
1
0
1
FMeasure
0
1
ROC
Area
0
0
1
1
0
Confusion Matrix
a b
Classified as
0 0 a=
Pedo
0 2 b=
Non Pedo
92
100 %
0%
Class
Pedo
Non Pedo
A.2 Seconda sperimentazione su dispositivi mobili: predizione del profilo
di utilizzo in base alla fattispecie criminale afferente la pedofilia
Algoritmo di classificazione Locally Weighted Learning (LWL): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy
Telephone data
19
23
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
2
0
1
0
0
0%
0%
2
TP
Rate
0
1
FP
Rate
0
0
Precision
Recall
0
1
1
0
1
100 %
0%
0
1
FMeasure
0
1
ROC
Area
0
0
1
1
0
Class
Pedo
Non Pedo
Confusion Matrix
a b
Classified as
0 0 a=
Pedo
0 2 b=
Non Pedo
A.2.2
Caso del dataset ridotto numerico e nominale
• Dataset di input : 114 attributi e 23 istanze
• Costruzione ad hoc dei set di training e di test con tecniche di riduzione delle
matrici
93
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
• trainingset: 22 attributi di tipo numerico e nominale e 19 istanze
• testset: 22 attributi di tipo numerico e nominale e 2 istanze
• Algoritmi di classificazione adottati: BayesNet, Weka Decision Tree (J.48), Locally Weighted Learning
Algoritmo di classificazione BayesNet: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.bayes.BayesNet
Telephone data
19
22
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
2
0
1
0.0304
0.0309
7.9796 %
8.1037 %
2
TP
Rate
0
1
FP
Rate
0
0
Precision
Recall
0
1
1
0
1
0
1
FMeasure
0
1
ROC
Area
0
0
1
1
0
Confusion Matrix
a b
Classified as
0 0 a=
Pedo
0 2 b=
Non Pedo
94
100 %
0%
Class
Pedo
Non Pedo
A.2 Seconda sperimentazione su dispositivi mobili: predizione del profilo
di utilizzo in base alla fattispecie criminale afferente la pedofilia
Algoritmo di classificazione Weka Decision Tree (J.48): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.J48
Telephone data
19
22
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
2
0
1
0.1818
0.1818
47.7273 %
47.7273 %
2
TP
Rate
0
1
FP
Rate
0
0
Precision
Recall
0
1
1
0
1
100 %
0%
0
1
FMeasure
0
1
ROC
Area
0
0
1
1
0
Class
Pedo
Non Pedo
Confusion Matrix
a b
Classified as
0 0 a=
Pedo
0 2 b=
Non Pedo
Algoritmo di classificazione Locally Weighted Learning (LWL): dettaglio dei risultati
95
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy.LWL
Telephone data
19
22
user supplied test set
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
1
1
0
0.5756
0.7152
151.108 %
187.728 %
2
TP
Rate
0
0.5
FP
Rate
0.5
0
Precision
Recall
0
1
0.5
0
1
50 %
50 %
0
0.5
FMeasure
0
0.667
ROC
Area
0
0
0.5
0.667
0
Class
Pedo
Non Pedo
Confusion Matrix
a b
Classified as
0 0 a=
Pedo
1 1 b=
Non Pedo
A.3
Sperimentazione su dispositivi laptop e desktop
A.3.1
Caso del dataset completo: predizione del profilo di utilizzo in
base alla fattispecie criminale afferente la violazione del diritto
di copyright
• Dataset di input : 45 attributi e 13 istanze
• Costruzione dei set di training e di test col metodo predittivo 10-folds cross
validation
96
A.3 Sperimentazione su dispositivi laptop e desktop
• Algoritmi di classificazione adottati:BayesNet,Weka Decision Tree (J.48), Locally
Weighted Learning, Support Vector Machine (SVM)
Algoritmo di classificazione BayesNet: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.bayes.BayesNet
Copyright Infringement
13
45
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
12
1
0.8434
0.071
0.2558
13.7514 %
49.3876 %
100 %
53.8462 %
13
92.3077 %
7.6923 %
ROC
Area
1
1
1
TP
Rate
0.833
1
FP
Rate
0
0.167
Precision
Recall
1
0.875
0.833
1
FMeasure
0.909
0.933
0.923
0.09
0.933
0.923
0.922
Confusion Matrix
a b
Classified as
5 1 a=
Infringer
0 7 b = Non Infringer
97
Class
Infringer
Non Infringer
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Algoritmo di classificazione Weka Decision Tree (J.48): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.J48
Copyright Infringement
13
45
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
12
1
0.8434
0.0769
0.2774
14.8936 %
53.5405 %
92.3077 %
50 %
13
92.3077 %
7.6923 %
ROC
Area
0.917
0.917
0.917
TP
Rate
0.833
1
FP
Rate
0
0.167
Precision
Recall
1
0.875
0.833
1
FMeasure
0.909
0.933
0.923
0.09
0.933
0.923
0.922
Confusion Matrix
a b
Classified as
5 1 a=
Infringer
0 7 b = Non Infringer
98
Class
Infringer
Non Infringer
A.3 Sperimentazione su dispositivi laptop e desktop
Algoritmo di classificazione Locally Weighted Learning (LWL): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy.LWL
Copyright Infringement
13
45
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
11
2
0.6905
0.1538
0.3922
29.7872 %
75.7177 %
84.6154 %
50 %
13
84.6154 %
15.3846 %
ROC
Area
0.786
0.786
0.786
TP
Rate
0.833
0.857
FP
Rate
0.143
0.167
Precision
Recall
0.833
0.857
0.833
0.857
FMeasure
0.833
0.857
0.846
0.156
0.846
0.846
0.846
Confusion Matrix
a b
Classified as
5 1 a=
Infringer
1 6 b = Non Infringer
99
Class
Infringer
Non Infringer
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Algoritmo di classificazione Support Vector Machine (SVM): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.functions.SMO
Copyright Infringement
13
45
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
12
1
0.8434
0.0769
0.2774
14.8936 %
53.5405 %
92.3077 %
50 %
13
92.3077 %
7.6923 %
ROC
Area
0.917
0.917
0.917
TP
Rate
0.833
1
FP
Rate
0
0.167
Precision
Recall
1
0.875
0.833
1
FMeasure
0.909
0.933
0.923
0.09
0.933
0.923
0.922
Confusion Matrix
a b
Classified as
5 1 a=
Infringer
0 7 b = Non Infringer
100
Class
Infringer
Non Infringer
A.3 Sperimentazione su dispositivi laptop e desktop
A.3.2
Caso del dataset ridotto a 15 attributi: predizione del profilo di
utilizzo in base alla fattispecie criminale afferente la violazione
del diritto di copyright
• Dataset di input : 15 attributi e 13 istanze
• Costruzione dei set di training e di test col metodo predittivo 10-folds cross
validation
• Algoritmi di classificazione adottati:BayesNet,Weka Decision Tree (J.48), Locally
Weighted Learning, Support Vector Machine (SVM)
Algoritmo di classificazione BayesNet: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.bayes.BayesNet
Copyright Infringement 15 attributi
13
16
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
11
2
0.6829
0.2186
0.3532
42.3273 %
68.1741 %
100 %
88.4615 %
13
84.6154 %
15.3846 %
ROC
Area
1
1
1
TP
Rate
0.667
1
FP
Rate
0
0.333
Precision
Recall
1
0.778
0.667
1
FMeasure
0.8
0.875
0.846
0.179
0.88
0.846
0.84
101
Class
Infringer
Non Infringer
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Confusion Matrix
a b
Classified as
4 2 a=
Infringer
0 7 b = Non Infringer
Algoritmo di classificazione Weka Decision Tree (J.48): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.J48
Copyright Infringement 15 attributi
13
16
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
13
0
1
0
0
0%
0%
100 %
50 %
13
TP
Rate
1
1
FP
Rate
0
0
Precision
Recall
1
1
1
0
1
102
100 %
7.6923 %
v
1
FMeasure
1
1
ROC
Area
1
1
1
1
1
Class
Infringer
Non Infringer
A.3 Sperimentazione su dispositivi laptop e desktop
Confusion Matrix
a b
Classified as
6 0 a=
Infringer
0 7 b = Non Infringer
Algoritmo di classificazione Locally Weighted Learning (LWL): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy.LWL
Copyright Infringement 15 attributi
13
16
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
13
0
1
0
0
0%
0%
100 %
50 %
13
TP
Rate
1
1
FP
Rate
0
0
Precision
Recall
1
1
1
0
1
103
100 %
7.6923 %
v
1
FMeasure
1
1
ROC
Area
1
1
1
1
1
Class
Infringer
Non Infringer
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Confusion Matrix
a b
Classified as
6 0 a=
Infringer
0 7 b = Non Infringer
Algoritmo di classificazione Support Vector Machine (SVM): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.functions.SMO
Copyright Infringement 15 attributi
13
16
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
9
4
0.35
0.3077
0.5547
59.5745 %
107.0811 %
69.2308 %
50 %
13
TP
Rate
0.333
1
FP
Rate
0
0.667
Precision
Recall
1
0.636
0.692
0.359
0.804
0.333
1
FMeasure
0.5
0.778
ROC
Area
0.667
0.667
0.692
0.65
0.667
Confusion Matrix
a b
Classified as
2 4 a=
Infringer
0 7 b = Non Infringer
104
69.2308 %
30.7692 %
Class
Infringer
Non Infringer
A.3 Sperimentazione su dispositivi laptop e desktop
A.3.3
Caso del dataset ridotto a 30 attributi: predizione del profilo di
utilizzo in base alla fattispecie criminale afferente la violazione
del diritto di copyright
• Dataset di input : 30 attributi e 13 istanze
• Costruzione dei set di training e di test col metodo predittivo 10-folds cross
validation
• Algoritmi di classificazione adottati:BayesNet,Weka Decision Tree (J.48), Locally
Weighted Learning, Support Vector Machine (SVM)
Algoritmo di classificazione BayesNet: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.bayes.BayesNet
Copyright Infringement 30 attributi
13
31
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
12
1
0.8434
0.0864
0.2791
16.7283
53.8875
92.3077
53.8462
13
TP
Rate
0.833
1
FP
Rate
0
0.167
Precision
Recall
1
0.875
0.923
0.09
0.933
105
92.3077 %
7.6923 %
%
%
%
%
0.833
1
FMeasure
0.909
0.933
ROC
Area
1
1
0.923
0.922
1
Class
Infringer
Non Infringer
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Confusion Matrix
a b
Classified as
5 1 a=
Infringer
0 7 b = Non Infringer
Algoritmo di classificazione Weka Decision Tree (J.48): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.J48
Copyright Infringement 30 attributi
13
31
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
13
0
1
0
0
0%
0%
100 %
50 %
13
TP
Rate
1
1
FP
Rate
0
0
Precision
Recall
1
1
1
0
1
106
100 %
7.6923 %
1
1
FMeasure
1
1
ROC
Area
1
1
1
1
1
Class
Infringer
Non Infringer
A.3 Sperimentazione su dispositivi laptop e desktop
Confusion Matrix
a b
Classified as
6 0 a=
Infringer
0 7 b = Non Infringer
Algoritmo di classificazione Locally Weighted Learning (LWL): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy.LWL
Copyright Infringement 30 attributi
13
31
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
13
0
1
0
0
0%
0%
100 %
50 %
13
TP
Rate
1
1
FP
Rate
0
0
Precision
Recall
1
1
1
0
1
107
100 %
7.6923 %
1
1
FMeasure
1
1
ROC
Area
1
1
1
1
1
Class
Infringer
Non Infringer
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Confusion Matrix
a b
Classified as
6 0 a=
Infringer
0 7 b = Non Infringer
Algoritmo di classificazione Support Vector Machine (SVM): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.functions.SMO
Copyright Infringement 30 attributi
13
31
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
11
2
0.6829
0.1538
0.3922
29.7872 %
75.7177 %
84.6154 %
50 %
13
84.6154 %
15.3846 %
ROC
Area
0.883
0.833
0.833
TP
Rate
0.667
1
FP
Rate
0
0.333
Precision
Recall
1
0.778
0.667
1
FMeasure
0.8
0.875
0.846
0.179
0.88
0.846
0.84
Confusion Matrix
a b
Classified as
4 2 a=
Infringer
0 7 b = Non Infringer
108
Class
Infringer
Non Infringer
A.3 Sperimentazione su dispositivi laptop e desktop
A.3.4
Caso del dataset ridotto a 45 attributi: predizione del profilo di
utilizzo in base alla fattispecie criminale afferente la violazione
del diritto di copyright
• Dataset di input : 45 attributi e 13 istanze
• Costruzione dei set di training e di test col metodo predittivo 10-folds cross
validation
• Algoritmi di classificazione adottati:BayesNet,Weka Decision Tree (J.48), Locally
Weighted Learning, Support Vector Machine (SVM)
Algoritmo di classificazione BayesNet: dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.bayes.BayesNet
Copyright Infringement 45 attributi
13
46
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
12
1
0.8434
0.071
0.2558
13.7514 %
49.3876 %
100 %
53.8462 %
13
92.3077 %
7.6923 %
ROC
Area
1
1
1
TP
Rate
0.833
1
FP
Rate
0
0.167
Precision
Recall
1
0.875
0.833
1
FMeasure
0.909
0.933
0.923
0.09
0.933
0.923
0.922
109
Class
Infringer
Non Infringer
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Confusion Matrix
a b
Classified as
5 1 a=
Infringer
0 7 b = Non Infringer
Algoritmo di classificazione Weka Decision Tree (J.48): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.trees.J48
Copyright Infringement 45 attributi
13
46
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
12
1
0.8434
0.0769
0.2774
14.8936 %
53.5405 %
92.3077 %
50 %
13
92.3077 %
7.6923 %
ROC
Area
0.917
0.917
0.917
TP
Rate
0.833
1
FP
Rate
0
0.167
Precision
Recall
1
0.875
0.833
1
FMeasure
0.909
0.933
0.923
0.09
0.933
0.923
0.922
110
Class
Infringer
Non Infringer
A.3 Sperimentazione su dispositivi laptop e desktop
Confusion Matrix
a b
Classified as
5 1 a=
Infringer
0 7 b = Non Infringer
Algoritmo di classificazione Locally Weighted Learning (LWL): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.lazy.LWL
Copyright Infringement 45 attributi
13
46
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
11
2
0.6905
0.1538
0.3922
29.7872 %
75.7177 %
84.6154 %
50 %
13
84.6154 %
15.3846 %
ROC
Area
0.786
0.786
0.786
TP
Rate
0.833
0.857
FP
Rate
0.143
0.167
Precision
Recall
0.833
0.857
0.833
0.857
FMeasure
0.833
0.857
0.846
0.156
0.846
0.846
0.846
111
Class
Infringer
Non Infringer
A. LA RAPPRESENTAZIONE GRAFICA DEI RISULTATI
SPERIMENTALI ATTRAVERSO L’AMBIENTE WEKA
Confusion Matrix
a b
Classified as
5 1 a=
Infringer
1 6 b = Non Infringer
Algoritmo di classificazione Support Vector Machine (SVM): dettaglio dei risultati
Schema:
Relation:
Instances:
Attributes:
Test mode:
weka.classifiers.functions.SMO
Copyright Infringement 45 attributi
13
46
10-fold cross-validation
Summary
Correctly Classified Instances
Incorrectly Classified Instances
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Coverage of cases (0.95 level)
Mean rel. region size (0.95 level)
Total Number of Instances
Detailed
Accuracy
Weighted Avg.
12
1
0.8434
0.0769
0.2774
14.8936 %
53.5405 %
92.3077 %
50 %
13
92.3077 %
7.6923 %
ROC
Area
0.917
0.917
0.917
TP
Rate
0.833
1
FP
Rate
0
0.167
Precision
Recall
1
0.875
0.833
1
FMeasure
0.909
0.933
0.923
0.09
0.933
0.923
0.922
Confusion Matrix
a b
Classified as
5 1 a=
Infringer
0 7 b = Non Infringer
112
Class
Infringer
Non Infringer
Bibliografia
[1] Gartner Inc. Gartner says worldwide pc shipments grew 3.2 percent in third
quarter of 2011. 2011. Disponibile da: http://www.gartner.com/it/page.jsp?
id=1821731. iii
[2] Gartner Inc. Gartner says sales of mobile devices grew 5.6 percent in third quarter
of 2011; smartphone sales increased 42 percent. 2011. Disponibile da: http:
//www.gartner.com/it/page.jsp?id=1848514. iii
[3] Polizia Postale e delle Comunicazioni. Dati relativi alle indagini e alle denunce nel
2010. 2011. iii
[4] Rick Ayers and Wayne Jansen. Guidelines on cell phone forensics. Technical
report, NIST, 2007. 5, 22
[5] Ludovic Moenner Rick Ayers, Wayne Jansen and Aurelien Delaitre. Cell phone
forensic tools: An overview and analysis update. Technical report, NIST, 2007. 5,
22
[6] Rick Ayers and Wayne Jansen. Pda forensic tools: An overview and analysis.
Technical report, NIST, 2004. 5, 22
[7] NIST. Smart phone tool specification. april 2010. 5, 22
[8] NIST. Guide to simfill use and development. april 2010. 5, 22
[9] Jim Lyle. Computer forensic tool testing at nist. Technical report, Information
Technology Laboratory Digital Forensics Forum, may 2007. 5, 22
113
BIBLIOGRAFIA
[10] Gary Palmer. A road map for digital forensic research. Report from the first digital
forensic research workshop (dfrws), DFRWS, Utica, New York, august 2001. 13,
17
[11] Brian Carrier. Defining digital forensic examination and analysis tools using abstraction layers. In International Journal of Digital Evidence, volume 1. Winter,
4 edition, 2003. 13
[12] Simson L. Garfinkel.
Digital forensics research: The next 10 years.
Digital
Investigation, Elsevier., 7:S64–S73, 2010. 15
[13] DFRWS CDESF. Survey of disk image storage formats version 1.0. common digital
evidence storage format. september 2006. 16
[14] Garfinkel Simson L. Automating disk forensic processing with sleuthkit, xml and
python. In Fourth international IEEE workshop on systematic approaches to digital
forensic engineering. ieee, 2009. 16
[15] Garfinkel Simson L, Farrell Paul, Roussev Vassil, and Dinolt George. Bringing
science to digital forensics with standardized forensic corpora. In 9th Annual
Digital Forensic Research Workshop (DFRWS), august 2009. 16
[16] Grenier Christophe.
Data carving log.
2009.
Disponibile da: http://www.
cgsecurity.org/wiki/Data_Carving_Log. 16
[17] U.S. Department of Justice. A forensic examination of digital evidence: A guide
for law enforcement, april 2004. 17
[18] Brian Carrier. A Hypothesis-Based Approach to Digital Forensic Investigations.
PhD thesis, Purdue University, 2006. 17
[19] Association of Chief Police Officers. Good Practice Guide for Computer based
Electronic Evidence. 17
[20] Karen Kent, Suzanne Chevalier, Tim Grance, and Hung Dang. Guide to Integrating
Forensic Techniques into Incident Response. NIST, special publication 800-86
edition, august 2006. 17
114
BIBLIOGRAFIA
[21] ISO.
ISO/IEC 27037:Guidelines for identification, collection, acquisition and
preservation of digital evidence (DRAFT). 17
[22] Access Data Forensics Toolkit.
Disponibile da:
http://accessdata.com/
products/computer-forensics/ftk. 23
[23] Encase Forensic.
Disponibile da:
http://www.guidancesoftware.com/
forensic.htm. 23, 39
[24] CAINE (Computer Aided INvestigative Environment). Disponibile da: http:
//www.caine-live.net. 24, 39
[25] DFF
(Digital
Forensics
Framework).
Disponibile
da:
http://www.
digital-forensic.org/framework. 24, 39
[26] Paraben
Device
Seizure.
Disponibile
da:
http://www.paraben.com/
device-seizure.html. 24, 39
[27] XRY. Disponibile da: http://www.msab.com/xry/what-is-xry. 25, 39
[28] MobileEdit
Forensics.
Disponibile
da:
http://www.mobiledit.com/
mef-overview.htm. 25, 39
[29] UFED.
Disponibile
da:
http://www.cellebrite.com/
mobile-forensics-products/forensics-products.html. 25, 39
[30] MIAT (Mobile Internal Acquisition Tool).
Disponibile da:
http://
miatforensics.org. 25
[31] Rosamaria Berté, Fabio Dellutri, Antonio Grillo, Alessandro Lentini, Gianluigi Me,
, and Vittorio Ottaviani. Fast smartphones forensic analysis results through miat
and forensic farm. Journal of Electronic Security and Digital Forensics (IJESDF),
Inderscience), 2009. 26
[32] Rosamaria Berté, Fabio Dellutri, Antonio Grillo, Alessandro Lentini, Gianluigi
Me, and Vittorio Ottaviani. Fast smartphones forensic analysis results through
miat and forensic A Methodology for Smartphones Internal Memory Acquisition,
Decoding and Analysis, chapter A. Handbook of Electronic Security and Digital
Forensics, 2008. 26
115
BIBLIOGRAFIA
[33] B. Carrier and Spafford E. Getting physical with the digital investigation process.
International Journal of Digital Evidence, 2(2):20, 2003. 32
[34] Rogers M. DCSA: Applied digital crime scene analysis, chapter 7, pages 601–614.
Handbook of Information Security New York, NY: Auerbach., 2006. 32
[35] Marcus K. Rogers, Rick Mislan, James Goldman, Timothy Wedge, and Steve
Debrota. Computer forensics field triage process model. In Conference on Digital
Forensics, Security and Law, 2006. 32
[36] Richard P. Mislan, Eoghan Casey, and Gary C. Kessler. The growing need for
on-scene triage of mobile devices. Digital Investigation, 6(3-4):112–124, may 2010.
34
[37] Dell Mobile Forensics Unit. Disponibile da: http://gcn.com/articles/2011/
04/07/Dell-Spektor-Digital-Mobile-Forensics. 34
[38] ’AD Triage 1.0.0’ Access Data. Disponibile da: RelasedinApril12,2011. 35
[39] Veena H Bhat et al. A data mining approach for data generation and analysis
for digital forensic application. IACSIT International Journal of Engineering and
Technology, 2(3), june 2010. ISSN: 1793-8236. 35
[40] Conan C. Albrecht.
Fraud and forensic accounting in a digital environment.
Technical report, Institute for Fraud Prevention, 2009. 36
[41] Forensic Data Mining: Finding Intrusion Patterns in Evidentiary Data. 16th Annual Americas Conference on Information Systems, Lima, Peru, august 2009.
36
[42] D.Ariu, G. Giacinto, and F. Roli. Machine learning in computer forensics (and
the lessons learned from machine learning in computer security). Technical report,
University of Cagliari. 4 Workshop on Artificial Intelligence and Security, october
2011. 36
[43] O. de Vel, A. Anderson, M. Corney, and G. Mohay. Mining e-mail content for
author identification forensics. Technical report, ACM SIGMOD Record, december
2001. 36
116
BIBLIOGRAFIA
[44] F. Iqbal, H. Binsalleeh, B. C. Fung, and M. Debbabi. Mining writeprints from
anonymous e-mails for forensic investigation. Digital Investigation, 7(1-2):56–64,
2010. 36
[45] F. Iqbal, H. Binsalleeh, B. C. Fung, and M. Debbabi. A unified data mining solution for authorship analysis in anonymous textual communications. Information
Sciences, In Press, Corrected Proof, 2011. 36
[46] P. Giura and N. Memon. Netstore. An efficient storage infrastructure for network
forensics and monitoring. S. Jha, R. Sommer, and C. Kreibich, editors, RAID,
6307:277296, 2010. 36
[47] Giorgio Giacinto and Belur V. Dasarathy. Machine learning for computer security:
A guide to prospective authors. 12:238–239, 2011. 36
[48] R.Berté, F.Marturana, G.Me, and S.Tacconi. Mobile forensics triaging: new directions for methodology. In Springer, editor, VIII Conference of the Italian Chapter
of AIS (ITAIS 2011), 2011. 37, 57
[49] R.Berté, F.Marturana, G.Me, and S.Tacconi. A quantitative approach to triaging
in mobile forensics. In International Joint Conference of IEEE TrustCom-11/IEEE
ICESS-11/FCST-11, Changsha, pages 582–588, 2011. 37, 57
[50] R.Berté, F.Marturana, G.Me, and S.Tacconi. Data mining based crime-dependent
triage in digital forensics analysis. In International Conference on Affective Computing and Intelligent Interaction (ICACII 2012) and IERI Lecture Notes in
Information Technology, 2012. 37, 57
[51] R.Berté, F.Marturana, G.Me, and S.Tacconi. Triage-based automated analysis of
evidence in court cases of copyright infringement. In First IEEE International
Workshop on Security and Forensics in Communication Systems (ICC’12 WS SFCS), 2012. 37, 57
[52] G. Palmer. A road map for digital forensic research. Technical report, Digital
Forensic Research Workshop (DFRWS), 2001. 37
[53] Brian Carrier. Sleuthkit. Disponibile da: http://www.sleuthkit.org/index.
php. 39
117
BIBLIOGRAFIA
[54] K.J. Cios, Pedrycz W., Swiniarski R.W., and Kurgan L.A.
Data Mining. A
Knowledge Discovery Approach. XV, 2007. 40
[55] Ian H. Witten, Eibe Frank, and Mark A. Hall. Data Mining Practical Machine
Learning Tools and Techniques. 3rd Edition, 2011. 45, 72
[56] Tom Mitchell. Machine Learning. 1997. 46
[57] Hughes G. On the mean accuracy of statistical pattern recognizers. In IEEE
Trans. Info Theory, volume 14, pages 55–63. 1968. 50, 73
[58] S. B. Serpico. Teoria e tecniche del riconoscimento 1. 50
[59] Remco R. Bouckaert. Bayesian network classifiers in weka for version 3-5-7. may
2008. 52
[60] J. Ross Quinlan. Induction of decision trees. In Jude W. Shavlik and Thomas G. Dietterich, editors, Readings in Machine Learning. Morgan Kaufmann,
1990. Originally published in Machine Learning 1:81–106, 1986. 52, 55
[61] Eibe Frank, Mark Hall, and Bernhard Pfahringer. Locally weighted nave bayes.
2003. 52, 55
[62] Vladimir N. Vapnik. The nature of statistical learning theory. Springer-Verlag
New York, Inc., New York, NY, USA, 1995. 52, 55
[63] Shawe-Taylor and Cristianini. An Introduction to Support Vector Machines and
Other Kernel-based Learning Methods. Cambridge University Press, 2000. 52, 55
[64] Metodo di eliminazione di gauss. Disponibile da: http: // it. wikipedia. org/
wiki/ Metodo_ di_ eliminazione_ di_ Gauss . 63
[65] M. A. Hall and Holmes G. Benchmarking attribute selection techniques for discrete
class data mining. In IEEE transactions on knowledge and data engineering,
volume 15, 2003. 73
[66] Wang B. Jia and Y. Yang S. Forward semi-supervised feature selection based on
relevant set correlation. In International Conference of IEEE Computer Science
and Software Engineering, Wuhan, Hubei, pages 210–213, 2008. 73
118