theses

Università degli Studi Mediterranea di Reggio Calabria
Dipartimento di Ingegneria dell’Informazione, delle Infrastrutture e
dell’Energia Sostenibile
Corso di Laurea in Ingegneria dell’Informazione
Tesi di Laurea
Big Data e Predizione: Teoria, Modelli, Tool e Case Study
Relatore
Candidato
Prof. Domenico Ursino
Rosario Laface
Anno Accademico 2014-2015
A chi mi vuole bene,
a colei che ha reso possibile tutto ciò,
e a colui che avrebbe voluto esserci, e che sarà sempre nel mio cuore.
Indice
Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
Predictive Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Cos’è la Predictive Analytics? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Le Data Science dietro la Predictive Analytics . . . . . . . . . . . . . . . . . . . .
1.2.1 Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Applicazioni Pratiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 I Dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Il processo di analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Identificazione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2 Strutturazione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.3 Preparazione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.4 Scelta del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.5 Implementazione del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.6 Valutazione del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Critiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
7
7
7
8
9
12
14
15
15
16
17
18
19
19
2
Big
2.1
2.2
2.3
2.4
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cosa sono i Big Data? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Big Data e Predictive Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hardware e Calcolo distribuito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Strumenti di Analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 MapReduce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Apache Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3 Ecosistema Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
24
26
28
29
32
35
3
I Modelli di Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 I Modelli come Strumento di Previsione . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Data Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 K-nearest neighbors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
39
42
44
47
VI
Indice
3.2.3 DBSCAN clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Data Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Reti Neurali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3 Alberi di decisione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Metodi Probabilistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Naive Bayes Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Il Modello di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Recommendation Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
50
51
56
59
61
61
63
65
4
Analisi della Regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1 I Modelli di Regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Regressione Lineare Semplice e Multipla . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Regressione Logistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
69
70
76
5
Tool di Analisi Predittiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Caratteristiche Generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Orange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Analisi Predittiva Basata sul Cloud Computing . . . . . . . . . . . . . . . . . .
79
79
80
86
90
92
6
Case study: Utilizzo di R per Predire i Ritardi dei Voli . . . . . . . . . 95
6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.2 Definizione degli Obiettivi ed Acquisizione dei Dati . . . . . . . . . . . . . . . 96
6.3 Analisi e Preparazione dei Dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.4 Estrazione di Nuove Variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.5 Suddivisione dei Dati ed Implementazione del Modello . . . . . . . . . . . . 102
6.6 Analisi della Regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7
Conclusioni e uno Sguardo al Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Ringraziamenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Riferimenti bibliografici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Elenco delle figure
1.1
Predictive Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.1
2.2
Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Andamento della quantità di ricerche Google riguardo il termine
“Big Data” negli ultimi anni, a testimonianza del crescere della
popolarità del tema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dati su un generico prodotto X raccolti da varie fonti . . . . . . . . . . . . . .
Aumento della capacità degli hard disk nel corso del tempo . . . . . . . . .
Processo diviso in più sottoparti (task ). . . . . . . . . . . . . . . . . . . . . . . . . . .
Flusso dei dati lavorati tramite MapReduce . . . . . . . . . . . . . . . . . . . . . . .
L’ecosistema di Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Il logo di Apache Mahout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.3
2.4
2.5
2.6
2.7
2.8
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
Algoritmo di clustering che individua gruppi di appartenenza
esaminando gli attributi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Collezione di documenti in formato tabulare; gli attributi, in questo
caso, rappresentano le parole più frequenti all’interno del testo. Le
lettere da A a F indicano le istanze dei documenti . . . . . . . . . . . . . . . . .
Un dataset relativo a dei clienti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Risultato dell’algoritmo K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Densità del dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sottoinsieme di elementi che identificano un cluster . . . . . . . . . . . . . . . .
Definizione di density-reachability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Struttura di un neurone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Struttura di un neurone artificiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Funzione sigmoidea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Classificatore lineare (a sinistra) e non lineare (a destra) . . . . . . . . . . .
Due diversi margini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Vettore delle caratteristiche in uno spazio a 2 dimensioni . . . . . . . . . . .
Calcolo dell’iperpiano che fornisce il margine migliore . . . . . . . . . . . . . .
Albero di decisione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Albero di decisione per la previsione dell’esito di un investimento . . . .
Catena di Markov a tre stati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
25
27
29
32
35
37
43
45
45
46
48
48
49
52
53
54
55
56
57
58
59
60
64
VIII
Elenco delle figure
4.1
4.2
4.3
Modello di regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Retta di regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Punti campione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
Il logo di R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L’esempio di un dataset utilizzato da R . . . . . . . . . . . . . . . . . . . . . . . . . .
Risultati della funzione predict() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Albero di decisione realizzato tramite R . . . . . . . . . . . . . . . . . . . . . . . . . .
Il logo di Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L’interfaccia Explorer di Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Alcuni dei modelli di classificazione disponibili in Weka . . . . . . . . . . . .
Il logo di Orange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L’interfaccia grafica di Orange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L’interfaccia grafica di Azure Machine Learning . . . . . . . . . . . . . . . . . . .
Il logo di Google Cloud Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Metodo richiamato dall’interfaccia di Google Prediction API . . . . . . . .
6.1
6.2
6.3
6.4
6.5
6.6
6.7
Dataset prelevato all’interno dell’ambiente di sviluppo di R . . . . . . . . . 97
Matrice delle correlazioni tra gli attributi del dataset . . . . . . . . . . . . . . 102
Risultati della Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Residual vs Fitted . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Q-Q plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Scale-Location . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Residual vs Leverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
80
84
86
87
87
88
89
90
91
93
94
94
Elenco delle tabelle
4.1
Dati campione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.1
Attributi relativi alle osservazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Introduzione
È risaputo come il possesso di informazioni determini notevoli vantaggi all’interno di
qualsiasi settore. Nell’era digitale le informazioni vengono trasmesse attraverso flussi
di dati dovuti al sempre maggiore utilizzo di strumenti elettronici connessi tra di
loro. Tali informazioni rappresentano l’oggetto del desiderio di molte compagnie, le
quali tentano di utilizzarle al fine di conoscere meglio i propri clienti ed incrementare
le richieste dei propri servizi.
Una tendenza in continuo aumento è quella di tentare di estrarre il maggior
numero possibile di informazioni da un insieme scelto di dati. Quest’ultimi possono trovarsi, senza alcuna semantica particolare, all’interno di pagine web o email,
oppure (in maniera ben definita) all’interno di strutture dati, database; gli stessi possono essere, ancora, prelevati da sensori. Oltre alle informazioni intrinseche,
estraibili da ciascuna sorgente di dati, integrando le varie sorgenti è possibile far
emergere ulteriori significati ed informazioni non ben evidenti.
Questo è lo scopo dell’analisi dei dati (data analysis). Quest’ultimo è un processo
di ispezione, pulizia, trasformazione e modellazione di dati con il fine di evidenziare
nuove informazioni. Tale analisi viene realizzata mediante molti approcci e molte
tecniche diverse, le quale variano in funzione dello scopo che ci si prefigge di ottenere.
Con il passare del tempo sono emerse numerose potenzialità di un simile approccio. Oltre ad uno scopo descrittivo di semplice estrazione di nuove informazioni, infatti, spesso si ricorre all’analisi dei dati per ottenere risultati particolarmente
convenienti, ossia, la previsione di eventi futuri. Molte tecniche di analisi permettono di descrivere una rappresentazione di uno o più particolari eventi e, quindi,
di riproporre tali rappresentazioni al fine di prevedere, con una ben determinata
precisione, simili comportamenti durante il futuro.
Il Data Mining è quel particolare settore di analisi dei dati il quale si focalizza
sulla modellazione e sulla scoperta di conoscenza per scopi predittivi. A quest’ultimo si affianca la disciplina dell’apprendimento automatico (machine learning) che
rappresenta una delle aree fondamentali dell’intelligenza artificiale; essa si occupa
della realizzazione di sistemi ed algoritmi i quali catturano caratteristiche di interesse all’interno dei dati, in maniera automatica, al fine di analizzarle e valutare
le relazioni tra le variabili osservate. Entrambi sfruttano, in molti casi, tecniche di
analisi statistica al fine di descrivere l’affidabilità dei modelli che rappresentano le
informazioni a venire.
2
Introduzione
L’analisi predittiva è una scienza, relativamente recente, che integra tecniche
di data mining e machine learning per determinare particolari informazioni ancora
sconosciute a partire da dati attuali. L’analisi dei dati, necessaria all’ottenimento di
simili risultati, prevede fasi ben precise. Le prime cominciano con la raccolta dei dati
e, successivamente, portano alla manipolazione di questi ultimi al fine di eliminare
valori mancanti, oppure non coerenti con la particolare tecnica di analisi adottata.
Dopo essere stati adeguatamente preparati, i dati vengono impiegati da determinati algoritmi al fine di sviluppare una rappresentazione del loro comportamento
chiamata modello di previsione. A partire da quest’ultima vengono individuate le
informazioni che riguardano eventi non ancora trascorsi.
Poichè, dunque, la spinta necessaria a realizzare previsioni è data proprio dalle
informazioni, nessuna fonte risulta essere efficace tanto quanto la fonte dei Big Data. Questo termine viene utilizzato per rappresentare enormi raccolte di dati i quali
sono caratterizzati, oltre che dall’elevato volume di informazioni contenute, da un’elevata velocità di aggiornamento e da un’estrema varietà. Simili collezioni di dati,
pur essendo determinanti ai fini dell’analisi predittiva, non possono essere analizzati
mediante tradizionali algoritmi. Le caratteristiche dei Big Data impongono l’utilizzo
di strumenti che possiedono capacità di elaborazione molto elevata o, in alternativa,
di reti di calcolatori che permettono di suddividere le diverse operazioni svolte sui
dati su più macchine. Proprio su quest’ultimo tipo di sistema si basa la piattaforma Apache Hadoop la quale consente l’elaborazione distribuita degli algoritmi di
predizione.
Tali algoritmi permettono di realizzare diversi modelli in base alle diverse esigenze. In alcune applicazioni pratiche, è necessario analizzare i dati allo scopo di
individuare particolari somiglianze tra gli oggetti e, dunque, associare ciascuno di
essi ad una particolare categoria. È questo il caso degli algoritmi di clustering i
quali consentono di individuare diversi possibili gruppi di appartenenza dei dati.
A tali categorie è spesso necessario ricondurre le diverse osservazioni raccolte (ad
esempio, al fine di concedere un prestito, dopo aver ottenuto i dati di un particolare
cliente, si vuole stabilire se quest’ultimo può essere etichettato come affidabile o
no). Il compito di individuare le caratteristiche di appartenenza di un oggetto ad
un gruppo, piuttosto che ad un altro, è svolto dai modelli di classificazione. Esistono
diversi altri tipi di modelli di previsione quali, ad esempio, i modelli probabilistici,
i quali affrontano la problematica della previsione mediante metodi statistici. Particolare interesse pratico possiede una determinata categoria di modelli denominati
modelli di regressione. Questi ultimi consentono di prevedere quantità numeriche,
basando le proprie assunzioni su metodi geometrici e matematici.
Allo scopo di semplificare l’uso dei modelli appena citati, sono stati implementati
tool specifici per l’analisi dei dati. Alcuni di essi servono come strumenti per svolgere compiti semplici che coinvolgono quantità relativamente piccole di dati. Altri
servono, invece, per analizzare situazioni complesse. Quest’ultimi vengono implementati sulle piattaforme software per l’analisi dei Big Data, citate in precedenza,
e permettono dunque di suddividere gli obiettivi dell’analisi in più task secondari.
Nella presente tesi, verrà utilizzato uno di questi tool al fine di mettere in atto
le procedure appena citate in un case study. In particolare, si cercherà di prevedere
i ritardi negli arrivi in aeroporto durante i viaggi aerei. Verranno impiegati dati
corrispondenti ai precedenti voli, i quali comprendono, al loro interno, anche i ritardi
Introduzione
3
osservati in passato, al fine di costruire un modello capace di utilizzare dati più
recenti per prevedere periodi di ritardo non ancora noti.
Tutte le tematiche appena affrontate verranno riproposte, con maggiore dettaglio, all’interno della presente tesi. In particolare, essa è strutturata come di seguito
specificato:
• Nel Capitolo 1 viene esposta una descrizione generale dei processi di analisi
predittiva, facendo riferimento alle discipline che ne stanno alla base ed alle
applicazioni di uso comune.
• Nel Capitolo 2 vengono descritte le caratteristiche dei Big Data, le problematiche
legate alla loro analisi e gli strumenti realizzati a tale scopo.
• Nel Capitolo 3 vengono mostrati i principali modelli di predizione citando, per
ciascuno di essi, i principali impieghi, i vantaggi e gli svantaggi.
• Nel Capitolo 4 viene dato spazio alla particolare tipologia dei modelli di
regressione.
• Nel Capitolo 5 vengono esaminati alcuni dei principali tool di analisi predittiva,
facendo riferimento ai motivi che spingono all’utilizzo di ciascuno di essi.
• Nel Capitolo 6 viene esposto il case study, partendo dalla raccolta dei dati fino
all’analisi dei risultati finali.
• Nel Capitolo 7, infine, viene proposto un riassunto dell’evoluzione moderna
dell’analisi predittiva e delle possibili applicazioni future.
1
Predictive Analytics
In questo capitolo vengono presentate le caratteristiche generali della Predictive
Analytics o analisi predittiva, vengono mostrate le discipline dalle quali ha avuto
origine, i principali obiettivi e gli utilizzi più promettenti; viene inoltre fatto un breve resoconto sulle tipologie di dati utilizzati dagli strumenti di analisi e di predizione.
Viene quindi illustrato in dettaglio il processo generale di analisi predittiva, infine,
viene fatto un accenno alle critiche mosse contro questa nuova disciplina.
Figura 1.1. Predictive Analytics
1.1 Cos’è la Predictive Analytics?
La Predictive Analytics è un insieme di tecniche e discipline che ha lo scopo di
prevedere il comportamento di un qualunque sistema o di una qualsiasi variabile o
insieme di variabili[17]. È ovvio che i vantaggi di tutto questo sono praticamente
illimitati se non fosse che l’analisi predittiva non riesce a prevedere perfettamente
il futuro ma riesce comunque a fare delle previsioni con un livello di precisione
più che accettabile. Un po come gli scienziati usano modelli fisici e matematici per
determinare il comportamento di un sistema, con l’analisi predittiva, che invece si
basa su dati empirici ottenuti dalle stesse entità sulle quali si vogliono fare previsioni,
6
1 Predictive Analytics
in particolare dati storici e attuali, è possibile estrarre nuove informazioni, il che
significa, sostanzialmente, vedere ciò che agli altri è invisibile.
Ad esempio, applicando l’analisi al mondo del marketing, che rappresenta circa
un terzo delle reali applicazioni di questa disciplina, si possono ottenere principalmente tre vantaggi. Il primo consiste nella lungimiranza, anticipare il comportamento dei clienti, dei quali possiamo conoscere, ad esempio, gli articoli che sono
interessati ad acquistare o sapere in anticipo quando e perchè non sono più interessati a un determinato servizio. Il secondo consiste nel poter categorizzare tali
clienti in base alle loro necessità, comprendere meglio i loro bisogni migliorando la
cosidetta “customer experience”, migliorare i prodotti, identificare potenziali rischi
e opportunità per la compagnia. Come terzo e ultimo vantaggio, scavare a fondo nel
passato dei clienti permette di associare i dati già in possesso alla compagnia a dati
che potrebbero esserlo; conoscere tali informazioni permette di affinare le strategie
e massimizzare i profitti.
Un’altra possibilità offerta è quella di prevedere in anticipo i possibili sviluppi
di una malattia, analizzando i possibili fattori determinanti.
Inoltre, molte organizzazioni, attualmente, utilizzano determinate regole guidate
dai dati in loro possesso per prevedere l’esito delle decisioni prese. Un tipico esempio
di utilizzo di analisi predittiva è dato dall’uso che ne fanno le compagnie bancarie
che, analizzando dati provenienti dai movimenti nelle carte di credito dei clienti,
prevedono in modo efficiente l’esito della decisione di concedere o meno un prestito,
spesso in tempo reale tramite dei tool di predizione.
Analogamente, nel mondo delle assicurazioni, l’analisi predittiva permette di
accelerare i meccanismi di valutazione delle richieste di indennizzo e, allo stesso
tempo, di prevenire possibili frodi; queste categorie rappresentano un altro terzo
delle applicazioni.
Infatti, per estensione, l’analisi predittiva può essere utilizzata per calcolare qualsiasi tipo di incognita riguardante sia il futuro che il presente, in quanto il processo
di predizione consiste nell’individuare degli schemi tra i dati che vengono analizzati ed estrapolare da essi innumerevoli informazioni nascoste che, altrimenti, non
verrebbero mai evidenziate nei dati grezzi.
Oltre ai vantaggi insiti nella previsione degli eventi futuri, infatti, non bisogna
dimenticare che dalla preventiva azione di estrazione dei dati (data mining), caratteristica del processo di analisi predittiva, derivano altri vantaggi; possiamo immaginare, infatti, quante risorse e quanto tempo possono essere risparmiati analizzando
grandi quantità di dati in maniera automatica tramite dei tool specializzati, senza
contare di quanto viene ridotta la possibilità di errore umano e di quanto aumenta
la precisione. I dati che vengono considerati sono di diverso genere e vengono forniti
dagli esperti del settore; in genere, però, si tratta di dati caratteristici dell’elemento sul quale si sta cercando di fare previsioni e che provengono dal passato dello
stesso; tramite questi dati viene istruito un modello che simula il comportamento
del soggetto che si sta osservando, e da questi comportamenti vengono dedotti degli
schemi che sono, poi, le previsioni vere e proprie.
Tutto questo determina un’elevata affidabilità per quanto riguarda sia dati deterministici che casuali. I vari modelli sono scelti in base alle varie situazioni e sono
descritti dalle varie discipline che stanno alla base della predictive analytics.
1.2 Le Data Science dietro la Predictive Analytics
7
1.2 Le Data Science dietro la Predictive Analytics
La predictive analytics fa ampiamente uso di tre discipline che sono strettamente legate a essa: statistica, data mining e machine learning. Il legame tra queste discipline
è cosı̀ forte che, spesso, si indica una per fare riferimento a un’altra, questo perchè
l’analisi predittiva combina molte tecniche, strumenti e algoritmi caratteristici delle
altre.
La differenza fondamentale è l’obiettivo: mentre statistica, data mining e machine learning cercano di comprendere i dati, analizzarli, estrapolare informazioni
e imparare da essi, la predictive analytics ha come scopo quello di utilizzare queste
informazioni e i modelli ricavati per fare previsioni utili.
Fra i comuni denominatori delle tre discipline c’è sicuramente, la matematica,
che fornisce strumenti a ciascuna di esse, come anche la preventiva analisi dei dati,
necessaria per fornire i dati più adatti per prendere le decisioni più accurate. Nelle
prossime sottosezioni verranno analizzate in dettaglio ciascuna delle tre discipline
di cui sopra:
1.2.1 Statistica
Comprende metodi per la raccolta e l’analisi dei dati relativi a determinati fenomeni
al fine di studiarli quando non è possibile avere una completa conoscenza di essi.
Utilizza formule matematiche per studiare tali fenomeni quando è presente una
incertezza, cioè quando non è possibile osservare in modo deterministico la quantità
o la qualità degli attributi del fenomeno. Essa quinti strettamente legata alle teoria
delle probabilità. Tramite la statistica è possibile identificare relazioni tra i dati,
cosa molto utile nella fase di comprensione degli stessi. Al contrario del data mining,
tuttavia, la statistica non prevede il filtraggio e la preparazione dei dati.
La statistica si può suddividere in due branchie principali: statistica descrittiva
e statistica inferenziale. La prima ha come obiettivo quello di descrivere gli aspetti
più rilevanti dei dati osservati e sintetizzarli attraverso strumenti grafici e indicatori come media, varianza, etc. La seconda cerca di stabilire dei comportamenti e
delle caratteristiche delle variabili ottenute con un certo grado di precisione predeterminato e, quindi, spesso descrivendoli in termini di densità di distribuzione di
probabilità. Usando solo un campione dei dati in nostro possesso è possibile, tramite
la statistica, avere una base per avanzare ipotesi su ciò che potrà avvenire.
1.2.2 Data Mining
Con questo termine si intende l’insieme di tecniche analitiche che mirano a trovare
schemi (pattern) utili o nuove relazioni nei dati al fine di estrarre informazioni nascoste, cioè non direttamente esplicitate dai dati stessi. A differenza della statistica,
che analizza informazioni generali nel dominio di interesse, il data mining analizza
possibili correlazioni tra più variabili come, ad esempio, gli acquisti che vengono
fatti da un determinato cliente o gli oggetti di interesse comuni a più clienti. Il data
miner utilizza una serie di metodi specializzati nello scoprire particolari significati
che assumono certe combinazioni di variabili, metodi ereditati dalla statistica e dal
machine learning (che possiamo definire come una sorta di intelligenza artificiale).
8
1 Predictive Analytics
Gli algoritmi esistenti prendono spunto da queste discipline; esistono molte tecniche come la regressione, gli alberi di decisione, il clustering etc., ciascuna delle
quali restituisce un modello che descrive in che modo certe variabili si collegano ad
altre.
La maggior parte delle attività di data mining può essere portata a termine
grazie a poche tecniche che si basano sulla regola 80\20 [13, pag.4], che ci suggerisce
che la maggior parte dei problemi, in genere proprio l’80%, può essere risolto con
l’uso di una piccola parte degli strumenti a disposizione, cioè il 20%; in questo caso,
infatti, è possibile modellare la maggior parte delle situazioni con le tecniche più
comuni; tuttavia, è importante anche considerare ulteriori strategie che possono fare
emergere schemi ancora più nascosti.
Uno degli aspetti chiave del data mining è la generalizzazione degli schemi, cioè
l’estensione delle relazioni trovate per uno o più particolari valori del dataset, sui
quali si applicano i metodi per la creazione dei modelli, a nuove e sconosciute istanze
dei dati.
Nell’ottica della predictive analytics i modelli creati hanno due obiettivi principali: stabilire una relazione tra i dati di input osservati e la tipologia di dati di
output desiderata e, tramite questa relazione, prevedere l’output dato da valori non
ancora conosciuti.
Al fine di ottenere un processo di estrazione delle informazioni soddisfacente è
necessario possedere una conoscenza preliminare sui dati e sui processi che li hanno
generati (subject matter expertise). In questo modo si può rendere il processo di
estrazione un processo iterativo e capace di modificare i vari modelli una volta
ottenute le prime informazioni per identificare nuovi schemi.
Il data mining opera frequentemente su grandi quantità di dati strutturati, affiancandosi, spesso, a tecniche (come la computazione parallela e distribuita) che
giocano spesso un ruolo fondamentale nell’elaborazione.
1.2.3 Machine Learning
Questo termine fu coniato nel 1959 da Arthur Samuel, pioniere dell’Intelligenza Artificiale, per indicare quel campo che studia l’abilità dei computer a imparare senza
essere stati esplicitamente programmati a farlo. In altre parole, il Machine Learning
cerca nuovi modi con i quali il computer può acquisire conoscenza direttamente dai
dati e da essi imparare a risolvere i problemi [15, pag.12].
James N. Morgan e John A. Sonquist nel 1963 proposero un metodo per trovare
schemi e relazioni nei dati. Tale metodo si chiamava AID (Automatic Interaction
Detection) e consisteva in un algoritmo che cerca automaticamente un modo per
categorizzare i dati in due gruppi detti cluster e ricorsivamente analizza ogni gruppo
per cercare un modo per dividerlo ulteriormente, creando un albero di cluster. Tuttavia questo metodo utilizza, per le proprie scelte, dei metodi puramente statistici;
perciò, indipendentemente dal lavoro di Morgan e Sonquist, i ricercatori sono stati
capaci di introdurre degli algoritmi che rendono il computer capace di imparare
mimando il modo di pensare umano; questi algoritmi costituiscono le tecniche di
Machine Learning.
Il Machine Learning è un’altra disciplina che ha come obiettivo l’analisi dei dati e
la scoperta di nuove informazioni provenienti da essi, ma questo scopo è raggiunto in
1.3 Applicazioni Pratiche
9
maniera automatica, tramite degli algoritmi implementati. Anche in questo caso si
tratta di un meccanismo iterativo in quanto più la macchina apprende dai dati e più
è capace di apprendere in un continuo ciclo in cui il sistema, ad ogni analisi, riceve
un feedback e migliora se stesso. Utilizzare il machine learning equivale a insegnare
le regole di un gioco a un sistema e poi permettergli di fare pratica giocando a vari
livelli, fino a fargli raggiungere un livello avanzato [7, pag.53].
Il machine learning ha innumerevoli applicazioni pratiche [12]; in particolare,
sono due le tipologie di algoritmi di apprendimento automatico di nostro interesse,
gli algoritmi di apprendimento supervisionato e gli algoritmi di apprendimento non
supervisionato. I primi hanno come vantaggio il fatto di agire su dati in input che
tra i loro attributi contengono una descrizione che ci permette di conoscere a priori a quale istanza i possibili risultati della previsione si riferiscono (label o target
features), quindi hanno già a disposizione, in input, le possibili variabili di output.
I restanti attributi saranno quelli utilizzati dall’algoritmo per prendere le decisioni
(descriptive features). Quest’ultimi rappresentano gli scenari più frequenti e hanno
un vantaggio; infatti, avere già a disposizione i possibili risultati della previsione prima ancora di lanciare l’algoritmo permette di avere, in un certo modo, una sorta di
riscontro. La seconda tipologia, ovvero quella degli algoritmi di apprendimento non
supervisionato, non permette questa possibilità, e senza label non è possibile rappresentare a priori i dati in output. In questo caso è, quindi, necessario individuare
delle similitudini tra le varie istanze; questo processo è noto come clustering.
Gli algoritmi di machine learning operano cercando il migliore, tra una serie
di possibili modelli, cioè quello che meglio rappresenta le relazioni tra descriptive
feature e target feature in un dataset e che riesce a far si che tali modelli siano
validi per ogni possibile istanza del dataset. In questo caso si dice che il modello è
consistente con il dataset.
Tra i metodi supervisionati e quelli non supervisionati esistono altre due categorie importanti ai fini della predictive analytics, cioè le categorie di algoritmi di
apprendimento semi-supervisionato e quelli di apprendimento rinforzato. La prima
opera su dati una parte dei quali contiene un attributo label mentre l’altra parte
è completamente senza etichetta. In genere questi algoritmi utilizzano prima i dati
con etichetta per istruire il modello e trovare le relazioni che legano ogni istanza a
un tipo di label; in seguito, adottano quelli senza etichetta proiettando le proprietà
che hanno determinato le relazioni già trovate su questi ultimi.
In un algoritmo di apprendimento rinforzato, invece, non esistono target feature,
ma sono fornite ulteriori informazioni per dirottare i dati di output verso un determinato risultato. Un tipico esempio si ha quando si cerca di prevedere la prossima
mossa utile in una partita di scacchi partendo da dati inerenti le precedenti partite. Per ogni singola mossa fornita in input non esiste una relazione diretta con la
prossima mossa più conveniente che si sta cercando di prevedere, ma l’algoritmo ha
a disposizione le sequenze di mosse che hanno portato alla vittoria nei precedenti
incontri, il che aiuta nella scelta.
1.3 Applicazioni Pratiche
Dalle innumerevoli strategie accennate finora emerge come la predictive analytics
sia una disciplina molto versatile; questo perchè è applicata in innumerevoli campi,
10
1 Predictive Analytics
cosa ovvia se si pensa alla possibilità di ottenere in anticipo informazioni sul proprio
futuro.
Le varie compagnie e organizzazioni hanno bisogno di una certa esperienza nel
proprio lavoro, o possibilmente anche di consulenze esterne, per avere la conoscenza
adatta (business knowledge) a selezionare i dati sui quali applicare i vari modelli
in modo da dare i risultati migliori in termini di schemi utili e, di conseguenza, di
nuove informazioni estrapolate.
Tramite queste conoscenze, e in congiunzione con le tecniche di data mining e
machine learning, ogni organizzazione ha l’opportunità di possedere un formidabile
strumento costituito dalle informazioni. Il successo che questa nuova opportunità
ha riscosso ha portato a un incremento delle richieste di analisi predittiva. Fra le
innumerevoli richieste, nel seguito si elencano [18, pag.14] quelle per le quali ha
avuto un impatto maggiore:
•
•
CRM : il CRM, cioè Content Managment System, è una strategia vincente di
mercato che pone al centro del business il cliente, invece che il prodotto. Essa
mira ad individuare i profili dei clienti, attuali o potenziali, cosı̀ da mettere a
punto nuove attività o strategie che, da un lato, aiutino a catturare nuovi clienti
e, dallaltro, consentano di massimizzare i profitti sui clienti fedeli, cercando di
comprenderne esigenze e aspettative [4].
Il CRM è un’applicazione commerciale di analisi predittiva. Infatti, i suoi metodi
ed i suoi strumenti possono essere applicati ai dati dei clienti per conseguire
obiettivi che includono la creazione di efficienti campagne di marketing e di
servizi al cliente. Le compagnie devono riuscire ad analizzare e comprendere i
dati dei loro prodotti, individuando quelli di maggior successo, reale o potenziale,
ed utilizzandoli per conoscere in anticipo le abitudini di acquisto dei clienti e,
di conseguenza, per dare maggiore promozione a quei prodotti che si prevede
verranno acquistati più frequentemente o per individuare nei prodotti potenziali
problemi che possono portare alla perdita di fiducia da parte del cliente.
Supporto alle decisioni in ambito clinico: gli esperti usano l’analisi predittiva in
ambito medico principalmente per individuare i pazienti che potrebbero correre
il rischio di contrarre particolari patologie: diabete, asma, problemi cardiaci, e
altre. Molti sistemi di supporto incorporano strumenti di analisi predittiva come
mezzo di rinforzo alle decisioni; si tratta, in questi casi di trovare un collegamento
tra conoscenze e osservazioni mediche e le scelte che dovranno essere fatte per
meglio affrontare o prevenire i disturbi.
I dati raccolti provengono spesso da visite in ospedale, sintomi mostrati dai
pazienti, esiti di trattamenti a cui essi vengono sottoposti; questi dati possono
essere utilizzati in particolare per prevenire la diffusione di malattie epidemiche.
Un caso di studio interessante è rappresentato dal possibile utilizzo dei dati
derivanti dalle ricerche fatte sul motore di ricerca di Google come strumento di
predizione per le epidemie [7, pag.81].
Le persone usano Google per cercare praticamente qualsiasi cosa, tra cui anche la
prossima località che visiteranno, le persone che hanno incontrato o i sintomi dei
disturbi che pensano di avere. Tali ricerche hanno assunto una certa importanza
dal punto di vista medico; infatti, come mostrato nel recente articolo di ricerca
“Detecting Influenza Epidemics Using Search Engine Query Data” pubblicato
sulla rivista “Nature” da Jeremy Ginsberg, i ricercatori di Google hanno scoperto
1.3 Applicazioni Pratiche
11
che queste ricerche sono un buon indicatore della diffusione, corrente o futura,
di una determinata malattia.
Ginsberg con il suo team di ricerca ha scoperto una forte correlazione tra il
numero di individui che ricercano termini collegati all’influenza e il numero di
persone che hanno contratto realmente l’influenza. Come Google stesso ha dichiarato: “c’è un incremento nel numero di ricerche correlate alle allergie durante
le stagioni in cui esse colpiscono, o un incremento di ricerche sulle bruciature
della pelle durante i mesi estivi”; questo ci può far capire come sia plausibile
pensare di trovare un collegamento tra le ricerche su una determinata malattia
e i casi di malattia stessa.
Google riesce a vedere questi schemi e utilizza i dati estratti dalle ricerche per
costruire modelli che permettono di prevedere eventi reali, quali, per l’appunto,
la diffusione di una malattia in una determinata regione. Basandosi su un dataset costituito da dati raccolti dal motore di ricerca e da altre fonti, in più di
cinque anni, Google è riuscito a costruire un modello che funge da strumento di
sorveglianza internazionale per la prevenzione delle epidemie.
Gli impieghi dell’analisi predittiva in ambito medico non finiscono qui: il professor Abdelghani Bellaachia e il suo team all’università di Washington, nel
loro articolo “Predicting Breast Cancer Survivability Using Data Mining Techniques”, mostrano come l’analisi predittiva possa essere usata per minimizzare
i rischi di contrarre il cancro al seno. Utilizzando dati storici raccolti, disponibili al pubblico, sui vari tipi di cancro, dati contenenti svariati attributi, come
tempi di sopravvivenza, cause di morte, parametri vitali, etc., e implementando, tramite questi dati, degli algoritmi basati su modelli di classificazione come
classificatori bayesiani, reti neurali e alberi di decisione, i ricercatori sono riusciti a creare due classi di pazienti, sopravvissuti e non, trovando le relazioni che
legano gli attributi osservati a una di queste due categorie e quindi riuscendo
a individuare le principali cause che determinano l’insorgere del cancro, almeno
per quanto riguarda i pazienti contenuti nel dataset per la creazione del modello.
Gli algoritmi ottenuti usando le varie tecniche sono stati confrontati e i risultati
migliori in termini di conformità del modello sono stati raggiunti dal modello ad
albero di decisione.
• Analisi per le riscossioni dei crediti: un gran numero di risorse finanziarie vengono spesso sprecate su clienti fraudolenti; l’analisi predittiva può aiutare a
ottimizzare la cessione dei crediti, identificando le strategie e le azioni legali più efficienti per ogni cliente, incrementando significativamente le entrate e
riducendo le perdite.
• Cross-Selling: è una strategia di marketing che consiste nel mettere a disposizione dell’utente beni o servizi in qualche modo collegati a un prodotto già
esistente; per un’azienda usare l’analisi predittiva per analizzare le abitudini dei
clienti può essere utile per offrire prodotti di interesse, per aumentare il profitto
sul singolo cliente e incrementare la fedeltà.
• Fidelizzare i clienti: per affrontare la concorrenza le aziende devono concentrare i
loro sforzi nel mantenere alta la “customer satisfaction”, premiando la lealtà del
clienti e minimizzando ciò che può farli allontanare. Tuttavia, quando un cliente
ha deciso di allontanarsi da un certo servizio, è praticamente già impossibile
fargli cambiare idea; l’analisi predittiva può far si che non si arrivi a questo pun-
12
•
1 Predictive Analytics
to; analizzando i precedenti utilizzi del servizio è, infatti, possibile individuare
schemi che permettono di riconoscere i fattori che determinano l’allontanamento
da parte dei clienti.
Rilevamento delle frodi: le frodi rappresentano un grosso problema per ogni genere di attività, si va dalle transazioni finanziarie fraudolente alle false richieste
di indennizzo. L’analisi predittiva può ridurre le esposizioni a tali rischi. Il governo statunitense usa da molti anni questa analisi per identificare eventuali
evasioni fiscali.
1.4 I Dati
Nell’era dell’informazione i dati vengono raccolti con grande rapidità e varietà e
vengono accumulati in database, documenti, e-mail, file audiovisivi, e molti altri
supporti.
Conoscere le varie tipologie di dati con cui si ha a che fare è essenziale per
comprenderli al meglio e per categorizzarli in modo da poterli utilizzare durante il processo di previsione. Le compagnie, spesso, negli anni accumulano grandi
quantità di “dati grezzi”; più cose si sanno su questi dati e più si è in grado di analizzarli e usarli. Per questi motivi è utile descrivere i dati secondo delle importanti
caratteristiche distintive:
•
Dati strutturati e non strutturati: tutte le tipologie di dati finora elencati possono essere distinti in dati strutturati e non; i primi sono sempre ben organizzati;
essi appaiono come formalmente ben definiti; su di essi è semplice fare ricerche
o modifiche; essi sono efficienti da analizzare. In definitiva sono facilmente accessibili da persone o macchine, ma non sono disponibili spesso; l’esempio più
tipico è costituito dai dati contenuti nei database relazionali che mettono bene in
evidenza i vari attributi di ogni dato nelle varie colonne con una visualizzazione
tabulare.
La seconda tipologia, ovvero quella dei dati non strutturati, è costituita da tutti
quei dati non rappresentati in tabelle, non ben organizzati, non ben definiti,
non facilmente accessibili per ricerche o modifiche, poco efficienti da analizzare,
come e-mail, pagine web, documenti vari, file di vario genere, sparsi senza una
ben precisa disposizione logica. Essi richiedono molto più tempo e molte più
risorse per essere elaborati, inoltre, tra tutti i tipi di dati, sono quelli che si
trovano in quantità maggiore; per questo motivo uno dei punti di forza più
apprezzati dell’analisi predittiva è proprio il fatto che i suoi strumenti sono
capaci di processare tali dati, dando loro un significato e uno scopo.
Ovviamente, è molto più efficiente avere a che fare con dati strutturati in quanto quelli non strutturati devono essere preventivamente analizzati e organizzati
in modo che gli algoritmi e gli strumenti utilizzati possano estrarre facilmente
informazioni da essi. Allo stesso tempo, poichè si tratta di una grande e variegata quantità di dati contenenti sicuramente un’enorme quantità di informazioni
inutili, essi devono essere filtrati in modo da individuare solo le informazioni
utili alla previsione che si intende fare e buttare via tutto il resto. La disciplina del data mining contiene una moltitudine di approcci per processare i dati
non strutturati, strumenti e algoritmi utili per trovare schemi nei contenuti, per
1.4 I Dati
13
raggrupparli e per dare ad essi un senso. Inoltre, i motori di ricerca forniscono
ulteriori strumenti per indicizzare i dati e per strutturarli.
Non bisogna farsi spaventare dalla complessità dei dati non strutturati, in quanto
è sempre possibile trovare un modo per formalizzare i loro contenuti e dare,
quindi, loro una struttura, ad esempio, utilizzando i metadati dei documenti,
i titoli, le date di creazione e di modifica, le date di spedizione delle e-mail, i
destinatari e gli allegati. Tutte queste caratteristiche possono essere usate come
attributi per dare un senso alla moltitudine di informazioni contenute nei dati
non strutturati, in pratica è sempre presente una struttura ma bisogna saperla
trovare.
Non sempre i dati a nostra disposizione si trovano in una forma o nell’altra:
spesso, infatti, essi si trovano in forme miste. Possiamo trovare dati strutturati
che contengono al loro interno, ad esempio nelle loro tabelle, dati non strutturati; allo stesso modo, esistono dati strutturati all’interno di quelli non strutturati,
o perchè si cerca di dare loro uno scopo ben preciso o perchè tali dati ne riflettono il contenuto. Prendiamo in considerazione una pagina web dove all’interno
troviamo un form tramite il quale i visitatori possono fornire un feedback per
valutare un prodotto o un servizio tramite dei pulsanti; questi rappresentano un
insieme di dati strutturati all’interno di una serie di informazioni non strutturate
rappresentate proprio dalla pagina web.
In definitiva, possiamo concludere che nel flusso di informazioni al giorno d’oggi
è quasi impossibile trovare dei dati che si trovano in una forma o nell’altra in
maniera indistinta; al contrario, ci troviamo quasi sempre di fronte a situazioni
miste. Resta, comunque, di grande utilità fare una distinzione tra le due categorie
per sapere come gestire ogni evenienza.
• Dati statici e dinamici: i dati statici sono quei dati che non cambiano mai nel
tempo; essi possono essere analizzati allo stesso modo in qualsiasi momento. I
problemi che riguardano questo tipo di dati consistono nel fatto che essi contengono spesso lacune, errori, valori anomali o incompleti, e tali resteranno. Questi
dati richiedono, quindi, una certa preparazione e una pulizia preventiva prima
di essere utilizzati per un’analisi. I dati dinamici, al contrario, vengono aggiornati continuamente, spesso a grande velocità. Ad esempio, possiamo considerare
dinamiche le pagine web di Facebook o Twitter che vengono aggiornate continuamente. Anche questo tipo di dati presenta dei problemi. Infatti, il costante
flusso di informazioni determina un enorme volume di dati; inoltre le continue
modifiche rendono difficile l’analisi.
Esistono due tipi di approcci per analizzare questo tipo di dati, che rappresentano la tipologia più utile per chi vuole utilizzare l’analisi predittiva. Il primo
approccio consiste nell’esaminare solo le ultime istanze dei dati, ovvero quelle
più recenti, e aggiornare lo stato del modello solo in base ad essi questo permette
di creare uno schema che riflette solo gli aggiornamenti più recenti. Il secondo
approccio consiste nel realizzare il modello utilizzando l’intero dataset, compresi
i dati passati oltre a quelli più recenti, e aggiornarne lo stato solo in base a questi
ultimi.
I due approcci vengono scelti in base alla natura del settore al quale interessa
l’analisi: in molti casi è preferibile concentrarsi sui dati appena raccolti e analizzarli in tempo reale riplasmando, di volta in volta, il modello per rappresentare
14
1 Predictive Analytics
la situazione corrente. Un tipico esempio è dato dal prezzo dei prodotti che si
vuole far variare in base alle condizioni del mercato.
A queste categorie appartengono tutti i dati che vengono raccolti, in maniera automatica o meno, e che fanno parte della cosidetta Business Intelligence. Questi dati
possono, ad esempio, riguardare acquisti effettuati, metodi di pagamento, oggetti
acquistati insieme ad altri, dati sui clienti stessi che forniscono informazioni sulle loro abitudini, dati raccolti nei sondaggi, cronologie di navigazione web, e molto altro
ancora. Se correttamente interpretati e preparati essi servono per la realizzazione
di un modello efficiente.
1.5 Il processo di analisi
Prima di illustrare i vari passi nella realizzazione di un processo di analisi predittiva
è utile fare una distinzione tra due possibili tipi di analisi, ciascuno dei quali è
caratterizzato da una serie di vantaggi e svantaggi:
•
•
Data-Driven Analytics: è un’analisi che non richiede la definizione di un particolare obiettivo per essere realizzata. Parte dai dati utilizzando strumenti di
data mining e cercando di estrapolare quante più informazioni possibili, siano
essi dati interni al settore interessato o esterni, provenienti da altre fonti. Questo
processo appare fondamentale se si ha a che fare con grosse collezioni di dati che,
altrimenti, sarebbero impossibili da interpretare a causa delle elevate dimensioni
e complessità; inoltre, più i dati sono completi e ridondanti e più risultati questo
tipo di analisi riesce a fornire.
Il vantaggio principale della data-driven analytics è che non è necessario possedere una conoscenza preliminare del settore per individuare i dati più utili
all’analisi, ma si parte da tutti i dati in possesso e si cerca di ottenere il maggior
numero di informazioni; se continuano a emergerne di nuove si continua fino a
quando è possibile, procedendo, sempre, con l’osservazione dei risultati durante
il procedimento.
User-Driven Analytics: in questo caso si parte da un obiettivo ben preciso e non
dai dati, anzi si ricercano i dati più adatti a supportare tale scopo. Al contrario
dell’analisi basata sui semplici dati, in questo caso è necessaria una profonda
conoscenza del settore interessato alle previsioni, per capire quali risorse possono
andare a favore dell’obiettivo.
Parte dei dati vengono usati per la realizzazione del modello; un’altra parte viene
usata per effettuare dei test su di esso; quindi si valutano i risultati, sempre in
base a conoscenze specifiche.
Lo svantaggio di questo tipo di analisi è che, concentrandosi su un’idea ben precisa, e utilizzando solo una parte ben definita dei dati a favore di essa, si rischia
di perdere di vista molte possibili informazioni che sarebbero potute emergere
da un esame più approfondito dell’intero dataset a disposizione. Conviene, quindi, se il tempo e le risorse lo permettono provare a farsi un’idea su ciò che può
emergere da un’analisi più approfondita.
Una volta scelto il tipo di analisi più adatta a supportare gli obiettivi del settore il processo può iniziare. Esso prevede vari passi che vanno dalla scelta e dalla
preparazione dei dati alla visualizzazione del risultato finale.
1.5 Il processo di analisi
15
1.5.1 Identificazione dei dati
I dati che vengono utilizzati provengono da tantissime fonti e in formati molto diversi tra loro, ma non tutti sono adatte a costruire il modello. Per avere un’idea
chiara di ciò che può essere utile bisogna avere bene in mente quali sono gli obiettivi
da raggiungere e capire quali sono le informazioni necessarie al loro raggiungimento di tale scopo. A tal fine può essere utile interrogare gli esperti del settore; ad
esempio, nel mondo del marketing, una tipica richiesta è quella di voler individuare
preventivamente i clienti che nell’immediato futuro non saranno più interessati a
una determinata offerta o ad uno specifico servizio; in questo caso potrebbe essere utile interrogare gli esperti del settore clienti. Le risorse raccolte devono essere
capaci di soddisfare il modello che si vuole costruire e, infine, il progetto stesso.
Importantissimo, quindi, conoscere come reperire i “dati grezzi”, come potervi
accedere (spesso tramite l’uso di strumenti adatti) e la qualità di questi dati. Inoltre,
è possibile doverli integrare a dati già provenienti da altri dataset esterni al settore
interessato per riuscire a ottenere quante più informazioni possibili.
Il dataset che si viene a creare deve contenere tutte quelle informazioni che
si stima possano essere rilevanti ai fini del calcolo predittivo, per rispondere al
problema che ci si è posti. Per riprendere l’esempio già citato, se si sta cercando di
prevedere quali clienti avranno un calo di interesse nei confronti di un determinato
servizio, il dataset che dovranno creare dovrà contenere sicuramente informazioni
sui clienti che hanno già rinunciato a tale servizio e quelli che, invece, non lo hanno
ancora fatto. In genere, i dati più rilevanti sono quelli che riguardano gli eventi
passati e che coincolgono l’entità, o l’insieme di entità sulle quali si sta cercando di
fare previsioni.
Infine, una volta in possesso di una certa quantità di dati, è necessario individuare tra questi quali variabili sono utili e quali, invece, non forniscono alcuna
informazione utile. Un tipico approccio consiste nel prendere in considerazione, inizialmente, una grossa quantità di variabili e, quindi, procedendo con la realizzazione
e con il collaudo del progetto, una volta acquistite alcune informazioni chiave, eliminare quelle che non hanno nessun valore ai fini della predizione. Questi dati verranno
dati “in pasto” al modello che si sta cercando di realizzare, cercando di ottenere i
risultati desiderati con la maggiore precisione e affidabilità possibili.
1.5.2 Strutturazione dei dati
Una volta individuati i dati che si considerano essere più rilevanti ai fini del progetto di analisi predittiva, è necessario, per poterli utilizzare, estrarli dalle sorgenti nelle quali sono stati individuati e inserirli in strutture organizzate, realizzate
appositamente.
In questo modo l’insieme di dati grezzi non strutturati, provenienti da fonti eterogenee, diventa un insieme di dati strutturati, inseriti in tabelle e con gli attributi
in evidenza. Questo è utile non solo per organizzare i dati in modo da poter essere
utilizzabili dai vari algoritmi, ma anche per esaminarne le proprietà. In base a tali caratteristiche, infatti, viene scelto l’algoritmo usato per realizzare il modello di
previsione. Per alcuni tipi di dati, infatti, è necessario implementare un determinato
tipo di algoritmo.
16
1 Predictive Analytics
A volte è possibile che le fonti che vengono usate per l’estrazione dei dati contengano dati già strutturati, in tal caso, ma anche nel caso in cui ci troviamo di
fronte a dati non strutturati, è consigliabile realizzare separatamente un database
che contenga quelli estratti, in questo modo anche nel caso in cui si dovranno modificare o eliminare i dati, ad esempio durante la fase di filtraggio dei dati errati, la
sorgente dei dati verrà conservata intatta e sarà possibile recuperarli in un secondo
momento.
1.5.3 Preparazione dei dati
Questo passo consiste nell’individuare, all’interno del dataset, valori errati, valori mancanti o valori ripetuti, allo scopo di poter realizzare una previsione il più
possibile basata su dati reali e integri.
I valori mancanti devono essere inseriti nei limiti del possibile; dove è facile
intuirne il significato è possibile inserire valori ben precisi (ad esempio, se manca il
valore di un codice postale esso può essere ricavato a partire dall’indirizzo); dove,
invece, non è possibile individuarne il valore è possibile adottare valori di default.
Indicare esplicitamente un valore è preferibile rispetto a lasciare un campo vuoto, in
quanto un valore mancante può avere più possibili significati e, quindi, può portare
a sviluppi imprevisti durante l’implementazione dell’algoritmo.
I valori anomali, cioè non coerenti con le informazioni che dovrebbero contenere,
nella maggior parte dei casi devono essere identificati e rimossi. Esistono, però,
alcuni casi in cui essi possono essere addirittura utili, ad esempio quando si cerca
di identificare e prevenire azioni illegali; in tal caso i valori anomali sono necessari
in quanto la loro presenza è indice di qualcosa che non dovrebbe avvenire.
Ultima categoria di dati da tenere sotto osservazione in questa fase è rappresentata dai dati ridondanti; anch’essi, a volte, possono essere necessari ai fini dell’analisi.
Tuttavia quando non contribuiscono al processo di analisi, ma anzi appesantiscono
inutilmente il dataset, è opportuno eliminarli. È, spesso, necessario usare l’intuizione
per individuare quali tra questi dati conservare e quali eliminare, senza dimenticare
che in qualsiasi momento è possibile recuperare nuovamente le informazioni escluse
e riproporle al modello per verificare se è possibile che la loro presenza determini
nuovi risultati utili. Questo dimostra come il processo di analisi predittiva sia un
processo dinamico in continua evoluzione. La fase di pulizia e filtraggio dei dati
dovrebbe essere eseguita più volte durante il processo di analisi per evitare che
eventuali nuovi valori contengano errori o incoerenze.
Una volta identificate le variabili più utili per la costruzione del modello, prima
di procedere ulteriormente, conviene effettuare alcuni controlli che garantiscano
maggiore efficacia ed efficienza al modello stesso durante la sua esecuzione. Un
aspetto al quale prestare particolare attenzione è quello rappresentato dai dati che
vengono derivati da altri dati; è utile, infatti soffermarsi su alcuni dati ed estrarre da
essi ulteriori informazioni che possono fornire un ulteriore incentivo alla precisione
del modello finale. Un esempio banale è quello dell’età di una persona che viene
derivata dalla propria data di nascita; questa operazione fa parte del processo di data
mining. Spesso questi dati sono molto importanti per la costruzione del modello;
possono essere presi in considerazione anche durante una o più fasi di esecuzione
successive alla prima, ma, probabilmente, forniranno potere di previsione aggiuntivo
al modello finale.
1.5 Il processo di analisi
17
Un’ulteriore strategia utile per garantire l’efficienza del modello consiste nel ridurre il più possibile le dimensioni del dataset o, dove ciò non fosse possibile, nel
cercare di ottimizzare l’accesso ai dati. Questo si traduce in operazioni di ristrutturazione e normalizzazione del dataset; in particolare, una strategia spesso utilizzata
per ridurre la quantità di dati in presenza di relazioni “uno a molti” tra di essi, che
causano un eccessivo ingrandimento del dataset, è l’operazione di appiattimento.
Tale operazione consiste nell’inserire i dati ripetuti relativi ad una stessa istanza
di un’entità come attributi aggiuntivi di essa; ciò permette di eliminare le relazioni
“uno a molti” che non fanno alto che rallentare il modello ma che in genere non
portano alcun vantaggio alla costruzione di un modello valido.
1.5.4 Scelta del modello
Un modello è una rappresentazione statistica o matematica di un fenomeno; esso
rappresenta una descrizione del comportamento di un’entità e può essere usato per
prevedere alcune azioni. Costruire un modello consiste nell’individuare una relazione matematica tra le variabili in ingresso e quelle di uscita. Analizzando i dati
in possesso e utilizzando dei modelli già a disposizione coerenti con determinate
tipologie di dati, si può stabilire una relazione tra le più diffuse categorie di dati
utilizzati attualmente e alcune azioni, quindi valutare la percentuale di occorrenza
di quelle azioni e stabilire una previsione statistica. Tutto questo diventa essenziale
quando, per una compagnia, non prevedere una determinata azione, o l’esito di una
decisione, o una possibile frode può determinare ingenti perdite.
La costruzione del modello rappresenta il cuore dell’analisi predittiva; essa parte
dalla scelta di un algoritmo matematico che permetta di indiduare schemi e relazioni
nell’insieme dei dati; in particolare, ci si interessa alla scoperta delle relazioni tra le
varibili in ingresso e ciò che si desidera ottenere come variabile di uscita. Durante la
creazione del modello è bene tenere a mente qual’è l’obiettivo della sua realizzazione;
un modello non è che una semplice rappresentazione matematica a meno che non ci
si domandi a cosa può essere utile. Dare una precisa definizione all’obiettivo che si
vuole raggiungere aiuta a costruire un modello efficace e a dare ad esso uno scopo,
inoltre è bene tenere a mente tutte le risorse che possono aiutare la realizzazione e
le varie caratteristiche.
Come già detto, infatti, la scelta dell’algoritmo più adatto dipende dalle caratteristiche dei dati con cui si ha a che fare; per fare degli esempi, quando i dati si
presentano in successione temporale continua e si vuole prevedere il prossimo valore
che la serie assumerà è bene usare un algoritmo di regressione lineare; quando, al
contrario, si ha a che fare con dati che non presentano alcun legame con il tempo,
ma si vuole semplicemente individuare alcune caratteristiche o relazioni che potrebbero avere, allora si usano algoritmi di classificazione; infine, quando si usano dati
con molti attributi è bene usare algoritmi di clustering. Da questi esempi emerge
come avere bene in mente l’obiettivo e avere una profonda conoscenza dei dati è
fondamentale per scegliere l’algoritmo che darà i risultati più completi; alcuni algoritmi sono perfetti per affrontare problemi specifici. Oltre a questo è utile, anche,
considerare come verrà usato il modello, chi lo userà, cosa succederebbe se la previsione fosse errata e, infine, come verranno utilizzati i dati; tutto questo sempre per
ottimizzare il processo di analisi predittiva.
18
1 Predictive Analytics
1.5.5 Implementazione del modello
Una volta scelto l’algoritmo adatto a realizzare il modello un passo fondamentale
nel processo di analisi predittiva è quello di dividere i dati in possesso in due gruppi,
il dataset sarà quindi diviso in training data e test data. I primi vengono forniti al
modello per meglio definirlo; ogni dato che viene fornito serve a delineare una rappresentazione più chiara del funzionamento dell’algoritmo, a trovare nuovi schemi
nei dati e a capire che relazione hanno tali dati con i risultati. La seconda categoria
serve a provare il modello cosı̀ ottenuto e a osservare se i risultati che emergono
soddisfano l’obiettivo della previsione.
L’implementazione del modello prevede una tecnica iterativa; conviene, infatti,
ripetere più volte l’esecuzione dell’algoritmo cambiando ogni volta i dati in input.
Ogni tentativo permetterà di avvicinarsi sempre di più a quella che sarà la realtà,
in quanto permetterà di scavare più a fondo nei dati per dare alla luce nuovi schemi
e relazioni. Inoltre, se il tempo e le risorse lo permettono, sarebbe una buona prassi
quella di applicare più di un algoritmo sempre con lo scopo di far emergere nuove
scoperte; è anche possibile, per un analisi ancor più approfondita, evidenziare nuovi
schemi all’interno del dataset applicando un algoritmo di clustering che ha come
scopo quello di trovare nuove relazioni tra dati. Per non perdere traccia di ogni
esperimento conviene documentare ogni implementazione, riportando i dati e gli
algoritmi utilizzati.
Una tecnica particolare per testare il modello e far emergere più risultati possibili
è la tecnica chiamata cross-validation; essa consiste nel dividere i dati in n gruppi,
quindi scegliere uno di questi gruppi che rappresenterà i test data mentre tutti gli
altri gruppi saranno training data. Dopo aver fatto passare tutti i training data
dal modello si valuta la previsione sui test data; dopo di ciò, i test data diventano
training data e viene scelto un altro tra gli n gruppi per fungere da test data. Si
continua cosı̀ finchè ognuno degli n gruppi è stato usato come test dataset ; in questo
modo si riesce ad avere una visione più ampia di ciò che può emergere dal dataset
senza trascurare nessuna risorsa e avendo contemporaneamente un quadro completo
di ogni possibile risultato.
I risultati delle varie implementazioni vanno valutati consultandosi con gli esperti
del settore per identificare quali tra le variabili in output hanno un valore maggiore
come possibile rappresentazione di ciò che potrà avvenire in futuro. Infine, verrà
scelto l’algoritmo più soddisfacente. In aggiunta, con il procedere delle varie prove
che vengono effettuate l’esperienza gioca un ruolo fondamentale in quanto, a lungo
andare, aiuta a scegliere algoritmi sempre più convenienti.
Tra i problemi più comuni che possono sorgere durante ogni implementazione
ve ne sono, in particolare, due che si incontrano molto spesso osservando i risultati
forniti da ogni modello creato dai vari algoritmi. Il primo problema insorge dal
momento in cui il modello non riesce a trovare abbastanza relazioni nei dati e,
quindi, non riesce a fornire risultati significanti, questo è indice del fatto che i dati
con cui si ha a che fare non hanno niente a che vedere con l’obiettivo che si cerca
di raggiungere; pertanto i risultati ottenuti non hanno niente a che vedere con
la previsione che ci si aspettava. Il secondo problema sussiste quando al modello
sono forniti troppi dati inutili che possiamo definire come una sorta di rumore per
il processo, questi dati determinano un calo nell’efficienza ma, soprattutto, nella
precisione dei risultati che rischiano di non rispecchiare più la realtà a venire.
1.6 Critiche
19
1.5.6 Valutazione del modello
I vari risultati ottenuti vanno esaminati da esperti del settore; a questi verranno
mostrate le variabili che emergono da tutte le implementazioni di tutti i modelli
usati. Gli esperti dovranno verificare se ciò che è emerso dall’analisi va a favore
della ragione per la quale è stato necessario cercare di fare delle previsioni; inoltre,
sarà necessario verificare l’efficienza dell’algoritmo anche quando si ha a che fare
con grossi dataset.
Per determinare quali misure adottare per migliorare la qualità del modello
e per vedere se esso incontra gli obiettivi prefissati, è utile osservare i risultati
di tutte le implementazioni tramite l’utilizzo di grafici. Il modo in cui vengono
visualizzati i risultati è importante perchè, se non viene scelto un metodo semplice e
immediato per la visualizzazione, a causa dell’enorme mole di dati da includere nella
rappresentazione di ciò che è emerso, sarebbe molto difficile fare delle valutazioni
sui risultati.
Ogni algoritmo prevede una rappresentazione diversa, ma tutte devono avere
delle caratteristiche comuni; in particolare, essi devono essere facili e immediati
da capire e devono semplificare la complessità dell’analisi svolta. Se costruiti in
questo modo i grafici finali saranno un ottimo punto di partenza dal quale prendere
decisioni.
1.6 Critiche
Dopo tutte le possibilità finora illustrate costruire un modello predittivo sembra
un’operazione conveniente in qualsiasi campo in cui venga applicato. Tuttavia, sono state mosse alcune critiche dalle quali emerge un certo scetticismo per quanto
riguarda l’abilità di un calcolatore di prevedere gli eventi futuri.
Il professor Gary King, docente all’università di Harvard e direttore dell’Institute
for Quantitative Social Science afferma [18, pag.19] come sia impossibile determinare con adeguata precisione le variabili che determineranno il comportamento futuro
di una persona, in quanto ciascuno di noi può essere influenzato da innumerevoli
fattori in modo cosı̀ veloce che neanche noi stessi ce ne rendiamo conto. In pratica,
il modo in cui ognuno pensa e agisce può essere modificato da qualsiasi evento,
dalle relazioni personali alle condizioni atmosferiche; questo renderebbe impossibile prevedere in maniera accettabile qualsiasi comportamento e renderebbe l’analisi
predittiva solo una tecnica valida a livello teorico, durante le prove in laboratorio,
ma che non potrebbe mai avere alcun riscontro nel mondo pratico.
2
Big Data
Questo capitolo illustra brevemente il concetto sempre più diffuso di “Big Data”:
enormi quantià di dati sempre più diffusi sul web ma anche su altri sistemi utilizzati
al giorno d’oggi. Ne vengono illustrate le principali caratteristiche e gli scopi per cui
vengono raccolti e analizzati. Tra questi troviamo l’analisi predittiva, per la quale
lo sfruttamento dei Big Data rappresenta un vantaggio formidabile. Vengono infine
illustrati i principali strumenti hardware e software per il trattamento di una tale
mole di dati, in particolare al fine di fornire il maggior numero di informazioni
possibili ai modelli di previsione.
Figura 2.1. Big Data
2.1 Cosa sono i Big Data?
Negli ultimi venti anni lo sviluppo di nuove tecnologie, e servizi, insieme alla diffusione capillare della rete internet hanno determinato un consistente aumento della
quantità di dati raccolti e, conseguentemente, della potenziale conoscenza che si
può introdurre da essi. Si tratta di dati provenienti dalle interazioni con i clienti,
dati dei social network, dati prelevati dai siti web, in particolare dai motori di ricerca o provenienti da vari sensori; tutti questi dati sono “non strutturati”, oppure
22
2 Big Data
contengono cosı̀ tante informazioni da non poter essere gestiti da normali DBMS
relazionali.
Nonostante molte organizzazioni governative, bancarie o di ricerca già da moltissimi anni abbiano a che fare con queste ingenti quantità di dati, solo da poco
più di un decennio è stato coniato il termine “Big Data”, per sottolineare quanto
al giorno d’oggi si è sempre più sommersi da un mare di dati di diverso genere. La
Figura 2.2 mostra una testimonianza di ciò.
Figura 2.2. Andamento della quantità di ricerche Google riguardo il termine “Big Data”
negli ultimi anni, a testimonianza del crescere della popolarità del tema.
Gli eventi degli ultimi venti anni[8, pag.8], a partire dal 1991 con l’introduzione
del protocollo HTTP, hanno profondamente cambiato il modo in cui i dati vengono
creati e trattati. Solo per citare alcuni esempi, consideriamo l’introduzione di tecnologie come il GPS, il motore di ricerca Google, l’uso della rete denominato internet
of things, le pagine del sito web Wikipedia, la diffusione dei social network, l’enorme
incremento dei dispositivi connessi alla rete (causato dalla diffusione degli smartphone e della tecnologia Wi-Fi). Tutti questi fattori hanno contribuito a creare un
flusso di dati immenso. Tali dati non sono prodotti di scarto ma rappresentano un
tesoro nascosto ricco di informazioni che possono essere scoperte ed utilizzate per
affrontare molte sfide attuali.
Nonostante non esista una definizione universale di big data, il termine si usa
per indicare tutte quelle situazioni in cui le tradizionali tecniche di memorizzazione
ed elaborazione dei dati (come, ad esempio, i tradizionali RDBMS, cioè i sistemi di
gestione di database relazionali) non sono sufficienti. Talvolta, infatti, tale difficoltà
è data non solo dal volume ma anche da altre caratteristiche che rendono i dati
coinvolti particolarmente complessi da poter essere trattati; ad esempio, l’altissima
velocità con la quale questi dati vengono aggiornati e l’estrema varietà degli stessi,
possono essere alcune delle cause di tale ostacolo. In dettaglio, le principali grandezze
che caratterizzano i Big Data sono:
•
Volume: per dare un idea dell’incremento che la quantità di dati ha visto negli
ultimi anni basti pensare che, secondo alcuni studi, la quantità di dati che sono
stati creati nel 2003 ha superato la quantità di dati digitali creati durante tutta
la storia precedente a quel momento. Nel 2011, inoltre, la stessa quantità di dati
è stata creata nel giro di soli due giorni.
Ogni database troppo grande per essere gestito da un normale PC o server
può essere considerato un insieme di big data. Negli ultimi anni si è passato da
2.1 Cosa sono i Big Data?
23
database dell’ordine dei terabyte a collezioni di dati dell’ordine dei petabyte (un
petabyte corrisponde a 1.000 terabyte). L’eccessiva quantità di dati rappresenta
un problema per molte compagnie che, spesso, sono costrette a scartare i dati in
eccesso non avendo le capacità e le risorse adeguate per contenerli. Ad esempio un
provider di telecomunicazioni con 100.000.000 di clienti raccoglie, ogni giorno,
circa 50 terabyte di dati; ciò significa raccogliere 5 petabyte di dati ogni 100
giorni[16, pag.2]. Analizzare una tale quantità di dati porta, sicuramente, a un
gran numero di scoperte, ma per farlo è necessario possedere le risorse adeguate
in termini di capacità di memorizzazione ed elaborazione dei dati.
• Velocità: alcuni tipi di dati sono relativamente statici, come, ad esempio, la data
di nascita o il genere di una persona. Altri tipi di dati cambiano occasionalmente,
cioè vengono aggiornati con poca frequenza, come, ad esempio, l’indirizzo di
residenza di una persona, il numero di telefono e il numero dei componenti
familiari. Alcuni tipi di dati, tuttavia, cambiano in modo cosı̀ rapido da non
essere sempre percepibile dagli strumenti di analisi (ad esempio, la musica che
si sta ascoltando, la velocità di guida, e i dati biologici).
Con il termine “velocità” si vogliono rappresentare due aspetti utili allo studio
dei Big Data. Il primo è il throughtput cioè la quantità di dati che passa da
un determinato canale nell’unità di tempo. Il secondo aspetto da prendere in
considerazione è la latenza, ossia il tempo massimo durante il quale i dati restano immutati. Creare dei tool che riescano ad usare i dati nel minor tempo
possibile ed ottenere i dati in tempo reale, nonostante la complessità di questi
ultimi, rappresenta una grande sfida per gli analisti che si pongono l’obiettivo
di “scavare” dentro i big data.
• Varietà: i big data comprendono molti differenti tipi di dati, strutturati e non.
Inoltre, essi racchiudono un numero elevatissimo di possibili formati diversi in
cui si possono presentare i dati: testi, suoni, video e molti altri. Ulteriore compito
degli analisti è quello di formalizzare questa enorme varietà di informazioni in
modo da poter essere compresi anche in maniera automatica.
Ulteriore aspetto da prendere in considerazione è la sincerità dei dati. Molti
di essi, infatti, provengono da fonti interne all’organizzazione che sta realizzando il
processo di analisi; ciò significa che essa ha il completo controllo sulla loro struttura
e sul loro formato. Molti altri dati (tra cui informazioni finanziarie, pagine web, dati di navigazione dei GPS), provenendo da innumerevoli fonti esterne, sono spesso
completamente fuori dal controllo di chi li raccoglie. Risulta, quindi, indispensabile verificare la credibilità di queste fonti e valutare se tali informazioni raccolte
rappresentano uno strumento utile ai fini della previsione che si vuole realizzare o,
semplicemente, un prodotto di scarto.
Tutte queste caratteristiche definiscono in maniera precisa ciò che al giorno
d’oggi si intende quando si cerca di descrivere i Big Data. Senza prendere in considerazione aspetti quali la quantità e la qualità dei dati, il termine Big Data può
essere visto come una filosofia che prevede un modo particolare di reperire, memorizzare e analizzare i dati, agendo in conseguenza a ciò che è emerso da tale analisi.
Questa filosofia spinge ad esplorare, in maniera più completa possibile, tutte le risorse che si hanno a disposizione (nonostante tali risorse consistano in quantità di
dati dell’ordine dei petabyte, provengano da innumerevoli fonti e si presentino in
formati eterogenei). Tutto ciò si sposa perfettamente con gli obiettivi dell’analisi
24
2 Big Data
predittiva in quanto maggiori quantità di informazioni significano risultati migliori
e più precisi risultati.
Tuttavia, non bisogna dimenticare che le grandi collezioni di dati sono intrinsecamente più difficili da analizzare rispetto ai dataset più piccoli. Ad esempio, se
durante l’implementazione di un modello di analisi fosse necessaria la lettura di una
serie di valori, trovandosi di fronte a grandi quantità di dati, i costi computazionali
aumenterebbero notevolmente; ciò può portare all’incapacità di produrre risultati
utili. Sia che si tratti di dati strutturati o non strutturati, la sfida principale consiste nel riuscire ad analizzare tutti i dati per individuare schemi per permettano
di ottenere sempre più informazioni utili. Resta, comunque, impensabile cercare di
gestire una tale mole di dati con metodi tradizionali; a tale scopo sono stati ideati
nuovi metodi per affrontare lo studio dei big data, come, ad esempio, alcuni tool,
basati sul linguaggio naturale, che vengono utilizzati per ottenere le informazioni
desiderate a partire dalla tipologia dei dati non strutturati.
I big data, visti come enormi collezioni di dati, oppure in senso esteso come termine
che indica un approccio per raccogliere più informazioni possibili, costituiscono uno
strumento molto importante per avere un quadro completo degli eventi che si cerca
di prevedere. Se i vari settori sono capaci di analizzare petabyte di dati in modo
molto efficiente saranno capaci di individuare schemi o anomalie e tali scoperte
potranno essere usate per la costruzione di modelli validi.
2.2 Big Data e Predictive Analytics
Molte delle tecniche e dei metodı̀ accennati nel precedente capitolo possono essere
usati con ottimi risultati sui big data per l’analisi predittiva. Il successo di queste
tecniche nell’ambito dei big data è dovuto al fatto che maggiore è la quantità di dati
forniti agli algoritmi e più questi ultimi diventano raffinati e precisi. Ciò significa che
grandi quantità di dati implicano un migliore e più affidabile esito nelle previsioni,
grazie anche ai moderni sistemi di computazione che garantiscono l’elaborazione di
dati molto voluminosi e complessi.
Una tendenza in continuo aumento è quella che prevede lo svolgimento dell’analisi predittiva tramite dati raccolti da fonti molto diverse. L’implementazione
dell’analisi predittiva in questo “ambiente distribuito” richiede la raccolta di informazioni, (preferibilmente e se le risorse a disposizione lo permettono, dai Big
Data, o, comunque, da più fonti possibili). Ovviamente i dati, una volta raccolti
devono essere sempre pre-processati e controllati prima di poter essere considerati
utilizzabili per processi di previsione.
Gli analisti devono essere in grado di affrontare il problema della raccolta e
della preparazione dei dati quando essi provengono da più di una fonte. Un tipico
esempio[7, pag.297] consiste nella situazione che vede una compagnia tentare di prevedere il successo di una decisione riguardo uno dei suoi prodotti, decisione che può
avere tre esiti diversi: investire molte risorse in tale prodotto per cercare di incrementarne le vendite, terminare la produzione di tale prodotto o, infine, modificarne
l’attuale strategia di vendita. Si può facilmente intuire come una previsione sull’esito
di tali opzioni possa influire significativamente sulla rendita della compagnia.
2.2 Big Data e Predictive Analytics
25
Al fine di costruire un modello che aiuti a prevedere l’esito di ciascuna di queste decisioni, potrebbe essere di aiuto prelevare le informazioni necessarie da una
moltitudine di fonti diverse, come mostrato in Figura 2.3: è qui che entra in gioco il
concetto di Big Data. Tra le varie fonti dalle quali converrà cercare le informazioni
utili possono esserci: il reparto ingegneristico, dal quale sarà possibile ottenere dati
tecnici quali le specifiche del prodotto, il suo tempo di vita, i tempi di produzione, e molto altro ancora; il reparto vendite, dal quale sarà possibile ottenere dati
che riguardano i precedenti clienti che hanno acquistato il prodotto, il numero di
vendite per regione geografica, i profitti fino ad ora ottenuti; infine da fonti quali
recensioni sul prodotto, sondaggi, post sui social network o sui forum specializzati,
dalle quali sarà possibile raccogliere gli indici di gradimento dei clienti nei confronti
del prodotto e vari attributi riguardo ai clienti stessi, anche in maniera automatica,
tramite dei tool specializzati (opinion mining).
Le varie fonti possono essere suddivise in “interne” (come, ad esempio, i reparti
ingegneristici e delle vendite), ed “esterne” (come i siti web). La fase di aggregazione
necessaria per l’analisi di tali dati può essere completata tramite l’uso di alcuni
strumenti specifici tra i quali uno dei più utilizzati è Apache Hadoop: un framework
che supporta applicazioni distribuite in grado di lavorare con migliaia di nodi e
petabyte di dati.
Figura 2.3. Dati su un generico prodotto X raccolti da varie fonti
Raccogliere tutti i dati da tutte le varie fonti disponibili può essere un procedimento lungo e complesso. Una volta portato a termine, inoltre, una parte delle
informazioni emerse risulterà essere inutile. Infatti, anche nel caso dei Big Data, è
necessario individuare quella porzione di informazioni che vanno realmente a favore
26
2 Big Data
del progetto di analisi predittiva (smart data). Tutto ciò ha ancora una volta lo
scopo di aumentare la precisione e l’affidabilità del modello di previsione.
Un’esperienza analoga allo studio dei big data è quella che si trovano ad affrontare le industrie minerarie durante la ricerca dei siti di estrazione dell’oro[9, pag.14].
Si stima, infatti, che esistono molti giacimenti auriferi sommersi dagli oceani, contenenti migliaia di tonnellate di pepite di oro sepolte al loro interno: una quantità
di gran lunga superiore rispetto a quella estratta fino ad oggi. Allo stesso modo ci
sarà sicuramente una grande quantità di informazioni non ancora estratte dai big
data, ma ricavare tali informazioni può essere molto costoso.
Alcune volte i benefici che l’analisi predittiva ottiene esaminando i big data
valgono lo sforzo e le risorse impiegate durante il processo di estrazione delle informazioni, altre volte no. In base al settore in cui si effettua l’analisi, utilizzare
fonti esterne quali i big data può essere più o meno conveniente, ma, in molti casi,
utilizzare tali fonti fornisce una sorgente di informazioni estremamente redditizia.
Estendere le proprie conoscenze tramite fonti esterne quali i Big Data richiede,
quindi, un compromesso. Da un lato c’è il chiaro vantaggio di ottenere moltissime
informazioni aggiuntive che possono rendere il modello di previsione molto più utile;
il rovescio della medaglia è costituito dal fatto che, come già detto, tutto ciò ha un
costo. È, quindi, necessario valutare preventivamente se concentrare i propri sforzi
nel provare a districare la matassa di informazioni contenute nei big data in base
alle proprie esigenze. Le risorse richieste consistono sia in nuove teorie, algoritmi e
metodi e di data mining, sia in un hardware migliore, capace di gestire una grossa
quantità di dati. In entrambi gli ambiti gli strumenti devono evolversi di pari passo:
complessi software per l’estrazione delle informazioni richiedono grosse quantità di
memoria ed elevate capacità computazionali.
2.3 Hardware e Calcolo distribuito
Come è emerso da ciò che è stato detto finora la scelta di come sfruttare le potenzialità offerte dai big data è strettamente legata alle necessità individuali. Di
conseguenza, le configurazioni hardware necessarie variano in base alle quantità di
dati che si vogliono passare in rassegna per sfruttare i principi di data mining su di
essi.
In generale, grosse quantità di dati richiedono grosse capacità di memorizzazione: riuscire a conservare molti dati sulla storia passata significa realizzare previsioni
molto più verosimili sul futuro. I tradizionali hard disk che utilizzano dischi magnetizzati sono molto affidabili ma hanno lo svantaggio di accedere ai dati in maniera
molto più lenta rispetto alle altri componenti del computer. Per questo motivo,
dovendo analizzare in breve tempo dati volatili, che cambiano molto velocemente,
vengono spesse adottate soluzioni quali gli array di dischi, i quali sono costituiti da
diversi gruppi di hard disk con un’architettura tale da incrementare la velocità di
trasferimento dei dati e la sicurezza in caso di guasti. Essi permettono di ottenere
un throughput fino a 6 gigabyte al secondo, un incremento fino a 50 volte maggiore
rispetto ai sistemi a singolo hard disk [10, pag.28].
Col tempo, inoltre, la quantità di dati che possono contenere questi dispositivi
di memorizzazione è aumentata in media dal 50% al 100% ogni anno negli ultimi
2.3 Hardware e Calcolo distribuito
27
10 anni, come mostrato in Figura 2.4, mantenendo prezzi relativamente costanti.
Questi fattori hanno permesso la diffusione dell’utilizzo dei big data come strumento
determinante per il successo dell’analisi predittiva.
Figura 2.4. Aumento della capacità degli hard disk nel corso del tempo
Un’ulteriore soluzione è rappresentata dalla tecnologia degli SSD (dispositivi di
memoria di massa costituiti da memorie flash), che non contengono dischi magnetizzati o parti meccaniche per la lettura e la scrittura. Essi hanno una velocità che
può superare i 450 MB/sec, e sono più resistenti ai guasti, non contenendo parti
meccaniche. Questi ultimi costituiscono una buona soluzione in quei settori in cui
vengono utilizzate quantità di dati moderate, non troppo grandi, i quali cambiano occasionalmente. Sono, inoltre, disponibili anche array di SSD, ma il problema
maggiore, in questo caso, è costituito dal costo. Infatti, ogni unità di memoria SSD
è molto più costosa rispetto alle singole unità di memoria a dischi magnetizzati. Un
buon compromesso è costuito da una strategia ibrida, che usa differenti tecnologie
per andare incontro alle varie necessità.
Per poter processare grandi quantià di dati è, inoltre, necessaria un’adeguata
capacità di calcolo. L’evoluzione di cui le moderne CPU sono state oggetto negli
ultimi anni gioca a favore di un possibile intenso utilizzo dei big data. Fino al 2000
l’evoluzione dei microprocessori è stata descritta dalla legge di Moore, cofondatore di
Intel, secondo cui “la complessità di un microcircuito raddoppia ogni 18 mesi”. Non
potendo incrementare ulteriormente la capacità di calcolo, in termini di frequenza,
sono quindi stati aggiunti nuovi core, ossia componenti indipendenti che elaborano
i dati parallelamente tra loro e condividono delle risorse comuni.
Tra le componenti che rivestono un ruolo fondamentale nell’analisi dei Big Data
è, infine, utile citare quei meccanismi che consentono a più macchine di comunicare
tra loro, creando una rete di calcolatori. Essi sono rappresentati dai vari protocolli di
28
2 Big Data
rete e dalle molteplici infrastrutture che mettono in comunicazione le diverse unità
di calcolo. Avendo a che fare con enormi flussi di informazione, infatti, può essere
utile distribuire i compiti dei vari algoritmi su più macchine per alleggerire il carico
sulle singole unità. Tuttavia, il trasferimento di dati attraverso una rete risulta
avvenire a una velocità molto inferiore rispetto a quella delle varie componenti
finora analizzate. Per questo motivo la rete rappresenta un collo di bottiglia per i
vari algoritmi; è necessario, quindi, minimizzare l’utilizzo del “calcolo distribuito”
trasferendo informazioni solo quando effettivamente ve ne è bisogno.
Con l’incremento della quantità e della velocità dei dati che si ottengono (nei
casi in cui una singola macchina non è più sufficiente ad elaborare le informazioni
in un tempo utile prima che esse vengano aggiornate o, comunque, in un tempo
ragionevole) non è più sufficiente assicurare i risultati di un algoritmo di analisi[11,
pag.42]. In tali situazioni è necessario ricorrere a componenti distribuite su più
macchine e dividere le operazioni di calcolo su più nodi. Il calcolo distribuito fu
inizialmente utilizzato per svolgere calcoli molto complessi, che non potevano essere
portati a termine da un solo calcolatore. Allo stesso modo, dovendo analizzare grosse
quantità di dati in maniera sufficientemente rapida, suddividere questo compito su
diversi nodi appare essere la strategia migliore per affrontare una cosı̀ grande sfida.
Ogni nodo include una propria CPU, una propria memoria centrale e di massa,
e può operare in maniera indipendente. Inoltre, le architetture distribuite devono
garantire l’apertura, cioè deve essere sempre possibile aggiungere un nuovo nodo al
sistema (ad esempio quando si vuole affidare a tale nodo il compito di elaborare i
dati provenienti da una nuova fonte).
Un algoritmo può essere suddiviso in più attività (task ), come mostrato in Figura
2.5; a ciascuna di esse verrà fornita una frazione di dati ed essa restituirà un risultato
che dovrà essere ricomposto con i risultati forniti dalle altre attività. In alternativa,
nelle situazioni più complesse, ad ogni macchina può essere affidato un algoritmo
di calcolo diverso. È, inoltre, possibile distribuire i vari algoritmi su più di una
rete, sfruttando le capacità offerte da diversi sistemi distribuiti; questo, però, va a
svantaggio della velocità di comunicazione: più le reti sono distribuite in un’area
geografica ampia e più lo scambio di messaggi tra esse risulterà lento e richiederà
più cicli di trasferimento per la comunicazione.
Un tipico esempio di implementazione di calcolo distribuito nell’ambito dei big
data è rappresentato dal framework MapReduce introdotto da Google (sul quale si
basa Apache Hadoop), che supporta la computazione distribuita su grandi quantità
di dati ed è, quindi, capace di implementare le strategie esposte fino ad ora.
Combinando insieme architetture di calcolo distribuito, sistemi con hardware avanzato, strumenti come MapReduce e Hadoop è possibile affrontare la sfida dell’analisi
di vaste e complesse quantità di dati per venire incontro ad ogni tipo di esigenza.
2.4 Strumenti di Analisi
I big data, essendo spesso dati non strutturati, richiedono particolari strumenti
per essere memorizzati e gestiti. Con la diffusione di strumenti open-source, quali
MapReduce, Hadoop ed alti ancora, i costi per la gestione di tali dati si sono abbassati
2.4 Strumenti di Analisi
29
Figura 2.5. Processo diviso in più sottoparti (task ).
significativamente. Nel seguito daremo uno sguardo ai principali tra questi strumenti
di analisi.
2.4.1 MapReduce
MapReduce è un framework che permette agli sviluppatori di scrivere programmi in
grado di lavorare su enormi quantità di dati non strutturati in parallelo su un sistema
distribuito. Tale piattaforma fu sviluppata dai ricercatori di Google intorno al 2000,
quando questi notarono che gli strumenti in loro possesso presto non sarebbero stati
capaci di gestire i dati provenienti dal numero sempre crescenti di visitatori che il
Web stava incontrando. Tali ricercatori si resero conto che sarebbe stato possibile
gestire quantità di dati praticamente illimitate sfruttando le potenzialità offerte
dalla computazione parallela. Essi presentarono MapReduce come un modello di
programmazione generico e ne mostrarono un’implementazione per evidenziare la
praticità e l’efficienza di tale modello. Durante gli anni, poi, furono create molte
altre implementazioni, disponibili per i più svariati settori.
Tale modello di programmazione prevede l’utilizzo di due funzioni: la funzione
Map() e la funzione Reduce(). Per capire il motivo per cui tali funzioni sono molto
utili se utilizzate con i Big Data è opportuno richiamare il paradigma con cui sono
state create, ovvero il paradigma della programmazione funzionale. Seguendo questo
tipo di programmazione, gli operatori delle funzioni non modificano il valore e la
struttura dei dati ma creano nuovi dati in output. Si tratta di un paradigma usato
quando è necessario ripetere uno stesso schema sugli stessi dati più e più volte
senza modificare gli stessi. Con la programmazione funzionale, inoltre, non esiste
un ordine definito con il quale vengono eseguite le operazioni e non è necessario
definire esplicitamente dove i dati di output verranno salvati. Tali caratteristiche
30
2 Big Data
rappresentano vantaggi fondamentali nel contesto dei Big Data in quanto viene
garantita la possibilità di conservare i dati immutati e di proporre più volte gli stessi
schemi su di essi. Inoltre, la programmazione funzionale si sposa perfettamente con i
sistemi distribuiti in quanto non è necessario definire dove verranno memorizzati gli
output di ciascun nodo. Le funzione Map() e Reduce() sono implementate seguendo
il modello della programmazione funzionale. Nel seguito esaminiamo più in dettaglio
le due attività di Map() e Reduce().
•
Map(): un sistema distribuito che opera utilizzando il framework MapReduce è
composto da un’architettura centralizzata in cui un nodo particolare (identificato
come nodo centrale o nodo master) ha più importanza rispetto agli altri. In tale
nodo risiede la funzione Map(). Essa riceve in ingresso una query o una procedura
che deve essere eseguita su una lista, anche molto grande, di valori in ingresso e
la divide in più processi, ciascuno dei quali svolge un compito differente. Questi
compiti più piccoli vengono assegnati ad ogni nodo secondario, o slave, il quale
eseguirà la procedura ottenuta in parallelo, restituendo un risultato.
Per fare un esempio[10, pag.103] di un programma che può essere implementato
tramite la funzione Map(), supponiamo di voler esaminare una lista di città
che hanno partecipato a una recente elezione. Ogni dato prelevato dalla lista e
fornito alla funzione Map() è costituito da una coppia di valori: una chiave che
ne identifica la particolare istanza ed il valore vero e proprio. In tal modo nella
lista delle città ogni elemento sarà costituito da una chiave che rappresenta il
nome della città e da un valore che rappresenta il numero di abitanti. Tramite
l’uso della funzione Map() si avrà il seguente codice:
•
map howManyPeople (mylist) = [ howManyPeople county
1; howManyPeople county 2; howManyPeople county 3;
howManyPeople county 4; . . . ]
Tale funzione riceve tra i propri parametri la stessa funzione howManyPeople;
in questo caso, ciascun parametro corrisponde ad un’implementazione della funzione stessa (ulteriore caratteristica della programmazione funzionale è quella
di poter fornire ai parametri delle proprie funzioni altre funzioni). Ognuna di
queste funzioni conta il numero di abitanti di ogni città e viene distribuita in
un nodo del sistema distribuito, essa dovraà restituire un valore positivo se tale
città possiede più di 50.000 abitanti. In questo modo viene distribuita un’implementazione di howManyPeople in ogni nodo, il quale restituirà il risultato
indipendentemente dagli altri nodi.
Da notare come anche la lista dei dati in input è stata suddivisa ed ogni frazione
del dataset viene distribuita alle varie funzioni durante l’implementazione della
funzione Map(). Tale programma, pur effettuando solo una semplice lettura,
spiega in maniera chiara come avviene la procedura di suddivisione di Map() e
come essa possa essere applicata a grandi collezioni di dati per semplificare il
lavoro da svolgere sull’intero dataset.
Reduce(): analogamente alla funzione Map(), anche la funzione Reduce() è realizzata secondo il paradigma della programmazione funzionale e riceve in ingresso
una lista di elementi. Tramite Reduce() è possibile implementare una funzione che riceve in input tale lista, opera su di essa alcune istruzioni che vengono
decise dal programmatore, e quindi restituisce il risultato finale. Per riprendere
2.4 Strumenti di Analisi
31
l’esempio precedente, dove era stata mostrata l’implemetazione di una funzione
tramite Map() la quale restituiva una lista di elementi, viene adesso mostrata
l’implementazione di una funzione tramite Reduce(). Il risultato della funzione
howManyPeople è una lista di città le quali possiedono più di 50.000 abitanti.
Ogni elemento di tale lista è stato ricavato da un nodo del sistema distribuito:
(no, county 1; yes, county 2; no, county 3; yes, county
4; ?, county nnn)
Ogni risultato è una coppia in cui viene indicato il nome della città stessa ed un
valore positivo che specifica se quella città possiede o no più di 50.000 abitanti.
La funzione che verrà implementata tramite Reduce() si chiama isDemocrat;
essa esamina ogni elemento della lista e restituisce solo quelle città dove gli
elettori hanno votato per il Partito Democratico:
reduce isDemocrat (no, county 1; yes, county 2; no,
county 3; yes, county 4; ?, county nnn)
Tutto questo viene svolto senza apportare alcuna modifica alla lista di partenza.
In questo modo è possibile ripetere il processo implementando ulteriori funzioni
tramite Reduce() senza, cosı̀, alterare le informazioni contenute nei dati utili.
In alcune situazioni una lista di risultati prodotti, a partire dai dati in input, tramite
la funzione implementata con Map() è sufficiente. In altri casi (soprattutto quando
si ha a che fare con grosse collezioni di dati) si vuole esaminare tali dati, selezionare
alcuni elementi di maggiore interesse e, infine, implementare un’operazione sulla
lista dei dati selezionati. Questo appena descritto è il metodo adottato per affrontare
il problema della complessità dei Big Data. In tal modo si sfruttano le potenzialità
di entrambe le funzioni Map() e Reduce() che, insieme, compongono il “pattern”
MapReduce, il cui nome deriva proprio dalle due funzioni che lo costituiscono.
Questo genere di tecniche vengono definite tecniche “divide et impera”. Partendo da una grossa raccolta di dati, si usa la funzione Map() per implementare diverse
procedure che esaminano porzioni definite dei dati ed estraggono le informazioni di
maggiore interesse; si crea, quindi, una lista che viene, infine, esaminata da una procedura implementata tramite la funzione Reduce() producendo l’output desiderato,
come mostrato in Figura 2.6.
I programmatori possono implementare qualsiasi funzione tramite tale approccio; anche dovendo esaminare quantità di dati dell’ordine dei petabyte, esso risulta
particolarmente efficace ed efficiente in quanto sfrutta tutte le potenzialità della
programmazione distribuita già illustrate. Inoltre, grazie al paradigma della programmazione funzionale, l’ordine con il quale vengono eseguite le varie funzioni
implementate tramite Map() è ininfluente. Con questo tipo di programmazione è
prevista infatti una sorta di proprietà commutativa per le istruzioni, le quali possono essere eseguite in qualsiasi ordine. Il risultato finale sarà visto come se fosse
stato eseguito da una singola macchina. MapReduce funziona, infatti, in maniera
trasparente: in tal modo chiunque voglia implementare le funzioni non si dovrà preoccupare di come esse verranno distribuite all’interno del sistema (basterà semplicemente fornire delle istruzioni da un livello superiore, anche tramite degli strumenti
32
2 Big Data
Figura 2.6. Flusso dei dati lavorati tramite MapReduce
quali Apache Hadoop). Il resto del lavoro verrà svolto da MapReduce che risiede in
un livello inferiore secondo un’architettura a strati in cui l’utente, o lo strumento,
di livello più alto non vuole conoscere il funzionamento delle applicazioni di livello
inferiore ma è interessato semplicemente al risultato che esse forniranno.
MapReduce include, anche, altre caratteristiche per la gestione dei vari processi
che vengono generati. È presente uno scheduler che fa sı̀ che tali processi abbiano
maggiore priorità e vengano eseguiti prima che la funzione implementata tramite
Reduce() venga mandata in esecuzione. In questo modo essa non potrà essere lanciata prendendo risultati parziali. La sincronizzazione dei sottoprocessi Map() avviene
tenendo traccia della loro esecuzione e, solo quando ciascuno di essi ha fornito il
proprio risultato, verrà mandata in esecuzione la funzione Reduce(). Se, inoltre, il
numero di sottoprocessi è maggiore rispetto al numero di nodi presenti nel sistema
allora lo scheduler si occuperà di far sı̀ che ognuno di essi venga servito. È presente,
anche, un meccanismo di gestione degli errori tale che, se uno dei nodi non riesce
a portare a termine l’esecuzione di un processo ad esso assegnato, il sistema riconosce in maniera automatica l’insorgere di tale problema e reagisce (talvolta anche
assegnando tale processo a un altro nodo).
Per sfruttare al massimo le potenzialità degli strumenti offerti da MapReduce
sono necessari ulteriori tecnologie che, partendo dai meccanismi che tale piattaforma
offre, permettono di affrontare tutte le sfide che l’analisi dei Big Data propone. Uno
di questi strumenti (forse il più utilizzato) è Apache Hadoop.
2.4.2 Apache Hadoop
Il progetto di Hadoop nasce dall’esigenza di avere un mezzo per gestire grosse quantità di dati in modo semplice e pratico. Prima della nascita di tali strumenti i
2.4 Strumenti di Analisi
33
maggiori motori di ricerca, quali Yahoo! e Google, erano alla ricerca di un modo
per trarre profitto dal continuo flusso di informazioni che ricevevano ogni giorno.
Per fare ciò si dovette trovare, prima di tutto, un modo per gestire questi dati in
maniera automatica. Fu proprio il motore di ricerca Yahoo! a dare vita al progetto
Hadoop per venire incontro a tali esigenze. Il creatore di questa nuova piattaforma,
l’ingegnere Doug Cutting, terminò il progetto nel 2004 utilizzando come punto di
partenza il framework MapReduce di Google. Proprio come MapReduce, infatti, l’approccio di Hadoop per affrontare la complessità dei Big Data consiste nel dividere
il problema in più passi minori e nel risolverli parallelamente.
Le componenti principali di Hadoop sono due:
• Hadoop Distributed File System. Un file system distribuito è un particolare tipo di file system che permette la memorizzazione di file e risorse su dispositivi
di archiviazione distribuiti in una rete informatica, anzichè archiviati su un dispositivo locale. L’Hadoop Distribuited File System, o HDFS, è stato ideato per
soddisfare alcuni requisiti, quali la scalabilità e l’affidabilità. Esso è in grado di
gestire un numero elevatissimo di file (anche dell’ordine dei petabyte). Analogamente ad altri file system, esso presenta i file in una struttura gerarchica di
cartelle e li distribuisce attraverso i vari nodi.
I file system di tipo distribuito operano attraverso un meccanismo client-server;
come tutti, anche HDFS lavora a partire da un nodo centrale che contiene un’applicazione chiamata namenode. Tale applicazione gestisce l’intero file system,
controlla l’accesso ai file (per operazioni di lettura, scrittura, etc.) e determina
come essi verranno suddivisi, nei vari nodi, all’interno di blocchi da 64/128MB.
La responsabilità del namenode è quella di tenere traccia della posizione nella
quale i vari blocchi, che compongono ogni file, vengono distribuiti. Inoltre, il namenode offre una strategia di replica e di controllo degli errori che garantiscono
l’affidabilità del sistema. Tale applicazione comunica in maniera continua con le
componenti del file system distribuite sui vari nodi secondari: tali componenti
sono chiamati datanode. Attraverso questa comunicazione il nodo principale è a
conoscenza di tutto ciò che avviene sugli altri nodi; quindi, nel momento in cui
un nodo non riuscirà più a gestire il flusso delle informazioni dirotterà il traffico
dei dati verso un altro nodo.
I datanode sono delle applicazioni che si trovano su tutti i nodi della rete diversi
da quello principale; generalmente è presente un datanode per ciascun nodo.
Tali applicazioni gestiscono fisicamente la memorizzazione dei dati in ciascun
nodo, occupandosi delle operazioni di lettura e scrittura richieste. L’accesso a
ogni datanode è sempre gestito dal namenode il quale, interpretando i messaggi
ricevuti, determina se il nodo secondario sia in grado, oppure no, di gestire le
informazioni che dovrebbero essere affidate ad esso. In tal modo, quando un
datanode non fornisce alcuna risposta viene escluso fino a quando non sarà di
nuovo capace di accettare nuovi dati in ingresso. Questo meccanismo permette
al sistema di essere sempre bilanciato ed è completamente trasparente all’utente,
il quale vede l’intero sistema come se fosse una macchina singola.
Al fine di garantire l’integrità dei dati, durante il processo di divisione dei file in
vari blocchi, ogni movimento viene registrato in un file di log. Grazie a questa
strategia HDFS risulta essere un file system affidabile. Ogni dato, inoltre, viene
replicato più volte sui vari nodi; questa funzionalità, oltre a rappresentare un
34
•
2 Big Data
ulteriore punto di forza per l’affidabilità del sistema, garantisce una riduzione
dei tempi di accesso per rendere più efficiente il recupero dei dati.
Ulteriore punto di forza di Hadoop è la possibilità di interagire con diversi tipi
di dati. L’HDFS accetta qualsiasi formato, strutturato e non strutturato, proveniente da qualsiasi tipo di fonte. È possibile memorizzare file di testo, email,
foto, video, post provenienti da social network, nonchè qualsiasi altro tipo di
dato.
HDFS risulta, pertanto, sempre vantaggioso con dati di grandi dimensioni. I
vantaggi diminuiscono quando, al contrario, si ha a che fare con file di dimensioni più piccole. In particolare, quando troppi file hanno una dimensione molto
inferiore al singolo blocco di memoria del file system, questo determinerebbe un
incremento nello spazio dei nomi del namenode, associati a ogni singolo blocco.
Tale problema viene risolto dagli archivi Hadoop che compattano molti piccoli
file in raccolte più grandi.
Hadoop MapReduce: è un’implementazione del framework MapReduce di Google.
Tale versione prevede una serie di funzioni precostruite per affrontare il problema della complessità dei Big Data. Quando, tramite il client di Hadoop, viene
fatta una richiesta di implementazione del pattern di MapReduce, i dati grezzi
vengono per prima cosa individuati all’interno del sistema distribuito e prelevati
tramite HDFS. Prima che i dati possano essere forniti alla funzione implementata utilizzando Map(), come visto precedentemente, è necessario adattarli in modo
che rispettino i parametri accettati da tale funzione. Ogni parametro fornito alla funzione Map() deve essere, infatti, costituito da una coppia chiave-valore. A
tale scopo vengono proposte una serie di funzioni utili per convertire i dati da
un qualsiasi formato generico (con il quale vengono estratti dalle fonti esterne)
ad un formato in cui possono essere processati. Ogni istanza di Map(), quindi,
elaborerà i dati cosı̀ convertiti e fornirà un output.
In alcune applicazioni i dati in uscita devono essere raccolti prima di essere
passati alla funzione Reduce(). Anche questa funzione si trova distribuita in ogni
nodo; per questo motivo Hadoop prevede un’applicazione chiamata collettore
che permette di raccogliere i risultati di tutti i nodi, nel caso in cui questi
ultimi dovessero essere tutti richiesti dalla funzione Reduce(). I risultati delle
elaborazioni delle varie istanze di Map() sono raccolti da un’applicazione reporter
la quale tiene traccia di ogni esecuzione sui vari nodi e permette alla funzione
Reduce() di sapere quando tutti i risultati sono pronti per l’elaborazione finale.
Ciascuno di questi meccanismi è presente su ogni singolo nodo: quando i risultati
vengono resi disponibili essi convergono nel nodo che dovrà eseguire la funzione
Reduce(); i trasferimenti vengono effettuati in maniera efficiente tramite HDFS.
Una volta che i risultati intermedi sono pronti la funzione Reduce() li elabora
e fornisce il risultato finale. Anche questi risultati saranno composti da una
coppia chiave-valore; per questo motivo saranno necessarie ulteriori funzioni che
tradurranno, ancora una volta, questi elementi nel formato desiderato. Infine, i
dati cosı̀ ottenuti verranno memorizzati per ulteriori future elaborazioni tramite
HDFS.
Come è emerso finora, Hadoop fornisce una serie di strumenti per rendere estremamente semplice il lavoro con i Big Data. Al contrario dei normali database relazionali, i quali prima di poter ricevere i dati devono essere preventivamente adattati
2.4 Strumenti di Analisi
35
alla loro struttura, Hadoop permette di memorizzare le informazioni ed estrarle in
qualsiasi momento e senza un’opportuna preparazione. In aggiunta, esso porta una
serie di vantaggi già esaminati, quali l’affidabilità, la gestione degli errori, la velocità
di estrazione dei dati, e le varie funzioni che permettono di lavorare con qualsiasi
tipologia di dato.
Nel corso degli anni alla tecnologia vista finora si sono aggiunti ulteriori strumenti per incrementare la versatilità di Hadoop. Tali strumenti formano un ecosistema
di applicazioni che ruotano intorno al framework principale e che permettono di
adattarsi a ogni situazione con cui si può avere a che fare nel contesto Big Data.
Questo bagaglio di tecnologie appare indispensabile quando si vogliono estrarre informazioni da un mondo di dati cosı̀ vasto: cercare di comprendere i Big Data senza
tali strumenti è come cercare di svuotare l’oceano usando un cucchiaio[11, pag.121].
2.4.3 Ecosistema Hadoop
Intorno alle basi di Hadoop, costituite da MapReduce e HDFS, ruotano una serie
di strumenti indispensabili alla scrittura di applicazioni utili per obiettivi pratici,
quali l’analisi predittiva (come illustrato in Figura 2.7).
Figura 2.7. L’ecosistema di Hadoop
In assenza di tali tecnologie il compito degli esperti del settore sarebbe molto
più complesso in quanto si dovrebbero implementare da zero le tecnologie che permettono di realizzare un modello efficace. La loro esistenza quindi rappresenta un
opportunità per tutti coloro che vogliono includere l’universo dei Big Data alla loro
analisi.
• Yarn: Yarn (acronimo di: Yet Another Resource Negotiator) è una piattaforma
che contiene uno scheduler il cui compito è quello di allocare le risorse di sistema alle varie applicazioni implementate dall’utente. Lo scheduling dei processi,
nonostante sia gestito da MapReduce, non garantisce la flessibilità e l’efficienza
che vengono fornite dal servizio Yarn. Quest’ultimo si prende carico della gestione delle risorse (quali la memoria, la CPU e la rete) e controlla l’esecuzione
delle applicazioni. Se queste ultime dovessero richiedere un numero maggiore di
36
•
•
•
2 Big Data
risorse a supporto dell’esecuzione, Yarn le fornirà loro aumentando l’efficienza
complessiva del sistema. Di conseguenza, tale framework è un ulteriore strumento che consente di creare applicazioni o infrastrutture di calcolo distribuito di
qualsiasi tipo.
Hbase: si tratta di una base di dati distribuita, non relazionale che utilizza HDFS
per le proprie operazioni. Come i tradizionali RDBMS esso è composto da righe
e colonne, ma non esiste alcuna relazione tra i dati contenuti all’interno del
database. Ogni colonna rappresenta una famiglia di informazioni mentre ogni
riga è identificata da una chiave che può essere una stringa, un valore numerico
o, perfino, un dato strutturato: ciò rende l’accesso ai vari dati molto flessibile.
Lo schema della base di dati Hbase non è predefinito; quindi, in ogni momento, è
possibile aggiungere righe e colonne: questa caratteristica si sposa perfettamente
con i Big Data i quali si evolvono molto in fretta nella loro varietà. Inoltre, i dati
contenuti in Hbase vengono replicati, secondo le specifiche di HDFS ; in questo
modo l’accesso ai vari dati risulta essere più rapido.
Hive: è un’infrastruttura che implementa un linguaggio simile a SQL, chiamato HiveQL, il quale permette di realizzare interrogazioni sui dati contenuti in
HDFS. Diventa, cosı̀, possibile analizzare i dati senza dover ricorrere ad applicazioni implementate esplicitamente tramite Map() e Reduce(); ciò viene fatto
in maniera automatica e trasparente per l’utente. Hive non è progettato per
ottimizzare i tempi di risposta: i risultati di una query possono essere restituiti anche dopo moltissimo tempo a causa della complessità dei dati. Per questo
motivo Hive è utilizzato per le operazioni di data mining che non richiedono
risultati in tempo reale. Le primitive di HiveQL includono alcuni costrutti tipici
di SQL quali select, join, union e molti altri.
Mahout : questo strumento (Figura 2.8) ha un utilizzo specifico per l’analisi predittiva. Esso contiene librerie di algoritmi di data mining per implementare
metodi quali clustering, classificazione, e molti altri, direttamente su grandi
quantità di dati. Ciò avviene grazie alla possibilità di implementare Mahout su
reti distribuite che vengono già gestite da Hadoop. In tal modo non è necessario
possedere le conoscenze informatiche per la costruzione del modello utile all’analisi predittiva: le conoscenze del settore saranno sufficienti per la scelta delle fonti
e dell’algoritmo più adatto ad analizzare i dati provenienti da esse e per poter
ottenere un modello di previsione. Gli algoritmi messi a disposizione da Mahout
sfruttano le capacità del paradigma MapReduce; anche in questo caso l’architettura usata è quella a livelli in cui applicazioni di livello superiore (in questo
caso, gli algoritmi forniti da Mahout ) utilizzano per i loro scopi infrastrutture
già messe a disposizione, quali il framework MapReduce offerto da Hadoop.
Mahout è un progetto relativamente giovane e, quindi, aperto allo sviluppo di
nuove funzionalità e nuovi algoritmi per includere l’implementazione di tutte le
tecniche e i modelli che l’analisi predittiva richiede.
Gli strumenti finora esaminati rappresentano solo una piccola parte di tutti quelli disponibili agli utenti che utilizzano Hadoop per la gestione dei Big Data. Tali
strumenti richiedono un certo grado di conoscenza da parte degli utilizzatori. Con
la diffusione dei casi d’uso dei Big Data, e con l’aumentare, negli ultimi anni, delle
richieste di metodi sempre più accessibili per sfruttare tali risorse, è sorta la neces-
2.4 Strumenti di Analisi
37
Figura 2.8. Il logo di Apache Mahout
sità di sviluppare nuove tecnologie sempre più aperte. Per tale ragione una parte
dell’ecosistema di Hadoop è dedicata sempre più ad applicazioni che non richiedono
conoscenze informatiche o specifiche del particolare settore. Tra questi strumenti, citiamo Pig, Sqoop e Zookeeper : essi rappresentano l’evoluzione del concetto di
gestione dei Big Data, sempre più accessibili e meno costosi da analizzare. Tutti
questi strumenti, inoltre, sono open-source e quindi sono utilizzabili da chiunque
voglia usufruire delle potenzialità dei grossi flussi informativi per i propri scopi.
3
I Modelli di Previsione
In questo capitolo vengono illustrati, dal punto di vista teorico, i più comuni modelli
i quali rappresentano il cuore dell’analisi predittiva. Questi ultimi sono ereditati
da discipline quali data mining e machine learning. Dopo una breve panoramica
sul concetto di “modello”, vengono illustrati, con maggior dettaglio, i procedimenti
matematici e statistici con i quali essi riescono a rappresentare la realtà (e, in
seguito, a prevederla) apprendendo dall’esperienza.
3.1 I Modelli come Strumento di Previsione
I modelli rappresentano il cuore dell’analisi predittiva. Per questo motivo è necessario analizzare tali strumenti, al fine di apprendere a pieno come realizzare un
processo di previsione, e quale tra questi meglio si adatta alle varie situazioni.
Dal punto di vista più generale possibile, un modello è la rappresentazione di
uno stato, un processo, o un sistema che si intende comprendere o del quale si vuole conoscere il comportamento. Nel caso dell’analisi predittiva i modelli si rivelano
interessanti in quanto consentono di trarre delle conclusioni sugli eventi osservati, a partire dai comportamenti studiati, e di fare delle previsioni sulle prossime
evoluzioni degli eventi stessi.
Esiste una moltitudine di modelli diversi, e in diversi formati. Tale varietà garantisce la possibilità di descrivere qualsiasi fenomeno e, allo stesso tempo, di adattarsi
a qualsiasi tipologia di variabili che si intende mettere in relazione. Un modello può
essere costituito da un’equazione matematica, la quale mette in relazione due o più
variabili che possono essere osservate e misurate; esso può, inoltre, essere composto da un insieme di regole. L’esempio di un tipico modello è rappresentato dalla
seconda legge di Newton. Essa mostra come l’accelerazione di un corpo sia direttamente proporzionale alle forze agenti su di esso e inversamente proporzionale alla
sua massa. Tale legge viene cosı̀ rappresentata:
X−
→
→
F = m−
a
(3.1)
In questo caso il modello è rappresentato da un’equazione. Quest’ultima mette
→
−
in relazione la somma delle forze F che agiscono su un oggetto di massa m con
40
3 I Modelli di Previsione
→
l’accelerazione −
a che tale oggetto subisce in risposta. Questo semplice modello ci
permette di compiere delle previsioni riguardo la realtà circostante. In questo caso,
applicando una forza a un oggetto (di cui conosciamo già la massa) è possibile
prevedere l’accelerazione che esso subirà. Dopo diverse osservazioni dei risultati
prodotti da tale modello, ottenuti a partire da una serie di campioni di forze in
ingresso, sarà possibile prevedere con certezza le conseguenze di una qualsiasi forza
che verrà applicata all’oggetto di interesse.
L’esempio appena illustrato mette, inoltre, in evidenza quanto sia importante
effettuare una preventiva preparazione dei dati prima di che essi vengano utilizzati.
L’oggetto osservato, oltre la massa indicata con m, possiede diverse altre caratteristiche (o attributi) che possono essere più o meno interessanti ai fini del risultato che
si vuole ottenere. Specifiche come: il colore, la temperatura, la posizione nello spazio, e molte altre che caratterizzano tale oggetto, risultano essere irrilevanti per tale
del modello ai fini di calcolare la massa dell’oggetto stesso. Per questo motivo molti
dettagli dovranno essere rimossi prima dell’elaborazione dei dati, concentrando cosı̀
la propria attenzione solo sulle proprietà realmente indispensabili.
La seconda legge di Newton è stata descritta con un modello molto semplice, nel
quale entravano in gioco solo tre attributi dell’oggetto (che può essere considerato
come l’istanza di un particolare tipo di dato). Ogni istanza possiede i propri attributi
che la caratterizzano: la forza e la massa rappresentano le variabili indipendenti, o
di ingresso, ossia valori noti che vengono osservati direttamente dalle fonti da cui
provengono i dati; l’accelerazione rappresenta, al contrario, la variabile dipendente,
o di uscita, ossia un valore incognito che può essere derivato attraverso il modello
partendo dalle variabili di ingresso. Quest’ultimo consiste in una funzione che mette
in relazione tali caratteristiche. In particolare, nell’esempio illustrato, la funzione
matematica è una relazione lineare tra le variabili in ingresso e quelle in uscita.
Questo tipo di modello è estremamente semplice in quanto utilizza poche variabili
e gode della proprietà di linearità. In generale i modelli più complessi sono quelli
che richiedono il maggior numero di variabili e che rappresentano una relazione non
lineare tra le variabili dipendenti ed indipendenti.
Uno stesso fenomeno può, a volte, essere rappresentato da più modelli matematici. La scelta del metodo più conveniente, al fine di ottenere i risultati che meglio
rispecchiano la realtà, non è semplice e spesso richiede diversi tentativi e l’uso dell’esperienza. Nella maggioranza dei casi, i modelli che richiedono più attributi sono
anche quelli che descrivono con maggiore accuratezza gli eventi. Non sempre, tuttavia, un modello più complesso, come ad esempio un modello non lineare con molte
variabili in ingresso, conviene più di un modello lineare. Alcune fonti di dati (ossia,
ad esempio, gli strumenti per la misura della forza e della massa) possono rilevare,
oltre al valore richiesto, una certa quantità di rumore tale da rendere imprecisa la
misurazione. In questi casi fornire molte variabili al modello non farà che incrementare il grado di imprecisione. Talvolta, invece, potrebbe essere impossibile ottenere le
variabili necessarie all’implementazione di un modello molto dispendioso. Conviene,
nella maggior parte dei casi, valutare la risposta di diversi modelli che descrivono lo
stesso fenomeno: in tal modo sarà possibile avere un quadro più ampio dei possibili
sviluppi dei fenomeni presi in esame.
Costruire un modello di previsione, in modo corretto, significa derivare le regole
che descrivono il comportamento delle variabili delle quali si vuole intuire i valori
3.1 I Modelli come Strumento di Previsione
41
che assumeranno in futuro. Tali regole, contrariamente a quanto mostrato tramite
l’esempio della seconda legge di Newton, non possono essere ricavate attraverso
considerazioni di ordine logico, da dimostrazioni matematiche o da regole specifiche
di settore, ma devono essere ricavate osservando direttamente il comportamento
dei dati. Prevedere il comportamento di questi ultimi significa, infatti, osservare
ciò che si è verificato durante le precedenti istanze di tali dati e, necessariamente,
ricavare schemi e associazioni che permettono di costruire un modello valido anche
per le future occorrenze. Se, ad esempio, fosse necessario costruire un modello per la
previsione delle precipitazioni annuali in varie zone geografiche, sarebbe necessario
raccogliere dati sulle precedenti precipitazioni. Per ciascuno di essi bisognerebbe
evidenziare tutti quegli attributi che possono essere di potenziale interesse quali
la latitudine, la longitudine e la quantità di pioggia. Tramite tali informazioni,
osservandone le variazioni attraverso una serie di dati campione, è possibile ricavare
un modello che potrà essere utilizzato con dati raccolti in futuro. Sarà, quindi,
possibile, ad esempio, prevedere il comportamento delle precipitazioni in posti nei
quali non è stata fatta alcuna misurazione.
Esistono varie categorie di modelli costruiti in questo modo. Questi ultimi possono essere suddivisi in base al compito che svolgono; alcuni permettono di ottenere
una variabile dipendente che rappresenta un determinato gruppo di dati, altri restituiscono valori ben precisi. In senso ancor più generale è possibile individuare
due grandi gruppi di modelli: i modelli deterministici e quelli non deterministici o
stocastici. I primi si basano su dati derivanti da osservazioni effettuate tramite misurazioni. A questa categoria appartiene il modello già illustrato del secondo principio
di Newton, implementato attraverso valori misurati in maniera ben precisa. La seconda categoria è costituita da tutti quei modelli che, nel descrivere i vari fenomeni,
contengono particolari che non possono essere determinati con precisione, ma sono
spesso processi casuali. Spesso la forma di incertezza deriva dall’impossibilità di
misurare con precisione quelle variabili che hanno un maggiore impatto sull’implementazione del processo. Un tipico esempio di processo stocastico è il modello che
tenta di prevedere, con probabilità ben definita, il risultato del lancio di un dado.
Tale modello può essere cosı̀ definito:
1
, y ∈ {1, 2, 3, 4, 5, 6}
(3.2)
6
tali simboli indicano che la variabile di uscita Y può assumere uno tra sei possibili valori; ciascuno di essi ha una probabilità su sei di essere quello corretto. In
questo modo è possibile conoscere tutti i possibili risultati e con quale percentuale
ci si può aspettare di ottenere ognuno di essi.
Esistono diverse altre caratteristiche per suddividere ulteriormente i vari modelli in più categorie. Individuare differenti gruppi a cui appartengono questi ultimi è
indispensabile al fine di associare ciascuno di essi ad una ben precisa categoria di
situazioni da rappresentare. Si identificano modelli che vengono realizzati attraverso
algoritmi di apprendimento supervisionato, le cui variabili di uscita sono valori ben
definiti e conosciuti a priori. Su collezioni di dati non ben definiti, in cui per ciascuno di essi conosciamo solo alcuni attributi (ma che non ci permettono di ricondurli
ad una determinata categoria) si utilizzano algoritmi di apprendimento non supervisionato. I modelli realizzati attraverso tali algoritmi permettono di individuare
P (Y = y) =
42
3 I Modelli di Previsione
alcuni gruppi di osservazione delle variabili in ingresso. Attraverso tecniche di data
mining, vengono individuate diverse similitudini e caratteristiche in comune tra gli
attributi dei dati; tali similitudini vengono impiegate per associare, in uscita, ogni
istanza ad un gruppo ben preciso. Questo processo è caratteristico dei modelli di
clustering. Il vantaggio di questi ultimi è quello di poter gestire collezioni di dati non
etichettati, scoprendo gruppi di appartenenza nascosti tra di essi; in questo modo
sarà possibile prevedere a quali, tra tali gruppi, apparterranno i dati in arrivo nel
futuro.
In un modello supervisionato i risultati possono differire da quelli che ci si aspetta
di ottenere. Tale discrepanza è, spesso, dovuta ad un errore nella scelta del modello
che viene usato con il dataset a disposizione. Su una stessa collezione di dati, infatti,
è possibile agire tramite un numero praticamente illimitato di algoritmi differenti;
ognuno di essi può, talvolta, comportare un errore che allontana i risultati ottenuti
da quelli reali. Questo concetto è facilmente comprensibile quando si usano particolari modelli lineari detti modelli parametrici. Questi ultimi sono rappresentati da
una funzione lineare, a parametri X1 , X2 , ..., Xn :
Y = f (X1 , X2 , ..., Xn )
(3.3)
Modificando tali parametri è possibile individuare la funzione che meglio si adatta a rappresentare la realtà. In questo caso l’errore si definisce “riducibile” in quanto
è possibile eliminarlo scegliendo opportunamente un modello (al contrario di un errore irriducibile che può sorgere, ad esempio, quando non si possiede un numero
sufficiente di parametri). Per contro, un modello non parametrico non fa alcun riferimento ad una possibile forma delle variabili di restituzione; in situazioni del genere
individuare un errore risulta essere più complesso.
Il campo di interesse della maggior parte dei modelli di uso comune si restringe a
due categorie, ovvero i modelli di regressione e quelli di classificazione. La distinzione
tra queste due tipologie si basa sui dati di output. I primi mirano a predire una
quantità numerica (come, ad esempio, il livello di precipitazioni o il costo di un
progetto); i secondi tentano di ottenere un valore preso da un insieme di possibili
risultati (ad esempio il genere di una persona o la possibile patologia da cui è affetta,
ottenuti i sintomi in ingresso). La scelta tra queste due categorie è, ovviamente,
dettata dalle necessità richieste dall’implementazione dei modelli.
Nelle prossime sezioni verranno approfondite queste due specifiche categorie, con
uno sguardo particolare rivolto ai modelli che esse includono.
3.2 Data Clustering
Nell’illustrazione di alcuni degli innumerevoli modelli a disposizione per lo sviluppo
dell’analisi predittiva su ogni possibile dataset è bene iniziare da quelli implementati tramite algoritmi di data clustering. Essi rappresentano un primo passo nella
creazione di un modello di previsione efficace. Nella maggior parte delle applicazioni
reali i dati utili sono di tipo non etichettato; ciò significa che non è disponibile, tra i
loro attributi, una variabile di output. Quest’ultima permette di ricondurre il valore
della previsione ad un ben preciso valore tra quelli esistenti e, quindi, prevedere le
future manifestazioni di questi ultimi. In tali casi non è semplice modellare una
3.2 Data Clustering
43
realtà a venire, in quanto i dati che la descrivono sono delle semplici raccolte di
attributi che non possono essere associati a uno dei possibili esiti che si intende
individuare (alcuni particolari attributi possono, infatti, essere caratteristici di più
gruppi di dati contemporaneamente, non possono, perciò, essere usati per determinare univocamente una data istanza). Per affrontare il problema appena esposto
esiste una categoria di modelli implementati tramite gli algoritmi di clustering.
Una delle caratteristiche di tali processi è che essi riescono a scoprire gruppi e
categorie nascoste tra i dati in analisi, quindi a ricondurre ogni istanza di essi a
una ben determinata tipologia. In questo modo, è possibile dare un significato ad
un flusso di informazioni che, altrimenti, non avrebbe alcuna utilità pratica. Come
mostrato nella Figura ??, per ricondurre ogni oggetto ad una determinata categoria,
l’algoritmo studia gli attributi degli stessi.
Figura 3.1. Algoritmo di clustering che individua gruppi di appartenenza esaminando gli
attributi dei dati
Il concetto alla base degli algoritmi di clustering viene comunemente utilizzato,
ed essi fanno spesso parte delle attività quotidiane. Allo stesso modo in cui ogni
giorno si suddividono gli oggetti di uso comune in base alle loro caratteristiche,
infatti, gli algoritmi di clustering separano, in modo intelligente, milioni di dati in
diversi gruppi formati da istanze con caratteristiche simili tra loro. Gli algoritmi che
svolgono tale compito sono applicati in molteplici ambiti quali: biologia, marketing,
reperimento di informazioni di vario genere ed analisi dei social network [7, pag.90].
Ogni dataset è composto da una collezione di oggetti (ossia, istanze di determinati dati) i quali derivano, spesso, da misure ed osservazioni e che vengono rappresentati in formato tabulare. Tali tabelle possono contenere dati di diverso genere e,
in ognuna di esse, vengono riportate, in riga, le varie istanze e, in colonna, gli attributi di ciascuna di esse. Applicando un algoritmo di clustering, tali oggetti vengono
suddivisi in gruppi chiamati cluster, cioè collezioni di istanze aventi caratteristiche
in comune. Ciascun gruppo possiede un particolare valore che rappresenta, meglio
di qualsiasi altro oggetto all’interno di esso, la categoria stessa. Tale istanza è detta
cluster representative. Tutti gli algoritmi di clustering, riassumendo, hanno la capacità di esaminare intere raccolte di dati (anche di grandi dimensioni), individuare
44
3 I Modelli di Previsione
gruppi caratteristici all’interno di essi e, infine, associare ciascun gruppo gruppi a
un particolare valore, il quale avrà tutte le caratteristiche della categoria di appartenenza. La similitudine tra due o più oggetti è tanto più forte quanto più elevato
sarà un indice di verosimiglianza. Ogni istanza viene confrontata con il cluster representative e, tramite una funzione matematica, viene restituito un valore numerico
indice del grado di verosimiglianza tra l’oggetto e la categoria alla quale appartiene.
La scoperta dei gruppi di appartenenza è essenziale per formulare idee ed ipotesi sulla struttura dei dati e per meglio comprenderli. Essa può essere utile per
suddividere le informazioni al fine di esaminarle al meglio. Allo stesso tempo può
essere direttamente usata come strumento di previsione in quei determinati ambiti
in cui è utile individuare una categoria di appartenenza delle variabili di output.
Per citare un possibile utilizzo, nell’ambito del marketing ad esempio, potrebbe essere necessario individuare gruppi di clienti i quali condividono gli stessi interessi
o necessità, quindi, prevedere quale sarà il loro comportamento e adattare meglio
la propria strategia di vendita. Utilizzare algoritmi di clustering rappresenta un
vantaggio fondamentale per identificare i nuovi dati in arrivo, prelevati dalle varie
sorgenti, e mostrare come essi sono collegati ai dati già in possesso. Con tale strategia è possibile prevedere il comportamento di questi ultimi non appena vengono
prelevati. È possibile individuare un tipico esempio di quest’ultimo vantaggio nelle applicazioni in cui è necessario categorizzare una e-mail, appena ricevuta, come
messaggio desiderato o come messaggio di spam. Un simile strumento di predizione
ha la necessità, tramite un algoritmo di clustering, di definire due cluster ben precisi: uno contenente e-mail di spam e l’altro contenente e-mail da leggere. Attraverso
il confronto con le caratteristiche di queste due categorie, l’algoritmo sarà capace
di prevedere, con buona approssimazione, a quale dei due insiemi associare ogni
nuova e-mail in arrivo, esaminando gli attributi messi in evidenza che quest’ultima
possiede.
É bene ricordare come non sia possibile applicare un algoritmo di clustering
a un dataset che non sia strutturato in tabelle. Nel caso di dati non strutturati,
infatti, non sarebbe possibile individuare quelle caratteristiche che permettono di
suddividere ogni istanza in un particolare gruppo. Prima di effettuare tale tipo di
analisi, quindi, è necessario evidenziare gli attributi più interessanti per tutti i tipi
di dati con cui si ha a che fare. Per un documento, ad esempio, mettere in risalto
alcune particolari caratteristiche può voler dire mostrare il numero di volte in cui
un determinato termine appare all’interno del testo, come mostrato in Figura 3.2.
Allo stesso modo, è possibile scegliere qualsiasi attributo che caratterizza un utente
di un social network. È possibile scegliere le proprietà dei dati a disposizione e,
successivamente, suddividere (in diversi e appropriati cluster) le istanze di tali dati
in funzione delle proprietà prescelte.
3.2.1 K-Means
Il più semplice algoritmo di clustering è l’algoritmo K-means. Esso rappresenta il
metodo più semplice tra quelli usati nell’apprendimento automatico (machine learning). Si tratta di un algoritmo che permette di suddividere un insieme di oggetti in
K gruppi sulla base dei loro attributi. Esso prende il nome dalle proprie caratteristiche di input e output; K rappresenta l’input dell’algoritmo ed è, inoltre, il numero
3.2 Data Clustering
45
Figura 3.2. Collezione di documenti in formato tabulare; gli attributi, in questo caso,
rappresentano le parole più frequenti all’interno del testo. Le lettere da A a F indicano le
istanze dei documenti
di cluster che verranno determinati all’interno del dataset. La parola means indica
l’output dell’algoritmo; si riferisce al significato di ognuno dei K cluster individuati
dall’algoritmo.
L’algoritmo opera nel seguente modo: esso seleziona K oggetti in maniera casuale e li etichetta come cluster representative. In seguito, tutti gli altri elementi
del dataset vengono esaminati e associati a ciascun cluster representative usando un
valore di similitudine. Tale valore è dato da una funzione la quale calcola la distanza
euclidea tra due oggetti con caratteristiche ben definite (come se tali caratteristiche
fossero gli elementi di un vettore); ogni istanza viene associata al cluster representative verso il quale possiede la distanza minore. A questo punto vengono scelti dei
nuovi cluster representative, esaminando le caratteristiche degli oggetti appena aggiunti e verificando quali tra questi ultimi meglio rappresenta la propria categoria di
appartenenza. Tale procedura viene ripetuta fino a quando i cluster representative
non cambiano con l’aggiunta di nuovi dati, quindi, rappresentato la scelta migliore
all’interno del cluster.
Per mostrare un esempio [7, pag.97] del funzionamento dell’algoritmo K-means,
in Figura 3.3 appare un dataset contenente alcuni dati osservati. Essi sono relativi ad
un insieme di clienti di una compagnia; tra questi è presente l’indice di gradimento
che ciascuno di essi ha mostrato nei confronti di due particolari prodotti.
Figura 3.3. Un dataset relativo a dei clienti
46
3 I Modelli di Previsione
Inizialmente, per ogni cluster che si intende definire, viene scelto un elemento in
maniera casuale, tra quelli disponibili nel dataset; esso sarà costituito da una tupla,
ossia un insieme di attributi relativi ad una stessa istanza. In tal modo l’algoritmo
costruisce due cluster e assegna, a ciascuno di essi, il cluster representative appena
determinato.
Per ogni elemento all’interno del dataset viene calcolata, spesso attraverso una
funzione matematica, la distanza euclidea tra tale elemento e il cluster representative
designato per ogni gruppo (in fase iniziale) in maniera casuale. Per distanza euclidea
si intende la distanza geometrica tra due vettori, definita come segue:
qX
d(x1 , x2 ) =
(x1 , x2 )2
(3.4)
In questa formula x1 , x2 rappresentano i valori degli attributi di un oggetto. Se,
ad esempio, in fase iniziale, gli elementi scelti casualmente sono i clienti con ID
numero 3 e 4 (i quali rappresentano, rispettivamente, il primo ed il secondo cluster)
e, successivamente, viene preso in esame l’oggetto con ID cliente pari a 2, la distanza
tra tale elemento e il primo cluster sarà:
p
(3.5)
d(x1 , x2 ) = (3 − 2)2 + (4 − 2)2 = 2, 23
mentre la distanza tra l’elemento con ID cliente pari a 2 e il secondo cluster sarà:
p
d(x1 , x2 ) = (3 − 10)2 +)(4 − 14)2 = 12, 20
(3.6)
Questo elemento verrà, quindi, collocato nel secondo cluster, essendo la distanza
tra esso ed il cluster representative con ID pari a 4 la minore tra le due. È bene
precisare che il calcolo della distanza euclidea non è l’unico strumento utile alla
scoperta della somiglianza tra due elementi; ne esistono molti altri, impiegati a
seconda delle evenienze (nel caso di stringhe, ad esempio, è possibile utilizzare la
distanza di Hamming).
A questo punto, una volta ripetuto il suddetto confronto per ogni elemento del
dataset, e quindi aver distribuito ogni istanza al cluster che meglio la rappresenta,
è necessario ricalcolare i K cluster representative secondo le specifiche fornite. Al
contrario della fase iniziale, in tal caso, quest’ultimi verranno scelti separatamente
all’interno di ogni cluster anzichè all’interno dell’intero dataset. Il risultato sarà
quello illustrato nella Figura 3.4.
Figura 3.4. Risultato dell’algoritmo K-means
In tale risultato le varie istanze sono state distribuite ai rispettivi cluster ed i
nuovi representative sono stati scelti.
L’algoritmo K-means è un algoritmo di tipo iterativo; ciò significa che il processo
va ripetuto ogni volta che un nuovo elemento viene aggiunto al dataset. Per tale ragione, nell’esempio appena illustrato, con l’aggiunta di una nuova istanza al dataset,
3.2 Data Clustering
47
ed una volta associata quest’ultima al gruppo più consono, è necessario aggiornare
la scelta del representative. In questo modo la suddivisione dei vari oggetti risulta
sempre più precisa.
Gli algoritmi basati sul partizionamento sono stati a lungo gli algoritmi più
diffusi prima dell’avvento del data mining. Essi consentono il vantaggio della scelta
arbitraria dei K cluster. Tuttavia tale tipo di algoritmi risulta inadatto alla gestione
di dataset di grandi dimensioni. Pur contenendo il numero di iterazioni (indicato
con t), l’algoritmo K-means presenta una complessità temporale pari a O(nKt)
(dove n è il numero di elementi e K il numero indicato di cluster desiderati). Per
tale motivo non è consigliabile utilizzare un simile approccio in presenza di grossi
database, in cui l’elevato valore di n renderebbe troppo costoso (dal punto di vista
computazionale) l’esecuzione del metodo.
3.2.2 K-nearest neighbors
L’algoritmo K-Nearest Neighbors (K-NN) confronta ognuno gli n elementi di un
dataset con tutti gli altri. Viene creata una matrice delle distanze n × n nella quale,
per ogni coppia di elementi, viene riportata la corrispettiva distanza. Questo valore
è usato come soglia per decidere se un elemento sia più o meno somigliante ad un
altro. In tal modo, una volta esaminati tutti gli elementi, è possibile associare quelli
simili tra di loro a uno tra i K gruppi, cioè cluster, disponibili.
Si tratta di un algoritmo molto simile all’algoritmo K-means. Anch’esso prevede
il calcolo della distanza tramite strumenti come la definizione di distanza euclidea.
La fase iniziale della procedura prevede la definizione dei K gruppi usando le caratteristiche dei dati a disposizione. Tale fase viene spesso realizzata mediante un
training dataset; in seguito, con l’aggiunta di nuovi elementi, viene creata la matrice delle distanze, la quale deve essere aggiornata ogni volta che un nuovo elemento
entra a far parte del dataset.
3.2.3 DBSCAN clustering
Un cluster può essere visto come un’area, in uno spazio n-dimensionale, caratterizzata da una maggiore densità di oggetti [13, pag.234]. Tali oggetti (ossia i dati)
saranno visti, secondo quest’ottica, come dei vettori a n dimensioni. Secondo tale
descrizione, la densità può essere definita come il numero di elementi in rapporto ad
una porzione unitaria dello spazio a n dimensioni. La quantità n viene definita dal
numero di attributi che caratterizzano ogni elemento. Nella Figura 3.5, ad esempio, viene rappresentata la distribuzione degli elementi di un dataset in funzione di
due attributi. Alcune zone (High Density Region) sono maggiormente “popolate”
dai vari oggetti. Altre zone (Low Density Region) contengono un minor numero di
elementi. Ogniqualvolta una zona ad alta densità si trova vicina ad altre zone a
densità minore, tale zona può essere identificata come un cluster.
È anche possibile evidenziare le aree definite come cluster come un sottoinsieme
dell’area alla quale appartengono i diversi punti che rappresentano le varie osservazioni. Partendo da un elemento A, il quale possiede attributi che si avvicinano
molto a quelle caratteristiche del cluster che si vuole mettere in evidenza, è possibile
tracciare un intorno di raggio ε, come mostrato in Figura 3.6. Qualsiasi elemento
48
3 I Modelli di Previsione
Figura 3.5. Densità del dataset
(la cui posizione, anche in questo caso, è funzione di due attributi) ricada all’interno dell’intorno del punto A fa parte del cluster. Questo tipo di misura è chiamata
“center-based density”.
Figura 3.6. Sottoinsieme di elementi che identificano un cluster
Alcuni algoritmi si basano sul calcolo della densità per individuare i cluster
dentro i quali ricadono i vari elementi. Al contrario dei metodi basati sulla ricerca
del cluster representative, tali algoritmi non necessitano della conoscenza, a priori,
del parametro K usato come numero massimo di cluster da definire. Essi esplorano
i dati e ricercano, in maniera automatica, il numero massimo di cluster di elementi
dello stesso genere all’interno del dataset.
Uno dei più comuni algoritmi di tale genere è DBSCAN (Density-Based Spatial
Clustering of Applications with Noise). Quest’ultimo crea dei cluster identificando le
3.2 Data Clustering
49
zone con alta e con bassa densità all’interno dello spazio a n dimensioni che contiene
tutti i punti. Non è possibile fornire a priori il numero di gruppi da identificare;
l’algoritmo troverà in modo automatico tutte le zone in cui vi è un’alta presenza di
elementi con caratteristiche simili.
DBSCAN accetta in ingresso due parametri: il primo è il raggio ε che ogni
intorno (il quale identifica un cluster) deve avere. Il secondo è un valore che indica
il numero minimo di elementi che ogni cluster deve possedere per essere identificato
come tale. L’algoritmo esamina un punto scelto in maniera casuale ed osserva tutti
gli elementi contenuti nel proprio intorno. Per fare ciò deve individuare quali punti
ricadono, o meno, nella circonferenza delimitata dal raggio di ampiezza ε calcolando
la distanza tra tali punti ed il centro della circonferenza. Analogamente al caso degli
algoritmi di partizionamento, tale compito viene svolto sfruttando le funzioni per il
calcolo delle distanze come, ad esempio, la distanza euclidea. Dopo aver esaminato
le vicinanze del punto scelto, se in tale intorno ricade un numero sufficiente di punti
da superare la soglia data dal relativo valore fornito in input, viene creato un nuovo
cluster.
Se ciò non dovesse avvenire, cioè nel caso in cui nell’intorno di raggio ε del
punto scelto non dovesse ricadere un numero sufficiente di elementi, il punto viene
etichettato come “rumore”. Un rumore è definito come un punto, o un insieme
di punti, sparsi nell’area con pochi altri oggetti intorno ad essi. Ciò significa che
esistono pochi altri elementi che possiedono attributi di valore paragonabile ai punti
di rumore; essi hanno, quindi, poco in comune con la maggior parte degli elementi del
dataset e non entrano a far parte di nessuna categoria particolare. È bene osservare,
tuttavia, che un punto etichettato come rumore potrebbe essere successivamente
incluso nell’intorno di un altro punto, e quindi entrare a fare parte di un cluster.
Dopo aver esaminato il primo punto, viene scelto un secondo elemento del dataset.
Si procede come visto finora fino a quando tutti i punti vengono etichettati come
facenti parte di un cluster o come rumore.
L’algoritmo si avvale del concetto di density-reachability per la definizione dei
vari cluster. Secondo tale definizione, un punto q si dice direttamente raggiungibile
da un punto p (directly density-reachable) se tra i due non vi è una distanza di valore
superiore a ε. Se esiste una sequenza di punti p1 , p2 , ..., pn , direttamente raggiungibili
tra di loro, dei quali p1 = p e pn = q, allora si dice che q è density-reachable da p
(Figura 3.7).
Figura 3.7. Definizione di density-reachability
Se, inoltre, esiste un punto o tale che p e q sono entrambi density-reachable da
o, allora p e q si dicono “density-connected ”. Tutti gli elementi inclusi all’interno
50
3 I Modelli di Previsione
degli intorni di raggio ε dei punti p1 , p2 , ..., pn , se sono density-connected tra di
loro, appartengono allo stesso cluster. Molti punti intorno a tale cluster resteranno
non associati ad esso, e quindi ogni cluster sarà circondato da un certo numero di
elementi definiti come rumore.
Il motivo per cui si utilizza un algoritmo di clustering basato sulla densità consiste, spesso, nel fatto che l’utilizzatore non ha la necessità o la possibilità di indicare
a priori il numero K di gruppi da individuare. La complessità temporale dell’algoritmo è pari a O(n2 ) in quanto, per ogni elemento, è necessario esaminare tutti gli
altri allo scopo di trovare quelli a distanza ε da esso. Tale operazione, nel caso in cui
fosse possibile eseguire una ricerca indicizzata dei vari oggetti del dataset, può essere
svolta in un tempo logaritmico; in tal caso il tempo complessivo dell’operazione di
ricerca, svolta su tutti gli n elementi, diventa pari a O(n × lg n). Nonostante quest’ultimo costo temporale appaia essere molto conveniente, l’algoritmo DBSCAN
presenta alcuni limiti. Esso non può essere impiegato per analizzare insiemi di dati
con grandi differenze nelle varie densità. Ciò è causato dal fatto che non è possibile
scegliere con accuratezza un raggio ε per ogni cluster esistente; quello che potrebbe
essere un raggio ottimale, per includere tutti gli elementi di un determinato cluster,
potrebbe essere troppo piccolo per un altro, rendendo la densità di quest’ultimo
insufficiente per essere riconosciuto come gruppo.
Per ogni algoritmo di clustering la scelta dei parametri in ingresso, come il raggio
ε in DBSCAN, è molto importante per la riuscita dell’algoritmo stesso. Esistono,
a tale scopo, particolari regole atte a stimare i vari parametri in base al dataset
a disposizione. Una scelta ottimale dei parametri in ingresso determina risultati
dell’algoritmo più verosimili, dunque modelli più affidabili.
3.3 Data Classification
Il data clustering, come visto finora, viene utilizzato per descrivere i dati attraverso
l’estrazione di gruppi o categorie a cui è possibile ricondurre ogni osservazione, sfruttando le similitudini tra queste ultime. Un simile processo può essere indispensabile
per diverse applicazioni, mentre per altre può essere utile a definire le categorie che
verranno usate da altri algoritmi per la giusta definizione dei dati, e di conseguenza,
per strutturare modelli di previsione.
Nell’ambito del data mining, viene definito data classification l’insieme dei processi che hanno il compito di etichettare gli oggetti (cioè le istanze dei dati) come
membri di una ben determinata categoria. Lo scopo di questa categorizzazione è
quello di creare un modello che permetta di prevedere in quale gruppo collocare
un’entità composta da un insieme di attributi e, quindi, un’istanza. Tale definizione
generale copre un gran numero di campi di applicazione; è possibile, individuando
gruppi costituiti da elementi che avranno determinati comportamenti, prevedere,
tramite tali modelli, le decisioni di una persona o lo svolgersi di particolari eventi.
In ambito finanziario, ad esempio, specifici modelli permettono di etichettare un
cliente come “pagante” o come “fraudolento” (risk modeling); tali modelli vengono
realizzati attraverso l’uso di algoritmi di classificazione. In sostanza, in tale ambito,
un classificatore è un insieme di procedimenti in grado di analizzare le informazioni
in modo da determinare, in maniera automatica, i possibili rischi ai quali si andrà incontro concedendo un prestito ad un cliente con cui l’organizzazione non ha
3.3 Data Classification
51
mai avuto rapporti precedentemente. Un’ulteriore possibile applicazione, in ambito
commerciale, prevede l’uso dei classificatori per individuare le aree geografiche all’interno delle quali un particolare prodotto potrà riscuotere maggiore interesse. Le
potenzialità di tali strumenti sono quasi illimitate; avendo a che fare con molteplici applicazioni, appare naturale l’esistenza di molti algoritmi per lo studio di tali
fenomeni.
Si può affermare che i modelli creati tramite le tecniche di data classification
possono essere usati per prevedere le caratteristiche di nuovi elementi, sulla base
dei gruppi di appartenenza ottenuti tramite le tecniche di data clustering. I modelli
di previsione che vengono realizzati attraverso tale tipologia di algoritmi vengono
definiti classificatori. Le tecniche con le quali tali modelli vengono realizzati sono
costituiti da sofisticati algoritmi di machine learning i quali “apprendono” dall’esperienza (ossia attraverso un set di dati precedentemente ottenuti). Tramite tali dati
storici è, infatti, possibile identificare schemi nascosti che permettono di associare i
dati ad un ben determinato ambito.
Il processo di classificazione si divide principalmente in due fasi, ovver quella di
apprendimento e quella di previsione. La prima comporta la creazione del modello di
previsione fornendo un determinato training dataset al classificatore. L’obiettivo è
quello di “istruire” la macchina riguardo le regole e gli schemi nascosti all’interno dei
dati che determineranno il funzionamento del modello. La seconda prevede l’uso dei
dati di test al fine di sfruttare il modello, precedentemente ottenuto, per compiere
previsioni, e valutare i risultati ottenuti per studiarne l’efficenza.
Tale metodologia è molto comune nel processo di analisi predittiva. I dati possono essere raccolti durante transazioni su siti di e-commerce, tramite appositi form
su siti web o, in alternativa, attraverso fonti provenienti da terze parti. Esistono,
infatti, organizzazioni il cui unico scopo è quello di analizzare le comunità virtuali
ed ottenere informazioni quali gli indici di gradimento nonchè informazioni tecniche
e statistiche varie relative ad un particolare prodotto. Usando tali informazioni è
possibile costruire un training dataset apposito per la realizzazione dei vari modelli.
Esistono varie tecniche per la realizzazione di un modello di previsione. Esse
vengono scelte in funzione della problematica da affrontare e prevedono vantaggi e
svantaggi. In seguito verranno esaminate alcune delle tecniche più comuni.
3.3.1 Reti Neurali
Una rete neurale è un modello il cui funzionamento viene ispirato dall’organizzazione dei neuroni nel cervello umano. Il modello prende tale nome poichè è composto
da elementi che rappresentano dei “neuroni artificiali”, i quali imitano matematicamente le proprietà delle cellule cerebrali umane. La definizione di tale modello
risale al 1940; tuttavia, in passato, tale modello non ebbe particolare successo. La
causa di ciò fu da imputare alle limitate capacità computazionali dell’epoca; con
lo sviluppo delle risorse di programmazione distribuita si è potuto assistere, negli
ultimi anni, ad un rinnovamento di interesse nei confronti di esso. Essendo ideato
e costruito per imitare le capacità umane, tale modello rappresenta il principale
elemento di studio di una branchia della disciplina del machine learning chiamata
apprendimento approfondito.
Le reti neurali vengono largamente utilizzate per la classificazione dei dati. Attraverso il loro utilizzo è possibile analizzare dati passati e presenti per stimare il
52
3 I Modelli di Previsione
valore futuro di questi ultimi; inoltre, esse vengono usate per trovare complesse correlazioni nascoste all’interno dei dati. Tutto ciò viene svolto con procedure analoghe
a quelle utilizzate dalle cellule del cervello, seppur in maniera molto più semplice.
Il principale vantaggio dell’utilizzo di modelli basati su reti neurali consiste nel
fatto che essi sono capaci di gestire istanze particolarmente ricche di attributi. Inoltre sono intrinsecamente vantaggiosi quando è necessario collocare i dati di output
in più di due gruppi di classificazione.
Per spiegare il funzionamento delle reti neurali è utile, per prima cosa, mostrare
l’analogia con le cellule cerebrali umane. I neuroni possono essere pensati come una
rete di unità computazionali i quali ricevono molti segnali in input parallelamente.
Attraverso i dendriti (dendrites) ciascuno di essi riceve dei segnali in input e, a
sua volta, trasmette un segnale chimico al soma, cioè il centro del neurone. Tale
conversione, da segnale esterno a segnale locale, può essere rappresentata matematicamente attraverso un valore detto peso il quale moltiplica il segnale in input.
Quest’ultimo può essere positivo, nel caso di segnali chimici attivatori, o negativo,
nel caso di inibitori. Il centro della cellula, o soma (cell soma), raccoglie tutti questi segnali (proporzionali a quelli forniti in ingresso) mediante un processo che può
essere assimilato a una somma. Il risultato determina un potenziale che, una volta
raggiunta una certa soglia (bias), permette il trasferimento dell’informazione attraverso l’assone (axon). Nella Figura 3.8 vengono mostrate le componenti appena
citate.
Figura 3.8. Struttura di un neurone
Analogamente, una rete neurale è un’interconnessione di nodi chiamati neuroni
artificiali. Come nel modello biologico, tali neuroni ricevono in ingresso un valore
di input, moltiplicato per un peso, e vengono sommati tra di loro. Tutto ciò viene
illustrato, dal punto di vista matematico, nella Figura 3.9.
Per rappresentare la soglia oltre la quale il segnale viene inviato, è possibile
utilizzare una funzione detta funzione di attivazione. Essa può essere, ad esempio,
un gradino unitario g(x) cosı̀ definito:
3.3 Data Classification
53
Figura 3.9. Struttura di un neurone artificiale
g(x) =
−1, x < 0
1, x ≥ 0
(3.7)
L’intero processo può essere riassunto, matematicamente, mediante l’equazione:
y = g(w0 +
p
X
wi xi )
(3.8)
i=1
La funzione di attivazione appena mostrata rappresenta una delle soluzioni più
semplici; tuttavia, il modello può essere implementato attraverso l’utilizzo di più
funzioni di soglia. La caratteristica comune di tali funzioni è quella di fornire due
possibili valori di output in base al superamento, o meno, di un determinato valore, detto valore di soglia. Una di esse, la funzione sigmoidea, è usata per offrire
una variante della tradizionale soglia a gradino della rete neurale. Come mostrato
nella Figura 3.10, infatti, tale funzione (dalla forma a “S”) viene utilizzata per diminuire la pendenza della funzione gradino e, quindi, per rendere meno drastico il
cambiamento dell’output al superamento della soglia.
Implementati in tale maniera, i neuroni artificiali possono essere legati per costruire una complessa rete di elaborazione. Attraverso il meccanismo delle funzioni
di soglia, una rete neurale può essere usata per individuare schemi complessi all’interno del dataset in input. Essa è organizzata come internconnessione di neuroni
artificiali, distribuiti su più livelli. Essa, inoltre, è un sistema adattivo, cioè che
cambia la sua struttura ed i suoi parametri, in base alle informazioni che scorrono
attraverso la rete in fase di apprendimento.
La funzionalità più interessante dei sistemi come le reti neurali è la loro possibilità di apprendere. Ciò significa modificare il modello, durante una fase di costruzione dello stesso preventiva all’utilizzo vero e proprio, impiegando un set di osservazioni al fine di trovare le funzioni di soglia e i pesi tali da risolvere il problema in
maniera ottimale, quindi con meno rumore possibile in uscita.
Esistono tre possibili strategie per far si che una rete neurale venga opportunamente istruita:
• Paradigma di Apprendimento Supervisionato (supervised learning). Questo metodo viene utilizzato quando si ha a disposizione un training dataset in cui
ogni dato è etichettato, e contiene, quindi, una label corrispondente ad uno dei
54
3 I Modelli di Previsione
Figura 3.10. Funzione sigmoidea
•
•
possibili valori di output. In presenza di tali esempi di ingressi, con le relative uscite, la rete viene addestrata mediante un opportuno algoritmo detto “di
backpropagation”. Quest’ultimo usa tali dati allo scopo di modificare i pesi ed
altri parametri della rete stessa in modo da minimizzare l’errore di previsione
relativo al training set. Se l’addestramento ha successo, la rete impara a riconoscere la relazione incognita che lega le variabili d’ingresso a quelle d’uscita ed è,
quindi, in grado di fare previsioni anche laddove l’uscita non è nota a priori. Ciò
consente di risolvere problemi classificazione.
Paradigma di Apprendimento non Supervisionato (unsupervised learning). Questo metodo è basato su algoritmi d’addestramento che modificano i pesi della
rete facendo esclusivamente riferimento ad un insieme di dati che include le sole
variabili d’ingresso. Tali algoritmi tentano di raggruppare i dati d’ingresso e di
individuare pertanto degli opportuni cluster rappresentativi dei dati stessi. In
presenza di nuove istanze, l’algoritmo cerca di ottenere dei risultati simili a quelli
precedentemente ottenuti.
Paradigma di Apprendimento per Rinforzo (reinforcement learning). Si tratta
di un opportuno algoritmo si prefigge di individuare un determinato comportamento, a partire da un processo d’osservazione dell’ambiente esterno. Ogni
azione ha un impatto sull’ambiente, il quale produce una retroazione che guida
l’algoritmo stesso nel processo d’apprendimento. Tale classe di problemi viene
affrontata attraverso un componente detto agente, dotato di capacità di percezione, che esplora un ambiente nel quale intraprende una serie di azioni. L’apprendimento con rinforzo differisce da quello supervisionato poichè non vengono
mai presentate delle coppie input-output di esempi noti.
Un classificatore, quale la rete neurale, si dice lineare se tutte le osservazioni,
all’interno dello spazio a n-dimensioni che le contiene, possono essere separate in due
3.3 Data Classification
55
o più gruppi distinti attraverso l’uso di un vettore. Quest’ultimo deve essere dato
da una combinazione lineare degli stessi parametri che individuano i vari oggetti.
Nel caso di spazio n-dimensionale con n > 2 tale vettore è definito iperpiano. Un
classificatore, inoltre, si dice non lineare se tali osservazioni possono essere separate
da una linea curva, come mostrato in Figura 3.11.
Figura 3.11. Classificatore lineare (a sinistra) e non lineare (a destra)
→
Il vettore −
x , che definisce le due aree del classificatore lineare, viene definito vettore delle caratteristiche. Ogni osservazione, corrispondente ad un punto del piano
n-dimensionale, può essere individuata come combinazione lineare del vettore delle
caratteristiche, le cui componenti vengono moltiplicate per opportuni pesi βn .
xo =
N
X
βn xn
(3.9)
n=1
Tramite la fase di apprendimento, fornendo tali coefficienti βn al modello, quest’ultimo è capace (date le sue caratteristiche) di effettuare il prodotto scalare tra il
vettore di osservazione ed il vettore dei pesi, fornendo un vettore osservazione. Esso
può, attraverso la funzione di soglia, essere ulteriormente associato a un punteggio di uscita (il quale può essere un ulteriore parametro dell’osservazione stessa)
che ne determina l’appartenenza a un particolare gruppo e rappresenta, quindi, il
parametro di output.
In questo modo è possibile realizzare un classificatore lineare attraverso una
rete neurale. Per ottenere un classificatore non lineare è necessario implementare
una rete lineare a più livelli, ciascuno dei quali definisce un vettore. Questi ultimi
formeranno una linea spezzata la quale definirà il percorso che separa le due aree.
Le reti neurali sono caratterizzate da un’elevata precisione, perfino nel caso in
cui i dati in input presentano molto rumore. Ciò rappresenta un vantaggio molto
interessante, soprattutto quando in presenza di valori erronei non sarebbe possibile
utilizzare altrimenti determinati dati. Il prezzo da pagare, in cambio di tale affidabilità, consiste nel dover ripetere spesso la fase di apprendimento. La precisione
della previsione, infatti, è costante solo in un breve periodo di tempo in seguito
all’utilizzo del training dataset.
56
3 I Modelli di Previsione
3.3.2 Support Vector Machine
Le Support Vector Machine (SVM), o macchine a vettori di supporto, costituiscono
un insieme di metodi di apprendimento supervisionato. Sviluppati negli anni ’90 da
Vladimir Vapnik ed il suo team presso i laboratori Bell AT&T, rappresentano una
delle tecniche più utilizzate per risolvere problemi di classificazione. In molti casi,
le SVM sono dei modelli di classificazione binari, ossia in cui i dati in questione
contengono due possibili valori di restituzione.
Le reti neurali ad un solo strato hanno un algoritmo di apprendimento efficiente,
ma sono utili soltanto nel caso di dati linearmente separabili. Viceversa, le reti
neurali multistrato possono rappresentare funzioni non lineari, ma sono difficili da
addestrare a causa dell’alto numero di dimensioni dello spazio dei pesi. La tecnica
di addestramento SVM risolve entrambi i problemi: presenta un algoritmo efficiente
ed è in grado di rappresentare funzioni non lineari complesse.
Per illustrare il funzionamento dell’algoritmo SVM è bene introdurre prima il
concetto di margine. I margini sono le distanze perpendicolari zn che intercorrono
tra un iperpiano e ogni elemento appartenente all’n-esimo gruppo. Come mostrato
in Figura 3.12, il margine migliore è quello maggiore tra tali distanze.
Figura 3.12. Due diversi margini
Scegliendo l’iperpiano in modo da ottenere il margine più grande, infatti, è
possibile definire al meglio le aree corrispondenti ad ogni gruppo, anche in presenza
di valori marginali. Nell’esempio illustrato, l’iperpiano migliore è costituito dalla
linea verde.
→
L’obiettivo dell’algoritmo, quindi, è quello di individuare il vettore −
x migliore che permetta di definire la linea di separazione tra i cluster. Si vuole ottenere l’equazione dell’iperpiano come funzione lineare delle stesse caratteristiche di
ingresso:
3.3 Data Classification
57
→
→
→
G(−
x) =−
ω−
x + ω0
(3.10)
−
→
dove x = (x1 , x2 , ..., xn ) è un generico vettore dello spazio n-dimensionale degli
→
attributi e −
ω è il vettore dei pesi (l’incognita del problema). Come ulteriore ipotesi,
→
si vuole imporre che il valore della funzione G(−
x ) sia ≥ 1 se il punto appartiene al
primo dei due cluster, e ≤ −1 se esso appartiene al secondo.
→
Il vettore G(−
x ) è mostrato in Figura 3.13.
Figura 3.13. Vettore delle caratteristiche in uno spazio a 2 dimensioni
Per entrare nel dettaglio del meccanismo dell’algoritmo SVM si considerino due
punti dello spazio da classificare: x1 = (1, 1) e x2 = (2, 3). Uno dei possibili metodi
per stabilire la soglia tale da garantire il margine migliore tra i due è calcolare la
distanza media misurando la differenza tra i coefficienti dei due vettori. Il vettore
dei pesi che definirà l’iperpiano avrà coefficienti:
−
→
ω = (2, 3) − (1, 1) = (α, 2α)
(3.11)
Si osserva, quindi, che la seconda componente dovrà essere doppia rispetto alla
prima. In questo modo, le due distanze perpendicolari, tali da congiungere i punti
x1 e x2 con l’iperpiano, saranno esattamente uguali. Tale situazione è mostrata in
Figura 3.14.
→
Sostituendo a G(−
x ) il punto x1 appartenente al primo cluster si avrà:
→
G(−
x ) = α + 2α + ω0 = 1
(3.12)
sostituendo il punto x2 appartenente al secondo cluster si avrà:
→
G(−
x ) = 2α + 6α + ω0 = −1
Considerando w0 come incognita dell’Equazione 3.13, si ha che:
(3.13)
58
3 I Modelli di Previsione
Figura 3.14. Calcolo dell’iperpiano che fornisce il margine migliore
ω0 = 1 − 8α
(3.14)
Sostituito questo valore nell’Equazione 3.12, si ha:
3α + 1 − 8α = −1
5α = 2
2
α=
5
(3.15)
−
Tramite α è possibile, finalmente, ottenere il vettore dei pesi →
ω , il quale sarà:
2 4
−
→
ω =( , )
(3.16)
5 5
Tale vettore è detto support vector. Tramite il prodotto scalare del support vector
con uno degli elementi del dataset è possibile ottenere un valore che indica l’appartenenza di tale elemento al primo cluster (se il valore ottenuto risulta essere ≥ 1) o
al secondo (se il valore ottenuto è ≤ −1). Tale metodologia costituisce l’algoritmo
Support Vector Machine.
Il metodo appena illustrato si presta a essere usato come tecnica di classificazione
in quei casi in cui le possibili classi di uscita sono due (classificazione binaria). Anche
in presenza di oggetti con molti attributi, tale metodo resta un’efficace strategia che
restituisce risultati affidabili con il minor errore possibile. Come per le reti neurali,
le support vector machine devono essere opportunamente impostate in modo da
trovare l’iperpiano che presenti la distanza maggiore da ogni elemento dell’area.
Tale separatore viene individuato attraverso l’analisi del training dataset.
Una possibile applicazione del SVM è la classificazione delle immagini (image
recognition). Un’immagine delle dimensioni di 100 × 100 pixel, infatti, può essere
3.3 Data Classification
59
considerata come un elemento di un vettore appartenente al campo ℜ10000 , dove
ogni attributo rappresenta il valore di ogni pixel. Supponendo di avere due possibili
tipi di immagini in output, questo scenario rappresenta un campo di applicazione
ideale per le support vector machine. Dopo aver definito l’iperpiano nello spazio a
10000 dimensioni, sarà possibile realizzare un modello che consenta di categorizzare un’immagine come appartenente a una delle due categorie prima ancora che
l’immagine stessa venga osservata.
3.3.3 Alberi di decisione
I metodi di classificazione basati sugli alberi rappresentano il metodo più intuitivo
per la creazione di un modello predittivo. In particolare, un albero di decisione è un
modello con una struttura lineare il quale permette di fare previsioni sul possibile
valore di una variabile di output. La scelta del valore di uscita è basata su una serie
di regole distribuite su una struttura ad albero.
Gli alberi di decisione sono costituiti da una serie di biforcazioni chiamate nodi.
Per prendere una decisione utilizzando un albero è necessario partire dal nodo radice
(root node), cioè il punto di partenza dell’albero. A partire da quest’ultimo, per ogni
nodo interno (inner node) o esterno (outer node), i valori forniti in input vengono
sottoposti a varie decisioni. In base all’esito del confronto si procede a sinistra o
a destra del nodo, fino a raggiungere i nodi foglia (leaf nodes) che costituiscono i
valori di decisione finali. Un esempio di tale processo è illustrato in Figura 3.15.
Figura 3.15. Albero di decisione
Per ogni nodo viene implementato un costrutto if-else. Il risultato di ogni decisione viene fornito ai nodi successivi, e il processo prosegue fino a quando i dati
arrivano ai nodi foglia. Questi ultimi forniscono il risultato vero e proprio.
Per illustrare il funzionamento di un albero di decisione è utile mostrare un esempio pratico [7, pag.123]. Si supponga di voler prevedere il successo di tre possibili
investimenti finanziari: un ristorante, un’azienda di trasporti, un negozio di libri. In
casi come quest’ultimo emerge l’ausilio dei metodi statistici al fine di condurre un
processo di previsione. Da un’intervista con un esperto del settore, il quale si avvale
proprio di tali metodi, emerge che la possibilità di successo del primo investimento
60
3 I Modelli di Previsione
è stimata intorno al 52%, la possibilità di successo del secondo investimento è pari
al 60%; infine, la possibilità di successo del terzo investimento è pari al 50%.
Per ogni eventualità, inoltre, l’esperto del settore calcola le possibili perdite ed
i guadagni. Tale situazione può essere descritta attraverso l’uso di un albero di
decisione, come mostrato in Figura 3.16.
Figura 3.16. Albero di decisione per la previsione dell’esito di un investimento
In questo modo nei nodi foglia apparirà ogni possibile esito. Un albero di decisione può essere utilizzato per avere un quadro completo su tutti i possibili sviluppi
di un evento e, quindi, scegliere l’alternativa più vantaggiosa, minimizzando i rischi.
A ogni foglia può essere associato un valore detto valore atteso; in generale, il valore
atteso di una variabile casuale discreta (che assuma, cioè, solo un numero finito o
una infinità numerabile di valori) è dato dalla somma dei possibili valori di tale
variabile, ciascuno moltiplicato per la probabilità di essere assunto (ossia di verificarsi). Nell’esempio della scelta del business più remunerativo, esso è dato dalla
somma dei possibili guadagni, o perdite, ciascuno moltiplicato per la probabilità
che tale evento si realizzi. Si avranno, cioè, i seguenti valori:
valore atteso dell’investimento nel ristorante:
52% · 40, 000$ + 48% · (−21, 000$) = 10, 720$
(3.17)
valore atteso dell’investimento nell’azienda di trasporti:
60% · 20, 000$ + 40% · (−7, 000$) = 9, 200$
(3.18)
valore atteso dell’investimento nel negozio di libri:
50% · 6, 000$ + 50% · (−1, 000$) = 2, 500$
(3.19)
Si può concludere, quindi, che l’investimento che garantirà i risultati migliori sarà
quello del ristorante. Tale conclusione rappresenta una previsione sulla strategia che
condurrà al profitto maggiore. Gli alberi di decisione rappresentano uno strumento
indispensabile per affrontare quella categoria di problemi in cui è necessario scegliere
l’alternativa che permette di minimizzare i rischi (problemi di decision-making).
3.4 Metodi Probabilistici
61
Essi, inoltre, possono essere usati come strumento di classificazione. In tale senso,
ogni foglia può rappresentare una diversa classe e in ogni nodo interno vengono prese
delle decisioni sugli attributi forniti in input, le quali influenzano la classificazione
finale dell’istanza.
Come per tutti gli altri modelli visti finora, dopo essere stato opportunamente
creato, l’albero di decisione permette di compiere delle scelte su istanze di dati mai
viste prima. Come altri modelli, inoltre, l’albero deve essere istruito riguardo ai
criteri che determinano le varie scelte su ogni nodo. Esistono diversi algoritmi per
la costruzione di un albero di decisione. In particolare, per ogni nodo (incluso il
nodo radice), tale algoritmo deve determinare quali sono le caratteristiche di input
e come esse forniranno il valore di uscita; successivamente, sempre per ogni nodo, è
necessario decidere se dovrà rappresentare una foglia o, in alternativa, dovrà essere
uno dei nodi interni. Per ultimo, sarà necessario stabilire la profondità dell’albero
e, una volta giunti ai nodi foglia, cosa dovranno rappresentare i valori attesi.
3.4 Metodi Probabilistici
Il calcolo delle probabilità considera fenomeni osservabili esclusivamente dal punto
di vista della possibilità o meno del loro verificarsi. La probabilità di un evento X
è un valore numerico. Tale valore può essere calcolato dividendo il numero di volte
in cui avviene l’evento X per il numero massimo di possibili eventi che possono
verificarsi nelle stesse circostanze. Gli algoritmi che verranno, adesso, analizzati si
basano sul calcolo delle probabilità e su un teorema molto importante ai fini di tale
disciplina, ovvero il teorema di Bayes.
Si considerino due possibili eventi A e B. Si supponga che, ad esempio [10,
250], il primo consista nel fatto che un paziente sia affetto da appendicite, mentre,
il secondo indichi che lo stesso paziente presenti un alto livello di globuli bianchi
nel sangue. Il teorema di Bayes si propone di calcolare la probabilità P (A) del
verificarsi dell’evento A in seguito al verificarsi dell’evento B (con probabilità P (B)).
Si dimostra che, data la probabilità P (B)) del verificarsi di B) e la probabilità
P (A ∩ B) del verificarsi di entrambi gli eventi, il valore che indica la probabilità
dell’evento A) (detto evento condizionato) è data da:
P (A ∩ B)
(3.20)
P (B)
Il teorema permette di stabilire la probabilità del verificarsi di un evento non direttamente osservabile (quale, ad esempio, la presenza di un’appendicite) attraverso
il valore della probabilità di un evento osservabile (quale l’innalzamento dei globuli
bianchi). In altri termini, tale teorema si presta perfettamente alla costruzione di un
modello di previsione, in quanto permette di stimare la causa osservando l’effetto.
Data la conoscenza del teorema di Bayes è possibile esaminare alcuni dei più
comuni algoritmi di previsione i quali ne sfruttano le potenzialità.
P (A|B) =
3.4.1 Naive Bayes Classification
Tecnica tipica delle pratiche di machine learning, esso fa parte delle tecniche probabilistiche di classificazione. Come altri modelli già visti, impiega dati che hanno la
62
3 I Modelli di Previsione
forma di vettori di caratteristiche. Esistono diversi tipi di algoritmi per realizzare
un simile modello, ma tutti presentano particolari caratteristiche in comune.
Le componenti dei vettori delle varie osservazioni (cioè i dati impiegati per affrontare il problema), usati da tali algoritmi, sono variabili aleatorie. Tali variabili
possono assumere diversi valori con una ben determinata probabilità. Caratteristica comune ai diversi algoritmi che implementano il modello Naive Bayes è che tali
variabili casuali sono tutte indipendenti tra di loro. Due o più variabili, le quali possono assumere una serie di possibili valori in dipendenza da un fenomeno casuale
osservato, si dicono indipendenti tra di loro se nessuno di tali eventi influenza lo
svolgersi dell’altro.
Il modello Naive Bayes viene usato in quei contesti in cui è possibile osservare
una serie di fenomeni indipendenti tra di loro e, quindi, di stimare la probabilità
di ognuno di essi. Per mostrarne direttamente le capacità è utile fare alcuni esempi
dei possibili elementi di un vettore osservazione, relativamente ai dati raccolti su
un gruppo di clienti i quali hanno acquistato un determinato prodotto X. Si vuole
usare tali dati per prevedere il livello di successo di tale prodotto nel prossimo futuro e, di conseguenza, adattare le proprie strategie di marketing. Le componenti
C, X1 , X2 , ..., Xn del vettore osservazione relativo a un cliente C possono rappresentare dei fenomeni direttamente osservabili. Verrà indicato, ad esempio, con X1
il sentimento del cliente nei confronti di un prodotto (positivo o negativo), con X2
il fatto che egli abbia acquistato, o meno, prodotti simili, e con X3 la valutazione
del suo merito di credito (affidabile o insolvente).
Ognuna di tali variabili assume, come appena mostrato, un valore discreto
del quale può essere calcolata la probabilità. Le tre variabili sono, rispettivamente, P (X1 = valutazionepositiva), P (X2 = nonacquistatoprodottisimili)eP (X3 =
af f idabile). In questo modo vengono riportate, matematicamente, le probabilità
relative a ciascuno dei fenomeni osservati.
Come altri già visti, infatti, il modello Naive Bayes utilizza dati storici per realizzare una previsione sul futuro. Tali dati vengono analizzati tramite il teorema
di Bayes. Quest’ultimo permette di calcolare la probabilità che il prodotto X venga acquistato dal cliente C, date le caratteristiche X1 , X2 , ..., Xn di quest’ultimo.
Matematicamente:
P (C|X1 ∩ X2 ∩ Xn ) =
P (X1 ∩ X2 ∩, ..., ∩Xn |C) · P (C)
P (X1 ∩ X2 ∩, ..., ∩Xn )
(3.21)
dove P (C) è la probabilità che il prodotto venga acquistato, X1 ∩ X2 ∩, ..., ∩Xn
rappresenta l’intersezione delle probabilità degli eventi X1 , X2 , ..., Xn e P (X1 ∩
X2 ∩ Xn |C) rappresenta la probabilità che, dato il verificarsi delle Xn condizioni, il
prodotto C venga acquistato.
Quest’ultimo rappresenta l’unica incognita del problema. Si può osservare, infatti, come tutti gli altri termini dell’espressione rientrino nella categoria dei dati
direttamente osservabili e fanno, quindi, parte delle informazioni storiche raccolte
per la costruzione del modello, cioè il training dataset.
Per il calcolo dell’ultimo termine è bene usufruire delle definizioni messe a disposizione dalla statistica. L’intersezione di più eventi X1 ∩ X2 ∩ Xn è definita come
l’evento che si verifica se si verificano contemporaneamente X1 , X2 , ..., Xn . Attraverso l’ipotesi di indipendenza delle variabili è possibile usufruire del teorema della
3.4 Metodi Probabilistici
63
probabilità composta per il calcolo dell’incognita. Tale teorema afferma che, per
eventi indipendenti tra di loro, la probabilità dell’evento intersezione di più eventi
indipendenti è data dal prodotto delle probabilità dei singoli eventi. Cioè:
P (X1 ∩ X2 ∩ Xn ) = P (X1 ) · P (X2 ) · ... · P (Xn ))
(3.22)
Applicando tale teorema all’Equazione 3.21 si ha che:
P (C|X1 ∩ X2 ∩, ..., ∩Xn ) =
P (X1 |C) · P (X2 |C) · ... · P (Xn )|C)|C) · P (C)
(3.23)
P (X1 ∩ X2 ∩, ..., ∩Xn )
I termini P (X1 |C) · P (X2 |C) · ... · P (Xn )|C), come già detto, sono direttamente osservabili, in quanto rappresentano la probabilità che il prodotto C sia stato
acquistato, condizionata dal verificarsi dell’n-esima osservazione Xn . Attraverso tali considerazioni è possibile calcolare la probabilità che un elemento (nell’esempio,
un cliente), etichettato come C e con X1 , X2 , ..., Xn caratteristiche, compia una
determinata azione.
La probabilità P (C|X1 ∩ X2 ∩, ..., ∩Xn ) è definita probabilità a priori, in quanto
viene assegnata dopo aver preso in esame le informazioni più rilevanti raccolte. Per
ottenere un classificatore sfruttando tale risultato è possibile indicare una serie di
classi di uscita Ci . Identificando, ad esempio, ogni classe come un potenziale cliente,
o un gruppo di essi, sarà possibile prevedere l’esito di una decisione di acquisto
scegliendo la classe alla quale verrà associata la probabilità maggiore.
Si può osservare, infine, che per massimizzare la probabilità a priori di una
classe è necessario massimizzare esclusivamente il numeratore (in quanto, come è
possibile vedere dalla formula del teorema di Bayes, il denominatore è indipendente
dalla classe specifica). Per tale motivo, l’esito della previsione può essere indicato
mediante la formula:
"
!#
n
Y
Ci = max P Ci ·
P (Xn |Ci 1)
(3.24)
n=1
3.4.2 Il Modello di Markov
Tale processo prende il nome dal matematico russo Andrej Andreevic Markov che,
per primo, ne sviluppò la teoria. Modelli di tipo markoviano trovano applicazione in
molti ambiti, dalla progettazione di reti di telecomunicazione all’analisi predittiva.
Un modello costruito attraverso un processo di tale genere si basa su un presupposto,
cioè l’ipotesi di Markov.
Quest’ultima può essere riassunta in questo modo: la probabilità del verificarsi
di un evento futuro, calcolata osservando n eventi passati, è pressappoco uguale
alla probabilità del verificarsi dello stesso evento, calcolata osservando solo l’evento
passato più recente.
Tale ipotesi può essere scritta matematicamente in questo modo:
P (eventon |eventon−1 , eventon−2 , ..., evento1 ) ≈ P (eventon |eventon−1 )
(3.25)
64
3 I Modelli di Previsione
In sintesi, l’ipotesi di Markov indica che non è necessario ricorrere a dati storici
troppo datati per prevedere lo svolgersi di un evento futuro. Se un evento è condizionato da un solo fenomeno già avvenuto si parla di approssimazione di Markov di
primo ordine, se vengono considerati due fenomeni si parla di approssimazione di
secondo ordine, e cosı̀ via.
Tale enunciato può essere applicato al calcolo di una probabilità condizionata
tramite l’uso del teorema di Bayes. Dato un evento X1 , condizionato da una serie
di fenomeni osservati X2 , X3 , Xn (dei quali se ne conosce la probabilità), è possibile
ottenere un’approssimazione di primo livello:
P (X1 |X2 ∩ X2 ∩ Xn ) =
P (X1 ∩ X2 |X1 ) · P (X1 )
P (X1 ∩ X2 )
(3.26)
Il processo di Markov descrive una serie di eventi, calcolati tramite il metodo
appena esposto. Ciascuno di tali eventi rappresenta lo stato di uno spazio degli
stati discreto di un sistema. Il passaggio da uno stato all’altro viene descritto dalla
probabilità di uno stato di assumere un altro valore tra quelli possibili, ed è, perciò,
condizionata da questi ultimi.
Si può, ad esempio, considerare un sistema a tre stati possibili X1 , X2 , X3 , dove
il passaggio ad un nuovo stato è condizionato dagli stati precedenti. Sotto l’ipotesi
di Markov, tuttavia, è possibile calcolare la probabilità di uno dei tre considerando
esclusivamente il precedente stato più recente. Cosı̀, lo stato X1 potrà diventare lo
stato X2 , lo stato X3 , o tornare a essere di nuovo X1 . La transizione tra questi
ultimi avviene con una probabilità che può essere determinata tramite il teorema
di Bayes.
Una situazione simile può essere descritta attraverso l’uso di un grafo orientato.
Un grafo è un insieme di elementi detti nodi (o vertici) che possono essere collegati
fra loro da linee chiamate archi. Un arco orientato è un arco caratterizzato da una
direzione. Il grafo, inoltre, è detto pesato se ad ogni arco è associato un peso o costo
(cioè un valore numerico). Ogni stato del processo markoviano viene rappresentato
da un elemento del grafo. Le transazioni vengono mostrate dagli archi, i cui pesi ne
indicano la probabilità. Tale schema viene mostrato nella Figura 3.17.
Figura 3.17. Catena di Markov a tre stati
3.5 Recommendation Systems
65
Un grafo cosı̀ definito viene chiamato catena di Markov. Esso può essere interpretato affermando che la probabilità che un sistema passi dallo stato X1 allo stato
X2 è del 35%, mentre la probabilità di restare allo stato X2 è del 60%.
Molti modelli si basano sulla teoria di processi markoviani. Tra questi, l’algoritmo di link analysis ranking PageRank, utilizzato da Google, percorre il grafo del
web e analizza gli archi uscenti e gli archi entranti delle pagine associando un valore
sulla base del quale si effettua l’ordinamento del motore di ricerca. Esso sfrutta la
conoscenza offerta dal modello di Markov per determinare tale valore sulla base di
quale sito (stato del grafo) si prevede che verrà maggiormente visitato.
Un modello di Markov viene definito nascosto se gli stati precedenti, i quali
condizionano quello futuro, sono sconosciuti, cioè non osservabili direttamente. Ogni
stato genera un evento con una certa distribuzione di probabilità che dipende solo
da esso; inoltre, l’evento è osservabile ma lo stato no. Come ogni modello di Markov,
ogni stato è indipendente dagli altri; inoltre, le osservazioni sono indipendenti tra
di loro.
Per la costruzione di tale modello vengono forniti in ingresso, oltre agli eventi
osservati, tre vettori. Il primo contiene, per ogni possibile stato, un elemento che
rappresenta la probabilità di trovare tale stato nella condizione di partenza. Il secondo contiene la probibilità che ogni stato Xn ha di passare allo stato Xn+1 . L’ultimo
vettore contiene la probabilità, di ogni stato, di generare un determinato evento.
Anche in questo caso il modello deve essere “addestrato” a ottenere tali vettori di
probabilità tramite una fase di preparazione usando il training dataset composto
da dati precedenti.
In un modello di Markov nascosto è possibile ottenere diversi risultati in uscita,
tra questi la probabilità del verificarsi di un particolare evento o di una sequenza
di aventi. Queste ultime probabilità vengono calcolate usando il teorema di Bayes.
Una volta ottenuti i parametri appena citati, è possibile risolvere diversi problemi
costruendo il modello attraverso l’uso di particolari algoritmi. Data, ad esempio, una
sequenza di eventi in ingresso è possibile trovare la sequenza di stati più probabile
che potrebbe generare tale sequenza; questo problema viene risolto dall’algoritmo
di Viterbi. Attraverso un algoritmo detto algoritmo forward-backward, inoltre, è
possibile trovare la probabilità di una particolare sequenza di eventi.
Le possibilità offerte dal modello di Markov nascosto sono molteplici. Per tale
motivo esso viene utilizzato in molti campi; tra questi, l’analisi predittiva. Nella
seconda metà degli anni ottanta si è cominciato ad applicare l’algoritmo all’analisi
delle sequenze biologiche; da allora questa metodologia è diventata di grande aiuto
nella predizione delle regioni codificanti nella sequenza del genoma umano e nella
previsione degli elementi secondari della struttura dalle sequenze primarie delle
proteine.
3.5 Recommendation Systems
Nell’insieme dei modelli usati per la realizzazione di previsioni è necessario dare
spazio a quelli usati per i sistemi di raccomandazione o recommendation system.
Tali sistemi si occupano di fornire agli utenti consigli personalizzati riguardo un set
di oggetti appartenenti ad uno specifico settore.
66
3 I Modelli di Previsione
Formalmente, è possibile esprimere il problema delle raccomandazioni introducendo alcuni concetti. Sia A l’insieme degli n utenti del sistema, inoltre, sia B l’insieme degli m oggetti che possono essere raccomandati. Si definisce u : A × B → R
una funzione definita sul prodotto cartesiano A × B la quale associa un indice di
gradimento a ogni coppia utente-prodotto. Tale indice indica una valutazione (numerica) che un utente ha assegnato o assegnerebbe ad un oggetto. Date queste
definizioni, compito del recommendation system è scegliere, per ciascun oggetto in
A, l’elemento in B tale da massimizzare la funzione u per la coppia.
Il problema di tali sistemi è che non sempre u è definita per ogni elemento
del prodotto cartesiano A × B, in quanto non sempre un utente esprime il proprio
parere su un determinato prodotto. Parte degli obiettivi dei recommendation system
consiste nel prevedere i valori della funzione di utilità u anche nella parte dello spazio
dei dati in cui essa non è definita. In altre parole, l’obiettivo è fare una predizione
sul voto che un determinato utente darebbe ad un oggetto del sistema che non ha
ancora valutato.
I diversi sistemi di raccomandazione predicono voti sconosciuti a partire da quelli
conosciuti. In genere, essi sfruttano enormi quantità di dati per determinare l’indice
di gradimento sconosciuto attraverso l’uso di diversi algoritmi. In base alla tecnica
utilizzata è possibile suddividere i sistemi di raccomandazione nelle seguenti tre
categorie:
•
•
Sistemi basati sul filtraggio collaborativo. Per filtraggio collaborativo (collaborative filtering) si intende una classe di strumenti che consentono il recupero
di informazioni predittive relativamente agli interessi di un insieme di utenti.
Le tecniche di collaborative filtering si basano sulla raccolta e l’analisi di una
grande quantità di informazioni sugli utenti; quindi, usano queste ultime per
prevedere le loro preferenze basandosi sulle similitudini che essi presentano con
altri utenti. Tali tecniche, inoltre, assumono che ogni utente, il quale ha mostrato
interesse verso un determinato prodotto, continuerà a mostrarlo anche in futuro.
Tra gli algoritmi usati per determinare le similitudini tra utenti vi è l’algoritmo
K-Nearest Neighbor già visto. I dati collezionati, riguardanti le preferenze degli
utenti, possono essere raccolti tramite sondaggi, osservando gli oggetti acquistati e visualizzati, analizzando le opinioni dei clienti all’interno di forum o social
network, etc.
Una volta individuati i gruppi di utenti simili, l’algoritmo costruisce un modello il
quale mostra gli oggetti che i clienti che non hanno ancora acquistato potrebbero
preferire.
Uno degli esempi più interessanti di filtraggio collaborativo è rappresentato dall’uso che ne fanno alcune famose piattaforme sul Web, come Amazon, Facebook
e Twitter. Il primo usa tali metodi di raccomandazione per consigliare vari oggetti in vendita ai potenziali clienti. Gli ultimi due utilizzano tali strumenti per
raccomandare nuovi amici o gruppi di potenziale interesse a ogni utente.
Sistemi basati sul filtraggio dei contenuti. Ulteriore approccio sul quale si basano i
sistemi di raccomandazione, è il content-based filtering. Un sistema di tale genere
sfrutta le similitudini tra gli oggetti acquistati in passato, da un determinato
utente, per fare previsioni sugli oggetti che egli potrebbe gradire in futuro.
Dopo aver creato il profilo di un oggetto (cioè, dopo averne definito gli attributi)
vengono usati algoritmi di classificazione, come gli alberi di decisione o la rete
3.5 Recommendation Systems
67
neurale, per includere gli oggetti non ancora acquistati da un utente in gruppi
contenenti oggetti già acquistati.
Il giudizio dei clienti può essere usato per dare un maggiore o minore peso a
ogni attributo. Anche sistemi di questo genere trovano largo utilizzo tra le più
comuni piattaforme all’interno del Web.
• Sistemi di raccomandazione ibridi. Recenti ricerche hanno dimostrato che un
approccio ibrido, il quale combina le tecniche utilizzate dai sistemi basati sul
filtraggio collaborativo con quelli basati sul filtraggio dei contenuti, risulta essere particolarmente vantaggioso in alcuni casi. Le due strategie possono essere
implementate separatamente o attraverso lo stesso modello.
Esistono diversi approcci per realizzare un sistema di raccomandazione ibrido.
Alcuni di essi prevedono la combinazione dei risultati di diversi sistemi i quali
lavorano parallelamente. Altri prevedono di lavorare sugli attributi usati da diversi sistemi per fornire un unico risultato. In altri approcci a cascata i risultati
di un primo modello, costruito da un sistema, vengono usati come input per un
altro modello, costruito da un secondo sistema.
La piattaforma più nota per l’utilizzo di un sistema ibrido è Netflix.
4
Analisi della Regressione
In questo capitolo continua la trattazione dei modelli adottati dall’analisi predittiva.
In particolare, verranno analizzati i metodi di regressione. Mentre i modelli visti
fino ad ora fornivano una risposta qualitativa, i metodi di regressione, provenienti
dall’analisi statistica, mirano a determinare una valutazione quantitativa, a partire
da variabili indipendenti facenti parte di vettori osservazione per l’addestramento del
modello. Essi rivestono un’importanza fondamentale in quanto largamente utilizzati
in diversi ambiti.
4.1 I Modelli di Regressione
I modelli esaminati nel capitolo precedente coprono alcune delle più importanti categorie di modelli tra quelli fondamentali per l’analisi predittiva. Esiste un gruppo di
essi, non ancora mostrato, il quale rientra nella categoria dei modelli indispensabili
alla risoluzione dei più tipici problemi che richiedono la previsione di eventi futuri.
Tale categoria è quella dei modelli di regressione. Quest’ultimi vengono realizzati
attraverso tecniche definite dallo studio dell’analisi della regressione.
La differenza fondamentale tra il modello appena citato e un modello di classificazione risiede nella differente tipologia di dati in output che si sta cercando di
prevedere. I modelli di classificazione tentano di ricondurre l’esito della decisione
a valori predeterminati, appartenenti a un insieme finito (anche se spesso molto
grande). I modelli di regressione non fanno previsioni su un insieme di possibili valori già esistenti, ma tentano di prevedere dei valori numerici o quantitativi. Tale
distinzione non è sempre valida in quanto alcuni modelli, come, ad esempio, le reti
neurali, sono capaci di fornire entrambi i tipi di risultati.
In generale, la regressione è una tecnica utilizzata per analizzare una serie di dati
costituiti da una variabile dipendente e una, o più, variabili indipendenti (cioè osservabili). Il modello che rappresenta il fenomeno da prevedere è chiamato equazione
di regressione. Essa è funzione delle variabili indipendenti, a meno di un termine di
errore il quale è rappresentato da una variabile aleatoria. Quest’ultima rappresenta
una variazione non prevedibile della variabile di uscita.
Come per altri modelli di previsione, affrontare un problema di regressione non
richiede la conoscenza dei processi con i quali vengono generati i dati. Al contrario
70
4 Analisi della Regressione
di altri modelli visti finora, tuttavia, al fine di determinare un modello di regressione
è necessario conoscere alcune informazioni riguardo la possibilità che ha il termine
di errore di assumere determinati valori. Tale informazione è chiamata distribuzione
di probabilità ed è definita come un modello matematico il quale collega i valori di
una variabile aleatoria alle probabilità che tali valori possano essere osservati.
Dati i valori di ingresso e la distribuzione di probabilità è possibile determinare
i parametri che permettono al modello di realizzare previsioni accurate. Secondo
l’opinione degli esperti del settore [8, pag.75], i modelli di regressione rappresentano
la forza dominante nei moderni processi di decisione.
4.2 Regressione Lineare Semplice e Multipla
Come appena illustrato, un modello di previsione basato sulla regressione tenta di
prevedere dei valori numerici. Il più semplice, ma anche il più comune, tra i modelli
di regressione è il modello di regressione lineare.
Esso restituisce il valore di una variabile dipendente yo in funzione di una combinazione lineare delle variabili indipendenti x1 , x2 , xn :
yo = β1 x1 + β2 x2 + ... + β0 + ε
(4.1)
dove x1 , x2 , xn sono i valori in ingresso (cioè le variabili indipendenti) i quali formano
il vettore osservazione xn . Il simbolo ε rappresenta il termine d’errore e β1 , β2 , β0
rappresentano i parametri del modello. Quest’ultimi sono chiamati coefficienti di
regressione e devono essere determinati durante la fase di “addestramento” del
modello.
Una volta ottenuti i parametri βn , è possibile realizzare una previsione sostituendo gli attributi di ingresso nel modello. Il valore di β0 , inoltre, rappresenta il
risultato della previsione in assenza di attributi in input. Gli ulteriori valori di β
possono essere interpretati come il rapporto tra i valori delle variabili in ingresso
e i valori delle variabili in uscita; ciò significa che questa quantità è indicativa del
cambiamento che ci si aspetta da ognuno di tali attributi per ogni incremento di
un’unità di questi ultimi.
Un modello di regressione lineare può essere rappresentato in uno spazio a n
dimensioni, dove n è il numero di valori indipendenti. Un semplice modello, il quale
utilizza dati con un solo attributo, può essere illustrato nello spazio cartesiano. In
questo modo, in ascissa, saranno riportati i valori della variabile indipendente x1 e,
in ordinata, i valori della variabile di uscita yo ; tale esempio è mostrato in Figura
4.1.
I risultati di un modello di questo genere formano una retta. Il valore di β1
rappresenta la pendenza della retta, mentre, il valore di β0 rappresenta il punto in
cui quest’ultima interseca l’asse delle ordinate. Il caso appena mostrato, in cui è
presente un solo attributo in ingresso, determina un modello di regressione lineare
semplice. Nei casi in cui sono presenti due o più variabili indipendenti xn il modello
viene detto di regressione lineare multipla.
Al fine di definire un modello semplice è necessario imporre alcune condizioni
le quali semplificano la valutazione dei coefficienti di regressione. Per ogni variabile
4.2 Regressione Lineare Semplice e Multipla
71
Figura 4.1. Modello di regressione lineare
casuale (quale la variabile ε) è possibile definire le quantità media e varianza. La
prima è definita come la media degli n campioni osservati da una variabile aleatoria,
pesata dalla probabilità di osservare tale campione. Per una distribuzione discreta
di variabili aleatorie la media sarà:
E(X) =
∞
X
Xi · P (Xi )
(4.2)
i=−∞
Per una variabile aleatoria a valori continui sarà:
Z ∞
E(X) =
Xi · P (Xi )dX
(4.3)
i=−∞
La varianza (associata ad una variabile aleatoria) è la misura della variabilità
dei valori assunti dalla variabile. Nello specifico, tale grandezza misura quanto essi
si discostino quadraticamente dal valore atteso. Essa è definita come il valore atteso
del quadrato della variabile aleatoria X a cui viene tolto il suo valor medio:
σ 2 = E[(X − E[X])2 ]
(4.4)
Un basso valore di varianza indica che la maggior parte dei valori assunti da una
variabile aleatoria non differisce di molto rispetto al valore medio.
Per ultima, si definisce covarianza la misura della correlazione tra due variabili.
Una covarianza positiva indica una correlazione in cui, all’aumentare di una delle
due variabili, aumenta anche l’altra. Al contrario, una covarianza negativa indica il
diminuire di una variabile al decrementare dell’altra. Nel caso in cui due variabili
siano statisticamente indipendenti, il valore della covarianza risulta essere nullo.
Matematicamente essa è definita come la media del prodotto tra le varianze delle
due variabili aleatorie X e Y:
σX,Y = E[(X − E[X]) · (Y − E[Y ])]
(4.5)
72
4 Analisi della Regressione
Tali quantità sono ben definite per ogni modello di regressione lineare. In particolare si assume per ipotesi che, per n osservazioni (ossia i vettori xn delle variabili
indipendenti x1 , x2 , xn , costituiti da un solo elemento nel caso semplice), la quantità εn sia sempre, per ogni osservazione, una variabile aleatoria a media pari a zero
e varianza costante. Quest’ultima ipotesi è nota come ipotesi di omoschedasticità.
In tale contesto, inoltre, l’errore εn associato ad una osservazione è statisticamente
indipendente dall’errore associato ad ogni altra osservazione, ossia due εn qualsiasi
hanno covarianza nulla. Ciò è impensabile in uno scenario reale dove, spesso, l’errore è dovuto ad un’imperfezione sistematica della misurazione, durante la quale
un’osservazione può essere funzione di un’altra.
La variabile ε rappresenta l’errore irriducibile al quale è sottoposto l’esito della
previsione. Tale errore può essere dovuto a problemi di misurazione degli attributi
in input non prevedibili. A causa della presenza di quest’ultimo, i valori riportati
lungo gli assi cartesiani non cadranno sulla retta di partenza ma, invece, risulteranno
discostati da essa. Anche in presenza di misurazioni molto precise ci si aspetta una
certa quantità di errore e, dunque, i punti non formeranno una linea ben definita.
Nello scenario ideale appena descritto, tuttavia, a causa della media a valore nullo e
della varianza costante, è possibile risalire con facilità ai valori reali di output. Ciò
non è sempre possibile.
Gli attributi indipendenti relativi a ogni osservazione, per ipotesi, devono essere variabili deterministiche. Ciò significa che tali valori saranno sempre ben noti.
Inoltre essi possono essere, a loro volta, restituiti come valore di uscita di ulteriori
modelli di regressione. Come conseguenza, si assume che le variabili indipendenti siano anch’esse statisticamente indipendenti tra di loro. Tutte queste assunzioni
sono importanti al fine del calcolo dei coefficienti di regressione β. Nonostante sia
ancora possibile realizzare un modello di regressione lineare violando tali ipotesi, ciò
potrebbe portare ad ottenere una stima inconsistente dei coefficienti di regressione.
Per le condizioni viste finora, la variabile dipendente sarà funzione di una
variabile indipendente x1 e di una variabile aleatoria εn :
yo = β1 x1 + β0 + εn
(4.6)
Ciò rende yo , a sua volta, una variabile aleatoria. Data l’ipotesi di omoschedasticità, il valore medio atteso di tali risultati è pari all’equazione della retta β1 x1 + β0 .
Quest’ultima è detta retta di regressione. L’obiettivo della regressione è quello di trovare la retta che si avvicina maggiormente all’insieme dei dati forniti. Si tratta di un
problema di ottimizzazione in quanto, dopo aver determinato i coefficienti di regressione, è possibile stimare il valore di un nuovo punto yo a partire dall’osservazione
di misure più semplici da ottenere.
La fase di “addestramento” del modello prevede, come per altri strumenti già
visti, la definizione degli attributi caratteristici di quest’ultimo; in tal caso si tratta
dei coefficienti di regressione β, i quali verranno calcolati utilizzando un insieme di
dati storici già in possesso di chi sta implementando il modello (ossia il training
dataset). Tali dati comprendono, tra i loro attributi, oltre alle variabili indipendenti, anche i campioni delle variabili dipendenti, precedentemente ottenuti. I vettori
osservazione del training dataset includono, dunque, un ulteriore elemento, il quale corrisponde al risultato del modello dati gli elementi indipendenti dello stesso
vettore:
4.2 Regressione Lineare Semplice e Multipla
xtraining = (yn , x1 , x2 , xm )
73
(4.7)
Attraverso tali valori è possibile determinare i coefficienti β. È necessario ricavare
tali coefficienti in modo da esprimere al meglio la relazione funzionale tra variabili
dipendenti e indipendenti. Nel caso di un modello di regressione lineare semplice,
si parte considerando due variabili campione x1 e y1 . Il coefficiente che li lega deve
essere determinato attraverso il metodo dei minimi quadrati, proposto da Gauss.
Questo metodo tenta di individuare l’equazione della retta tale da minimizzare
la somma dei quadrati delle distanze tra i dati campione e quelli della retta stessa.
Poichè alcune distanze sono positive ed altre negative, utilizzando la somma dei
quadrati, la retta risultante sarà individuata alla distanza minima da ogni punto
campione. La Figura 4.2 illustra tale risultato.
Figura 4.2. Retta di regressione
Le stima dei parametri di regressione è ottenuta dai valori dei parametri cui
corrisponde la retta che interpola al meglio le osservazioni. Dato il punto (x1 , y1 ),
la differenza:
y1 − (β1 x1 + β0 ) = εn
(4.8)
rappresenta l’errore relativo all’attributo x1 . Questo valore, definito scarto, è
anche la distanza dal punto campione alla retta di regressione. È necessario determinare β1 e β1 minimizzando la somma degli scarti al quadrato di ogni punto
osservazione, ossia:
X
min
[yn − (β1 x1 + β0 )]2
(4.9)
n=1
74
4 Analisi della Regressione
Dall’Equazione 4.9 è possibile, infine, ottenere i parametri di regressione. Si
dimostra, a tal fine, che il valore del parametro β1 è dato da:
β1 =
σxn ,yn
σx2n
(4.10)
Dove σxn ,yn è la covarianza calcolata tra i valori della variabile dipendente e
quelli della variabile indipendente; inoltre, σx2n rappresenta la media dei valori della
variabile indipendente. Dallo stesso procedimento deriva il parametro β0 , il quale
risulta essere combinazione lineare dei valori medi di xn e yn :
β0 = E[yn ] + β1 E[xn ]
(4.11)
Tutto ciò è valido per il caso semplice.
Attraverso il metodo dei minimi quadrati, dunque, è possibile ottenere i coefficienti β migliori, tali da ottenere i risultati più fedeli alla realtà rappresentata dal
modello (ossia i punti che ricadono sulla retta di regressione) a meno dell’errore ε.
Per illustrare un esempio [5] pratico di previsione tramite modello di regressione
lineare semplice, si suppone di voler prevedere gli effetti sulle vendite settimanali
di un supermercato in funzione dello spazio di esposizione. A tal fine viene raccolta
una serie di dati campione relativi a supermercati vicini; questi ultimi sono mostrati
nella Tabella 4.1.
Negozio Spazio di Esposizione (m2 ) Vendite Settimanali (euro)
1
583
2800
2
423
2600
3
602
2900
4
220
1800
5
282
1900
6
623
3100
7
312
2400
8
374
2600
9
412
2300
10
457
2700
11
150
1300
12
147
1600
Tabella 4.1. Dati campione
La relazione tra il totale delle vendite e lo spazio di esposizione può essere
individuata attraverso una relazione lineare del tipo:
yo = β1 x1 + β0 + εo
(4.12)
Dove x1 rappresenta lo spazio di esposizione e y1 rappresenta il totale delle
vendite. Tali punti vengono riportati su un grafico cartesiano come mostrato in
Figura 4.3.
4.2 Regressione Lineare Semplice e Multipla
75
Figura 4.3. Punti campione
Calcolando media e varianza delle variabili campione, è possibile utilizzare tali
quantità per il calcolo dei coefficienti di regressione:
β1 = 3, 2
β0 = 1092, 88
(4.13)
Dopo aver determinato β1 e β0 sarà, infine, possibile prevedere le vendite settimanali sostituendo il valore del nuovo spazio di esposizione nell’equazione della
retta di regressione.
Ogni volta in cui, al fine di prevedere una determinata quantià, sono disponibili
più variabili indipendenti si utilizza un modello di regressione lineare multiplo. Dati
n variabili di input, l’equazione generale di un tale modello è:
yo = β1 x1 + β2 x2 + ... + βnxn + β0 + ǫn
(4.14)
Per la formulazione di un modello lineare multiplo si utilizzano le stesse ipotesi impiegate per il modello semplice. Il caso multiplo, infatti, rappresenta la generalizzazione di quest’ultimo. I punti appartenenti all’insieme delle osservazioni,
possedendo più di un attributo, dovranno essere rappresentati in uno spazio a n dimensioni. Una rappresentazione del genere non produrrà più una retta, ma delineerà
un piano nello spazio n-dimensionale.
Utilizzando la notazione matriciale per rappresentare l’insieme delle osservazioni,
il modello di regressione multipla sarà dato da:
 


 
 
y1
x11 x12 ... x1m
β0
ε1
 y2 
 x21 x22 ... x2m 
 β1 
 ε2 
 


 
 
 y3 
 x31 x32 ... x3m 
 β2 
 ε3 







Y =  X = 
β =  ε = 
(4.15)

 ε4 
y
x
x
...
x
β
4m 
 4
 41 42
 3
 
 ... 
 ... ... ... ... 
 ... 
 ... 
yn
xn1 xn2 ... xnm
βn
εn
Tale notazione permette di esprimere il vettore delle variabili indipendenti Y o
come:
76
4 Analisi della Regressione
Yo = X ·β+ε
(4.16)
Per stimare i parametri del modello di regressione multipla si utilizza il metodo
dei minimi quadrati. Quest’ultimo consente di trovare il vettore β che minimizza la
somma degli scarti al quadrato. Si dimostra come esso possa essere ottenuto dalla
relazione:
′
′
β = (X · X)−1 X · Y
(4.17)
′
Dove X è la trasposta della matrice delle variabili indipendenti. Se il numero
di tali variabili è maggiore di due, l’equazione del modello descriverà un iperpiano.
Nel caso in cui fosse presente una dipendenza lineare tra gli attributi indipendenti
′
il termine (X · X) sarà prossimo allo 0 e non sarà possibile calcolare i coefficienti.
È interessante notare come i vari modelli di regressione lineare possano essere utilizzati in un numero elevatissimo di casi diversi. Essi vengono impiegati per
prevedere quantità numeriche quali: temperature, prezzo e quantità di oggetti acquistabili, intervalli di tempo e molti altri ancora. Come appena mostrato, realizzare
un modello lineare prevede la formulazione di alcune ipotesi restrittive sui dati
(tuttavia, il modello risulta essere semplice da realizzare e molto intuitivo).
4.3 Regressione Logistica
Si pone il problema di voler usare le conoscenze acquisite attraverso il modello di
regressione lineare come metodo di classificazione. A tal fine, è possibile adattare il
modello per risolvere le problematiche di un classificatore binario limitando i valori
di restituzione all’intervallo [0, 1]. I valori di questo intervallo rappresenteranno
le classi, mentre un valore intermedio (in tal caso 0,5) rappresenterà la soglia di
separazione tra le due.
Nonostante un simile modello possa costituire una buona approssimazione di un
classificatore binario, esso non trova applicazioni pratiche per una serie di problemi.
Innanzitutto, è impossibile limitare i valori di uscita di un modello di regressione
ad un intervallo limitato. Essi, quasi sicuramente, assumeranno valori esterni a
quest’ultimo; tali punti non potranno essere classificati in quanto non appartenenti
ad alcuna categoria. Inoltre, un modello di regressione lineare tenta di minimizzare
l’errore quadratico medio (ossia la discrepanza media al quadrato fra i valori dei
dati osservati ed i valori dei dati stimati); ciò è contrario agli scopi di un modello
di classificazione. Quest’ultimo, infatti, mira ad individuare una retta che separa
realmente le varie osservazioni e non quella che minimizza l’errore di osservazione.
Quest’ultima, in presenza di punti molto distanti dalla maggior parte degli elementi,
risulta essere vicina a tali punti (in modo da diminuire l’errore), ma una simile
rappresentazione non rispecchia la soglia di separazione tra gli elementi di due o
più categorie.
Il modello di regressione logistica riesce ad ovviare a tali problemi. Attraverso
tale modello è, infatti, possibile ottenere un valore di output il quale ricade all’interno dell’intervallo chiuso [0, 1]. Esso, inoltre, viene “addestrato” mediante un
4.3 Regressione Logistica
77
metodo che non mira a minimizzare l’errore quadratico medio e, dunque, si presta
maggiormente ad essere utilizzato come metodo di classificazione.
Quello logistico è un modello di regressione applicato nei casi in cui la variabile
dipendente y sia riconducibile ai valori 0 e 1 (si dice che essa è di tipo dicotomico, che
può, cioè, assumere esclusivamente due valori). Il modello logistico viene applicato
a quei casi in cui le variabili di restituzione sono vero o falso, maschio o femmina,
vince o perde, sano o ammalato, etc.
I valori di ingresso sono, come nel caso del modello lineare, delle variabili indipendenti; inoltre, anche in questo caso, una combinazione lineare di quest’ultime
restituisce una variabile dipendente y. La differenza fondamentale, rispetto al modello lineare, consiste nel fatto che la variabile y viene usata come input per la
funzione sigmoidale:
ey
e−y
ey
1
=
·
=
ey + 1
e−y ey + 1
1 + e−y
Sostituendo l’equazione lineare della variabile indipendente si ottiene:
f (y) =
(4.18)
1
1
=
(4.19)
−β
1 + e−y
1 + e 1 ·X−β0
Per y tendente a −∞, il risultato della funzione sigmoidale tende a 0. Al contrario, per y tendente a +∞, il risultato tenderà a 1. Per y pari a 0, inoltre, la
funzione vale 0,5. Tali caratteristiche rendono questa funzione la candidata ideale
per risolvere problemi di classificazione sfruttando le caratteristiche dei modelli di
regressione.
È bene notare come, a differenza dell’equazione mostrata nel caso lineare, in
questo caso non appare il termine di errore ε. Ciò è dovuto al fatto che, poichè il
risultato della funzione sigmoidale appartiene all’intervallo [0, 1], la funzione stessa
rappresenta la caratteristica di casualità del modello. Una tale distribuzione, in
cui la variabile aleatoria (in questo caso il punto y) può assumere solo due possibili
valori, viene definita distribuzione di Bernoulli. Il risultato del modello di regressione
logistica Yo rappresenta, dunque, la probabilità che il punto y ricada in una delle
due classi di uscita.
f (y) =
P (Y = 1|Yo ) =
1
(4.20)
1+
L’Equazione 4.20 mostra come la probabilità che il risultato del modello appartenga alla classe 1, dopo aver osservato l’output Yo , coincida con il valore stesso di
Yo . Nel caso di un basso valore di Yo , l’uscita risulterà appartenente alla classe 0. Il
valore medio atteso, in una distribuzione di Bernouilli, è rappresentato dal valore,
scelto in maniera arbitraria, del risultato con esito positivo: in questo caso Yo = 1.
Partendo dall’Equazione 4.20, tramite delle semplici manipolazioni algebriche, è
possibile isolare la componente lineare, ossia il contributo delle variabili indipendenti
di ingresso:
ln(
e−β1 ·X−β0
P (Y = 1|Yo )
) = β · X + β0
1 − P (Y = 1|Yo )
(4.21)
78
4 Analisi della Regressione
Il termine a sinistra dell’Equazione 4.21 viene definito funzione logit. Si può
osservare come l’argomento del logaritmo rappresenta il rapporto tra la probabilità
che il risultato appartenga alla Classe 1 e la probabilità che esso appartenga alla
Classe 0.
Dall’Equazione 4.21, inoltre, è possibile effettuare il calcolo dei coefficienti di
regressione β, cosı̀ come è stato svolto per il modello di regressione lineare. La
relazione tra le variabili indipendenti ed il valore Yo = 1, tuttavia, è di tipo non
lineare. Ciò impedisce il calcolo dei coefficienti di regressione, come è già stato fatto.
Per calcolare tali coefficienti non sono necessarie tutte le ipotesi, sui dati in input,
indispensabili invece per il caso lineare. Per effettuare tale calcolo, per un modello
di regressione logistica, viene utilizzato il criterio di massima verosimiglianza. Al
contrario del metodo dei minimi quadrati, il quale tende a minimizzare la somma al
quadrato dei termini di errore, tale criterio massimizza la probabilità di trovare una
determinata osservazione come risultato di un modello; tale probabilità è definita
come verosimiglianza. In particolare, la verosimiglianza, relativa all’appartenenza
alla classe 1, è data da: P (Y = 1|Yo ). La verosimiglianza per la classe 0 vale 1 −
P (Y = 1|Yo ). La probabilità dell’intersezione di tutti gli eventi, ossia la probabilità
di osservare le osservazioni date, sarà data dal prodotto delle varia probabilità:
Y
Y
P (yn = 1|xon ) ·
1 − P (ym = 1|xom )
(4.22)
Il criterio per individuare i coefficienti di regressione consiste nel massimizzare
tale probabilità di ottenere un particolare insieme di osservazioni. Utilizzando algoritmi di stima iterativa per equazioni non lineari, sarà possibile determinare i valori
di β0 , β1 , ... , βn tali da rendere massima la probabilità individuata dall’Equazione
4.22.
I contesti applicativi del modello di regressione logistica sono molto numerosi. In
economia, ad esempio, esso viene impiegato per analizzare gli effetti degli interventi
economici sugli operatori di mercato: l’azienda fallisce (Y=1) o meno (Y=0) dopo
aver ricevuto una sovvenzione, il disoccupato trova lavoro (Y=1) o no (Y=0) dopo
aver seguito un corso di formazione.
Nell’ambito del marketing viene usato per evidenziare l’incisività delle campagne pubblicitarie sulla propensione all’acquisto del consumatore: il cliente acquista (Y=1) o non acquista (Y=0) un dato prodotto in seguito ad una campagna
promozionale.
In medicina esso viene usato per studiare l’effetto di una cura sullo stato di salute
del paziente: il paziente sottoposto ad una particolare cura farmacologica reagisce
positivamente (Y=1) o meno (Y=0).
In biologia viene adottato per evidenziare le determinanti delle reazioni delle
cellule sottoposte ad un trattamento: le cellule malate si rigenerano (Y=1) oppure
no (Y=0) dopo essere state sottoposte ad un particolare trattamento.
In botanica viene utilizzato per studiare l’effetto fertilizzante delle sostanze utilizzate sui semi oggetto di studio: una pianta resiste alle gelate (Y=1) oppure no
(Y=0) in seguito ad un intervento di modifica genetica.
5
Tool di Analisi Predittiva
Dopo aver esaminato i modelli matematici che stanno alla base dei processi di predizione, questo capitolo illustra gli strumenti software che implementano tali modelli.
Sono innumerevoli i tool che contengono metodi che prevedono algoritmi che permettono di ottenere i modelli precedentemente esaminati. In questo capitolo verranno
esaminati alcuni di questi strumenti, tra quelli di uso più comune.
5.1 Caratteristiche Generali
Lo sviluppo di nuove tecnologie all’interno del Web, ed il conseguente incremento
dei vari flussi di informazione, in particolar modo dei Big Data, hanno determinato
nuove possibilità offerte dall’analisi dei dati. Ultimamente, sempre più organizzazioni tentano di sfruttare tali potenzialità, utilizzando tecniche di data mining e
machine learning per realizzare previsioni. Implementare un modello di analisi predittiva, tuttavia, richiede conoscenze specifiche e, per tale motivo, non è sempre una
scelta possibile a tutti. Per venire incontro a simili richieste sono stati introdotti degli strumenti software, facilmente accessibili, i quali danno a chiunque la possibilità
di realizzare modelli di previsione. In tal modo le varie organizzazioni possono avvalersi con maggior semplicità dei suddetti modelli ed integrarli nelle varie operazioni
a supporto delle decisioni e nei propri processi interni.
I tool di analisi predittiva sono stati introdotti al fine di fornire a chiunque la
possibilità di realizzare previsioni partendo da dati di qualunque genere. Tali strumenti vengono realizzati in modo da rimuovere la complessità matematica intrinseca
in ogni processo di generazione dei modelli. Essi, inoltre, forniscono un’interfaccia
grafica per la scelta e la parametrizzazione del modello migliore ai vari scopi. Alcuni
strumenti includono, inoltre, determinati metodi per il riconoscimento automatico
dei dati e per il supporto nella scelta del modello migliore al fine di supportarli.
Un qualsiasi strumento di previsione, tuttavia, risulta essere di poca utilità senza
un’operazione di valutazione effettuata sulle variabili restituite. Ogni tool di predizione, dunque, include strumenti che permettono di visualizzare tali risultati in
modo immediatamente comprensibile. Sarà possibile illustrare i risultati attraverso
l’uso di grafici e tabelle e, in tal modo, sarà possibile valutarli e trarre conclusioni
80
5 Tool di Analisi Predittiva
sulla reale efficacia del modello senza la necessità di possedere competenze specifiche
per la valutazione.
Il numero di tool disponibili e liberamente accessibili aumenta parallelamente
alle richieste di analisi predittiva come strumento di supporto. Tali mezzi si differenziano tra di loro per il grado di complessità con il quale affrontano il problema
della creazione dei modelli. Alcuni contengono opzioni limitate e favoriscono l’uso da
parte di utenti meno esperti; altri permettono di realizzare modelli particolarmente
complessi, ma necessitano di maggiori conoscenze da parte dell’utente. È possibile
citare numerosi tool i quali possono essere più o meno sfruttati dalle più importanti
compagnie; nelle prossime sezioni verranno approfonditi gli aspetti salienti di quelli
maggiormente utilizzati e di maggior successo.
5.2 R
Tra i tanti strumenti per l’analisi predittiva, è impossibile non citare R. Si tratta
di un ambiente di sviluppo open-source integrato con un linguaggio di programmazione per utilizzo specifico nel contesto del calcolo statistico. Il linguaggio di
programmazione R (Figura 5.1) è largamente utilizzato ai fini dell’analisi statistica
e del data mining. Per estensione potrà, dunque, essere utilizzato ai fini dell’analisi
predittiva.
Figura 5.1. Il logo di R
Le librerie di R contengono una vasta collezione di metodi statistici e grafici per
la risoluzione e la rappresentazione di diversi problemi. Tali metodi permettono la
creazione di modelli lineari e non lineari per affrontare problemi di statistica classica,
analisi di dati in successione temporale, problemi di clustering e classificazione, e
molti altri ancora. Ognuno dei metodi disponibili è realizzato con lo stesso linguaggio
di programmazione nativo il quale caratterizza l’ambiente R. È possibile, tuttavia,
collegare a run-time i metodi di R con metodi scritti in linguaggi di programmazione
5.2 R
81
quali: C++, Java, .NET, Python; ciò risulta particolarmente utile quando si devono
affrontare problemi che richiedono un elevato onere computazionale. Uno dei punti
di forza di R è la possibilità di mostrare i risultati delle varie implementazioni
attraverso l’uso di grafici ed opportuni simboli matematici.
A differenza di molti altri tool commerciali specifici (i quali semplificano la scelta
del modello migliore in base al particolare tipo di problema), R permette, semplicemente, di richiamare una o più funzioni e di utilizzarle con i dati a disposizione.
Esso rappresenta, quindi, un’ottima base di partenza per familiarizzare con i vari
algoritmi. Il linguaggio di programmazione R è un linguaggio interpretato; pertanto,
in esso, non esiste un compilatore e il codice sorgente viene tradotto da un interprete
in linguaggio macchina al momento dell’esecuzione. L’interprete è quel software che
all’avvio del programma, riceve un’istruzione alla volta (istruzioni scritte nel linguaggio di alto livello, in questo caso R) e la traduce in linguaggio macchina prima
di passarla alla CPU. Solitamente tale processo provoca un rallentamento generale
del software. Tale approccio richiede più memoria ed è meno veloce, a causa dell’overhead introdotto dall’interprete stesso. Nel caso di R ciò non rappresenta un
problema, in quanto le operazioni svolte durante l’esecuzione dei metodi non richiedono un numero eccessivo di risorse computazionali, a meno di avere a che fare con
grosse quantità di dati (in tal caso è possibile ridurre il peso della computazione
assegnando alcuni compiti ad altri programmi o ricorrendo alla programmazione
distribuita).
La sintassi di R prevede l’assegnazione delle variabili tramite l’uso dell’operatore
“< −”, la seguente istruzione assegna la stringa “hello, world!” alla variabile x e la
stampa:
> x <- ‘‘hello, world!’’
‘‘hello, world!’’
In aggiunta all’operatore di assegnamento, come per altri linguaggi di programmazione, esistono diversi altri operatori. Essi possono essere:
• Aritmetici (+, −, ∗, /) : consentono di svolgere operazioni e assegnare il risultato
direttamente ad una variabile:
> raggio <- 21.35
> p.greco <- 3.14159265358979
> circonferenza <- raggio * 2 * p.greco
> area <- p.greco * raggio^2
• Logici: lavorano su dati booleani, ovvero variabili che possono assumere solo i
valori vero e falso.
< Minore
<= Minore o Uguale
> Maggiore
>= Maggiore o uguale
== Uguale
! = Diverso
& Intersezione
82
5 Tool di Analisi Predittiva
| Unione
! Negazione
Di seguito vengono riportati alcuni esempi [3] della sintassi di tali operatori (il
simbolo # precede un commento in R):
> x<- 3:8;
#Genera una sequenza di valori (da 3 a 8)
> x > 5;
#Restituisce true per i valori della
# sequenza maggiori di 5, false per gli altri
> x <= 8
#Restituisce true per i valori della
# sequenza minori o uguali a 8, false per gli altri
> x != 2;
#Restituisce true per i valori della
# sequenza diversi da 2, false per gli altri
Come in molti altri linguaggi interpretati, non è necessario dichiarare il tipo
da assegnare a una variabile prima di utilizzarla, ma sarà compito dell’interprete
svolgere tale operazione. Una variabile può essere di tipo numerico (integer, float,
double), alfanumerico (string), booleano (TRUE, FALSE).
La memoria necessaria, relativa a tali variabili, viene allocata durante l’esecuzione (è una caratteristica dei linguaggi interpretati). Il linguaggio prevede un
operatore di casting as.nuovo tipo(variabile). È possibile, inoltre, definire collezioni logiche di tali dati per potervi accedere in modo efficiente, ossia le strutture
dati. Queste ultime appaiono indispensabili nelle situazioni in cui è necessario gestire milioni di dati appartenenti ad una determinata categoria, ed ottenere un modo
rapido per svolgere operazioni su di essi. Esse comprendono:
•
Vettori: insieme di oggetti dello stesso tipo. Possono essere assegnati ad una
variabile e possono contenere valori ben definiti, o appartenenti ad un dato
intervallo. Essi vengono definiti tramite il seguente comando:
> x <- c(1, 2, 3); #Crea un vettore e lo assegna alla variabile x
•
> x[1];
#Selezione di un singolo elemento del vettore
Matrici: tabelle formate da righe e colonne. Possono essere considerate come dei
vettori a due dimensioni:
> m <- matrix (x, nrow=4) #Genera una matrice con 4
# righe usando gli elementi
# del vettore x
•
> m[1,3]
#Seleziona gli el. I riga e III colonna
Fattori: sono vettori utilizzati per classificare o suddividere in “classi” gli elementi di un altro vettore di pari lunghezza. Un esempio classico è quello della
suddivisione di una serie di misure eseguite in due siti, ad esempio “A” e“B”.
Per trasformare un vettore, contenente le etichette dei livelli, in fattore si usa:
> dati <- c (2,3,7,31,38,36)
> fattore <- factor ( c("A","A","B","B","B"))
In tal modo gli elementi del vettore c (associati alla variabile “dati”) verranno
collocati rispettivamente nelle classi A e B.
5.2 R
83
• Data Frame: possono essere considerati come matrici dove ogni colonna può
avere un tipo di dato diverso dalle altre. Rappresentano il modo più pratico
per gestire tabelle di dati. È possibile specificare un nome per ciascuna colonna;
nel caso in cui venga omesso il nome viene utilizzato quello dell’oggetto che
costituisce la colonna. Un data frame può essere realizzato come una matrice le
cui colonne sono costituite da vettori precedentemente definiti. Un esempio di
Data Frame è riportato nel seguente listato:
> specie <- c (2,3,7,8,9,35,37,31,38,36)
> individui <- c (321,654,765,865,964,353,372,315,385)
> dataframe <- data.frame (specie, individui)
In R, in generale, è possibile raggruppare insiemi di più comandi all’interno di
parentesi graffe. Ciò permette di realizzare istruzioni nidificate e determinare una gerarchia dell’esecuzione del programma. Come in molti linguaggi di programmazione,
sono presenti alcune strutture di controllo. Tra queste citiamo:
• if: permette l’esecuzione di espressione2 se e solo se espressione1 restituisce
come risultato TRUE; in caso contrario, se è presente l’istruzione else viene
restituito come risultato espressione3.
if (espressione1) espressione2 else espressione3
• for: per ogni elemento di vettore assegna tale elemento alla variabile t e la usa
in espressione2.
for (nome_variabile in vettore) espressione2
• while: continua ad eseguire espressione fino a quando condizione rimane
vera.
while (condizione) espressione
Oltre la possibità di definire parti di codice indipendenti, R offre l’opportunità
di definire funzioni all’interno del codice. In qualunque momento è possibile scrivere
una funzione (la quale accetta dei parametri in ingresso e restituisce dati di tipo
determinato) ed assegnare ad essa un nome per poter essere riutilizzata. Alcune
funzioni, come quelle che implementano i modelli di predizione, sono già realizzate
e sono disponibili agli sviluppatori; esse sono contenute all’interno delle librerie
dell’ambiente. Una funzione può essere richiamata tramite il nome della stessa,
seguito dai parametri che necessita. Alcuni esempi di funzioni di uso generale già
definite sono: mean(x) (restituisce la media degli elementi del vettore x), var(x)
(restituisce la varianza degli elementi del vettore x), max(x) (restituisce il massimo
tra gli elementi del vettore x), sum(x) (restituisce la somma degli elementi del
vettore x), prod(x) (restituisce il prodotto degli elementi del vettore x). Una delle
funzioni di maggiore utilizzo è la funzione plot(X,Y). Quest’ultima consente, dati
due vettori X e Y, di rappresentare tali vettori su un grafico cartesiano e, quindi, di
fornire in output un illustrazione grafica degli stessi.
84
5 Tool di Analisi Predittiva
Al fine di effettuare previsioni, il linguaggio R offre una serie di funzioni le quali permettono di realizzare i modelli esaminati nei precedenti capitoli. Per svolgere
operazioni di prova su tali metodi è possibile avvalersi di diversi dataset su vari repository disponibili sul web. La funzione autos <- read.csv(‘‘URL repository’’)
permette di importare una collezione di dati generici dal web. Generalmente si tratta di un file contenente dati in formato data frame, in cui ogni riga (ossia, ogni
tupla) corrisponde ad un’istanza dei dati ed ogni colonna rappresenta un attributo.
Prima di poter utilizzare i dati è necessario svolgere alcune operazioni su di essi
al fine di prepararli. Tali procedimenti sono necessari per strutturare la collezione
dei dati e permettere all’algoritmo di riconoscerli (in base alle specifiche di input
richieste da ciascun metodo) ed utilizzarli per costruire il modello. Queste operazioni
comprendono: casting su alcuni attributi, rinominazione delle colonne (attraverso
la funzione colnames(tupla)), sostituzione dei valori mancanti, eliminazione di
attributi superflui, e molte altre in funzione delle varie necessità. La Figura 5.2
mostra un insieme di dati, pronti per l’utilizzo, visualizzati attraverso l’ambiente
grafico di sviluppo RStudio [7, pag.259]. Essi contengono gli attributi relativi a un
insieme di automobili; ognuna delle istanze comprende 9 attributi tra cui: cilindrata,
anno di immatricolazione, peso, ed altri; è anche presente un attributo (ossia il nome
del modello dell’automobile) che funge da label e che potrà potrà essere impiegato
come variabile di restituzione del modello.
Figura 5.2. L’esempio di un dataset utilizzato da R
Dopo aver adeguatamente preparato il dataset per l’elaborazione, è consigliabile
suddividerlo in due gruppi: training dataset e test dataset. Lo scopo è quello di usare
il primo gruppo per “addestrare” il modello e, in seguito, per verificarne l’efficacia
attraverso il test dataset. Una suddivisione in rapporto 70/30 è sufficiente per fornire
a ciascun gruppo un sufficiente contenuto di dati. Ciascun gruppo dovrà essere
rappresentativo dell’intero dataset; un tipico errore consiste nel suddividere i dati in
modo che alcuni elementi, con determinate caratteristiche, ricadano esclusivamente
all’interno di uno dei due sottogruppi. Tale situazione è da evitare in quanto il
modello non sarebbe capace di comportarsi in maniera adeguata in presenza di dati
mai visti. Il metodo migliore consiste nel suddividere la collezione di dati in maniera
completamente casuale. La funzione sample(x, size) interviene a tale scopo. Essa
preleva gli indici, relativi ad un numero di campioni pari a size delle tuple del data
frame “x” (restituite dalla funzione nrow(x)), in maniera casuale.
5.2 R
85
> training_indices <- sample(nrow(x) , trainSize)
> trainSet <- x[training_indices, ]
> testSet <- x[-training_indices, ]
> model <- lm(formula=trainSet$label ~ . , data=trainSet)
> predictions <- predict(model, testSet, interval="predict", level=.95)
> cbind(testSet$mpg, predictions[,1])
Gli indici delle tuple prelevate dalla struttura dati “x” vengono memorizzati
nella variabile training indices (la quale, in questo modo, diventa un vettore
di indici). Tali osservazioni verranno, infine, assegnate alle variabile trainSet; le
restanti, invece, verranno assegnate alla variabile testSet.
Una volta suddivisi i dati, è possibile passare alla fase di “addestramento” del
modello. Per mostrare un esempio di uno degli algoritmi offerti da R, il seguente codice mostra la sintassi per la creazione di un modello di regressione lineare
attraverso le librerie incluse in R:
Tra i parametri in ingresso richiesti da tale metodo, la variabile formula indica
l’attributo, il quale sarà utilizzato come variabile di output del modello di regressione lineare. Il parametro data, inoltre, indicherà il dataset dal quale verranno
prelevate le osservazioni. Il modello verrà automaticamente generato ed assegnato
alla variabile model.
Ultimato il modello, sarà possibile effettuare previsioni, mediante quest’ultimo,
utilizzando la seguente sintassi:
Attraverso il parametro level sarà possibile impostare il livello di confidenza
(in questo caso 0.95%). I risultati di tale operazione sono mostrati in Figura 5.3.
La colonna fit contiene i risultati del modello per ogni osservazione (ossia, i
punti che formano la retta di regressione); le colonne lwr e upr mostrano l’intervallo
di valori dentro il quale può variare il risultato della predizione (tenendo conto
dell’errore). Un maggiore livello di confidenza determina un intervallo maggiore, e
viceversa.
Nel caso di un procedimento supervisionato, ossia in cui si hanno a disposizione
le variabili di output nel test dataset, è possibile confrontare tali valori con quelli
predetti. In questo modo è possibile valutare l’affidabilità del modello.
Il metodo cbind() affianca la colonna label del test dataset alla colonna con i
risultati della previsione. Se essi coincidono per la maggior parte delle osservazioni
è possibile utilizzare il metodo predict() con nuovi dati per realizzare previsioni.
In caso contrario sarà necessario incrementare la precisione del modello attraverso
un più voluminoso training dataset.
Il punto di forza di R è la possibilità adattarsi a qualsiasi esigenza [14], in quanto,
all’interno delle proprie librerie, contiene metodi per implementare qualsiasi modello predittivo. R, inoltre, offre la possibilità di lavorare partendo da dati grezzi, in
86
5 Tool di Analisi Predittiva
Figura 5.3. Risultati della funzione predict()
qualsiasi formato essi si trovino. In questo modo è possibile adattarli all’utilizzo
con ogni possibile modello. Ciò risulta essere particolarmente vantaggioso per chi
si avvicina per la prima volta al mondo dell’analisi predittiva e, non avendo l’esperienza necessaria alla scelta e all’utilizzo di tool maggiormente specifici, non riesce
ad individuare subito il modello migliore per ogni situazione. Tra i metodi contenuti
nelle varie librerie per implementare i modelli visti nei precedenti capitoli, vi sono i
metodi nnet(), svm(), tree(), per la creazione di una rete neurale, di una support
vector machine, e di un albero di decisione rispettivamente. La Figura 5.4 mostra
i risultati restituiti da un albero di decisione [7, pag.272], visualizzati attraverso il
metodo plot().
Sono, infine, disponibili metodi e procedure per l’implementazione di modelli
probabilistici e di recommendation system. È possibile trovare sul Web la documentazione di ciascuno di tali metodi e dei parametri richiesti per l’implementazione
dei modelli.
5.3 Weka
Acronimo di Waikato Environment for Knowledge Analysis, Weka (Figura 5.5) è
un ambiente software open-source per l’apprendimento automatico, sviluppato nell’università di Waikato in Nuova Zelanda. Si tratta di una raccolta di applicazioni,
scritte completamente in Java, le quali implementano procedure di data mining e
5.3 Weka
87
Figura 5.4. Albero di decisione realizzato tramite R
machine learning. Tra queste ultime è possibile trovare algoritmi di classificazione,
regressione, clustering ed altri per la visualizzazione dei risultati; tale strumento si
presta, dunque, alla realizzazione di modelli per analisi predittiva.
Figura 5.5. Il logo di Weka
Weka è uno strumento che presenta diversi vantaggi. Innanzitutto, esso è opensource, in quanto rilasciato con licenza GNU General Public License. In secondo
luogo, poichè interamente implementato in Java, può essere eseguito su qualunque
sistema operativo supporti la Java Virtual Machine; per tale motivo esso gode di
una elevata portabilità. Ulteriore vantaggio di tale piattaforma è la quantità di
metodi implementati utili sia per il pre-processing dei dati, sia per la costruzione
dei modelli. Essa supporta tutti i più comuni strumenti di data mining e machine
learning. Quest’ultimi possono essere richiamati con praticità attraverso l’interfaccia
grafica inclusa all’interno del software. Weka, infine, ha la capacità di interfacciarsi
con qualsiasi DBMS, purchè esistano i driver disponibili per la comunicazione con
Java. Tale potenzialità permette a Weka di avvalersi dei risultati di una query SQL
per ottenere i dati necessari al modello.
L’interfaccia del software, mostrata nella Figura 5.6, è chiamata Explorer. Essa
è costituita da una serie di schede le quali fungono da pannello di controllo per le
varie funzionalità.
Dalla scheda Preprocess è possibile accedere a diverse funzioni per il caricamento
e la visualizzazione dei vari dataset con cui costruire e testare il modello. In Weka
è possibile lavorare con un solo insieme di dati alla volta. Questi ultimi, in genere,
vengono importati da un database, oppure, sono contenuti in un file in formato .CSV
88
5 Tool di Analisi Predittiva
Figura 5.6. L’interfaccia Explorer di Weka
(Comma-Separated Values - si tratta di un formato basato su file di testo utilizzato
per l’importazione ed esportazione di una tabella di dati). Dalla stessa scheda è
possibile svolgere operazioni di pre-processamento dei dati attraverso degli algoritmi
di filtraggio predefiniti, tramite i quali è possibile trasformare i dati cancellando o
modificando le varie istanze, al fine di rimuovere quelle che costituiscono semplice
“rumore”. Per ognuna di tali istanze è, inoltre, possibile cancellare o modificare i
diversi attributi che le costituiscono oppure, se necessario, aggiungerne di nuovi.
All’interno della scheda Classify, come mostrato in Figura 5.7, sono contenuti
gli algoritmi di classificazione e di regressione.
Da un apposito menù è possibile selezionare lo strumento da utilizzare per analizzare il dataset precedentemente elaborato. Viene data la possibilità di implementare
il modello attraverso il training dataset, oppure attraverso il test dataset. Quest’ultimo verrà prodotto automaticamente dopo pochi secondi dal momento in cui è
stato selezionato. Il menù Result List contiene il risultato dell’algoritmo, ossia, il
modello appena creato. Weka tiene traccia dei modelli precedentemente realizzati
in modo da poter effettuare dei confronti sui risultati. Il menù Classifier Output,
infine, contiene i risultati dell’elaborazione. Ciascun classificatore contiene una serie di opzioni le quali possono essere selezionate per modificare la costruzione del
modello in base alle varie esigenze.
La scheda Cluster contiene vari algoritmi di clustering come, ad esempio, diverse
implementazioni dell’algoritmo k-means. I modelli vengono gestiti, anche in questo
caso, come visto per la categoria di classificazione. Una volta creato il modello esso
viene salvato in un file con estensione .model. Tali modelli potranno essere modificati in seguito anche attraverso l’uso dell’ambiente di sviluppo di R, utilizzando i
metodi della libreria RWeka.
Una volta generato il modello sarà possibile sfruttarlo per l’analisi di nuove
5.3 Weka
89
Figura 5.7. Alcuni dei modelli di classificazione disponibili in Weka
istanze di dati. Un’interessante opzione è quella che consente di esportare la classe
che rappresenta il modello (in un file di formato .Jar) ed utilizzarla all’interno
di un programma scritto in Java, indipendentemente dall’interfaccia di Weka. Tale
opzione offre l’opportunità di implementare un modello di predizione ovunque se ne
abbia la necessità e rappresenta una delle funzionalità di maggior successo di Weka.
Le schede Associate, Select Attribute e Visualize, infine, contengono diversi strumenti tipici delle procedure di data mining e altri per la visualizzazione grafica dei
risultati. Questi ultimi metodi permettono di generare un grafico di dispersione,
ossia un tipo di grafico in cui due variabili di un set di dati sono riportate su uno
spazio cartesiano.
Ulteriore vantaggio offerto da Weka è la possibilità di utilizzare gli algoritmi
disponibili con grosse collezioni di dati, ossia, con i Big Data. Insieme alle più
recenti versioni di Weka (in particolare, quelle che vanno dalla Versione 3.7 in poi)
sono stati introdotti alcuni package che offrono la possibilità di realizzare una rete
di calcolo distribuito. Tra questi, il package distributedWekaBase contiene diverse
funzioni le quali implementano le metodologie di map e reduce, ma che non sono
vincolate ad alcuna particolare piattaforma. Il package distributedWekaHadoop,
90
5 Tool di Analisi Predittiva
inoltre, consente di utilizzare modelli realizzati tramite Weka in ambiente distribuito
per mezzo di un interfaccia con Hadoop.
5.4 Orange
Si tratta di un software open-source per la realizzazione di modelli di data mining
e machine learning scritto in Python (Figura 5.8). Orange è un tool di programmazione visuale; esso offre un linguaggio che consente la programmazione tramite la
manipolazione grafica degli elementi e non tramite sintassi scritta.
Figura 5.8. Il logo di Orange
Tale caratteristica lo rende uno strumento particolarmente indicato per coloro i quali non hanno familiarità con la programmazione, ma hanno comunque la
necessità di utilizzare uno strumento di predizione.
Orange fornisce una serie di strumenti utili per compiere diverse operazioni sui
dati. Essi vengono definiti widget e vengono impiegati per la visualizzazione ed il
pre-processing dei dati e per la creazione di modelli di previsione. Tali strumenti
possono essere utilizzati con modalità drag and drop, quindi trascinati all’interno
dell’area di lavoro e collegati tra di loro per formare un workflow, ossia, uno schema
che mostra l’ordine delle operazioni da effettuare. L’interfaccia di Orange è mostrata
in Figura 5.9. Ogni widget compie un’operazione specifica sui dati e comunica con
altri widget scambiando informazioni attraverso un “canale di comunicazione”. Per
ciascuno di essi, inoltre, sono disponibili diverse opzioni.
Alcuni widget vengono impiegati al fine di prelevare i dati da diverse fonti come,
ad esempio, quelli contenuti nei file sul disco. È questo il caso dell’elemento File.
Tramite una connessione tra elementi i dati vengono trasferiti da un widget all’altro. In questo modo è possibile trasferire le informazioni appena prelevate ai widget
Data Table e Scatter Plot. Il primo visualizza i dati prelevati sotto forma tabulare;
il secondo crea uno spazio a due dimensioni all’interno del quale è possibile rappresentare il dataset in memoria, dopo aver indicato gli attributi da inserire lungo
l’asse delle ascisse e lungo quello delle ordinate.
5.4 Orange
91
Figura 5.9. L’interfaccia grafica di Orange
Tra le varie categorie di widget, vengono messi a disposizione tutti quelli necessari per svolgere la maggior parte dei più comuni processi per l’analisi dei dati.
Tra questi, è possibile individuare strumenti quali: Naive Bayes, Logistic Regression,
Neural Network, k Nearest Neighbours, Classification Tree, SVM, Linear Regression,
e molti altri. Ognuno di essi ha lo scopo di costruire il corrispondente modello di
predizione utilizzando i dati messi a disposizione attraverso le connessioni. I dati possono essere suddivisi in training e test dataset, mediante lo strumento Data
Sampler, al fine di valutare l’efficacia del modello.
Dopo aver realizzato quest’ultimo, infine, è possibile effettuare previsioni in tempo reale sfruttando l’oggetto Predictions, il quale accetta in ingresso i dati ed il modello precedentemente realizzato e restituisce i risultati. I parametri dei vari modelli,
come anche gli attributi di maggiore interesse, possono essere definiti all’interno di
ogni widget attraverso un menù grafico. Il programma permette la connessione tra
due elementi per i quali l’output del primo è ammissibile come input per il secondo;
inoltre, impedisce la connessione tra elementi per i quali non è possibile interagire.
In questo modo lo sviluppo di modelli di previsione risulta essere particolarmente
efficiente ed intuitivo. I risultati di ogni previsione possono, inoltre, essere visualizzati per una rapida analisi visiva utilizzando strumenti per la visualizzazione, quali
Image Viewer, Go Browser, Scatter Plot, ed altri.
Le caratteristiche appena citate mettono in evidenza il principale punto di forza
di Orange, ossia la praticità. Mediante l’uso della programmazione visuale è possibile realizzare previsioni, sfruttando i dati in possesso, in poco tempo ed in maniera
intuitiva. Tra le possibilità offerte vi è anche quella di poter modificare il codice
sorgente Python di ciascun widget. In tal modo, possedendo le capacità di programmazione necessarie, è possibile modificare totalmente le procedure di default
del programma, sfruttandone a pieno le capacità. Per una maggiore accessibilità,
vengono, inoltre, rese disponibili alcune estensioni, le quali contengono procedure
già definite per realizzare previsioni in ambito medico, economico e scientifico.
92
5 Tool di Analisi Predittiva
5.5 Analisi Predittiva Basata sul Cloud Computing
Grazie alla diffusione dei vari tool, l’analisi predittiva, negli ultimi anni, è diventata
uno degli argomenti di ricerca di maggior interesse da parte delle compagnie. Il
diffondersi dei Big Data, inoltre, ha determinato la necessità di espandere le proprie
risorse hardware per beneficiare dei vantaggi offerti dall’analisi di tali informazioni.
Purtroppo, ciò non è sempre possibile per la maggior parte delle compagnie le quali
non hanno la capacità di analizzare grossi flussi di dati.
Per venire incontro alle esigenze computazionali richieste dall’analisi dei Big
Data le compagnie hanno modificato l’obiettivo dei loro investimenti dall’acquisto
di nuove risorse hardware e software al mondo dei servizi basati sul cloud [2].
Con il termine “ cloud computing ” si indica quel paradigma di erogazione di
risorse informatiche (come l’archiviazione, l’elaborazione o la trasmissione di dati) caratterizzato dalla disponibilità di tali risorse, su richiesta, attraverso Internet.
Sfruttando la tecnologia del cloud computing, gli utenti collegati ad un cloud provider (ossia, un fornitore di servizi attraverso Internet) possono usufruire di risorse quali unità di elaborazione e memorie di massa di macchine remote. Uno dei
principali vantaggi di tale tecnologia consiste nel poter accedere alle risorse remote
evitando ostacoli quali interfacce e protocolli di rete sconosciuti; è, cosı̀, possibile accedere ad ogni servizio anche tramite un semplice Internet browser. Esistono diverse
opportunità offerte dall’interazione tra l’analisi predittiva ed il cloud computing.
Implementare strumenti di previsione attraverso il cloud computing significa, per
una compagnia, acquistare piattaforme software, dati, applicazioni ed infrastrutture come se fossero un servizio offerto dal web. Ciò permette di investire su quello
che realmente viene utilizzato, incrementando o diminuendo le risorse in funzione
del carico computazionale richiesto. Gli strumenti necessari per affrontare le varie
problematiche vengono scelti dinamicamente in base al progetto attuale. Servendosi
dei servizi in rete non è necessario concentrare tutti i propri sforzi su uno specifico
tool. L’utentè avrà, infatti, la possibilità di scegliere il migliore tra i tool offerti dai
vari servizi per soddisfare, di volta in volta, le proprie necessità. Tali servizi vengono
offerti come fossero “scatole nere” (black-box ); l’utente non dovrà conoscere il funzionamento di ogni metodo: sarà sufficiente attivare il metodo ed il sistema restituirà
il risultato senza che egli debba necessariamente sapere quale tool ha implementato
l’algoritmo impiegato. I servizi basati sul cloud, inoltre, permettono l’integrazione
di strumenti di terze parti. Quest’ultima possibilità consente, ad esempio, di utilizzare strumenti quali Apache Mahout su nodi distribuiti situati in rete, senza la
necessità di dover possedere reti di calcolatori costosi.
L’accesso ai Big Data costituisce un ulteriore vantaggio offerto dal cloud computing. Molte sorgenti dei Big Data, infatti, sono disponibili esclusivamente all’interno
del cloud. Ciò permette di usufruire di tali informazioni senza la necessità di grosse
banche dati, indispensabili per contenerle. Una simile soluzione incrementa la velocità con cui i vari modelli di previsione possono essere creati; ciò garantisce una
maggiore possibilità di testing del modello stesso da parte dell’utente.
Esistono diverse soluzioni offerte per coniugare le potenzialità dell’analisi predittiva con quelle del cloud computing. Tra queste, la piattaforma Microsoft Azure
può offrire un supporto per lo sviluppo di modelli di predizione. Azure permette lo
sviluppo di applicazioni e servizi all’interno di una rete di data center; essa inoltre,
5.5 Analisi Predittiva Basata sul Cloud Computing
93
supporta diversi linguaggi di programmazione. All’interno di Azure sono contenute
diverse soluzioni quali HDInsight ed Azure Machine Learning. Il primo rappresenta
la distribuzione proprietaria di Hadoop appartenente a Microsoft, basata su nodi
distribuiti all’interno del cloud. Esso fornisce delle interfacce capaci di creare cluster
Hadoop, di elaborare Big Data, di sviluppare soluzioni tramite dati di streaming o
cronologici e di analizzare i risultati. Si tratta della soluzione di Microsoft al problema dei Big Data. Esso comprende strumenti utili all’analisi dei dati quali Hive e
Mahout.
Il secondo strumento permette di costruire e testare direttamente una soluzione
di analisi predittiva. Una volta sviluppata, sarà possibile pubblicare tale soluzione
come metodo il quale potrà essere richiamato localmente mediante delle Web API
(ossia, un interfaccia per applicazioni distribuite basata sul protocollo di comunicazione REST, accessibile anche dal browser). Attraverso interfacce testuali e grafiche,
come mostrato in Figura 5.10, è possibile sfruttare tali strumenti al fine di realizzare
applicazioni (secondo il paradigma di Hadoop) per l’analisi dei Big Data a scopo
predittivo.
Figura 5.10. L’interfaccia grafica di Azure Machine Learning
Grazie alle direttive di entrambi, è possibile gestire qualunque tipologia di
dataset, sia strutturato che non strutturato.
Un’ulteriore soluzione di cloud coumputing è offerta dalla piattaforma Google
Cloud Platform (Figura 5.11). Anch’essa offre una serie di strumenti, tra cui, Google
Prediction API. Si tratta di un interfaccia Web API la quale di accedere agli algoritmi di machine learning di Google e permette di fare previsioni su dati provenienti
da varie fonti.
Attraverso l’interfaccia Web è possibile importare collezioni di dati e creare
le proprie applicazioni in linguaggio Python o, in alternativa, richiamare uno dei
metodi per la creazione di modelli di previsione già esistenti. La Figura 5.12 mostra
l’implementazione, da parte del client, di un modello di classificazione attraverso la
sintassi richiesta per richiamare il metodo.
94
5 Tool di Analisi Predittiva
Figura 5.11. Il logo di Google Cloud Platform
Figura 5.12. Metodo richiamato dall’interfaccia di Google Prediction API
Dall’interfaccia è, infine, possibile accedere a diversi metodi per il testing del
modello e la visualizzazione dei risultati.
Grazie all’accesso a tali strumenti, l’analisi predittiva basata sul cloud rappresenta la soluzione più rapida e meno costosa per sfruttare a pieno tutti i vantaggi
del mondo dei Big Data.
6
Case study: Utilizzo di R per Predire i Ritardi dei
Voli
Nel seguente capitolo verranno esaminate, da un punto di vista pratico, tutte le
tematiche finora affrontate, le quale riguardano lo svolgimento del processo di analisi
predittiva. Nell’esempio proposto verrà affrontato il problema della previsione dei
tempi di attesa in aeroporto. I dati utilizzati a tale scopo verranno prelevati da una
fonte liberamente disponibile sul Web. Lo strumento impiegato per implementare il
modello di previsione scelto, infine, sarà il tool di analisi dei dati denominato R.
6.1 Introduzione
Al fine di illustrare lo svolgersi di un processo di analisi predittiva, verrà affrontato
un caso di studio di interesse comune, ossia la previsione dei tempi di attesa in
aeroporto.
Per tutte le fasi del progetto verrà utilizzato il tool di data mining chiamato
R, il quale comprende un ambiente di sviluppo ed un proprio linguaggio di programmazione. La scelta di tale strumento è determinata dalla sua versatilità. Esso,
infatti, contiene molti metodi i quali implementano procedure utili per il trattamento dei dati e per la definizione dei modelli di predizione. Per tale motivo, R si
adatta perfettamente allo scopo di realizzare una previsione partendo da semplici
dati grezzi.
Il percorso da seguire, per la realizzazione di un processo di analisi predittiva,
prevede diverse fasi indispensabili per il successo dell’intero procedimento. La prima
parte consiste nella definizione degli obiettivi della predizione. Comprendere a pieno
l’evento che si vuole prevedere è fondamentale per effettuare la scelta del modello
più adatto. La fase successiva consiste nello stadio di acquisizione ed elaborazione
dei dati. Quest’ultima si divide in più sotto-fasi le quali porteranno ad ottenere una
collezione di dati che potranno essere utilizzati per l’“addestramento” ed il testing
del modello. In seguito, infatti, il dataset ottenuto dal filtraggio dei dati grezzi
iniziali verrà suddiviso in due gruppi, ossia il training dataset ed il test dataset.
Dopo aver costruito il modello, infine, l’ultimo stadio prevede la valutazione dei
risultati ottenuti e, di conseguenza, della veridicità del modello di previsione. Di
seguito verranno esposte le varie fasi appena citate.
96
6 Case study: Utilizzo di R per Predire i Ritardi dei Voli
6.2 Definizione degli Obiettivi ed Acquisizione dei Dati
L’obiettivo della previsione è il punto di partenza sul quale focalizzare l’attenzione
durante la fase iniziale. Nel caso preso in esame si intende prevedere l’intervallo
temporale che potrebbe intercorre tra l’orario previsto per l’atterraggio di un aereo
e l’orario reale di arrivo. Poichè si tratta di un valore numerico, e non di uno tra
più possibili esiti predeterminati, il problema dovrà essere affrontato mediante un
algoritmo di regressione lineare, piuttosto che con un algoritmo di classificazione.
Ciò mette in evidenza l’importanza di riconoscere il tipo di variabile che si intende
prevedere.
Il processo di analisi predittiva viene generalmente effettuato partendo da dati
provenienti da diverse fonti. Uno dei passi fondamentali consiste nel determinare
quali, tra le informazioni provenienti da tali sorgenti, includere durante la realizzazione del modello. Scegliere dati pertinenti all’obiettivo permette di realizzare
previsioni di carattere pratico oltre che puramente matematico. Nel caso in esame, i
dati prelevati contengono informazioni relative ai voli effettuati lungo le rotte aeree
dello stato di New York, durante i primi quattro mesi del 2015.
Si tratta di un enorme dataset contenente diverse informazioni riguardo ogni
specifico volo. Ciascuna di tali informazioni viene raccolta e resa pubblica dalle
compagnie aeroportuali, dunque può essere facilmente reperibile per replicare il
processo di previsione. Tra i dati raccolti vi sono informazioni temporali, quali
anno, mese e giorno in sui è stato effettuato ogni volo, informazioni riguardanti
il mezzo aereo ed informazioni sulle partenze, sugli arrivi e sullo stato del volo.
Vengono inoltre riportate le possibili cause di ritardo per ogni tratta, indicando,
per ciascuna di esse il tempo (in minuti) relativo alla stessa. Tali informazioni sono
state riportate in formato tabulare: ogni riga corrisponde ad un’osservazione relativa
ad un volo, mentre ogni colonna rappresenta un attributo contenente le informazioni
appena citate. La Tabella ?? mostra nel dettaglio gli attributi prelevati e la relativa
descrizione.
I dati sono contenuti in un file in formato Comma-separated values (.CSV) e
prelevati mediante l’istruzione:
> aeroporto_2015 <- read.csv("file_aeroporto".csv")
Sono state raccolte, in totale, 178.375 osservazioni, ciascuna contenente 32 attributi (riportati nella Tabella 6.1, corrispondenti ad ogni volo effettuato in quattro
mesi, come mostrato in Figura 6.1.
Un’analisi ancora più approfondita richiederebbe dati relativi ad osservazioni
raccolte durante mesi precedenti a quelli già incluse nel dataset. Un’ulteriore quantià di osservazioni determina una maggiore precisione del modello di previsione. La
raccolta di dati relativi a periodi storici sempre più lontani nel passato, tuttavia, pur
migliorando l’affidabilità della previsione, richiede una maggiore quantità di memoria per contenere tali dati. È, dunque, necessario trovare il migliore compromesso
tra i due vantaggi appena citati.
6.2 Definizione degli Obiettivi ed Acquisizione dei Dati
Attributo
97
Descrizione
YEAR
Anno in cui viene effettuato il volo
MONTH
Mese in cui viene effettuato il volo
DAY OF MONTH
Giorno in cui viene effettuato il volo
DAY OF WEEK
Giorno della settimana in cui viene effettuato il volo
UNIQUE CARRIER
Codice identificativo del velivolo
CARRIER
Codice identificativo del velivolo, assegnato da IATA
FL NUM
Codice assegnato al volo
ORIGIN AIRPORT ID
Codice identificativo dell’aeroporto di partenza
ORIGIN
Nome dell’aeroporto di partenza
ORIGIN CITY NAME
Città di appartenenza dell’aeroporto di partenza
ORIGIN STATE
Stato di appartenenza dell’aeroporto di partenza
DEST AIRPORT ID
Codice identificativo dell’aeroporto di arrivo
DEST
Nome dell’aeroporto di arrivo
DEST CITY NAME
Città di appartenenza dell’aeroporto di arrivo
DEST STATE
Stato di appartenenza dell’aeroporto di arrivo
CRS DEP TIME
Orario di partenza previsto
DEP TIME
Orario di partenza reale
DEP DELAY
Differenza tra l’orario di partenza previsto e quello reale
CRS ARR TIME
Orario di arrivo previsto
ARR TIME
Orario di arrivo reale
ARR DELAY
Differenza tra l’orario di arrivo previsto e quello reale
CANCELLED
Booleano: 1 se il volo è stato cancellato
CANCELLATION CODE
Codice della cancellazione
DIVERTED
Booleano: 1 se il volo è stato dirottato
CRS ELAPSED TIME
Durata del volo prevista
ACTUAL ELAPSED TIME
Durata del volo reale
DISTANCE
Distanza percorsa (miglia)
CARRIER DELAY
Ritardo nel carico dei bagagli, in minuti
WEATHER DELAY
Ritardo dovuto a condizioni meteorologiche, in minuti
NAS DELAY
Ritardo per congestione del National Aviation System, in minuti
SECURITY DELAY
Ritardo dovuto a motivi di sicurezza, in minuti
LATE AIRCRAFT DELAY
Ritardo dovuto a precedenti ritardi, in minuti
DIV ARR DELAY
Differenza tra l’orario previsto e quello reale per voli dirottati
Tabella 6.1. Attributi relativi alle osservazioni
Figura 6.1. Dataset prelevato all’interno dell’ambiente di sviluppo di R
98
6 Case study: Utilizzo di R per Predire i Ritardi dei Voli
Prima di sfruttare i dati a disposizione, per la creazione del modello, è necessario
effettuare un’operazione di analisi su di essi per assicurarsi che siano compatibili
con quelli richiesti dal modello di previsione scelto.
6.3 Analisi e Preparazione dei Dati
Gli attributi contenuti all’interno del dataset non sono sempre tutti utili per la realizzazione del modello. Alcuni di essi, infatti, devono essere necessariamente rimossi
prima di procedere ulteriormente con l’analisi dei dati. Nel caso in esame, in cui
è stato scelto di impiegare un modello di regressione lineare al fine di realizzare
la previsione, gli attributi di valore testuale non possono essere utilizzati e devono
essere obbligatoriamente rimossi. Mediante il metodo str() è possibile visualizzare
la struttura interna di un qualsiasi oggetto in R:
> str(aeroporto_2015)
’data.frame’: 178375 obs. of 37 variables:
$ YEAR
: int 2015 2015 2015 2015 2015 2015 2015 2015 2015 2015 ...
$ MONTH
: int 1 1 1 1 1 1 1 1 1 1 ...
$ DAY_OF_MONTH
: int 1 2 3 4 5 6 7 8 9 10 ...
$ DAY_OF_WEEK
: int 4 5 6 7 1 2 3 4 5 6 ...
$ UNIQUE_CARRIER
: chr "AA","B6","DL",..: 1 1 1 1 1 1 1 1 1 1 ...
$ CARRIER
: chr "AA","B6","DL",..: 1 1 1 1 1 1 1 1 1 1 ...
$ FL_NUM
: int 1 1 1 1 1 1 1 1 1 1 ...
$ ORIGIN_AIRPORT_ID : int 12478 12478 12478 12478 12478 12478 12478 12478 12478 12478 ...
$ ORIGIN
: chr "ABQ","ALB","ATL",..: 44 44 44 44 44 44 44 44 44 44 ...
$ ORIGIN_CITY_NAME : chr "Aguadilla, PR",..: 56 56 56 56 56 56 56 56 56 56 ...
$ ORIGIN_STATE_ABR : chr "AL","AR","AZ",..: 25 25 25 25 25 25 25 25 25 25 ...
$ DEST_AIRPORT_ID : int 12892 12892 12892 12892 12892 12892 12892 12892 12892 12892 ...
$ DEST
: chr "ABQ","ALB","ATL",..: 46 46 46 46 46 46 46 46 46 46 ...
$ DEST_CITY_NAME
: chr "Aguadilla, PR",..: 47 47 47 47 47 47 47 47 47 47 ...
$ DEST_STATE_ABR
: chr "AL","AR","AZ",..: 4 4 4 4 4 4 4 4 4 4 ...
$ CRS_DEP_TIME
: int 900 900 900 900 900 900 900 900 900 900 ...
$ DEP_TIME
: int 855 850 853 853 853 856 859 856 901 903 ...
$ DEP_DELAY
: num -5 -10 -7 -7 -7 -4 -1 -4 1 3 ...
$ CRS_ARR_TIME
: int 1230 1230 1230 1230 1230 1235 1235 1235 1235 1235 ...
$ ARR_TIME
: int 1237 1211 1151 1218 1222 1300 1221 1158 1241 1235 ...
$ ARR_DELAY
: num 7 -19 -39 -12 -8 25 -14 -37 6 0 ...
$ CANCELLED
: num 0 0 0 0 0 0 0 0 0 0 ...
$ CANCELLATION_CODE : chr "","A","B","C",..: 1 1 1 1 1 1 1 1 1 1 ...
$ DIVERTED
: num 0 0 0 0 0 0 0 0 0 0 ...
$ CRS_ELAPSED_TIME : num 390 390 390 390 390 395 395 395 395 395 ...
$ ACTUAL_ELAPSED_TIME: num 402 381 358 385 389 424 382 362 400 392 ...
$ DISTANCE
: num 2475 2475 2475 2475 2475 ...
$ CARRIER_DELAY
: num NA NA NA NA NA 0 NA NA NA NA ...
$ WEATHER_DELAY
: num NA NA NA NA NA 0 NA NA NA NA ...
$ NAS_DELAY
: num NA NA NA NA NA 25 NA NA NA NA ...
$ SECURITY_DELAY
: num NA NA NA NA NA 0 NA NA NA NA ...
$ LATE_AIRCRAFT_DELAY: num NA NA NA NA NA 0 NA NA NA NA ...
$ FIRST_DEP_TIME
: int NA NA NA NA NA NA NA NA NA NA ...
$ TOTAL_ADD_GTIME : num NA NA NA NA NA NA NA NA NA NA ...
$ LONGEST_ADD_GTIME : num NA NA NA NA NA NA NA NA NA NA ...
$ DIV_ARR_DELAY
: num NA NA NA NA NA NA NA NA NA NA ...
Osservando la tipologia di ogni variabile, appare evidente come sarà necessario rimuovere gli attributi UNIQUE CARRIER, CARRIER, ORIGIN, ORIGIN CITY NAME,
ORIGIN STATE ABR, DEST, DEST CITY NAME, DEST STATE ABR in quanto non assumono valori numerici. Il metodo subset() restituisce una tabella formata da
un sottoinsieme degli attributi della tabella aeroporto 2015, eliminando quelli
indicati:
> aeroporto_2015 <- subset(aeroporto_2015, select = -c(UNIQUE_CARRIER, CARRIER, ORIGIN,
ORIGIN_CITY_NAME, ORIGIN_STATE_ABR, DEST, DEST_CITY_NAME, CANCELLATION_CODE))
È bene notare come l’attributo DEST STATE ABR, pur costituito da valori testuali, non è stato eliminato per conservare informazioni relative all’aeroporto di
6.3 Analisi e Preparazione dei Dati
99
partenza. Si osserva come tale attributo presenti valori discreti e, per questo motivo, può essere ancora utilizzato, in un modello di regressione lineare, se tali valori
vengono associati ad alcuni indici numerici tramite il metodo factor(). Mediante quest’ultimo, ciascun valore alfabetico verrà assegnato ad un indice numerico;
dunque, sarà possibile usare la variabile DEST STATE ABR:
> > aeroporto_2015$CANCELLATION_CODE <- factor(aeroporto_2015$CANCELLATION_CODE)
Usando il metodo summary(), il quale restituisce il numero di osservazioni corrispondenti ad ogni possibile valore discreto di una variabile, è possibile determinare
il numero di osservazioni relativo ad ogni valore discreto di DEST STATE ABR:
> summary(aeroporto_tot$ORIGIN_STATE_ABR)
AL
AR
AZ
CA
CO
FL
GA
HI
IL
183 288 928 8520 1506 22012 6093 101 7836
NH
NJ
NM
NV
NY
OH
OR
PA
PR
176 572
79 1544 90911 2584 227 340 1893
IN
KY
LA
MA
MD
129 521 857 5125 1962
SC
TN
TX
UT
VA
769 1173 4758 699 3904
ME
MI
355 3237
VI
VT
231 379
MN
MO
NC
942 1083 5438
WA
WI
WY
593 386
2
NE
39
Il risultato del metodo mostra come CANCELLATION CODE possa assumere esclusivamente 39 valori possibili, i quali rappresentano alcuni dei codici che vengono attribuiti ai diversi aeroporti in tutto il mondo dalla IATA (International Air Transport
Association).
Poichè all’interno dei dati prelevati, sono presenti, tra i vari attributi, informazioni numeriche sul ritardo che ha caratterizzato ogni volo, l’algoritmo che verrà scelto
per la realizzazione del modello sarà un algoritmo di apprendimento supervisionato. Al fine di indicare esplicitamente tale intervallo temporale è utile evidenziare
un attributo di uscita il quale rappresenta il ritardo e che costituirà la variabile di
restituzione del modello. Tale valore sarà dato dall’intervallo di attesa prima dell’arrivo di ogni aereo (ARR DELAY) e verrà , per convenienza, rinominato come OUTPUT
mediante la sintassi:
> colnames(aeroporto_2015)[colnames(aeroporto_2015)=="ARR_DELAY"] <- "OUTPUT"
> aeroporto_2015 <- subset(aeroporto_2015, select = -c(YEAR, FL_NUM, ORIGIN_AIRPORT_ID, DEST_AIRPORT_ID))
L’attributo OUTPUT rappresenta, dunque, la variabile indipendente. Esso potrà, inoltre, indicare eventuali anticipi mediante valori negativi. I restanti attributi
rappresenteranno, invece, le variabili indipendenti del modello.
Dopo aver definito attributi dipendenti ed indipendenti, è necessario esaminare
il dataset al fine di individuare le variabili le quali hanno un reale impatto nel determinare il ritardo di arrivo di un aereo. Tale operazione, in casi più complessi, viene
svolta mediante l’intervento di esperti del settore. In questo caso verranno rimosse
le variabili, le quali, intuitivamente, non rappresenteranno una possibile causa del
mancato rispetto dell’orario di arrivo previsto per ogni aereo. Le variabili YEAR, FL
NUMBER, ORIGIN AIRPORT ID, DEST AIRPORT ID e DISTANCE risultano non avere
alcun peso su tale ritardo, verranno quindi rimosse mediante la seguenti istruzione:
Il dataset modificato in tale maniera contiene esclusivamente valori numerici i
quali hanno, quasi tutti, un impatto nel determinare i tempi di ritardo di un viaggio
100
6 Case study: Utilizzo di R per Predire i Ritardi dei Voli
aereo. L’attributo CANCELLED non è stato eliminato in quanto, mediante un valore
booleano, indica i voli cancellati per qualche motivo. Non avendo tali osservazioni
alcun utilizzo nel descrivere una lista di voli, i quali possono o no aver subito un
ritardo, devono essere eliminati. Verrà, dunque, usato il valore CANCELLED = 1 per
individuare le tuple relative ad ogni volo mai arrivato a destinazione. Tali tuple
dovranno essere rimosse mediante il comando:
> aeroporto_2015 <- aeroporto_2015[!(aeroporto_2015$CANCELLED == 1), ]
> aeroporto_2015 <- subset(aeroporto_2015, select = -c(CANCELLED))
Poichè, infine, i restanti valori dell’attributo CANCELLED saranno esclusivamente
valori nulli, tale attributo potrà essere eliminato.
6.4 Estrazione di Nuove Variabili
Durante la realizzazione di un modello di previsione si tenta di recuperare quante
più informazioni possibili al fine di ottenere risultati particolarmente accurati. In
genere, un’organizzazione che possiede dati propri tenta di integrare questi ultimi,
precedentemente analizzati, con dati provenienti da fonti esterne. Nel caso in esame,
si vuole aggiungere, ai dati già prelevati ed analizzati, delle informazioni riguardanti
l’intervallo di tempo tra la data di partenza del volo, il quale può aver subito un
ritardo, ed il giorno festivo più vicino. Si vuole mettere in evidenza il fatto che il
tempo di arrivo di un mezzo aereo possa essere influenzato da festività recenti o in
arrivo.
Per determinare la presenza di festività vicine al giorno della partenza, viene
creato un vettore all’interno del quale si riportano le date dei giorni festivi a partire
dagli ultimi mesi del 2014 fino ai primi mesi del 2015:
> vacanze <- c(’2015-01-01’, ’2015-01-06’, ’2015-02-17’, ’2014-10-30’, ’2014-12-06’, ’2014-12-24’, ’2014-12-25’)
> vacanze <- as.Date(vacanze)
Il comando as.Date() converte il vettore di stringhe in un vettore di date.
Lo scopo è quello di creare un nuovo attributo del data frame aeroporto 2015,
chiamato GiorniVacanze. Per ogni osservazione, verrà confrontata la data relativa
ad essa con ogni data contenuta del vettore in cui sono riportati i giorni festivi. Alla
data di ogni volo, dunque, verrà associata la differenza, in giorni, con la festività
più vicina, e tale quantità sarà aggiunta come nuovo attributo del data frame. L’operazione finora descritta verrà effettuata mediante l’uso di una funzione. R infatti,
essendo, a tutti gli effetti, un linguaggio di programmazione, permette la realizzazione di funzioni personalizzate per affrontare un problema al quale gli sviluppatori
non hanno previsto soluzioni. Ciò rende stesso R un sistema per l’analisi dei dati
molto potente e versatile. La funzione verrà creata mediante la seguente sintassi:
6.4 Estrazione di Nuove Variabili
101
> GiorniAlleVacanze <- function(mese, giorno) {
anno <- ’2015’;
data <- as.Date(paste(anno,mese,giorno,sep = ’-’));
numGiorni <- as.numeric(min(abs(data-vacanze)));
return(numGiorni);
}
dove il costrutto function introduce la definizione della funzione, la quale accetterà in ingresso il mese e il giorno in cui è stato effettuato ogni volo (ossia, i primi
due attributi di ogni osservazione) e restituirà la minore tra le differenze, in giorni,
tra tale data e ogni data del vettore delle date festive (denominato vacanze). Il
metodo paste() serve a comporre una stringa a partire da più stringhe, le quali,
in tal caso, saranno costituite dai parametri mese e giorno forniti alla funzione. La
stringa numGiorni <- as.numeric(min(abs(data-vacanze))) contiene i metodi
abs() il quale preleva il valori assoluti della differenze tra l’elemento data ed ogni
elemento del vettore vacanze (ogni differenza potrà essere positiva, se la data confrontata è precedente a quella dell’osservazione, oppure negativa, nel caso contrario)
ed il metodo min(), il quale preleva la più piccola tra tali differenze.
La funzione cosı̀ definita potrà essere, infine, utilizzata sui dati appartenenti ad ogni osservazione al fine di associare a quest’ultima il valore di restituzione
numGiorni. Ciò può essere realizzato mediante il metodo mapply(), il quale, come primo parametro, invoca la funzione indicata per ogni coppia di elementi delle
colonne MONTH e DAY OF MONTH; il risultato sarà aggiunto alla rispettiva tupla.
> aeroporto_2015$GiorniVacanze <- mapply(GiorniAlleVacanze, aeroporto_2015$MONTH, aeroporto_2015$DAY_OF_MONTH)
> matrice_correlazioni <- cov(aeroporto_2015)
Il dataset cosı̀ ottenuto conterrà un’ulteriore informazione la quale fornirà un
ulteriore punto di forza alla veridicità del modello.
Dopo aver ottenuto tutti gli attributi con cui si intende implementare il modello,
è bene verificare alcune delle ipotesi che sono state assunte durante la definizione del
modello di regressione lineare. Tra tali ipotesi, la più importante è quella che prevede
la mancanza di un’elevata correlazione statistica tra gli attributi del dataset. Essa
viene definita ipotesi di multicollinearità ed è importante per garantire il calcolo
di coefficienti di regressione coerenti. Tale ipotesi può essere verificata mediante
il metodo cor(). Quest’ultimo crea una matrice quadrata le cui righe e colonne
contengono gli attributi del dataset; per ogni elemento di tale matrice, il metodo
fornisce la covarianza di ogni coppia di attributi:
Utilizzando tale matrice, mostrata in Figura 6.2, è possibile individuare gli
attributi statisticamente correlati tra di loro.
Sfruttando il medoto findCorrelation(), contenuto nel pacchetto caret, è
possibile ottenere suggerimenti sugli attributi che dovrebbero essere eliminati per
garantire un basso livello di correlazione tra gli attributi del dataset:
102
6 Case study: Utilizzo di R per Predire i Ritardi dei Voli
Figura 6.2. Matrice delle correlazioni tra gli attributi del dataset
> findCorrelation(matrice_correlazioni, cutoff = 0.75)
[1] 4 7 13 11
Il metodo findCorrelation() restituisce un vettore contenente la posizione
degli attributi i quali possiedono una correlazione reciproca maggiore del 75%. Essi
corrispondono alle variabili CRS DEP TIME, CRS ARR TIME, CRS ELAPSED TIME e
DISTANCE. Questi ultimi dovranno essere necessariamente eliminati al fine di favorire
la precisione di quest’ultimo.
> aeroporto_2015 <- subset(aeroporto_2015, select = -c(CRS_DEP_TIME, CRS_ARR_TIME, CRS_ELAPSED_TIME, DISTANCE))
Dopo aver eliminato tali valori, il comando findCorrelation() non indica più
altri attributi correlati; i restanti potranno, dunque, essere utilizzati.
6.5 Suddivisione dei Dati ed Implementazione del Modello
Dopo aver realizzato il dataset, includendo i dati che plausibilmente concorrono a
determinare le cause dei ritardi nei voli, è possibile utilizzare tali dati per la creazione
del modello. Esso servirà a realizzare previsioni su dati ancora sconosciuti. A tal
fine sarà necessario suddividere il dataset comprendente tutte le osservazioni in due
parti, ossia il training dataset ed il test dataset. Il primo servirà all’addestramento
del modello ed al calcolo dei coefficienti di regressione e sarà costituito dalla maggior
parte delle osservazioni (è necessaria almeno una percentuale pari al 70% dei dati). Il
secondo gruppo verrà impiegato, in seguito, per verificare la veridicità dei risultati e
sarà costituito dalla parte restante del dataset. Il numero di osservazioni per ciascun
gruppo può essere calcolato mediante i comandi:
> dimensione_trainSet <- round(nrow(aeroporto_2015) * 0.7)
> dimensione_testSet <- nrow(aeroporto_2015) - dimensione_trainSet
In tal modo alla variabile dimensione trainSet, verrà associata la quantità di
osservazioni appartenenti al training dataset (pari a 116.573 osservazioni), mentre
la variabile dimensione testSet conterrà il numero di osservazioni del test dataset
(49.960 elementi).
6.5 Suddivisione dei Dati ed Implementazione del Modello
103
È importante, a questo punto, considerare l’ordine con il quale i vari dati vengono prelevati e collocati nei due gruppi. Realizzare un training dataset, utilizzando
rispettivamente, le prime osservazioni del dataset di partenza, infatti, non è sempre una scelta possibile. Osservando la tabella aeroporto 2015 è possibile notare
come i vari dati siano ordinati secondo il mese in cui sono stati prelevati. Se ottenuta in quest’ordine, una tale collezione di dati non permette la realizzazione di
un modello di previsione valido in quanto il training dataset deve, necessariamente,
contenere informazioni relative all’intera collezioni dei dati di partenza. Impiegando, invece, esclusivamente le prime 116.573 osservazioni, relative ai primi mesi, il
modello non riusulterà essere realmente rappresentativo della totalità delle informazioni disponibili. Una possibile soluzione è quella di prelevare le informazioni da
collocare nel training dataset in maniera casuale. Ciò viene realizzato mediante i
seguenti comandi:
> set.seed(123)
> indici_casuali <- sample(seq_len(length = nrow(aeroporto_2015)), size = dimensione_trainSet)
> trainSet <- aeroporto_2015[indici_casuali, ]
> testSet <- aeroporto_2015[-indici_casuali, ]
> model <- lm(formula = trainSet$OUTPUT ~ . , data=trainSet)
Tra questi comandi citiamo il metodo seq len(length), che genera una sequenza casuale di lunghezza length (in questo caso pari alla dimensione del dataset di partenza). Quest’ultima viene assegnata al metodo sample(seq, size).
Esso è un generatore che preleva dalla sequenza seq un campione di indici pari
a dimensione trainSet in maniera pseudo-casuale, dopo essere stato inizializzato
assegnando un opportuno valore seed (seme). Ogni volta che si usa lo stesso seme,
si otterrà sempre la stessa identica sequenza. La sequenza casuale indici casuali
viene utilizzata, infine, per prelevare le osservazioni che faranno parte del training
dataset trainSet, in maniera casuale. Le restanti saranno assegnate al test dataset
chiamato testSet.
Dati questi ultimi, è, dunque, possibile realizzare il modello di regressione lineare mediante la funzione lm() la quale, presi in ingresso la variabile dipendente trainSet$OUTPUT ed il training dataset, ricava automaticamente i coefficienti
di regressione. Ciascuno di quest’ultimi misura il cambiamento nel valore (medio) di OUTPUT associato ad un cambiamento di una unità dell’n-esima variabile
indipendente, mantenendo costanti tutte le altre variabili.
La variabile model rappresenta l’implementazione pratica del modello di regressione lineare.
Mediante quest’ultima è possibile cominciare ad effettuare previsioni vere e proprie. Prima di considerare il modello come valido a tutti gli effetti è necessario
effettuare delle prove su di esso. La prima e più importante consiste nel fornire al
modello stesso i dati contenuti nel test dataset precedentemente realizzato. In tal
modo i risultati potranno essere confrontati con quelli emersi dall’implementazione
con il training dataset. Se questi ultimi due risultati risulteranno essere simili tra di
104
6 Case study: Utilizzo di R per Predire i Ritardi dei Voli
loro, il modello potrà essere considerato affidabile. La sintassi per l’implementazione
del modello è la seguente:
> predizione <- predict(model, testSet, interval="predict", level=.95)
L’attributo level indica il livello di confidenza del modello. La Figura 6.3 mostra
la tabella dei risultati restituiti. Nella colonna fit vengono mostrati i risultati
previsti per per la variabile OUTPUT (viene visualizzato il valore NA se non è previsto
alcun ritardo), mentre, le colonne lwr e upr mostrano l’intervallo dentro il quale
possono ricadere i possibili risultati a causa dell’errore.
Figura 6.3. Risultati della Previsione
Per praticità, sarà utile affiancare i valori previsti con quelli osservati. Se la
maggior parte di essi risulteranno essere relativamente simili tra di loro il modello
potrà essere considerato valido e potrà essere impiegato per realizzare previsioni.
Al fine di realizzare un’analisi approfondita è possibile realizzare ulteriori prove le
quali garantiranno, in futuro, una maggiore precisione dei risultati.
6.6 Analisi della Regressione
Prima di utilizzare il modello appena realizzato con dati attuali è bene effettuare ulteriori prove per verificare la sua correttezza. Una simile verifica può essere
realizzata ricorrendo ad alcuni metodi statistici.
6.6 Analisi della Regressione
105
La variabile dipendente nell’equazione di regressione è modellata come una funzione delle variabili indipendenti, più un termine d’errore, attraverso il metodo dei
“minimi quadrati” (OLS). Una volta costruito un modello di regressione, è importante confermarne la bontà mediante test statistici effettuati sulla base di ipotesi
riguardanti la distribuzione di probabilità degli errori. Tra tali test il più comune è
l’analisi dei residui [1].
Si definisce residuo ei della regressione la differenza tra il valore osservato OUTPUT
(del training dataset) e lo stesso valore previsto dal modello. Il grafico dei residui è
un diagramma di dispersione con i residui sull’asse delle ordinate ed i valori stimati
sull’asse delle ascisse. L’analisi di tali residui risulta essere di particolare importanza
quando si tenta di costruire un modello di regressione lineare valido; essa permette
di valutare se il modello di regressione impiegato è adeguato per l’analisi dell’insieme
dei dati considerato.
Tale analisi prevede di verificare la validità delle assunzioni ipotizzate durante
un processo di regressione lineare (distribuzione normale degli errori, ovvero dei
residui, omogeneità delle varianze d’errore, indipendenza degli errori dai valori della
variabile indipendente). L’analisi può essere effettuata grazie al linguaggio R il quale
offre la funzione plot().
> plot(model)
Essa restituisce una serie di grafici sui quali è possibile effettuare alcune verifiche
al fine di garantire la qualità del modello. In Figura 6.4 viene illustrato il primo di
tali grafici.
Esso mostra gli errori residui sull’asse delle ordinate ed i valori stimati della
variabile dipendente sull’asse delle ascisse; esso rappresenta, dunque, il grafico dei
residui. Quest’ultimi devono essere distribuiti in modo simmetrico attorno alla linea
orizzontale che rappresenta la linea di regressione; in altre parole, non dovrebbe
esserci una netta tendenza nella distribuzione dei punti. Ciò verifica l’ipotesi che gli
errori (residui) sono normalmente distribuiti. Nel caso in esame, i residui risultano
essere, per la maggior parte, vicini alla linea di regressione, salvo alcune eccezioni
(valori outlier ).
In Figura 6.5 viene mostrato il grafico Q-Q plot. Si tratta di un grafico che confronta i valori dei residui standardizzati (quantile reale) con una linea che individua
la loro distribuzione normale (quantile teorico). La standardizzazione si ottiene dividendo il valore di ogni residuo per la deviazione standard dello stesso residuo.
Tale grafico rappresenta una figura per cui se i punti si distribuiscono sulla linea la
distribuzione dei residui risulta normale, e quindi la regressione rappresenta un modello adeguato. Anche in questo caso, il modello risulta essere affidabile in quanto
la maggior parte dei punti ricade lungo la curva.
In Figura 6.6 viene mostrato un ulteriore grafico che mostra la radice quadrata
dei residui standardizzati in funzione dei valori stimati. Anche in questo caso non
ci deve essere alcuna tendenza evidente in questo grafico, ossia un eccessivo numero
di valori outlier.
In Figura 6.7, infine, viene mostrato un grafico che mostra il valore di leverage dei
punti stimati. Tale parametro, il cui valore varia tra 0 ed 1, è una misura di quanto
un dato valore della variabile indipendente si discosta dalla sua media. Il valore
106
6 Case study: Utilizzo di R per Predire i Ritardi dei Voli
Figura 6.4. Residual vs Fitted
Figura 6.5. Q-Q plot
6.6 Analisi della Regressione
107
Figura 6.6. Scale-Location
di leverage dei punti rappresenta una misura dell’importanza dell’osservazione nel
determinare il risultato del modello di regressione. I punti spostati a destra ed in
alto sono quelli che hanno peso maggiore sulla regressione. Sovrapposte al plot ci
sono alcune linee di contorno le quali permettono di misurare la distanza di Cook.
Quest’ultima rappresenta un’altra misura dell’importanza di ciascuna osservazione
rispetto alla regressione: valori di distanze di Cook bassi per un punto indicano che la
rimozione della rispettiva osservazione ha poco effetto sui risultati della regressione.
Valori di distanze di Cook superiori a 1, invece, sono sospetti ed indicano la presenza
di un possibile outlier.
Un modello che rispetta le condizioni appena verificate garantirà un’alta percentuale di successo nel prevedere futuri ritardi dei voli. Non sempre, tuttavia, tali
condizioni vengono rispettate. Un’errata scelta dei parametri di ingresso (ossia delle variabili indipendenti) può causare un modello non ottimale. Spesso, infatti, è
necessario ripetere più volte il processo appena realizzato per ottenere più modelli,
quindi confrontarli tra di loro e scegliere quello con le caratteristiche migliori, oppure quello che fornisce risultati che più si avvicinano alle osservazioni date. L’aiuto di
esperti del settore spesso risulta essere determinante al fine di scegliere gli attributi
che meglio permettono ai risultati ricavati dal training dataset di concordare con
quelli forniti dal test dataset.
108
6 Case study: Utilizzo di R per Predire i Ritardi dei Voli
Figura 6.7. Residual vs Leverage
7
Conclusioni e uno Sguardo al Futuro
Durante lo svolgimento della presente tesi sono stati approfonditi gli aspetti principali dell’analisi predittiva. Tale disciplina è stata descritta partendo dall’insieme
delle tecniche che costituiscono il mondo dell’analisi dei dati digitali, ossia le tecniche
di data mining e di machine learning. Queste ultime, a loro volta, sfruttano teorie
statistiche per formulare strumenti capaci di utilizzare le informazioni, contenute
nei dati, al fine di prevedere lo svolgersi degli avvenimenti futuri.
L’analisi predittiva si è evoluta partendo dalle discipline appena citate diventando un vero e proprio strumento professionale a disposizione di chiunque voglia
minimizzare la probabilità di eventuali rischi nell’affrontare un’importante decisione. Sono state illustrate, infatti, molte delle attuali applicazioni di tali metodologie
in ambiti diversi, quali il marketing, la medicina e la sicurezza. Questi ultimi hanno
integrato l’analisi dei dati in maniera sempre più efficiente, sviluppando un vero e
proprio percorso diventato ormai un metodo comunemente utilizzato per ricavare
quante più informazioni possibili sul futuro in maniera affidabile. Tale percorso si
compone di una successione di processi da eseguire con un particolare ordine, ed
è stato illustrato a partire dalla raccolta dei dati grezzi fino all’esame svolto sui
risultati finali.
La più importante caratteristica messa in evidenza costituisce anche la regola più
importante di qualsiasi previsione basata sui dati: al fine di prevedere un evento futuro è, prima di tutto, necessario raccogliere informazioni riguardo il comportamento
passato dell’oggetto della previsione stessa.
Sulle informazioni appena citate, si basa la parte successiva della tesi. In particolare sono stati analizzati i cosiddetti Big Data, ossia grosse collezioni di dati grezzi
contenenti enormi quantità di informazioni. Sono stati analizzati le fonti dalle quali
proviene una cosı̀ ampia mole di dati e, in seguito, gli strumenti capaci di elaborarli.
I Big Data hanno la capacità di fornire un contributo determinante nello sviluppo
di quegli strumenti, sopracitati, tramite i quali vengono effettuate le previsioni vere
e proprie.
In seguito, tali strumenti sono stati oggetto principale della trattazione; si tratta
di modelli matematici, statistici e grafici in grado di utilizzare i dati in modo da
realizzare una rappresentazione della realtà passata e di determinare uno schema,
che potrà essere impiegato per rappresentare la realtà futura. Ognuno di questi
strumenti viene utilizzato in vari ambiti diversi, in base alle proprie caratteristiche
110
7 Conclusioni e uno Sguardo al Futuro
ed al tipo di dato che viene restituito. Per ciascuno di essi, inoltre, sono stati illustrati
i principali vantaggi e svantaggi. Particolare rilievo è stato dato a quella particolare
tipologia di modelli denominati “di regressione”. Questi ultimi costituiscono una
categoria di strumenti particolarmente utilizzati in vari contesti applicativi.
Nell’ultima parte sono stati analizzati alcuni dei software in grado di implementare i modelli appena citati. Data l’esistenza di un’enorme varietà di tali applicazioni, durante la trattazione sono stati esaminati solo alcuni di essi, i quali presentano
caratteristiche di particolare rilievo rispetto agli altri. Uno di essi è stato utilizzato,
infine, per affrontare un problema reale che richiedeva la conoscenza di informazioni
future al fine di minimizzare i tempi di attesa in aeroporto.
Quest’ultimo è solo un piccolo esempio delle innumerevoli applicazioni attuali
e potenziali dei modelli di previsione. Dati i motivi del successo dell’analisi predittiva, già esposti durante la presente trattazione, è facile comprendere il successo
che quest’ultima riscuote in misura sempre maggiore, tra le varie organizzazioni
professionali le quali decidono di includerla nei propri processi decisionali. Essa, al
giorno d’oggi, trova spazio all’interno degli enti più diversi quali aziende, governi,
ospedali, enti di beneficenza, università e molti altri ancora. L’efficienza degli innumerevoli servizi che quest’ultimi offrono, può essere notevolmente incrementata
esclusivamente attraverso i risultati delle previsioni.
L’evoluzione degli strumenti digitali, della diffusione dei Big Data e dei progressi
scientifici favorisce l’espansione dell’utilizzo dell’analisi predittiva come strumento
a favore dei servizi. Attualmente, il numero di tool e metodi per la realizzazione di
modelli di previsione è in continuo aumento. Essi vengono resi sempre più accessibili
mediante l’uso di Internet e di piattaforme sul web, e di pratico utilizzo, grazie ad
interfacce grafiche intuitive le quali possono essere utilizzate anche da parte di utenti
non esperti.
Il vantaggio di poter realizzare una previsione appare essere di cosı̀ grande interesse che il possesso di grosse quantità di dati, relative a coloro i quali usufruiscono
dei vari servizi, è diventato un punto di forza per ogni organizzazione. Al fine di realizzare modelli di regressione, classificazione, sistemi di raccomandazione ed altro,
tali enti hanno deciso di interscambiare i dati in proprio possesso al fine di ottenere
vantaggi reciproci nell’implementare strumenti predittivi. In tal modo il flusso di
informazioni diventa anch’esso sempre più accessibile e permette la realizzazione di
modelli sempre più efficienti.
Le capacità di predizione vengono incluse in molti sistemi informatici ed inoltre la
crescente richiesta sta portando alla diffusione capillare degli algoritmi di predizione
su supporti di ultima generazione. È facile immaginare come tali metodi saranno
presto integrati all’interno di applicazioni per smarthphone, dispositivi wearable
come gli smartwatch e, persino, sulle automobili, al fine di implementare meccanismi
di sicurezza.
Nonostante si tratti esclusivamente di semplici congetture, è facile immaginare
come una tale diffusione delle potenzialità offerte dall’analisi predittiva comporti
un’enorme quantità di potenziali nuove applicazioni. Si stima [6] che entro il 2020
l’uso delle previsioni troverà applicazioni in diversi nuovi campi che ancora non
hanno pienamente sperimentato le sue potenzialità.
Alcune delle possibili applicazioni future prevedibili al momento sono le seguenti:
7 Conclusioni e uno Sguardo al Futuro
111
• Applicazioni in ambito automobilistico: la possibilità di implementare software
di predizione all’interno dei computer di bordo delle automobili offre una serie
di nuove possibilità e vantaggi (tra queste, la possibilità di analizzare i fattori che potrebbero determinare incidenti e diminuzione dei fattori di sicurezza).
Mediante l’uso di diversi tipi di sensori, ad esempio, è già possibile prevedere i
casi di sonnolenza durante la guida analizzando fattori quali i movimenti degli
occhi degli automobilisti e le ore trascorse al volante senza pausa. Allo stesso
modo, sarà presto possibile prevedere molte altre cause di incidenti. Le tecniche
di previsione trovano una vasta applicazione nella ricerca per la costruzione di
automobili senza guidatore, in quanto permettono di analizzare le varie informazioni raccolte dal mondo esterno e garantire, dunque, maggiore sicurezza. Sempre
in ambito automobilistico, infine, gli strumenti di previsione permetteranno di
stabilire l’identità degli utilizzatori di un veicolo, basandosi su dati biometrici,
rendendo la partenza del motore virtualmente impossibile ad eventuali ladri.
• Applicazioni per l’intrattenimento: diversi algoritmi di previsione saranno presto
implementati al fine di prevedere, con precisione crescente, i servizi di maggiore interesse. Utilizzando dati raccolti dalla cronologia web, dai social network
e dalle varie interazioni all’interno del web, è già possibile prevedere con buona approssimazione le risorse di potenziale interesse. Una delle piattaforme che
intende sfruttare al meglio le potenzialità dell’analisi predittiva è il servizio di
radio on-line denominato “Pandora Internet Radio”. Effettuando una registrazione, questo sito permette agli utenti di creare delle stazioni radio virtuali
partendo dall’inserimento di un brano o di un artista che sia gradito all’utilizzatore. Il sistema sfrutta un algoritmo di previsione, appositamente creato, per
cercare brani simili a quello segnalato dall’utente, e quindi riprodurre musiche
che possibilmente potranno essere di gradimento all’ascoltatore.
• Applicazioni per la previsione degli ingorghi: l’implementazione di algoritmi di
previsione all’interno degli strumenti GPS, collegati in rete, permetterà presto
di analizzare i dati forniti da fonti appositamente realizzate al fine di fornire
suggerimenti sul percorso migliore da seguire. Ciò permetterà di evitare ingorghi
che potrebbero crearsi lungo il percorso precedentemente stabilito.
• Applicazioni in ambito “social”: molte piattaforme, quali ad esempio Facebook,
utilizzano già i recommender system al fine di fornire suggerimenti su relazioni
con altri utenti e pagine di potenziale interesse. Tali tecniche vengono realizzate
con efficacia sempre maggiore, includendo dati da nuove fonti e raffinando gli
algoritmi. Il social network CareerBuilder, ad esempio, implementa tecniche che
tentano di prevedere le migliori offerte di lavoro per ogni utente analizzando il
profilo personale di quest’ultimo. Molte applicazioni di Voicemail, infine, vengono realizzate con l’intento di analizzare i messaggi e categorizzarli come eventuali
messaggi di spam, esattamente come già viene fatto per le email testuali.
• Applicazioni in ambito commerciale: le compagnie utilizzano sempre di più l’analisi predittiva come strumento per battere i concorrenti. Esse sono alla continua
ricerca di nuove fonti di dati che possano permettere loro di prevedere quando
e perchè l’interesse di un cliente verso un prodotto comincia a diminuire. Di
conseguenza, tali informazioni vengono impiegate al fine di offrire nuove offerte
in anticipo sulle altre compagnie.
Le applicazioni finora citate sono solo alcune delle molteplici possibilità offerte
112
7 Conclusioni e uno Sguardo al Futuro
dall’analisi predittiva. È facile aspettarsi come esse siano destinate ad aumentare,
parallelamente allo sviluppo di nuove tecnologie e di nuovi settori di ricerca.
Ringraziamenti
Dopo tanti sacrifici ed una lunga attesa sono finalmente giunto al termine di questa
prima parte del mio percorso universitario e desidero ringraziare tutte le persone
che mi hanno sostenuto in questi anni e mi hanno permesso di raggiungere tale
obiettivo.
Vorrei ringraziare, innanzitutto, la mia famiglia e, in modo particolare, mia
madre ed i miei nonni che mi hanno sempre guidato e mi hanno fornito i mezzi per
il raggiungimento di un traguardo tanto desiderato.
Ringrazio il Professor Domenico Ursino per avermi seguito con grande pazienza durante tutto il periodo di realizzazione del progetto ed i ragazzi del gruppo
Barbiana 2.0 per la disponibilità e le piacevoli ore passate insieme.
Ringrazio di cuore tutti i miei amici, dentro e fuori il mondo universitario, per
avermi donato giornate stupende e serate ancora più belle.
Un ringraziamento particolare va ad una persona speciale senza la quale non
sarei riuscito a raggiungere tale traguardo e, soprattutto, a superare i momenti più
difficili.
Infine, vorrei ringraziare colui che, nonostante non ci sia più, è sempre stato al
mio fianco per ispirarmi e darmi la forza di non arrendermi mai.
Riferimenti bibliografici
1. Analisi dei Residui.
https://cran.r-project.org/, 2013.
2. Predictive Analytics in the Cloud.
http://www.analyticsearches.com/, 2013.
3. Breve Introduzione ad R.
http://www.ecology.unibo.it/, 2015.
4. CRM.
http://www.crmpartners.it/cosecrm/, 2015.
5. Regressione Lineare Esempi Pratici.
http://automatica.ing.unibs.it/, 2015.
6. The Future of Prediction.
http://bigthink.com/experts-corner/, 2015.
7. A. Bari. Predictive Analytics for Dummies. John Wiley and Sons, Inc., 2014.
8. J. Dean. Big Data, Data Mining and Machine Learning. John Wiley and Sons, Inc.,
2014.
9. S. Finlay. Predictive Analytics, Data Mining and Big Data: Myths, Misconceptions
and Methods. Palgrave MacMillan, 2014.
10. R. Miguel Forte. Mastering Predictive Analytics with R. Packt Publishing Ltd., 2015.
11. J. Hurwitz. Big Data for Dummies. John Wiley and Sons, Inc., 2014.
12. A. D’Arcy J. Kelleher, B. Mac Namee. Fundamentals of Machine Learning for
Predictive Data Analytics. Mit Pr, 2015.
13. V. Kotu.
Predictive Analytics and Data Mining Concepts and Practice with
RapidMiner. Elsevier, 2015.
14. T. W. Miller. Modeling Techniques in Predictive Analytics with R and Python. Paul
Boger, 2015.
15. B. Ratner. Statistical and Machine-Learning Data Mining, Techniques for Better
Predictive Modeling and Analysis of Big Data. Taylor and Francis Group, 2015.
16. A. Sathi. Big Data Analytics: Disruptive Technologies for Changing the Game. MC
Press, 2012.
17. E. Siegel. Predictive Analytics - The Power to Predict Who Will Click, Buy, Lie or
Die. John Wiley and Sons, Inc., 2013.
18. J. S. Strickland. Data Science And Analytics for Ordinary People. Lulu Inc, 2015.