Analisi dei Big Data testuali Esplorazione testuale della Big Untapped Data Source Whitepaper Rick F. van der Lans Analista Indipendente di Business Intelligence R20/Studio di Consulenza Dicembre 2013 Sponsorizzato da Copyright ©2013 R20/Consultancy. Tutti i diritti riservati. InterSystems Caché, InterSystems Ensemble, InterSystems HealthShare, InterSystems DeepSee, e TrakCare sono marchi di proprietà di InterSystems Corporation. InterSystems iKnow è un marchio di proprietà di InterSystems Corporation. I marchi delle aziende menzionati nel presente documento sono di sola proprietà dei loro rispettivi proprietari. Analisi dei Big Data testuali - Esplorazione testuale della Big Untapped Data Source 1 Introduzione – Analizzare big data testuali I big data per potenziare le capacità analitiche – I big data stanno rivoluzionando il mondo della Business Intelligence e degli strumenti analitici. Gartner1 prevede che, durante tutto il 2016, la spesa globale relativa ai big data si aggirerà sui 232 miliardi di dollari, Wikibon2 sostiene che entro il 2017 le entrate relative ai big data arriveranno a 47,8 miliardi di dollari, mentre il McKinsey Global Institue3 dichiara che i big data hanno il potenziale di generare un valore pari a 300 miliardi di dollari nell’industria sanitaria statunitense e a 250 miliardi di euro nel settore della Pubblica Amministrazione Europea. La svolta dei big data arriva da innovativi sistemi di big data analytics. Per alcune aziende la sfida principale è quella di analizzare enormi quantità di dati strutturati, soprattutto numerici: si pensi ad esempio alle compagnie di carte di credito con milioni di titolari e miliardi di transazioni, perennemente impegnate a individuare nuove tipologie di frode. Analizzare enormi quantità di dati strutturati può richiedere nuove strategie e tecnologie software, ma generalmente è un obiettivo realizzabile in modo facile e diretto. Non tutti i big data sono strutturati però. Esistono big data di ogni formato e dimensione. Il problema maggiore relativo ai big data è che una vasta porzione di essi spesso si trova in forma di testo non strutturato. Si pensi a tutti i dati tipicamente generati o utilizzati negli affari – e-mail, documenti, trascrizioni vocali delle chiamate dei clienti, appunti presi durante conferenze, e altro. La maggior parte di questi dati è in formato testo non strutturato. Anche nei settori dominati da dati numerici, i testi abbondano. Per esempio, nell’attività bancaria, i bilanci e le attività di prestito sono dati ben strutturati, ma per capire un prestito, per esempio, è necessario leggerne il relativo fascicolo che include corrispondenza, valutazioni scritte e appunti di ogni telefonata e incontro. Per poter valutare il rischio in un portafoglio prestiti è necessario leggere e capire ogni singolo file relativo a quei prestiti. Nell’ambiente medico, esistono molte fonti di dati strutturati, come i risultati di esami ed analisi nel tempo e i coded fields (campi codificati). Tuttavia, alcuni dei dati più importanti si trovano tra gli appunti testuali del medico: le sue impressioni, cosa ha appreso dalle conversazioni con il paziente, come è giunto a una determinata diagnosi o perché ha ordinato determinati esami, cosa ha dedotto dai risultati degli esami, e così via. Nella maggior parte degli ambienti clinici più importanti questi inestimabili appunti comprendono grandi quantità di dati i quali, pur essendo sempre più spesso digitalizzati, raramente vengono analizzati. Analizzare Dati Testuali - Sono sempre esistiti metodi all’avanguardia per l’analisi dei dati non testuali. Praticamente ogni impresa sa come trasformare i propri dati strutturati, raccolti nel corso degli anni durante le proprie attività aziendali, in importanti informazioni su cui basare il proprio business. Svariati sono gli strumenti di analisi e reporting disponibili sul mercato a questo scopo. Certamente, questi strumenti e algoritmi a volte devono essere modificati in qualche modo perché processino più velocemente i big data (per esempio, può essere necessario usare una tecnica in-memory e un hardware dedicato), ma gli algoritmi rimangono gli stessi e sono ben noti. 1 Gartner, Ottobre 2012, vedi http://techcrunch.com/2012/10/17/big-data-to-drive-232-billion-in-it-spending-through2016/ 2 Wikibon, Big Data Vendor Revenue and Market Forecast 2012-2101726 Agosto 2013, vedi : http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2012-2017McKinsey Global Institute, Big Data: The Next Frontier for Innovation, Competition, and Productivity, Giugno 2011; vedi : http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation 1 Analisi dei Big Data testuali - Esplorazione testuale della Big Untapped Data Source Ma cosa succede a tutti i dati testuali raccolti nelle e-mail, nei sistemi di gestione dei documenti, nei registri dei call center, nelle trascrizioni dei messaggi istantanei e nelle trascrizioni delle chiamate vocali dei clienti? E cosa dire dei dati testuali esterni, come i blog, i tweet, i messaggi Facebook e i siti informativi? Nella massa di dati testuali creati ogni giorno si nasconde una vera marea di informazioni. La sfida per molte imprese oggi è dunque quella di estrarre da questa montagna di dati informazioni preziose per il business che permettano loro, per esempio, di ottimizzare i processi aziendali, migliorare il livello dell’assistenza clienti offerta, personalizzare i propri prodotti e migliorare lo sviluppo di nuovi prodotti. Questo documento ha lo scopo di delineare i benefici e le sfide dell’analisi dei big data testuali. Esso tratterà inoltre della tecnologia InterSystems iKnow™, che offre un modo più semplice e rapido per accedere alle informazioni contenute nei dati testuali. 2 Big Data Testuali: The Big Untapped Data Source – Una fonte immensa di dati non sfruttati. Le ragioni per Analizzare i Big Data Testuali – Praticamente tutti i settori di attività possono trarre vantaggio dall'analisi dei dati testuali, in special modo quelli in cui immagazzinare testo è fondamentale per il business, come la pubblicità, l'assistenza sanitaria, l'ambito legale, quello farmaceutico, l'editoria e i beni immobili. Ad esempio, un ospedale può essere interessato ad analizzare la descrizione scritta da uno specialista e inclusa nella cartella di un paziente per rilevare i pattern delle reazioni allergiche a certi medicinali. Un'azienda di elettronica può voler analizzare i messaggi su Twitter per scoprire se i propri prodotti vengono menzionati e se i tweet che li riguardano sono positivi o negativi (pratica comunemente denominata “sentiment analysis”). Le trascrizioni dei registri dei call center possono essere analizzate per determinare se è possibile identificare le domande più frequenti, o se nelle settimane precedenti determinati prodotti sono stati menzionati più spesso del solito o in contesti diversi dal solito. Cosa significa esattamente analizzare un testo? – Non abbiamo bisogno di “analizzare” un testo se vogliamo soltanto sapere quante parole contiene un certo documento o quanto spesso vi ricorre una certa parola. Questo può essere determinato da un semplice algoritmo puramente matematico. Ma se cercassimo invece risposte a domande più complesse, quali: Con quale frequenza determinati sintomi e farmaci appaiono associati nelle cartelle dei pazienti? L’opinione contenuta in un testo è positiva o negativa, e a quali concetti si applicano queste opinioni? Quanti testi riguardano il fallimento della Banca X? Quanti testi ogni mese hanno a che fare con la neurochirurgia? Quali concetti sono più spesso associati, nei testi, al concetto di frode di carta di credito? Quale libro, rispetto agli argomenti trattati, è più simile a “Gods and Generals” di Jeff Shaara, e quale invece si differenzia di più da esso? Come possiamo identificare le caratteristiche delle chiamate dei clienti che sono risultate in aumento? Queste domande sono molto più difficili da gestire. Ad esempio, come determiniamo se un testo contiene un’opinione positiva? Come possiamo “misurare” la differenza tra il contenuto di due libri? Questo è il tipo di domande per cui viene utilizzata l’analisi testuale. 2 Analisi dei Big Data testuali - Esplorazione testuale della Big Untapped Data Source Analizzare un testo può anche essere definito come ricavare dati strutturati da un testo non strutturato. Per esempio, se un testo viene analizzato per capire se sia positivo o negativo, il risultato sarà un valore strutturato: sì o no. Anche le risposte alla prima e alla quarta domanda qui sopra danno origine a dati strutturati. Il vantaggio di ricavare dati strutturati è dunque che, una volta ottenuti, questi dati possono essere facilmente combinati con altre fonti di dati strutturati ed elaborati tramite algoritmi noti. L’indice e il thesaurus - Storicamente, i primi passi nello sviluppo della comprensione dei testi si basavano sull’indicizzazione. Indicizzare un testo significa selezionare in un documento i termini che forniscono indicazioni sufficienti sull'argomento del testo stesso, per fare in modo che questo documento possa poi essere ritrovato usando una specifica query.Tuttavia, l'indicizzazione ha i suoi limiti. Per prima cosa, sviluppare un indice richiede un notevole dispendio di tempo nella ricerca delle parole da indicizzare. In secondo luogo, se non vengono indicizzati i termini giusti, può succedere che non vengano trovati testi importanti e rilevanti o che vengano trovati testi sbagliati. In passato, per superare i problemi legati all’indicizzazione, è stato introdotto il concetto di "thesaurus". Nel thesaurus vengono definite le relazioni tra i termini. In un certo senso dunque, esso può essere considerato come un indice intelligente. Utilizzando un thesaurus si trovano serie di testi più rilevanti fra loro. Ma anche creare e gestire un thesaurus richiede un certo dispendio di tempo, anche perché esso dovrà essere costantemente aggiornato man mano che vengono introdotte nuove parole o nuovi domini, e così via. Il lavoro preliminare – La maggior parte degli strumenti per l'analisi testuale richiede un notevole lavoro preliminare, come la creazione di thesaurus. Tali strumenti sono pertanto utili soltanto se c’è abbastanza tempo per questo tipo di preparazione. Cosa succede se spunta una domanda urgente che non è stata prevista nel thesaurus? Oppure se arrivano nuovi testi per l’analisi e le domande devono essere poste subito? Inoltre, nella maggior parte degli strumenti di analisi testuale, l’obiettivo dell'analisi deve essere ben chiaro sin dall’inizio. In altre parole, lo strumento è guidato dall’analista. Ad esempio, la tecnologia di ricerca richiede che prima di tutto vengano inserite una o più parole. Un altro esempio si ha quando si analizzano cartelle cliniche per indagare sugli effetti che determinati farmaci hanno sui pazienti affetti da diabete. Come si può immaginare, può essere necessario utilizzare un thesaurus differente quando invece lo scopo sarà quello di cercare pattern negli effetti collaterali post operatori, anche qualora vengano analizzate le cartelle dello stesso paziente. Limitando la libertà analitica, il thesaurus limita di conseguenza i potenziali risultati. 3 Esplorare i big data testuali senza fatica L’impiego dell’analisi testuale oggi – Le organizzazioni possono ricavare grossi benefici dall’analisi dei dati testuali. Sfortunatamente però la maggior parte di esse ne fa ancora un utilizzo molto superficiale, perdendo così importanti opportunità. Una delle ragioni principali per cui le imprese non hanno ancora incominciato a sfruttare pienamente i loro big data è che gran parte degli strumenti e delle tecnologie per l'analisi testuale richiede un dispendioso lavoro preliminare. Prima che si possa procedere con una qualsiasi attività analitica, è necessario sviluppare indici, thesauri e ontologie. La Necessità di Esplorare il Testo – L’analisi deve essere in grado di rispettare i tempi del business. Per le analisi testuali, questo significa che la tecnologia necessaria deve permettere al testo di essere analizzato senza il bisogno di compiere tutto quel lavoro preliminare. 3 Analisi dei Big Data testuali - Esplorazione testuale della Big Untapped Data Source Questa forma di analisi testuale è chiamata “esplorazione del testo”. L’ambiente ospedaliero costituisce un ottimo esempio di realtà in cui può essere implementata l'esplorazione del testo. Immaginiamo che un paziente venga portato al Pronto Soccorso. Se i medici devono agire in fretta, probabilmente non avranno il tempo di leggere l’intera cartella clinica. Quello che serve loro è un riassunto che mostri tutti gli aspetti fondamentali relativi a quel paziente. È diabetico? Soffre abitualmente di pressione alta? Quali tipi di farmaci assume? E’ già stato qui in precedenza? Per ottenere queste informazioni è necessaria un’analisi testuale sul momento. L’analisi, inoltre, non deve richiedere la guida dell’operatore perché i medici potrebbero non sapere nulla su questo paziente, pertanto la tecnologia analitica dovrà fare in modo che sia lo strumento a guidare il medico, e non il contrario. Un altro esempio è l’analisi dei tweet. Ogni giorno vengono inventate nuove parole (acronimi in molti casi) e hash tag. Sarebbe impossibile aggiornare costantemente un thesaurus che li includa tutti. Inoltre, chi ha il tempo per svilupparne uno? Esistono molte situazioni in cui non c’è tempo per tutto questo lavoro preparatorio. Ecco che in tutti questi casi, per ottenere le informazioni desiderate, si rende necessaria l’esplorazione del testo. I tre requisiti per l’esplorazione del testo – Per riassumere, l’esplorazione del testo è una forma di analisi testuale che soddisfa i tre requisiti seguenti: Nessuna preparazione necessaria: non deve essere necessario sviluppare thesauri o ontologie prima di avviare l'attività di analisi. L'analisi può iniziare subito e senza alcuna preparazione anche se il testo riguarda un nuovo dominio. Unguided analysis (L’Analisi non richiede la guida dell’utente): gli analisti dovrebbero essere in grado di ricorrere alla tecnologia di analisi del testo senza dover specificarne lo scopo in anticipo. La tecnologia di analisi deve dunque essere in grado di analizzare il testo senza richiedere la guida dell’utente. Self-service: gli analisti devono essere in grado di ricorrere all’analisi del testo senza l’aiuto di esperti di informatica, anche se la connessione dello strumento a fonti di dati particolari può richiedere una certa assistenza. 4 Tecnologia iKnow di InterSystems per l’analisi testuale dei big data L’approccio classico all’analisi testuale – Gli strumenti di analisi testuale generalmente cercano di identificare i concetti importanti delle singole frasi. Ad esempio, nella frase “Il mercato della enterprise search viene rimodellato in base a nuove esperienze di consumo”, i concetti chiave sono “mercato della enterprise search” e “esperienze di consumo”. La maggior parte degli strumenti di analisi testuale cercano di individuare questi concetti basandosi sulle singole parole, vale a dire, in questo caso, “consumo”, “enterprise”, “esperienze”, “mercato” e “search”, che vengono considerate i concetti chiave di questo testo. Alcuni strumenti cercano espressioni composte da due o anche tre parole. Con questo tipo di approccio tuttavia, può succedere che parole che non dovrebbero essere collegate appaiono invece collegate. Prendiamo come esempio la frase seguente: “ Michael Phelps batte un record mondiale”. Se vengono identificate espressioni di due parole, il risultato contiene i concetti “Michael Phelps” e “Phelps batte”. Ora, se il primo è probabilmente utile, il secondo 4 Analisi dei Big Data testuali - Esplorazione testuale della Big Untapped Data Source non lo è. E se cercassimo tutte le espressioni di due parole nella prima frase, otterremmo “enterprise search” e “mercato della ricerca”, ma non “mercato della enterprise search”. Questo approccio classico non garantisce dunque che le parole che sono legate l’una all’altra formino il giusto concetto. Inoltre, per interpretare giustamente le frasi, gli sviluppatori devono creare thesauri e ontologie. Tutto ciò può comportare un notevole sforzo e richiedere conoscenze specifiche nel dominio in questione. E’necessario creare un nuovo thesaurus e una nuova ontologia per ogni nuovo dominio. Nella maggior parte dei casi, questo processo non ha mai fine, poiché l’uso delle parole cambia nel corso del tempo: si introducono nuovi termini e il significato delle parole può cambiare. Come esempio prendiamo i tweet – ogni giorno vengono creati nuovi importanti hash tag. Vengono introdotti nuovi termini anche nell’ambito della Business Intelligence. Chi aveva mai sentito parlare di “big data” prima di qualche anno fa? Strategia di analisi del testo InterSystems – L’approccio di InterSystems all’analisi testuale è molto diverso da tanti altri. InterSystems ha introdotto una nuova tecnologia – chiamata iKnow – che divide il testo in frasi che poi vengono divise a loro volta in concetti e relazioni. Lo scomponimento delle frasi viene effettuato identificando prima di tutto le relazioni presenti in una frase. I verbi possono rappresentare la relazione tra i concetti all’interno di una frase, ma anche altre strutture linguistiche possono indicare relazioni. Identificando le relazioni all'interno di una frase, iKnow ha una maggior possibilità di trovare il concetto desiderato. Per esempio, nella frase “Il programmatore ha trovato dei bug”, iKnow considera il verbo “ha trovato” come una relazione che separa i concetti “programmatore” e “bug”. In iKnow questa viene chiamata sequenza concetto-relazioneconcetto (CRC). Si tenga presente che iKnow scarta automaticamente le stop word irrilevanti in una frase, come “il”, “e”, “un”. Come già detto, anche altri elementi linguistici possono indicare una relazione. Ad esempio, nel frammento di frase “I mammiferi, come gli elefanti e i leoni...” esiste una relazione tra “mammiferi” ed “elefanti” e tra “mammiferi” e “leoni”. Un altro esempio può essere la frase “Mi piace la macchina nella concessionaria”. Qui, la parola “nel” rappresenta una relazione tra i concetti di “macchina” e “concessionaria”. iKnow è stato progettato per riconoscere i diversi costrutti linguistici che possono indicare una relazione. Se i concetti e le relazioni sono costituiti da più parole, iKnow li riconosce ugualmente. Ad esempio, nella frase “Il mercato della enterprise search viene rimodellato in base a nuove esperienze di consumo”, iKnow riconosce che la frase verbale “viene rimodellato in base a” rappresenta la relazione tra i due concetti “mercato della enterprise search” e “nuove esperienze di consumo”. Questo processo di identificazione di un’entità, rapido e indipendente dal dominio specifico, scompone le frasi in strutture grafiche dove i concetti sono legati gli uni agli altri tramite relazioni. Queste strutture grafiche insieme ai metadati e alla metrica contestuali che iKnow raccoglie durante il processo possono poi essere utilizzati per analisi avanzate all’interno di un testo o in un corpus di testi. iKnow non si limita all’analisi di semplici frasi del tipo CC o CRC. Può gestire anche strutture fraseologiche più complesse formate da vari CRC, quelle cioè che vengono chiamate sequenze CRC. Nota: la tecnologia iKnow di InterSystems supporta diverse lingue, incluse Olandese, Inglese, Francese, Tedesco, Portoghese e Spagnolo. Giapponese e Russo sono in via di sviluppo. 5 Analisi dei Big Data testuali - Esplorazione testuale della Big Untapped Data Source Come la tecnologia iKnow di InterSystems risponde ai tre requisiti per l’esplorazione testuale – iKnow risponde a tutti e tre i requisiti chiave per l’esplorazione del testo descritti nella Sezione 3: Nessuna preparazione necessaria: iKnow non richiede lo sviluppo di thesauri e ontologie. Può analizzare testi appartenenti a domini o settori che non ha mai analizzato in precedenza ed essere comunque in grado di trovare i concetti importanti. Unguided analysis (l’analisi non richiede la guida dell’utente): iKnow non necessita di un obbiettivo specifico. A differenza di altre tecnologie di ricerca, per esempio, non richiede che sia inserito un termine di ricerca prima di analizzare il testo. iKnow può analizzare un testo senza la guida di un operatore o secondo una logica bottom-up. Il risultato può poi essere studiato dagli analisti, i quali potranno in questo modo indirizzare le proprie ricerche di conseguenza. Self-service: Gli analisti possono utilizzare InterSystems DeepSee™ per accedere a tutte le caratteristiche analitiche di iKnow. DeepSee può essere categorizzato come una tecnologia analitica self-service che permette agli utenti di sviluppare i propri report e svolgere le proprie analisi senza l'aiuto di esperti informatici. Utilizzo di iKnow con i big data – la tecnologia di InterSystems iKnow è incorporata a InterSystems Caché®, un server database dalle alte prestazioni. Il motore di dati multidimensionale di Caché è davvero unico, rendendo questo prodotto ideale per immagazzinare, gestire e interrogare tutti i tipi di dati, inclusi quelli testuali. Le sue prestazioni e la sua scalabilità sono state confermate dall’utilizzo in molti ambienti di big data. Ogni applicazione basata su Caché può accedere a iKnow e quindi analizzare sia dati di testo che strutturati. 5 Sommrio Tutti concordano sul fatto che i big data siano in grado di accrescere le capacità analitiche di un’organizzazione. In molti casi ciò comporta macinare enormi quantità di dati altamente strutturati e principalmente numerici. In altre parole, fino ad ora ci si è concentrati sull’analisi di dati non testuali altamente strutturati. Tuttavia, nelle infinite fonti di dati testuali a disposizione quali e-mail, sistemi di gestione dei documenti, registri dei call center, trascrizioni di messaggi istantanei e delle chiamate vocali dei clienti, si nasconde una vera e propria marea di informazioni. Per non parlare dei dati testuali esterni, come i blog, i tweet, i messaggi di Facebook e i siti informativi. Per la maggior parte delle imprese, queste fonti di dati testuali rappresentano ancora una fonte di informazioni non sfruttata. La sfida per molte organizzazioni oggi è dunque quella di estrarre da questa montagna di dati informazioni preziose per il business che permettano loro, ad esempio, di ottimizzare i processi aziendali, migliorare il livello dell’assistenza clienti offerta, personalizzare i prodotti e migliorare lo sviluppo di nuovi prodotti. L’esplorazione del testo è una forma di analisi testuale che permette alle imprese di analizzare dati testuali rispettando i tempi del business. Non sono necessari lavori preliminari. Il testo può essere analizzato quando serve. InterSystems iKnow è una tecnologia innovativa volta all’esplorazione del testo. Permette alle imprese di analizzare i propri big data testuali per acquisire le informazioni necessarie per il business. 6 Analisi dei Big Data testuali - Esplorazione testuale della Big Untapped Data Source Note sull'Autore Rick F. van der Lans Rick F. van der Lans è un analista indipendente, consulente, autore e docente specializzato nello stoccaggio di dati, nella Business Intelligente, nella virtualizzazione dei dati e nella tecnologia dei database. Lavora presso R20/Consultancy (www.r20.nl), un’agenzia di consulenza che lui stesso ha fondato nel 1987. Rick è il presidente della conferenza annuale European Business Intelligence and Enterprise Data Conference (organizzata a Londra). Scrive per l’illustre B-eye-Network4 e altri siti internet. Nel 2009, tramite numerosi articoli5, tutti pubblicati su BeyeNetwork.com, introdusse l’architettura di Business Intelligence chiamata Data Delivery Platform. Ha scritto vari libri su SQL. Il popolare “Introduction to SQL” 6, pubblicato nel 1987, fu il primo libro in Inglese sul mercato interamente dedicato a SQL. Dopo più di vent’anni, questo volume viene ancora venduto ed è stato tradotto in svariate lingue, tra cui Cinese, Tedesco e Italiano. Il suo libro più recente7,"Data Virtualization for Business Intelligence Systems”, è stato pubblicato nel 2012. Per maggiori informazioni, vistare il sito www.r20.nl o mandare una mail a [email protected]. È inoltre possibile mettersi in contatto con lui tramite LinkedIn o tramite Tweeter @Rick_vanderlans. Note su InterSystems Corporation Fondata nel 1978, InterSystems Corporation è una software company privata con capitale sociale di 446.000.000 dollari statunitensi, uffici in 25 Paesi e sede centrale a Cambridge, Massachusetts. L’azienda fornisce la principale piattaforma per l'assistenza sanitaria integrata, e i suoi prodotti innovativi sono largamente utilizzati in altri settori che richiedono software di massima affidabilità e dalle altissime prestazioni. I clienti includono TD Ameritrade, L'Agenzia Spaziale Europea, l'Associazione dei Veterani degli Stati Uniti d'America, il Johns Hopkins Hospital, la Polizia del Belgio, la Mediterranean Shipping Company e migliaia di altre organizzazioni e imprese di successo. Aziende leader nella fornitura di applicazioni si avvalgono delle alte prestazioni e dell’affidabilità della tecnologia avanzata di InterSystems per i rispettivi prodotti. Tra queste organizzazioni troviamo Epic Systems, Fiserv, GE Healthcare, e centinaia ancora. 4 Vedi http://www.b-eye-network.com/channels/5087/articles/ Vedi http://www.b-eye-network.com/channels/5087/view/12495 6 R.F. van der Lans, Introduction to SQL; Mastering the Relational Database Language, quarta edizione, Addison- Wesley, 2007. 7 R.F. van der Lans, Data Virtualization for Business Intelligence Systems, Morgan Kaufmann Publishers, 2012. 5 7