Watson – Un sistema progettato per dare risposte

IBM Systems and Technology
IBM White Paper
Watson – Un sistema progettato
per dare risposte
Il futuro della progettazione di sistemi ottimizzati per i carichi di lavoro
Febbraio 2011
2
Watson – Un sistema progettato per dare risposte
Introduzione
Negli ultimi cento anni IBM ha compiuto grandi progressi in
ambito scientifico grazie al suo impegno nella ricerca e alla sua
tradizione di grandi sfide. Queste Grandi Sfide – un esempio
delle quali è Deep Blue, progettato per sfidare il campione
mondiale di scacchi Gary Kasparov, – hanno indirizzato la
scienza in direzioni prima impensabili. Watson, l’ultima delle
Grandi Sfide della ricerca IBM, è stato progettato per
promuovere la scienza dell’elaborazione del linguaggio naturale
tramite una tecnologia innovativa basata su domande e risposte.
Watson è un sistema ottimizzato che si avvale dell’architettura
IBM DeepQA, operante su un cluster di server basati
su processori IBM POWER7. Dopo quattro anni di intensa
attività di ricerca e sviluppo da parte di un team di ricercatori
IBM, Watson ha gareggiato nella trasmissione Jeopardy! a
febbraio 2011, contro due dei campioni più noti e più bravi,
Ken Jennings e Brad Rutter, ottenendo prestazioni al livello
degli esperti umani in termini di precisione, sicurezza e velocità.
Questo white paper spiega la struttura di Watson, un sistema
ottimizzato per i carichi di lavoro, emblematico del futuro di
sistemi di questo tipo e nuovo paradigma nel campo
dell’elaborazione.
Jeopardy! La sfida di IBM
Nel 1997, Deep Blue, il computer in grado di giocare a scacchi
sviluppato da IBM Research, ha catturato l’attenzione mondiale
gareggiando e vincendo contro il campione mondiale di scacchi
Gary Kasparov. È stato il culmine di una grande sfida portare la
scienza informatica su una strada che ha suscitato grande
interesse popolare.
Oggi, con le società che acquisiscono sempre più informazioni
aziendali e in linguaggio naturale, esiste un crescente interesse
verso i sistemi ottimizzati per i carichi di lavoro in grado di
analizzare a fondo il contenuto delle domande in linguaggio
naturale per rispondere a tali domande con precisione.
I progressi nella tecnologia di risposta alle domande
(QA, Question Answering) sarà sempre più di ausilio per
i professionisti di vari settori nel prendere decisioni critiche e
tempestive in aree quali assistenza sanitaria, gestione delle
competenze aziendali e assistenza clienti.
Tenendo presente il QA, IBM si è riproposta di creare un
computer chiamato “Watson” (da Thomas J. Watson, il
fondatore di IBM), che potesse gareggiare al livello di un
campione umano nel telequiz americano Jeopardy!. Il
programma, trasmesso negli Stati Uniti da oltre 25 anni, mette
tre concorrenti umani l’uno contro l’altro nel rispondere a
domande formulate attarverso un ricco linguaggio naturale su
IBM Systems and Technology
un’ampia gamma di argomenti, con penalizzazioni per le
risposte sbagliate. In questa gara fra tre persone, la sicurezza,
la precisione e la velocità nel rispondere sono di fondamentale
importanza, poiché i concorrenti solitamente si fanno un’idea
della risposta nei pochi secondi che il conduttore impiega per
leggere una definizione. Per gareggiare in questo gioco ai livelli
di un campione umano, un computer dovrebbe poter rispondere
pressappoco al 70% delle domande poste con una precisione
superiore all’80% in tre secondi o meno.
3
carichi di lavoro analitici che stanno diventando sempre più
comuni e critici per il successo e la competitività delle aziende
nell’odierno ambiente a elevato utilizzo di dati.
Watson ha gareggiato contro due dei più noti e bravi campioni
di Jeopardy! – Ken Jennings e Brad Rutter – in una gara costituita
da due match trasmessa per tre sere consecutive a partire
dal 14 febbraio 2011.
IBM DeepQA
Watson rappresenta un grandissimo passo avanti nella
progettazione e nell’analisi dei sistemi. Si avvale della tecnologia
DeepQA di IBM, un nuovo tipo di funzionalità di analisi in
grado di eseguire migliaia di operazioni simultanee in pochi
secondi e fornire risposte precise alle domande. Dotato di
processori IBM POWER7, Watson è un esempio dei complessi
DeepQA è un’architettura probabilistica a elevato parallelismo
basata sull’evidenza. Per la sfida Jeopardy!, vengono utilizzate più
di 100 tecniche diverse per analizzare il linguaggio naturale,
identificare le fonti, trovare e generare ipotesi, trovare e valutare
i fatti, fondere e classificare le ipotesi. Molto più importante di
4
Watson – Un sistema progettato per dare risposte
qualsiasi tecnica particolare è il modo in cui queste tecniche sono
combinate in DeepQA, in modo tale che i vari approcci
sovrapposti possano sfruttare i punti di forza per contribuire
a migliorare la precisione, la sicurezza o la velocità.
DeepQA è un’architettura con una metodologia associata, ma
non è specifica per la sfida Jeopardy!. IBM ha iniziato ad adattarla
a diverse applicazioni aziendali e ad altri problemi di sfide
esplorative tra cui ricerca e giochi in ambito medico e aziendale.
tuttavia di tipo parallelo e quindi può essere divisa in una serie
di parti indipendenti, ciascuna delle quali può essere eseguita
da un processore separato. UIMA-AS, parte di Apache UIMA,
consente la scalabilità delle applicazioni UIMA mediante la
messaggistica asincrona. Watson usa UIMA-AS per la scalabilità
su 2.880 core POWER7 in un cluster di 90 server IBM Power
750. UIMA-AS gestisce tutta la comunicazione tra processi
tramite lo standard aperto JMS. L’implementazione di
UIMA-AS su POWER7 ha consentito a Watson di fornire
risposte in 1-6 secondi.
I principi generali di DeepQA sono:
1. Esteso parallelismo: sfruttare un parallelismo esteso in
considerazione di più interpretazioni e ipotesi
2. Numerosi esperti: facilitare l’integrazione, l’applicazione
e la valutazione contestuale di una vasta gamma di analisi
probabilistiche di domande e contenuti in ampia correlazione
3. Stima pervasiva della sicurezza: nessun singolo componente
produce una risposta; tutti i componenti producono aspetti
caratteristici e relativi livelli di sicurezza, con diverse
interpretazioni della domanda e dei contenuti. Un substrato
di elaborazione della sicurezza apprende come accumulare
e combinare i punteggi
4. Integrazione di conoscenze superficiali e approfondite:
bilanciare l’uso di una semantica rigida e una superficiale,
sfruttando numerose ontologie con una formazione blanda.
Velocità e scalabilità
DeepQA è stato sviluppato con l’architettura UIMA
(Unstructured Information Management Architecture) di
Apache, una struttura di implementazione dell’UIMA. UIMA è
stata progettata per supportare l’interoperabilità e la scalabilità di
applicazioni di testo e analisi multimodale. Tutti i componenti
di DeepQA sono implementati con ruoli di annotazione UIMA.
Si tratta di componenti che analizzano il testo e producono
annotazioni o asserzioni sul testo. Watson si è evoluto nel tempo
in modo che il sistema possiede ora centinaia di componenti.
UIMA ha facilitato l’integrazione, la verifica e la valutazione
rapide dei componenti.
Le prime implementazioni di Watson funzionavano su un
singolo processore ed erano necessarie due ore per ottenere la
risposta a una singola domanda. L’elaborazione di DeepQA è
Watson possiede un contenuto costituito da circa 200 milioni di
pagine in linguaggio naturale (l’equivalente di 1 milione di libri).
Watson si avvale della struttura Apache Hadoop per agevolare la
pre-elaborazione di un grande volume di dati per creare dataset
in memoria utilizzati in fase di runtime. Gli annotatori UIMA
di DeepQA di Watson sono stati implementati come mappatori
nella struttura di riduzione di mappa di Hadoop, e come tali
vengono distribuiti nei vari processori del cluster. Hadoop
contribuisce a un utilizzo ottimale della CPU (Central
Processing Unit) e offre inoltre convenienti strumenti per
l’implementazione, la gestione e il monitoraggio del processo
di analisi dei dati.
Ottimizzazione di POWER7
Watson sfrutta le prestazioni di elaborazione garantite dall’esteso
parallelismo dei processori POWER7 per eseguire le migliaia di
operazioni simultanee di cui DeepQA è capace su singoli core di
processore. Ciascuno dei 90 server IBM Power 750 in cluster di
Watson è dotato di 32 core POWER7 funzionanti a 3,55 GHz. I
server, che operano con sistema operativo Linux®, sono alloggiati
in 10 rack con i relativi nodi I/O (input/output) e hub di
comunicazione. Il sistema ha un totale di 16 TB (TeraByte)
di memoria e può funzionare a oltre 80 Teraflop (trilioni di
operazioni al secondo).
Con un’innovativa struttura di processore a otto core,
POWER7 è ideale per l’elaborazione a parallelismo esteso degli
algoritmi di analisi di Watson. POWER7 presenta inoltre
500 GB (GigaByte) di larghezza di banda per comunicazioni su
chip, contribuendo così a una straordinaria efficienza di utilizzo
della memoria e del processore. E poiché ciascun server contiene
IBM Systems and Technology
32 core POWER7 a elevate prestazioni con ben 512 GB di
memoria, il Power 750 rappresenta una piattaforma ideale per
il processore e i processi Java™ ad elevato utilizzo di memoria
di Watson.
Progettare Watson su server Power 750 disponibili in
commercio è stata una scelta deliberata per garantire una
più rapida adozione di sistemi ottimizzati in settori quali
assistenza sanitaria e servizi finanziari. Quell’obiettivo ha
rappresentato una differenza fondamentale tra Watson e Deep
Blue, un supercomputer estremamente personalizzato. Deep
Blue è basato su una precedente generazione di tecnologia di
processori Power, con un sistema RS/6000 SP a 30 nodi, con
ciascun nodo contenente un singolo processore POWER2 a
120 MHz. Ma in aggiunta ai normali processori POWER2, le
prestazioni di Deep Blue sono state migliorate grazie a 480 chip
di processore specifiche per gli scacchi.
Lo stesso server Power 750 utilizzato da Watson è già
implementato oggi da migliaia di organizzazioni in sistemi
ottimizzati che svolgono sia analisi complesse che elaborazione
di transazioni. La Rice University di Houston, in Texas, ad
esempio, usa i sistemi IBM Power 750 per accelerare la
comprensione della base molecolare del cancro mediante
l’applicazione di tecnologie di analisi del genoma. I sistemi
POWER7 hanno fornito alla Rice maggiore flessibilità ed
efficienza, permettendo di far fronte a un maggiore numero di
sfide nell’ambito della ricerca su un singolo sistema di quanto
fosse stato mai possibile in precedenza. GHY International,
una società di intermediazione doganale con sede in Canada,
è passata a un nuovo Power 750 con Power AIX, Power i e
Power Linux per migliorare il supporto al maggiore
coinvolgimento dei clienti nel commercio internazionale.
Grazie alla virtualizzazione PowerVM, GHY è ora in grado di
implementare nuove funzionalità in appena cinque minuti per
supportare le esigenze in evoluzione dei clienti.
Un sistema progettato per dare risposte
Dopo quattro anni di un’intensa attività di ricerca e sviluppo da
parte di un team di ricercatori IBM, Watson ha dimostrato di
poter gareggiare a Jeopardy! contro campioni in carne ed ossa,
operando a livelli di destrezza umana per precisione, sicurezza
e velocità. Il progetto ha fatto registrare un progresso nei campi
dell’analisi non strutturata dei dati, elaborazione del linguaggio
naturale e progettazione di sistemi ottimizzati per i carichi di
lavoro. Indipendentemente da Jeopardy!, la tecnologia alla base
di Watson può essere adattata per risolvere problemi aziendali
e di altra natura – ad esempio, diagnosi di malattie, gestione di
domande di assistenza tecnica online e analisi di ampi tratti di
documenti legali – e promuovere il progresso in diversi settori.
La capacità di Watson di capire il significato e il contesto del
linguaggio umano ed elaborare rapidamente le informazioni per
trovare risposte precise a domande complesse nasconde un
potenziale enorme per trasformare il modo in cui i computer
possono aiutare le persone a completare delle operazioni nel
lavoro e nella vita.
5
Per ottenere ulteriori informazioni
Per maggiori informazioni su Watson, POWER7 e sui sistemi
ottimizzati per i carichi di lavoro, contattare il proprio
responsabile commerciale o Business Partner IBM di fiducia o
visitare i seguenti siti Web:
•●
●
•
ibm.com/systems/power/advantages/watson
ibm.com/it/pov/watson/soluzioni
ibm.com/systems/power
ibm.com/systems/it/power
IBM Italia S.p.A.
Circonvallazione Idroscalo
20090 Segrate (Milano)
Italia
La home page di IBM Italia si trova all’indirizzo ibm.com/it
IBM, il logo IBM, ibm.com, AIX, DEEP BLUE, POWER, POWER2,
POWER7, PowerVM e RS/6000 sono marchi o marchi registrati di
International Business Machines Corporation negli Stati Uniti e/o in altri
Paesi. Se la prima occorrenza di questi e altri termini IBM all’interno del
presente documento è contrassegnata con il simbolo (® o ™), si tratta di
marchi registrati o previsti dalla common law negli Stati Uniti di proprietà
di IBM al momento della pubblicazione delle informazioni. Questi marchi
potrebbero essere registrati o riconosciuti come basati sul diritto
consuetudinario anche in altri Paesi.
La lista aggiornata dei marchi registrati di IBM è disponibile alla voce
“Copyright and trademark information” sul sito ibm.com/legal/it
Linux è un marchio registrato di Linus Torvalds negli Stati Uniti e/o in altri
Paesi.
Java e tutti i marchi e i logo basati su Java sono marchi o marchi registrati
di Oracle e/o delle sue affiliate.
Altri nomi di società, prodotti e servizi possono essere marchi o marchi
di servizi appartenenti a terzi.
Ogni riferimento a prodotti, programmi o servizi IBM non implica la
volontà, da parte di IBM, di rendere tali prodotti, programmi o servizi
disponibili in tutti i Paesi in cui IBM opera.
Ogni riferimento a un prodotto, programma o servizio IBM non implica
l’uso esclusivo del medesimo. In sostituzione potrà essere usato qualunque
prodotto, programma o servizio funzionalmente equivalente.
I prodotti hardware IBM possono essere costituiti di parti nuove o nuove e
ricondizionate. In alcuni casi, i prodotti hardware potrebbero non essere
nuovi e potrebbero essere stati installati in precedenza. Ciononostante
rimane ferma l’applicabilità della garanzia IBM.
Questa pubblicazione è fornita esclusivamente a titolo informativo.
Le informazioni sono soggette a modifiche senza preavviso. Contattate un
responsabile commerciale o un rivenditore IBM per ottenere le informazioni
più aggiornate su prodotti e servizi IBM.
IBM non fornisce assistenza legale o contabile, né alcuna rappresentazione o
garanzia che i suoi prodotti o servizi siano conformi alla legge. I clienti sono
responsabili dell’osservanza di ogni legge ed obbligo normativo applicabile,
comprese le leggi e le norme nazionali.
Le immagini potrebbero fare riferimento a prototipi.
© Copyright IBM Corporation 2011
Tutti i diritti riservati.
Si prega di riciclare
POW03061-ITIT-00