IBM Systems and Technology IBM White Paper Watson – Un sistema progettato per dare risposte Il futuro della progettazione di sistemi ottimizzati per i carichi di lavoro Febbraio 2011 2 Watson – Un sistema progettato per dare risposte Introduzione Negli ultimi cento anni IBM ha compiuto grandi progressi in ambito scientifico grazie al suo impegno nella ricerca e alla sua tradizione di grandi sfide. Queste Grandi Sfide – un esempio delle quali è Deep Blue, progettato per sfidare il campione mondiale di scacchi Gary Kasparov, – hanno indirizzato la scienza in direzioni prima impensabili. Watson, l’ultima delle Grandi Sfide della ricerca IBM, è stato progettato per promuovere la scienza dell’elaborazione del linguaggio naturale tramite una tecnologia innovativa basata su domande e risposte. Watson è un sistema ottimizzato che si avvale dell’architettura IBM DeepQA, operante su un cluster di server basati su processori IBM POWER7. Dopo quattro anni di intensa attività di ricerca e sviluppo da parte di un team di ricercatori IBM, Watson ha gareggiato nella trasmissione Jeopardy! a febbraio 2011, contro due dei campioni più noti e più bravi, Ken Jennings e Brad Rutter, ottenendo prestazioni al livello degli esperti umani in termini di precisione, sicurezza e velocità. Questo white paper spiega la struttura di Watson, un sistema ottimizzato per i carichi di lavoro, emblematico del futuro di sistemi di questo tipo e nuovo paradigma nel campo dell’elaborazione. Jeopardy! La sfida di IBM Nel 1997, Deep Blue, il computer in grado di giocare a scacchi sviluppato da IBM Research, ha catturato l’attenzione mondiale gareggiando e vincendo contro il campione mondiale di scacchi Gary Kasparov. È stato il culmine di una grande sfida portare la scienza informatica su una strada che ha suscitato grande interesse popolare. Oggi, con le società che acquisiscono sempre più informazioni aziendali e in linguaggio naturale, esiste un crescente interesse verso i sistemi ottimizzati per i carichi di lavoro in grado di analizzare a fondo il contenuto delle domande in linguaggio naturale per rispondere a tali domande con precisione. I progressi nella tecnologia di risposta alle domande (QA, Question Answering) sarà sempre più di ausilio per i professionisti di vari settori nel prendere decisioni critiche e tempestive in aree quali assistenza sanitaria, gestione delle competenze aziendali e assistenza clienti. Tenendo presente il QA, IBM si è riproposta di creare un computer chiamato “Watson” (da Thomas J. Watson, il fondatore di IBM), che potesse gareggiare al livello di un campione umano nel telequiz americano Jeopardy!. Il programma, trasmesso negli Stati Uniti da oltre 25 anni, mette tre concorrenti umani l’uno contro l’altro nel rispondere a domande formulate attarverso un ricco linguaggio naturale su IBM Systems and Technology un’ampia gamma di argomenti, con penalizzazioni per le risposte sbagliate. In questa gara fra tre persone, la sicurezza, la precisione e la velocità nel rispondere sono di fondamentale importanza, poiché i concorrenti solitamente si fanno un’idea della risposta nei pochi secondi che il conduttore impiega per leggere una definizione. Per gareggiare in questo gioco ai livelli di un campione umano, un computer dovrebbe poter rispondere pressappoco al 70% delle domande poste con una precisione superiore all’80% in tre secondi o meno. 3 carichi di lavoro analitici che stanno diventando sempre più comuni e critici per il successo e la competitività delle aziende nell’odierno ambiente a elevato utilizzo di dati. Watson ha gareggiato contro due dei più noti e bravi campioni di Jeopardy! – Ken Jennings e Brad Rutter – in una gara costituita da due match trasmessa per tre sere consecutive a partire dal 14 febbraio 2011. IBM DeepQA Watson rappresenta un grandissimo passo avanti nella progettazione e nell’analisi dei sistemi. Si avvale della tecnologia DeepQA di IBM, un nuovo tipo di funzionalità di analisi in grado di eseguire migliaia di operazioni simultanee in pochi secondi e fornire risposte precise alle domande. Dotato di processori IBM POWER7, Watson è un esempio dei complessi DeepQA è un’architettura probabilistica a elevato parallelismo basata sull’evidenza. Per la sfida Jeopardy!, vengono utilizzate più di 100 tecniche diverse per analizzare il linguaggio naturale, identificare le fonti, trovare e generare ipotesi, trovare e valutare i fatti, fondere e classificare le ipotesi. Molto più importante di 4 Watson – Un sistema progettato per dare risposte qualsiasi tecnica particolare è il modo in cui queste tecniche sono combinate in DeepQA, in modo tale che i vari approcci sovrapposti possano sfruttare i punti di forza per contribuire a migliorare la precisione, la sicurezza o la velocità. DeepQA è un’architettura con una metodologia associata, ma non è specifica per la sfida Jeopardy!. IBM ha iniziato ad adattarla a diverse applicazioni aziendali e ad altri problemi di sfide esplorative tra cui ricerca e giochi in ambito medico e aziendale. tuttavia di tipo parallelo e quindi può essere divisa in una serie di parti indipendenti, ciascuna delle quali può essere eseguita da un processore separato. UIMA-AS, parte di Apache UIMA, consente la scalabilità delle applicazioni UIMA mediante la messaggistica asincrona. Watson usa UIMA-AS per la scalabilità su 2.880 core POWER7 in un cluster di 90 server IBM Power 750. UIMA-AS gestisce tutta la comunicazione tra processi tramite lo standard aperto JMS. L’implementazione di UIMA-AS su POWER7 ha consentito a Watson di fornire risposte in 1-6 secondi. I principi generali di DeepQA sono: 1. Esteso parallelismo: sfruttare un parallelismo esteso in considerazione di più interpretazioni e ipotesi 2. Numerosi esperti: facilitare l’integrazione, l’applicazione e la valutazione contestuale di una vasta gamma di analisi probabilistiche di domande e contenuti in ampia correlazione 3. Stima pervasiva della sicurezza: nessun singolo componente produce una risposta; tutti i componenti producono aspetti caratteristici e relativi livelli di sicurezza, con diverse interpretazioni della domanda e dei contenuti. Un substrato di elaborazione della sicurezza apprende come accumulare e combinare i punteggi 4. Integrazione di conoscenze superficiali e approfondite: bilanciare l’uso di una semantica rigida e una superficiale, sfruttando numerose ontologie con una formazione blanda. Velocità e scalabilità DeepQA è stato sviluppato con l’architettura UIMA (Unstructured Information Management Architecture) di Apache, una struttura di implementazione dell’UIMA. UIMA è stata progettata per supportare l’interoperabilità e la scalabilità di applicazioni di testo e analisi multimodale. Tutti i componenti di DeepQA sono implementati con ruoli di annotazione UIMA. Si tratta di componenti che analizzano il testo e producono annotazioni o asserzioni sul testo. Watson si è evoluto nel tempo in modo che il sistema possiede ora centinaia di componenti. UIMA ha facilitato l’integrazione, la verifica e la valutazione rapide dei componenti. Le prime implementazioni di Watson funzionavano su un singolo processore ed erano necessarie due ore per ottenere la risposta a una singola domanda. L’elaborazione di DeepQA è Watson possiede un contenuto costituito da circa 200 milioni di pagine in linguaggio naturale (l’equivalente di 1 milione di libri). Watson si avvale della struttura Apache Hadoop per agevolare la pre-elaborazione di un grande volume di dati per creare dataset in memoria utilizzati in fase di runtime. Gli annotatori UIMA di DeepQA di Watson sono stati implementati come mappatori nella struttura di riduzione di mappa di Hadoop, e come tali vengono distribuiti nei vari processori del cluster. Hadoop contribuisce a un utilizzo ottimale della CPU (Central Processing Unit) e offre inoltre convenienti strumenti per l’implementazione, la gestione e il monitoraggio del processo di analisi dei dati. Ottimizzazione di POWER7 Watson sfrutta le prestazioni di elaborazione garantite dall’esteso parallelismo dei processori POWER7 per eseguire le migliaia di operazioni simultanee di cui DeepQA è capace su singoli core di processore. Ciascuno dei 90 server IBM Power 750 in cluster di Watson è dotato di 32 core POWER7 funzionanti a 3,55 GHz. I server, che operano con sistema operativo Linux®, sono alloggiati in 10 rack con i relativi nodi I/O (input/output) e hub di comunicazione. Il sistema ha un totale di 16 TB (TeraByte) di memoria e può funzionare a oltre 80 Teraflop (trilioni di operazioni al secondo). Con un’innovativa struttura di processore a otto core, POWER7 è ideale per l’elaborazione a parallelismo esteso degli algoritmi di analisi di Watson. POWER7 presenta inoltre 500 GB (GigaByte) di larghezza di banda per comunicazioni su chip, contribuendo così a una straordinaria efficienza di utilizzo della memoria e del processore. E poiché ciascun server contiene IBM Systems and Technology 32 core POWER7 a elevate prestazioni con ben 512 GB di memoria, il Power 750 rappresenta una piattaforma ideale per il processore e i processi Java™ ad elevato utilizzo di memoria di Watson. Progettare Watson su server Power 750 disponibili in commercio è stata una scelta deliberata per garantire una più rapida adozione di sistemi ottimizzati in settori quali assistenza sanitaria e servizi finanziari. Quell’obiettivo ha rappresentato una differenza fondamentale tra Watson e Deep Blue, un supercomputer estremamente personalizzato. Deep Blue è basato su una precedente generazione di tecnologia di processori Power, con un sistema RS/6000 SP a 30 nodi, con ciascun nodo contenente un singolo processore POWER2 a 120 MHz. Ma in aggiunta ai normali processori POWER2, le prestazioni di Deep Blue sono state migliorate grazie a 480 chip di processore specifiche per gli scacchi. Lo stesso server Power 750 utilizzato da Watson è già implementato oggi da migliaia di organizzazioni in sistemi ottimizzati che svolgono sia analisi complesse che elaborazione di transazioni. La Rice University di Houston, in Texas, ad esempio, usa i sistemi IBM Power 750 per accelerare la comprensione della base molecolare del cancro mediante l’applicazione di tecnologie di analisi del genoma. I sistemi POWER7 hanno fornito alla Rice maggiore flessibilità ed efficienza, permettendo di far fronte a un maggiore numero di sfide nell’ambito della ricerca su un singolo sistema di quanto fosse stato mai possibile in precedenza. GHY International, una società di intermediazione doganale con sede in Canada, è passata a un nuovo Power 750 con Power AIX, Power i e Power Linux per migliorare il supporto al maggiore coinvolgimento dei clienti nel commercio internazionale. Grazie alla virtualizzazione PowerVM, GHY è ora in grado di implementare nuove funzionalità in appena cinque minuti per supportare le esigenze in evoluzione dei clienti. Un sistema progettato per dare risposte Dopo quattro anni di un’intensa attività di ricerca e sviluppo da parte di un team di ricercatori IBM, Watson ha dimostrato di poter gareggiare a Jeopardy! contro campioni in carne ed ossa, operando a livelli di destrezza umana per precisione, sicurezza e velocità. Il progetto ha fatto registrare un progresso nei campi dell’analisi non strutturata dei dati, elaborazione del linguaggio naturale e progettazione di sistemi ottimizzati per i carichi di lavoro. Indipendentemente da Jeopardy!, la tecnologia alla base di Watson può essere adattata per risolvere problemi aziendali e di altra natura – ad esempio, diagnosi di malattie, gestione di domande di assistenza tecnica online e analisi di ampi tratti di documenti legali – e promuovere il progresso in diversi settori. La capacità di Watson di capire il significato e il contesto del linguaggio umano ed elaborare rapidamente le informazioni per trovare risposte precise a domande complesse nasconde un potenziale enorme per trasformare il modo in cui i computer possono aiutare le persone a completare delle operazioni nel lavoro e nella vita. 5 Per ottenere ulteriori informazioni Per maggiori informazioni su Watson, POWER7 e sui sistemi ottimizzati per i carichi di lavoro, contattare il proprio responsabile commerciale o Business Partner IBM di fiducia o visitare i seguenti siti Web: •● ● • ibm.com/systems/power/advantages/watson ibm.com/it/pov/watson/soluzioni ibm.com/systems/power ibm.com/systems/it/power IBM Italia S.p.A. Circonvallazione Idroscalo 20090 Segrate (Milano) Italia La home page di IBM Italia si trova all’indirizzo ibm.com/it IBM, il logo IBM, ibm.com, AIX, DEEP BLUE, POWER, POWER2, POWER7, PowerVM e RS/6000 sono marchi o marchi registrati di International Business Machines Corporation negli Stati Uniti e/o in altri Paesi. Se la prima occorrenza di questi e altri termini IBM all’interno del presente documento è contrassegnata con il simbolo (® o ™), si tratta di marchi registrati o previsti dalla common law negli Stati Uniti di proprietà di IBM al momento della pubblicazione delle informazioni. Questi marchi potrebbero essere registrati o riconosciuti come basati sul diritto consuetudinario anche in altri Paesi. La lista aggiornata dei marchi registrati di IBM è disponibile alla voce “Copyright and trademark information” sul sito ibm.com/legal/it Linux è un marchio registrato di Linus Torvalds negli Stati Uniti e/o in altri Paesi. Java e tutti i marchi e i logo basati su Java sono marchi o marchi registrati di Oracle e/o delle sue affiliate. Altri nomi di società, prodotti e servizi possono essere marchi o marchi di servizi appartenenti a terzi. Ogni riferimento a prodotti, programmi o servizi IBM non implica la volontà, da parte di IBM, di rendere tali prodotti, programmi o servizi disponibili in tutti i Paesi in cui IBM opera. Ogni riferimento a un prodotto, programma o servizio IBM non implica l’uso esclusivo del medesimo. In sostituzione potrà essere usato qualunque prodotto, programma o servizio funzionalmente equivalente. I prodotti hardware IBM possono essere costituiti di parti nuove o nuove e ricondizionate. In alcuni casi, i prodotti hardware potrebbero non essere nuovi e potrebbero essere stati installati in precedenza. Ciononostante rimane ferma l’applicabilità della garanzia IBM. Questa pubblicazione è fornita esclusivamente a titolo informativo. Le informazioni sono soggette a modifiche senza preavviso. Contattate un responsabile commerciale o un rivenditore IBM per ottenere le informazioni più aggiornate su prodotti e servizi IBM. IBM non fornisce assistenza legale o contabile, né alcuna rappresentazione o garanzia che i suoi prodotti o servizi siano conformi alla legge. I clienti sono responsabili dell’osservanza di ogni legge ed obbligo normativo applicabile, comprese le leggi e le norme nazionali. Le immagini potrebbero fare riferimento a prototipi. © Copyright IBM Corporation 2011 Tutti i diritti riservati. Si prega di riciclare POW03061-ITIT-00