I Da t a b a s e : Da t a Wa r e H o u s e , Da t a M i n i n g …. 0DULR0DJOLXOR I n f o r m a zi o n i e d a t i Nei sistemi informatici (e non solo), le informazioni vengono rappresentate in modo essenziale, spartano: attraverso i GDWL Dal Vocabolario della lingua italiana (1987) LQIRUPD]LRQH: notizia, dato o elemento che consente di avere conoscenza più o meno esatta di fatti, situazioni, modi di essere. GDWR: ciò che è immediatamente presente alla conoscenza, prima di ogni elaborazione; (in informatica) elementi di informazione costituiti da simboli che debbono essere elaborati. Mario Magliulo database in medicina 2 Da t i e i n f o r m a zi o n i I dati hanno bisogno di essere interpretati (VHPSLR ‘Mario’ ’275’ su un foglio di carta sono due GDWL. Se il foglio di carta viene fornito in risposta alla domanda “A chi mi devo rivolgere per il problema X; qual è il suo numero di telefono?”, allora i dati possono essere interpretati per fornire LQIRUPD]LRQH e arricchire la FRQRVFHQ]D. Mario Magliulo database in medicina 3 Pe r c h é i d a t i ? I dati costituiscono spesso una risorsa strategica, perché più stabili nel tempo di altre componenti (processi, tecnologie, ruoli umani) La definizione di una struttura corretta dei dati, rappresenta una precisa informazione ed qDOODEDVHGHOODFRQRVFHQ]D Mario Magliulo database in medicina 4 Base di dat i (accezione generica, PHWRGRORJLFD) ,QVLHPHRUJDQL]]DWRGLGDWLXWLOL]]DWLSHULO VXSSRUWRDOORVYROJLPHQWRGHOOHDWWLYLWjGL XQHQWHD]LHQGDXIILFLRSHUVRQD (accezione specifica, PHWRGRORJLFD e WHFQRORJLFD) LQVLHPHGLGDWLJHVWLWRGDXQ'%06 Mario Magliulo database in medicina 5 Co n d i v i s i o n e Ogni organizzazione (specie se grande) è divisa in settori o comunque svolge diverse attività A ciascun settore o attività corrisponde un (sotto)sistema informativo Possono esistere sovrapposizioni fra i dati di interesse dei vari settori Una base di dati è una risorsa LQWHJUDWD, condivisa fra i vari settori Mario Magliulo database in medicina 6 Po s s i b i l i p r o b l e m i 5LGRQGDQ]D: z informazioni ripetute z le versioni possono non coincidere Rischio di LQFRHUHQ]D: Mario Magliulo database in medicina 7 Arc hivi e basi di dat i *HVWLRQH RUDULROH]LRQL $UFKLYLR RUDULROH]LRQL *HVWLRQH ULFHYLPHQWR $UFKLYLR ULFHYLPHQWR Mario Magliulo database in medicina 8 Arc hivi e basi di dat i *HVWLRQH RUDULROH]LRQL %DVHGLGDWL *HVWLRQH ULFHYLPHQWR Mario Magliulo database in medicina 9 Le basi di dat i sono c ondivise Una base di dati e’ una risorsa LQWHJUDWD, FRQGLYLVD fra le varie applicazioni conseguenze z Attivita’ diverse su dati in parte condivisi: z Attivita’ multi-utente su dati condivisi: z meccanismi di DXWRUL]]D]LRQH z Mario Magliulo controllo della FRQFRUUHQ]D database in medicina 10 Arc hit et t ura (s e m p l i f i c a t a ) d i u n DB M S utente Schema logico Schema interno BD Mario Magliulo database in medicina 11 A r c h i t e t t u r a s t a n d a r d (A N SI /SPA RC) a t r e l i v e l l i p e r DB M S utente utente Schema esterno utente Schema esterno utente utente Schema esterno Schema logico Schema interno BD Mario Magliulo database in medicina 12 Fu n zi o n i d e l DB M S (e s e m p i o ) Un utente richiede una ricerca bibliografica per chiavi ad un responsabile Il responsabile chiede al bibliotecario, in un formato comprensibile, le informazioni Il bibliotecario controlla i livelli di autorizzazione del responsabile ed esegue la ricerca nell’archivio che ha organizzato precedentemente Libri.wmf Mario Magliulo database in medicina Utente Applicativo (software) DBMS 13 $UFKLYLR $QDJ$83 $UFKLYLR 5HIHUWD]LRQH $UFKLYLR &DUGLRORJLD 5(7( :.6 :.6 :.6 $UFKLYLR &DUWHOODFOLQLFD $UFKLYLR ,QIRUDG :.6 :.6 $UFKLYLR 3$&6 $UFKLYLR 3URW5LFHUFD :.6 :.6 $UFKLYLR 0HGLFLQD1XF 'DWD%DVH ,17(*5$72 $UFKLYLR $QDJ$83 $UFKLYLR &DUWHOODFOLQLFD $UFKLYLR 5HIHUWD]LRQH $UFKLYLR ,QIRUDG $UFKLYLR &DUGLRORJLD $UFKLYLR 3$&6 $UFKLYLR 3URW5LFHUFD $UFKLYLR 0HGLFLQD1XF 5HWH :.6 '%06 :.6 :.6 :.6 Il problem a I n gener e: Ï abbondanza di dat i PDDQFKH Ð abbondanza di r idondanza ed inconsist enza che non per met t e di ut ilizzar e i dat i in modo ut ile a f ini decisionali Mario Magliulo database in medicina 16 Tipic he ric hiest e Qual è stato il volume degli esami divisi per diagnostiche e struttura richiedente durante l’ultimo anno? Quale tipo di esame è stato più richiesto nell’ultimo mese? In quale modo sono correlati gli esami eseguiti nell’anno da un singolo paziente? In che modo sono variati gli esami con l’introduzione di nuove diagnostiche? Mario Magliulo database in medicina 17 Po s s i b i l i a p p l i c a zi o n i FRQWHVWL •gestione dei rischi •analisi costi-benefici •gestione dei reparti •analisi statistica •integrazione DB •analisi temporale Mario Magliulo •telecomunicazioni •ricerca •università •assicurazioni •radioterapia •salute database in medicina SUREOHPDWLFKH 18 I n s i n t e s i ... sistemi di supporto alle decisioni (DSS) conoscenza utile all’azienda dati '66: Tecnologia che supporta la dirigenza aziendale nel prendere decisioni tattico-strategiche in modo migliore e più veloce Mario Magliulo database in medicina 19 Pe r c h é i s i s t e m i t r a d i zi o n a l i non sono suffic ient i? dati storici non normalizzati sistemi eterogenei basse prestazioni DBMS non adeguati al supporto decisionale problemi di sicurezza Mario Magliulo database in medicina 20 I sist em i di dat a w arehousing Il Data Warehousing si può definire come il processo di integrazione di basi di dati indipendenti in un singolo repository (il data warehouse) dal quale gli utenti finali possano facilmente ed efficientemente eseguire query, generare report ed effettuare analisi Mario Magliulo database in medicina 21 Il dat a w arehouse Collezione di dati che soddisfa le seguenti proprietà: usata per il supporto alle decisioni integrata: livello aziendale e non dipartimentale correlata alla variabile tempo: ampio orizzonte temporale con dati tipicamente aggregati: per effettuare stime fuori linea: dati aggiornati periodicamente Mario Magliulo database in medicina 22 Il dat a w arehouse ,QWHJUDWD: z z i dati provengono da tutte le sorgenti informative il data warehouse rappresenta i dati in modo univoco, riconciliando le eterogeneita‘ delle diverse rappresentazioni: z z z z Mario Magliulo nomi struttura codifica rappresentazione multipla database in medicina 23 Il dat a w arehouse 'DWL DJJUHJDWL: z non interessa un dato ma la somma, la media, il minimo, il massimo di un insieme di dati Mario Magliulo database in medicina 24 Da t a M i n i n g Tecniche e algoritmi di base per l’estrazione di conoscenza .QRZOHGJH'LVFRYHU\ LQ 'DWDEDVHV .'' H'DWD0LQLQJ ,QWURGX]LRQH • &UHVFLWDQRWHYROHGHJOLVWUXPHQWL HGHOOHWHFQLFKH SHUJHQHUDUH H UDFFRJOLHUHGDWL LQWURGX]LRQHFRGLFL DEDUUHWUDQVD]LRQLHFRQRPLFKH WUDPLWHFDUWD GL FUHGLWRGDWLGD VDWHOOLWHRGDVHQVRULUHPRWLVHUYL]L RQOLQH • 6YLOXSSRGHOOHWHFQRORJLH SHUO¶LPPDJD]]LQDPHQWRGHLGDWLWHFQLFKH GL JHVWLRQH GL GDWDEDVHHGDWDZDUHKRXVHVXSSRUWLSLX¶FDSDFLSLX¶ HFRQRPLFL GLVFKL&'KDQQRFRQVHQWLWRO¶DUFKLYLD]LRQH GL JURVVH TXDQWLWD¶ GL GDWL • 6LPLOLYROXPL GL GDWLVXSHUDQRGLPROWRODFDSDFLWjGLDQDOLVLGHL PHWRGLPDQXDOLWUDGL]LRQDOLFRPHOHTXHU\ DGKRF7DOLPHWRGL SRVVRQRFUHDUHUHSRUW LQIRUPDWLYLVXLGDWLPDQRQULHVFRQRDG DQDOL]]DUHLOFRQWHQXWRGHLUHSRUW SHUIRFDOL]]DUVLVXOODFRQRVFHQ]D XWLOH Mario Magliulo database in medicina 26 .''H'DWD0LQLQJ ,QWURGX]LRQH • (PHUJHO HVLJHQ]DGLWHFQLFKHHVWUXPHQWLFRQODFDSDFLWjGLDVVLVWHUH LQPRGRLQWHOOLJHQWH HDXWRPDWLFR JOLXWHQWLGHFLVLRQDOLQHOO HVWUD]LRQH GLHOHPHQWLGLFRQRVFHQ]DGDLGDWL • 4XHVWHWHFQLFKHHVWUXPHQWLVRQRDOFHQWURGHOFDPSRHPHUJHQWHGHO .QRZOHGJH'LVFRYHU\ LQ'DWDEDVHV .'' • ,O WHUPLQH NQRZOHGJH GLVFRYHU\ LQ GDWDEDVHV R .'' LQGLFD O LQWHUR SURFHVVRGLULFHUFDGLQXRYDFRQRVFHQ]DGDLGDWL • ,O WHUPLQH GL GDWD PLQLQJ VL ULIHULVFH DOO DSSOLFD]LRQH GL DOJRULWPL SHU HVWUDUUH SDWWHUQ GDL GDWL VHQ]D FRQVLGHUDUH JOL XOWHULRUL SDVVL FKH FDUDWWHUL]]DQR LO SURFHVVR GL .'' FRPH DG HVHPSLR LQFRUSRUDUH DSSURSULDWD FRQRVFHQ]D D SULRUL H IRUQLUH XQD RSSRUWXQD LQWHUSUHWD]LRQHGHLULVXOWDWL Mario Magliulo database in medicina 27 .''H'DWD0LQLQJ ,QWURGX]LRQH • 3HUWDQWRO LQWHURSURFHVVRWLSLFDPHQWHLQWHUDWWLYRHLWHUDWLYR GL ULFHUFDHVWUD]LRQHHGLQWHUSUHWD]LRQHGLSDWWHUQGDLGDWLFKH LQGLFKLDPRFRPH.''FRLQYROJHO DSSOLFD]LRQHULSHWXWDGLVSHFLILFL PHWRGLHDOJRULWPLGLGDWDPLQLQJHO LQWHUSUHWD]LRQHGHLSDWWHUQ JHQHUDWLGDWDOLDOJRULWPL • 1HOVHJXLWRVLPRVWUHUDQQRGHJOLHVHPSLSHUSHUPHJOLRFKLDULUHLO SURFHVVR Mario Magliulo database in medicina 28 ,OSURFHVVR GL .'' Pr o c e s s o d i e s t r a zi o n e dati GDWLVHOH]LRQDWL GDWLSURFHVVDWL '$7$0,1,1* GDWLWUDVIRUPDWL SDWWHUQ conoscenza Mario Magliulo database in medicina 29 ,OSURFHVVR GL .'' 1) 6YLOXSSR H DSSURIRQGLPHQWR GHO GRPLQLR GL DSSOLFD]LRQH GHOOD FRQRVFHQ]DGLVSRQLELOHDSULRULHGHJOLRELHWWLYLGHOO XWHQWHILQDOH &UHD]LRQH GL XQ WDUJHW GDWD VHW VHOH]LRQH GHO GDWD VHW R IRFDOL]]D]LRQH VXXQVRWWRLQVLHPHGLYDULDELOLRGLFDPSLRQLGLGDWL RJJHWWRGHOSURFHVVR.'' &OHDQLQJ GHL GDWL H SUHSURFHVVLQJ RSHUD]LRQL GL EDVH FRPH OD ULPR]LRQH GHO UXPRUH R GHJOL RXWOLHUV VH q LO FDVR UDFFROWD GHOOH LQIRUPD]LRQL QHFHVVDULH SHU PRGHOODUH R WHQHU FRQWR GHO UXPRUH PHVVDDSXQWRGLVWUDWHJLHSHUJHVWLUHLGDWLPDQFDQWLHSHUJHVWLUHL GDWLWHPSRYDULDQWL 5LGX]LRQHGHLGDWLHSURLH]LRQHUDSSUHVHQWD]LRQHGHLGDWLLQPRGR RSSRUWXQR LQ UHOD]LRQH DJOL RELHWWLYL GHOOD ULFHUFD 5LGX]LRQH GHOOH GLPHQVLRQL H LPSLHJR GL PHWRGL GL WUDVIRUPD]LRQH SHU ULGXUUH O HIIHWWLYRQXPHURGLYDULDELOLGDVRWWRSRUUHDOSURFHVVRGLULFHUFD Mario Magliulo database in medicina 30 ,OSURFHVVR GL .'' 6FHOWDGHOFRPSLWRGHOSURFHVVRGLGDWDPLQLQJLGHQWLILFD]LRQH GHOO RELHWWLYRGHO.''VHVLWUDWWLGLXQDFODVVLILFD]LRQHGLXQD UHJUHVVLRQHGLXQFOXVWHULQJ«FODVVLILFD]LRQHO¶RXWSXWq O¶DSSDUWHQHQ]DGLXQYDORUHDGXQDFDWHJRULDHV³DOWR´³EDVVR´OD UHJUHVVLRQHWHQGHDGDYHUHXQYDORUHGHOO¶RXWSXWQXPHULFRFKH DVVXPHPROWLYDORULFOXVWHULQJWHQGHDLGHQWLILFDUHXQQXPHURILQLWR GLFDWHJRULHSHUGHVFULYHUHLGDWL 6FHOWDGHOO DOJRULWPRRGHJOLDOJRULWPLGLGDWDPLQLQJVHOH]LRQHGHL PHWRGLGDXVDUHSHUULFHUFDUHSDWWHUQQHLGDWL4XHVWDIDVH FRPSUHQGHODGHFLVLRQHVXTXDOLPRGHOOLHSDUDPHWULSRWUHEEHUR HVVHUHDSSURSULDWLHLOPDWFKLQJ GLXQSDUWLFRODUHPHWRGRGLGDWD PLQLQJFRQLFULWHULJHQHUDOLGHOSURFHVVR.''SHUHVO XWHQWH ILQDOH SRWUHEEHHVVHUHPDJJLRUPHQWHLQWHUHVVDWRDOODFRPSUHQVLRQHGHO PRGHOORSLXWWRVWRFKHDOOHVXHFDSDFLWjSUHGLWWLYH Mario Magliulo database in medicina 31 ,OSURFHVVR GL .'' 'DWDPLQLQJULFHUFDGLSDWWHUQGLLQWHUHVVHLQXQDSDUWLFRODUHIRUPD GLUDSSUHVHQWD]LRQHRVXXQVHWGLUDSSUHVHQWD]LRQLGLYHUVHUHJROH GLFODVVLILFD]LRQHDOEHULGHFLVLRQDOLUHJUHVVLRQHFOXVWHULQJ«,O ULVXOWDWRGHOSURFHVVRGLGDWDPLQLQJqFRQVLGHUHYROPHQWH LQIOXHQ]DWRGDOODFRUUHWWH]]DGHOOHIDVLSUHFHGHQWL ,QWHUSUHWD]LRQHGHLSDWWHUQWURYDWLHSRVVLELOHULWRUQRDOOHIDVLSHU XOWHULRULLWHUD]LRQL &RQVROLGDPHQWRGHOODFRQRVFHQ]DHVWUDWWDLQFRUSRUD]LRQHGLWDOH FRQRVFHQ]DQHOVLVWHPDGLSHUIRUPDQFHRVHPSOLFHPHQWH GRFXPHQWD]LRQHHUHSRUWLQJ DOOHSDUWLLQWHUHVVDWH4XHVWDIDVH LQFOXGHDQFKHLOFRQWUROORSHUODULVROX]LRQHGLSRWHQ]LDOL FRQWUDGGL]LRQLFRQODFRQRVFHQ]DSUHFHGHQWHPHQWHGLVSRQLELOH Mario Magliulo database in medicina 32 'DWD0LQLQJ ,QWURGX]LRQH ,GXHSULQFLSDOLRELHWWLYLGLDOWROLYHOORGHOGDWDPLQLQJVRQROD SUHGL]LRQHHODGHVFUL]LRQH • • /D SUHGL]LRQH LPSOLFD O XVR GL YDULDELOL R FDPSL GL XQ GDWDEDVH SHU SUHGLUHYDORULLJQRWLRIXWXULGLDOWUHYDULDELOLGLLQWHUHVVH /D GHVFUL]LRQH VL FRQFHQWUD LQYHFH VXOOD ULFHUFD GL SDWWHUQ LQWHUSUHWDELOLFKHGHVFULYDQRLGDWL / LPSRUWDQ]D UHODWLYD GL SUHGL]LRQH H GHVFUL]LRQH QHOOH GLYHUVH DSSOLFD]LRQL GHO GDWD PLQLQJ SXz YDULDUH FRQVLGHUHYROPHQWH 1HO FRQWHVWRGHO.''ODGHVFUL]LRQHWHQGHDGHVVHUHSLLPSRUWDQWHGHOOD SUHGL]LRQH PHQWUH QHOOH DSSOLFD]LRQL GL SDWWHUQ UHFRJQLWLRQ H PDFKLQH OHDUQLQJ SHU HV VSHHFK UHFRJQLWLRQ OD SUHGL]LRQH VSHVVR FRVWLWXLVFHO RELHWWLYRSULQFLSDOH Mario Magliulo database in medicina 33 K n o w l e d g e Di s c o v e r y La maggior parte delle aziende dispone di enormi basi di dati contenenti dati di tipo operativo z Queste basi di dati costituiscono una potenziale miniera di utili informazioni Mario Magliulo database in medicina 34 K n o w l e d g e Di s c o v e r y Processo di estrazione dai dati esistenti di pattern: z valide z precedentemente sconosciute z potenzialmente utili z comprensibili [Fayyad, Piatesky-Shapiro, Smith 1996] Mario Magliulo database in medicina 35 Es e m p i o Prestiti o x x x x x x x x x x x x x o x o o o o x o o o o o o o o o o Stipendio Persone che hanno ricevuto un prestito dalla banca: x: persone che hanno mancato la restituzione di rate o: persone che hanno rispettato le scadenze Mario Magliulo database in medicina 36 K n o w l e d g e Di s c o v e r y Un processo di KD si basa sui seguenti elementi: z z 'DWL: insieme di informazioni contenute in una base di dati o data warehouse 3DWWHUQ: espressione in un linguaggio opportuno che descrive in modo succinto le informazioni estratte dai dati z z regolarita‘ informazione di alto livello Mario Magliulo database in medicina 37 Es e m p i o Prestiti o x x x x x x x x x x x x o x o o o o x o x o o o o o o o o o k Stipendio IF stipendio < k THEN mancati pagamenti Mario Magliulo database in medicina 38 Ca r a t t e r i s t i c h e d e i p a t t e r n 9DOLGLWDC: i pattern scoperti devono essere validi su nuovi dati con un certo grado di certezza z Esempio: spostamento a destra del valore di k porta riduzione del grado di certezza 1RYLWDC: misurata rispetto a variazioni dei dati o della conoscenza estratta 8WLOLWDC z Esempio: aumento di efficacia di un trattamento radioterapico atteso dallo specialista associato alla regola estratta Mario Magliulo database in medicina 39 Pr o c e s s o d i e s t r a zi o n e Il processo di estrazione in genere parte da insiemi di dati eterogenei deve garantire adeguata efficienza, ipotizzando che i dati risiedano su memoria secondaria (accesso ai dati veloce) deve essere scalabile deve associare misure di qualita‘ ai patterm estratto deve permettere di applicare criteri diversificati di estrazione Mario Magliulo database in medicina 40 Di s c i p l i n e c o i n v o l t e n e l l a g e n e r a zi o n e d e i p a t t e r n AI machine learning knowledge acquisition statistics data visualization neural networks database data mining Mario Magliulo database in medicina Dati in memoria centrale Dati in memoria secondaria 41 Es e m p i o Latte ⇒ Uova Supporto: il 2% delle transazioni contiene entrambi gli elementi Confidenza: il 30% delle transazioni che contengono latte contiene anche uova Mario Magliulo database in medicina 42 A p p l i c a zi o n i Analisi market basket z * ⇒ uova z cosa si deve promuovere per aumentare le vendite di uova? z Latte ⇒ * z quali altri prodotti devono essere venduti da un supermercato che vende latte? Dimensione del problema: z z oggetti: 104, 105, transazioni: > 106 base di dati: 10-100 GB Mario Magliulo database in medicina 43 Es e m p i o (c o n t i n u a ) TRANSACTION ID OGGETTI ACQUISTATI 1 2 3 4 $,B,& $& $,D B,E,F Regole ottenute: z z A C Mario Magliulo ⇒ C supporto 50% confidenza 66.6 ⇒ A supporto 50% confidenza 100% Il 50% delle transazioni contiene A e C e i 2/3 delle transazioni con A contengono C database in medicina 44 De t e r m i n a zi o n e r e g o l e d i a s s o c i a zi o n e ❙ Decomposizione problema ➊ Trovare tutti gli insiemi di item (itemset) che hanno un supporto minimo (IUHTXHQWLWHPVHWV) z Algoritmo fondamentale: APRIORI [Agrawal, Srikant] ➋ Generazione delle regole a partire dai frequent itemsets Mario Magliulo database in medicina 45