I Database: Data WareHouse, Data Mining ….

I Da t a b a s e :
Da t a Wa r e H o u s e , Da t a M i n i n g ….
0DULR0DJOLXOR
I n f o r m a zi o n i e d a t i
Nei sistemi informatici (e non solo), le
informazioni vengono rappresentate in modo
essenziale, spartano: attraverso i GDWL
Dal Vocabolario della lingua italiana (1987)
LQIRUPD]LRQH: notizia, dato o elemento che
consente di avere conoscenza più o meno esatta
di fatti, situazioni, modi di essere.
GDWR: ciò che è immediatamente presente alla
conoscenza, prima di ogni elaborazione; (in
informatica) elementi di informazione costituiti da
simboli che debbono essere elaborati.
Mario Magliulo
database in medicina
2
Da t i e i n f o r m a zi o n i
I dati hanno bisogno di essere interpretati
(VHPSLR
‘Mario’ ’275’ su un foglio di carta sono
due GDWL.
Se il foglio di carta viene fornito in risposta
alla domanda “A chi mi devo rivolgere per il
problema X; qual è il suo numero di
telefono?”, allora i dati possono essere
interpretati per fornire LQIRUPD]LRQH e
arricchire la FRQRVFHQ]D.
Mario Magliulo
database in medicina
3
Pe r c h é i d a t i ?
I dati costituiscono spesso una risorsa
strategica, perché più stabili nel tempo di
altre componenti (processi, tecnologie, ruoli
umani)
La definizione di una struttura corretta dei
dati, rappresenta una precisa informazione
ed qDOODEDVHGHOODFRQRVFHQ]D
Mario Magliulo
database in medicina
4
Base di dat i
(accezione generica, PHWRGRORJLFD)
,QVLHPHRUJDQL]]DWRGLGDWLXWLOL]]DWLSHULO
VXSSRUWRDOORVYROJLPHQWRGHOOHDWWLYLWjGL
XQHQWHD]LHQGDXIILFLRSHUVRQD
(accezione specifica, PHWRGRORJLFD e
WHFQRORJLFD)
LQVLHPHGLGDWLJHVWLWRGDXQ'%06
Mario Magliulo
database in medicina
5
Co n d i v i s i o n e
Ogni organizzazione (specie se grande) è
divisa in settori o comunque svolge diverse
attività
A ciascun settore o attività corrisponde un
(sotto)sistema informativo
Possono esistere sovrapposizioni fra i dati di
interesse dei vari settori
Una base di dati è una risorsa LQWHJUDWD,
condivisa fra i vari settori
Mario Magliulo
database in medicina
6
Po s s i b i l i p r o b l e m i
5LGRQGDQ]D:
z
informazioni ripetute
z
le versioni possono non coincidere
Rischio di LQFRHUHQ]D:
Mario Magliulo
database in medicina
7
Arc hivi e basi di dat i
*HVWLRQH
RUDULROH]LRQL
$UFKLYLR
RUDULROH]LRQL
*HVWLRQH
ULFHYLPHQWR
$UFKLYLR
ULFHYLPHQWR
Mario Magliulo
database in medicina
8
Arc hivi e basi di dat i
*HVWLRQH
RUDULROH]LRQL
%DVHGLGDWL
*HVWLRQH
ULFHYLPHQWR
Mario Magliulo
database in medicina
9
Le basi di dat i sono
c ondivise
Una base di dati e’ una risorsa
LQWHJUDWD, FRQGLYLVD fra le varie
applicazioni
conseguenze
z
Attivita’ diverse su dati in parte condivisi:
z
Attivita’ multi-utente su dati condivisi:
z
meccanismi di DXWRUL]]D]LRQH
z
Mario Magliulo
controllo della FRQFRUUHQ]D
database in medicina
10
Arc hit et t ura
(s e m p l i f i c a t a ) d i u n DB M S
utente
Schema logico
Schema interno
BD
Mario Magliulo
database in medicina
11
A r c h i t e t t u r a s t a n d a r d (A N SI /SPA RC)
a t r e l i v e l l i p e r DB M S
utente
utente
Schema
esterno
utente
Schema
esterno
utente
utente
Schema
esterno
Schema logico
Schema interno
BD
Mario Magliulo
database in medicina
12
Fu n zi o n i d e l DB M S
(e s e m p i o )
Un utente richiede una ricerca
bibliografica per chiavi ad un
responsabile
Il responsabile chiede al
bibliotecario, in un formato
comprensibile, le informazioni
Il bibliotecario controlla i livelli di
autorizzazione del responsabile
ed esegue la ricerca nell’archivio
che ha organizzato
precedentemente
Libri.wmf
Mario Magliulo
database in medicina
Utente
Applicativo
(software)
DBMS
13
$UFKLYLR
$QDJ$83
$UFKLYLR
5HIHUWD]LRQH
$UFKLYLR
&DUGLRORJLD
5(7(
:.6
:.6
:.6
$UFKLYLR
&DUWHOODFOLQLFD
$UFKLYLR
,QIRUDG
:.6
:.6
$UFKLYLR
3$&6
$UFKLYLR
3URW5LFHUFD
:.6
:.6
$UFKLYLR
0HGLFLQD1XF
'DWD%DVH
,17(*5$72
$UFKLYLR
$QDJ$83
$UFKLYLR
&DUWHOODFOLQLFD
$UFKLYLR
5HIHUWD]LRQH
$UFKLYLR
,QIRUDG
$UFKLYLR
&DUGLRORJLD
$UFKLYLR
3$&6
$UFKLYLR
3URW5LFHUFD
$UFKLYLR
0HGLFLQD1XF
5HWH
:.6
'%06
:.6
:.6
:.6
Il problem a
I n gener e:
Ï abbondanza di dat i
PDDQFKH
Ð abbondanza di r idondanza ed inconsist enza
che non per met t e di ut ilizzar e i dat i in modo
ut ile a f ini decisionali
Mario Magliulo
database in medicina
16
Tipic he ric hiest e
Qual è stato il volume degli esami divisi
per diagnostiche e struttura richiedente
durante l’ultimo anno?
Quale tipo di esame è stato più richiesto
nell’ultimo mese?
In quale modo sono correlati gli esami
eseguiti nell’anno da un singolo paziente?
In che modo sono variati gli esami con
l’introduzione di nuove diagnostiche?
Mario Magliulo
database in medicina
17
Po s s i b i l i a p p l i c a zi o n i
FRQWHVWL
•gestione dei rischi
•analisi costi-benefici
•gestione dei reparti
•analisi statistica
•integrazione DB
•analisi temporale
Mario Magliulo
•telecomunicazioni
•ricerca
•università
•assicurazioni
•radioterapia
•salute
database in medicina
SUREOHPDWLFKH
18
I n s i n t e s i ...
sistemi di supporto
alle decisioni (DSS)
conoscenza utile
all’azienda
dati
'66: Tecnologia che supporta la dirigenza aziendale nel
prendere decisioni tattico-strategiche in modo migliore
e più veloce
Mario Magliulo
database in medicina
19
Pe r c h é i s i s t e m i t r a d i zi o n a l i
non sono suffic ient i?
dati storici non normalizzati
sistemi eterogenei
basse prestazioni
DBMS non adeguati al supporto
decisionale
problemi di sicurezza
Mario Magliulo
database in medicina
20
I sist em i di dat a w arehousing
Il Data Warehousing si può definire
come il processo di integrazione di basi
di dati indipendenti in un singolo
repository (il data warehouse) dal quale
gli utenti finali possano facilmente ed
efficientemente eseguire query,
generare report ed effettuare analisi
Mario Magliulo
database in medicina
21
Il dat a w arehouse
Collezione di dati che soddisfa le seguenti proprietà:
usata per il supporto alle decisioni
integrata: livello aziendale e non dipartimentale
correlata alla variabile tempo: ampio orizzonte
temporale
con dati tipicamente aggregati: per effettuare stime
fuori linea: dati aggiornati periodicamente
Mario Magliulo
database in medicina
22
Il dat a w arehouse
,QWHJUDWD:
z
z
i dati provengono da tutte le sorgenti
informative
il data warehouse rappresenta i dati in modo
univoco, riconciliando le eterogeneita‘ delle
diverse rappresentazioni:
z
z
z
z
Mario Magliulo
nomi
struttura
codifica
rappresentazione multipla
database in medicina
23
Il dat a w arehouse
'DWL DJJUHJDWL:
z
non interessa un dato ma la somma, la
media, il minimo, il massimo di un insieme
di dati
Mario Magliulo
database in medicina
24
Da t a M i n i n g
Tecniche e algoritmi di base per
l’estrazione di conoscenza
.QRZOHGJH'LVFRYHU\ LQ 'DWDEDVHV .'' H'DWD0LQLQJ
,QWURGX]LRQH • &UHVFLWDQRWHYROHGHJOLVWUXPHQWL HGHOOHWHFQLFKH SHUJHQHUDUH H
UDFFRJOLHUHGDWL LQWURGX]LRQHFRGLFL DEDUUHWUDQVD]LRQLHFRQRPLFKH
WUDPLWHFDUWD GL FUHGLWRGDWLGD VDWHOOLWHRGDVHQVRULUHPRWLVHUYL]L
RQOLQH
• 6YLOXSSRGHOOHWHFQRORJLH SHUO¶LPPDJD]]LQDPHQWRGHLGDWLWHFQLFKH
GL JHVWLRQH GL GDWDEDVHHGDWDZDUHKRXVHVXSSRUWLSLX¶FDSDFLSLX¶
HFRQRPLFL GLVFKL&'KDQQRFRQVHQWLWRO¶DUFKLYLD]LRQH GL JURVVH
TXDQWLWD¶ GL GDWL
• 6LPLOLYROXPL GL GDWLVXSHUDQRGLPROWRODFDSDFLWjGLDQDOLVLGHL
PHWRGLPDQXDOLWUDGL]LRQDOLFRPHOHTXHU\ DGKRF7DOLPHWRGL
SRVVRQRFUHDUHUHSRUW LQIRUPDWLYLVXLGDWLPDQRQULHVFRQRDG
DQDOL]]DUHLOFRQWHQXWRGHLUHSRUW SHUIRFDOL]]DUVLVXOODFRQRVFHQ]D
XWLOH
Mario Magliulo
database in medicina
26
.''H'DWD0LQLQJ ,QWURGX]LRQH • (PHUJHO
HVLJHQ]DGLWHFQLFKHHVWUXPHQWLFRQODFDSDFLWjGLDVVLVWHUH
LQPRGRLQWHOOLJHQWH HDXWRPDWLFR JOLXWHQWLGHFLVLRQDOLQHOO
HVWUD]LRQH
GLHOHPHQWLGLFRQRVFHQ]DGDLGDWL
• 4XHVWHWHFQLFKHHVWUXPHQWLVRQRDOFHQWURGHOFDPSRHPHUJHQWHGHO
.QRZOHGJH'LVFRYHU\ LQ'DWDEDVHV .''
• ,O WHUPLQH NQRZOHGJH GLVFRYHU\ LQ GDWDEDVHV R .'' LQGLFD O
LQWHUR
SURFHVVRGLULFHUFDGLQXRYDFRQRVFHQ]DGDLGDWL
• ,O WHUPLQH GL GDWD PLQLQJ VL ULIHULVFH DOO
DSSOLFD]LRQH GL DOJRULWPL SHU
HVWUDUUH SDWWHUQ GDL GDWL VHQ]D FRQVLGHUDUH JOL XOWHULRUL SDVVL FKH
FDUDWWHUL]]DQR LO SURFHVVR GL .'' FRPH DG HVHPSLR LQFRUSRUDUH
DSSURSULDWD FRQRVFHQ]D D SULRUL H IRUQLUH XQD RSSRUWXQD
LQWHUSUHWD]LRQHGHLULVXOWDWL
Mario Magliulo
database in medicina
27
.''H'DWD0LQLQJ ,QWURGX]LRQH • 3HUWDQWRO
LQWHURSURFHVVRWLSLFDPHQWHLQWHUDWWLYRHLWHUDWLYR GL
ULFHUFDHVWUD]LRQHHGLQWHUSUHWD]LRQHGLSDWWHUQGDLGDWLFKH
LQGLFKLDPRFRPH.''FRLQYROJHO
DSSOLFD]LRQHULSHWXWDGLVSHFLILFL
PHWRGLHDOJRULWPLGLGDWDPLQLQJHO
LQWHUSUHWD]LRQHGHLSDWWHUQ
JHQHUDWLGDWDOLDOJRULWPL
• 1HOVHJXLWRVLPRVWUHUDQQRGHJOLHVHPSLSHUSHUPHJOLRFKLDULUHLO
SURFHVVR
Mario Magliulo
database in medicina
28
,OSURFHVVR GL .''
Pr o c e s s o d i e s t r a zi o n e
dati
GDWLVHOH]LRQDWL
GDWLSURFHVVDWL
'$7$0,1,1*
GDWLWUDVIRUPDWL
SDWWHUQ
conoscenza
Mario Magliulo
database in medicina
29
,OSURFHVVR GL .''
1) 6YLOXSSR H DSSURIRQGLPHQWR GHO GRPLQLR GL DSSOLFD]LRQH GHOOD
FRQRVFHQ]DGLVSRQLELOHDSULRULHGHJOLRELHWWLYLGHOO
XWHQWHILQDOH
&UHD]LRQH GL XQ WDUJHW GDWD VHW VHOH]LRQH GHO GDWD VHW R
IRFDOL]]D]LRQH VXXQVRWWRLQVLHPHGLYDULDELOLRGLFDPSLRQLGLGDWL
RJJHWWRGHOSURFHVVR.''
&OHDQLQJ GHL GDWL H SUHSURFHVVLQJ RSHUD]LRQL GL EDVH FRPH OD
ULPR]LRQH GHO UXPRUH R GHJOL RXWOLHUV VH q LO FDVR UDFFROWD GHOOH
LQIRUPD]LRQL QHFHVVDULH SHU PRGHOODUH R WHQHU FRQWR GHO UXPRUH
PHVVDDSXQWRGLVWUDWHJLHSHUJHVWLUHLGDWLPDQFDQWLHSHUJHVWLUHL
GDWLWHPSRYDULDQWL
5LGX]LRQHGHLGDWLHSURLH]LRQHUDSSUHVHQWD]LRQHGHLGDWLLQPRGR
RSSRUWXQR LQ UHOD]LRQH DJOL RELHWWLYL GHOOD ULFHUFD 5LGX]LRQH GHOOH
GLPHQVLRQL H LPSLHJR GL PHWRGL GL WUDVIRUPD]LRQH SHU ULGXUUH
O
HIIHWWLYRQXPHURGLYDULDELOLGDVRWWRSRUUHDOSURFHVVRGLULFHUFD
Mario Magliulo
database in medicina
30
,OSURFHVVR GL .''
6FHOWDGHOFRPSLWRGHOSURFHVVRGLGDWDPLQLQJLGHQWLILFD]LRQH
GHOO
RELHWWLYRGHO.''VHVLWUDWWLGLXQDFODVVLILFD]LRQHGLXQD
UHJUHVVLRQHGLXQFOXVWHULQJ«FODVVLILFD]LRQHO¶RXWSXWq
O¶DSSDUWHQHQ]DGLXQYDORUHDGXQDFDWHJRULDHV³DOWR´³EDVVR´OD
UHJUHVVLRQHWHQGHDGDYHUHXQYDORUHGHOO¶RXWSXWQXPHULFRFKH
DVVXPHPROWLYDORULFOXVWHULQJWHQGHDLGHQWLILFDUHXQQXPHURILQLWR
GLFDWHJRULHSHUGHVFULYHUHLGDWL
6FHOWDGHOO
DOJRULWPRRGHJOLDOJRULWPLGLGDWDPLQLQJVHOH]LRQHGHL
PHWRGLGDXVDUHSHUULFHUFDUHSDWWHUQQHLGDWL4XHVWDIDVH
FRPSUHQGHODGHFLVLRQHVXTXDOLPRGHOOLHSDUDPHWULSRWUHEEHUR
HVVHUHDSSURSULDWLHLOPDWFKLQJ GLXQSDUWLFRODUHPHWRGRGLGDWD
PLQLQJFRQLFULWHULJHQHUDOLGHOSURFHVVR.''SHUHVO
XWHQWH ILQDOH
SRWUHEEHHVVHUHPDJJLRUPHQWHLQWHUHVVDWRDOODFRPSUHQVLRQHGHO
PRGHOORSLXWWRVWRFKHDOOHVXHFDSDFLWjSUHGLWWLYH
Mario Magliulo
database in medicina
31
,OSURFHVVR GL .''
'DWDPLQLQJULFHUFDGLSDWWHUQGLLQWHUHVVHLQXQDSDUWLFRODUHIRUPD
GLUDSSUHVHQWD]LRQHRVXXQVHWGLUDSSUHVHQWD]LRQLGLYHUVHUHJROH
GLFODVVLILFD]LRQHDOEHULGHFLVLRQDOLUHJUHVVLRQHFOXVWHULQJ«,O
ULVXOWDWRGHOSURFHVVRGLGDWDPLQLQJqFRQVLGHUHYROPHQWH
LQIOXHQ]DWRGDOODFRUUHWWH]]DGHOOHIDVLSUHFHGHQWL
,QWHUSUHWD]LRQHGHLSDWWHUQWURYDWLHSRVVLELOHULWRUQRDOOHIDVLSHU
XOWHULRULLWHUD]LRQL
&RQVROLGDPHQWRGHOODFRQRVFHQ]DHVWUDWWDLQFRUSRUD]LRQHGLWDOH
FRQRVFHQ]DQHOVLVWHPDGLSHUIRUPDQFHRVHPSOLFHPHQWH
GRFXPHQWD]LRQHHUHSRUWLQJ DOOHSDUWLLQWHUHVVDWH4XHVWDIDVH
LQFOXGHDQFKHLOFRQWUROORSHUODULVROX]LRQHGLSRWHQ]LDOL
FRQWUDGGL]LRQLFRQODFRQRVFHQ]DSUHFHGHQWHPHQWHGLVSRQLELOH
Mario Magliulo
database in medicina
32
'DWD0LQLQJ ,QWURGX]LRQH
,GXHSULQFLSDOLRELHWWLYLGLDOWROLYHOORGHOGDWDPLQLQJVRQROD
SUHGL]LRQHHODGHVFUL]LRQH
•
•
/D SUHGL]LRQH LPSOLFD O
XVR GL YDULDELOL R FDPSL GL XQ GDWDEDVH SHU
SUHGLUHYDORULLJQRWLRIXWXULGLDOWUHYDULDELOLGLLQWHUHVVH
/D GHVFUL]LRQH VL FRQFHQWUD LQYHFH VXOOD ULFHUFD GL SDWWHUQ
LQWHUSUHWDELOLFKHGHVFULYDQRLGDWL
/
LPSRUWDQ]D UHODWLYD GL SUHGL]LRQH H GHVFUL]LRQH QHOOH GLYHUVH
DSSOLFD]LRQL GHO GDWD PLQLQJ SXz YDULDUH FRQVLGHUHYROPHQWH 1HO
FRQWHVWRGHO.''ODGHVFUL]LRQHWHQGHDGHVVHUHSLLPSRUWDQWHGHOOD
SUHGL]LRQH PHQWUH QHOOH DSSOLFD]LRQL GL SDWWHUQ UHFRJQLWLRQ H
PDFKLQH OHDUQLQJ SHU HV VSHHFK UHFRJQLWLRQ OD SUHGL]LRQH VSHVVR
FRVWLWXLVFHO
RELHWWLYRSULQFLSDOH
Mario Magliulo
database in medicina
33
K n o w l e d g e Di s c o v e r y
La maggior parte delle aziende dispone
di enormi basi di dati contenenti dati di
tipo operativo
z
Queste basi di dati costituiscono una
potenziale miniera di utili informazioni
Mario Magliulo
database in medicina
34
K n o w l e d g e Di s c o v e r y
Processo di estrazione dai dati esistenti
di pattern:
z
valide
z precedentemente sconosciute
z potenzialmente utili
z comprensibili
[Fayyad, Piatesky-Shapiro, Smith 1996]
Mario Magliulo
database in medicina
35
Es e m p i o
Prestiti
o
x
x
x
x
x
x
x
x
x
x
x
x
x
o
x
o
o
o
o
x
o
o
o
o
o
o
o o o
o
Stipendio
Persone che hanno ricevuto un prestito dalla banca:
x: persone che hanno mancato la restituzione di rate
o: persone che hanno rispettato le scadenze
Mario Magliulo
database in medicina
36
K n o w l e d g e Di s c o v e r y
Un processo di KD si basa sui seguenti
elementi:
z
z
'DWL: insieme di informazioni contenute in una
base di dati o data warehouse
3DWWHUQ: espressione in un linguaggio opportuno
che descrive in modo succinto le informazioni
estratte dai dati
z
z
regolarita‘
informazione di alto livello
Mario Magliulo
database in medicina
37
Es e m p i o
Prestiti
o
x
x
x
x
x
x
x
x
x
x
x
x
o
x
o
o
o
o
x
o
x
o
o
o
o
o
o o o
o
k
Stipendio
IF stipendio < k THEN mancati pagamenti
Mario Magliulo
database in medicina
38
Ca r a t t e r i s t i c h e d e i p a t t e r n
9DOLGLWDC: i pattern scoperti devono essere validi
su nuovi dati con un certo grado di certezza
z
Esempio: spostamento a destra del valore di k porta
riduzione del grado di certezza
1RYLWDC: misurata rispetto a variazioni dei dati o
della conoscenza estratta
8WLOLWDC
z
Esempio: aumento di efficacia di un trattamento
radioterapico atteso dallo specialista associato alla
regola estratta
Mario Magliulo
database in medicina
39
Pr o c e s s o d i e s t r a zi o n e
Il processo di estrazione in genere parte da
insiemi di dati eterogenei
deve garantire adeguata efficienza,
ipotizzando che i dati risiedano su memoria
secondaria (accesso ai dati veloce)
deve essere scalabile
deve associare misure di qualita‘ ai patterm
estratto
deve permettere di applicare criteri
diversificati di estrazione
Mario Magliulo
database in medicina
40
Di s c i p l i n e c o i n v o l t e n e l l a
g e n e r a zi o n e d e i p a t t e r n
AI
machine learning
knowledge acquisition
statistics
data visualization
neural networks
database
data mining
Mario Magliulo
database in medicina
Dati in
memoria centrale
Dati in
memoria secondaria
41
Es e m p i o
Latte
⇒
Uova
Supporto: il 2% delle transazioni
contiene entrambi gli elementi
Confidenza: il 30% delle transazioni che
contengono latte contiene anche uova
Mario Magliulo
database in medicina
42
A p p l i c a zi o n i
Analisi market basket
z
* ⇒ uova
z cosa si deve promuovere per aumentare le vendite di
uova?
z
Latte ⇒ *
z
quali altri prodotti devono essere venduti da un
supermercato che vende latte?
Dimensione del problema:
z
z
oggetti: 104, 105, transazioni: > 106
base di dati: 10-100 GB
Mario Magliulo
database in medicina
43
Es e m p i o (c o n t i n u a )
TRANSACTION ID
OGGETTI ACQUISTATI
1
2
3
4
$,B,&
$&
$,D
B,E,F
Regole ottenute:
z
z
A
C
Mario Magliulo
⇒
C supporto 50% confidenza 66.6
⇒
A supporto 50% confidenza 100%
Il 50% delle transazioni contiene A e C e i 2/3
delle transazioni con A contengono C
database in medicina
44
De t e r m i n a zi o n e r e g o l e
d i a s s o c i a zi o n e
❙ Decomposizione problema
➊
Trovare tutti gli insiemi di item (itemset) che hanno
un supporto minimo (IUHTXHQWLWHPVHWV)
z
Algoritmo fondamentale: APRIORI
[Agrawal, Srikant]
➋
Generazione delle regole a partire dai frequent
itemsets
Mario Magliulo
database in medicina
45