dati - Corso di Laurea in Matematica per la Finanza e l`Assicurazione

annuncio pubblicitario
Università degli studi di Torino – Corso di laurea in Fisica
maggio 2006
Trattamento dati nelle
imprese
Riccardo Grosso
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Programma del corso
I) cenni storici, tipologie di basi dati, cenni di progettazione basi dati, riuso
dati, data quality, data mining, esempi di realizzazione sistemi decisionali
II) progettazione basi dati operazionali (approfondimento) e cenni di
reverse engineering
III) progettazione basi dati decisionali (approfondimento)
IV) repository di metadati e schemi concettuali
V) applicazione del modeling
web semantico ed ontologie)
concettuale
VI) DOMANDE DI VERIFICA
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
al
web
(cenni
di
Cenni storici
L'esigenza dell'archiviazione è cresciuta di pari passo con l'evoluzione
della civiltà.
L'archiviazione in senso lato può essere intesa, prima di tutto, come
un'organizzazione della memoria, di un singolo individuo così come di
un organismo, di un Ente, di uno Stato, di un popolo.
Fin dall'ottavo secolo avanti Cristo gli Assiri e i Babilonesi avevano
creato ed organizzato dei veri e propri archivi. Questa ipotesi è stata
formulata sulla base dei resti giunti fino a noi di documenti costituiti da
simboli cuneiformi incisi su cilindri e tavolette d'argilla.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Nell'antichità ci sono stati anche numerosi esempi di forme alternative di
archiviazione, come l'archiviazione orale.
In tale contesto si inserisce anche la figura dello mnemon, che,
nell'antica Grecia era un impiegato pubblico, il quale, sotto il vincolo di
un giuramento di riservatezza (a tutela della privacy come si direbbe
oggi) aveva il compito di memorizzare informazioni utili alla gestione
dello Stato, tra cui sentenze emesse dai giudici, contratti stipulati tra i
privati e informazioni sullo stato patrimoniale dei singoli cittadini.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Tali paleo-archivi servono a testimoniare che nell'uomo è sempre stata
molto sentita la necessità di organizzare in modo "ufficiale" i
documenti.
Tale organizzazione, da un punto di vista storico, è una fonte
insostituibile di informazioni sulla civiltà che ha creato e custodito tali
documenti.
Uno dei concetti che emerge prepotentemente da questa valutazione è
che l'esigenza di creare un archivio nasce dalla necessità di conservare
ed organizzare i dati e i documenti.
documenti Quindi il concetto di archivio è
strettamente correlato ai concetti di dato, documento, organizzazione
e conservazione.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Passando dal concetto di archiviazione orale o scritta a quello di
archiviazione magnetica,
magnetica il problema è che le informazioni non possono
essere conservate nella memoria centrale del computer (RAM) in
quanto allo spegnimento vanno perdute.
Fino agli anni 60 le tecnologie utilizzate per memorizzare stabilmente i
dati consistevano in nastri perforati e schede perforate di carta (per i dati
che non subivano modifiche frequenti).
I dati soggetti a frequenti variazioni come i dati di gestione aziendale
venivano messi su nastri magnetici. Meno frequenti e più costosi erano
i tamburi magnetici: grossi cilindri di metallo in rapida rotazione sulla
cui superficie era depositata una vernice magnetica su cui si spostava
una testina di scrittura e lettura.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Ormai da 20 anni la tecnologia utilizzata per la archiviazione di
informazioni modificabili è il disco magnetico.
magnetico
La fortuna del disco non accenna a diminuire. Anzi sembra aumentare
continuamente di capacità, attraverso una diminuzione delle dimensioni
della testina, e di velocità di accesso, attraverso una maggiore velocità
di rotazione.
Il costo dei dischi magnetici è passato nel giro di 10 anni da 50.000 lire
al megabyte nel 1987 alle 500 lire del 1996.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Questa tendenza sembra essere duratura anche se la tecnologia
magnetica rimane sempre più costosa di quella ottica (che nel caso dei
CD scrivibili (CDR) è di circa 1 centesimo al megabyte).
La memoria disco costa molto di meno della memoria RAM che ha un
costo intorno alle 5 euro a megabyte, ma ha una velocità di accesso
dell’ordine dei 10 millisecondi contro i 70 nanosecondi della RAM.
Questo ultimo aspetto condiziona tutto il funzionamento del calcolatore.
In una grande azienda possono esserci infatti Terabyte (migliaia di
Gigabyte) di memoria disco.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Il disco viene utilizzato per conservare gli archivi di una azienda cioè i
dati sulla amministrazione, sulle vendite e sui processi produttivi.
Rendere veloci gli accessi a questi dati è più importante della velocità di
calcolo necessaria per trattarli.
Nei mainframe il problema veniva risolto parzialmente dotando le unità
disco (controller del disco) di grande memoria e intelligenza di gestione.
In pratica veniva messa una notevole quantità di memoria RAM su ogni
controller in modo che tutti i dati più frequentemente letti venissero
inseriti nella memoria RAM senza la necessità di caricarli continuamente
dal disco.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Anche i moderni sistemi operativi utilizzano questa tecnica, in altre
parole i dati del disco vengono bufferizzati in memoria RAM. Un buffer è
una zona di memoria usata come deposito e come tampone tra i
processi che richiedono i dati ed il disco. Il disco viene comunque
visto dal sistema operativo come un insieme di tracce e settori.
Alcuni file vengono gestiti in modo particolare sia per le ricerche di dati
che per la loro scrittura. Questi file sono detti normalmente archivi. Le
aggregazioni di archivi tra di loro correlati sono definite normalmente
data base.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Tipologie di basi di dati
Con un certo grado di approssimazione possiamo dire che esistono due
modi di suddividere e gestire i dati: gestori di file e Data
Base relazionali.
relazionali
Gestori di file:
file ogni base di dati è rappresentata da un file, che si divide
in record: il record rappresenta uno degli elementi che si
desidera registrare, ed è composto a sua volta da
campi, cioè dati elementari che caratterizzano ogni
entità da classificare. Con un gestore di file, ogni dato si
immagazzina in un unico file e le operazioni sui dati
interessano un solo record per volta.
Data Base relazionali:
relazionali si presentano in forma tabellare in cui le righe
rappresentano i record e le colonne rappresentano i
campi. Le operazioni realizzate con questo tipo di Data
Base riguardano le tabelle e non i record individuali,
come nel caso dei gestori di file.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Prima della comparsa dei database relazionali esistevano altre tipologie
di database,
database come i gerarchici ed i reticolari.
reticolari
Questi richiedevano una conoscenza approfondita dei dettagli fisici
concernenti la memorizzazione dei dati su disco e anche le operazioni
concettualmente più semplici (come leggere i dati di una tabella)
richiedevano un grosso lavoro.
Oggi sono scomparsi perché il modello relazionale presenta degli
enormi vantaggi.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Oggi i principali Data Base sono di tipo relazionale, ciò perché
praticamente tutti gli insiemi di dati che corrispondono a entità
complesse organizzate come imprese, scuole, associazioni varie,…
implicano collegamenti tra i vari dati ad esempio: ai fornitori sono
collegate le merci, agli alunni i corsi, e così via.
La norma fondamentale per stabilire relazioni tra tabelle, cioè tra
contenitori di dati correlabili, è che il campo di collegamento non deve
avere ripetizioni, ossia ogni record deve potere essere identificato in
maniera univoca.
Il campo che permette l'identificazione di ogni record è detto "chiave
primaria" e deve essere comune alle tabelle che si intende correlare.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Cenni storici
Classificazione delle basi dati
Alfanumeriche
Operazionali
• Gerarchiche
• Reticolari
• Relazionali
Decisionali
• Relazionali
• Multidimensionali
Documentali
Geografiche
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Modellare i dati
Perché modellare i dati:
• Per comprendere la loro logica e le loro dipendenze
Con quale metodo o strumento:
• Con il modello entità-relazioni o entity-relationship
arricchito con le generalizzazioni
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Perché modellare?
Il valore portato dall’informatica e potenzialmente utilizzabile da
un’organizzazione è direttamente correlabile con la ricchezza e la
coerenza del suo patrimonio di dati.
dati
Tale patrimonio è costituito sia dai fattori interni che servono per
produrre il prodotto/servizio, sia dai fattori esterni che interagiscono
con l’organizzazione nella sua attività quotidiana.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Perché modellare?
Questi fattori possono essere individuati come entità e qualificati
attraverso delle proprietà:
proprietà ciò costituisce la base informativa che
identifica l’organizzazione sul mercato.
La base informativa quindi rappresenta un immagine del mondo che
l’organizzazione si crea per poter interagire in modo coordinato tra i vari
settori operativi e in accordo con le sue strategie e le sue procedure.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Perché modellare?
Questa immagine che schematizza la realtà, per poter essere efficace
deve rispecchiare la pluralità dei rapporti che l’organizzazione intrattiene
con ciascuna entità.
Tale pluralità rappresenta i differenti punti di vista con cui le varie parti
dell’organizzazione considerano l’entità stessa.
I diversi punti di vista devono poi confluire come sottoinsiemi logici in
una descrizione generale valida per l’organizzazione nel suo complesso.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Perché modellare?
Matricola
Dati
Posizione
Indirizzo
cliente anagrafici
debitoria
Settore
vendite
fido
Settore
amministrazione
Valore
Fatturato
Dettaglio
Ordinato
alla data
ordini
Alla data
Settore
marketing
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Entità cliente
Settore
produzione
Progettazione Basi Dati operazionali
Perché modellare?
Un livello ulteriore di rappresentazione riguarda il modo in cui le entità
vengono rappresentate in termini informatici.
Nel mondo dell’informatica a ciascuna entità corrisponde un record
(elemento di registrazione sulla memoria di massa).
Tale record viene qualificato dai suoi attributi tra cui quello di
identificazione (chiave).
I record facenti parte di una categoria, in quanto attinenti allo stesso tipo
di entità, costituiscono nel mondo informatico un archivio o file.
file
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Perchè modellare?
In queste schematizzazioni esiste una certa ambiguità logica tra entità
ed attributo.
La distinzione intuitiva non è rigorosa e può cambiare cambiando la
prospettiva.
Se si volesse dare particolare enfasi al settore produzione il prodotto
(articolo) diventerebbe un’entità ed il cliente un attributo
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Perchè modellare?
La scelta tra le varie modalità di rappresentazione incide sull’efficienza
con cui i dati saranno poi reperiti e deve quindi essere coerente con le
strategie operative.
L’insieme dei dati raccolti non deve contenere al suo interno elementi
contraddittori e deve dare una descrizione completa dei vari aspetti del
fenomeno che interessa l’azienda.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Perché modellare?
L’insieme logico degli archivi o flussi di un’organizzazione, unitamente
alle tecniche per collegarli tra loro per elaborarli e reperire le
informazioni, è la Base di Dati.
Dati
La Base di Dati è una componente essenziale della struttura di un
sistema informatico.
Il modo in cui i dati vengono archiviati e gestiti condiziona le regole
secondo cui l’organizzazione interagisce con gli interlocutori interni ed
esterni.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello dei dati
Esaminiamo i passi che portano dalla teoria alla realizzazione di un
Database.
I modelli sono strumenti per rappresentare la realtà.
La rappresentazione generata secondo le regole del modello viene
chiamata schema.
Il processo di rappresentazione di un database si articola in tre fasi
ciascuna delle quali si riferisce a un diverso livello di astrazione.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello dei dati
La scomposizione in fasi del processo di progettazione ha lo scopo di
scomporre i problemi e garantire la possibilità di modifica delle soluzioni
adottate.
Queste fasi sono:
Schema concettuale (o modello concettuale) Progettazione
Schema logico (o modello Logico) Realizzazione
Schema Fisico (o modello Fisico) Implementazione
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello concettuale
Il livello concettuale rappresenta la realtà dei dati e le relazioni tra essi
attraverso uno schema.
Il livello concettuale è la rappresentazione completa ed efficace del
contesto, cioè della realtà a cui si riferisce. Essa è la rappresentazione
più vicina alla logica umana.
I modelli dei dati usati nella progettazione concettuale vengono definiti
modelli semantici. Quello più diffuso è l’ENTITY-RELATIONSHIP che
prevede la individuazione delle Entità, cioè degli oggetti concreti o
astratti, a la loro classificazione in insiemi omogenei.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello concettuale
Le dipendenze tra i dati vengono rappresentati medianti relazioni tra le
corrispondenti entità.
Esempi di entità sono: una persona, un modello di automobile, un
movimento contabile, una prova sostenuta da uno studente.
Gli studenti sono classificabili nel tipo entità Studente, i diversi modelli di
automobile sono classificabili nel tipo entità Automobile.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello concettuale
Ciascun studente rappresenta un’istanza del tipo entità Studente.
L’associazione (in inglese relationship quindi relazione) è un legame
che stabilisce un’interazione tra le entità.
Per esempio tra l’entità Persona e l’entità Automobile esiste
un’associazione che può essere descritta nel linguaggio naturale
secondo due direzioni: una persona possiede una o più automobili e
un’automobile è posseduta da una persona.
Le proprietà delle entità e delle associazioni vengono descritte
attraverso gli attributi.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello concettuale
Le caratteristiche di ciascun entità vengono descritte tramite gli
attributi.
Attributi dell’insieme di entità articolo possono essere
Art_Cod,Art_descr,Art_Prezzo,Art_Iva.
Ogni attributo è caratterizzato da un nome e dall’insieme di valori che
esso può assumere.
Art_Cod
Art_Descr
Art_Prezzo
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Art_Iva
Progettazione Basi Dati operazionali
Il modello concettuale
Le caratteristiche di ogni attributo sono:
•
Formato:
•
Dimensione: Indica la quantità massima di caratteri o cifre inseribili
•
Opzionalità:
Tipo di valori che assume (carattere, numerico, data/ora)
Indica la possibilità di non essere sempre valorizzato:
l’attributo è obbligatorio se il suo valore non deve essere
nullo, facoltativo se sono accettati valori nulli
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello concettuale
I diversi valori assunti dagli attributi determinano le diverse istanze dell’entità.
L’insieme dei possibili valori assunti da un attributo si chiama Dominio
dell’attributo.
Si indica con il concetto di chiave (chiave primaria o primary key) l’insieme di uno o
più attributi che consentono di distinguere un’istanza dall’altra: esempi di chiavi
sono il Codice di un Prodotto o la Matricola di un dipendente
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello concettuale
Entità
Studente
Facoltà
Relazione
Scelta da
Studente
Facoltà
Iscritto a
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello concettuale
Attributi
Studente
Matricola
Chiave
Nome
Studente
Indirizzo
Matricola
Nome
Indirizzo
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello logico
La fase logica del processo di progettazione di un DB ha lo scopo di
tradurre lo schema concettuale in modello logico dei dati.
dati
Lo schema logico (a differenza del concettuale) dipende dal tipo di
DBMS utilizzato e in particolare dal modello logico dei dati.
Il Modello logico dei dati rappresenta come sono organizzati i dati
negli archivi elettronici: descrive quindi la composizione ed il formato dei
dati nel loro aspetto di struttura logica di dati. Il livello logico viene
derivato dal livello concettuale
Il Modello logico dei dati è quindi la tecnica di organizzazione e
accesso ai dati utilizzata da specifiche categorie di DBMS
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il modello fisico
Il Modello fisico rappresenta l'effettiva installazione degli archivi
elettronici: esso indica l'ubicazione dei dati nelle memorie di massa
(dischi). Il livello fisico è quindi l'implementazione del livello logico sui
supporti per la registrazione fisica dei dati: partizioni, puntatori, blocchi
fisici, cluster, indici.
Il Modello fisico stabilisce come le strutture definite a livello logico
debbano essere organizzate negli archivi e nelle strutture del filesystem; esso dipende quindi dal tipo di DBMS, dal sistema operativo e
dalla piattaforma hardware utilizzata del sistema che ospita il DBMS.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il Bignami dell’entity relationship
U OMO
DONNA
s pos a
s i s pos a con
e'
generato genera
da
F IGL IO
AU T OMOB IL E
guida
e' guidata da
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il Bignami dell’entity relationship
UOMO.sposa.DONNA
» Ovvero
SOGGETTO.predicato-verbale.COMPLEMENTO-OGGETTO
» Ovvero
ENTITA.relazione.ENTITA
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Basi Dati Relazionali
Definizione di una Primary Key
Una primary key (PK) non consente duplicazioni di valori e non può essere
NULL.
Ciascuna riga è univocamente identificata da una colonna o da un set di colonne
(primary key composta).
Una chiave candidata può servire anche da PK.
Tabella S_ITEM
ORD_ID ITEM_ID PRODUCT_ID PRICE QUANTITY QUANTITY_SHIPPED
100
100
100
101
1
2
7
1
Primary Key Composta
1011
10013
41010
30421
135
380
8
16
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
500
400
250
15
500
400
250
15
Progettazione Basi Dati operazionali
Basi Dati Relazionali
Definizione di una Foreign Key
Una foreign key (FK) è una colonna o una combinazione di
colonne in una tabella che fa riferimento a una PK o una UK di
una stessa tabella o di un’altra tabella.
Le FK sono basate sui valori dei dati e sono puramente
logiche.
Il valore deve corrispondere al valore della colonna collegata o
essere NULL.
Se una FK è parte di una PK non può essere NULL.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il Bignami dell’entity relationship
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il Bignami dell’entity relationship
Le generalizzazioni
• PERSONA generalizza
»UOMO
»DONNA
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Il Bignami dell’entity relationship
PERSONA
UOMO
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
DONNA
Progettazione Basi Dati operazionali
DBMS
I dati prima di far parte del DB devono passare attraverso
uno strumento che li gestisca.
Il DBMS (DataBase Management System) è il componente
del software di base che ti consente di gestire uno o più
database.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
DBMS
I primi DBMS, realizzati per grandi calcolatori, risalgono alla fine
degli anni 60: erano i vecchi FILE SYSTEM. L’accesso ai dati era
diretto e presentavano vari svantaggi:
Non vi era il controllo e la gestione degli archivi di dati
Ci si doveva preoccupare che venissero rispettati i
requisiti di ridondanza minima
Ci si doveva preoccupare se
contemporaneamente da più utenti
i
dati
erano
utilizzati
Ci si doveva preoccupare se i dati erano utilizzati
da più applicazioni
Esistevano problemi di permanenza dei dati
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
DBMS
Le applicazioni rivolgono le richieste di accesso alla base di dati
al DBMS, il quale gestisce i dati svincolando le applicazioni da
tale onere.
Si ottiene cosi un triplice scopo cioè:
Le funzionalità di gestione della base dati sono raggruppate
in un unico insieme
Le applicazioni sono più leggere e veloci da realizzare
Nessuna applicazione potrà cosi effettuare operazioni scorrette
sul Database
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
DBMS
L’utilizzo del DBMS comporta una serie di vantaggi che si
traducono in una gestione dei dati più affidabile e coerente.
Le caratteristiche vantaggiose del DBMS e contemporaneamente
del DB stesso sono:
Indipendenza delle applicazioni dalla struttura fisica dei dati
Indipendenza dalla struttura logica dei dati
Utilizzo da parte di più utenti con applicazioni diverse
Eliminazione della ridondanza
Eliminazione della inconsistenza
Facilità di accesso
Integrità dei dati
Sicurezza dei dati
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
DBMS
In particolare ne deriva:
Indipendenza dei dati dall’applicazione
Riservatezza nell’accesso ai dati
Gestione dell’integrità fisica dei dati
Gestione dell’integrità logica dei dati
Sicurezza e ottimizzazione nell’uso dei dati
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
DBMS
Indipendenza dei dati dall’applicazione
In un ambiente FILE SYSTEM i dati avevano senso e valore solo se
interpretati dai programmi. La struttura dei dati dipendeva
dall’applicazione, l’applicazione doveva conoscere il formato fisico dei dati,
la loro localizzazione, chiavi ecc.
Con il DBMS invece i dati hanno una struttura che PRESCINDE
dall’applicazione che tra l’altro non deve piu’ fare riferimento alla struttura
fisica dei dati.
Ciò comporta molti vantaggi nella manutenzione del sistema informativo
dato che le modifiche alla struttura fisica dei dati non comportano
modifiche alle applicazioni.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
DBMS
Riservatezza nell’accesso ai dati
In un ambiente FILE SYSTEM il sistema di gestione dati non
consentiva VISIONI LOGICHE diverse dello STESSO INSIEME
DI DATI, ciò comportava l’impossibilità di rendere disponibile a
determinate categorie di utenza solo parti dell’archivio e di
soddisfare il REQUISITO DI MINIMA RIDONDANZA DEI DATI.
Con l’utilizzo di un DBMS vi è la possibilità di avere visioni
logiche, multiple e contemporanee della struttura fisica dei dati
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
DBMS
La gestione dell’integrità fisica dei dati
Per soddisfare il requisito di PERSISTENZA DEI DATI è
necessario garantire che il sistema di gestione del DataBase
mantenga nel tempo le informazioni registrate (ad es. in caso di
caduta del sistema o di guasto ai dispositivi di memorizzazione).
Inoltre è necessario che il sistema sia protetto da accessi
contemporanei agli stessi dati da parte di più utenti.
Questa operazione è completamente automatica e controllata dal
DBMS e non mette quindi a rischio la consistenza dei dati.
Esistono delle norme da seguire per l’amministratore del DBMS
per impostare e configurare correttamente il sistema al fine di
garantire l’integrità fisica dei dati.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
DBMS
La gestione dell’integrità logica dei dati
L’integrità logica dei dati consiste nella possibilità di DEFINIRE
DEI VINCOLI in modo che non sia possibile inserire o apportare
modifiche ai dati CHE NON ABBIANO UN SENSO NEL
CONTESTO DELLA REALTA’ RAPPRESENTATA.
Tali vincoli possono essere riferiti:
• Alle singole categorie di dati
(Es. limiti di valori a specifici intervalli o N possibili scelte di
valori da immettere)
• Alle relazioni tra le categorie.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
DBMS
La gestione dell’integrità logica dei dati
Un tipico caso di integrità logica su una relazione è quello della
cosidetta INTEGRITA’ REFERENZIALE
INTEGRITA REFERENZIALE: Definendo tra le categorie un
vincolo di integrità referenziale il sistema impedirà la
cancellazione di ordini con dettagli ancora esistenti e
l’inserimento di dettagli non correlati ad un ordine
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Basi Dati Relazionali
Sicurezza e ottimizzazione dell’uso dei dati
Grazie al DBMS si possono gestiste gli UTENTI e le RISORSE.
Le Funzioni di gestione degli utenti consentono all’amministratore del
sistema di definire dei vincoli di accesso ai dati e di stabilire per ciascun
utente il diritto di accesso (SCRITTURA, LETTURA, MODIFICA e cosi
via) alle singole unita di informazione del DB.
Il DBMS inoltre gestendo direttamente alcune risorse quali le periferiche
consente di ottimizzare l’utilizzo rispetto a come queste vengono
controllati direttamente dal sistema operativo.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Approfondimenti sulla progettazione
concettuale dati
Il corso del professor Lenzerini:
http://www.dis.uniroma1.it/~lenzerin/didattica/basididati/mat
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati operazionali
Approfondimenti sulle tecniche di
reverse/forward
http://www.tecnetdati.it/portale/download/Re_database.ppt
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Introduzione alle basi dati decisionali
Basi dati operazionali e decisionali
Differenze
Dall’operazionale al decisionale
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Tipologie di Banche Dati
Due tipologie di banche dati:
operazionali:
• contengono dati di interesse quotidiano
• vengono aggiornate costantemente in relazione alle
• procedure amministrative e tecniche di competenza di un
ente
informativo-decisionali:
• servono per supportare le esigenze di integrazione di
• informazioni provenienti da banche dati operazionali diverse
• sia ai fini di diffondere conoscenze, sia per supportare i
• processi decisionali ai diversi livelli (micro o macro decisioni)
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Tipologie di sistemi informativi
Sistemi decisionali
Sistemi operazionali
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
?
?
100
50
0
1st 4th
Qtr Qtr
Progettazione Basi Dati decisionali
Sistema operazionale
Elabora le necessità del “day to day”
Disegnato per specifiche funzioni
Fornisce alcuni reports
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Sistema decisionale
?
?
Supporto alle Decisioni
Analisi delle Tendenze
Reportistica
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
100
50
0
1st 4th
Qtr Qtr
Progettazione Basi Dati decisionali
Criticità sistema operazionali
Molte delle richieste dell’utente sono complesse da soddisfare,
causa l’attuale difficoltà di accesso agli Operational Data Bases.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Che cos’è un Data Warehouse?
All’interno di un sistema informativo, per Data Warehouse si intende
la componente che deve soddisfare esigenze di tipo informativo e
decisionale
E’ costituito da una architettura complessiva di ambienti hardware e
software,
software da applicazioni che alimentano la base dati decisionale e
che ne consentono la fruizione in funzione delle diverse esigenze
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Che cos’è un Data Warehouse?
Passare dai dati alle informazioni
“Remember that the ultimate goal of Data Warehouse is to
keep the right information to the right people in the most
intelligent form”
Dr R. Hackathorn - Bolder Technology
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Che cos’è un Data Warehouse?
Mentre i dati sono contenuti negli archivi dei database
operativi, progettati per rispondere ad esigenze settoriali, per
informazioni si intendono le conoscenze che hanno un unico
significato in tutte le situazioni e che possono essere utilizzate
per i processi decisionali ed informativi
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data Warehouse: una definizione tecnica
A non volatile source of time-series, subject oriented,
data copies for end user computing (Inmon, 1990)
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Obiettivi del DW
Performance
Flessibilità
Scalabilità
Facilità d’uso
Qualità dei dati
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Obiettivi del DW
Performance
Richieste dinamiche
Analisi Multi Dimensionale vs Tradizionale
Impatto minimo sui Operational System
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Obiettivi del DW
Flessibilità
Flessibilità del Modello
Modifica delle strutture dati
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Obiettivi del DW
Scalabilità
Numero degli utenti
Volume dei dati
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Obiettivi del DW
Facilità d’uso
Comprensione del Modello
Navigazione
Manipolazione
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Che cos’è un Data Warehouse?
Subject-Oriented (orientato alle aree tematiche)
Integrato
Time-Variant (comprende dati temporali)
Non volatile
Collection of data in support of management’s decision making
process
Bill Inmon
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Subject-oriented (Orientata ai soggetti)
Nel DW i dati sono organizzati per soggetto
anziché per applicazione
Tra tutte le informazioni operazionali vengono selezionate
solo quelle necessarie per il processo decisionale
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data copies - Copie dei dati
I dati vengono trasferiti dal data base operazionale
a quello decisionale effettuando operazioni di
trasformazione
Quando i dati di provenienza diversa vengono trasferiti al
D.W. devono assumere una codifica omogenea ed un
significato univoco.
Ad esempio un’informazione riferita al sesso potrebbe
essere memorizzata con codici diversi, ‘M/F’ in un caso ‘0/1’
in un altro.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Time series - Serie storiche
Vengono memorizzate fotografie della stessa
realtà in momenti successivi
Questo consente di effettuare confronti, individuare
tendenze e fare previsioni.
I dati vengono aggiornati periodicamente (e non in tempo
reale come nei sistemi gestionali).
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Non volatile - Persistenti
Nel DW i dati immessi non vengono più modificati
Essendo fotografie ripetute nel tempo, una volta immesse non
vengono modificate.
I dati immessi vengono in genere sottoposti a processi di
aggregazione.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Perché un Data Warehouse
Per ricavare informazioni (non solo dati)
Per comprendere la qualità delle basi dati
Per migliorare la qualità del dato operazionale
Per offrire funzioni decisionali integrate nell’operazionale
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Perché un Data Warehouse
Per migliorare la ricerca del business
Per valorizzare il servizio fornito all’utente
Per migliorare la qualità dei dati al servizio dell’utente
Per re-ingegnerizzare i processi di Business
Per fornire competitività all’azienda
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Cos’è un Data Warehouse: per capirsi meglio ….
Non è un prodotto, ma un insieme di componenti che
costruiscono un’architettura
Il cuore è una base dati strutturata diversamente da quelle
“operazionali”
E’ un “vecchio” problema, ma ora sono disponibili
metodologie e strumenti di alimentazione ed accesso
molto specializzati
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Architettura Logica
utente che
aggiorna
i dati
utente che
interroga
i dati
applicazioni
di produzione
(OLTP)
applicazioni
di ricerca e
analisi(OLAP)
base dati
di produzione
base dati
decisionale
(DW)
Alimentazione
Dati
destinazione
Dati sorgente
Dati
Basi dati operazionali
Metadati
Basi dati informativo-decisionali
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Com’è fatto un Data Warehouse?
Alimentazione DW (Data Capture): dalla base dati
amministrativa-gestionale alla base dati decisionale
(Data Warehouse) back-end
Accesso DW (Data Access): Servizi di accesso al Data
Warehouse da parte degli utenti finali front-end
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data Warehouse Framework
Raw detail
No/minimal history
Data characteristics
Integrated
Scrubbed
Targeted
Specialized
(OLAP)
History
Summaries
Data Marts
Source OLTP Systems
Data
Warehouse
•Design
•Mapping
•Extract
•Scrub
•Transform
•Load
•Index
•Aggregation
•Replication
•Data Set Distribution
Meta Data
System Monitoring
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
•Access & Analysis
•Resource Scheduling & Distribution
Progettazione Basi Dati decisionali
I metadati
Sono le “Pagine gialle”
Punti di vista: l’utente finale, l’amministratore dati, l’analista,
l’azienda
Esempi sui contenuti: catalogo delle informazioni, fonte,
algoritmi di derivazione, qualità dei dati, dimensioni per la
navigazione multidimensionale
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
I metadati
I Metadati coprono l’intero processo di DW/DM
•Disegno
•Mapping
•Estrazione
•Trasformazione
•Caricamento
•Indicizzazione
•Aggregazioni
•Replica
•Distribuzione dei dati
•Accesso e Analisi
•Resource Scheduling & Distribution
Metadati
System Monitoring
Assolutamente necessario
per la riuscita del progetto
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data Capture
Data Management
Estrazione e trasformazione dei dati
Integrazione dati da diverse fonti
Validazione dei dati (IMPORTANTE!!)
Aggregazione
Schedulazione aggiornamenti
Caricamento nel data base e flussi di snellimento
(scarico dati storici)
Data Organization
Metadati:
Inserimento
Aggiornamento
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Il Processo di ETL (Extract, Transform & Load)
Data Staging Area
Dati
(Enterprise)
OLTP System
aggregazione
Data Warehouse
classificazione
validazione
Dati
Esterni
Estrazione
standardizzazione
Pulizia
Trasformazione
Metadati
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Data Mart
Caricamento
Data Mart
Progettazione Basi Dati decisionali
Data Capture
Le alternative
sviluppare programmi ad hoc
acquistare appositi tool
Scelta da meditare, costi mediamente
elevati
Le nostre scelte
programmi ad hoc: PL/SQL, SAS
tool: SAS Warehouse Administrator
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Quale database per il DW
Le alternative
relazionale (Oracle, ....)
relazionale ah hoc per D.W.(Red Brick)
multidimensionale (Essbase, ....)
mix tra relazionale e multidimensionale (HOLAP)
Le nostre scelte: Oracle e SAS
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data Modeling per sistemi decisionali
elevata complessità di una struttura E/R classica (tipica dei
sistemi transazionali)
eccessiva difficoltà per l’utente finale di rintracciare i dati di
Interesse impossibilità di effettuare analisi sui dati
necessità di passare ad una struttura logica e fisica dei dati,
più funzionale rispetto alle esigenze del data warehouse
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Struttura di una base dati decisionale
Oggetto di Intervento
Comune Beneficiario
Finanziamenti
Procedimento
La Base Dati è un insieme di “fatti”
nello spazio multidimensionale
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Struttura multidimensionale
L’architettura fisica del Modello Dimensionale è descritta
attraverso lo STAR SCHEMA
Prodotto
Clienti
Geografia
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Tempo
Produzione
Progettazione Basi Dati decisionali
Data Modeling per sistemi decisionali:
lo Star Schema
è uno schema di dati facilmente navigabile
è uno schema fortemente denormalizzato
il patrimonio informativo è organizzato per “soggetti”:
separazione concettuale dei “soggetti”
ogni “soggetto” è modellato autonomamente in uno Star Schema
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data Modeling per sistemi decisionali:
lo Star Schema
Dimensione2
Dimensione1
Dimensione1_PK
Tavola dei Fatti
Dimensione2_PK
Dimensione1_PK
Dimensione2_PK
Dimensione3_PK
Dimensione4_PK
Dimensione3
Dimensione3_PK
Misura1
Misura2
Misura3
Misura4
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Dimensione4
Dimensione4_PK
Progettazione Basi Dati decisionali
Data Modeling per sistemi decisionali:
lo Star Schema
Tavola dei fatti
Contiene i “Fatti” del Business che si intende analizzare o misurare
(generalmente numerici)
Tavole delle dimensioni
Le Dimension rappresentano il CONTESTO per i fatti che si intende
analizzare
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Esempio di Star Schema
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Esempio di Star Schema
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data Access
Elaborazioni periodiche e off line
Elaborazioni su richiesta e on line
Strumenti di query e reporting (su dati alfanumerici e/o su
dati territoriali)
Analisi multidimensionale
Applicazioni EIS (what-if, agenti intelligenti, applicazioni GIS
specializzate) e di modellazione (modelli matematici, modelli
territoriali, ecc.)
Data mining
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
TIPI DI UTENTE
Tecniche di Accesso alle Informazioni
Dirigenti
EIS
Executive
InformationSystem
Intermedi
Produzione
Queries & Reports
su esigenze
Impiegati
Queries & Reports
preconfezionati
Visualizza
OLAP
Analizza
TIPI DI PROCESSO
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Data Mining
Scopri
Progettazione Basi Dati decisionali
Cos’è l’OLAP? On Line Analytical Processing
Due accezioni
In contrapposizione ad OLTP (On Line Transaction
Processing): Insieme dei processi che accedono ad un Data
Warehouse
Più specifica: analisi di tipo multidimensionale, con operazioni
di navigazione sui dati (drill-up, drill-down, drill-across, slice &
dice)
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data Mining: Definizione
“The automatic discovery of knowledge from stored data”
Approccio più specializzato, metodi statistici, strutture dati
specifiche diverse dal DW
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Quali ambienti per il Data Access
Tool verticali (es. prodotti sugli aspetti finanziari o di
marketing quale la soluzione DW SAP, …)
Tool orizzontali “chiavi in mano” (es. Business
Objects
Tool orizzontali aperti (es. SAS)
Le nostre scelte:
SAS System
Business Objects
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Business Object
• Navigazione sui dati organizzati in “Universi”
• Accesso ai dati “trasparente” rispetto alla struttura
fisica del database
Utenti finali
Utenti finali
Query Panel
Universo
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
DataBase
Progettazione Basi Dati decisionali
SAS
Utenti finali
Utenti finali
Creazione prospetto
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
MDDB
Esempio
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Back-end
SAS Warehouse
Data
Oracle Administrator Warehous
e
Front-end
Business
Objects
Alimentazione DW
(Data capture)
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
REPORT
Accesso DW
(Data access)
Progettazione Basi Dati decisionali
Dal DB gestionale…
Analisi base
dati gestionale
+
Studio delle
interrogazioni
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
… al DB decisionale
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
L’applicazione sviluppata
http://webi03.piemonteinrete.net:8085/
wijsp
Bdm/luisa
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Approfondimenti sulla progettazione
DataWarehouse
Il corso del professor Batini:
http://www.disco.unimib.it/upload/3.1%20DWData%20WarehouseRevC
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Cenni sul riuso dei dati
Costruire una serie di tavole di riferimento (di uso operazionale e
decisionale) contenenti codifiche comuni, complete, certificate ed
aggiornate costituisce un primo passo per l'integrazione delle basi dati,
l'interscambio informativo e la cooperazione tra le diverse
amministrazioni.
Per acquisire la classificazione che si vuole gestire in una tavola
trasversale, viene ricercata la fonte dati più qualificata. Obiettivo è quello
di identificare l'ente responsabile dell'informazione (ISTAT per i codici
Istat, Ministero delle Finanze per i codici Belfiore, ecc): in tal senso i dati
acquisiti vengono considerati "certificati", ovvero emessi dalla fonte che
li produce e ne è responsabile.
Una volta acquisito il flusso informativo dalla fonte dati individuata, si
procede comunque ad una fase sistematica di controllo e validazione
dei dati acquisiti: viene verificata, ad esempio, la corrispondenza del
livello di aggiornamento con quello dichiarato dalla fonte, la completezza
dell'informazione, in sintesi l'idoneità dei dati a corrispondere all'obiettivo
informativo per cui sono raccolti.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Cenni sulla qualità dei dati
La Qualità dei Dati è la misura dell'accordo che esiste tra quanto rappresentato in un
sistema informativo, e lo stesso dato nel mondo reale. Una Qualità dei Dati del 100% indica
che esiste un perfetto allineamento dei dati presenti nel nostro sistema informativo, con quanto
presente nel mondo reale. Data la natura di continua evoluzione caratteristica del mondo reale,
nessun sistema informativo di una dimensione significativa può avere una Qualità dei Dati del
100%. L'obiettivo da perseguire è quello di avere dei dati sufficientemente aggiornati, accurati e
completi in modo che possano essere utilizzati efficacemente.
I processi di data quality devono eliminare non solo i semplici errori e le ridondanze. Devono
rendere tra loro consistenti set di dati che sono stati creati in tempi diversi, seguendo differenti
regole di raccolta o esigenze di business.
In passato (e talvolta ancora oggi), gran parte del lavoro di ripulitura dei dati poteva essere fatto
"a mano" dagli operatori. Il laborioso processo di ricerca e correzione per eliminare le
informazioni scorrette, completare quelle parziali o cancellare quelle duplicate è molto costoso
e inoltre comporta l'aggiunta di nuovi errori. Ma per questo esistono oggi dei tools specializzati
che usano complessi algoritmi per analizzare, standardizzare, correggere e integrare le
informazioni.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Tools di data quality
Un valido tool di Data Quality deve essere di supporto in tutte le fasi del complesso processo
di bonifica dati, che parte dall'analisi iniziale del problema (analisi dati e processi), procede
con la pianificazione e l'implementazione degli interventi di miglioramento e si conclude
incorporando le misure di miglioramento nel sistema.
In primo luogo il tool di Data Quality deve consentire di effettuare attività di pulizia e
integrazione dei dati utilizzando vocabolari, regole sintattiche e di fonetica che sono proprie
della lingua italiana.
Inoltre deve fornire procedure specializzate che siano di supporto alle seguenti attività:
Data profiling: utilizzo di tecnologia analitica applicata ai dati per comprendere contenuto e
struttura delle quantità di informazioni elaborate ed applicare funzioni statistiche sui dati;
Deduplicazione: individuazione di record simili (record linking);
Standardizzazione: associazione ad una serie di valori definiti "somiglianti" di un valore
standard determinato.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Tools di data quality
Dovrebbe essere consentita anche la customizzazione del tool, ovvero la
generazione di regole e criteri personalizzati che si adattino al contesto informativo su
cui viene attivato il processo di bonifica dati.
Infine le funzionalità di Data Quality devono poter essere integrate nei processi di
ETL (Estrazione Trasformazione e Caricamento massivo di dati) e nelle
procedure di Data Entry.
Allo scopo di valutare i requisiti sopraelencati, il gruppo ha avviato la sperimentazione
del tool di Data Quality fornito della SAS, SAS Data Quality Solution, avuto in prova
dall'ottobre
del
2003.
Questa sperimentazione ha avuto buon esito e, a giugno 2004, il CSI ha proceduto
alla richiesta di acquisto della licenza di SAS Data Quality, per il suo utilizzo in
numerosi progetti aziendali.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Definizione di qualità dei dati
Definizione del concetto di “qualità” fornita dallo standard ISO 8402 “Quality Management
and Quality Assurance-Vocabulary”:
“l’insieme delle caratteristiche di un’entità che conferiscono ad essa la capacità di
soddisfare esigenze espresse ed implicite”
La “qualità dei dati” può essere definita come segue:
“Un insieme di caratteristiche che un data item deve avere affinché effettui i compiti per cui
è stato concepito; tali caratteristiche sono specificatamente riferite ai valori ed al formato
del data item”
Una definizione di data item è:
“Dato un modello di dati, un data item è l’elemento a granularità più bassa del modello”
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Proprietà della qualità dei dati
In base a queste definizioni si possono evidenziare le seguenti due
proprietà:
la qualità di un’entità è un concetto soggettivo,
soggettivo fortemente
dipendente dai requisiti che l’utente dell’entità richiede in
maniera implicita o esplicita;
la qualità è rapportata ad un insieme di caratteristiche,
caratteristiche è dunque
un concetto multidimensionale,ovvero determinabile in base a
diverse componenti piuttosto che in base ad una singola.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Dimensioni della qualità dei valori
Le dimensioni della qualità dei dati sono classificate in tre
categorie: schema concettuale, valori e formato:
Lo schema concettuale si riferisce all’aspetto “intensionale” dei
dati, ovvero a quella componente dei dati che rimane invariata
nel tempo.
I valori sono invece relativi all’aspetto “estensionale” dei dati, ossia
alla parte variabile nel tempo.
tempo
Il formato è connesso alla modalità di rappresentazione dei dati.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Dimensioni della qualità dei valori
Accuratezza sintattica, definita come vicinanza del valore del data item ad un
valore nel dominio di definizione sintattico considerato corretto.
Ad esempio, un basso grado di accuratezza sintattica corrisponde ad un
valore di un data item che è Mrio anziché Mario.
Accuratezza semantica, definita come vicinanza del valore del data item ad un
valore nel dominio di definizione semantico considerato corretto.
Ad esempio, un basso grado di accuratezza semantica corrisponde al caso
in cui si abbia Maria anziché Mario.
Accuratezza temporale,
temporale definita come vicinanza del valore del data item al
valore temporalmente corretto.
Si consideri, come esempio, il data item indirizzo di residenza; se Mario Rossi
deve avere un indirizzo di residenza X alla data Dx e un indirizzo di
residenza Y alla data Dy, qualora risulti che alla data Dy ha l’indirizzo X, il
dato non è temporalmente corretto.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Dimensioni della qualità dei valori
Attualità,
Attualità definita come adeguatezza del valore del data item rispetto alle esigenze
temporali del contesto di utilizzo.
Se, ad esempio, l’orario delle lezioni relativo ai corsi di un’università è aggiornato "tardi"
nella informativa destinata agli studenti, rispetto all’inizio dei corsi, il dato ha un
livello insufficiente di attualità.
Completezza dei valori,
valori definita come l’estensione con cui i valori dei data item sono
presenti nella base di dati. Un data item possiede un valore oppure è nullo; i valori nulli
dovrebbero essere limitati, ed in ogni caso bisogna specificarne il significato.
Consistenza Interna, relativa al grado di consistenza di valori di data item nell’ambito
della stessa entità.
Ad esempio i valori dei data item CAP, Comune, Provincia, devono risultare consistenti
nell’ambito dell’entità Persona.
Consistenza Esterna, relativa al grado di consistenza di valori di data item nell’ambito di
entità diverse.
Ad esempio, Mario Rossi è celibe in un’entità relativa al suo stato matrimoniale, mentre
Anna Rossi si dichiara moglie dello stesso Mario Rossi, in un’entità di tipo diverso.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Cause di dati errati
Le principali cause di dati errati possono essere così riassunte:
Inserimento di informazioni errate nel data entry: errata grafia, uso delle
maiuscole, abbreviazioni o diverso ordine d'inserimento dei nomi.
La dispersione dei dati presso diversi soggetti, secondo logiche quasi sempre
funzionali alle esigenze delle singole amministrazioni (ovvero la mancata
identificazione della responsabilità del dato e del processo)
La disomogeneità dell’informazione (ovvero la mancanza di sistemi di codifica
standardizzati a livello sia dell'azienda sia di settore).
Database suddivisi in differenti dipartimenti e aziende in cui i dati in ogni
struttura sono registrati con regole differenti per ogni database.
Utilizzo di informazioni prese da vecchi database che contengono dati obsoleti
e scarsamente documentati.
L’assenza di procedure ad hoc di gestione della qualità dei dati e/o di
procedure di gestione dei dati autonome rispetto alle funzionalità offerte dai
sistemi.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Metodologie di miglioramento
Basate sui Dati
correggere i Dati
Confronto dei dati con la realtà che rappresentano
costoso, a campione, molto preciso
una tantum per orientare l’intervento
Confronto dei dati tra due o più archivi
(applicazione di tecniche di record matching: record diversi che si
riferiscono alla stessa identità del mondo reale)
+ Facilmente applicabile, costo medio
Il matching non garantisce una correttezza massima
Confronto dei dati con vincoli o business rules
(su un campo, su più campi, considerazioni probabilistiche)
+ spesso efficace, poco costoso
non garantisce per il futuro, riguarda solo la conformità alle regole, non la accuratezza,
particolarmente adatti a dati permanenti
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Metodologie di miglioramento
Basate sui Processi
individuare e correggere le cause di errore
Identificare il processo
Identificare il Process Owner e Data Stewards (Identificazione delle responsabilità)
Descrivere il processo
Stabilire un sistema di misura
Definire un sistema di monitoraggio e controllo (dei dati e/ del processo)
Identificare gli obiettivi di miglioramento
Realizzare gli interventi di miglioramento
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Il MINING
Esperienze di text e data mining in CSI per gli enti della
pubblica amministrazione regionale
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Text mining
Il Text Mining, anche conosciuto come Analisi Testuale Intelligente, Text Data
Mining o Knowledge Discovery in Text (KDT), è un processo di analisi per
estrarre nuova e valida conoscenza dai documenti di testo e per dedurre
informazioni da grandi quantità di dati non strutturati, combinandoli con variabili
quantitative, esattamente come il Data Mining fa con i dati strutturati.Questa
tecnica ha un potenziale decisamente interessante, se si pensa che una larga
fetta delle informazioni con cui ci si confronta quotidianamente sono di tipo
testuale e possono quindi rappresentare una fonte importante di
approfondimento per quanto riguarda la conoscenza delle realtà che si
vogliono analizzare.Si parte da un insieme di documenti testuali e si affronta una
prima fase di cleaning e riduzione dei dati, avente l’obiettivo di decomporli e
rappresentarli attraverso una struttura adatta alle analisi di data mining, tramite
la rimozione dei termini di “disturbo”, l’analisi morfologica dei termini e la
creazione di tabelle di frequenza. Dopo questa prima fase di analisi linguistica, si
passa all’analisi statistica dei dati: i documenti vengono classificati in gruppi
omogenei (cluster analysis) e può venir effettuata un’analisi predittiva che, a
partire da questi risultati, classifichi nuovi documenti.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Text mining
Il Text Mining offre la possibilità di effettuare un filtraggio “intelligente” dei documenti non
strutturati, dal momento che, al contrario di quanto avveniva con i primi strumenti di Data
Retrieval, nel realizzare l’analisi viene considerato anche il contesto: non si basa cioè sulla
presenza di una parola singola bensì sulle relazioni che essa mantiene con le altre per dare un
significato univoco all'enunciato.
Obiettivi
Lo scopo di un'analisi di text mining è approntare un sistema automatico che permetta di:
leggere, interpretare, classificare ed integrare i dati provenienti da numerose fonti (Internet,
intranet, banche dati, mail, forum, report,…), al fine di scoprire in maniera rapida ed efficace
conoscenza utile anche su un numero molto grande di documenti;
estrarre conoscenza dal testo: esso viene trasformato in tabelle facilmente interpretabili con
sistemi quali-quantitativi;
classificare automaticamente i documenti in maniera predittiva: i testi vengono assegnati
a distinte aree tematiche sulla base dei parametri di classificazione trovati nelle analisi
effettuate durante la prima fase di interpretazione dell'universo dei documenti.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data mining
Il Data mining è definito come:
il processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite
l'applicazione di algoritmi che individuano le associazioni "nascoste" tra le informazioni e le
rendono visibili.
In altre parole, col nome Data mining si intende l'applicazione di una o più tecniche che
consentono l'esplorazione di grandi quantità di dati, con l'obiettivo di individuare le
informazioni più significative e di renderle disponibili e direttamente utilizzabili nell'ambito del
decision making.
L'estrazione di conoscenza (informazioni significative) avviene tramite individuazione delle
associazioni ("patterns" oppure sequenze ripetute oppure regolarità) nascoste nei dati. In
questo contesto un "pattern" indica una struttura, un modello, o, in generale, una
rappresentazione sintetica dei dati.
Il termine Data mining è utilizzato come sinonimo di knowledge discovery in databases
(KDD), anche se sarebbe più preciso parlare di knowledge discovery quando ci si riferisce al
processo di estrazione della conoscenza, e di Data mining come di una particolare fase del
suddetto processo (la fase di applicazione di uno specifico algoritmo per l'individuazione dei
"patterns").
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Data mining
I risultati a cui può giungere l'attività di Data mining sono molteplici:
associazioni - due eventi si verificano spesso insieme (ad esempio chi compra uno
zaino scolastico tende ad acquistare anche dei quaderni);
sequenze - due eventi successivi sembrano legati da una relazione di causa-effetto
(chi compra un mouse su Internet, tempo dopo acquista anche un tappetino);
classificazioni - il riconoscimento di un ordine in una serie di eventi, con la
conseguente riorganizzazione dei dati in proprio possesso;
raggruppamenti - la ricerca e la presentazione di gruppi di fatti non precedentemente
noti;
previsioni - lo studio della probabile evoluzione futura della propria attività in base alle
risultanze dei dati raccolti.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Filone Data Mining
analisi del rispetto delle linee guida nel trattamento
dell’ipertensione
segmentazione delle scuole materne del Piemonte
modello di previsione del successo della formazione
professionale
analisi di Web Mining di un sito regionale nell’ambito
del
progetto Catalogo dei servizi decisionali
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Analisi trattamento ipertensione
Analisi modelli prescrittivi piemontesi
trattamento farmacologico dell’ipertensione
Obiettivo:
raggruppare i medici con profili simili nel trattamento farmacologico prescelto
(monotrattamento, trattamenti combinati…) nel trattamento dell’ipertensione.
Verificare in quale modo le linee guida OMS per il trattamento dell’ipertensione sono
rispettate.
Periodo di osservazione:
• primo semestre 2002
Soggetti: Medici di base generici
Fonte: Datawarehouse delle prescrizioni farmaceutiche regionale
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Analisi trattamento ipertensione
Flusso delle analisi realizzate con Entreprise Miner
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Analisi trattamento ipertensione
Risultati cluster analysis con Mappe di Kohonen
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Analisi trattamento ipertensione
Cluster 7 (300 medici)
Comportamento: segue linee guida
monosomministrazione per pazienti non a rischio,
combinazioni esclusive per pazienti a rischio
Profilo medio del medico: medico di "campagna"
Cluster 3 (150 medici)
Comportamento: non segue linee guida, in particolare usa associazioni
non consigliate, poco monosomministrazione
Profilo medio del medico: pochi anni attività 0-10, medico di "città"
Tipo paziente: niente di particolare (età, numero pazienti ipertesi,
ipertesi a rischio)
Azione di informazione specifica
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Filone Data Mining
analisi del rispetto delle linee guide nel trattamento
dell’ipertensione
segmentazione delle scuole materne del Piemonte
modello di previsione del successo della formazione
professionale
analisi di Web Mining di un sito regionale nell’ambito del
progetto Catalogo dei servizi decisionali
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Segmentazione delle scuole materne
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Filone Data Mining
analisi del rispetto delle linee guide nel trattamento
dell’ipertensione
segmentazione delle scuole materne del Piemonte
modello di previsione del successo della formazione
professionale
analisi di Web Mining di un sito regionale nell’ambito del
progetto Catalogo dei servizi decisionali
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Follow-up occupazionale corsi FP
Esempio di albero decisionale
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Filone Data Mining
analisi del rispetto delle linee guide nel trattamento
dell’ipertensione
segmentazione delle scuole materne del Piemonte
modello di previsione del successo della formazione
professionale
analisi di Web Mining di un sito regionale nell’ambito
del progetto Catalogo dei servizi decisionali
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Le analisi statistiche degli accessi al Data
Warehouse
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Esempi di datawarehouse realizzati da CSI
La versione demografica pubblica (BDDE), pubblica e di libera consultazione, consente
l’accesso a quattro moduli tematici della popolazione residente e l’estrazione di qualsiasi dato
territoriale dal 1991 in poi (http://www.regione.piemonte.it/stat/bdde/index.htm );
Key Statistics in relazione al Censimento della Popolazione del 2001 la Regione Piemonte ha
predisposto uno studio che non solo interpreta le informazioni relative al detto censimento, ma
che confronta questi risultati con le precedenti rilevazioni (1981 e 1991), costruendo viste su
come è strutturata la popolazione, quali caratteristiche ha e come è cambiata rispetto ai dieci e
venti anni precedenti (http://www.regione.piemonte.it/stat/keystat/index.htm ).
Osservatorio regionale del commercio è stato istituito dalla legge regionale n. 28 del 12
novembre 1999, con il compito di assicurare un sistema coordinato di monitoraggio sull'entità e
sull'efficienza della rete distributiva commerciale anche al fine di valutare gli interventi di
programmazione regionale in materia. Sono disponibili servizi di accesso ed analisi dei dati
relativi agli esercizi commerciali, forme speciali di vendita e pubblici esercizi, consultabili in
modalità web sia in Internet (http://www.regione.piemonte.it/commercio/osservatorio/ ) che
nella Intranet regionale. I comuni inviano annualmente i dati all’Osservatorio tramite un
questionario web con accesso riservato raggiungibile dai portali Ruparpiemonte e Sistema
Piemonte.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Esempi di datawarehouse realizzati da CSI
Osservatorio regionale dell'artigianato è stato istituito dalla legge regionale n. 21 del 9
maggio 1997, con il compito di svolgere attività di analisi e di studio delle problematiche
strutturali e congiunturali relative al settore artigiano nel contesto del quadro economico
regionale, nazionale ed internazionale; contiene informazioni sulle Aziende Artigiane in
Piemonte dal 1992 aggiornati all'ultimo trimestre. Sono disponibili servizi di accesso ed
analisi in modalità web in Internet (http://www.regione.piemonte.it/artig/dati_inter.htm ). I
dati puntuali delle imprese artigiane completi di tutte le informazioni messe a
disposizione da AAEP (Anagrafe Attività Economiche e Produttive), sono consultabili
sulla Intranet regionale con accesso riservato.
Osservatorio turistico regionale nell'ambito del Sistema Informativo della Direzione
Turismo Sport e Parchi, sono stati realizzati servizi di accesso ed analisi dei flussi
turistici, consultabili in modalità web e disponibili sul portale Sistema Piemonte (
http://www.sistemapiemonte.it/turismo/osservatorio/ ). I dati anagrafici e descrittivi delle
strutture ricettive sono consultabili tramite un servizio di accesso presente sulla Intranet
regionale con accesso riservato.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Esempi di datawarehouse realizzati da CSI
Censimenti dell’Agricoltura in relazione all’ultimo censimento è stato realizzato un
Data Warehouse con le informazioni appartenenti agli ultimi 5 censimenti
dell’Agricoltura (1961-2000). Sono stati predisposti strumenti di accesso ai dati e di
analisi che consentono la navigazione sui dati attraverso il drill down fino al livello
comunale e la consultazione di tabelle e di indicatori, fra cui principalmente gli
indicatori contenuti in svariati documenti di lavoro dell’Unione europea e di altri
organismi internazionali. Il Data Warehouse è in fase di integrazione con le
informazioni provenienti dagli altri Censimenti realizzati dall’Istat (Popolazione e
Industria), attività finalizzata ad mettere in relazione le diverse realtà fotografate
nelle indagini. Gli strumenti di diffusione dei dati via Internet predisposti dalla
Regione Piemonte sono accessibili dal seguente sito web:
http://www.regione.piemonte.it/agri/ita/agridata/aziendeagricole/warehouse.htm
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Esempi di datawarehouse realizzati da CSI
Agricoltura: Zone Vulnerabili da Nitrati il progetto, attraverso il miglioramento della
precisione della stima dei carichi agricoli e zootecnici, e l'integrazione con le
informazioni idrochimiche, idrobiologiche e pedologiche, prevede la costruzione di un
insieme di dati, opportunamente organizzati e sitematizzati (DW), e metodologie
definibili come sistema informativo decisionale "Acque e agricoltura" (
http://www.regione.piemonte.it/agri/dirett_nitrati/servizio_zvn.htm ).
Osservatorio Regionale Infanzia ed Adolescenza è stato attivato nel 2001 con lo
scopo di fornire un idoneo supporto all'Amministrazione Regionale ed alle
Amministrazioni Locali nelle funzioni di programmazione, finanziamento e verifica dei
servizi ed interventi per l'infanzia l'adolescenza di rispettiva competenza,
consentendo un'adeguata lettura dei bisogni dell'infanzia e dei servizi offerti; inoltre
fornisce dati volti all'elaborazione della relazione annuale sulle condizioni dell'infanzia
e dell'adolescenza ex art.4 L.451/97. E’ disponibile un servizio di accesso ed analisi
in modalità Web su internet (
http://www.regione.piemonte.it/polsoc/osservatorio/stat.htm ).
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Esempi di datawarehouse realizzati da CSI
Monitoraggio Accordi di Programma Quadro l’obiettivo del progetto è fornire attività di
supporto all'utente regionale per l'intero ciclo di attività legate al monitoraggio degli Accordi
di Programma Quadro, determinando un processo per la produzione di report di sintesi e di
dettaglio per la redazione dei documenti riguardanti l'elenco dei progetti del cronoprogramma
di spesa e degli impegni complessivi e fornire strumenti per la diffusione dei risultati alle
varie Direzioni coinvolte nelle attività di monitoraggio degli APQ (
http://www.regione.piemonte.it/programmazione/ ).
DOCUP il Sistema Informativo “DOCUP 2000/2006” partito nell’anno 2001 con il
“Sottosistema Bandi alle Imprese”, prevede l’acquisizione delle domande di finanziamento
presentate dalle imprese e il trasferimento di queste a FinPiemonte per la gestione dell’iter
procedurale di ammissione al finanziamento ed erogazione del contributo. Dal 2004 è
presente il “Sottosistema di Data Warehouse” che costituisce il sistema strategico di
supporto alle decisioni della Direzione. L’obiettivo principale del sistema è quello di
permettere alla Direzione Industria di avere una visione complessiva sull’andamento dei
finanziamenti tramite un’unica gestione relativa a tutte le fasi del processo dei finanziamenti
erogati ed una banca dati unica centralizzata che contenga anche le informazioni di inizio e
di fine (domanda di finanziamento e erogazione dei contributi) dei finanziamenti alle imprese
che, di fatto, sono gestiti in modo autonomo da FinPiemonte (
http://www.sistemapiemonte.it/finanziamenti/docupdw/presentazione.shtml ).
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Esempi di datawarehouse realizzati da CSI
Osservatorio Epidemiologico Regionale la Banca Dati Infortuni
permette di effettuare analisi personalizzate dando la possibilità di
selezionare le variabili da visualizzare, i filtri da imporre sulle variabili di
classificazione per mirare l’ambito d’analisi (quale anno vedere, quale
attività economica, quale provincia, ecc.) e le statistiche da applicare alle
misure (somma, percentuale, media, …). Gli strumenti di diffusione dei
dati via Internet predisposti dalla Regione Piemonte sono accessibili
attraverso il link BANCA DATI dalla pagina
http://www.regione.piemonte.it/sanita/ep/infortun/index.htm. Ulteriori dati
di interesse epidemiologico sono contenuti nella BDDE (Banca Dati
Demografica Evolutiva): in particolare informazioni storicizzate sulla
mortalità per causa e sulle dimissioni ospedaliere.
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Progettazione Basi Dati decisionali
Per ulteriori approfondimenti…
[email protected]
GRAZIE DELL’ATTENZIONE !!!!!!!!!
Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali
Scarica