Università degli studi di Torino – Corso di laurea in Fisica maggio 2006 Trattamento dati nelle imprese Riccardo Grosso Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Programma del corso I) cenni storici, tipologie di basi dati, cenni di progettazione basi dati, riuso dati, data quality, data mining, esempi di realizzazione sistemi decisionali II) progettazione basi dati operazionali (approfondimento) e cenni di reverse engineering III) progettazione basi dati decisionali (approfondimento) IV) repository di metadati e schemi concettuali V) applicazione del modeling web semantico ed ontologie) concettuale VI) DOMANDE DI VERIFICA Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali al web (cenni di Cenni storici L'esigenza dell'archiviazione è cresciuta di pari passo con l'evoluzione della civiltà. L'archiviazione in senso lato può essere intesa, prima di tutto, come un'organizzazione della memoria, di un singolo individuo così come di un organismo, di un Ente, di uno Stato, di un popolo. Fin dall'ottavo secolo avanti Cristo gli Assiri e i Babilonesi avevano creato ed organizzato dei veri e propri archivi. Questa ipotesi è stata formulata sulla base dei resti giunti fino a noi di documenti costituiti da simboli cuneiformi incisi su cilindri e tavolette d'argilla. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Nell'antichità ci sono stati anche numerosi esempi di forme alternative di archiviazione, come l'archiviazione orale. In tale contesto si inserisce anche la figura dello mnemon, che, nell'antica Grecia era un impiegato pubblico, il quale, sotto il vincolo di un giuramento di riservatezza (a tutela della privacy come si direbbe oggi) aveva il compito di memorizzare informazioni utili alla gestione dello Stato, tra cui sentenze emesse dai giudici, contratti stipulati tra i privati e informazioni sullo stato patrimoniale dei singoli cittadini. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Tali paleo-archivi servono a testimoniare che nell'uomo è sempre stata molto sentita la necessità di organizzare in modo "ufficiale" i documenti. Tale organizzazione, da un punto di vista storico, è una fonte insostituibile di informazioni sulla civiltà che ha creato e custodito tali documenti. Uno dei concetti che emerge prepotentemente da questa valutazione è che l'esigenza di creare un archivio nasce dalla necessità di conservare ed organizzare i dati e i documenti. documenti Quindi il concetto di archivio è strettamente correlato ai concetti di dato, documento, organizzazione e conservazione. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Passando dal concetto di archiviazione orale o scritta a quello di archiviazione magnetica, magnetica il problema è che le informazioni non possono essere conservate nella memoria centrale del computer (RAM) in quanto allo spegnimento vanno perdute. Fino agli anni 60 le tecnologie utilizzate per memorizzare stabilmente i dati consistevano in nastri perforati e schede perforate di carta (per i dati che non subivano modifiche frequenti). I dati soggetti a frequenti variazioni come i dati di gestione aziendale venivano messi su nastri magnetici. Meno frequenti e più costosi erano i tamburi magnetici: grossi cilindri di metallo in rapida rotazione sulla cui superficie era depositata una vernice magnetica su cui si spostava una testina di scrittura e lettura. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Ormai da 20 anni la tecnologia utilizzata per la archiviazione di informazioni modificabili è il disco magnetico. magnetico La fortuna del disco non accenna a diminuire. Anzi sembra aumentare continuamente di capacità, attraverso una diminuzione delle dimensioni della testina, e di velocità di accesso, attraverso una maggiore velocità di rotazione. Il costo dei dischi magnetici è passato nel giro di 10 anni da 50.000 lire al megabyte nel 1987 alle 500 lire del 1996. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Questa tendenza sembra essere duratura anche se la tecnologia magnetica rimane sempre più costosa di quella ottica (che nel caso dei CD scrivibili (CDR) è di circa 1 centesimo al megabyte). La memoria disco costa molto di meno della memoria RAM che ha un costo intorno alle 5 euro a megabyte, ma ha una velocità di accesso dell’ordine dei 10 millisecondi contro i 70 nanosecondi della RAM. Questo ultimo aspetto condiziona tutto il funzionamento del calcolatore. In una grande azienda possono esserci infatti Terabyte (migliaia di Gigabyte) di memoria disco. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Il disco viene utilizzato per conservare gli archivi di una azienda cioè i dati sulla amministrazione, sulle vendite e sui processi produttivi. Rendere veloci gli accessi a questi dati è più importante della velocità di calcolo necessaria per trattarli. Nei mainframe il problema veniva risolto parzialmente dotando le unità disco (controller del disco) di grande memoria e intelligenza di gestione. In pratica veniva messa una notevole quantità di memoria RAM su ogni controller in modo che tutti i dati più frequentemente letti venissero inseriti nella memoria RAM senza la necessità di caricarli continuamente dal disco. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Anche i moderni sistemi operativi utilizzano questa tecnica, in altre parole i dati del disco vengono bufferizzati in memoria RAM. Un buffer è una zona di memoria usata come deposito e come tampone tra i processi che richiedono i dati ed il disco. Il disco viene comunque visto dal sistema operativo come un insieme di tracce e settori. Alcuni file vengono gestiti in modo particolare sia per le ricerche di dati che per la loro scrittura. Questi file sono detti normalmente archivi. Le aggregazioni di archivi tra di loro correlati sono definite normalmente data base. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Tipologie di basi di dati Con un certo grado di approssimazione possiamo dire che esistono due modi di suddividere e gestire i dati: gestori di file e Data Base relazionali. relazionali Gestori di file: file ogni base di dati è rappresentata da un file, che si divide in record: il record rappresenta uno degli elementi che si desidera registrare, ed è composto a sua volta da campi, cioè dati elementari che caratterizzano ogni entità da classificare. Con un gestore di file, ogni dato si immagazzina in un unico file e le operazioni sui dati interessano un solo record per volta. Data Base relazionali: relazionali si presentano in forma tabellare in cui le righe rappresentano i record e le colonne rappresentano i campi. Le operazioni realizzate con questo tipo di Data Base riguardano le tabelle e non i record individuali, come nel caso dei gestori di file. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Prima della comparsa dei database relazionali esistevano altre tipologie di database, database come i gerarchici ed i reticolari. reticolari Questi richiedevano una conoscenza approfondita dei dettagli fisici concernenti la memorizzazione dei dati su disco e anche le operazioni concettualmente più semplici (come leggere i dati di una tabella) richiedevano un grosso lavoro. Oggi sono scomparsi perché il modello relazionale presenta degli enormi vantaggi. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Oggi i principali Data Base sono di tipo relazionale, ciò perché praticamente tutti gli insiemi di dati che corrispondono a entità complesse organizzate come imprese, scuole, associazioni varie,… implicano collegamenti tra i vari dati ad esempio: ai fornitori sono collegate le merci, agli alunni i corsi, e così via. La norma fondamentale per stabilire relazioni tra tabelle, cioè tra contenitori di dati correlabili, è che il campo di collegamento non deve avere ripetizioni, ossia ogni record deve potere essere identificato in maniera univoca. Il campo che permette l'identificazione di ogni record è detto "chiave primaria" e deve essere comune alle tabelle che si intende correlare. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Cenni storici Classificazione delle basi dati Alfanumeriche Operazionali • Gerarchiche • Reticolari • Relazionali Decisionali • Relazionali • Multidimensionali Documentali Geografiche Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Modellare i dati Perché modellare i dati: • Per comprendere la loro logica e le loro dipendenze Con quale metodo o strumento: • Con il modello entità-relazioni o entity-relationship arricchito con le generalizzazioni Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Perché modellare? Il valore portato dall’informatica e potenzialmente utilizzabile da un’organizzazione è direttamente correlabile con la ricchezza e la coerenza del suo patrimonio di dati. dati Tale patrimonio è costituito sia dai fattori interni che servono per produrre il prodotto/servizio, sia dai fattori esterni che interagiscono con l’organizzazione nella sua attività quotidiana. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Perché modellare? Questi fattori possono essere individuati come entità e qualificati attraverso delle proprietà: proprietà ciò costituisce la base informativa che identifica l’organizzazione sul mercato. La base informativa quindi rappresenta un immagine del mondo che l’organizzazione si crea per poter interagire in modo coordinato tra i vari settori operativi e in accordo con le sue strategie e le sue procedure. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Perché modellare? Questa immagine che schematizza la realtà, per poter essere efficace deve rispecchiare la pluralità dei rapporti che l’organizzazione intrattiene con ciascuna entità. Tale pluralità rappresenta i differenti punti di vista con cui le varie parti dell’organizzazione considerano l’entità stessa. I diversi punti di vista devono poi confluire come sottoinsiemi logici in una descrizione generale valida per l’organizzazione nel suo complesso. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Perché modellare? Matricola Dati Posizione Indirizzo cliente anagrafici debitoria Settore vendite fido Settore amministrazione Valore Fatturato Dettaglio Ordinato alla data ordini Alla data Settore marketing Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Entità cliente Settore produzione Progettazione Basi Dati operazionali Perché modellare? Un livello ulteriore di rappresentazione riguarda il modo in cui le entità vengono rappresentate in termini informatici. Nel mondo dell’informatica a ciascuna entità corrisponde un record (elemento di registrazione sulla memoria di massa). Tale record viene qualificato dai suoi attributi tra cui quello di identificazione (chiave). I record facenti parte di una categoria, in quanto attinenti allo stesso tipo di entità, costituiscono nel mondo informatico un archivio o file. file Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Perchè modellare? In queste schematizzazioni esiste una certa ambiguità logica tra entità ed attributo. La distinzione intuitiva non è rigorosa e può cambiare cambiando la prospettiva. Se si volesse dare particolare enfasi al settore produzione il prodotto (articolo) diventerebbe un’entità ed il cliente un attributo Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Perchè modellare? La scelta tra le varie modalità di rappresentazione incide sull’efficienza con cui i dati saranno poi reperiti e deve quindi essere coerente con le strategie operative. L’insieme dei dati raccolti non deve contenere al suo interno elementi contraddittori e deve dare una descrizione completa dei vari aspetti del fenomeno che interessa l’azienda. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Perché modellare? L’insieme logico degli archivi o flussi di un’organizzazione, unitamente alle tecniche per collegarli tra loro per elaborarli e reperire le informazioni, è la Base di Dati. Dati La Base di Dati è una componente essenziale della struttura di un sistema informatico. Il modo in cui i dati vengono archiviati e gestiti condiziona le regole secondo cui l’organizzazione interagisce con gli interlocutori interni ed esterni. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello dei dati Esaminiamo i passi che portano dalla teoria alla realizzazione di un Database. I modelli sono strumenti per rappresentare la realtà. La rappresentazione generata secondo le regole del modello viene chiamata schema. Il processo di rappresentazione di un database si articola in tre fasi ciascuna delle quali si riferisce a un diverso livello di astrazione. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello dei dati La scomposizione in fasi del processo di progettazione ha lo scopo di scomporre i problemi e garantire la possibilità di modifica delle soluzioni adottate. Queste fasi sono: Schema concettuale (o modello concettuale) Progettazione Schema logico (o modello Logico) Realizzazione Schema Fisico (o modello Fisico) Implementazione Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello concettuale Il livello concettuale rappresenta la realtà dei dati e le relazioni tra essi attraverso uno schema. Il livello concettuale è la rappresentazione completa ed efficace del contesto, cioè della realtà a cui si riferisce. Essa è la rappresentazione più vicina alla logica umana. I modelli dei dati usati nella progettazione concettuale vengono definiti modelli semantici. Quello più diffuso è l’ENTITY-RELATIONSHIP che prevede la individuazione delle Entità, cioè degli oggetti concreti o astratti, a la loro classificazione in insiemi omogenei. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello concettuale Le dipendenze tra i dati vengono rappresentati medianti relazioni tra le corrispondenti entità. Esempi di entità sono: una persona, un modello di automobile, un movimento contabile, una prova sostenuta da uno studente. Gli studenti sono classificabili nel tipo entità Studente, i diversi modelli di automobile sono classificabili nel tipo entità Automobile. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello concettuale Ciascun studente rappresenta un’istanza del tipo entità Studente. L’associazione (in inglese relationship quindi relazione) è un legame che stabilisce un’interazione tra le entità. Per esempio tra l’entità Persona e l’entità Automobile esiste un’associazione che può essere descritta nel linguaggio naturale secondo due direzioni: una persona possiede una o più automobili e un’automobile è posseduta da una persona. Le proprietà delle entità e delle associazioni vengono descritte attraverso gli attributi. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello concettuale Le caratteristiche di ciascun entità vengono descritte tramite gli attributi. Attributi dell’insieme di entità articolo possono essere Art_Cod,Art_descr,Art_Prezzo,Art_Iva. Ogni attributo è caratterizzato da un nome e dall’insieme di valori che esso può assumere. Art_Cod Art_Descr Art_Prezzo Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Art_Iva Progettazione Basi Dati operazionali Il modello concettuale Le caratteristiche di ogni attributo sono: • Formato: • Dimensione: Indica la quantità massima di caratteri o cifre inseribili • Opzionalità: Tipo di valori che assume (carattere, numerico, data/ora) Indica la possibilità di non essere sempre valorizzato: l’attributo è obbligatorio se il suo valore non deve essere nullo, facoltativo se sono accettati valori nulli Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello concettuale I diversi valori assunti dagli attributi determinano le diverse istanze dell’entità. L’insieme dei possibili valori assunti da un attributo si chiama Dominio dell’attributo. Si indica con il concetto di chiave (chiave primaria o primary key) l’insieme di uno o più attributi che consentono di distinguere un’istanza dall’altra: esempi di chiavi sono il Codice di un Prodotto o la Matricola di un dipendente Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello concettuale Entità Studente Facoltà Relazione Scelta da Studente Facoltà Iscritto a Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello concettuale Attributi Studente Matricola Chiave Nome Studente Indirizzo Matricola Nome Indirizzo Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello logico La fase logica del processo di progettazione di un DB ha lo scopo di tradurre lo schema concettuale in modello logico dei dati. dati Lo schema logico (a differenza del concettuale) dipende dal tipo di DBMS utilizzato e in particolare dal modello logico dei dati. Il Modello logico dei dati rappresenta come sono organizzati i dati negli archivi elettronici: descrive quindi la composizione ed il formato dei dati nel loro aspetto di struttura logica di dati. Il livello logico viene derivato dal livello concettuale Il Modello logico dei dati è quindi la tecnica di organizzazione e accesso ai dati utilizzata da specifiche categorie di DBMS Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il modello fisico Il Modello fisico rappresenta l'effettiva installazione degli archivi elettronici: esso indica l'ubicazione dei dati nelle memorie di massa (dischi). Il livello fisico è quindi l'implementazione del livello logico sui supporti per la registrazione fisica dei dati: partizioni, puntatori, blocchi fisici, cluster, indici. Il Modello fisico stabilisce come le strutture definite a livello logico debbano essere organizzate negli archivi e nelle strutture del filesystem; esso dipende quindi dal tipo di DBMS, dal sistema operativo e dalla piattaforma hardware utilizzata del sistema che ospita il DBMS. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il Bignami dell’entity relationship U OMO DONNA s pos a s i s pos a con e' generato genera da F IGL IO AU T OMOB IL E guida e' guidata da Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il Bignami dell’entity relationship UOMO.sposa.DONNA » Ovvero SOGGETTO.predicato-verbale.COMPLEMENTO-OGGETTO » Ovvero ENTITA.relazione.ENTITA Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Basi Dati Relazionali Definizione di una Primary Key Una primary key (PK) non consente duplicazioni di valori e non può essere NULL. Ciascuna riga è univocamente identificata da una colonna o da un set di colonne (primary key composta). Una chiave candidata può servire anche da PK. Tabella S_ITEM ORD_ID ITEM_ID PRODUCT_ID PRICE QUANTITY QUANTITY_SHIPPED 100 100 100 101 1 2 7 1 Primary Key Composta 1011 10013 41010 30421 135 380 8 16 Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali 500 400 250 15 500 400 250 15 Progettazione Basi Dati operazionali Basi Dati Relazionali Definizione di una Foreign Key Una foreign key (FK) è una colonna o una combinazione di colonne in una tabella che fa riferimento a una PK o una UK di una stessa tabella o di un’altra tabella. Le FK sono basate sui valori dei dati e sono puramente logiche. Il valore deve corrispondere al valore della colonna collegata o essere NULL. Se una FK è parte di una PK non può essere NULL. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il Bignami dell’entity relationship Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il Bignami dell’entity relationship Le generalizzazioni • PERSONA generalizza »UOMO »DONNA Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Il Bignami dell’entity relationship PERSONA UOMO Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali DONNA Progettazione Basi Dati operazionali DBMS I dati prima di far parte del DB devono passare attraverso uno strumento che li gestisca. Il DBMS (DataBase Management System) è il componente del software di base che ti consente di gestire uno o più database. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali DBMS I primi DBMS, realizzati per grandi calcolatori, risalgono alla fine degli anni 60: erano i vecchi FILE SYSTEM. L’accesso ai dati era diretto e presentavano vari svantaggi: Non vi era il controllo e la gestione degli archivi di dati Ci si doveva preoccupare che venissero rispettati i requisiti di ridondanza minima Ci si doveva preoccupare se contemporaneamente da più utenti i dati erano utilizzati Ci si doveva preoccupare se i dati erano utilizzati da più applicazioni Esistevano problemi di permanenza dei dati Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali DBMS Le applicazioni rivolgono le richieste di accesso alla base di dati al DBMS, il quale gestisce i dati svincolando le applicazioni da tale onere. Si ottiene cosi un triplice scopo cioè: Le funzionalità di gestione della base dati sono raggruppate in un unico insieme Le applicazioni sono più leggere e veloci da realizzare Nessuna applicazione potrà cosi effettuare operazioni scorrette sul Database Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali DBMS L’utilizzo del DBMS comporta una serie di vantaggi che si traducono in una gestione dei dati più affidabile e coerente. Le caratteristiche vantaggiose del DBMS e contemporaneamente del DB stesso sono: Indipendenza delle applicazioni dalla struttura fisica dei dati Indipendenza dalla struttura logica dei dati Utilizzo da parte di più utenti con applicazioni diverse Eliminazione della ridondanza Eliminazione della inconsistenza Facilità di accesso Integrità dei dati Sicurezza dei dati Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali DBMS In particolare ne deriva: Indipendenza dei dati dall’applicazione Riservatezza nell’accesso ai dati Gestione dell’integrità fisica dei dati Gestione dell’integrità logica dei dati Sicurezza e ottimizzazione nell’uso dei dati Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali DBMS Indipendenza dei dati dall’applicazione In un ambiente FILE SYSTEM i dati avevano senso e valore solo se interpretati dai programmi. La struttura dei dati dipendeva dall’applicazione, l’applicazione doveva conoscere il formato fisico dei dati, la loro localizzazione, chiavi ecc. Con il DBMS invece i dati hanno una struttura che PRESCINDE dall’applicazione che tra l’altro non deve piu’ fare riferimento alla struttura fisica dei dati. Ciò comporta molti vantaggi nella manutenzione del sistema informativo dato che le modifiche alla struttura fisica dei dati non comportano modifiche alle applicazioni. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali DBMS Riservatezza nell’accesso ai dati In un ambiente FILE SYSTEM il sistema di gestione dati non consentiva VISIONI LOGICHE diverse dello STESSO INSIEME DI DATI, ciò comportava l’impossibilità di rendere disponibile a determinate categorie di utenza solo parti dell’archivio e di soddisfare il REQUISITO DI MINIMA RIDONDANZA DEI DATI. Con l’utilizzo di un DBMS vi è la possibilità di avere visioni logiche, multiple e contemporanee della struttura fisica dei dati Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali DBMS La gestione dell’integrità fisica dei dati Per soddisfare il requisito di PERSISTENZA DEI DATI è necessario garantire che il sistema di gestione del DataBase mantenga nel tempo le informazioni registrate (ad es. in caso di caduta del sistema o di guasto ai dispositivi di memorizzazione). Inoltre è necessario che il sistema sia protetto da accessi contemporanei agli stessi dati da parte di più utenti. Questa operazione è completamente automatica e controllata dal DBMS e non mette quindi a rischio la consistenza dei dati. Esistono delle norme da seguire per l’amministratore del DBMS per impostare e configurare correttamente il sistema al fine di garantire l’integrità fisica dei dati. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali DBMS La gestione dell’integrità logica dei dati L’integrità logica dei dati consiste nella possibilità di DEFINIRE DEI VINCOLI in modo che non sia possibile inserire o apportare modifiche ai dati CHE NON ABBIANO UN SENSO NEL CONTESTO DELLA REALTA’ RAPPRESENTATA. Tali vincoli possono essere riferiti: • Alle singole categorie di dati (Es. limiti di valori a specifici intervalli o N possibili scelte di valori da immettere) • Alle relazioni tra le categorie. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali DBMS La gestione dell’integrità logica dei dati Un tipico caso di integrità logica su una relazione è quello della cosidetta INTEGRITA’ REFERENZIALE INTEGRITA REFERENZIALE: Definendo tra le categorie un vincolo di integrità referenziale il sistema impedirà la cancellazione di ordini con dettagli ancora esistenti e l’inserimento di dettagli non correlati ad un ordine Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Basi Dati Relazionali Sicurezza e ottimizzazione dell’uso dei dati Grazie al DBMS si possono gestiste gli UTENTI e le RISORSE. Le Funzioni di gestione degli utenti consentono all’amministratore del sistema di definire dei vincoli di accesso ai dati e di stabilire per ciascun utente il diritto di accesso (SCRITTURA, LETTURA, MODIFICA e cosi via) alle singole unita di informazione del DB. Il DBMS inoltre gestendo direttamente alcune risorse quali le periferiche consente di ottimizzare l’utilizzo rispetto a come queste vengono controllati direttamente dal sistema operativo. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Approfondimenti sulla progettazione concettuale dati Il corso del professor Lenzerini: http://www.dis.uniroma1.it/~lenzerin/didattica/basididati/mat Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati operazionali Approfondimenti sulle tecniche di reverse/forward http://www.tecnetdati.it/portale/download/Re_database.ppt Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Introduzione alle basi dati decisionali Basi dati operazionali e decisionali Differenze Dall’operazionale al decisionale Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Tipologie di Banche Dati Due tipologie di banche dati: operazionali: • contengono dati di interesse quotidiano • vengono aggiornate costantemente in relazione alle • procedure amministrative e tecniche di competenza di un ente informativo-decisionali: • servono per supportare le esigenze di integrazione di • informazioni provenienti da banche dati operazionali diverse • sia ai fini di diffondere conoscenze, sia per supportare i • processi decisionali ai diversi livelli (micro o macro decisioni) Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Tipologie di sistemi informativi Sistemi decisionali Sistemi operazionali Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali ? ? 100 50 0 1st 4th Qtr Qtr Progettazione Basi Dati decisionali Sistema operazionale Elabora le necessità del “day to day” Disegnato per specifiche funzioni Fornisce alcuni reports Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Sistema decisionale ? ? Supporto alle Decisioni Analisi delle Tendenze Reportistica Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali 100 50 0 1st 4th Qtr Qtr Progettazione Basi Dati decisionali Criticità sistema operazionali Molte delle richieste dell’utente sono complesse da soddisfare, causa l’attuale difficoltà di accesso agli Operational Data Bases. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Che cos’è un Data Warehouse? All’interno di un sistema informativo, per Data Warehouse si intende la componente che deve soddisfare esigenze di tipo informativo e decisionale E’ costituito da una architettura complessiva di ambienti hardware e software, software da applicazioni che alimentano la base dati decisionale e che ne consentono la fruizione in funzione delle diverse esigenze Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Che cos’è un Data Warehouse? Passare dai dati alle informazioni “Remember that the ultimate goal of Data Warehouse is to keep the right information to the right people in the most intelligent form” Dr R. Hackathorn - Bolder Technology Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Che cos’è un Data Warehouse? Mentre i dati sono contenuti negli archivi dei database operativi, progettati per rispondere ad esigenze settoriali, per informazioni si intendono le conoscenze che hanno un unico significato in tutte le situazioni e che possono essere utilizzate per i processi decisionali ed informativi Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data Warehouse: una definizione tecnica A non volatile source of time-series, subject oriented, data copies for end user computing (Inmon, 1990) Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Obiettivi del DW Performance Flessibilità Scalabilità Facilità d’uso Qualità dei dati Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Obiettivi del DW Performance Richieste dinamiche Analisi Multi Dimensionale vs Tradizionale Impatto minimo sui Operational System Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Obiettivi del DW Flessibilità Flessibilità del Modello Modifica delle strutture dati Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Obiettivi del DW Scalabilità Numero degli utenti Volume dei dati Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Obiettivi del DW Facilità d’uso Comprensione del Modello Navigazione Manipolazione Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Che cos’è un Data Warehouse? Subject-Oriented (orientato alle aree tematiche) Integrato Time-Variant (comprende dati temporali) Non volatile Collection of data in support of management’s decision making process Bill Inmon Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Subject-oriented (Orientata ai soggetti) Nel DW i dati sono organizzati per soggetto anziché per applicazione Tra tutte le informazioni operazionali vengono selezionate solo quelle necessarie per il processo decisionale Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data copies - Copie dei dati I dati vengono trasferiti dal data base operazionale a quello decisionale effettuando operazioni di trasformazione Quando i dati di provenienza diversa vengono trasferiti al D.W. devono assumere una codifica omogenea ed un significato univoco. Ad esempio un’informazione riferita al sesso potrebbe essere memorizzata con codici diversi, ‘M/F’ in un caso ‘0/1’ in un altro. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Time series - Serie storiche Vengono memorizzate fotografie della stessa realtà in momenti successivi Questo consente di effettuare confronti, individuare tendenze e fare previsioni. I dati vengono aggiornati periodicamente (e non in tempo reale come nei sistemi gestionali). Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Non volatile - Persistenti Nel DW i dati immessi non vengono più modificati Essendo fotografie ripetute nel tempo, una volta immesse non vengono modificate. I dati immessi vengono in genere sottoposti a processi di aggregazione. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Perché un Data Warehouse Per ricavare informazioni (non solo dati) Per comprendere la qualità delle basi dati Per migliorare la qualità del dato operazionale Per offrire funzioni decisionali integrate nell’operazionale Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Perché un Data Warehouse Per migliorare la ricerca del business Per valorizzare il servizio fornito all’utente Per migliorare la qualità dei dati al servizio dell’utente Per re-ingegnerizzare i processi di Business Per fornire competitività all’azienda Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Cos’è un Data Warehouse: per capirsi meglio …. Non è un prodotto, ma un insieme di componenti che costruiscono un’architettura Il cuore è una base dati strutturata diversamente da quelle “operazionali” E’ un “vecchio” problema, ma ora sono disponibili metodologie e strumenti di alimentazione ed accesso molto specializzati Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Architettura Logica utente che aggiorna i dati utente che interroga i dati applicazioni di produzione (OLTP) applicazioni di ricerca e analisi(OLAP) base dati di produzione base dati decisionale (DW) Alimentazione Dati destinazione Dati sorgente Dati Basi dati operazionali Metadati Basi dati informativo-decisionali Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Com’è fatto un Data Warehouse? Alimentazione DW (Data Capture): dalla base dati amministrativa-gestionale alla base dati decisionale (Data Warehouse) back-end Accesso DW (Data Access): Servizi di accesso al Data Warehouse da parte degli utenti finali front-end Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data Warehouse Framework Raw detail No/minimal history Data characteristics Integrated Scrubbed Targeted Specialized (OLAP) History Summaries Data Marts Source OLTP Systems Data Warehouse •Design •Mapping •Extract •Scrub •Transform •Load •Index •Aggregation •Replication •Data Set Distribution Meta Data System Monitoring Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali •Access & Analysis •Resource Scheduling & Distribution Progettazione Basi Dati decisionali I metadati Sono le “Pagine gialle” Punti di vista: l’utente finale, l’amministratore dati, l’analista, l’azienda Esempi sui contenuti: catalogo delle informazioni, fonte, algoritmi di derivazione, qualità dei dati, dimensioni per la navigazione multidimensionale Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali I metadati I Metadati coprono l’intero processo di DW/DM •Disegno •Mapping •Estrazione •Trasformazione •Caricamento •Indicizzazione •Aggregazioni •Replica •Distribuzione dei dati •Accesso e Analisi •Resource Scheduling & Distribution Metadati System Monitoring Assolutamente necessario per la riuscita del progetto Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data Capture Data Management Estrazione e trasformazione dei dati Integrazione dati da diverse fonti Validazione dei dati (IMPORTANTE!!) Aggregazione Schedulazione aggiornamenti Caricamento nel data base e flussi di snellimento (scarico dati storici) Data Organization Metadati: Inserimento Aggiornamento Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Il Processo di ETL (Extract, Transform & Load) Data Staging Area Dati (Enterprise) OLTP System aggregazione Data Warehouse classificazione validazione Dati Esterni Estrazione standardizzazione Pulizia Trasformazione Metadati Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Data Mart Caricamento Data Mart Progettazione Basi Dati decisionali Data Capture Le alternative sviluppare programmi ad hoc acquistare appositi tool Scelta da meditare, costi mediamente elevati Le nostre scelte programmi ad hoc: PL/SQL, SAS tool: SAS Warehouse Administrator Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Quale database per il DW Le alternative relazionale (Oracle, ....) relazionale ah hoc per D.W.(Red Brick) multidimensionale (Essbase, ....) mix tra relazionale e multidimensionale (HOLAP) Le nostre scelte: Oracle e SAS Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data Modeling per sistemi decisionali elevata complessità di una struttura E/R classica (tipica dei sistemi transazionali) eccessiva difficoltà per l’utente finale di rintracciare i dati di Interesse impossibilità di effettuare analisi sui dati necessità di passare ad una struttura logica e fisica dei dati, più funzionale rispetto alle esigenze del data warehouse Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Struttura di una base dati decisionale Oggetto di Intervento Comune Beneficiario Finanziamenti Procedimento La Base Dati è un insieme di “fatti” nello spazio multidimensionale Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Struttura multidimensionale L’architettura fisica del Modello Dimensionale è descritta attraverso lo STAR SCHEMA Prodotto Clienti Geografia Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Tempo Produzione Progettazione Basi Dati decisionali Data Modeling per sistemi decisionali: lo Star Schema è uno schema di dati facilmente navigabile è uno schema fortemente denormalizzato il patrimonio informativo è organizzato per “soggetti”: separazione concettuale dei “soggetti” ogni “soggetto” è modellato autonomamente in uno Star Schema Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data Modeling per sistemi decisionali: lo Star Schema Dimensione2 Dimensione1 Dimensione1_PK Tavola dei Fatti Dimensione2_PK Dimensione1_PK Dimensione2_PK Dimensione3_PK Dimensione4_PK Dimensione3 Dimensione3_PK Misura1 Misura2 Misura3 Misura4 Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Dimensione4 Dimensione4_PK Progettazione Basi Dati decisionali Data Modeling per sistemi decisionali: lo Star Schema Tavola dei fatti Contiene i “Fatti” del Business che si intende analizzare o misurare (generalmente numerici) Tavole delle dimensioni Le Dimension rappresentano il CONTESTO per i fatti che si intende analizzare Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Esempio di Star Schema Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Esempio di Star Schema Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data Access Elaborazioni periodiche e off line Elaborazioni su richiesta e on line Strumenti di query e reporting (su dati alfanumerici e/o su dati territoriali) Analisi multidimensionale Applicazioni EIS (what-if, agenti intelligenti, applicazioni GIS specializzate) e di modellazione (modelli matematici, modelli territoriali, ecc.) Data mining Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali TIPI DI UTENTE Tecniche di Accesso alle Informazioni Dirigenti EIS Executive InformationSystem Intermedi Produzione Queries & Reports su esigenze Impiegati Queries & Reports preconfezionati Visualizza OLAP Analizza TIPI DI PROCESSO Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Data Mining Scopri Progettazione Basi Dati decisionali Cos’è l’OLAP? On Line Analytical Processing Due accezioni In contrapposizione ad OLTP (On Line Transaction Processing): Insieme dei processi che accedono ad un Data Warehouse Più specifica: analisi di tipo multidimensionale, con operazioni di navigazione sui dati (drill-up, drill-down, drill-across, slice & dice) Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data Mining: Definizione “The automatic discovery of knowledge from stored data” Approccio più specializzato, metodi statistici, strutture dati specifiche diverse dal DW Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Quali ambienti per il Data Access Tool verticali (es. prodotti sugli aspetti finanziari o di marketing quale la soluzione DW SAP, …) Tool orizzontali “chiavi in mano” (es. Business Objects Tool orizzontali aperti (es. SAS) Le nostre scelte: SAS System Business Objects Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Business Object • Navigazione sui dati organizzati in “Universi” • Accesso ai dati “trasparente” rispetto alla struttura fisica del database Utenti finali Utenti finali Query Panel Universo Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali DataBase Progettazione Basi Dati decisionali SAS Utenti finali Utenti finali Creazione prospetto Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali MDDB Esempio Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Back-end SAS Warehouse Data Oracle Administrator Warehous e Front-end Business Objects Alimentazione DW (Data capture) Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali REPORT Accesso DW (Data access) Progettazione Basi Dati decisionali Dal DB gestionale… Analisi base dati gestionale + Studio delle interrogazioni Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali … al DB decisionale Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali L’applicazione sviluppata http://webi03.piemonteinrete.net:8085/ wijsp Bdm/luisa Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Approfondimenti sulla progettazione DataWarehouse Il corso del professor Batini: http://www.disco.unimib.it/upload/3.1%20DWData%20WarehouseRevC Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Cenni sul riuso dei dati Costruire una serie di tavole di riferimento (di uso operazionale e decisionale) contenenti codifiche comuni, complete, certificate ed aggiornate costituisce un primo passo per l'integrazione delle basi dati, l'interscambio informativo e la cooperazione tra le diverse amministrazioni. Per acquisire la classificazione che si vuole gestire in una tavola trasversale, viene ricercata la fonte dati più qualificata. Obiettivo è quello di identificare l'ente responsabile dell'informazione (ISTAT per i codici Istat, Ministero delle Finanze per i codici Belfiore, ecc): in tal senso i dati acquisiti vengono considerati "certificati", ovvero emessi dalla fonte che li produce e ne è responsabile. Una volta acquisito il flusso informativo dalla fonte dati individuata, si procede comunque ad una fase sistematica di controllo e validazione dei dati acquisiti: viene verificata, ad esempio, la corrispondenza del livello di aggiornamento con quello dichiarato dalla fonte, la completezza dell'informazione, in sintesi l'idoneità dei dati a corrispondere all'obiettivo informativo per cui sono raccolti. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Cenni sulla qualità dei dati La Qualità dei Dati è la misura dell'accordo che esiste tra quanto rappresentato in un sistema informativo, e lo stesso dato nel mondo reale. Una Qualità dei Dati del 100% indica che esiste un perfetto allineamento dei dati presenti nel nostro sistema informativo, con quanto presente nel mondo reale. Data la natura di continua evoluzione caratteristica del mondo reale, nessun sistema informativo di una dimensione significativa può avere una Qualità dei Dati del 100%. L'obiettivo da perseguire è quello di avere dei dati sufficientemente aggiornati, accurati e completi in modo che possano essere utilizzati efficacemente. I processi di data quality devono eliminare non solo i semplici errori e le ridondanze. Devono rendere tra loro consistenti set di dati che sono stati creati in tempi diversi, seguendo differenti regole di raccolta o esigenze di business. In passato (e talvolta ancora oggi), gran parte del lavoro di ripulitura dei dati poteva essere fatto "a mano" dagli operatori. Il laborioso processo di ricerca e correzione per eliminare le informazioni scorrette, completare quelle parziali o cancellare quelle duplicate è molto costoso e inoltre comporta l'aggiunta di nuovi errori. Ma per questo esistono oggi dei tools specializzati che usano complessi algoritmi per analizzare, standardizzare, correggere e integrare le informazioni. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Tools di data quality Un valido tool di Data Quality deve essere di supporto in tutte le fasi del complesso processo di bonifica dati, che parte dall'analisi iniziale del problema (analisi dati e processi), procede con la pianificazione e l'implementazione degli interventi di miglioramento e si conclude incorporando le misure di miglioramento nel sistema. In primo luogo il tool di Data Quality deve consentire di effettuare attività di pulizia e integrazione dei dati utilizzando vocabolari, regole sintattiche e di fonetica che sono proprie della lingua italiana. Inoltre deve fornire procedure specializzate che siano di supporto alle seguenti attività: Data profiling: utilizzo di tecnologia analitica applicata ai dati per comprendere contenuto e struttura delle quantità di informazioni elaborate ed applicare funzioni statistiche sui dati; Deduplicazione: individuazione di record simili (record linking); Standardizzazione: associazione ad una serie di valori definiti "somiglianti" di un valore standard determinato. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Tools di data quality Dovrebbe essere consentita anche la customizzazione del tool, ovvero la generazione di regole e criteri personalizzati che si adattino al contesto informativo su cui viene attivato il processo di bonifica dati. Infine le funzionalità di Data Quality devono poter essere integrate nei processi di ETL (Estrazione Trasformazione e Caricamento massivo di dati) e nelle procedure di Data Entry. Allo scopo di valutare i requisiti sopraelencati, il gruppo ha avviato la sperimentazione del tool di Data Quality fornito della SAS, SAS Data Quality Solution, avuto in prova dall'ottobre del 2003. Questa sperimentazione ha avuto buon esito e, a giugno 2004, il CSI ha proceduto alla richiesta di acquisto della licenza di SAS Data Quality, per il suo utilizzo in numerosi progetti aziendali. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Definizione di qualità dei dati Definizione del concetto di “qualità” fornita dallo standard ISO 8402 “Quality Management and Quality Assurance-Vocabulary”: “l’insieme delle caratteristiche di un’entità che conferiscono ad essa la capacità di soddisfare esigenze espresse ed implicite” La “qualità dei dati” può essere definita come segue: “Un insieme di caratteristiche che un data item deve avere affinché effettui i compiti per cui è stato concepito; tali caratteristiche sono specificatamente riferite ai valori ed al formato del data item” Una definizione di data item è: “Dato un modello di dati, un data item è l’elemento a granularità più bassa del modello” Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Proprietà della qualità dei dati In base a queste definizioni si possono evidenziare le seguenti due proprietà: la qualità di un’entità è un concetto soggettivo, soggettivo fortemente dipendente dai requisiti che l’utente dell’entità richiede in maniera implicita o esplicita; la qualità è rapportata ad un insieme di caratteristiche, caratteristiche è dunque un concetto multidimensionale,ovvero determinabile in base a diverse componenti piuttosto che in base ad una singola. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Dimensioni della qualità dei valori Le dimensioni della qualità dei dati sono classificate in tre categorie: schema concettuale, valori e formato: Lo schema concettuale si riferisce all’aspetto “intensionale” dei dati, ovvero a quella componente dei dati che rimane invariata nel tempo. I valori sono invece relativi all’aspetto “estensionale” dei dati, ossia alla parte variabile nel tempo. tempo Il formato è connesso alla modalità di rappresentazione dei dati. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Dimensioni della qualità dei valori Accuratezza sintattica, definita come vicinanza del valore del data item ad un valore nel dominio di definizione sintattico considerato corretto. Ad esempio, un basso grado di accuratezza sintattica corrisponde ad un valore di un data item che è Mrio anziché Mario. Accuratezza semantica, definita come vicinanza del valore del data item ad un valore nel dominio di definizione semantico considerato corretto. Ad esempio, un basso grado di accuratezza semantica corrisponde al caso in cui si abbia Maria anziché Mario. Accuratezza temporale, temporale definita come vicinanza del valore del data item al valore temporalmente corretto. Si consideri, come esempio, il data item indirizzo di residenza; se Mario Rossi deve avere un indirizzo di residenza X alla data Dx e un indirizzo di residenza Y alla data Dy, qualora risulti che alla data Dy ha l’indirizzo X, il dato non è temporalmente corretto. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Dimensioni della qualità dei valori Attualità, Attualità definita come adeguatezza del valore del data item rispetto alle esigenze temporali del contesto di utilizzo. Se, ad esempio, l’orario delle lezioni relativo ai corsi di un’università è aggiornato "tardi" nella informativa destinata agli studenti, rispetto all’inizio dei corsi, il dato ha un livello insufficiente di attualità. Completezza dei valori, valori definita come l’estensione con cui i valori dei data item sono presenti nella base di dati. Un data item possiede un valore oppure è nullo; i valori nulli dovrebbero essere limitati, ed in ogni caso bisogna specificarne il significato. Consistenza Interna, relativa al grado di consistenza di valori di data item nell’ambito della stessa entità. Ad esempio i valori dei data item CAP, Comune, Provincia, devono risultare consistenti nell’ambito dell’entità Persona. Consistenza Esterna, relativa al grado di consistenza di valori di data item nell’ambito di entità diverse. Ad esempio, Mario Rossi è celibe in un’entità relativa al suo stato matrimoniale, mentre Anna Rossi si dichiara moglie dello stesso Mario Rossi, in un’entità di tipo diverso. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Cause di dati errati Le principali cause di dati errati possono essere così riassunte: Inserimento di informazioni errate nel data entry: errata grafia, uso delle maiuscole, abbreviazioni o diverso ordine d'inserimento dei nomi. La dispersione dei dati presso diversi soggetti, secondo logiche quasi sempre funzionali alle esigenze delle singole amministrazioni (ovvero la mancata identificazione della responsabilità del dato e del processo) La disomogeneità dell’informazione (ovvero la mancanza di sistemi di codifica standardizzati a livello sia dell'azienda sia di settore). Database suddivisi in differenti dipartimenti e aziende in cui i dati in ogni struttura sono registrati con regole differenti per ogni database. Utilizzo di informazioni prese da vecchi database che contengono dati obsoleti e scarsamente documentati. L’assenza di procedure ad hoc di gestione della qualità dei dati e/o di procedure di gestione dei dati autonome rispetto alle funzionalità offerte dai sistemi. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Metodologie di miglioramento Basate sui Dati correggere i Dati Confronto dei dati con la realtà che rappresentano costoso, a campione, molto preciso una tantum per orientare l’intervento Confronto dei dati tra due o più archivi (applicazione di tecniche di record matching: record diversi che si riferiscono alla stessa identità del mondo reale) + Facilmente applicabile, costo medio Il matching non garantisce una correttezza massima Confronto dei dati con vincoli o business rules (su un campo, su più campi, considerazioni probabilistiche) + spesso efficace, poco costoso non garantisce per il futuro, riguarda solo la conformità alle regole, non la accuratezza, particolarmente adatti a dati permanenti Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Metodologie di miglioramento Basate sui Processi individuare e correggere le cause di errore Identificare il processo Identificare il Process Owner e Data Stewards (Identificazione delle responsabilità) Descrivere il processo Stabilire un sistema di misura Definire un sistema di monitoraggio e controllo (dei dati e/ del processo) Identificare gli obiettivi di miglioramento Realizzare gli interventi di miglioramento Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Il MINING Esperienze di text e data mining in CSI per gli enti della pubblica amministrazione regionale Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Text mining Il Text Mining, anche conosciuto come Analisi Testuale Intelligente, Text Data Mining o Knowledge Discovery in Text (KDT), è un processo di analisi per estrarre nuova e valida conoscenza dai documenti di testo e per dedurre informazioni da grandi quantità di dati non strutturati, combinandoli con variabili quantitative, esattamente come il Data Mining fa con i dati strutturati.Questa tecnica ha un potenziale decisamente interessante, se si pensa che una larga fetta delle informazioni con cui ci si confronta quotidianamente sono di tipo testuale e possono quindi rappresentare una fonte importante di approfondimento per quanto riguarda la conoscenza delle realtà che si vogliono analizzare.Si parte da un insieme di documenti testuali e si affronta una prima fase di cleaning e riduzione dei dati, avente l’obiettivo di decomporli e rappresentarli attraverso una struttura adatta alle analisi di data mining, tramite la rimozione dei termini di “disturbo”, l’analisi morfologica dei termini e la creazione di tabelle di frequenza. Dopo questa prima fase di analisi linguistica, si passa all’analisi statistica dei dati: i documenti vengono classificati in gruppi omogenei (cluster analysis) e può venir effettuata un’analisi predittiva che, a partire da questi risultati, classifichi nuovi documenti. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Text mining Il Text Mining offre la possibilità di effettuare un filtraggio “intelligente” dei documenti non strutturati, dal momento che, al contrario di quanto avveniva con i primi strumenti di Data Retrieval, nel realizzare l’analisi viene considerato anche il contesto: non si basa cioè sulla presenza di una parola singola bensì sulle relazioni che essa mantiene con le altre per dare un significato univoco all'enunciato. Obiettivi Lo scopo di un'analisi di text mining è approntare un sistema automatico che permetta di: leggere, interpretare, classificare ed integrare i dati provenienti da numerose fonti (Internet, intranet, banche dati, mail, forum, report,…), al fine di scoprire in maniera rapida ed efficace conoscenza utile anche su un numero molto grande di documenti; estrarre conoscenza dal testo: esso viene trasformato in tabelle facilmente interpretabili con sistemi quali-quantitativi; classificare automaticamente i documenti in maniera predittiva: i testi vengono assegnati a distinte aree tematiche sulla base dei parametri di classificazione trovati nelle analisi effettuate durante la prima fase di interpretazione dell'universo dei documenti. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data mining Il Data mining è definito come: il processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l'applicazione di algoritmi che individuano le associazioni "nascoste" tra le informazioni e le rendono visibili. In altre parole, col nome Data mining si intende l'applicazione di una o più tecniche che consentono l'esplorazione di grandi quantità di dati, con l'obiettivo di individuare le informazioni più significative e di renderle disponibili e direttamente utilizzabili nell'ambito del decision making. L'estrazione di conoscenza (informazioni significative) avviene tramite individuazione delle associazioni ("patterns" oppure sequenze ripetute oppure regolarità) nascoste nei dati. In questo contesto un "pattern" indica una struttura, un modello, o, in generale, una rappresentazione sintetica dei dati. Il termine Data mining è utilizzato come sinonimo di knowledge discovery in databases (KDD), anche se sarebbe più preciso parlare di knowledge discovery quando ci si riferisce al processo di estrazione della conoscenza, e di Data mining come di una particolare fase del suddetto processo (la fase di applicazione di uno specifico algoritmo per l'individuazione dei "patterns"). Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Data mining I risultati a cui può giungere l'attività di Data mining sono molteplici: associazioni - due eventi si verificano spesso insieme (ad esempio chi compra uno zaino scolastico tende ad acquistare anche dei quaderni); sequenze - due eventi successivi sembrano legati da una relazione di causa-effetto (chi compra un mouse su Internet, tempo dopo acquista anche un tappetino); classificazioni - il riconoscimento di un ordine in una serie di eventi, con la conseguente riorganizzazione dei dati in proprio possesso; raggruppamenti - la ricerca e la presentazione di gruppi di fatti non precedentemente noti; previsioni - lo studio della probabile evoluzione futura della propria attività in base alle risultanze dei dati raccolti. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Filone Data Mining analisi del rispetto delle linee guida nel trattamento dell’ipertensione segmentazione delle scuole materne del Piemonte modello di previsione del successo della formazione professionale analisi di Web Mining di un sito regionale nell’ambito del progetto Catalogo dei servizi decisionali Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Analisi trattamento ipertensione Analisi modelli prescrittivi piemontesi trattamento farmacologico dell’ipertensione Obiettivo: raggruppare i medici con profili simili nel trattamento farmacologico prescelto (monotrattamento, trattamenti combinati…) nel trattamento dell’ipertensione. Verificare in quale modo le linee guida OMS per il trattamento dell’ipertensione sono rispettate. Periodo di osservazione: • primo semestre 2002 Soggetti: Medici di base generici Fonte: Datawarehouse delle prescrizioni farmaceutiche regionale Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Analisi trattamento ipertensione Flusso delle analisi realizzate con Entreprise Miner Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Analisi trattamento ipertensione Risultati cluster analysis con Mappe di Kohonen Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Analisi trattamento ipertensione Cluster 7 (300 medici) Comportamento: segue linee guida monosomministrazione per pazienti non a rischio, combinazioni esclusive per pazienti a rischio Profilo medio del medico: medico di "campagna" Cluster 3 (150 medici) Comportamento: non segue linee guida, in particolare usa associazioni non consigliate, poco monosomministrazione Profilo medio del medico: pochi anni attività 0-10, medico di "città" Tipo paziente: niente di particolare (età, numero pazienti ipertesi, ipertesi a rischio) Azione di informazione specifica Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Filone Data Mining analisi del rispetto delle linee guide nel trattamento dell’ipertensione segmentazione delle scuole materne del Piemonte modello di previsione del successo della formazione professionale analisi di Web Mining di un sito regionale nell’ambito del progetto Catalogo dei servizi decisionali Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Segmentazione delle scuole materne Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Filone Data Mining analisi del rispetto delle linee guide nel trattamento dell’ipertensione segmentazione delle scuole materne del Piemonte modello di previsione del successo della formazione professionale analisi di Web Mining di un sito regionale nell’ambito del progetto Catalogo dei servizi decisionali Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Follow-up occupazionale corsi FP Esempio di albero decisionale Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Filone Data Mining analisi del rispetto delle linee guide nel trattamento dell’ipertensione segmentazione delle scuole materne del Piemonte modello di previsione del successo della formazione professionale analisi di Web Mining di un sito regionale nell’ambito del progetto Catalogo dei servizi decisionali Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Le analisi statistiche degli accessi al Data Warehouse Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Esempi di datawarehouse realizzati da CSI La versione demografica pubblica (BDDE), pubblica e di libera consultazione, consente l’accesso a quattro moduli tematici della popolazione residente e l’estrazione di qualsiasi dato territoriale dal 1991 in poi (http://www.regione.piemonte.it/stat/bdde/index.htm ); Key Statistics in relazione al Censimento della Popolazione del 2001 la Regione Piemonte ha predisposto uno studio che non solo interpreta le informazioni relative al detto censimento, ma che confronta questi risultati con le precedenti rilevazioni (1981 e 1991), costruendo viste su come è strutturata la popolazione, quali caratteristiche ha e come è cambiata rispetto ai dieci e venti anni precedenti (http://www.regione.piemonte.it/stat/keystat/index.htm ). Osservatorio regionale del commercio è stato istituito dalla legge regionale n. 28 del 12 novembre 1999, con il compito di assicurare un sistema coordinato di monitoraggio sull'entità e sull'efficienza della rete distributiva commerciale anche al fine di valutare gli interventi di programmazione regionale in materia. Sono disponibili servizi di accesso ed analisi dei dati relativi agli esercizi commerciali, forme speciali di vendita e pubblici esercizi, consultabili in modalità web sia in Internet (http://www.regione.piemonte.it/commercio/osservatorio/ ) che nella Intranet regionale. I comuni inviano annualmente i dati all’Osservatorio tramite un questionario web con accesso riservato raggiungibile dai portali Ruparpiemonte e Sistema Piemonte. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Esempi di datawarehouse realizzati da CSI Osservatorio regionale dell'artigianato è stato istituito dalla legge regionale n. 21 del 9 maggio 1997, con il compito di svolgere attività di analisi e di studio delle problematiche strutturali e congiunturali relative al settore artigiano nel contesto del quadro economico regionale, nazionale ed internazionale; contiene informazioni sulle Aziende Artigiane in Piemonte dal 1992 aggiornati all'ultimo trimestre. Sono disponibili servizi di accesso ed analisi in modalità web in Internet (http://www.regione.piemonte.it/artig/dati_inter.htm ). I dati puntuali delle imprese artigiane completi di tutte le informazioni messe a disposizione da AAEP (Anagrafe Attività Economiche e Produttive), sono consultabili sulla Intranet regionale con accesso riservato. Osservatorio turistico regionale nell'ambito del Sistema Informativo della Direzione Turismo Sport e Parchi, sono stati realizzati servizi di accesso ed analisi dei flussi turistici, consultabili in modalità web e disponibili sul portale Sistema Piemonte ( http://www.sistemapiemonte.it/turismo/osservatorio/ ). I dati anagrafici e descrittivi delle strutture ricettive sono consultabili tramite un servizio di accesso presente sulla Intranet regionale con accesso riservato. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Esempi di datawarehouse realizzati da CSI Censimenti dell’Agricoltura in relazione all’ultimo censimento è stato realizzato un Data Warehouse con le informazioni appartenenti agli ultimi 5 censimenti dell’Agricoltura (1961-2000). Sono stati predisposti strumenti di accesso ai dati e di analisi che consentono la navigazione sui dati attraverso il drill down fino al livello comunale e la consultazione di tabelle e di indicatori, fra cui principalmente gli indicatori contenuti in svariati documenti di lavoro dell’Unione europea e di altri organismi internazionali. Il Data Warehouse è in fase di integrazione con le informazioni provenienti dagli altri Censimenti realizzati dall’Istat (Popolazione e Industria), attività finalizzata ad mettere in relazione le diverse realtà fotografate nelle indagini. Gli strumenti di diffusione dei dati via Internet predisposti dalla Regione Piemonte sono accessibili dal seguente sito web: http://www.regione.piemonte.it/agri/ita/agridata/aziendeagricole/warehouse.htm Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Esempi di datawarehouse realizzati da CSI Agricoltura: Zone Vulnerabili da Nitrati il progetto, attraverso il miglioramento della precisione della stima dei carichi agricoli e zootecnici, e l'integrazione con le informazioni idrochimiche, idrobiologiche e pedologiche, prevede la costruzione di un insieme di dati, opportunamente organizzati e sitematizzati (DW), e metodologie definibili come sistema informativo decisionale "Acque e agricoltura" ( http://www.regione.piemonte.it/agri/dirett_nitrati/servizio_zvn.htm ). Osservatorio Regionale Infanzia ed Adolescenza è stato attivato nel 2001 con lo scopo di fornire un idoneo supporto all'Amministrazione Regionale ed alle Amministrazioni Locali nelle funzioni di programmazione, finanziamento e verifica dei servizi ed interventi per l'infanzia l'adolescenza di rispettiva competenza, consentendo un'adeguata lettura dei bisogni dell'infanzia e dei servizi offerti; inoltre fornisce dati volti all'elaborazione della relazione annuale sulle condizioni dell'infanzia e dell'adolescenza ex art.4 L.451/97. E’ disponibile un servizio di accesso ed analisi in modalità Web su internet ( http://www.regione.piemonte.it/polsoc/osservatorio/stat.htm ). Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Esempi di datawarehouse realizzati da CSI Monitoraggio Accordi di Programma Quadro l’obiettivo del progetto è fornire attività di supporto all'utente regionale per l'intero ciclo di attività legate al monitoraggio degli Accordi di Programma Quadro, determinando un processo per la produzione di report di sintesi e di dettaglio per la redazione dei documenti riguardanti l'elenco dei progetti del cronoprogramma di spesa e degli impegni complessivi e fornire strumenti per la diffusione dei risultati alle varie Direzioni coinvolte nelle attività di monitoraggio degli APQ ( http://www.regione.piemonte.it/programmazione/ ). DOCUP il Sistema Informativo “DOCUP 2000/2006” partito nell’anno 2001 con il “Sottosistema Bandi alle Imprese”, prevede l’acquisizione delle domande di finanziamento presentate dalle imprese e il trasferimento di queste a FinPiemonte per la gestione dell’iter procedurale di ammissione al finanziamento ed erogazione del contributo. Dal 2004 è presente il “Sottosistema di Data Warehouse” che costituisce il sistema strategico di supporto alle decisioni della Direzione. L’obiettivo principale del sistema è quello di permettere alla Direzione Industria di avere una visione complessiva sull’andamento dei finanziamenti tramite un’unica gestione relativa a tutte le fasi del processo dei finanziamenti erogati ed una banca dati unica centralizzata che contenga anche le informazioni di inizio e di fine (domanda di finanziamento e erogazione dei contributi) dei finanziamenti alle imprese che, di fatto, sono gestiti in modo autonomo da FinPiemonte ( http://www.sistemapiemonte.it/finanziamenti/docupdw/presentazione.shtml ). Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Esempi di datawarehouse realizzati da CSI Osservatorio Epidemiologico Regionale la Banca Dati Infortuni permette di effettuare analisi personalizzate dando la possibilità di selezionare le variabili da visualizzare, i filtri da imporre sulle variabili di classificazione per mirare l’ambito d’analisi (quale anno vedere, quale attività economica, quale provincia, ecc.) e le statistiche da applicare alle misure (somma, percentuale, media, …). Gli strumenti di diffusione dei dati via Internet predisposti dalla Regione Piemonte sono accessibili attraverso il link BANCA DATI dalla pagina http://www.regione.piemonte.it/sanita/ep/infortun/index.htm. Ulteriori dati di interesse epidemiologico sono contenuti nella BDDE (Banca Dati Demografica Evolutiva): in particolare informazioni storicizzate sulla mortalità per causa e sulle dimissioni ospedaliere. Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali Progettazione Basi Dati decisionali Per ulteriori approfondimenti… [email protected] GRAZIE DELL’ATTENZIONE !!!!!!!!! Direzione Atenei, Cultura, Banche Dati e Sistemi Decisionali