1_Introduzione - Dipartimento di Ingegneria dell`informazione e

annuncio pubblicitario
Capitolo 1: Introduzione
Base di dati
 Insieme organizzato di dati utilizzati per il
supporto allo svolgimento di attività (di un
ente, azienda, ufficio, persona)
 Es.: elenchi telefonici, elenco degli iscritti a
una facoltà universitaria e gli esiti dei loro
esami, elenco dei libri di una biblioteca,
elenco dei reparti e dei pazienti di una
struttura ospedaliera.
Introduzione
2
Orario dei treni di una stazione
Campionato di calcio
Squadra Punti Giocate V
N P
GF GS MG
MI
Inter
36
16 11 3
2 33 16 +17 +3
Milan
36
16 11 3
2 32 10 +22 +2
Lazio
33
16
1 31 15 +16 +1
Chievo
32
16 10 2
4 27 13 +14
-3
Juventus
32
16
9 5
2 28 12 +16
-1
Bologna
27
16
7 6
3 19 13
+6
-7
Udinese
26
16
7 5
4 15 14
+1 -10
Parma
23
16
6 5
5 27 19
+8 -12
Roma
23
16
6 5
5 27 23
+4 -12
Empoli
22
16
6 4
6 24 22
+2 -14
Modena
19
16
6 1
9 12 24
-12 -17
Perugia
19
16
5 4
7 18 23
-5 -16
Brescia
17
16
4 5
7 19 26
-7 -19
Piacenza
13
16
3 4
9 13 24
-11 -25
Atalanta
11
16
2 5
9 15 28
-13 -26
Reggina
10
16
2 4 10 13 32
-19 -29
Torino
9
16
2 3 11
9 30
-21 -29
Como
6
16
0 6 10
9 27
-18 -31
9 6
Partita
Risultato
Data
Ora
Stadio
Parma-Empoli
-
18-01-03
18:00
Ennio Tardini
Reggina-Bologna
-
18-01-03
20:30
Oreste Granillo
Atalanta-Roma
-
19-01-03
15:00
Atleti Azzurri D'Italia
Lazio-Udinese
-
19-01-03
15:00
Olimpico
Milan-Piacenza
-
19-01-03
15:00
Giuseppe Meazza
Modena-Brescia
-
19-01-03
15:00
Alberto Braglia
Perugia-Inter
-
19-01-03
15:00
Renato Curi
Torino-Como
-
19-01-03
15:00
Delle Alpi
Chievo-Juventus
-
19-01-03
20:30
Marc'Antonio Bentegodi
Biblioteca
Introduzione
7
Punti di vista
 Metodologico
 Tecnologico
Introduzione
8
Che cos'è l'informatica?
• Scienza del trattamento razionale,
specialmente per mezzo di macchine
automatiche, dell’informazione,
considerata come supporto alla
conoscenza umana e alla comunicazione
(Accademia di Francia)
Introduzione
9
Sistema azienda
Sistema azienda
Sistema organizzativo
Sistema informativo
Sistema informatico
Introduzione
10
Sistema informativo
 Componente (sottosistema) di una
organizzazione che gestisce (acquisisce,
elabora, conserva, produce) le informazioni
di interesse (cioè utilizzate per il
perseguimento degli scopi
dell’organizzazione )
Introduzione
11



ogni organizzazione ha un sistema informativo,
eventualmente non esplicitato nella struttura;
quasi sempre, il sistema informativo è di
supporto ad altri sottosistemi, e va quindi
studiato nel contesto in cui è inserito
il sistema informativo è di solito suddiviso in
sottosistemi (in modo gerarchico o decentrato),
più o meno fortemente integrati
Introduzione
12
Sistemi informativi e
automazione
 Il concetto di “sistema informativo” è
indipendente da qualsiasi automatizzazione:

esistono organizzazioni la cui ragion d’essere è
la gestione di informazioni (per es. servizi
anagrafici e banche) e che operano da secoli.
Introduzione
13
Sistema Informatico
 Porzione automatizzata del sistema informativo: la
parte del sistema informativo che gestisce
informazioni con tecnologia informatica
 Anche prima di essere automatizzati, molti sistemi
informativi si sono evoluti verso una
razionalizzazione e standardizzazione delle
procedure e dell’organizzazione delle informazioni
Introduzione
14
Gestione delle informazioni
 Raccolta, acquisizione
 Archiviazione, conservazione
 Elaborazione, trasformazione,
produzione
 Distribuzione, comunicazione,
scambio
Introduzione
15
Gestione delle informazioni
 Nelle attività umane, le informazioni vengono
gestite (registrate e scambiate) in forme diverse:




idee informali
linguaggio naturale (scritto o parlato, formale o
colloquiale, in una lingua o in un’altra)
disegni, grafici, schemi
numeri e codici
 e su vari supporti

memoria umana, carta, dispositivi elettronici
Introduzione
16
Gestione delle informazioni
 Nelle attività standardizzate dei sistemi
informativi complessi, sono state introdotte
col tempo forme di organizzazione e codifica
delle informazioni
 Ad esempio, nei servizi anagrafici si è
iniziato con registrazioni discorsive e poi



nome e cognome
estremi anagrafici
codice fiscale
Introduzione
17
Informazioni e dati
 Nei sistemi informatici (e non solo), le informazioni
vengono rappresentate in modo essenziale,
spartano: attraverso i dati
 Dal Vocabolario della lingua italiana (1987)
informazione: notizia, dato o elemento che consente di
avere conoscenza più o meno esatta di fatti, situazioni,
modi di essere.
dato: ciò che è immediatamente presente alla conoscenza,
prima di ogni elaborazione; (in informatica) elementi di
informazione costituiti da simboli che debbono essere
elaborati.
Introduzione
18
Dati e informazioni
 I dati hanno bisogno di essere interpretati
Esempio
‘Mario’ ’234275’ su un foglio di carta sono
due dati.
Se il foglio di carta viene fornito in risposta alla
domanda “A chi mi devo rivolgere per il problema
X; qual è il suo numero di telefono?”, allora i dati
possono essere interpretati per fornire informazioni
Introduzione
19
Perché i dati?
 La rappresentazione precisa di forme più
ricche di informazione e conoscenza è
difficile
 I dati costituiscono spesso una risorsa
strategica, perché più stabili nel tempo di
altre componenti (processi, tecnologie, ruoli
umani):

ad esempio, i dati delle banche o delle anagrafi
Introduzione
20
Base di dati
 Accezione generica, metodologica: insieme
organizzato di dati utilizzati per il supporto
allo svolgimento delle attività di un ente
(azienda, ufficio, persona)
 Accezione specifica,, metodologica e
tecnologica:) insieme di dati gestito da un
DBMS.
Introduzione
21
Sistema di gestione di basi di dati
DataBase Management System (DBMS)
 Sistema che gestisce collezioni di dati:



grandi
persistenti
condivise
garantendo




privatezza
affidabilità
efficienza
efficacia
Introduzione
22
DBMS
 Prodotti software (complessi) disponibili sul
mercato; esempi:







Access
DB2
Oracle
Informix
Sybase
SQLServer
MySQL
Introduzione
23
Le basi di dati sono ... grandi
 dimensioni (molto) maggiori della memoria
centrale (RAM) dei sistemi di calcolo
utilizzati (fino a milioni di Gigabyte)
 sono memorizzate in memoria secondaria
(hard disk)
 il limite deve essere solo quello fisico dei
dispositivi
Introduzione
24
Le basi di dati sono ...
persistenti
 hanno un tempo di vita indipendente dalle
singole esecuzioni dei programmi che le
utilizzano
Introduzione
25
Le basi di dati sono ...
condivise
 Ogni organizzazione (specie se grande) è
divisa in settori o comunque svolge diverse
attività
 Ciascun settore/attività ha un (sotto)sistema
informativo (non necessariamente disgiunto)
Introduzione
26
Introduzione
27
Introduzione
28
Problemi
 Ridondanza:

informazioni ripetute
 Rischio di incoerenza:

le versioni possono non coincidere in seguito ad
aggiornamenti
Introduzione
29
Archivi e basi di dati
Gestione
orario lezioni
Archivio 1:
orario lezioni
Gestione
ricevimento
Archivio 2:
ricevimento
Introduzione
30
Archivi e basi di dati
Gestione
orario lezioni
Base di dati
Gestione
ricevimento
Introduzione
31
Le basi di dati sono condivise
 Una base di dati e' una risorsa integrata,
condivisa fra applicazioni
 conseguenze

Attivita' diverse su dati condivisi:


meccanismi di autorizzazione
Accessi di più utenti ai dati condivisi:

controllo della concorrenza
Introduzione
32
I DBMS garantiscono ...
privatezza
 Si possono definire meccanismi di
autorizzazione


l'utente A è autorizzato a leggere tutti i dati e a
modificare quelli sul ricevimento
l'utente B è autorizzato a leggere i X e a
modificare Y
Introduzione
33
I DBMS garantiscono...
affidabilità
 Affidabilità (per le basi di dati):

resistenza a malfunzionamenti hardware e
software
 Una base di dati è una risorsa pregiata e
quindi deve essere conservata a lungo
termine
 Tecnica fondamentale:

gestione delle transazioni
Introduzione
34
Transazione
 Programmi che realizzano attività frequenti e
predefinite, con poche eccezioni, previste a priori.
 Esempi:




versamento presso uno presso sportello bancario
emissione di certificato anagrafico
dichiarazione presso l’ufficio di stato civile
prenotazione aerea
 Insieme di operazioni da considerare indivisibile
("atomico"), corretto anche in presenza di
concorrenza e con effetti definitivi
Introduzione
35
Le transazioni sono …
atomiche
 La sequenza di operazioni sulla base di dati
viene eseguita per intero o per niente:

trasferimento di fondi da un conto A ad un conto
B: o si fanno il prelevamento da A e il
versamento su B o nessuno dei due
Introduzione
36
Le transazioni sono …
concorrenti
 L'effetto di transazioni concorrenti deve essere
coerente
 risultato dell’esecuzione concorrente di più
transazioni deve essere lo stesso che le transazioni
darebbero se fossero eseguite sequenzialente.

se due assegni emessi sullo stesso conto corrente
vengono incassati contemporaneamente si deve evitare di
trascurarne uno
Introduzione
37
I risultati delle transazioni sono
permanenti
 La conclusione positiva di una transazione
corrisponde ad un impegno (in inglese
commit) a mantenere traccia del risultato in
modo definitivo, anche in presenza di guasti
e di esecuzione concorrente
Introduzione
38
I DBMS debbono
essere...efficienti
 Cercano di utilizzando al meglio le risorse di
spazio di memoria (principale e secondaria) e
tempo (di esecuzione e di risposta)
 I DBMS, con tante funzioni, rischiano
l'inefficienza e per questo ci sono grandi
investimenti e competizione
 L’efficienza è anche il risultato della qualità
delle applicazioni
Introduzione
39
I DBMS debbono
essere...efficaci
 Cercano di rendere produttive le attività dei
loro utilizzatori, offrendo funzionalità
articolate, potenti e flessibili:

il corso è in buona parte dedicato ad illustrare
come i DBMS perseguono l'efficacia
Introduzione
40
DBMS vs file system
 La gestione di insiemi di dati grandi e persistenti è
possibile anche attraverso sistemi più semplici —
gli ordinari file system dei sistemi operativi
 I file system prevedono forme rudimentali di
condivisione: "tutto o niente"
 I DBMS estendono le funzionalità dei file system,
fornendo più servizi ed in maniera integrata
Introduzione
41
Descrizione dei dati nei DBMS
 Descrizioni e rappresentazioni dei dati a
livelli diversi

permettono l’indipendenza dei dati dalla
rappresentazione fisica:
- i programmi fanno riferimento alla struttura
a livello più alto,
- le rappresentazioni sottostanti possono
essere modificate senza necessità di modifica
dei programmi
Introduzione
42
Modello dei dati
 insieme di costrutti utilizzati per organizzare i dati di
interesse e descriverne la dinamica
 componente fondamentale: meccanismi di
strutturazione (o costruttori di tipo)
 come nei linguaggi di programmazione esistono
meccanismi che permettono di definire nuovi tipi, così
ogni modello dei dati prevede alcuni costruttori
 Il modello relazionale prevede il costruttore
relazione, che permette di organizzare i dati come
insiemi record omogenei a struttura fissa.
Introduzione
43
Basi di dati: schema e istanza
Orario
Lo schema della base di dati
Insegnamento
Docente
Aula
Ora
Analisi matem. I
Luigi Neri
N1
8:00
Basi di dati
Piero Rossi
N2
9:45
Chimica
Nicola Mori
N1
9:45
Fisica I
Mario Bruni
N1
11:45
Fisica II
Mario Bruni
N3
9:45
Sistemi inform. Piero Rossi N3
L'istanza dellaIntroduzione
base di dati
8:00
45
Schemi e istanze
 In ogni base di dati esistono:

lo schema, sostanzialmente invariante nel tempo,
che ne descrive la struttura (aspetto intensionale)


nell’esempio, le intestazioni delle tabelle
l’istanza, i valori attuali, che possono cambiare
anche molto rapidamente (aspetto estensionale)

nell’esempio, il “corpo” di ciascuna tabella.
Introduzione
46
Due tipi (principali) di modelli
 modelli logici: utilizzati nei DBMS esistenti per
l’organizzazione dei dati
 utilizzati dai programmi
 indipendenti dalle strutture fisiche
esempi: relazionale, reticolare, gerarchico, a oggetti.
 modelli concettuali: permettono di rappresentare i dati in
modo indipendente da ogni sistema e da ogni modello logico
 cercano di descrivere i concetti del mondo reale
 sono utilizzati nelle fasi preliminari di progettazione di
basi di dati
il più noto è il modello Entity-Relationship
Introduzione
47
Architettura DBMS Ansi-Sparc
Introduzione
48
Livelli di astrazione
schema logico: descrizione dell’intera base di dati
nel modello logico adottato dal DBMS (ad esempio,
la struttura delle tabelle)
schema fisico: rappresentazione dello schema logico
per mezzo di strutture fisiche di memorizzazione
(es. files)
schema esterno: descrizione di parte della base di
dati in un modello logico (“viste” parziali, derivate,
anche ev. in modelli diversi)
Introduzione
49
Una vista
Corsi
Docente Aula
Corso
Basi di dati Rossi DS3
Neri
N3
Sistemi
Bruni
N3
Reti
Bruni
G
Controlli
CorsiSedi
Corso
Sistemi
Reti
Controlli
Aule
Nome
DS1
N3
G
Aula
N3
N3
G
Edificio
OMI
OMI
Piano
Terra
Terra
Pincherle Primo
Edificio
OMI
OMI
Piano
Terra
Terra
Pincherle Primo
Indipendenza dei dati
 conseguenza della articolazione in livelli
 è la principale proprietà dei DBMS
 due forme:


indipendenza fisica
indipendenza logica
Introduzione
51
Indipendenza fisica
 il livello logico è indipendente da quello
fisico


una relazione è utilizzata nello stesso modo
qualunque sia la sua realizzazione fisica
la realizzazione fisica può cambiare senza che
debbano essere modificati i programmi che
utilizzano la base di dati
Introduzione
52
Indipendenza logica
 il livello esterno è indipendente da quello
logico
 aggiunte o modifiche alle viste non
richiedono modifiche al livello logico
 modifiche allo schema logico che lascino
inalterato lo schema esterno sono trasparenti
Introduzione
53
Linguaggi per basi di dati
 Un altro contributo all’efficacia: disponibilità di vari
linguaggi e interfacce diverse che permettono l'accesso
ai dati con varie modalità:
 linguaggi testuali interattivi (SQL)
 tramite comandi (come quelli del linguaggio interattivo)
immersi in linguaggi di programmazione tradizionale
(linguaggio ospite, es. Pascal, C, Cobol, etc.)
 tramite comandi (come quelli del linguaggio interattivo)
immersi in un linguaggio ad hoc, con anche altre funzionalità
(p.es. per grafici o stampe strutturate), anche con l’ausilio di
strumenti di sviluppo (p. es. per la gestione di maschere)
 con interfacce amichevoli che permettono di realizzare le
Introduzione
54
operazioni sulla base dati
senza usare un linguaggio testuale
SQL, un linguaggio interattivo
 "Trovare i corsi tenuti in aule a piano terra"
Corsi
Corso Docente Aula
Basi di dati Rossi DS3
Neri
N3
Sistemi
Reti
Bruni
N3
Controlli
Bruni
G
Aule
Nome
DS1
N3
G
Introduzione
Edificio
OMI
OMI
Pincherle
Piano
Terra
Terra
Primo
55
SQL, un linguaggio interattivo
SELECT Corso, Aula, Piano
FROM Aule, Corsi
WHERE Nome = Aula
AND Piano="Terra"
Corso
Sistemi
Reti
Aula Piano
N3
N3
Introduzione
Terra
Terra
56
SQL immerso in linguaggio ad alto
livello
write('nome della citta''?'); readln(citta);
EXEC SQL DECLARE P CURSOR FOR
SELECT NOME, REDDITO
FROM PERSONE
WHERE CITTA = :citta ;
EXEC SQL OPEN P ;
EXEC SQL FETCH P INTO :nome, :reddito ;
while SQLCODE = 0 do begin
write('nome della persona:', nome, 'aumento?');
readln(aumento);
EXEC SQL UPDATE PERSONE SET REDDITO = REDDITO + :aumento
WHERE CURRENT OF P
EXEC SQL FETCH P INTO :nome, :reddito
end;
EXEC SQL CLOSE CURSOR P Introduzione
57
SQL immerso in linguaggio ad hoc
(Oracle PL/SQL)
declare Stip number;
begin
select Stipendio into Stip
from Impiegato
where Matricola = '575488'
for update of Stipendio;
if Stip > 30 then
update Impiegato set Stipendio = Stipendio * 1.1 where Matricola = '575488';
else
update Impiegato set Stipendio = Stipendio * 1.15 where Matricola = '575488';
end if;
commit;
exception
when no_data_found then
insert into Errori
values('Non esiste la matricola specificata',sysdate);
end;
Introduzione
58
Interazione non testuale (in Access)
Una distinzione terminologica
(separazione fra dati e programmi)
data manipulation language (DML), linguaggi per
la manipolazione di dati:
per l’interrogazione e l’aggiornamento di (istanze
di) basi di dati
data definition language (DDL), linguaggi per la
definizione di dati:
per la definizione di schemi (logici, esterni, fisici) e
altre operazioni generali (es. autorizzazioni)
Introduzione
60
Personaggi e interpreti
 Database administrator (DBA):
Persona o gruppo di persone
responsabile del controllo
centralizzato e della gestione
del sistema, delle prestazioni,
dell’affidabilità, delle
autorizzazioni
 Le funzioni del DBA includono
quelle di progettazione, anche
se in progetti complessi ci
possono essere distinzioni
Introduzione
61
Introduzione
62
Personaggi e interpreti (2)
 progettisti della base di dati:


raccolgono dati in base alle esigenze del committente e
degli utenti;
li organizzano in strutture adeguate per rappresentarli
correttamente e memorizzarli.
 progettisti e realizzatori di DBMS: implementano
la base di dati
 progettisti e programmatori di applicazioni che
operano su sulla base di dati
Introduzione
63
Personaggi e interpreti (3)
 utenti



utenti finali (terminalisti): eseguono applicazioni
predefinite e frequenti (transazioni)
utenti casuali: eseguono operazioni non previste
a priori, usando linguaggi interattivi
(interrogazioni, aggiornamenti)
utenti indipendenti.
Introduzione
64
Vantaggi e svantaggi dei
DBMS
Pro
 permettono di trattare i dati come risorsa comune,
base di dati come modello della realtà
 gestione centralizzata dei dati con possibilità di
standardizzazione
 disponibilità di servizi integrati
 la condivisione dei dati evita ridondanze e
inconsistenze
 indipendenza dei dati (favorisce lo sviluppo e la
manutenzione) delle applicazioni)
Introduzione
65
Contro
 i prodotti sono costosi e complessi, e diversi
da molti altri strumenti informatici; la loro
introduzione comporta investimenti:


Acquisto prodotto
Acquisto risorse hardware e software necessarie
 non scorporabilità delle funzionalità (con
riduzione di efficienza)
Introduzione
66
Evoluzione delle basi di dati
 Basi dati multimediali (per memorizzare immagini,
video, suoni)
 Sistemi di informazione geografica (GIS, geographic
information sistems), per memorizzare e analizzare
carte geografiche, dati metereologici e immagini da
satellite
 Data Warehouse, possono memorizzare dati storici
integrati e consistenti relativi al personale delle aziende
 Sistemi OLAP (on line analytical processing), usati
dalle aziende per estrarre e analizzare informazioni utili
(es. cifre di vendita, marketing o produzione) da basi
dati molto ampie
Introduzione
67
Basi di Dati Multimediali
 Nuove applicazioni richiedono la
rappresentazione e la gestione di dati non
tradizionali:





testi arbitrari
immagini
audio
video
dati tradizionali (relazionali, orientati ad oggetti)
Introduzione
68
 Un sistema di gestione dati multimediali (MMDBMS)
permette la rappresentazione e la gestione di diversi tipi di
dati, potenzialmente rappresentati secondo diversi formati
 Un MMDBMS deve permettere di:




rappresentare dati corrispondenti a diverse tipologie di media
interrogare dati rappresentati in formati diversi in modo uniforme
interrogare dati in formati diversi simultaneamente nel contesto della
stessa query
recuperare gli oggetti dal supporto su cui risiedono, compatibilmente
con il tipo di media che rappresentano
Introduzione
69
 Rappresentazione
 i dati sono tipicamente non strutturati
 si vuole analizzare il contenuto
 come è possibile rappresentare il contenuto di un documento
multimediale?
 Come si fa a capire che un’immagine contiene una certa persona
 Query
 un linguaggio di query per MMDBMS deve avere caratteristiche
particolari
 query processing deve analizzare il contenuto degli oggetti
Introduzione
70
Esempio
Attributi descrittivi
nome: Villa Medici
località:Roma
Features:
forma:
71
Introduzione
71
Sistemi Informatici Geografici
Un sistema informativo
territoriale (SIT;
in inglese Geographic Information
System, abbreviato in GIS) è
un sistema informativo
computerizzato che permette
l'acquisizione, la registrazione, l'analisi,
la visualizzazione e la restituzione
di informazioni derivanti da
dati geografici
Introduzione
72
 Il GIS è differente dal DBMS, in quanto si occupa essenzialmente
dell'elaborazione e manipolazione dei dati georeferenziati
 Per la rappresentazione dei dati in un sistema informatico occorre
formalizzare un modello rappresentativo flessibile che si adatti ai
fenomeni reali. Nel GIS abbiamo tre tipologie di informazioni:



Geometriche: relative alla rappresentazione cartografica degli oggetti
rappresentati; quali la forma (punto, linea, poligono), la dimensione e la
posizione geografica;
Topologiche: riferite alle relazioni reciproche tra gli oggetti (connessione,
adiacenza, inclusione ecc…);
Informative: riguardanti i dati (numerici, testuali ecc…) associati ad ogni
oggetto.
Introduzione
73
 Il GIS prevede la gestione di queste informazioni in
un database relazionale.
 L'aspetto che caratterizza il GIS è quello
geometrico: esso memorizza la posizione del dato
impiegando un sistema di proiezione reale che
definisce la posizione geografica dell'oggetto. Il
GIS gestisce contemporaneamente i dati provenienti
da diversi sistemi di proiezione e riferimento
Introduzione
74
Data Warehouse
 Un Data warehouse è un archivio informatico
contenente i dati di un'organizzazione. I DW sono
progettati per consentire di produrre facilmente
relazioni ed analisi.
Introduzione
75
 Il data warehouse, quindi, descrive il processo di
acquisizione, trasformazione e distribuzione di
informazioni presenti all'interno o all'esterno delle
aziende come supporto ai processi decisionali.
 Esso si differenzia in modo sostanziale dai normali
sistemi gestionali che, al contrario, hanno il
compito di automatizzare le operazioni di routine.
Introduzione
76
Strumenti di businness
intelligence


OLAP, designa un insieme di tecniche software
per l'analisi interattiva e veloce di grandi quantità
di dati, che è possibile esaminare in modalità
piuttosto complesse. Ad esempio, serve alle
aziende per analizzare i risultati delle vendite,
l'andamento dei costi di acquisto merci, al
marketing per misurare il successo di una
campagna pubblicitaria, ad una università i dati
di un sondaggio ed altri casi simili. Gli strumenti
OLAP hanno come obiettivo la performance
nella ricerca e il raggiungimento di un'ampiezza
di interrogazione quanto più grande possibile.
Non utilizzano interfacce relazionali ma
interfacce multidimensionali
Visulaizzano i dati da diversi punti di vista
77
 La creazione di un database OLAP consiste nell'effettuare
una fotografia di informazioni in un determinato momento e
trasformare queste singole informazioni in dati
multidimensionali.
 Eseguendo successivamente delle interrogazioni sui dati così
strutturati è possibile ottenere risposte in tempi decisamente
ridotti rispetto alle stesse operazioni effettuate su altre
tipologie di database.
 Una struttura OLAP creata per questo scopo è chiamata
"cubo" multidimensionale
Introduzione
78
Data Mining
 Il data mining ha per oggetto l'estrazione di di una conoscenza a
partire da grandi quantità di dati (attraverso metodi automatici) e
l'utilizzazione industriale o operativa di questo sapere.
 In sostanze è l’"analisi matematica eseguita su database di
grandi dimensioni".
 Il data mining ha una duplice valenza:


Estrazione, con tecniche analitiche all'avanguardia, di informazione
implicita, nascosta, da dati già strutturati, per renderla disponibile e
direttamente utilizzabile;
Esplorazione ed analisi, eseguita in modo automatico o semiautomatico,
su grandi quantità di dati allo scopo di scoprire pattern (schemi)
significativi.
Introduzione
79
Questo tipo di attività è cruciale in
molti ambiti della ricerca
scientifica, ma anche in altri settori
(per esempio in quello delle ricerche
di mercato). Nel mondo
professionale è utilizzata per
risolvere problematiche diverse tra
loro, che vanno dalla gestione delle
relazioni con i client,
all'individuazione di comportamenti
fraudolenti per finire
all'ottimizzazione di siti web.
Introduzione
80
Scarica