Basi di Dati e Sistemi Informativi Analisi dei Dati: OLAP, Data Warehousing, Data Mining Giuseppe Loseto Corso di Laurea in Ing. Informatica – Ing. Gestionale Magistrale 1 of 12 Analisi dei Dati Introduzione • La maggior parte delle aziende dispone di enormi basi di dati contenenti dati di tipo operativo • potenziale miniera di informazioni utili • Sistemi per il supporto alle decisioni permettono di • analizzare lo stato dell’azienda • prendere decisioni rapide e migliori Basi di Dati e Sistemi Informativi Analisi dei dati 2 of 12 Elaborazione Dati Modalità tradizionale di uso dei DBMS • • • • • • • istantanea del valore corrente dei dati dati dettagliati, rappresentazione relazionale operazioni strutturate e ripetitive accesso in lettura o aggiornamento di pochi record transazioni brevi isolamento, affidabilità e integrità sono critici dimensione della base di dati » 100MB-GB Basi di Dati e Sistemi Informativi Analisi dei dati 3 of 12 Analisi dei Dati Elaborazione dei dati per il supporto alle decisioni dati di tipo “storico” dati consolidati e integrati applicazioni ad hoc accesso in lettura a milioni di record interrogazioni di tipo complesso consistenza dei dati prima e dopo le operazioni di caricamento periodico • dimensione della base di dati » 100GB-TB • • • • • • Basi di Dati e Sistemi Informativi Analisi dei dati 4 of 12 Dall’OLTP all’OLAP La tecnologia delle basi di dati è finalizzata prevalentemente alla gestione dei dati in linea, si parla di OnLine Transaction Processing (OLTP) I dati disponibili possono essere utilizzati anche nella pianificazione Un’analisi dei dati passati e presenti può essere utile per la programmazione delle attività future dell’impresa Si parla in questo caso di On Line Analytical Processing (OLAP) Basi di Dati e Sistemi Informativi Analisi dei dati Dall’OLTP all’OLAP Data warehouse (magazzino dei dati), in cui sono contenuti dati che, opportunamente analizzati possono fornire un supporto alle decisioni I sistemi OLTP forniscono i dati per l’ambiente OLAP, sono cioè una sorgente di dati (data source) per tale ambiente Tra i due sistemi cambia la tipologia di utente: terminalisti (OLTP) analisti (OLAP) Basi di Dati e Sistemi Informativi Analisi dei dati 6 of 12 Sistemi OLTP e OLAP OLTP OLAP terminalisti A 1 A 2 DBMS analisti A DB Terminalisti: utenti finali. Possono eseguire operazioni di lettura e di scrittura Basi di Dati e Sistemi Informativi A 2 A DWMS DW A 1 n n Analisti: occupano posizioni di alto livello nell’impresa e svolgono attività di supporto alle decisioni. Analisi dei dati OLTP vs OLAP OLTP OLAP Gestione dei dati Analisi dei dati Operazioni Set ben definito Operazioni non previste nella progettazione del DB (sistemi di supporto alle decisioni) Dati Limitata quantità di dati coinvolti, bassa complessità Grosse moli di dati Sorgenti Dati DB singolo DB eterogenei e distribuiti Variabilità Continuo aggiornamento dei dati, stato del sistema in tempo reale Dati storici aggiornati ad intervalli regolari Proprietà ACID Rispettate Non rilevanti, operazioni di sola lettura Finalità Basi di Dati e Sistemi Informativi Analisi dei dati Caratteristiche dei Data warehouse Utilizzano dati provenienti da più DB eterogenei I meccanismi di importazione sono di tipo asincrono e periodico Non vengono penalizzate le prestazioni delle data source La warehouse non contiene dati perfettamente allineati con il flusso di transazioni negli OLTP Problema legato alla qualità dei dati: la semplice raccolta di dati può non essere sufficiente per una corretta analisi Il DW ha una esistenza autonoma Basi di Dati e Sistemi Informativi Analisi dei dati Architettura di un DataWarehouse (1/6) Export dei dati operano nella DW Data mining DW Accesso ai Dati Analisi Allineamento dei Dati (refresh) Acquisizione dei Dati operano nelle data source Alimentazione Export Data Filter Data Source Basi di Dati e Sistemi Informativi Analisi dei dati 10 di 36 Architettura di un DataWarehouse (2/6) Data Source Possono essere di qualsiasi tipo, anche raccolte di dati non gestite tramite DBMS oppure gestite da DBMS di vecchia generazione (legacy system). Controlla la correttezza dei dati prima dell’inserimento nella warehouse. Data Filter Può eliminare dati scorretti e rilevare o correggere eventuali inconsistenze tra dati provenienti da più data source. Viene fatta la pulizia dei dati (data cleaning) necessaria ad assicurare un buon livello di qualità. Export Basi di Dati e Sistemi Informativi L’esportazione dei dati avviene in maniera incrementale: il sistema colleziona solo le modifiche (inserzioni o cancellazioni) delle data source. Analisi dei dati 11 di 36 Architettura di un DataWarehouse (3/6) Acquisizione dei Dati (loader) E’ responsabile del caricamento iniziale dei dati nella DW Predispone i dati all’uso operativo, svolge operazioni di ordinamento, aggregazione e costruisce le strutture dati della warehouse Le operazioni di acquisizione vengono svolte a lotti (in batch), quando la DW non è utilizzata In applicazioni con pochi dati il modulo è invocato periodicamente per acquisire tutto il contenuto della DW In genere, invece, i dati vengono allineati in modo incrementale, utilizzando il modulo di allineamento dei dati Basi di Dati e Sistemi Informativi Analisi dei dati Architettura di un DataWarehouse (4/6) Allineamento dei Dati (refresh) Propaga incrementalmente le modifiche della data source in modo da aggiornare il contenuto della DW L’aggiornamento può essere effettuato tramite: invio dei dati (data shipping) inseriti dei trigger che registrano cancellazioni, inserimenti e modifiche (coppie inserimentocancellazione) invio delle transazioni (transaction shipping) viene usato il log delle transazioni Basi di Dati e Sistemi Informativi Analisi dei dati Archivi Variazionali Architettura di un DataWarehouse (5/6) Accesso ai Dati E’ il modulo che si occupa dell’analisi dei dati Realizza in maniera efficiente interrogazioni complesse, caratterizzate da join tra tabelle, ordinamenti e aggregazioni complesse Consente nuove operazioni sui dati: roll up - drill down - data cube Data mining Tecniche algoritmiche che consentono di fare deduzioni sui dati Consente di svolgere ricerche sofisticate sui dati e di esplicitare relazioni “nascoste” tra i dati Basi di Dati e Sistemi Informativi Analisi dei dati Architettura di un DataWarehouse (6/6) Export dei dati Consente l’esportazione dei dati da una DW ad un’altra (architettura gerarchica) Moduli di ausilio alla progettazione e gestione di una DW: un componente per l’assistenza allo sviluppo della DW, che permette di facilitare le definizione dello schema dei dati e i meccanismi per l’importazione dei dati un dizionario dei dati, che descrive il contenuto della DW, utile per comprendere quali analisi dei dati possono essere eseguite (glossario) Basi di Dati e Sistemi Informativi Analisi dei dati Schema di un DataWarehouse Nel costruire una DW aziendale ci si concentra su sottoinsiemi molto semplici dei dati aziendali che si vogliono analizzare (dati dipartimentali) Ogni schema semplificato dei dati dipartimentali prende il nome di data mart L’organizzazione dei dati di un data mart avviene secondo uno schema multidimensionale Fatto – concetto del sistema informativo su cui svolgere analisi Misura – proprietà di un fatto Dimensione – prospettiva lungo la quale viene fatta l’analisi Basi di Dati e Sistemi Informativi Analisi dei dati Realizzazione di un DW Relational OLAP (ROLAP) Tabelle ed SQL Grandi aziende Multidimensional OLAP (MOLAP) Dati memorizzati direttamente in forma multidimensionale Piccole Aziende Basi di Dati e Sistemi Informativi Analisi dei dati 17 of 12 Rappresentazione relazionale di un DW - Schema a stella Diverse unità poste a raggiera intorno ai fatti rappresentano le dimensioni dell’analisi prodotto Unità centrale rappresenta i fatti (0,N) (1,1) (0,N) supermercato (1,1) (1,1) Vendita (1,1) (0,N) tempo Basi di Dati e Sistemi Informativi Analisi dei dati (0,N) promozione Schema a stella: caratteristiche Varie relazioni uno a molti collegano ciascuna occorrenza di fatto con una ed una sola occorrenza di ciascuna delle dimensioni Il fatto ha una chiave composta da attributi chiave delle dimensioni La struttura è regolare e indipendente dal problema considerato Occorrono almeno due dimensioni altrimenti il problema degenera in una semplice gerarchia uno-molti Un numero elevato di dimensioni è sconsigliato perché la gestione dei fatti e l’analisi si complicano Basi di Dati e Sistemi Informativi Analisi dei dati Schema a stella Prodotto: CodProd Ciascuna occorrenza di vendita ha per identificatore i quattro codici: CodProd CodMarket CodPromo CodTempo Gli attributi non chiave sono Amm e Qta. •Nome •Categoria •Marca •Peso •Fornitore (0,N) •Nome •Città •Regione •Zona •Dimensioni •Disposizione (0,N) (1,1) Vendita •Amm •Qta (1,1) (0,N) Tempo: CodTempo Basi di Dati e Sistemi Informativi Promozione: CodPromo (1,1) Supermercato: CodMarket •GiornoSett •GiornoMese •GiornoAnno •SettimanaMese •SettimanaAnno Analisi dei dati •MeseAnno… (1,1) (0,N) •Nome •Tipo •Percentuale •FlagCoupon •DataInizio •DataFine •Costo •Agenzia Ogni occorrenza di vendita è un dato aggregato Schema a stella Nella dimensione del tempo sono presenti dati derivati e ridondanze Le ridondanze servono per facilitare le operazioni di analisi dei dati I fatti sono in forma normale di Boyce-Codd in quanto ogni attributo non chiave dipende funzionalmente dalla sua unica chiave Le dimensioni sono in genere relazioni non normalizzate, si evitano operazioni di join Basi di Dati e Sistemi Informativi Analisi dei dati Schema a fiocco di neve Normalizzazione di (0,N) Fornitore (1,1) Prodotto uno schema a stella (1,1) (0,N) Categoria (0,N) (1,1) (0,N) Supermercato (1,1) (1,1) (0,N) (0,N) Città (1,1) (0,N) Regione (1,1) (0,N) Basi di Dati e Sistemi Informativi (1,1) Vendita Zona (0,N) Promozione Giorno (1,1) (0,N) Mese (1,1) (0,N) Analisi dei dati Anno Tale schema rappresenta in modo esplicito le gerarchie, riducendo così le ridondanze e le anomalie Rappresentazione Multidimensionale (Cube) I„ fatti di interesse sono rappresentati in cubi in cui: • ogni cella contiene misure numeriche che quantificano il fatto da diversi punti di vista; • ogni asse rappresenta una dimensione di interesse per l’analisi; • ogni dimensione può essere la radice di una gerarchia di attributi usati per aggregare i dati memorizzati nei cubi base. Basi di Dati e Sistemi Informativi Analisi dei dati 23 of 12 Rappresentazione Multidimensionale (Cube) Tablet Quantità Fotocamera Di fotocamere vendute Smartphone In toscana ad aprile Televisore Basi di Dati e Sistemi Informativi Analisi dei dati Analisi dei dati: operazioni Interfaccia standard di formulazione delle query Roll up - aggregazione dei dati Drill down - disaggregazione di dati Slice-and-dice - selezione di un sottoinsieme di celle L’analisi dei dati di un data mart organizzato richiede l’estrazione di un sottoinsieme dei fatti e delle dimensioni Le dimensioni vengono usate per selezionare i dati e per raggrupparli I fatti vengono tipicamente aggregati È possibile costruire moduli predefiniti per estrarre i dati in cui si offrono scelte predefinite (selezioni, aggregazioni,valutazioni di funzioni aggregate) Basi di Dati e Sistemi Informativi Analisi dei dati Interfaccia Standard di formulazione delle Query Promozione.Nome Prodotto.Nome Tempo.Mese 3x2 Coupon 15% SuperSaver Vino Pasta Olio Gen … Dic SuperSaver Pasta … Olio Feb … Apr Prodotto.Nome Tempo.Mese Amm Schema Opzioni Attributi delle dimensioni: •Promozione Condizioni sum sum •Tempo Analisi dei dati Vista Attributi dei Fatti: • Aggregati (SUM) •Prodotto Basi di Dati e Sistemi Informativi Qta Interfaccia Standard di formulazione delle Query Promozione.Nome Prodotto.Nome Tempo.Mese 3x2 Coupon 15% SuperSaver Vino Pasta Olio Gen … Dic SuperSaver Pasta … Olio Feb … Apr Prodotto.Nome Tempo.Mese Qta Amm Schema Opzioni Condizioni sum sum Vista select Tempo.Mese, Prodotto.Nome, sum(Amm), sum(Qta) from Vendite, Tempo, Prodotto where Vendite.CodTempo = Tempo.CodTempo and Vendite.CodProdotto = Prodotto.CodProdotto and (Prodotto.Nome = ‘Pasta’ or Prodotto.Nome = ‘Olio’) and Tempo.Mese between ‘Feb’ and ‘Apr’ and Promozione.Nome = ‘SuperSaver’ group by Tempo.Mese, Prodotto.Nome order by Tempo.Mese, Prodotto.Nome Basi di Dati e Sistemi Informativi Tempo.mese Analisi dei dati Prodotto.nome sum(Amm) sum(Qta) Drill-down e Roll-up Il drill down permette di aggiungere una dimensione di analisi disaggregando i dati Il roll up dualmente consente di eliminare una dimensione di analisi aggreagando i dati L’operazione di roll up può essere fatta agendo sui risultati dell’interrogazione L’operazione di drill down richiede la riformulazione dell’interrogazione (servono dati non presenti nell’interrogazione) Basi di Dati e Sistemi Informativi Analisi dei dati Drill-down e Roll-up: Esempio Prodotto.Nome Tempo.Mese Vino Pasta Olio Gen … Dic Pasta Feb … Apr Prodotto.Nome Tempo.Mese Schema Opzioni somma delle quantità vendute di pasta nel trimestre Feb-Apr Basi di Dati e Sistemi Informativi Qta Condizioni sum Vista Tempo.mese Prodotto.Nome Sum(Qta) Feb Pasta 46 Kg Mar Pasta 50 Kg Apr Pasta 51 Kg Analisi dei dati Drill-down: Esempio Il manager è interessato alle vendite per zona: Drill down on Zona Tempo.mese Prodotto.Nome Sum(Qta) Feb Pasta 46 Kg Mar Pasta 50 Kg Apr Pasta 51 Kg Tempo.mese Prodotto.Nome Zona Sum(Qta) Feb Pasta Nord 18 Feb Pasta Centro 15 Feb Pasta Sud 13 Mar Pasta Nord 18 Mar Pasta Centro 18 Mar Pasta Sud 14 Apr Pasta Nord 18 Apr Pasta Centro 17 Pasta Sud 16 Analisi dei dati Basi Aprdi Dati e Sistemi Informativi Roll-up: Esempio Tempo.mese Prodotto.Nome Zona Sum(Qta) Feb Pasta Nord 18 Feb Pasta Centro 15 Feb Pasta Sud 13 Mar Pasta Nord 18 Mar Pasta Centro 18 Mar Pasta Sud 14 Apr Pasta Nord 18 Apr Pasta Centro 17 Apr Pasta Sud 16 Basi di Dati e Sistemi Informativi Il manager è interessato solo alla suddivisione delle vendite per zona: Roll up on Mese Zona Prodotto.Nome Sum(Qta) Nord Pasta 54 Kg Centro Pasta 50 Kg Sud Analisi dei dati Pasta 43Kg Slice-and-dice Seleziona un sottoinsieme delle celle del un cubo, ottenuta “affettando e tagliando” a cubetti il cubo stesso. Seleziona e proietta riducendo la dimensionalità dei dati Basi di Dati e Sistemi Informativi Analisi dei dati Slice-and-dice Il manager vuole effettuare un’analisi relativa alle vendite in tutti i periodi nella zona Roma-2 Luogo Articolo Tempo Basi di Dati e Sistemi Informativi Analisi dei dati Slice-and-dice Il manager di prodotto esamina la vendita di un particolare prodotto in tutti i periodi e in tutti i mercati Luogo Articolo Tempo Basi di Dati e Sistemi Informativi Analisi dei dati 34 di 36 Slice-and-dice Il manager finanziario esamina la vendita di tutti i prodotti in tutti i mercati relativamente ad un particolare periodo Luogo Articolo Tempo Basi di Dati e Sistemi Informativi Analisi dei dati Slice-and-dice Il manager strategico si concentra su una categoria di prodotti, una area regionale e un orizzonte temporale medio Luogo Articolo Tempo Basi di Dati e Sistemi Informativi Analisi dei dati Data Mining - Definizioni Estrazione complessa di informazioni implicite dai dati, precedentemente sconosciute e potenzialmente utili Esplorazione e analisi, per mezzo di sistemi automatici e semi-automatici, di grandi quantità di dati al fine di scoprire pattern significativi Basi di Dati e Sistemi Informativi Analisi dei dati 37 of 12 Data mining Ricerca di informazioni “nascoste” e utili all’interno delle DW Esempi di utilizzo: analisi di mercato (individuazione di oggetti acquistati assieme o in sequenza) analisi di comportamento (frodi o usi illeciti delle carte di credito) analisi di previsione (costo futuro delle cure mediche) Basi di Dati e Sistemi Informativi Analisi dei dati Origini Questa disciplina trae ispirazioni dalle aree del machine learning/intelligenza artificiale, pattern recognition, statistica e basi di dati Le tradizionali tecniche di analisi risultano inidonee per molteplici motivi • Quantità dei dati • Elevata dimensionalità dei dati • Eterogeneità dei dati Basi di Dati e Sistemi Informativi Analisi dei dati 39 of 12 Data Mining: Confluenza di Discipline Ricerca Operativa Database Technology Statistica Data R Mining i c e Informatica -modelli adeguati -algoritmi efficienti -gestione delle informazioni evoluta -presentazione dei risultati fruibile . Basi di Dati e Sistemi Informativi Analisi dei dati 40 of 12 Fasi del processo di data mining 1. Comprensione del dominio 2. Preparazione sul set di dati: individuazione di un sottoinsieme dei dati della DW su cui effettuare il mining e loro codifica (input algoritmo) 3. Scoperta dei pattern: ricerca e individuazione di pattern ripetitivi tra i dati 4. Valutazione dei pattern: partendo dai pattern scoperti si valutano quali esperimenti compiere successivamente e quali ipotesi formulare o quali conseguenze trarre 5. Utilizzo dei risultati: prendere decisioni operative a seguito del processo di data mining (allocazione merci, concessione credito) Basi di Dati e Sistemi Informativi Analisi dei dati Pattern Rappresentazione sintetica e ricca di semantica di un insieme di dati; esprime in genere un modello ricorrente nei dati Un pattern deve essere: •Valido sui dati con un certo grado di confidenza •Comprensibile dal punto di vista sintattico e semantico, affinché l‘utente lo possa interpretare •Precedentemente sconosciuto e potenzialmente utile, affinché l’utente possa intraprendere azioni di conseguenza Basi di Dati e Sistemi Informativi Analisi dei dati 42 of 12 Tipi di pattern Regole associative - consentono di determinare le regole di implicazione logica presenti nella base di dati, quindi di individuare i gruppi di affinità tra oggetti Classificatori- consentono di derivare un modello per la classificazione di dati secondo un insieme di classi assegnate a priori Alberi decisionali- sono particolari classificatori che permettono di identificare, in ordine di importanza, le cause che portano al verificarsi di un evento Clustering-raggruppa gli elementi di un insieme, a seconda delle loro caratteristiche, in classi non assegnate a priori Serie temporali- Permettono l’individuazione di pattern ricorrenti o atipici in sequenze di dati complesse Basi di Dati e Sistemi Informativi Analisi dei dati 43 of 12 Attività tipiche del Data Mining • Classificazione • Clustering • Ricerca di regole associative • Ricerca di pattern sequenziali • Regressione • Discretizzazione • Discretizzazione Basi di Dati e Sistemi Informativi Analisi dei dati 44 of 12 Classificazione 1 Data una collezione di record (training set ) Ogni record è composto da un insieme di attributi, di cui uno esprime la classe di appartenenza del record. Trova un modello per l’attributo di classe che esprima il valore dell’attributo in funzione dei valori degli altri attributi. Basi di Dati e Sistemi Informativi Analisi dei dati 45 of 12 Classificazione 2 Obiettivo: record non noti devono essere assegnati a una classe nel modo più accurato possibile Viene utilizzato un test set per determinare l’accuratezza del modello. Normalmente, il data set fornito è suddiviso in training set e test set. Il primo è utilizzato per costruire il modello, il secondo per validarlo. Basi di Dati e Sistemi Informativi Analisi dei dati 46 of 12 Classificazione - esempio Individuazione di frodi Obiettivo: predire l’utilizzo fraudolento delle carte di credito Approccio: Utilizza le precedenti transazioni e le informazioni sui loro possessori come attributi • Quando compra l’utente, cosa compra, paga con ritardo, ecc. -Etichetta le precedenti transazioni come fraudolenti o lecite -Questa informazione rappresenta l’attributo di classificazione -Costruisci un modello per le due classi di transazioni (test set+training set) -Utilizza il modello per individuare comportamenti fraudolenti delle prossime transazioni relative a una specifica carta di credito Basi di Dati e Sistemi Informativi Analisi dei dati Cluster Dato un insieme di punti, ognuno caratterizzato da un insieme di attributi, avendo a disposizione una misura di similarità tra i punti, trovare i sottoinsiemi di punti tali che: I punti appartenenti a un sottoinsieme sono più simili tra loro rispetto a quelli appartenenti ad altri cluster Misure di similarità: La distanza euclidea è applicabile se gli attributi dei punti assumono valori continui Sono possibili molte altre misure che dipendono dal problema in esame Basi di Dati e Sistemi Informativi Analisi dei dati 48 of 12 Clustering- esempio Segmentazione del mercato Obiettivo: suddividere i clienti in sottoinsiemi distinti da utilizzare come target di specifiche attività di marketing Approccio: • Raccogliere informazioni sui clienti legati allo stile di vita e alla collocazione geografica • Trovare cluster di clienti simili • Misurare la qualità dei cluster verificando se il pattern di acquisto dei clienti appartenenti allo stesso cluster è più simile di quello di clienti appartenenti a cluster distinti Basi di Dati e Sistemi Informativi Analisi dei dati 49 of 12 Regole di associazione Dato un insieme di record ognuno composto da più elementi appartenenti a una collezione data Produce delle regole di dipendenza che predicono l’occorrenza di uno degli elementi in presenza di occorrenze degli altri. Basi di Dati e Sistemi Informativi Analisi dei dati 50 of 12 Regole di associazione 1 Scoprire associazioni di tipo causa-effetto Basket Analysis: è una metodologia orientata all’identificazione delle relazioni esistenti tra una vasto numero di prodotti acquistati da differenti consumatori Basi di Dati e Sistemi Informativi Analisi dei dati Regole di associazione 2 Una regola associativa consta di una premessa e di una conseguenza E’ possibile definire in modo preciso le probabilità associate alle regole di associazione supporto: probabilità che in una osservazione sia presente sia la premessa che la conseguenza di una regola confidenza: probabilità che in una osservazione sia presente la conseguenza di una regola essendo già presente la premessa Basi di Dati e Sistemi Informativi Analisi dei dati Regole di associazione 3 Una regola di associazione è una coppia ordinata di due insiemi di dati, X e Y, estratti da un transazione del database Per estrarre le regole che sono più frequenti e significative: supporto= percentuale di transazioni con X e Y sul totale confidenza= percentuale delle transazioni con X e Y su quelle che hanno già X L’utente/analista stabilisce due valori minimi. Basi di Dati e Sistemi Informativi Analisi dei dati 53 of 12 Regole di associazione: Esempio Nazionalità Età Stipendio Italiana 50 Basso Italiana 40 Alto Francese 30 Alto Italiana 50 Medio Francese 45 Alto Francese 35 Alto 1) Francese Stip. Alto supporto = 3/6 = 0.5 confidenza = 3/3 = 1 2) Stip. Alto Francese supporto = 3/6 = 0.5 confidenza = 3/4 = 0.75 3) >= 40 anni Stip. Basso supporto = 1/6 = 0.16 confidenza = 1/4 = 0.25 Il problema di data mining relativo alla scoperta delle regole di associazione viene quindi enunciato come segue: Trovare tutte le regole di associazione con supporto e confidenza superiori a valori prefissati Basi di Dati e Sistemi Informativi Analisi dei dati Regressione Predire il valore di una variabile a valori continui sulla base di valori di altre variabili assumendo un modello di dipendenza lineare/non lineare. Esempi: Predire il fatturato di vendita di un nuovo prodotto sulla base degli investimenti in pubblicità. Predire la velocità del vento in funzione della temperatura, umidità, pressione atmosferica Predizione dell’andamento del mercato azionario Basi di Dati e Sistemi Informativi Analisi dei dati 55 of 12 Discretizzazione Consente di rappresentare un intervallo continuo di dati tramite pochi valori discreti Consiste nella divisione del dominio di un attributo continuo in un insieme di intervalli – riduce la cardinalità del dominio di un attributo Rendere più evidente il fenomeno sottoposto ad osservazione Esempio stipendio < 1000 Basso 1000 ≤ stipendo < 2500 Medio stipendio ≥ 2500 Alto Basi di Dati e Sistemi Informativi Analisi dei dati