LEZIONE DEL 16 APRILE 2010 In merito all’esempio di una banca che si vuole dotare di un software per creare uno sportello sul web, il costo viene calcolato in Anni Persona: se 3 persone lavorassero per 4 mesi, il costo sarebbe di 1 anno persona (3 x 4 = 12 mesi). Per calcolare il costo espresso in valuta basta moltiplicare gli anni persona per lo stipendio medio. In genere sviluppare un software costa molto, quindi ci sono due soluzioni: costruirlo su misura per una specifica azienda o costruirlo standard con dei piccoli adattamenti caso per caso (quest’ultimo avrà un costo di gran lunga inferiore in quanto verrà sviluppato una sola volta e vi saranno n clienti che lo acquisteranno). Nell’ambito del nostro corso parliamo principalmente della prima tipologia di software che non possiamo vedere in esempi concreti poiché tali programmi fanno parte della proprietà intellettuale delle aziende e ne contengono i segreti industriali. IPERCUBI DI DATI Consideriamo quattro oggetti geometrici dello spazio: . ______ 0D 1D 2D 3D Un punto ha zero dimensioni fisiche, una linea può essere descritta da uno spazio ad una dimensione, un quadrato è un oggetto geometrico dello spazio a due dimensioni, un cubo è un oggetto a tre dimensioni. Si possono rappresentare infinite dimensioni; una pagina web ha 2D, un videogame ha 3D. → il videogame, però lo vedo sempre su uno schermo a 2 dimensioni, quindi più correttamente è la proiezione bidimensionale di un oggetto a 3 dimensioni (è differente da un oggetto 3D). I dati (per es. quelli relativi alle vendite di un negozio) possono essere rappresentati come un insieme di punti di uno spazio ad n dimensioni (vedi grafico). I punti sono un insieme di numeri. Possiamo creare la proiezione a due dimensioni di uno spazio 3D. Sulle coordinate di questo spazio mettiamo il prodotto, il negozio, la data nella quale viene effettuata la vendita. Posso rappresentare quanti prodotti di tipo A sono stati venduti nel negozio N1; se poi aggiungo anche la data si ottiene un cubo. Questo si chiama fatto elementare. Sono questi gli elementi dell’analisi multidimensionale dei dati. Un dato non è altro che un punto in uno spazio ad n dimensioni. I dati sono degli ipercubi. Infatti se unissi tutti i fatti elementari ( cioè tutte le vendite che sono avvenute nei negozi n1 ed n2 nel mese di aprile) otterrei esattamente un cubo, considerando che il cubo non si vede realmente ma si possono fare solo le proiezioni a 2 dimensioni di un cubo di dati ad n dimensioni. Si può proiettare su una tabella (perché una tabella fatta di righe e colonne non è altro che una spazio di dati a due dimensioni). Queste rappresentazioni sono importanti per poter fare delle sintesi dei dati. Le operazioni che si possono fare nello spazio ad n dimensioni sono: DRILL DOWN = processo tramite il quale si parte dai dati aggregati e si disaggregano. (si passa dal dato di sintesi a quello analitico, cioè al singolo fatto elementare). In esso avviene la rottura contemporanea di tutte le dimensioni. (si può fare sulle proiezioni a 2D di dati 3D). E’ come prendere un ipercubo e tagliarlo in dadi più piccoli. ROLL UP = è l’operazione opposta rispetto al drill down; infatti è la compressione di una dimensione, mentre il drill down fa comparire nuove dimensioni (si passa da 2D a 1D…). SLICE & DICE = tramite tale processo una parte di dati viene suddivisa in base ad una delle dimensioni (tramite, ad esempio, Pivot table). Si differenzia dal drill down perché quest’ultimo è una rottura contemporanea su tutte le dimensioni, invece nello slice&dice si affetta una dimensione alla volta. CAPITOLO 9 Esiste l’informatica di livello operativo e l’informatica di livello direzionale, in quest’ultimo livello si usano DSS (decision support system), EIS (executive information system), data warehouse, data mart. I data warehouse sono la base, infatti si parte da una rappresentazione tramite data warehouse e su questa si costruiscono i report, le sintesi sui dati. A livello più basso c’è l’informatica operativa; ovvero ci sono i sistemi ERP e CRM. A livello basso ci sono i dati transazionali, per esempio le vendite. Questi dati tramite degli strumenti detti ETL (extraction transformation loading) si estraggono dal database, li trasformo nella forma giusta e li metto nel data warehouse. Quest’ultimo è una rappresentazione multidimensionale di fatti. Inoltre il data warehouse va completato anche con i dati di contesto. I flussi di dati di contesto più i flussi di dati transazionali costituiscono il data warehouse. Dal data warehouse si estraggono i dati per comparto e si creano i data mart. Questa non è ancora un’operazione di drill down ma solo un’operazione di gestione dei dati fatta in maniera opportuna. Il primo problema è il livello delle fonti che tipicamente sono i sistemi ERP e CRM. Le fonti sono dei database fatti di tante tabelle. Poi c’è il processo ETL nel quale vengono trasformati i dati perché lo stesso dato in posti diversi può essere scritto o letto in maniera diversa (es: modo di esprimere l’anno in Cina ed in Italia), quindi i dati devono essere portati tutti nello stesso formato. Il caricamento serve a mettere i dati nel database. A questo punto siamo arrivati al livello del data warehouse e dobbiamo estrarre i data mart. Ci sono strumenti particolari ( es. SAS, SAP) per analizzare i dati. Un aspetto importante è quello che riguarda l’elaborazione da fare sui dati; la più semplice di tutte le elaborazioni è la previsione. ( vedere esempio Rossetti sul libro) MICHELE CALIOLO PIERA CARONE