16.04.10

annuncio pubblicitario
LEZIONE DEL 16 APRILE 2010
In merito all’esempio di una banca che si vuole dotare di un software per creare uno sportello sul
web, il costo viene calcolato in Anni Persona: se 3 persone lavorassero per 4 mesi, il costo sarebbe
di 1 anno persona (3 x 4 = 12 mesi).
Per calcolare il costo espresso in valuta basta moltiplicare gli anni persona per lo stipendio medio.
In genere sviluppare un software costa molto, quindi ci sono due soluzioni: costruirlo su misura per
una specifica azienda o costruirlo standard con dei piccoli adattamenti caso per caso (quest’ultimo
avrà un costo di gran lunga inferiore in quanto verrà sviluppato una sola volta e vi saranno n clienti
che lo acquisteranno). Nell’ambito del nostro corso parliamo principalmente della prima tipologia
di software che non possiamo vedere in esempi concreti poiché tali programmi fanno parte della
proprietà intellettuale delle aziende e ne contengono i segreti industriali.
IPERCUBI DI DATI
Consideriamo quattro oggetti geometrici dello spazio:
.
______
0D
1D
2D
3D
Un punto ha zero dimensioni fisiche, una linea può essere descritta da uno spazio ad una
dimensione, un quadrato è un oggetto geometrico dello spazio a due dimensioni, un cubo è un
oggetto a tre dimensioni.
Si possono rappresentare infinite dimensioni; una pagina web ha 2D, un videogame ha 3D.
→ il videogame, però lo vedo sempre su uno schermo a 2 dimensioni, quindi più correttamente è la
proiezione bidimensionale di un oggetto a 3 dimensioni (è differente da un oggetto 3D).
I dati (per es. quelli relativi alle vendite di un negozio) possono essere rappresentati come un
insieme di punti di uno spazio ad n dimensioni (vedi grafico). I punti sono un insieme di numeri.
Possiamo creare la proiezione a due dimensioni di uno spazio 3D. Sulle coordinate di questo spazio
mettiamo il prodotto, il negozio, la data nella quale viene effettuata la vendita. Posso rappresentare
quanti prodotti di tipo A sono stati venduti nel negozio N1; se poi aggiungo anche la data si ottiene
un cubo. Questo si chiama fatto elementare. Sono questi gli elementi dell’analisi multidimensionale
dei dati. Un dato non è altro che un punto in uno spazio ad n dimensioni.
I dati sono degli ipercubi. Infatti se unissi tutti i fatti elementari ( cioè tutte le vendite che sono
avvenute nei negozi n1 ed n2 nel mese di aprile) otterrei esattamente un cubo, considerando che il
cubo non si vede realmente ma si possono fare solo le proiezioni a 2 dimensioni di un cubo di dati
ad n dimensioni. Si può proiettare su una tabella (perché una tabella fatta di righe e colonne non è
altro che una spazio di dati a due dimensioni). Queste rappresentazioni sono importanti per poter
fare delle sintesi dei dati.
Le operazioni che si possono fare nello spazio ad n dimensioni sono:
DRILL DOWN = processo tramite il quale si parte dai dati aggregati e si disaggregano. (si passa dal
dato di sintesi a quello analitico, cioè al singolo fatto elementare). In esso avviene la rottura
contemporanea di tutte le dimensioni. (si può fare sulle proiezioni a 2D di dati 3D). E’ come
prendere un ipercubo e tagliarlo in dadi più piccoli.
ROLL UP = è l’operazione opposta rispetto al drill down; infatti è la compressione di una
dimensione, mentre il drill down fa comparire nuove dimensioni (si passa da 2D a 1D…).
SLICE & DICE = tramite tale processo una parte di dati viene suddivisa in base ad una delle
dimensioni (tramite, ad esempio, Pivot table). Si differenzia dal drill down perché quest’ultimo è
una rottura contemporanea su tutte le dimensioni, invece nello slice&dice si affetta una dimensione
alla volta.
CAPITOLO 9
Esiste l’informatica di livello operativo e l’informatica di livello direzionale, in quest’ultimo livello
si usano DSS (decision support system), EIS (executive information system), data warehouse, data
mart. I data warehouse sono la base, infatti si parte da una rappresentazione tramite data warehouse
e su questa si costruiscono i report, le sintesi sui dati. A livello più basso c’è l’informatica
operativa; ovvero ci sono i sistemi ERP e CRM.
A livello basso ci sono i dati transazionali, per esempio le vendite. Questi dati tramite degli
strumenti detti ETL (extraction transformation loading) si estraggono dal database, li trasformo
nella forma giusta e li metto nel data warehouse. Quest’ultimo è una rappresentazione
multidimensionale di fatti. Inoltre il data warehouse va completato anche con i dati di contesto. I
flussi di dati di contesto più i flussi di dati transazionali costituiscono il data warehouse. Dal data
warehouse si estraggono i dati per comparto e si creano i data mart. Questa non è ancora
un’operazione di drill down ma solo un’operazione di gestione dei dati fatta in maniera opportuna.
Il primo problema è il livello delle fonti che tipicamente sono i sistemi ERP e CRM. Le fonti sono
dei database fatti di tante tabelle. Poi c’è il processo ETL nel quale vengono trasformati i dati
perché lo stesso dato in posti diversi può essere scritto o letto in maniera diversa (es: modo di
esprimere l’anno in Cina ed in Italia), quindi i dati devono essere portati tutti nello stesso formato. Il
caricamento serve a mettere i dati nel database. A questo punto siamo arrivati al livello del data
warehouse e dobbiamo estrarre i data mart. Ci sono strumenti particolari ( es. SAS, SAP) per
analizzare i dati. Un aspetto importante è quello che riguarda l’elaborazione da fare sui dati; la più
semplice di tutte le elaborazioni è la previsione.
( vedere esempio Rossetti sul libro)
MICHELE CALIOLO
PIERA CARONE
Scarica