Excel,sistemi informativi, data mining

Lo strumento Excel, il problema,
i dati e il data mining
Brugnaro Luca
Prima di stampare pensa all’ambiente
think to environment before printing
Brugnaro Luca - 2009
Sistema informativo e Organizzazione
• Un Sistema Informativo (SI) e’ un insieme di
elementi interconnessi che raccolgono, cercano,
elaborano, memorizzano e distribuiscono
informazioni per supportare la gestione di
un’organizzazione.
• Come organizzazione si intende una struttura
socio-economica articolata come un’azienda (o
impresa), un ente pubblico, una società e in
generale, qualsiasi aggregazione di persone che
cooperano per uno specifico fine.
Brugnaro Luca - 2009
Dato e informazione
• Un dato è la rappresentazione di “un fatto”
che corrisponde ad un evento occorso in
un’organizzazione o nell’ambiente esterno ad
essa.
• Un’informazione è la trasformazione di un
dato in una forma utile per ottenere
conoscenza e va quindi oltre al significato del
singolo dato stesso.
Brugnaro Luca - 2009
Principi generali
Informazioni
Dati
Brugnaro Luca - 2009
SI formalizzati e no
• SI formalizzati: definizione dei dati predeterminata e
universalmente accettata. Stesso discorso per la
raccolta, la memorizzazione, l’elaborazione dei dati e la
diffusione e l’utilizzo dell’informazione basano su
procedure predeterminate. Sono cioè strutturati e
operano in conformità con regole fisse e relativamente
difficili da modificare.
• SI non formalizzati: al contrario, non esistono
definizione univoche sui dati così come sulle procedure
e le stesse possono cambiare ed evolvere.
Brugnaro Luca - 2009
Evoluzione dei SI
• SI manuali: “basati su carta”. Fogli di carta scritti a
mano e scambiati tra i membri di un’organizzazione.
Sostanzialmente sono i sistemi precursori della
digitalizzazione dell’informazione.
• SI computerizzati (CBIS, Computer-Based Information
System): elaborano i dati e distribuiscono informazioni
attraverso sistemi HW e SW. Implicano la completa
digitalizzazione dell’informazione.
• SI ibridi: composizione delle due tipologie sopracitate
dove una parte delle informazioni è digitalizzata e
l’altra permane in forma cartacea.
SI
cartacei
SI
ibridi
Brugnaro Luca - 2009
SI
computerizzati
Archivi e database (DB)
• Per archivio si intende un complesso ordinato e
sistematico di atti, scritture e documenti prodotti e/o
acquisiti da un soggetto pubblico o privato (ente,
istituzione, famiglia o individuo nel normale esercizio
delle proprie funzioni), durante lo svolgimento della
propria attività, e custoditi in funzione del loro valore
di attestazione e di tutela di un determinato interesse.
• Database, banca dati o base di dati, indica un archivio
strutturato in modo tale da consentire la gestione dei
dati stessi (l'inserimento, la ricerca, la cancellazione ed
il loro aggiornamento) da parte di applicazioni software
(DBMS).
Brugnaro Luca - 2009
DB e DBMS - approfondimento
• Il DB è un insieme di dati (memorizzati in campi)
logicamente legati tra loro (record) che vengono
suddivisi in base al contesto (logico) in tabelle.
• Informalmente e impropriamente, la parola
"database" viene spesso usata come
abbreviazione dell'espressione Database
Management System (DBMS), che si riferisce a
una vasta categoria di sistemi software che
consentono la creazione, modifica e/o
eliminazione efficiente dei dati in un database.
Brugnaro Luca - 2009
Contestualizzazione
“Dati, dati,…miniere di dati”
Presupposti favorevoli:
• Potenziamento di sistemi di memorizzazione
elettronica (SI computerizzati)
• Sviluppo di metodi automatici di rilevazione e
digitalizzazione dei dati.
“We’re drowning in information and starving for
knowledge”
(Rutherford D. Rogers)
Brugnaro Luca - 2009
Data warehouse (DW)
• I DW sono dei DB che hanno come sorgente d’informazioni i DB che
riflettono lo stato corrente del sistema, dati storici potenzialmente
di interesse e sorgenti esterne come le informazioni che si
ottengono dalle transazioni avvenute dell’azienda. La natura delle
sorgenti include fonti eterogenee.
• I DW nascono da una problematica che affligge chi si occupa di SI:
l’individuazione e la raccolta di informazioni trasversali (per scale
temporali, per livelli, per aree funzionali e ambiente).
• I dati sono poi consolidati e resi omogenei in modo da poter essere
utilizzati per le attività di analisi e di supporto alle decisioni
all’interno dell’azienda. I dati sono accessibili ma non modificabili.
• I data mart (DM) sono dei sottoinsiemi di un DW dove sono inseriti
una porzione dei dati a beneficio di una ristretta fascia di utenti
DataBase
Archivi
Da dati eterogenei
formare un DB utile
per le analisi aziendali
DB strategici utili per
Data
specifiche analisi
Warehouse
Brugnaro Luca - 2009
Data Mart
Problemi “minerari”
• Analisi dei flussi dei pazienti (ricoveri)
• Analisi delle prestazioni per servizio
• Confronto tra outcame di servizi “omogenei”
Elevata numerosità di osservazioni/rilevazioni
comporta metodiche di esplorazione e di
analisi dei dati appropriate (data mining).
Brugnaro Luca - 2009
Data mining – concetti chiave
•
•
•
•
•
•
Rappresenta l’attività di elaborazione in forma grafica o numerica di grandi raccolte
di dati con lo scopo di estrarre informazione utile
Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita,
nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile
Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi
quantità di dati allo scopo di scoprire pattern (schemi) significativi
In entrambi i casi i concetti di informazione e di significato sono legati
strettamente al dominio applicativo in cui si esegue data mining, in altre parole un
dato può essere interessante o trascurabile a seconda del tipo di applicazione in
cui si vuole operare.
Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche
in altri settori (per esempio in quello delle ricerche di mercato). Nel mondo
professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno
dalla gestione delle relazioni con i clienti (CRM), all'individuazione di
comportamenti fraudolenti per finire all'ottimizzazione di siti web o della tipologia
di prestazione da erogare all’utenza.
È uno strumento indispensabile per le macro-organizzazioni per il governo dei
sistemi e per le scelte strategiche.
Brugnaro Luca - 2009
LA DOMANDA
Cosa centra Excel con
questi concetti di
DBMS, SI, datamart, …?
Brugnaro Luca - 2009
RISPOSTA
• È uno strumento utile e flessibile per operare
delle analisi su fenomeni aziendali
organizzativi, economici, … e di ricerca
• Offre utili strumenti di collegamento con altri
applicativi del pacchetto Office (ad es: Word,
Access, …) e non (Qlik, SPSS, R, …)
• È un SW estremamente diffuso specie nel
nostro contesto aziendale
Brugnaro Luca - 2009
Non solo Excel
• Esistono comunque una serie di SW anche
gratuiti con finalità simili a quelle di Excel, ad
esempio CALC del pacchetto OpenOffice della
Sun Microsystem (acquisita da Oracle 04/2009)
• Come l'intera suite OpenOffice, Calc è disponibile
con supporto multipiattaforma (può essere usato
su una grande varietà di piattaforme, comprese
Mac OS X, Microsoft Windows, Linux, FreeBSD e
Solaris).
Brugnaro Luca - 2009
Metodo
Approccio Top-Down (semplificato)
• Prima di qualsiasi operazione di raccolta dati,
ricerca, … mi devo sempre porre la domanda
sull’obiettivo : “Che cosa voglio?”
• A questo punto devo chiedermi: “cosa mi serve
per ottenerlo?”
• Rappresentazione di “Una realtà semplificata”: il
modello
• Analisi: DATI
INFORMAZIONI
CONOSCENZA
Brugnaro Luca - 2009
Processo per la realizzazione di un
modello
•
•
•
•
•
•
Definizione del problema
Raccolta dei dati
Sviluppo del modello
Verifica del modello
Ottimizzazione e “decision making”
Comunicazione del modello agli stakeholders
(tipicamente i manager)
• Implementazione del modello
Brugnaro Luca - 2009
Processo per la realizzazione di un
modello - flowchart
Def. del
probelm
a
Raccolta
dati
Sviluppo
del
modello
Verifica
del
modello
Ottim. e
Decision
Making
Possibili cicli (loop) di feedback
Brugnaro Luca - 2009
Comun.
del
modello
Impleme
ntazione
del
modello