Lo strumento Excel, il problema, i dati e il data mining Brugnaro Luca Prima di stampare pensa all’ambiente think to environment before printing Brugnaro Luca - 2009 Sistema informativo e Organizzazione • Un Sistema Informativo (SI) e’ un insieme di elementi interconnessi che raccolgono, cercano, elaborano, memorizzano e distribuiscono informazioni per supportare la gestione di un’organizzazione. • Come organizzazione si intende una struttura socio-economica articolata come un’azienda (o impresa), un ente pubblico, una società e in generale, qualsiasi aggregazione di persone che cooperano per uno specifico fine. Brugnaro Luca - 2009 Dato e informazione • Un dato è la rappresentazione di “un fatto” che corrisponde ad un evento occorso in un’organizzazione o nell’ambiente esterno ad essa. • Un’informazione è la trasformazione di un dato in una forma utile per ottenere conoscenza e va quindi oltre al significato del singolo dato stesso. Brugnaro Luca - 2009 Principi generali Informazioni Dati Brugnaro Luca - 2009 SI formalizzati e no • SI formalizzati: definizione dei dati predeterminata e universalmente accettata. Stesso discorso per la raccolta, la memorizzazione, l’elaborazione dei dati e la diffusione e l’utilizzo dell’informazione basano su procedure predeterminate. Sono cioè strutturati e operano in conformità con regole fisse e relativamente difficili da modificare. • SI non formalizzati: al contrario, non esistono definizione univoche sui dati così come sulle procedure e le stesse possono cambiare ed evolvere. Brugnaro Luca - 2009 Evoluzione dei SI • SI manuali: “basati su carta”. Fogli di carta scritti a mano e scambiati tra i membri di un’organizzazione. Sostanzialmente sono i sistemi precursori della digitalizzazione dell’informazione. • SI computerizzati (CBIS, Computer-Based Information System): elaborano i dati e distribuiscono informazioni attraverso sistemi HW e SW. Implicano la completa digitalizzazione dell’informazione. • SI ibridi: composizione delle due tipologie sopracitate dove una parte delle informazioni è digitalizzata e l’altra permane in forma cartacea. SI cartacei SI ibridi Brugnaro Luca - 2009 SI computerizzati Archivi e database (DB) • Per archivio si intende un complesso ordinato e sistematico di atti, scritture e documenti prodotti e/o acquisiti da un soggetto pubblico o privato (ente, istituzione, famiglia o individuo nel normale esercizio delle proprie funzioni), durante lo svolgimento della propria attività, e custoditi in funzione del loro valore di attestazione e di tutela di un determinato interesse. • Database, banca dati o base di dati, indica un archivio strutturato in modo tale da consentire la gestione dei dati stessi (l'inserimento, la ricerca, la cancellazione ed il loro aggiornamento) da parte di applicazioni software (DBMS). Brugnaro Luca - 2009 DB e DBMS - approfondimento • Il DB è un insieme di dati (memorizzati in campi) logicamente legati tra loro (record) che vengono suddivisi in base al contesto (logico) in tabelle. • Informalmente e impropriamente, la parola "database" viene spesso usata come abbreviazione dell'espressione Database Management System (DBMS), che si riferisce a una vasta categoria di sistemi software che consentono la creazione, modifica e/o eliminazione efficiente dei dati in un database. Brugnaro Luca - 2009 Contestualizzazione “Dati, dati,…miniere di dati” Presupposti favorevoli: • Potenziamento di sistemi di memorizzazione elettronica (SI computerizzati) • Sviluppo di metodi automatici di rilevazione e digitalizzazione dei dati. “We’re drowning in information and starving for knowledge” (Rutherford D. Rogers) Brugnaro Luca - 2009 Data warehouse (DW) • I DW sono dei DB che hanno come sorgente d’informazioni i DB che riflettono lo stato corrente del sistema, dati storici potenzialmente di interesse e sorgenti esterne come le informazioni che si ottengono dalle transazioni avvenute dell’azienda. La natura delle sorgenti include fonti eterogenee. • I DW nascono da una problematica che affligge chi si occupa di SI: l’individuazione e la raccolta di informazioni trasversali (per scale temporali, per livelli, per aree funzionali e ambiente). • I dati sono poi consolidati e resi omogenei in modo da poter essere utilizzati per le attività di analisi e di supporto alle decisioni all’interno dell’azienda. I dati sono accessibili ma non modificabili. • I data mart (DM) sono dei sottoinsiemi di un DW dove sono inseriti una porzione dei dati a beneficio di una ristretta fascia di utenti DataBase Archivi Da dati eterogenei formare un DB utile per le analisi aziendali DB strategici utili per Data specifiche analisi Warehouse Brugnaro Luca - 2009 Data Mart Problemi “minerari” • Analisi dei flussi dei pazienti (ricoveri) • Analisi delle prestazioni per servizio • Confronto tra outcame di servizi “omogenei” Elevata numerosità di osservazioni/rilevazioni comporta metodiche di esplorazione e di analisi dei dati appropriate (data mining). Brugnaro Luca - 2009 Data mining – concetti chiave • • • • • • Rappresenta l’attività di elaborazione in forma grafica o numerica di grandi raccolte di dati con lo scopo di estrarre informazione utile Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi In entrambi i casi i concetti di informazione e di significato sono legati strettamente al dominio applicativo in cui si esegue data mining, in altre parole un dato può essere interessante o trascurabile a seconda del tipo di applicazione in cui si vuole operare. Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche in altri settori (per esempio in quello delle ricerche di mercato). Nel mondo professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno dalla gestione delle relazioni con i clienti (CRM), all'individuazione di comportamenti fraudolenti per finire all'ottimizzazione di siti web o della tipologia di prestazione da erogare all’utenza. È uno strumento indispensabile per le macro-organizzazioni per il governo dei sistemi e per le scelte strategiche. Brugnaro Luca - 2009 LA DOMANDA Cosa centra Excel con questi concetti di DBMS, SI, datamart, …? Brugnaro Luca - 2009 RISPOSTA • È uno strumento utile e flessibile per operare delle analisi su fenomeni aziendali organizzativi, economici, … e di ricerca • Offre utili strumenti di collegamento con altri applicativi del pacchetto Office (ad es: Word, Access, …) e non (Qlik, SPSS, R, …) • È un SW estremamente diffuso specie nel nostro contesto aziendale Brugnaro Luca - 2009 Non solo Excel • Esistono comunque una serie di SW anche gratuiti con finalità simili a quelle di Excel, ad esempio CALC del pacchetto OpenOffice della Sun Microsystem (acquisita da Oracle 04/2009) • Come l'intera suite OpenOffice, Calc è disponibile con supporto multipiattaforma (può essere usato su una grande varietà di piattaforme, comprese Mac OS X, Microsoft Windows, Linux, FreeBSD e Solaris). Brugnaro Luca - 2009 Metodo Approccio Top-Down (semplificato) • Prima di qualsiasi operazione di raccolta dati, ricerca, … mi devo sempre porre la domanda sull’obiettivo : “Che cosa voglio?” • A questo punto devo chiedermi: “cosa mi serve per ottenerlo?” • Rappresentazione di “Una realtà semplificata”: il modello • Analisi: DATI INFORMAZIONI CONOSCENZA Brugnaro Luca - 2009 Processo per la realizzazione di un modello • • • • • • Definizione del problema Raccolta dei dati Sviluppo del modello Verifica del modello Ottimizzazione e “decision making” Comunicazione del modello agli stakeholders (tipicamente i manager) • Implementazione del modello Brugnaro Luca - 2009 Processo per la realizzazione di un modello - flowchart Def. del probelm a Raccolta dati Sviluppo del modello Verifica del modello Ottim. e Decision Making Possibili cicli (loop) di feedback Brugnaro Luca - 2009 Comun. del modello Impleme ntazione del modello