Manuale Programma DOBLO’ 2.2 Deduplica e Unione Database Edizione Settembre 2004 Indice del Manuale Installazione del programma e limitazione versione Demo Cosa fa il programma Deduplica singolo File Setup del programma Impostazione del programma Assegnazione Campi Assegnazione Campo Jolly Cos’è il campo Jolly Come Settare il campo Jolly Scarti incondizionati Criteri per eliminare i doppioni Comando Vai Unione di 2 Database Setup del programma Impostazione del programma Assegnazione Campi Assegnazione Campo Jolly Come Settare il campo Jolly Scarti incondizionati Criteri per eliminare i doppioni Comando Vai Un caso pratico Installazione del programma e limitazione versione Demo Cliccare su setup.exe e seguire le istruzioni della procedura guidata di installazione. Ad installazione ultimata il programma si trova nel menù ‘Start’ alla voce Program -> Doblò -> Doblò A seconda della lingua con cui è stato installato Windows questi menù posso subire modificazioni (‘Start’ diventa ‘Avvio’, ‘Program’ diventa ‘Programmi’ etc) Se il calcolatore non risulta tra quelli abilitati alla esecuzione del programma, Doblò viene lanciato in ‘demo mode’ ossia con una limitazione a 1000 del numero dei record in output. Cosa fa il programma Il programma serve per eliminare i record doppi contenuti all’interno di un singolo database e per unire due database differenti senza introdurre record doppi nel database finale. La deduplica e l’unione di database vengono effettuate cercando di estrarre dai record doppi trovati il maggior numero di informazioni possibile, allo scopo di non perdere informazioni preziose all’atto della deduplica o della unione. Non vi sono limiti (tranne che nel Demo) sul numero di record e di campi contenuti nei file da elaborare e neanche sul contenuto di ciascun singolo campo, è sufficiente che si tratti di campi contenenti testo ASCII (quindi lettere, numeri, caratteri speciali) separati da tabulatore. Deduplica Singolo File Setup del Programma Utilizzo del programma per deduplicare un singolo file Nel primo Frame in alto è necessario spuntare l’opzione ‘Doblonatura Singolo Database’ Selezionando questa opzione il software potrà essere utilizzato in modalità deduplica singolo database allo scopo di eliminare tutti i record doppi all’interno di un signolo database Impostazione del Programma Si prosegue indicando i nomi dei file: file di input, file di output e file di scarto. Per scegliere il file di input premere su… …e scegliere il direttorio ed il file che si desidera deduplicare. Dopo aver effettuato la scelta una maschera dirà quanti campi contiene il file scelto in modo da avere un rapido riscontro sulla scelta effettuata. Se la scelta fosse errata è possibile ripetere la procedura per scegliere un altro file. Dopo la scelta del file di Output e file di Scarto il controllo verifica l’esistenza di tali file avvertendo, in caso di esistenza accertata, che essi verranno sovrascritti. Il file di input scelto può essere visualizzato cliccando sul bottone ‘Analizza 1’: si apre una finestra che permette la navigazione all’interno del file con la possibilità di scegliere il campo da visualizzare. Per uscire dalla finestra di ‘Analizza 1’ chiudere la finestra dalla ‘X’ in alto a destra. Assegnazione Nomi Campi Dalla maschera principale, premendo il bottone Si accede alla Maschera La schermata offre la possibilità di visualizzare tutti i campi del database. Al centro vengono elencati una serie di categorie da assegnare come nome del campo, questa operazione può essere effettuata facendo doppio click sulla categoria oppure premendo il tasto “Assegna Nome Campo” dopo aver selezionato la categoria, per scorrere i record contenuti nel database e proseguire con l’assegnazione dei nomi dei campi è sufficiente premere il tasto Assegnazione Campo Jolly E’ possibile attribuire ad un campo specifico la funzione di “Jolly”. Assegnare ad un campo del database il Jolly è molto semplice, basta premere il tasto ‘Assegna Campo Jolly’ dopo averla selezionata. Un solo campo tra quelli presenti nel database può essere considerato Jolly. Attenzione è possibile assegnare la funzione Jolly solo dopo aver assegnato un nome al campo. Questo comando permette di doblonare il file in funzione di alcuni criteri che possono essere personalizzati in base alle proprie esigenze. Dopo aver assegnato il campo jolly, i dati di questo campo verranno visualizzati in blu in modo tale da identificare sempre il Jolly selezionato. Cos’è il campo Jolly Il software mette a disposizione una particolare opzione che permette di “trattare” un determinato campo del database in maniera molto particolare. Il fine di questa opzione è quello di mettere a disposizione dell’utente un metodo per personalizzare e ottimizzare la doblonatura in base alle proprie esigenze in modo tale di avere un risultato più preciso. Un esempio pratico è quello di definire come Jolly il campo della email, sarà possibile deduplicare il database in modo che non contenga neanche una email doppia. Come settare il campo Jolly Per sfruttare al meglio l’utilità di questa opzione è necessario settare le opzioni che vi si apriranno, dalla finestra principale del programma, se cliccate sul comando Regole Jolly su F1 Compare una finestra che offre una serie di flag attivabili che andranno ad influire sull’esito della doblonatura, la schermata divisa su 2 colonne offre la possibilità di verificare immediatamente l’effetto del settaggio delle opzioni quindi l’utente può intuire da quello che filtra nella seconda colonna se le impostazioni immesse sono corrette o meno. Il programma utilizza il campo Jolly non come si trrova all’interno del database, ma come esso diventa dopo aver applicato le regole definite dall’utilizzatore. Attenzione Quando si decide di utilizzare questa risorsa del software il risultato che il programma elaborerà dipenderà principalmente da come sono state impostate le regole del campo Jolly, quindi consigliamo sempre di controllare bene le opzioni settate in questa finestra. La Finestra delle regole del Campo Jolly Con le frecce in alto dobbiamo posizionarci sul campo scelto come Jolly, ci accorgiamo di questo quando i dati diventano di colore blu. Successivamente possiamo impostare le regole al centro e vericare in tempo reale l’effetto delle regole impostate sul contenuto del campo. Le regole impostate si applicano, in questa finestra, anche agli altri campi che possiamo scorrere con le frecce in alto, questo allo scopo di verificare se la scelta effettuata del campo Jolly sia o meno la più significativa. Se decidiamo di cambiare il campo Jolly dobbiano chiudere questa form e tornare nella finestra ‘Assegna Nomi dei Campi’ Scarti incondizionati Il programma offre la possibilità di scartare a priori determinati record nel caso in cui un campo specifico non fosse presente. Queste opzioni sono attivabili con dei flag presenti nella schermata principale del software. Criteri per eliminare i doppioni Una volta effettuate queste operazioni l’ultima cosa che rimane da fare è quella di impostare quali campi il programma deve esaminare per effettuare la doblonatura. Nella schermata principale, in basso a destra, troviamo presenti 13 diverse combinazioni che il programma può utilizzare per decidere con quali modalità consederare doppio un record del database. Questo passaggio è fondamentale poiché tutte le operazione effettuate fino ad ora sono state di impostazione, ma quest’ultimo passaggio consiste nel determinare quali regole il programma dovrà utilizzare al fine di effettuare la doblonatura. Il programma può effettuare la Doblonatura in funzione di un singolo campo oppure più campi legati tra loro da operatori logici di tipo AND o OR. Gli operatori AND e OR (operatori Booleani) operano secondo la logica delle associazioni logiche : Supponendo che il campo Jolly sia l’email allora : ‘Tel AND Jolly’ pone come doppi i record che hanno lo stesso telefono ed anche la stessa email, se i telefoni sono uguali ma le email no o viceversa i record non vengono considerati doppi. ‘Tel OR Jolly’ pone come doppi i record che hanno lo stesso telefono o la stessa email, se i telefoni sono uguali ma le email no o viceversa i record vengono considerati doppi. Il Campo Ragione Sociale viene utilizzato sempre in coppia con il campo CAP, questa modalità è dettata dal fatto che non è difficile trovare due aziende con lo stesso identico nome, mentre questa probabilità si riduce drasticamente se operiamo all’interno dello stesso CAP. In pratica per il programma la ‘SERVIZI INTEGRATI S.P.A.’ con CAP ‘20124’ risulta essere una azienda diversa da ‘SERVIZI INTEGRATI S.P.A.’ con CAP ‘70100’. Vai Ciccando sul tasto Vai il software esegue l’operazione di eliminazione dei doppioni in base al setup impostato, per visualizzare il risultato sarà sufficiente aprire il file di output (precedentemente settato) con un qualsiasi programma di gestione database, es.: Excel, Acces, FileMaker,etc. Unione di 2 Database Setup del Programma Lo scopo di questa sezione del software è quella di analizzare 2 database e di fonderli insieme in base ad alcuni criteri che daranno la possibilità allo stesso tempo di aggiornare il database uscente eliminando dati obsoleti. Spuntando l’opzione Unione 2 Database il programma modifica automaticamente le impostazioni della schermata principale. Per effettuare la fusione (unione intelligente) di 2 database differenti si devono scegliere i nomi relativi ai 2 file da unire. La scelta del file1 (old) e file2 (New) non deve essere casuale: si deve impostare il File1 come sorgente di dati meno aggiornata (quindi verosimilmente il database più vecchio), mentre invece come File2 quello con i dati più recenti, in modo tale da consentire al programma di filtrare, nel momento in cui trova dei record uguali ma con dati differenti, quelli che saranno più aggiornati e quindi più attendibili. Es: in questo caso (molto semplificato) possiamo vedere che nel record del F1 il telefono e la mail sono differenti da quelli presenti nel F2. File 1 (old) File 2 (new) Rag.Soc. Via Tel Mail Rag.Soc. Via Tel Mail Basf Verdi,21 02 546987 [email protected] Basf 02 123456 [email protected] Risultato: File 1+2 Rag Soc Basf Via Verdi, 21 Tel 02 123456 Mail [email protected] Il programma porterà nel file di output finale tutti i dati doppi una volta sola (RagSoc,Via) e nel momento in cui scopre che per lo stesso campo ci sono 2 dati differenti nei 2 database estrae quello di F2 (new), proprio perché lo riconosce come il più aggiornato, inoltre nel caso in cui il file meno aggiornato avesse dati che non sono presenti nel F2 il software li estrae complementandoli a quelli che ha estratto dal file più aggiornato. In pratica il programma si comporta come la persona che ha ricevuto l’ordine di unire i record senza buttare via informazioni che potrebbero risultare preziose. Quindi, quando trova un doppione (ossia un record presente sia nel file1 che nel file2), prende tutti i campi presenti nel file2 (New) e recupera dal file1 solo i campi che non hanno alcuna informazione nel file2. Nell’esempio riportato la via non era presente nel database nuovo ed è stata recuperata dal database vecchio. Impostazione del programma Il criterio di impostazione è lo stesso utilizzato per la prima parte del software, si inserisce il nome del file di input 1, che il programma riconoscerà come più vecchio, dopodiché si inserisce il file di input 2 (new - più recente), infine si imposta quale sarà il file di uscita del programma Assegnazione Campi Premendo il bottone Si accede alla Maschera La schermata visualizza 3 colonne, in quella centrale sono presenti le categorie da assegnare, nella colonna di sinistra ci sono i dati del F1 e in quella di destra quelli del F2. L’operazione da eseguire è quella di assegnare ai dati i nomi dei campi corretti per ambedue i database. Per scorrere i campi dei database è sufficiente premere il tasto Una volta individuati nel File1 e nel File2 un campo comune (ad esempio la Ragione Sociale) si clicca (doppio clic) sul nome del campo nella colonna a centro (oppure si preme il tasto funzione <<Assegna Nome Campo>>) ed il programma associa a quella specifica coppia di campi il nomecampo scelto. Esempio : supponiamo che il file1 contenga i campi Ragione Sociale, Cap,Tel, Email e Città ed il file2 contenga i campi Ragione Sociale, Cap, Fax, Email e Categoria. Per unirli dobbiamo operare come segue : 1) Aprire la finestra assegna nome campi e scorrere il contenuto dei file, individuare il campo del file1 (2) che contiene la Ragione Sociale ed assegnargli il nome RAGIONE SOCIALE. 2) Possiamo ora individuare ed assegnare il nome anche agli altri campi comuni: CAP, Email, tel, fax etc etc 3) Ai campi non comuni: Tel e Città del file1 e Fax e Categoria del file2 non va assegnato alcun nome 4) Possiamo assegnare la funzione Jolly al campo Email (comune ai 2 file) Dopo aver assegnato le regole di filtro del campo Jolly possiamo eseguire la unione dei database in funzione dei campi RagSoc/cap, Campo Jolly, oppure RagSoc/cap & Campo Jolly (il valore di & potrà essere di AND oppure OR logico). Quindi abbiamo 13 possibili scelte per le regole della unione/deduplica. In funzione delle regole scelte il programma unisce i database e crea un file di output che avrà questi campi : Ragione Sociale, Cap, Email,Tel, Fax, Città, Categoria (le categorie che non compaiono in entrambi i databae avranno n omi diversi, assegnati dal programma). Ossia la somma dei campi comuni e non comuni ai 2 database. Assegnazione Campo Jolly Vedi capitoli precedenti Come Settare il campo Jolly Vedi capitoli precedenti Scarti incondizionati Vedi capitoli precedenti Criteri per eliminare i doppioni Vedi capitoli precedenti Vai Vedi capitoli precedenti Un caso pratico : sostituzione dei codici della categoria in un database Per fare l’esempio pratico scegliamo un database con numeri e caratteristiche vicine alla realtà. Supponiamo di avere un database con 100.000 record da 10 campi ciascuno e che sia presente il campo Categoria Alfabetica : esempio Uova, Pollame, Tacchini. Supponiamo inoltre che le categorie diverse tra loro siano in tutto 600 (poi ripetute, ovviamente). Il nostro scopo è effettuare la deduplica del file e associare a ciascuna categoria un codice numerico nostro. Es Uova=64200, Pollame=64250, Tacchini=64255 La duplica del file la effettuiamo con le regole già viste, per associare le nostre categorie dobbiamo operare nel modo seguente : 1) Effettuare una deduplica del file solo per campo Jolly, dopo aver scelto come campo Jolly la categoria alfabetica. 2) Otteniamo così un file composto da soli 600 record poiché le singole categorie compaiono una sola volta. 3) Eliminiamo dal file ottenuto tutti i campi tranne la categoria alfabetica 4) A mano aggiungiamo a queste 600 categorie un secondo campo che contiene i codici numerici che vogliamo aggiungere: Partendo da Uova Pollame Tacchini ……. Otteniamo Uova Pollame Tacchini XXXX 64200 (tra i campi è necessario inserire un carattere di tabulazione) 64250 64255 ……. 5) A questo punto dobbiamo aprire il database di partenza da 100.000 record (con excel, access, file maker o qualsiasi altro file e dobbiamo aggiungergli un campo vuoto (che poi conterrà la categoria numerica) Ora dobbiamo effettuare una unione di due database inserendo con me file1(old) il file delle 600 categorie con 2 campi e come file2(new) il file di partenza con 100.000 record deduplicato. Dobbiamo individuare i due campi comuni che sono il campo delle categorie alfabetiche ed il campo delle categorie numeriche (che nel database è il campo vuoto che abbiamo aggiunto) Come criterio di deduplica dobbiamo usare la categoria alfabetica come campo Jolly, il risultato finale sarà il file da 100.000 record con un campo in più rispetto all’originale, questo campo aggiunto sarà esattamente la categoria numerica che volevamo aggiungere all’inizio.