Setup del programma

advertisement
Manuale Programma DOBLO’ 2.2
Deduplica e Unione Database
Edizione Settembre 2004
Indice del Manuale
Installazione del programma e limitazione versione Demo
Cosa fa il programma
Deduplica singolo File









Setup del programma
Impostazione del programma
Assegnazione Campi
Assegnazione Campo Jolly
Cos’è il campo Jolly
Come Settare il campo Jolly
Scarti incondizionati
Criteri per eliminare i doppioni
Comando Vai
Unione di 2 Database









Setup del programma
Impostazione del programma
Assegnazione Campi
Assegnazione Campo Jolly
Come Settare il campo Jolly
Scarti incondizionati
Criteri per eliminare i doppioni
Comando Vai
Un caso pratico

Installazione del programma e limitazione versione Demo
Cliccare su setup.exe e seguire le istruzioni della procedura guidata di installazione. Ad
installazione ultimata il programma si trova nel menù ‘Start’ alla voce Program -> Doblò -> Doblò
A seconda della lingua con cui è stato installato Windows questi menù posso subire modificazioni
(‘Start’ diventa ‘Avvio’, ‘Program’ diventa ‘Programmi’ etc)
Se il calcolatore non risulta tra quelli abilitati alla esecuzione del programma, Doblò viene lanciato
in ‘demo mode’ ossia con una limitazione a 1000 del numero dei record in output.

Cosa fa il programma
Il programma serve per eliminare i record doppi contenuti all’interno di un singolo database e per
unire due database differenti senza introdurre record doppi nel database finale.
La deduplica e l’unione di database vengono effettuate cercando di estrarre dai record doppi trovati
il maggior numero di informazioni possibile, allo scopo di non perdere informazioni preziose
all’atto della deduplica o della unione.
Non vi sono limiti (tranne che nel Demo) sul numero di record e di campi contenuti nei file da
elaborare e neanche sul contenuto di ciascun singolo campo, è sufficiente che si tratti di campi
contenenti testo ASCII (quindi lettere, numeri, caratteri speciali) separati da tabulatore.
Deduplica Singolo File

Setup del Programma
Utilizzo del programma per deduplicare un singolo file
Nel primo Frame in alto è necessario spuntare l’opzione ‘Doblonatura Singolo Database’
Selezionando questa opzione il software potrà essere utilizzato in modalità deduplica singolo
database allo scopo di eliminare tutti i record doppi all’interno di un signolo database

Impostazione del Programma
Si prosegue indicando i nomi dei file: file di input, file di output e file di scarto.
Per scegliere il file di input premere su…
…e scegliere il direttorio ed il file che si desidera deduplicare. Dopo aver effettuato la scelta una
maschera dirà quanti campi contiene il file scelto in modo da avere un rapido riscontro sulla scelta
effettuata. Se la scelta fosse errata è possibile ripetere la procedura per scegliere un altro file.
Dopo la scelta del file di Output e file di Scarto il controllo verifica l’esistenza di tali file
avvertendo, in caso di esistenza accertata, che essi verranno sovrascritti.
Il file di input scelto può essere visualizzato cliccando sul bottone ‘Analizza 1’: si apre una finestra
che permette la navigazione all’interno del file con la possibilità di scegliere il campo da
visualizzare. Per uscire dalla finestra di ‘Analizza 1’ chiudere la finestra dalla ‘X’ in alto a destra.

Assegnazione Nomi Campi
Dalla maschera principale, premendo il bottone
Si accede alla Maschera
La schermata offre la possibilità di visualizzare tutti i campi del database. Al centro vengono
elencati una serie di categorie da assegnare come nome del campo, questa operazione può essere
effettuata facendo doppio click sulla categoria oppure premendo il tasto “Assegna Nome Campo”
dopo aver selezionato la categoria, per scorrere i record contenuti nel database e proseguire con
l’assegnazione dei nomi dei campi è sufficiente premere il tasto

Assegnazione Campo Jolly
E’ possibile attribuire ad un campo specifico la funzione di “Jolly”. Assegnare ad un campo del
database il Jolly è molto semplice, basta premere il tasto ‘Assegna Campo Jolly’ dopo averla
selezionata. Un solo campo tra quelli presenti nel database può essere considerato Jolly.
Attenzione è possibile assegnare la funzione Jolly solo dopo aver assegnato un nome al campo.
Questo comando permette di doblonare il file in funzione di alcuni criteri che possono essere
personalizzati in base alle proprie esigenze. Dopo aver assegnato il campo jolly, i dati di questo
campo verranno visualizzati in blu in modo tale da identificare sempre il Jolly selezionato.

Cos’è il campo Jolly
Il software mette a disposizione una particolare opzione che permette di “trattare” un determinato
campo del database in maniera molto particolare. Il fine di questa opzione è quello di mettere a
disposizione dell’utente un metodo per personalizzare e ottimizzare la doblonatura in base alle
proprie esigenze in modo tale di avere un risultato più preciso.
Un esempio pratico è quello di definire come Jolly il campo della email, sarà possibile deduplicare
il database in modo che non contenga neanche una email doppia.

Come settare il campo Jolly
Per sfruttare al meglio l’utilità di questa opzione è necessario settare le opzioni che vi si apriranno,
dalla finestra principale del programma, se cliccate sul comando Regole Jolly su F1
Compare una finestra che offre una serie di flag attivabili che andranno ad influire sull’esito della
doblonatura, la schermata divisa su 2 colonne offre la possibilità di verificare immediatamente
l’effetto del settaggio delle opzioni quindi l’utente può intuire da quello che filtra nella seconda
colonna se le impostazioni immesse sono corrette o meno. Il programma utilizza il campo Jolly non
come si trrova all’interno del database, ma come esso diventa dopo aver applicato le regole definite
dall’utilizzatore.
Attenzione
Quando si decide di utilizzare questa risorsa del software il risultato che il programma elaborerà
dipenderà principalmente da come sono state impostate le regole del campo Jolly, quindi
consigliamo sempre di controllare bene le opzioni settate in questa finestra.
La Finestra delle regole del Campo Jolly
Con le frecce in alto dobbiamo posizionarci sul campo scelto come Jolly, ci accorgiamo di questo
quando i dati diventano di colore blu. Successivamente possiamo impostare le regole al centro e
vericare in tempo reale l’effetto delle regole impostate sul contenuto del campo.
Le regole impostate si applicano, in questa finestra, anche agli altri campi che possiamo scorrere
con le frecce in alto, questo allo scopo di verificare se la scelta effettuata del campo Jolly sia o
meno la più significativa. Se decidiamo di cambiare il campo Jolly dobbiano chiudere questa form e
tornare nella finestra ‘Assegna Nomi dei Campi’

Scarti incondizionati
Il programma offre la possibilità di scartare a priori determinati record nel caso in cui un campo
specifico non fosse presente. Queste opzioni sono attivabili con dei flag presenti nella schermata
principale del software.

Criteri per eliminare i doppioni
Una volta effettuate queste operazioni l’ultima cosa che rimane da fare è quella di impostare quali
campi il programma deve esaminare per effettuare la doblonatura. Nella schermata principale, in
basso a destra, troviamo presenti 13 diverse combinazioni che il programma può utilizzare per
decidere con quali modalità consederare doppio un record del database.
Questo passaggio è fondamentale poiché tutte le operazione effettuate fino ad ora sono state di
impostazione, ma quest’ultimo passaggio consiste nel determinare quali regole il programma dovrà
utilizzare al fine di effettuare la doblonatura.
Il programma può effettuare la Doblonatura in funzione di un singolo campo oppure più campi
legati tra loro da operatori logici di tipo AND o OR.
Gli operatori AND e OR (operatori Booleani) operano secondo la logica delle associazioni logiche :
Supponendo che il campo Jolly sia l’email allora :
‘Tel AND Jolly’ pone come doppi i record che hanno lo stesso telefono ed anche la stessa email, se
i telefoni sono uguali ma le email no o viceversa i record non vengono considerati doppi.
‘Tel OR Jolly’ pone come doppi i record che hanno lo stesso telefono o la stessa email, se i telefoni
sono uguali ma le email no o viceversa i record vengono considerati doppi.
Il Campo Ragione Sociale viene utilizzato sempre in coppia con il campo CAP, questa modalità è
dettata dal fatto che non è difficile trovare due aziende con lo stesso identico nome, mentre questa
probabilità si riduce drasticamente se operiamo all’interno dello stesso CAP. In pratica per il
programma la ‘SERVIZI INTEGRATI S.P.A.’ con CAP ‘20124’ risulta essere una azienda diversa
da
‘SERVIZI INTEGRATI S.P.A.’ con CAP ‘70100’.

Vai
Ciccando sul tasto Vai il software esegue l’operazione di eliminazione dei doppioni in base al setup
impostato, per visualizzare il risultato sarà sufficiente aprire il file di output (precedentemente
settato) con un qualsiasi programma di gestione database, es.: Excel, Acces, FileMaker,etc.
Unione di 2 Database

Setup del Programma
Lo scopo di questa sezione del software è quella di analizzare 2 database e di fonderli insieme in
base ad alcuni criteri che daranno la possibilità allo stesso tempo di aggiornare il database uscente
eliminando dati obsoleti.
Spuntando l’opzione Unione 2 Database il programma modifica automaticamente le impostazioni
della schermata principale.
Per effettuare la fusione (unione intelligente) di 2 database differenti si devono scegliere i nomi
relativi ai 2 file da unire. La scelta del file1 (old) e file2 (New) non deve essere casuale: si deve
impostare il File1 come sorgente di dati meno aggiornata (quindi verosimilmente il database più
vecchio), mentre invece come File2 quello con i dati più recenti, in modo tale da consentire al
programma di filtrare, nel momento in cui trova dei record uguali ma con dati differenti, quelli che
saranno più aggiornati e quindi più attendibili.
Es:
in questo caso (molto semplificato) possiamo vedere che nel record del F1 il telefono e la mail sono
differenti da quelli presenti nel F2.
File
1
(old) File 2 (new)
Rag.Soc.
Via
Tel
Mail
Rag.Soc. Via
Tel
Mail
Basf
Verdi,21
02 546987
[email protected]
Basf
02 123456
[email protected]
Risultato:
File 1+2
Rag Soc
Basf
Via
Verdi, 21
Tel
02 123456
Mail
[email protected]
Il programma porterà nel file di output finale tutti i dati doppi una volta sola (RagSoc,Via) e nel
momento in cui scopre che per lo stesso campo ci sono 2 dati differenti nei 2 database estrae quello
di F2 (new), proprio perché lo riconosce come il più aggiornato, inoltre nel caso in cui il file meno
aggiornato avesse dati che non sono presenti nel F2 il software li estrae complementandoli a quelli
che ha estratto dal file più aggiornato.
In pratica il programma si comporta come la persona che ha ricevuto l’ordine di unire i record senza
buttare via informazioni che potrebbero risultare preziose. Quindi, quando trova un doppione (ossia
un record presente sia nel file1 che nel file2), prende tutti i campi presenti nel file2 (New) e
recupera dal file1 solo i campi che non hanno alcuna informazione nel file2. Nell’esempio riportato
la via non era presente nel database nuovo ed è stata recuperata dal database vecchio.

Impostazione del programma
Il criterio di impostazione è lo stesso utilizzato per la prima parte del software, si inserisce il nome
del file di input 1, che il programma riconoscerà come più vecchio, dopodiché si inserisce il file di
input 2 (new - più recente), infine si imposta quale sarà il file di uscita del programma

Assegnazione Campi
Premendo il bottone
Si accede alla Maschera
La schermata visualizza 3 colonne, in quella centrale sono presenti le categorie da assegnare, nella
colonna di sinistra ci sono i dati del F1 e in quella di destra quelli del F2. L’operazione da eseguire
è quella di assegnare ai dati i nomi dei campi corretti per ambedue i database.
Per scorrere i campi dei database è sufficiente premere il tasto
Una volta individuati nel File1 e nel File2 un campo comune (ad esempio la Ragione Sociale) si
clicca (doppio clic) sul nome del campo nella colonna a centro (oppure si preme il tasto funzione
<<Assegna Nome Campo>>) ed il programma associa a quella specifica coppia di campi il
nomecampo scelto.
Esempio : supponiamo che il file1 contenga i campi Ragione Sociale, Cap,Tel, Email e Città ed il
file2 contenga i campi Ragione Sociale, Cap, Fax, Email e Categoria.
Per unirli dobbiamo operare come segue :
1) Aprire la finestra assegna nome campi e scorrere il contenuto dei file, individuare il campo
del file1 (2) che contiene la Ragione Sociale ed assegnargli il nome RAGIONE SOCIALE.
2) Possiamo ora individuare ed assegnare il nome anche agli altri campi comuni: CAP, Email,
tel, fax etc etc
3) Ai campi non comuni: Tel e Città del file1 e Fax e Categoria del file2 non va assegnato
alcun nome
4) Possiamo assegnare la funzione Jolly al campo Email (comune ai 2 file)
Dopo aver assegnato le regole di filtro del campo Jolly possiamo eseguire la unione dei database in
funzione dei campi RagSoc/cap, Campo Jolly, oppure RagSoc/cap & Campo Jolly (il valore di &
potrà essere di AND oppure OR logico). Quindi abbiamo 13 possibili scelte per le regole della
unione/deduplica.
In funzione delle regole scelte il programma unisce i database e crea un file di output che avrà
questi campi :
Ragione Sociale, Cap, Email,Tel, Fax, Città, Categoria (le categorie che non compaiono in entrambi
i databae avranno n omi diversi, assegnati dal programma).
Ossia la somma dei campi comuni e non comuni ai 2 database.
Assegnazione Campo Jolly
Vedi capitoli precedenti

Come Settare il campo Jolly
Vedi capitoli precedenti

Scarti incondizionati
Vedi capitoli precedenti

Criteri per eliminare i doppioni
Vedi capitoli precedenti

Vai
Vedi capitoli precedenti
Un caso pratico : sostituzione dei codici della categoria in un database
Per fare l’esempio pratico scegliamo un database con numeri e caratteristiche vicine alla realtà.
Supponiamo di avere un database con 100.000 record da 10 campi ciascuno e che sia presente il
campo Categoria Alfabetica : esempio Uova, Pollame, Tacchini.
Supponiamo inoltre che le categorie diverse tra loro siano in tutto 600 (poi ripetute, ovviamente).
Il nostro scopo è effettuare la deduplica del file e associare a ciascuna categoria un codice numerico
nostro. Es Uova=64200, Pollame=64250, Tacchini=64255
La duplica del file la effettuiamo con le regole già viste, per associare le nostre categorie dobbiamo
operare nel modo seguente :
1) Effettuare una deduplica del file solo per campo Jolly, dopo aver scelto come campo Jolly la
categoria alfabetica.
2) Otteniamo così un file composto da soli 600 record poiché le singole categorie compaiono
una sola volta.
3) Eliminiamo dal file ottenuto tutti i campi tranne la categoria alfabetica
4) A mano aggiungiamo a queste 600 categorie un secondo campo che contiene i codici
numerici che vogliamo aggiungere:
Partendo da
Uova
Pollame
Tacchini
…….
Otteniamo
Uova
Pollame
Tacchini
XXXX
64200 (tra i campi è necessario inserire un carattere di tabulazione)
64250
64255
…….
5) A questo punto dobbiamo aprire il database di partenza da 100.000 record (con excel,
access, file maker o qualsiasi altro file e dobbiamo aggiungergli un campo vuoto (che poi
conterrà la categoria numerica)
Ora dobbiamo effettuare una unione di due database inserendo con me file1(old) il file delle 600
categorie con 2 campi e come file2(new) il file di partenza con 100.000 record deduplicato.
Dobbiamo individuare i due campi comuni che sono il campo delle categorie alfabetiche ed il
campo delle categorie numeriche (che nel database è il campo vuoto che abbiamo aggiunto)
Come criterio di deduplica dobbiamo usare la categoria alfabetica come campo Jolly, il risultato
finale sarà il file da 100.000 record con un campo in più rispetto all’originale, questo campo
aggiunto sarà esattamente la categoria numerica che volevamo aggiungere all’inizio.
Scarica