RIASSUNTO
L’analisi logica dei dati (LAD, Logical Analysis of Data) è stata introdotta da Peter
Hammer verso la metà degli anni 80 ed è stata sviluppata in seguito principalmente
ad opera di Hammer stesso e della sua scuola. La LAD è una metodologia che, avendo
in ingresso un training set di osservazioni caratterizzate da n attributi binari e/o
numerici , e già raggruppate in positive o negative, classifica ogni nuova
osservazione come negativa o positiva in base ai suoi attributi. Dunque si tratta di
una metodologia di classificazione supervisionata: essa però fornisce anche una
spiegazione del carattere positivo o negativo di un osservazione in termini di certe
combinazioni di attributi presenti/assenti dette configurazioni logiche (patterns). La
Lad che a differenza di altre metodologie di classificazione usa il macchinario della
logica matematica e dell’ottimizzazione combinatoria, è stata utilizzata con successo
in una a grande varietà di applicazioni: diagnosi e prognosi medica, country ratings,
credit scoring, ammissioni ad un college, analisi dei fattori economici della
produttività
in
Cina,
identificazione
dei
siti
di
trivellazione
petrolifera,
discriminazione tra terremoti ed esplosioni nucleari sotteranee in Siberia. Nel primo
capitolo del presente lavoro viene data un introduzione ai concetti fondamentali della
teoria alla base dell’applicazione della LAD. Il secondo capitolo espone da un profilo
utente (quindi non eccessivamente dettagliato)
il codice per la binarizzazione
implementato dal Prof. Vittorio Moriggia che mi ha seguito con pazienza e
disponibilità durante la stesura di questa tesi.Come detto infatti la LAD può essere
applicata anche ad un set di dati numerici ma in questo caso la binarizzazione di tali
dati è condizione necessaria ed indispensabile al processo di classificazione.
Il
cuore del lavoro svolto è rappresentato dal terzo e dal quarto capitolo. Partendo da
due campioni di dati (training set) già classificati ed entrambi costruiti ad hoc tramite
l’utilizzo delle distribuzioni di frequenza viene monitorata la bontà di classificazione
della LAD
in merito alla variazione dei metodi di binarizzazione applicati
ai
campioni di partenza con una particolare attenzione all’opzione di binarizzazione che
prevede la suddivisione di ciascuna colonna di attributi in intervalli di pari
lunghezza.
Gli attributi presenti nell’insieme dei dati (dataset, database) alla base della
sperimentazione, sono il risultato dell’applicazione di varie funzioni che generano
variabili casuali distribuite in modo uniforme o normale.
Per quanto riguarda le prime due colonne di attributi, sono state create grazie alla
funzione generatrice di numeri pseudo-random (casuale) ovvero di una variabile
aleatoria distribuita in modo uniforme e compresa tra 0 ed 1. La terza colonna di
attributi è il risultato dell’applicazione della funzione di Abramowitz il quale
partendo da due distribuzioni uniformi approssima una distribuzione normale, mentre
la quarta colonna di attributi deriva dall’applicazione della funzione inversa normale
standardizzata che restituisce l’inversa di una distribuzione normale con media pari a
0 e varianza uguale ad 1( distribuzione normale standardizzata).