RIASSUNTO L’analisi logica dei dati (LAD, Logical Analysis of Data) è stata introdotta da Peter Hammer verso la metà degli anni 80 ed è stata sviluppata in seguito principalmente ad opera di Hammer stesso e della sua scuola. La LAD è una metodologia che, avendo in ingresso un training set di osservazioni caratterizzate da n attributi binari e/o numerici , e già raggruppate in positive o negative, classifica ogni nuova osservazione come negativa o positiva in base ai suoi attributi. Dunque si tratta di una metodologia di classificazione supervisionata: essa però fornisce anche una spiegazione del carattere positivo o negativo di un osservazione in termini di certe combinazioni di attributi presenti/assenti dette configurazioni logiche (patterns). La Lad che a differenza di altre metodologie di classificazione usa il macchinario della logica matematica e dell’ottimizzazione combinatoria, è stata utilizzata con successo in una a grande varietà di applicazioni: diagnosi e prognosi medica, country ratings, credit scoring, ammissioni ad un college, analisi dei fattori economici della produttività in Cina, identificazione dei siti di trivellazione petrolifera, discriminazione tra terremoti ed esplosioni nucleari sotteranee in Siberia. Nel primo capitolo del presente lavoro viene data un introduzione ai concetti fondamentali della teoria alla base dell’applicazione della LAD. Il secondo capitolo espone da un profilo utente (quindi non eccessivamente dettagliato) il codice per la binarizzazione implementato dal Prof. Vittorio Moriggia che mi ha seguito con pazienza e disponibilità durante la stesura di questa tesi.Come detto infatti la LAD può essere applicata anche ad un set di dati numerici ma in questo caso la binarizzazione di tali dati è condizione necessaria ed indispensabile al processo di classificazione. Il cuore del lavoro svolto è rappresentato dal terzo e dal quarto capitolo. Partendo da due campioni di dati (training set) già classificati ed entrambi costruiti ad hoc tramite l’utilizzo delle distribuzioni di frequenza viene monitorata la bontà di classificazione della LAD in merito alla variazione dei metodi di binarizzazione applicati ai campioni di partenza con una particolare attenzione all’opzione di binarizzazione che prevede la suddivisione di ciascuna colonna di attributi in intervalli di pari lunghezza. Gli attributi presenti nell’insieme dei dati (dataset, database) alla base della sperimentazione, sono il risultato dell’applicazione di varie funzioni che generano variabili casuali distribuite in modo uniforme o normale. Per quanto riguarda le prime due colonne di attributi, sono state create grazie alla funzione generatrice di numeri pseudo-random (casuale) ovvero di una variabile aleatoria distribuita in modo uniforme e compresa tra 0 ed 1. La terza colonna di attributi è il risultato dell’applicazione della funzione di Abramowitz il quale partendo da due distribuzioni uniformi approssima una distribuzione normale, mentre la quarta colonna di attributi deriva dall’applicazione della funzione inversa normale standardizzata che restituisce l’inversa di una distribuzione normale con media pari a 0 e varianza uguale ad 1( distribuzione normale standardizzata).