Fattorizzazioni matriciali non negative per l`analisi

Fattorizzazioni matriciali non negative per
l’analisi dei dati nell’Educational Data Mining
1
1
2
Gabriella Casalino , Ciro Castiello , Nicoletta Del Buono , Corrado Mencar
1
1
2
Università degli Studi di Bari, Dipartimento di Informatica, Dipartimento di Matematica
via E. Orabona 4, 70125 Bari, Italy
[email protected], [email protected], [email protected],
[email protected]
In questo articolo proponiamo l’impiego delle fattorizzazioni
matriciali non negative per l’analisi dei dati nell’Educational
Data Mining. Il metodo si basa su un processo di
decomposizione di un dataset per l’estrazione di
informazioni latenti di immediata interpretazione. In
particolare, l’applicazione delle fattorizzazioni non negative a
score matrix consente di generare in modo automatico le
cosiddette question matrix (Q-matrix), che descrivono le
abilità necessarie affinché uno studente possa rispondere
adeguatamente a questionari di valutazione. Un esempio su
dati real-world illustra l’efficacia del metodo.
1. Introduzione
L’analisi dei dati, intesa come l’attività finalizzata alla ricerca ed estrazione di
informazioni da un dataset, è un processo tanto complesso quanto essenziale
in svariati campi di applicazione. Fra le principali problematiche connesse
all’analisi dei dati, è possibile citare l’intrinseca “inesattezza” dei dati raccolti e
l’eventuale presenza fra essi di complesse reti di interazioni. L’inesattezza è
spesso dovuta agli strumenti fisici di acquisizione dei dati (tarati sulla base di
una precisione limitata) o ai meccanismi pratici messi in atto per la raccolta dei
dati (influenzati da criteri di giudizio soggettivi e arbitrari). L’interazione fra le
variabili che caratterizzano i dati, invece, fa sì che le informazioni in essi
incorporate risultino ambigue e sovrapposte, quindi inadatte a esprimere in
modo chiaro la conoscenza che è implicitamente contenuta nei dati stessi.
Quest’ultima problematica è fortemente avvertita in contesti – quali quello
dell’e-learning – dove occorre gestire grandi quantità di dati che descrivono un
continuum di interazioni. I punteggi riportati dagli studenti, le risposte fornite da
questionari on-line, gli eventi negli Intelligent Tutoring System rappresentano
esempi di interazione di tipo teaching-learning nelle quali si producono dati in
modo continuo e condiviso, ma che spesso non sono in grado di veicolare agli
attori di un sistema educazionale una conoscenza esplicita diretta,
indipendentemente dalle caratteristiche delle modalità di accesso ai dati stessi.
Al fine di raggruppare automaticamente informazioni omogenee, scoprire le
T. Roselli, A. Andronico, F. Berni, P. Di Bitonto, V. Rossano (Eds.): DIDAMATICA 2012, ISBN: 978-88-905406-7-7
DIDAMATICA 2012
relazioni che intercorrono fra gli argomenti coinvolti in un test o un questionario,
evidenziare i fattori latenti responsabili dei meccanismi di apprendimento, è
possibile fare ricorso a opportuni meccanismi di analisi dei dati, utili per ottenere
indicazioni sui processi cognitivi e per realizzare forme di apprendimento
individualizzato basate sulle performance degli studenti.
L’Educational Data Mining (EDM) [Romero e Ventura, 2010] è una disciplina
emergente che si propone di studiare tecniche di estrazione di conoscenza dai
dati in scenari di e-learning. I diversi metodi proposti nell’ambito dell’EDM sono
mirati a collezionare, archiviare e analizzare dati riguardanti i processi di
apprendimento e di valutazione degli studenti, al fine di rilevare categorie
concettuali non direttamente osservabili, quali le attitudini, gli interessi, i valori,
la personalità, le capacità cognitive.
In questo articolo proponiamo l’impiego di un particolare metodo matematico
– quello delle fattorizzazioni matriciali non negative – il cui utilizzo nell’ambito
dell’EDM contribuisce a un’efficace analisi dei dati. Il metodo si basa su un
processo di decomposizione di un dataset, che permette di estrarre dai dati
informazioni latenti la cui interpretazione risulta più immediata rispetto a quelle
estraibili mediante metodi analoghi (in virtù delle caratteristiche peculiari che
distinguono le fattorizzazioni matriciali non negative rispetto ad altri metodi di
fattorizzazione). Le informazioni estratte rappresentano i building block di un
modello cognitivo di apprendimento che trova corrispondenza in una particolare
matrice, la cosiddetta question matrix (Q-matrix), che descrive le abilità
necessarie affinché uno studente possa rispondere adeguatamente a
questionari di valutazione.
La prossima sezione descrive brevemente le tecniche di fattorizzazione
matriciale che trovano impiego nell’ambito dell’EDM, introducendo in particolare
le fattorizzazioni non negative. L’utilizzo di tali tecniche in contesti di e-learning
è illustrato nella sezione 3 facendo riferimento allo stato dell’arte in letteratura.
Nella sezione 4 si descrive un esempio illustrativo relativo all’impiego di
fattorizzazioni non negative su un particolare dataset reale, corredato da una
serie di commenti sui risultati sperimentali ottenuti. La sezione 5 chiude
l’articolo con alcune osservazioni finali.
2.Tecniche di fattorizzazione per l’Educational Data Mining
Due teorie fondamentali influenzano la scelta del metodo più opportuno per
analizzare dati di e-learning: la teoria classica dei test (Classical Test Theory,
CTT) [Gulliksen, 1950] e la teoria di risposta agli item (Item Response Theory,
IRT) [Lord, 1952]. Entrambe le teorie si basano sull’assunzione che le risposte
a specifici test possono essere considerate manifestazioni di fattori latenti, ossia
non immediatamente osservabili, ma ricavabili indirettamente dalle risposte
fornite. La CTT si basa su un modello matematico in cui la variabile dipendente,
il punteggio totale al test, è ricavata combinando le variabili indipendenti, che
sono rappresentate dal punteggio reale ottenuto dall'individuo su determinati
fattori latenti e da una componente di errore. L'IRT propone di valutare la
performance di un soggetto in funzione delle abilità registrabili sui fattori latenti
Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining
mediante un modello statistico-matematico, che permette di giungere non
soltanto alla valutazione della prestazione del singolo, ma anche delle
caratteristiche delle domande del test.
La definizione di fattore latente dipende dalla rappresentazione dei dati e
dagli operatori applicati su essi. In questo particolare contesto si assume
comunemente che i fattori latenti siano rappresentati come vettori di abilità, a
coefficienti non-negativi, tali che le competenze di ciascuno studente possano
essere definite come combinazioni lineari di tali vettori. In particolare, indicata
con X la matrice delle risposte di n studenti a m quesiti presenti in un test, essa
è fattorizzabile nella forma:
X = WH + E,
dove la matrice W, di dimensioni m × k, codifica le relazioni tra k fattori latenti e
m quesiti, mentre la matrice H, di dimensioni k × n, descrive le abilità degli n
studenti rispetto ai k fattori latenti e la matrice E, di dimensioni m × n, riassume
il rumore nella misurazione dei punteggi. Occorre osservare che la presenza di
k fattori latenti (con k < min(m, n)) suggerisce implicitamente la possibilità di
descrivere i dati facendo ricorso a una dimensionalità inferiore rispetto a quella
effettiva.
Nel contesto brevemente delineato, i metodi in grado di approssimare la
matrice X dei dati, al fine di ridurne la dimensionalità e di rimuovere il rumore,
rivestono un’importanza fondamentale. Esempi classici di tali metodi sono la
decomposizione a valori singolari (Singular Value Decomposition, SVD) [Nash,
1990] e l’analisi delle componenti indipendenti (Independent Component
Analysis, ICA) [Hyvarinen, 1999]. La SVD fornisce l'approssimazione ottimale
(in termini di least-squared error), di dimensionalità ridotta, della matrice X. La
caratteristica della SVD è quella di fornire componenti W e HT le cui colonne
sono basi ortogonali che generano sottospazi dei dati presenti in X. Ciò implica
che gli elementi di W e H (e quindi dell’approssimazione di X fornita dalla SVD)
variano nel range [−∞,∞], ossia possono risultare negativi. Tale eventualità
rappresenta un fattore non trascurabile in contesti nei quali risulta cruciale
l’interpretazione delle informazioni contenute nelle matrici X, W e H (e quindi del
segno dei loro elementi). A tal proposito, occorre osservare che nel contesto di
e-learning preso in esame, nel quale i dati sono rappresentabili mediante
combinazione lineare di fattori latenti, una composizione puramente additiva
(senza componenti negative) assicurerebbe una più immediata interpretabilità
dei risultati della fattorizzazione.
L'ICA è simile alla SVD, ma non si limita alla ricerca di basi ortogonali. La
non ortogonalità delle basi ha importanti implicazioni nell'e-learning. Infatti, se i
fattori latenti sono interpretati come generici argomenti di esame, la mancanza
di ortogonalità permette la scoperta di argomenti parzialmente sovrapponibili,
rendendo più evidenti le loro reciproche relazioni. Anche in questo caso,
essendo le basi del tutto generiche, permane il problema di un’eventuale
presenza di segni negativi nelle combinazioni lineari dei fattori latenti.
Un diverso metodo di rank reduction è la fattorizzazione non-negativa (NonNegative Matrix Factorization, NMF) [Lee e Seung, 1999], che è in grado di
determinare una rappresentazione dei dati, di dimensionalità ridotta, mediante
DIDAMATICA 2012
combinazioni lineari puramente additive. Tale fattorizzazione genera la
cosiddetta “rappresentazione basata sulle parti” in cui i dati della matrice X si
rappresentano come combinazioni lineari di basi non negative. Come
accennato in precedenza, tale caratteristica risulta particolarmente utile in un
contesto di e-learning nel quale non ha senso pratico parlare di quesiti che
influiscono in modo “negativo” sugli argomenti, o di studenti che mostrano
“abilità negative” in particolari aree.
2.1 Fattorizzazioni matriciali non negative (NMF)
Il problema di determinare una fattorizzazione non negativa di un insieme di
dati può essere formalizzato nel modo seguente. Assegnata una matrice X di
dimensione m × n, si vuole determinare una decomposizione di X in una matrice
W di dimensioni m × k (detta matrice di base) e una matrice H di dimensioni k × n
(detta matrice di codifica), con W e H aventi elementi non negativi e tali che il
loro prodotto approssimi la matrice X:
X ≈ WH.
(1)
Generalmente, il rango k delle due matrici W e H è minore del rango di X. Le
colonne della matrice W costituiscono una base di un sottospazio di dimensione
k dello spazio generato dalle colonne di X; ogni colonna della matrice H
rappresenta il vettore dei pesi necessari ad approssimare la corrispondente
colonna della matrice X utilizzando la base contenuta in W.
Una NMF di X può essere ottenuta minimizzando l’errore di
approssimazione tra la matrice dei dati originali X e la sua approssimazione WH
2
di rango ridotto. In particolare, si è soliti minimizzare la quantità ||X - WH||
conservando il vincolo di non negatività sugli elementi di W e H. L’algoritmo più
utilizzato per calcolare una NMF è il multiplicative update algorithm proposto in
[Lee e Seung, 1999]. Altri possibili algoritmi applicabili per il calcolo della NMF
sono: il metodo ai minimi quadrati alternati non-negativi [Berry et al., 2007]; il
metodo del gradiente proiettato [Lin, 2007].
Vincoli aggiuntivi, quali la sparsità o l’ortogonalità, possono essere imposti in
modo approssimato su W e/o H modificando opportunamente la funzione che
descrive l’errore di approssimazione. Esempi in tal senso sono le NMF sparse
(NMFSC) [Hoyer, 2004] e le NMF ortogonali (ONMF) [Yoo e Choi, 2008]. Per
ulteriori dettagli, il lettore interessato può far riferimento alla bibliografia
[Cichocki et al, 2009].
3. Le NMF nell’Educational Data Mining
Alcuni dei dataset tipicamente disponibili in un contesto di e-learning sono
rappresentabili attraverso una matrice X, di dimensione m × n, che registra i
punteggi ottenuti da n studenti su m quesiti (nel seguito tale matrice sarà
chiamata anche «score matrix» e i quesiti saranno indicati anche con il termine
«item»). Gli elementi Xij di X sono quantità non negative (eventualmente ridotte
al semplice caso binario di valori 1 e 0 in corrispondenza di risposte corrette e
sbagliate) che indicano il punteggio che un generico studente j ottiene per uno
Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining
specifico item i. Come specificato in precedenza, a partire da una score matrix
è possibile condurre un’analisi tesa a individuare i fattori latenti coinvolti nel
processo di apprendimento. L’interpretazione specifica di tali fattori può variare
a seconda del contesto in esame: nel seguito essi saranno indicati mediante il
generico termine «skill».
Nelle prossime sezioni si descrivono brevemente alcuni esempi tratti dalla
letteratura nei quali le fattorizzazioni non negative sono state utilizzate per
affrontare e risolvere diversi problemi in contesti di EDM.
3.1 NMF per il calcolo della Q-matrix
La Q-matrix, o matrice di incidenza item-skill, evidenzia le relazioni tra gli item
che costituiscono un test e gli skill che si ipotizza siano coinvolti nel processo
cognitivo che induce gli studenti a rispondere in un certo modo ai quesiti del test
[Tatsuoka, 1983]. Si assume, infatti, che uno studente risponda correttamente a
un quesito se e solo se è in possesso dello skill rilevante per quello specifico
item. La Q-matrix può essere una matrice binaria, nel caso in cui ciascun item è
in relazione binaria (mediante valori 0 o 1) con gli skill. In alternativa, la Qmatrix può contenere valori che variano in modo continuo in un range di numeri
reali che descrivono l’influenza di uno skill per ogni item.
Poiché gli skill non si manifestano esplicitamente (la presenza effettiva di un
particolare skill può essere solo ipotizzata su basi soggettive), la costruzione di
una Q-matrix è un processo non banale. Per ovviare a questa difficoltà, la NMF
è stata utilizzata per estrarre automaticamente una Q-matrix da matrici di dati
che riportano le risposte di studenti a questionari [Desmarais et al., 2012]. In
questo contesto, le matrici W e H rappresentano rispettivamente le relazioni
item-skill e skill-studente: in tal modo la matrice W assume la forma della Qmatrix. Mediante la NMF, lo spazio in cui sono descritti n studenti è
approssimato tramite un sottospazio di dimensione k in cui sono descritti gli
skill. Gli skill, quindi, sono rappresentati dalle colonne di W: la loro
combinazione con i valori della matrice H consente di approssimare la matrice
dei punteggi degli studenti, come specificato dall’equazione (1). Pertanto, è
possibile interpretare ogni colonna della matrice H come il grado di rilevanza
con cui uno studente ha acquisito un particolare skill.
È il caso di osservare che l’utilità della NMF nel ricavare automaticamente la
Q-matrix (rappresentabile mediante la matrice W) dipende dal soddisfacimento
di alcune condizioni teoriche che riguardano sia i meccanismi di apprendimento
degli skill, sia la configurazione statistica dei dati presenti nella score matrix
(ulteriori dettagli a tal riguardo si trovano in [Desmarais, 2011]).
3.2 NMF per collaborative filtering e student recommendation
In particolari contesti nei quali occorre interagire con una vasta platea di
utenti, può essere utile l’impiego di metodi in grado di effettuare predizioni
automatiche relative al comportamento e alle preferenze di nuovi utenti sulla
scorta di analoghe informazioni già ottenute in precedenza. I sistemi di
collaborative filtering consentono di analizzare ingenti basi di dati al fine di
DIDAMATICA 2012
filtrare informazioni utili per definire le preferenze di un dato tipo di utenza. In tal
senso, un processo di collaborative filtering può essere inteso come un mezzo
per identificare i fattori latenti che influenzano il comportamento degli utenti.
Traslato nel campo dell’e-learning, un sistema di collaborative filtering può
risultare utile per estrarre quelle informazioni latenti che determinano le risposte
degli studenti ai quesiti proposti, al fine di utilizzarle per fornire suggerimenti utili
a migliorare il processo di formulazione dei quesiti e di valutazione dei risultati.
In [Winters e Payne, 2005] si descrive una sperimentazione che dimostra
come la NMF risulti la tecnica più idonea (in un confronto con algoritmi
alternativi) per costruire un sistema di collaborative filtering da applicare nel
contesto di e-learning. In [Thai-Nghe et al., 2012] si studia l’utilità delle
fattorizzazioni matriciali per la predizione delle performance degli studenti che si
sottopongono a test, sulla base dell’analisi di dati relativi a questionari già
compilati. La ricerca descritta in [Lambropoulos et al., 2011] utilizza la NMF nel
particolare contesto dei forum di discussione degli studenti. In questo caso, la
matrice dei dati di partenza non corrisponde alla score matrix, ma raccoglie
informazioni relative ai commenti degli studenti su diversi corsi ed esami. La
NMF risulta utile per estrarre tematiche non esplicite di interesse per gli
studenti, al fine di fornire indicazioni ai tutor su come migliorare l’offerta
formativa e l’organizzazione didattica.
4.Esempio illustrativo
Per mostrare un esempio concreto di applicazione della NMF in un contesto
di e-learning, si è preso in esame il dataset SAT [Desmarais, 2011], composto
dall'esito dell'esame di 297 studenti su 40 domande (item) relative a quattro
argomenti: Matematica (item 1-10), Biologia (item 11-20), Storia mondiale (item
21-30), Francese (item 31-40). Il dataset ha la classica rappresentazione in
forma di score matrix binaria: ogni elemento della matrice è pari a 1 o 0 se alla
domanda corrispondente lo studente ha risposto in maniera corretta o sbagliata.
L'applicazione della tecnica NMF consente di ottenere automaticamente una
Q-matrix a partire dai dati della score matrix. Sebbene la conoscenza a priori
dei dati suggerisca la presenza di 4 skill, l’informazione latente relativa al
dataset potrebbe non essere completamente catturata dalla distinzione degli
item in 4 argomenti, pertanto è stata effettuata una verifica condotta mediante
l’applicazione della SVD alla score matrix. Tale verifica ha confermato la
plausibilità di discernere nei dati la presenza di 4 fattori latenti (dei quali solo
due risultano distinguibili in modo evidente). Fattorizzazioni con un numero
diverso di fattori sono comunque possibili, ma in questo esempio illustrativo,
sulla base della verifica effettuata, si è mantenuta un’impostazione basata su 4
skill.
Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining
Fig.1 – Matrice W ottenuta applicando la NMF alla score matrix SAT.
L’applicazione della NMF alla score matrix produce la fattorizzazione
descritta dall’equazione (1) e le matrici W e H hanno rispettivamente dimensione
40×4 e 4×297. La Fig.1 rappresenta la matrice W (Q-matrix) ottenuta mediante
l’applicazione della NMF. Per una migliore rappresentazione, nella figura i
quattro skill sono disposti su ogni riga, mentre sulle colonne sono individuati gli
item. La tonalità di grigio di ciascuna cella indica il peso di ogni skill nel
caratterizzare l’item corrispondente: tonalità più chiare corrispondono a pesi
maggiori. Dalla figura si evince come gli skill 1 e 2 (più in basso nella figura)
siano prevalentemente determinati da gruppi contigui di item, e gli skill 3 e 4
siano caratterizzati da item sparsi nel dataset (ciò è in linea con l’analisi
preliminare effettuata mediante SVD). Poiché item contigui rappresentano
quesiti relativi allo stesso argomento (a gruppi di 10), ne consegue che gli skill 1
e 2 sono semanticamente allineati con gli argomenti relativi a due gruppi di item
contigui (in particolare Matematica e Francese), mentre gli skill 3 e 4 sono
definiti da una composizione di argomenti (Biologia e Storia mondiale). Questa
discrepanza tra skill e argomenti è significativa: poiché la score matrix riporta il
punteggio di ciascuno studente per ogni item, la Q-matrix risultante indica che
due dei 4 skill combaciano con due argomenti, mentre i rimanenti due stanno a
indicare “abilità miste” che non possono essere semanticamente inquadrate in
uno degli argomenti noti a priori. Solo a titolo di esempio, questo risultato
potrebbe fare ipotizzare una riorganizzazione dei corsi al fine di rendere più
affini gli argomenti con gli skill (ma potrebbe valere anche l'argomento contrario:
rendere gli skill maggiormente interdisciplinari).
La Fig.2 illustra la matrice H che, per maggior chiarezza, è ridotta alle sue
prime 10 colonne. Come precedentemente osservato, tale matrice individua i
gradi di rilevanza con cui uno studente ha acquisito un particolare skill e
permette, quindi, di evidenziare quali sono gli skill nei quali ciascuno studente è
più o meno preparato. Anche in questo caso a tonalità più chiare corrispondono
gradi di rilevanza maggiori. Pertanto, si può affermare che molti studenti hanno
un’elevata abilità rispetto allo skill 1 (che coincide con l'argomento
“Matematica”), mentre lo studente 8 ha maggiori abilità negli skill 3 e 4, che
DIDAMATICA 2012
Fig.2 – Porzione della matrice H prodotta dall'applicazione della NMF alla
score matrix SAT.
invece non coincidono con alcun argomento specifico. I gradi di rilevanza
associati a ciascuno studente possono essere utilizzati per raggruppare gli
studenti sulla base degli skill in cui sono più o meno abili. Solo a titolo di
esempio, gli studenti possono essere raggruppati in base agli skill in cui sono
meno abili al fine di organizzare corsi di recupero.
Il calcolo delle matrici W e H (e dunque degli skill) non è univoco. Da un
punto di vista tecnico, ciò significa che modifiche ai parametri di configurazione
dell'algoritmo NMF possono portare a risultati differenti, sebbene spesso
accomunati da errori di approssimazione simili nella ricostruzione della score
matrix. Fra i parametri di configurazione vi sono le matrici iniziali che si
utilizzano per avviare l’algoritmo di fattorizzazione [Berry et al, 2007]. In Fig.3
sono riportate le matrici W ricavate a partire da due diverse inizializzazioni:
come si osserva, le immagini non evidenziano differenze significativamente alte
(a meno di permutazioni di riga che non ne modificano la semantica).
Imponendo, invece, che le matrici W e H soddisfino vincoli addizionali (quali
l’ortogonalità o la sparsità), si possono rilevare differenze significative nei
risultati finali. Infatti, come illustrato in Fig.4, tali vincoli di fatto introducono
conoscenza all'interno del processo di fattorizzazione. Nel caso del vincolo di
sparsità, per esempio, gli skill rintracciabili nella matrice W sono rappresentati
da un numero ridotto di item: ciò consente di migliorarne l'interpretabilità, al
prezzo di un più alto errore di approssimazione della score matrix.
Fig.3 – Rappresentazione di due matrici W ottenute mediante due applicazioni
della NMF: NMF inizializzata in modo casuale (sinistra); NMF inizializzata con
l’algoritmo fuzzy c-means (destra).
Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining
Fig.4 – Rappresentazione di due matrici W ottenute mediante due applicazioni
della NMF con vincoli aggiuntivi: NMF con sparsità (sinistra); NMF con
ortogonalità (destra).
Nel complesso l’analisi basata sulla NMF consente di scoprire fattori che
un’analisi manuale, basata sulla partizione degli item in argomenti, potrebbe
non essere in grado di individuare. La NMF permette di cogliere l'esistenza di
skill più articolati che spiegano meglio i risultati dei test. La presenza di questi
skill complessi può fornire indicazioni utili per migliorare la fase di progettazione
dei processi di apprendimento.
5. Conclusioni
La NMF è una tecnica di fattorizzazione che trova applicazione in numerose
aree, quali l’elaborazione delle immagini, il recupero di informazioni e l’analisi
intelligente dei dati. Questa ampiezza di applicazione è motivata dall’ipotesi alla
base della tecnica NMF secondo cui un dato può essere linearmente
decomposto in parti (i fattori) concettualmente significative. L’esempio
illustrativo riportato mostra che, effettivamente, la NMF può estrarre
informazioni latenti da dati che rappresentano i risultati ottenuti da studenti su
un insieme di test, e che tali fattori latenti possono essere interpretati come skill,
non necessariamente coincidenti con gli argomenti su cui i test sono formulati. I
fattori latenti possono essere proficuamente utilizzati per raffinare la
progettazione dei test o per attuare processi formativi innovativi al fine di
ottimizzare le abilità degli studenti. Sviluppi futuri della ricerca potranno
riguardare l’inclusione di forme di conoscenza addizionali per guidare il
processo di fattorizzazione tenendo conto di vincoli e condizioni che non sono
rappresentabili nei dati a disposizione.
Bibliografia
[Berry et al., 2007] Berry M. W., Browne M., Langville A. N., Pauca V. P., Plemmons
R. J., Algorithms and applications for approximate nonnegative matrix factorization,
Computational Statistics & Data Analysis, 52, 1, 2007, 155-173.
DIDAMATICA 2012
[Cichocki et al, 2009] Cichocki A., Zdunek R., Phan A. H., Amari S., Nonnegative
Matrix and Tensor Factorizations, Wiley and Sons, 2009.
[Desmarais, 2011] Desmarais M. C., Conditions for effectively deriving a q-matrix
from data with non-negative matrix factorization, in Conati C., Ventura S., Calders T.,
Pechenizkiy M. (eds) Proceedings of the 4th International Conference on Educational
Data Mining, 2011, 41-50.
[Desmarais et al., 2012] Desmarais M. C., Beheshti B., Naceur R., Item to skills
mapping: Deriving a conjunctive Q-matrix from data, in Proceedings of the 11th
International Conference on Intelligent Tutoring Systems, 2012 (to appear).
[Hoyer, 2004] Hoyer P. O., Non-negative Matrix Factorization with Sparseness
Constraints, Journal of Machine Learning Research, 5, 2004, 1457-1469.
[Hyvarinen, 1999] Hyvarinen A., Fast and robust fixed-point algorithms for
independent component analysis, IEEE Transactions on Neural Networks, 10, 3, 1999,
626-634.
[Gulliksen, 1950] Gulliksen H., Theory of mental tests, Wiley, New York, 1950.
[Lambropoulos et al, 2011] Lambropoulos N., Bakharia A., Gourdin A., Distributed
leadership collaboration factors to support idea generation in computer-supported
collaborative e-learning, Human Technology 7, 1, 2011, 72-102.
[Lee e Seung, 1999] Lee D. D., Seung H. S., Learning the parts of objects by nonnegative matrix factorization, Nature, 401, 6755, 1999, 788-791.
[Lin, 2007] Lin C. J., Projected Gradient Methods for Nonnegative Matrix
Factorization, Neural Computation, 19, 10, 2007, 2756-2779.
[Lord, 1952] Lord F., A theory of test scores, Psychometric Monographs, 7, 1952.
[Nash, 1990] Nash J. C., Compact Numerical Methods for Computers: Linear Algebra
and Function Minimisation, 2nd ed, Hilger, Bristol, 1990, 30-48.
[Romero e Ventura, 2010] Romero C., Ventura S., Educational Data Mining: A
Review of the State-of-the-Art, IEEE Transaction on Systems, Man, and Cybernetics,
Part C: Applications and Reviews, 40, 6, 2010, 601-618.
[Tatsuoka, 1983] Tatsuoka K., Rule space: An approach for dealing with
misconceptions based on item response theory, Journal of Educational Measurement,
20, 4, 1983, 345-354.
[Thai-Nghe et al., 2012] Thai-Nghe N., Drumond L., Horvàth T., Krohn-Grimberghe
A., Nanopoulos A., Schmidt-Thieme L., Factorization Techniques for Predicting Student
Performance, in Santos O. C., Boticario J. G. (eds) Educational Recommender Systems
and Technologies: Practices and Challenges, IGI Global, 2012, 129-153.
[Winters e Payne, 2005] Winters T., Payne T., What do students know?: an
outcomes-based assessment system, in Anderson R., Fincher S. A., Guzdial M. (eds)
Proceedings of the first international workshop on Computing education research,
2005,165-172.
[Yoo e Choi, 2008] Yoo J., Choi S., Nonnegative Matrix Factorization with
orthogonality constraints, Journal of Computing Science and Engineering, 4, 2, 2010,
97-108.