Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining 1 1 2 Gabriella Casalino , Ciro Castiello , Nicoletta Del Buono , Corrado Mencar 1 1 2 Università degli Studi di Bari, Dipartimento di Informatica, Dipartimento di Matematica via E. Orabona 4, 70125 Bari, Italy [email protected], [email protected], [email protected], [email protected] In questo articolo proponiamo l’impiego delle fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining. Il metodo si basa su un processo di decomposizione di un dataset per l’estrazione di informazioni latenti di immediata interpretazione. In particolare, l’applicazione delle fattorizzazioni non negative a score matrix consente di generare in modo automatico le cosiddette question matrix (Q-matrix), che descrivono le abilità necessarie affinché uno studente possa rispondere adeguatamente a questionari di valutazione. Un esempio su dati real-world illustra l’efficacia del metodo. 1. Introduzione L’analisi dei dati, intesa come l’attività finalizzata alla ricerca ed estrazione di informazioni da un dataset, è un processo tanto complesso quanto essenziale in svariati campi di applicazione. Fra le principali problematiche connesse all’analisi dei dati, è possibile citare l’intrinseca “inesattezza” dei dati raccolti e l’eventuale presenza fra essi di complesse reti di interazioni. L’inesattezza è spesso dovuta agli strumenti fisici di acquisizione dei dati (tarati sulla base di una precisione limitata) o ai meccanismi pratici messi in atto per la raccolta dei dati (influenzati da criteri di giudizio soggettivi e arbitrari). L’interazione fra le variabili che caratterizzano i dati, invece, fa sì che le informazioni in essi incorporate risultino ambigue e sovrapposte, quindi inadatte a esprimere in modo chiaro la conoscenza che è implicitamente contenuta nei dati stessi. Quest’ultima problematica è fortemente avvertita in contesti – quali quello dell’e-learning – dove occorre gestire grandi quantità di dati che descrivono un continuum di interazioni. I punteggi riportati dagli studenti, le risposte fornite da questionari on-line, gli eventi negli Intelligent Tutoring System rappresentano esempi di interazione di tipo teaching-learning nelle quali si producono dati in modo continuo e condiviso, ma che spesso non sono in grado di veicolare agli attori di un sistema educazionale una conoscenza esplicita diretta, indipendentemente dalle caratteristiche delle modalità di accesso ai dati stessi. Al fine di raggruppare automaticamente informazioni omogenee, scoprire le T. Roselli, A. Andronico, F. Berni, P. Di Bitonto, V. Rossano (Eds.): DIDAMATICA 2012, ISBN: 978-88-905406-7-7 DIDAMATICA 2012 relazioni che intercorrono fra gli argomenti coinvolti in un test o un questionario, evidenziare i fattori latenti responsabili dei meccanismi di apprendimento, è possibile fare ricorso a opportuni meccanismi di analisi dei dati, utili per ottenere indicazioni sui processi cognitivi e per realizzare forme di apprendimento individualizzato basate sulle performance degli studenti. L’Educational Data Mining (EDM) [Romero e Ventura, 2010] è una disciplina emergente che si propone di studiare tecniche di estrazione di conoscenza dai dati in scenari di e-learning. I diversi metodi proposti nell’ambito dell’EDM sono mirati a collezionare, archiviare e analizzare dati riguardanti i processi di apprendimento e di valutazione degli studenti, al fine di rilevare categorie concettuali non direttamente osservabili, quali le attitudini, gli interessi, i valori, la personalità, le capacità cognitive. In questo articolo proponiamo l’impiego di un particolare metodo matematico – quello delle fattorizzazioni matriciali non negative – il cui utilizzo nell’ambito dell’EDM contribuisce a un’efficace analisi dei dati. Il metodo si basa su un processo di decomposizione di un dataset, che permette di estrarre dai dati informazioni latenti la cui interpretazione risulta più immediata rispetto a quelle estraibili mediante metodi analoghi (in virtù delle caratteristiche peculiari che distinguono le fattorizzazioni matriciali non negative rispetto ad altri metodi di fattorizzazione). Le informazioni estratte rappresentano i building block di un modello cognitivo di apprendimento che trova corrispondenza in una particolare matrice, la cosiddetta question matrix (Q-matrix), che descrive le abilità necessarie affinché uno studente possa rispondere adeguatamente a questionari di valutazione. La prossima sezione descrive brevemente le tecniche di fattorizzazione matriciale che trovano impiego nell’ambito dell’EDM, introducendo in particolare le fattorizzazioni non negative. L’utilizzo di tali tecniche in contesti di e-learning è illustrato nella sezione 3 facendo riferimento allo stato dell’arte in letteratura. Nella sezione 4 si descrive un esempio illustrativo relativo all’impiego di fattorizzazioni non negative su un particolare dataset reale, corredato da una serie di commenti sui risultati sperimentali ottenuti. La sezione 5 chiude l’articolo con alcune osservazioni finali. 2.Tecniche di fattorizzazione per l’Educational Data Mining Due teorie fondamentali influenzano la scelta del metodo più opportuno per analizzare dati di e-learning: la teoria classica dei test (Classical Test Theory, CTT) [Gulliksen, 1950] e la teoria di risposta agli item (Item Response Theory, IRT) [Lord, 1952]. Entrambe le teorie si basano sull’assunzione che le risposte a specifici test possono essere considerate manifestazioni di fattori latenti, ossia non immediatamente osservabili, ma ricavabili indirettamente dalle risposte fornite. La CTT si basa su un modello matematico in cui la variabile dipendente, il punteggio totale al test, è ricavata combinando le variabili indipendenti, che sono rappresentate dal punteggio reale ottenuto dall'individuo su determinati fattori latenti e da una componente di errore. L'IRT propone di valutare la performance di un soggetto in funzione delle abilità registrabili sui fattori latenti Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining mediante un modello statistico-matematico, che permette di giungere non soltanto alla valutazione della prestazione del singolo, ma anche delle caratteristiche delle domande del test. La definizione di fattore latente dipende dalla rappresentazione dei dati e dagli operatori applicati su essi. In questo particolare contesto si assume comunemente che i fattori latenti siano rappresentati come vettori di abilità, a coefficienti non-negativi, tali che le competenze di ciascuno studente possano essere definite come combinazioni lineari di tali vettori. In particolare, indicata con X la matrice delle risposte di n studenti a m quesiti presenti in un test, essa è fattorizzabile nella forma: X = WH + E, dove la matrice W, di dimensioni m × k, codifica le relazioni tra k fattori latenti e m quesiti, mentre la matrice H, di dimensioni k × n, descrive le abilità degli n studenti rispetto ai k fattori latenti e la matrice E, di dimensioni m × n, riassume il rumore nella misurazione dei punteggi. Occorre osservare che la presenza di k fattori latenti (con k < min(m, n)) suggerisce implicitamente la possibilità di descrivere i dati facendo ricorso a una dimensionalità inferiore rispetto a quella effettiva. Nel contesto brevemente delineato, i metodi in grado di approssimare la matrice X dei dati, al fine di ridurne la dimensionalità e di rimuovere il rumore, rivestono un’importanza fondamentale. Esempi classici di tali metodi sono la decomposizione a valori singolari (Singular Value Decomposition, SVD) [Nash, 1990] e l’analisi delle componenti indipendenti (Independent Component Analysis, ICA) [Hyvarinen, 1999]. La SVD fornisce l'approssimazione ottimale (in termini di least-squared error), di dimensionalità ridotta, della matrice X. La caratteristica della SVD è quella di fornire componenti W e HT le cui colonne sono basi ortogonali che generano sottospazi dei dati presenti in X. Ciò implica che gli elementi di W e H (e quindi dell’approssimazione di X fornita dalla SVD) variano nel range [−∞,∞], ossia possono risultare negativi. Tale eventualità rappresenta un fattore non trascurabile in contesti nei quali risulta cruciale l’interpretazione delle informazioni contenute nelle matrici X, W e H (e quindi del segno dei loro elementi). A tal proposito, occorre osservare che nel contesto di e-learning preso in esame, nel quale i dati sono rappresentabili mediante combinazione lineare di fattori latenti, una composizione puramente additiva (senza componenti negative) assicurerebbe una più immediata interpretabilità dei risultati della fattorizzazione. L'ICA è simile alla SVD, ma non si limita alla ricerca di basi ortogonali. La non ortogonalità delle basi ha importanti implicazioni nell'e-learning. Infatti, se i fattori latenti sono interpretati come generici argomenti di esame, la mancanza di ortogonalità permette la scoperta di argomenti parzialmente sovrapponibili, rendendo più evidenti le loro reciproche relazioni. Anche in questo caso, essendo le basi del tutto generiche, permane il problema di un’eventuale presenza di segni negativi nelle combinazioni lineari dei fattori latenti. Un diverso metodo di rank reduction è la fattorizzazione non-negativa (NonNegative Matrix Factorization, NMF) [Lee e Seung, 1999], che è in grado di determinare una rappresentazione dei dati, di dimensionalità ridotta, mediante DIDAMATICA 2012 combinazioni lineari puramente additive. Tale fattorizzazione genera la cosiddetta “rappresentazione basata sulle parti” in cui i dati della matrice X si rappresentano come combinazioni lineari di basi non negative. Come accennato in precedenza, tale caratteristica risulta particolarmente utile in un contesto di e-learning nel quale non ha senso pratico parlare di quesiti che influiscono in modo “negativo” sugli argomenti, o di studenti che mostrano “abilità negative” in particolari aree. 2.1 Fattorizzazioni matriciali non negative (NMF) Il problema di determinare una fattorizzazione non negativa di un insieme di dati può essere formalizzato nel modo seguente. Assegnata una matrice X di dimensione m × n, si vuole determinare una decomposizione di X in una matrice W di dimensioni m × k (detta matrice di base) e una matrice H di dimensioni k × n (detta matrice di codifica), con W e H aventi elementi non negativi e tali che il loro prodotto approssimi la matrice X: X ≈ WH. (1) Generalmente, il rango k delle due matrici W e H è minore del rango di X. Le colonne della matrice W costituiscono una base di un sottospazio di dimensione k dello spazio generato dalle colonne di X; ogni colonna della matrice H rappresenta il vettore dei pesi necessari ad approssimare la corrispondente colonna della matrice X utilizzando la base contenuta in W. Una NMF di X può essere ottenuta minimizzando l’errore di approssimazione tra la matrice dei dati originali X e la sua approssimazione WH 2 di rango ridotto. In particolare, si è soliti minimizzare la quantità ||X - WH|| conservando il vincolo di non negatività sugli elementi di W e H. L’algoritmo più utilizzato per calcolare una NMF è il multiplicative update algorithm proposto in [Lee e Seung, 1999]. Altri possibili algoritmi applicabili per il calcolo della NMF sono: il metodo ai minimi quadrati alternati non-negativi [Berry et al., 2007]; il metodo del gradiente proiettato [Lin, 2007]. Vincoli aggiuntivi, quali la sparsità o l’ortogonalità, possono essere imposti in modo approssimato su W e/o H modificando opportunamente la funzione che descrive l’errore di approssimazione. Esempi in tal senso sono le NMF sparse (NMFSC) [Hoyer, 2004] e le NMF ortogonali (ONMF) [Yoo e Choi, 2008]. Per ulteriori dettagli, il lettore interessato può far riferimento alla bibliografia [Cichocki et al, 2009]. 3. Le NMF nell’Educational Data Mining Alcuni dei dataset tipicamente disponibili in un contesto di e-learning sono rappresentabili attraverso una matrice X, di dimensione m × n, che registra i punteggi ottenuti da n studenti su m quesiti (nel seguito tale matrice sarà chiamata anche «score matrix» e i quesiti saranno indicati anche con il termine «item»). Gli elementi Xij di X sono quantità non negative (eventualmente ridotte al semplice caso binario di valori 1 e 0 in corrispondenza di risposte corrette e sbagliate) che indicano il punteggio che un generico studente j ottiene per uno Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining specifico item i. Come specificato in precedenza, a partire da una score matrix è possibile condurre un’analisi tesa a individuare i fattori latenti coinvolti nel processo di apprendimento. L’interpretazione specifica di tali fattori può variare a seconda del contesto in esame: nel seguito essi saranno indicati mediante il generico termine «skill». Nelle prossime sezioni si descrivono brevemente alcuni esempi tratti dalla letteratura nei quali le fattorizzazioni non negative sono state utilizzate per affrontare e risolvere diversi problemi in contesti di EDM. 3.1 NMF per il calcolo della Q-matrix La Q-matrix, o matrice di incidenza item-skill, evidenzia le relazioni tra gli item che costituiscono un test e gli skill che si ipotizza siano coinvolti nel processo cognitivo che induce gli studenti a rispondere in un certo modo ai quesiti del test [Tatsuoka, 1983]. Si assume, infatti, che uno studente risponda correttamente a un quesito se e solo se è in possesso dello skill rilevante per quello specifico item. La Q-matrix può essere una matrice binaria, nel caso in cui ciascun item è in relazione binaria (mediante valori 0 o 1) con gli skill. In alternativa, la Qmatrix può contenere valori che variano in modo continuo in un range di numeri reali che descrivono l’influenza di uno skill per ogni item. Poiché gli skill non si manifestano esplicitamente (la presenza effettiva di un particolare skill può essere solo ipotizzata su basi soggettive), la costruzione di una Q-matrix è un processo non banale. Per ovviare a questa difficoltà, la NMF è stata utilizzata per estrarre automaticamente una Q-matrix da matrici di dati che riportano le risposte di studenti a questionari [Desmarais et al., 2012]. In questo contesto, le matrici W e H rappresentano rispettivamente le relazioni item-skill e skill-studente: in tal modo la matrice W assume la forma della Qmatrix. Mediante la NMF, lo spazio in cui sono descritti n studenti è approssimato tramite un sottospazio di dimensione k in cui sono descritti gli skill. Gli skill, quindi, sono rappresentati dalle colonne di W: la loro combinazione con i valori della matrice H consente di approssimare la matrice dei punteggi degli studenti, come specificato dall’equazione (1). Pertanto, è possibile interpretare ogni colonna della matrice H come il grado di rilevanza con cui uno studente ha acquisito un particolare skill. È il caso di osservare che l’utilità della NMF nel ricavare automaticamente la Q-matrix (rappresentabile mediante la matrice W) dipende dal soddisfacimento di alcune condizioni teoriche che riguardano sia i meccanismi di apprendimento degli skill, sia la configurazione statistica dei dati presenti nella score matrix (ulteriori dettagli a tal riguardo si trovano in [Desmarais, 2011]). 3.2 NMF per collaborative filtering e student recommendation In particolari contesti nei quali occorre interagire con una vasta platea di utenti, può essere utile l’impiego di metodi in grado di effettuare predizioni automatiche relative al comportamento e alle preferenze di nuovi utenti sulla scorta di analoghe informazioni già ottenute in precedenza. I sistemi di collaborative filtering consentono di analizzare ingenti basi di dati al fine di DIDAMATICA 2012 filtrare informazioni utili per definire le preferenze di un dato tipo di utenza. In tal senso, un processo di collaborative filtering può essere inteso come un mezzo per identificare i fattori latenti che influenzano il comportamento degli utenti. Traslato nel campo dell’e-learning, un sistema di collaborative filtering può risultare utile per estrarre quelle informazioni latenti che determinano le risposte degli studenti ai quesiti proposti, al fine di utilizzarle per fornire suggerimenti utili a migliorare il processo di formulazione dei quesiti e di valutazione dei risultati. In [Winters e Payne, 2005] si descrive una sperimentazione che dimostra come la NMF risulti la tecnica più idonea (in un confronto con algoritmi alternativi) per costruire un sistema di collaborative filtering da applicare nel contesto di e-learning. In [Thai-Nghe et al., 2012] si studia l’utilità delle fattorizzazioni matriciali per la predizione delle performance degli studenti che si sottopongono a test, sulla base dell’analisi di dati relativi a questionari già compilati. La ricerca descritta in [Lambropoulos et al., 2011] utilizza la NMF nel particolare contesto dei forum di discussione degli studenti. In questo caso, la matrice dei dati di partenza non corrisponde alla score matrix, ma raccoglie informazioni relative ai commenti degli studenti su diversi corsi ed esami. La NMF risulta utile per estrarre tematiche non esplicite di interesse per gli studenti, al fine di fornire indicazioni ai tutor su come migliorare l’offerta formativa e l’organizzazione didattica. 4.Esempio illustrativo Per mostrare un esempio concreto di applicazione della NMF in un contesto di e-learning, si è preso in esame il dataset SAT [Desmarais, 2011], composto dall'esito dell'esame di 297 studenti su 40 domande (item) relative a quattro argomenti: Matematica (item 1-10), Biologia (item 11-20), Storia mondiale (item 21-30), Francese (item 31-40). Il dataset ha la classica rappresentazione in forma di score matrix binaria: ogni elemento della matrice è pari a 1 o 0 se alla domanda corrispondente lo studente ha risposto in maniera corretta o sbagliata. L'applicazione della tecnica NMF consente di ottenere automaticamente una Q-matrix a partire dai dati della score matrix. Sebbene la conoscenza a priori dei dati suggerisca la presenza di 4 skill, l’informazione latente relativa al dataset potrebbe non essere completamente catturata dalla distinzione degli item in 4 argomenti, pertanto è stata effettuata una verifica condotta mediante l’applicazione della SVD alla score matrix. Tale verifica ha confermato la plausibilità di discernere nei dati la presenza di 4 fattori latenti (dei quali solo due risultano distinguibili in modo evidente). Fattorizzazioni con un numero diverso di fattori sono comunque possibili, ma in questo esempio illustrativo, sulla base della verifica effettuata, si è mantenuta un’impostazione basata su 4 skill. Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining Fig.1 – Matrice W ottenuta applicando la NMF alla score matrix SAT. L’applicazione della NMF alla score matrix produce la fattorizzazione descritta dall’equazione (1) e le matrici W e H hanno rispettivamente dimensione 40×4 e 4×297. La Fig.1 rappresenta la matrice W (Q-matrix) ottenuta mediante l’applicazione della NMF. Per una migliore rappresentazione, nella figura i quattro skill sono disposti su ogni riga, mentre sulle colonne sono individuati gli item. La tonalità di grigio di ciascuna cella indica il peso di ogni skill nel caratterizzare l’item corrispondente: tonalità più chiare corrispondono a pesi maggiori. Dalla figura si evince come gli skill 1 e 2 (più in basso nella figura) siano prevalentemente determinati da gruppi contigui di item, e gli skill 3 e 4 siano caratterizzati da item sparsi nel dataset (ciò è in linea con l’analisi preliminare effettuata mediante SVD). Poiché item contigui rappresentano quesiti relativi allo stesso argomento (a gruppi di 10), ne consegue che gli skill 1 e 2 sono semanticamente allineati con gli argomenti relativi a due gruppi di item contigui (in particolare Matematica e Francese), mentre gli skill 3 e 4 sono definiti da una composizione di argomenti (Biologia e Storia mondiale). Questa discrepanza tra skill e argomenti è significativa: poiché la score matrix riporta il punteggio di ciascuno studente per ogni item, la Q-matrix risultante indica che due dei 4 skill combaciano con due argomenti, mentre i rimanenti due stanno a indicare “abilità miste” che non possono essere semanticamente inquadrate in uno degli argomenti noti a priori. Solo a titolo di esempio, questo risultato potrebbe fare ipotizzare una riorganizzazione dei corsi al fine di rendere più affini gli argomenti con gli skill (ma potrebbe valere anche l'argomento contrario: rendere gli skill maggiormente interdisciplinari). La Fig.2 illustra la matrice H che, per maggior chiarezza, è ridotta alle sue prime 10 colonne. Come precedentemente osservato, tale matrice individua i gradi di rilevanza con cui uno studente ha acquisito un particolare skill e permette, quindi, di evidenziare quali sono gli skill nei quali ciascuno studente è più o meno preparato. Anche in questo caso a tonalità più chiare corrispondono gradi di rilevanza maggiori. Pertanto, si può affermare che molti studenti hanno un’elevata abilità rispetto allo skill 1 (che coincide con l'argomento “Matematica”), mentre lo studente 8 ha maggiori abilità negli skill 3 e 4, che DIDAMATICA 2012 Fig.2 – Porzione della matrice H prodotta dall'applicazione della NMF alla score matrix SAT. invece non coincidono con alcun argomento specifico. I gradi di rilevanza associati a ciascuno studente possono essere utilizzati per raggruppare gli studenti sulla base degli skill in cui sono più o meno abili. Solo a titolo di esempio, gli studenti possono essere raggruppati in base agli skill in cui sono meno abili al fine di organizzare corsi di recupero. Il calcolo delle matrici W e H (e dunque degli skill) non è univoco. Da un punto di vista tecnico, ciò significa che modifiche ai parametri di configurazione dell'algoritmo NMF possono portare a risultati differenti, sebbene spesso accomunati da errori di approssimazione simili nella ricostruzione della score matrix. Fra i parametri di configurazione vi sono le matrici iniziali che si utilizzano per avviare l’algoritmo di fattorizzazione [Berry et al, 2007]. In Fig.3 sono riportate le matrici W ricavate a partire da due diverse inizializzazioni: come si osserva, le immagini non evidenziano differenze significativamente alte (a meno di permutazioni di riga che non ne modificano la semantica). Imponendo, invece, che le matrici W e H soddisfino vincoli addizionali (quali l’ortogonalità o la sparsità), si possono rilevare differenze significative nei risultati finali. Infatti, come illustrato in Fig.4, tali vincoli di fatto introducono conoscenza all'interno del processo di fattorizzazione. Nel caso del vincolo di sparsità, per esempio, gli skill rintracciabili nella matrice W sono rappresentati da un numero ridotto di item: ciò consente di migliorarne l'interpretabilità, al prezzo di un più alto errore di approssimazione della score matrix. Fig.3 – Rappresentazione di due matrici W ottenute mediante due applicazioni della NMF: NMF inizializzata in modo casuale (sinistra); NMF inizializzata con l’algoritmo fuzzy c-means (destra). Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining Fig.4 – Rappresentazione di due matrici W ottenute mediante due applicazioni della NMF con vincoli aggiuntivi: NMF con sparsità (sinistra); NMF con ortogonalità (destra). Nel complesso l’analisi basata sulla NMF consente di scoprire fattori che un’analisi manuale, basata sulla partizione degli item in argomenti, potrebbe non essere in grado di individuare. La NMF permette di cogliere l'esistenza di skill più articolati che spiegano meglio i risultati dei test. La presenza di questi skill complessi può fornire indicazioni utili per migliorare la fase di progettazione dei processi di apprendimento. 5. Conclusioni La NMF è una tecnica di fattorizzazione che trova applicazione in numerose aree, quali l’elaborazione delle immagini, il recupero di informazioni e l’analisi intelligente dei dati. Questa ampiezza di applicazione è motivata dall’ipotesi alla base della tecnica NMF secondo cui un dato può essere linearmente decomposto in parti (i fattori) concettualmente significative. L’esempio illustrativo riportato mostra che, effettivamente, la NMF può estrarre informazioni latenti da dati che rappresentano i risultati ottenuti da studenti su un insieme di test, e che tali fattori latenti possono essere interpretati come skill, non necessariamente coincidenti con gli argomenti su cui i test sono formulati. I fattori latenti possono essere proficuamente utilizzati per raffinare la progettazione dei test o per attuare processi formativi innovativi al fine di ottimizzare le abilità degli studenti. Sviluppi futuri della ricerca potranno riguardare l’inclusione di forme di conoscenza addizionali per guidare il processo di fattorizzazione tenendo conto di vincoli e condizioni che non sono rappresentabili nei dati a disposizione. Bibliografia [Berry et al., 2007] Berry M. W., Browne M., Langville A. N., Pauca V. P., Plemmons R. J., Algorithms and applications for approximate nonnegative matrix factorization, Computational Statistics & Data Analysis, 52, 1, 2007, 155-173. DIDAMATICA 2012 [Cichocki et al, 2009] Cichocki A., Zdunek R., Phan A. H., Amari S., Nonnegative Matrix and Tensor Factorizations, Wiley and Sons, 2009. [Desmarais, 2011] Desmarais M. C., Conditions for effectively deriving a q-matrix from data with non-negative matrix factorization, in Conati C., Ventura S., Calders T., Pechenizkiy M. (eds) Proceedings of the 4th International Conference on Educational Data Mining, 2011, 41-50. [Desmarais et al., 2012] Desmarais M. C., Beheshti B., Naceur R., Item to skills mapping: Deriving a conjunctive Q-matrix from data, in Proceedings of the 11th International Conference on Intelligent Tutoring Systems, 2012 (to appear). [Hoyer, 2004] Hoyer P. O., Non-negative Matrix Factorization with Sparseness Constraints, Journal of Machine Learning Research, 5, 2004, 1457-1469. [Hyvarinen, 1999] Hyvarinen A., Fast and robust fixed-point algorithms for independent component analysis, IEEE Transactions on Neural Networks, 10, 3, 1999, 626-634. [Gulliksen, 1950] Gulliksen H., Theory of mental tests, Wiley, New York, 1950. [Lambropoulos et al, 2011] Lambropoulos N., Bakharia A., Gourdin A., Distributed leadership collaboration factors to support idea generation in computer-supported collaborative e-learning, Human Technology 7, 1, 2011, 72-102. [Lee e Seung, 1999] Lee D. D., Seung H. S., Learning the parts of objects by nonnegative matrix factorization, Nature, 401, 6755, 1999, 788-791. [Lin, 2007] Lin C. J., Projected Gradient Methods for Nonnegative Matrix Factorization, Neural Computation, 19, 10, 2007, 2756-2779. [Lord, 1952] Lord F., A theory of test scores, Psychometric Monographs, 7, 1952. [Nash, 1990] Nash J. C., Compact Numerical Methods for Computers: Linear Algebra and Function Minimisation, 2nd ed, Hilger, Bristol, 1990, 30-48. [Romero e Ventura, 2010] Romero C., Ventura S., Educational Data Mining: A Review of the State-of-the-Art, IEEE Transaction on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 40, 6, 2010, 601-618. [Tatsuoka, 1983] Tatsuoka K., Rule space: An approach for dealing with misconceptions based on item response theory, Journal of Educational Measurement, 20, 4, 1983, 345-354. [Thai-Nghe et al., 2012] Thai-Nghe N., Drumond L., Horvàth T., Krohn-Grimberghe A., Nanopoulos A., Schmidt-Thieme L., Factorization Techniques for Predicting Student Performance, in Santos O. C., Boticario J. G. (eds) Educational Recommender Systems and Technologies: Practices and Challenges, IGI Global, 2012, 129-153. [Winters e Payne, 2005] Winters T., Payne T., What do students know?: an outcomes-based assessment system, in Anderson R., Fincher S. A., Guzdial M. (eds) Proceedings of the first international workshop on Computing education research, 2005,165-172. [Yoo e Choi, 2008] Yoo J., Choi S., Nonnegative Matrix Factorization with orthogonality constraints, Journal of Computing Science and Engineering, 4, 2, 2010, 97-108.