Capitolo 4. Memoria, Pensiero e Linguaggio
Antonella De Angeli
Argomenti
-Sistemi di memoria
-Modelli mentali
-Apprendimento
-Comunicazione verbale e multimodale
Introduzione
Quando un utente interagisce con un sistema informatico ha luogo uno scambio di
messaggi nei due sensi: dall’utente al sistema e dal sistema all’utente. Tale dialogo può
rivelarsi problematico in quanto i due agenti sono diversi. L’utente interagisce con il
computer per raggiungere obiettivi che si rappresenta in termini psicologici. Il computer,
invece, comunica il suo stato in termini fisici, mediante varie interfacce, come per esempio
lo schermo, il mouse e la tastiera. Secondo Don Norman, ricercatore di fama
internazionale nel design di interfacce, tale differenza tende a creare una serie di golfi
interattivi, spazi che separano gli stati mentali dell’utente dagli stati fisici del sistema. In
particolare, il golfo dell’esecuzione separa le azioni che l’utente ha in mente, dal mondo
fisico dove tali azioni devono essere eseguite. Il golfo della valutazione riguarda, invece, la
comprensione dello stato del mondo fisico sulla base delle aspettative dell’utente. I due
golfi devono essere ridotti progettando interfacce che siano compatibili con le capacità e le
limitazioni degli esseri umani.
Molti errori di progettazione di interfacce sono dovuti ad un’errata concettualizzazione
dell’utente come agente dotato di un elevato grado di flessibilità e adattabilità. In realtà, gli
esseri umani sono caratterizzati da processi di elaborazione dell’informazione altamente
strutturati e difficilmente modificabili. Una volta che imparano una procedura, tendono ad
applicarla in modo automatico con minimo controllo intenzionale. Gli esseri umani sono
agenti molto complessi, diversi fra loro e soggetti a un’ampia gamma di variabilità
comportamentale dovuta per esempio alle loro conoscenze, allo stato emozionale, ai
desideri e all’ambiente in cui agiscono. Per comprendere questa complessità è necessario
semplificarla, considerando solo quegli aspetti che sono fondamentali per il design di
interfacce. A questo scopo, nel 1983 i ricercatori Stuart Card, Thomas Moran e Allen
Newell proposero il modello del processore umano, che descrive l’utente come un sistema
di elaborazione dell’informazione che si articola seguendo una serie di principi in tre
sottosistemi interattivi: il sistema percettivo (descritto nel capitolo 3), il sistema motorio e
quello cognitivo. Questo capitolo si concentra specificamente sul sistema cognitivo,
fornendo alcune conoscenze di base sui processi di memoria che permettono all’utente di
acquisire e riutilizzare conoscenza, sulle strategie di ragionamento che permettono
all’utente di pianificare la propria azione e sul linguaggio, inteso come uno dei possibili
canali d’interazione con la macchina.
4.1 Memoria Memoria
La memoria è il fondamento
della vita umana: fornisce i
pilastri per costruire la nostra
storia, sviluppare le nostre
capacità e pianificare il
comportamento.
Figura 4.1. Schema di
funzionamento della memoria
umana (adattato da Baddeley,
2000). L’informazione che
parte da un’interfaccia passa
attraverso diversi sistemi e solo
una piccola parte raggiunge la
memoria a lungo termine.
Il termine memoria descrive lʼinsieme dei processi cognitivi che sono alla base della
capacità di apprendere dallʼesperienza passata e di pianificare il comportamento futuro. Il
processo della memoria può essere concepito come un percorso composto da 3 fasi
distinte: aquisizione (percezione del materiale da apprendere), ritenzione (trasformazione
dellʼinformazione in ricordi) e recupero (rievocazione del ricordo dalla memoria). Questo
processo coinvolge tre distinti magazzini: memoria sensoriale, memoria di lavoro e
memoria a lungo termine. Essi trattengono lʼinformazione per una durata di tempo
variabile. Un modello schematico del flusso dʼinformazione da unʼinterfaccia alla memoria
è riportato in Figura 4.1. Si noti come le informazioni provenienti da media diversi
(informazione visiva, uditiva e aptica) siano elaborate da sistemi specializzati che agiscono
in parallelo e spesso indipendentemente lʼuno dallʼaltro.
4.1.1 Memoria sensoriale
Nella fase di acquisizione dell’informazione gioca un ruolo fondamentale la memoria
sensoriale, che funge da filtro fra la complessità del mondo esterno e la memoria di lavoro.
La memoria sensoriale è composta da registri diversi per ciascuna modalità sensoriale,
per cui si parla di registro iconico, ecoico o aptico in riferimento a stimoli visivi, uditivi, e
tattili. Tali registri hanno lo scopo di prolungare la durata delle stimolazioni sensoriali per
un lasso di tempo estremamente breve, che varia da 0.5 a 5 secondi a seconda della
modalità sensoriale. In questo intervallo, le persone selezionano, tramite l’attenzione, gli
stimoli importanti per i loro scopi che vengono passati alla memoria di lavoro per la
successiva elaborazione. Gli stimoli a cui non viene prestata attenzione vengono
rapidamente sovra-scritti, e quindi persi. Per dimostrare la presenza della memoria iconica
basta guardare per un periodo di tempo una fonte luminosa e poi chiudere gli occhi. Il fatto
che ci sembra di vederla ancora è causato dalla presenza dello stimolo in memoria
iconica.
Un esempio di interfaccia che aiuta a focalizzare l’attenzione su stimoli importanti per
l’esecuzione del compito è fornito dal motore di ricerca delle “Preferenze di sistema” del
Mac Os X (Figura 4.2). Mentre l’utente scrive una parola chiave, il sistema illumina in modi
diversi gli elementi sullo schermo che potrebbero essere rilevanti. L’effetto è dinamico e
cambia all’aumentare delle lettere inserite durante la ricerca (altre tecniche per attrarre
visivamente l’attenzione dell’utente sono state illustrate nel Capitolo 3). L’esempio di
Figura 4.2 evidenzia anche un problema tipico dei menù a tendina: gli elementi nell’angolo
in alto a destra vengono nascosti alla vista dell’utente.
Figura 4.2. Il sistema di
ricerca delle preferenze di
sistema nel Mac Os X: gli
elementi di interesse sono
evidenziati in modo da
attrarre l’attenzione
dell’utente
La memoria di lavoro
serve a mantenere attiva
l’informazione mentre su
questa si lavora.
4.1.2. Memoria di lavoro
La memoria di lavoro1 (o a breve termine) è il sistema che permette di mantenere attive
per un periodo limitato di tempo le informazioni su cui operare manipolazioni o
trasformazioni mentali, preservandole dall’interferenza di stimoli irrilevanti che vengono
inibiti. Secondo lo psicologo Alan Baddeley, tale sistema è costituito da 4 componenti
principali (Figura 4.1).
• L'esecutivo centrale è un sistema attentivo supervisore che distribuisce le limitate
risorse cognitive della memoria di lavoro, co-ordinando e monitorando un insieme
di sistemi sussidiari fra cui:
•Loop Articolatorio: responsabile del mantenimento ed elaborazione
dell’informazione verbale e acustica;
1 Il costrutto di memoria di lavoro e quello di memoria a breve termine sono diversi, in quanto derivano da modelli teorici psicologici differenti. In questo capitolo, comunque, essi vengono discussi insieme seguendo la tradizione prevalente nella HCI. •Taccuino Visuo-Spaziale: responsabile del mantenimento ed elaborazione
dell’informazione visuo-spaziale e aptica;
•Buffer episodico: responsabile dell’integrazione dell’informazione proveniente
dai sottosistemi sensoriali con quella contenuta nella memoria a lungo
termine.
Il ruolo dell’esecutivo centrale è fondamentale in quanto le risorse cognitive disponibili
nella memoria di lavoro sono limitate, come vi accorgerete sicuramente se provate a
eseguire delle operazioni matematiche mentalmente, mentre leggete questo testo. I vari
sottosistemi permettono l’elaborazione simultanea di stimoli sensoriali diversi. Per questo
motivo non abbiamo difficoltà a seguire un film composto da informazione video e audio,
ma facciamo molta più fatica a seguire due video o due conversazioni in parallelo.
La memoria di lavoro è un magazzino a breve termine, dove l’informazione viene
trattenuta per permettere all’utente di eseguire compiti cognitivi. Ad esempio, vi vengono
trattenuti i risultati parziali durante l’esecuzione di un calcolo, o le parole durante lettura di
una frase. Tale informazione può essere velocemente scartata, in quanto non più utile, o
passata alla memoria a lungo termine dove diviene parte della conoscenza. Le
caratteristiche principali della memoria a breve termine sono una durata temporale limitata
tra i 2 e i 20 secondi a seconda del tipo di stimolo e un limitato numero di elementi che
possono essere manipolati allo stesso tempo. Per capire i limiti temporali e di contenuto
della memoria a breve termine provate a guardare per 10 secondi la Figura 4.2 cercando
di memorizzare il maggior numero possibile di elementi. Poi cambiate pagina. Quanti
elementi vi ricordate? Quali? Probabilmente vi ricordate la tastiera, bluetooth e gli altri
elementi evidenziati. Ci sono anche buone possibilità che vi ricorderete le funzionalità che
conoscete meglio (effetto di familiarità), così come i primi e gli ultimi elementi
dell’immagine (effetto di priorità e recenza). Sicuramente avrete avuto delle difficoltà a
ricordare tutti gli elementi, specialmente se non utilizzate quotidianamente un sistema
Macintosh. Secondo un famoso studio condotto dallo psicologo George Armitage Miller a
metà degli anni ’50, le persone tendono a mantenere in memoria a breve termine in media
7 ± 2 elementi nuovi.
La reiterazione permette di
trattenere le informazioni in
memoria di lavoro più a lungo.
La creazione di chunk permette di
ricordare più item.
Esistono varie strategie che consentono un uso più efficace delle risorse della memoria a
breve termine. Il vincolo temporale può essere esteso mediante reiterazione, come
quando ripetiamo più volte verbalmente o mentalmente un numero di telefono che
vogliamo ricordare. Il limite di contenuto può essere aumentato combinando i singoli
elementi da ricordare in chunk (insiemi significativi di lettere o numeri), quali parole, frasi o
cifre composte. Per capire il concetto di chunk, provate a leggere una sola volta e poi a
scrivere su un foglio la seguente serie di cifre distogliendo l’attenzione da questa pagina:
5
3
2
6
4
7
2
9
6
3
Quanti ne avete ricordati? Provate adesso lo stesso compito con questa sequenza:
53
26
47
29
63
E’ molto probabile che siate riusciti ora a ricordare più cifre, poiché i numeri decimali sono
stati elaborati come chunk dalla memoria di lavoro. La capacità della memoria di lavoro
dipende da un’ampia gamma di fattori, fra cui il tipo di compito, gli artefatti disponibili (quali
l’interfaccia di un sistema) e le caratteristiche dell’utente. La prestazione della memoria di
lavoro, infatti, è soggetta a decadimento in situazioni di stanchezza, stress o carico di
lavoro e tende a deteriorarsi con il passare degli anni.
Il concetto di chunk è probabilmente il concetto di psicologia cognitiva maggiormente
condiviso e spesso non correttamente compreso dai progettisti di interfacce grafiche.
L’errore tipico è quello di ritenere che il limite si applichi a elementi visibili dell’interfaccia
grafica, quali il numero di icone o il numero di voci di un menù. Per quanto sia chiaro che
un minore numero di scelte semplifichi i compiti visivi e decisionali, è altrettanto chiaro che
gli elementi di un’interfaccia grafica non richiedono di essere trattenuti in memoria, ma
sono visivamente disponibili all’utente.
Il trasferimento dalla memoria
di lavoro a quella a breve termine
avviene attraverso reiterazione,
organizzazione e esposizione
ripetuta.
Le immagini tendono ad essere
ricordate più a lungo e più
facilmente del materiale verbale
4.1.3. Memoria a lungo termine
L’informazione elaborata nella memoria di lavoro può essere trasferita nella memoria a
lungo termine, che rappresenta l’insieme delle conoscenze disponibili all’essere umano. Il
trasferimento è facilitato da varie strategie più o meno intenzionali. Ad esempio, le persone
possono intenzionalmente ripetere mentalmente o a voce alta l’informazione da
visualizzare (reiterazione), oppure creare delle connessioni tra il nuovo materiale e quello
già presente in memoria a lungo termine (organizzazione). L’informazione può essere
immagazzinata anche senza intenzionalità: è ciò che accade quando vediamo più volte la
stessa pubblicità e ne impariamo il contenuto anche senza volerlo intenzionalmente
(esposizione ripetuta). La profondità di elaborazione influisce sul ricordo: un’elaborazione
profonda, in cui il materiale viene elaborato trovando associazioni con quello già presente
in memoria di lavoro, produce ricordi più articolati e più forti che un’elaborazione
superficiale.
L’informazione in memoria a lungo termine è codificata in maniera diversa a seconda del
canale sensoriale attraverso il quale è stata comunicata. La letteratura riporta un
vantaggio significativo del canale visivo: le immagini tendono a essere ricordate più
facilmente e per un tempo più lungo dell’informazione verbale. Varie teorie sono state
proposte per spiegare questo fenomeno; fra questi ricordiamo il modello della doppia
codifica elaborato dallo psicologo Allan Paivio, a partire dagli anni ’60, che ipotizza due
sistemi paralleli di memoria:
1.un sistema verbale, che gestisce le informazioni linguistiche e la cui unità di
rappresentazione sono denominati logogeni;
2.un sistema deputato alla gestione delle informazioni visive, rappresentato dagli
immageni.
I due sistemi comunicano fra loro, ma solo le immagini vengono rappresentate sia tramite
immageni che logogeni, cioè tramite rappresentazioni visive e verbali, lasciando quindi
una traccia mnestica più elaborata.
La memoria dichiarativa
riguarda fatti e conoscenze sul
mondo e sulla nostra vita. La
memoria procedurale riguarda
conoscenze su come svolgere
azioni.
Figura 4.3 Organizzazione
dell’informazione nella
memoria a lungo termine
La memoria a lungo termine contiene sia conoscenza dichiarativa (fatti) che conoscenza
procedurale (abilità). La prima si riferisce a quella vasta gamma di conoscenze esplicite
che sono direttamente accessibili alla coscienza e possono essere comunicate
verbalmente. Si tratta sia di memoria semantica, conoscenze enciclopediche, astratte e
generali (per esempio, la definizione della parola mouse), che di memoria episodica,
ricordi su eventi ed esperienze personali della vita dell’individuo (per esempio, il giorno del
nostro ultimo compleanno). La memoria procedurale, invece, contiene conoscenza tacita,
ovvero non comunicabile semplicemente a parole. Tale conoscenza riguarda il modo in cui
si fanno le cose, per esempio come si va in bicicletta. Un riassunto è illustrato in Figura
4.3.
Recupero dell’informazione.
Il riconoscimento è più
semplice della rievocazione.
Da un lato le tecnologie
informatiche rappresentano
un’estensione della nostra
memoria, dall’altro pongono
una serie di richieste
significative su di essa, che
devono essere gestite in
fase di progettazione.
A differenza degli altri sistemi, la memoria a lungo termine è molto vasta e meno soggetta
a oblio. L’informazione viene recuperata tramite rievocazione o riconoscimento. La
rievocazione implica il ricordo spontaneo di ciò che è stato precedentemente
immagazzinato. Il riconoscimento, invece, è la capacità di identificare come familiari stimoli
presenti ai sensi dell’osservatore che erano già stati visti in passato. In linea di massima, è
più facile riconoscere che rievocare. Per questo i comandi delle interfacce grafiche, in cui
icone e menu’ sono visivamente disponibili all’utente, sono piu’ semplici da ricordare
rispetto ai comandi dei linguaggi a comando che richiedono rievocazione. L’oblio, ovvero
la dimenticanza dell’informazione, è spiegato in modo variabile a seconda dei modelli
teorici di riferimento, ma essenzialmente tende a essere attribuito a codifica superficiale o
ad interferenza da parte di altra informazione presente in memoria che tende ad essere
confusa con quella che cercavamo. L’interferenza tende a coinvolgere informazione simile
e particolarmente informazione che è stata acquisita tramite lo stesso canale sensoriale
(ad esempio, è facile confondersi nel riconoscimento di due figure molto simili, come
discuteremo nel BOX 1).
4.2 Memoria e tecnologia: un rapporto bivalente
Questa sezione analizza il rapporto fra memoria e tecnologie informatiche, un rapporto
che spesso è complesso (van Der Hoven et al. 2012). Da un lato, infatti, le tecnologie
informatiche possono essere concepite come una sorta di protesi mnemonica che ci
permette di ricordare più informazioni per un tempo molto esteso. Dall’altro lato, però, il
loro utilizzo può introdurre una serie di sfide importanti alle capacità di memoria. In questo
paragrafo, presentiamo una serie di sistemi e situazioni interattive che testimoniano tale
paradosso.
Il settore in cui la metafora della protesi mnemonica è stato sfruttato appieno è quello della
tecnologia per l’assistenza alle persone che soffrono di disturbi della memoria (Berry et al.,
2007). Un esempio è SenseCam una piccola macchina fotografica che viene indossata
dall’utente e scatta automaticamente foto durante l’intera giornata. Le foto vengono
scaricate su un computer per essere riviste e analizzate. Uno studio clinico della durata di
un anno ha dimostrato un effetto positivo di tale analisi sulla memoria episodica di un
utente affetto da amnesia. Anche al di fuori della pratica clinica, la tecnologia è
frequentemente usata per raccogliere memorie personali. Si passa dall’utilizzo diffuso di
macchine fotografiche digitali ai nuovi sistemi di Lifelogging che registrano eventi in modo
parzialmente automatico (ad esempio, il numero di caffè bevuti o i chilometri percorsi in un
giorno).
Il campo della sicurezza informatica mostra il gap fra capacità mnemoniche dell’utente e
richieste tecnologiche (Adams e Sasse 2000). Nel momento in cui buona parte dei nostri
interessi economici, professionali e personali sono mediati da strumenti informatici diventa
fondamentale proteggere le informazioni. Per questo motivo, sono state realizzate una
serie di misure tecnologiche avanzate relative alla sicurezza dei dati, quali firewall,
antivirus, sistemi di crittografia. Recentemente, però, si è capito che un approccio
puramente tecnologico non basta: gli utenti che cerchiamo di proteggere rappresentano gli
anelli più deboli della catena. Il processo a rischio è l’autenticazione dell’utente: tutti quei
compiti variegati che dobbiamo giornalmente eseguire in modo da dimostrare a un sistema
informatico di essere gli onesti proprietari dell’informazione. Dal punto di vista della
sicurezza, password “robuste” corrispondono a lunghe combinazioni di lettere e simboli
che devono essere uniche, cambiate spesso e non corrispondere a parole reali. Tali
requisiti pongono richieste difficili alla memoria delle persone che reagiscono con una
serie di strategie a rischio, quali annotare le password, scrivendole su fogli cartacei o file
digitali che possono essere facilmente visibili a altre persone, o usare la stessa password
in sistemi diversi. Una possibile soluzione per aumentare l’usabilità del processo di
autenticazione sfruttando la superiorità dell’immagine e il riconoscimento è descritta nel
Box 4.1.
La facilità di ricordo e’ un
elemento fondamentale
dell’usabilità di sistemi utilizzati
in modo occasionale.
4.2.1 Facilità di ricordo
Secondo il modello multidimensionale proposto da Jacob Nielsen la facilità di ricordo è
un aspetto fondamentale dell’usabilità. Non solo un sistema deve essere facile da usare,
ma l’utente deve potere interagire anche dopo un periodo di lungo inutilizzo, senza essere
costretto a ripartire da zero. Una memorizzazione semplice e immediata dei comandi è
particolarmente importante per applicazioni destinate a utilizzo occasionale da parte di
utenti inesperti. Esistono consolidati principi di progettazione che possono aiutarci in
questa sfida. Pensiamo, ad esempio, ai tre modi diversi che un utente che utilizza il
sistema word su un computer Macintosh ha a disposizione per salvare un file. L’utente può
fare click su un’icona che rappresenta un dischetto, può selezionare la voce “salva” da un
menù a tendina (“File”) oppure schiacciare contemporaneamente il tasto CMD⌘
(l’equivalente Apple del tasto CTRL dei PC) e il tasto S, usando quella che viene
tecnicamente chiamata una scorciatoia (shortcut).
Questi tre comportamenti producono lo stesso risultato sullo stato del programma, ma
pongono richieste diverse all’utente. Dal punto di vista della semplicità di ricordo, la
selezione dell’icona con il dischetto è il chiaro vincitore, per tre ragioni principali:
(1) l’icona è disponibile nello spazio di lavoro e quindi può essere immediatamente
percepita;
(2) il riconoscimento è più semplice del recupero;
(3) l’informazione iconica è più semplice da ricordare di quella verbale.
La selezione da menù si pone a livello di complessità intermedio. Infatti, se da un lato il
feedback fornito dalla parola “salva” aiuta a ricordare che questa è effettivamente l’opzione
corretta, facilitando il recupero tramite riconoscimento, dall’altro lato l’opzione non è
immediatamente disponibile. Se l’utente non ne ricorda la posizione, deve navigare fra un
menù e l’altro, un compito che può essere difficile se, come a volte succede, il titolo del
menu non è chiaramente esplicativo. Le scorciatoie sono più complesse da ricordare in
quanto devono essere recuperate direttamente dalla memoria a lungo termine, ma hanno
il vantaggio di sveltire l’interazione. La probabilità di ricordo varia in base alla logicità della
combinazione. Per esempio, la scorciatoia per salvare del testo è relativamente semplice,
in quanto S è l’iniziale di Salva e il tasto ⌘ è sempre utilizzato. Più complesso invece è il
ricordo del comando per sostituire del testo (Shift, ⌘, H). L’apprendimento può essere
facilitato tramite esposizione ripetuta, come avviene nei menù che riportano graficamente
la combinazione dei tasti delle scorciatoie vicino alla voce a cui si riferiscono.
4.2.2. Ricerca dell’informazione
La gestione dell’informazione digitale è diventata un problema pressante per molti utenti,
in quanto il numero di file creati ogni giorno, nella forma di documenti, fotografie, immagini,
brevi messaggi di testo sul cellulare, musica, video-clip, o mail cresce esponenzialmente.
A questo si aggiunga la massa di informazioni che continuamente vengono prodotte nelle
varie comunità sociali, quali Wikipedia, Facebook e Twitter. Il problema diventa quindi
come organizzare l’informazione in modo che possa essere recuperata al bisogno.
Il modo più comunemente usato dalle persone per la gestione della loro informazione
personale è di attribuire ai file un nome e salvarli nella memoria dei vari strumenti
interattivi usati. Quante volte però vi è capitato di non ricordare il nome o la cartella in cui
avete salvato un file? Questo problema può essere alleviato da motori di ricerca flessibili,
ad esempio Spotlight nel caso del computer Mac. Spotlight sfrutta qualunque indizio
verbale l’utente ricordi e cerca la parola chiave nel nome e nel testo di tutti i file presenti
La ricerca dell’informazione
può essere facilitata tramite
interfacce che ne facilitano il
riconoscimento.
nel sistema. Il risultato della ricerca è raggruppato per tipologia di file, indicata
verbalmente tramite testo e graficamente tramite immagine. In questo modo, Spotlight
facilita processi di ricerca basati sia sulla rievocazione che sul riconoscimento, limitando il
campo di scelta ad un numero ragionevole di candidati. L’ordine di visualizzazione
dipende dalla frequenza di occorrenza della parola chiave e dalla data dell’ultimo utilizzo
del file.
Le proposte di autocompletamento, inoltre, possono aiutare l’utente a trovare le parole
chiave per la ricerca (vedi Figura 4.2) sfruttando il principio che il riconoscimento
(selezione da una lista di alternative) è più facile della rievocazione non strutturata. Il loro
successo è funzione della qualità del suggerimento e del tipo di parola che l’utente cerca
di ricordare. Sono particolarmente utili nei browser Web dove la stringa da ricordare (URL)
è spesso complessa.
Box 4.1: Autenticazione grafica
I sistemi di autenticazione grafica sfruttano la superiorità mnemonica delle immagini
rispetto alle parole e il ruolo facilitante del riconoscimento sulla rievocazione (De Angeli et
al., 2005). Inoltre, possono aumentare la sicurezza, in quanto le immagini sono difficili da
comunicare in forma scritta o parlata. L’idea è stata implementata in tre classi di sistemi.
1) Sistemi basati sul riconoscimento: all’utente vengono assegnate delle immagini che
formano la password. In fase di autenticazione, tali immagini devono essere
riconosciute fra un numero variabile di distrattori (Figura 4.4).
2) Sistemi basati sul metodo dei loci: l’utente sceglie dei punti in un’immagine, che devono
essere selezionati in sequenza in fase di autenticazione.
3) Sistemi basati sul disegno: l’utente disegna una forma che diventa il suo codice
personale. In fase di autenticazione, deve riprodurre il disegno.
Un esempio della prima categoria é il sistema VIP (Visual Identification Protocol), prodotto
dai laboratori di ricerca di NCR. All’utente viene assegnato un gruppo di 6 immagini
selezionate in modo da appartenere a categorie semantiche diverse. Questo gruppo di
immagini costituisce la password. Ogni volta che l’utente utilizza un sistema sicuro, 5
immagini estratte a caso, devono essere riconosciute distinguendole da un insieme di 11
distrattori. Le immagini da riconoscere e i distrattori cambiano ogni volta rendendo
complessa la comunicazione intenzionale o non intenzionale del codice di riconoscimento.
L’usabilità dei sistemi basati sul riconoscimento è comunque funzione del tipo di immagini
utilizzate che devono essere semplici, altamente distintive e riprodurre oggetti concreti,
come quelli rappresentati in Figura 4.4. Immagini più complesse sono più sicure, in quanto
minimizzano il rischio di comunicazione volontaria ed involontaria del codice, ma sono piu’
difficili da ricordare e tendono a generare errori dovuti ad interferenza con distrattori
visivamente simili.
Figura 4.4. Interfaccia del
sistema VIP - Visual
Identification Protocol
Tassonomia dei compiti.
I compiti si differenziano in 3
categorie di crescente
complessità: compiti basati
sulle abilità (eseguiti
automaticamente), compiti
basati sulle regole e compiti
basati sulle conoscenze (che
richiedono crescente attenzione
ed elaborazione)
Tabella 4.1. Classificazione dei
compiti sulla base della loro
complessità, adattato da
Rasmussen (1973)- MdL=
Memoria di Lavoro; MLT=
Memoria a Lungo Termine
4.3 Pensiero: Elaborazione dell’informazione
Questa sezione illustra alcune conoscenze di base relative a come le persone eseguono
compiti attraverso l’uso di tecnologia informatica. In particolare il capitolo si concentra
sull’analisi degli errori, dei modelli mentali e dell’apprendimento.
4.3.1 Complessità dei compiti
Il livello di complessità di un compito dipende dalle sue richieste attenzionali alla memoria
di lavoro e dal tipo di conoscenza utilizzata (procedurale o dichiarativa). Questi fattori
influenzano direttamente il carico cognitivo, vale a dire l’impegno necessario
all’elaborazione dell’informazione. Secondo Rasmussen, i compiti si dividono in tre
categorie: compiti basati sulle abilità, compiti basati sulle regole e compiti basati sulle
conoscenze (Tabella 4.1). I compiti basati sulle abilita’ pongono richieste modeste alla
memoria di lavoro in quanto vengono portati avanti in modo pressoché automatico
utilizzando sequenze standard presenti nella memoria procedurale. Di conseguenza,
comportano un basso carico cognitivo. Per un utente esperto, il compito di salvare un file
utilizzando la scorciatoia ⌘ + il tasto S è spesso portato avanti in modo automatico senza
dovere effettivamente pianificare le attività necessarie. I comportamenti basati sulle regole
pongono moderate richieste attenzionali e utilizzano conoscenze procedurali che
descrivono sequenze di azioni. Immaginiamo in questo caso di volere salvare un file Excel
con nomi diversi a seconda del tipo di elaborazione eseguito in esso. Infine, i compiti
basati sulle conoscenze pongono elevate richieste attenzionali in quanto si basano su
conoscenze di tipo dichiarativo che vanno di volta in volta elaborate per pianificare
l’azione. Un esempio di compito basato sulle conoscenze è la scrittura di un programma
informatico, che richiede costante pianificazione, analisi e controllo.
Tipo di compito
MdL
MLT
Complessità
Basato sulle abilità
Basso
Procedurale
Semplice
Basato sulle regole
Medio
Procedurale
Medio
Basato sulle
conoscenze
Alto
Dichiarativa
Complesso
Questa tassonomia è molto importante per la progettazione di interfacce, in quanto
permette di definire, per esempio quali compiti possono essere svolti in parallelo senza
generare interferenza in memoria di lavoro e quindi senza generare errori. E’ chiaro che i
compiti basati sulle abilità tenderanno ad interferire meno con altre attività parallele.
Mentre nel caso dei compiti basati sulle conoscenze tutta l’attenzione deve essere
concentrata sul lavoro principale. La complessità di un compito varia sulla base di molti
fattori. L’apprendimento rende i compiti più semplici: la prima volta che si usa un
programma informatico, si lavora tipicamente a livello della conoscenza o delle regole,
mentre con l’esperienza si possono raggiungere prestazioni basate sulle abilità, che
permettono di avere più risorse disponibili per altri compiti.
Il livello di arousal influenza la
prestazione secondo una curva a
U capovolta.
Altri fattori contestuali, incluso l’ambiente e lo stato psicologico dell’utente, influenzano
la complessità del compito. E’ noto, infatti, che la prestazione varia al crescere del livello di
arousal, un termine che descrive l’attivazione fisiologica dell’operatore. Esiste un
andamento tipico della prestazione che può essere descritto da una funzione ad U
capovolta. A livelli di bassa attivazione corrispondono livelli bassi di prestazione. In questi
casi l’operatore non presta attenzione all’interfaccia, magari perché é molto affaticato. La
prestazione cresce poi gradualmente al crescere dell’attivazione, ma tale miglioramento si
arresta in coincidenza con il punto più elevato della curva, a partire dal quale la
prestazione tende progressivamente a peggiorare.
4.3.2. Errori
La definizione dell’errore umano nell’interazione con strumenti informatici è complessa. Da
un punto di vista pratico, l’errore può essere definito come il risultato di un’azione che si
discosta da quello atteso. In altre parole, l’errore rappresenta un fallimento della
comunicazione fra l’essere umano e il sistema: un momento d’incomprensione che rivela
l’entità del golfo esistente fra i due agenti. Da un punto di vista psicologico, l’errore è
concettualizzato in maniera variabile a seconda del fatto che l’utente sia consapevole di
avere sbagliato e a seconda del livello di elaborazione cognitiva sottostante l’azione da cui
è stato prodotto. Quando si parla di errori, infatti, è necessario distinguere tra quelli che
possono essere definiti errori concettuali e gli errori automatici. I primi riguardano gli sbagli
generati da un utilizzo inappropriato delle conoscenze e delle regole sottostanti la
pianificazione del comportamento e si verificano quando si eseguono compiti a livello delle
conoscenze e delle regole, mentre gli errori automatici riguardano gli inceppamenti
nell’esecuzione dei compiti basati sulle regole.
Esistono varie tassonomie (classificazioni strutturate) dell’errore umano che sono state
utilizzate per studiare incidenti nel settore aeronautico, petrolifero, chimico e nucleare.
Secondo lo psicologo James Reason, gli errori si suddividono in 4 categorie.
• Le sviste (slip) sono errori che derivano dalla mancanza di collegamento tra intenzione
(piano dell’utente) e azione (esecuzione del piano). L’intenzione è soddisfacente, ma
l’azione non porta ai risultati desiderati. Questo tipo di errore si verifica nell’esecuzione di
compiti basati sulle regole che vengono portati avanti in modo automatico. Le cause
riguardano principalmente un fallimento nell’attenzione o nell’azione motoria, come per
esempio un errore di battitura di una parola o la pressione di un bottone adiacente a
quello che si desiderava realmente premere (per esempio, “rifiuta chiamata” invece che
“rispondi”).
• I lapsus sono errori tipicamente dovuti a fallimenti della memoria o ad applicazione di
procedure errate. Nell’interazione con dispositivi informatici, questi errori capitano
tipicamente quando una nuova versione di un prodotto è rilasciata e l’utente segue la
vecchia procedura che si discosta dalla nuova.
• Gli sbagli (mistake) si verificano a livello dell’intenzione, quando i piani generati dal
soggetto non portano al successo dell’azione. L’errore può essere dovuto all’attivazione
di regole sbagliate o all’applicazione di conoscenze erronee, come ad esempio una
valutazione sbagliata della situazione, l’utilizzo di modelli mentali superficiali o errati, o
errori nel pensiero causale. Errori di questo tipo riguardano piani sbagliati, come quando
si pensa che l’attivazione di un certo comando porterà ad un risultato diverso da quello
ottenuto. In generale, sono generati dall’applicazione di un modello mentale errato, come
descritto precedentemente nel caso del termostato.
• Le violazioni (violation), infine, sono errori deliberati, in cui il piano e l’azione della
persona corrispondono, ma sono in contrasto con le procedure definite da un’istituzione.
L’esempio più tipico è quando comunichiamo la nostra password a colleghi, nonostante
ci siamo impegnati a non farlo con il nostro datore di lavoro
I modelli mentali sono le
rappresentazione cognitiva che
le persone hanno di oggetti ed
eventi del mondo.
4.3.3. Modelli mentali
Quando impariamo ad utilizzare un nuovo sistema o ci troviamo di fronte a situazioni
impreviste, basiamo le nostre azioni sul modello mentale che ne abbiamo. Secondo lo
psicologo Kenneth Craik, un modello mentale è la rappresentazione che le persone hanno
in mente di come funziona il mondo e di come agire su di esso. Questo concetto è
estremamente importante per la progettazione di interfacce utente perché ci permette di
prevedere quello che le persone si aspettano dalle macchine. In questo contesto, il
modello mentale rappresenta le aspettative, le conoscenze e le credenze su come
funzionano gli oggetti che ci circondano; tali conoscenze vengono utilizzate per pianificare
le nostre azioni, sia consciamente sia inconsciamente.
Pensate per esempio alla seguente situazione: tornate una fredda sera di inverno a casa e
volete scaldare l’ambiente nel minor tempo possibile. Che cosa fate? Azionate il
termostato della caldaia al massimo o alla temperatura desiderata? Molte persone
sceglieranno la prima opzione che è corroborata da un modello mentale basato sulle
valvole, in cui al massimo (del termostato) corrisponde il massimo (del calore). Questo
modello è corretto per molti contesti familiari, come ad esempio il lavandino dell’acqua
calda oppure il fornello del gas (in cui aumentando il valore sul selettore aumenta il calore
prodotto). Sfortunatamente, la soluzione è invece errata nel caso della caldaia. Infatti, il
termostato funziona in base ad un modello spento-acceso ed aumentare il numero di gradi
sul termostato non aumenta il livello di calore dei radiatori. I modelli mentali che gli utenti si
formano dei dispositivi tecnologici sono spesso errati e gli errori aumentano in funzione
della loro complessità. Il problema di fondo è che i computer sono entità opache del cui
funzionamento si percepisce direttamente molto poco.
I modelli mentali sono entità dinamiche che diventano via via più elaborate al crescere
dell’apprendimento. Un esperto di reti informatiche ha un dettagliato modello mentale di
come l’informazione digitale è trasmessa che gli permette di configurare connessioni
sicure, risolvere problemi e massimizzare la velocità di trasmissione. L’utente informatico
medio ha, invece, un modello più elementare che gli permette essenzialmente di verificare
che il modem sia acceso in caso di problemi di connessione. Questa differenza
rappresenta un problema fondamentale in fase di progettazione delle tecnologie. L’esperto
di computer deve capire il modello mentale dell’inesperto, per progettare interfacce che
rendano il sistema più trasparente tramite feedback dettagliato e comprensibile, istruzioni
chiare e semplici da seguire, sistemi di aiuto appropriati e contestuali. Per sfruttare a pieno
i modelli mentali dell’utente è necessario conoscere i sistemi a cui sono abituati e per
quanto possibile seguirne le metafore e le convenzioni di design usate.
Gli stereotipi sono
rappresentazioni cognitive delle
altre persone sulla base delle
loro caratteristiche salienti,
quali l’età. il sesso o la razza.
L’equivalente dei modelli mentali nei processi di cognizione sociale, quando cioè lo stimolo
è rappresentato da esseri umani e non oggetti, sono gli stereotipi: rappresentazioni
cognitive che forniscono informazione generale rispetto ad un particolare gruppo sociale.
Gli stereotipi vengono usati prevalentemente in mancanza di informazione specifica,
quando incontriamo una persona per la prima volta. In questo caso, ci forniscono
indicazioni generali sulla sua competenza, abilità e valore sulla base del gruppo sociale a
cui appartiene. Il processo di categorizzazione si basa su varie caratteristiche personali
(quali etnia, genere, età o classe sociale). Come vedremo nel paragrafo sul linguaggio, le
macchine tendono spesso ad elicitare stereotipi sociali, come se fossero persone.
4.3.4 Apprendimento
L’apprendimento nel contesto della Human-Computer Interaction può essere discusso in
due accezioni principali: apprendimento di conoscenze informatiche necessarie all’utilizzo
di un sistema ed apprendimento mediato dalla tecnologia informatica.
Imparare a usare un sistema
La facilità di apprendimento è una dimensione fondamentale dell’usabilità, secondo cui un
utente, che utilizza per la prima volta un sistema interattivo deve raggiungere buone
prestazioni in tempi brevi. L’importanza relativa di questo attributo per il design e’ funzione
del tipo di compito, della frequenza di utilizzo del sistema e dell’esperienza dell’utente
target. Sistemi destinati a un utilizzo frequente in ambito professionale pongono richieste
molto diverse da sistemi destinati a utilizzo saltuario in ambito personale.
Per progettare sistemi facili da apprendere, il designer deve comprendere profondamente
il modello mentale di un compito e dell’artefatto, che l’utente possiede ed utilizzarlo come
guida alla progettazione. In questo modo si fornisce alle persone la possibilità di integrare
il nuovo materiale da apprendere con le conoscenze dichiarative e procedurali presenti in
memoria a lungo termine. Tale integrazione favorisce un’elaborazione più profonda della
traccia mnestica, che, come discusso precedentemente, ne favorirà il ricordo.
Le interfacce a manipolazione
diretta facilitano l’apprendimento
mediato dall’azione.
L’apprendimento di sistemi informatici è oggetto di un vasto numero di studi. E’ risaputo
per esempio che le persone trovano difficile e noiosa la lettura di manuali d’uso: di
conseguenza tendono ad evitarla. Preferiscono invece l’apprendimento mediato
dall’azione. Da questo punto di vista, le interfacce a manipolazione diretta sono campi
scuola ideali. Infatti, tale approccio permette di agire immediatamente sullo stato del
sistema manipolando tramite strumenti di input oggetti grafici presenti nell’interfaccia. La
filosofia di queste interfacce è riassunta dalla frase inglese what you see is what you get2 .
In seguito ad ogni azione dellʼutente la rappresentazione dellʼinterfaccia viene
immediatamente aggiornata, permettendo così allʼutente un continuo ed elevato controllo
sullʼinterazione. Queste interfacce dunque devono essere progettate in modo da stimolare
l’esplorazione diretta e fornendo comunque funzioni facilmente accessibili, che permettano
di annullare l’esecuzione di un azione riportando il sistema alla sua configurazione
precedente (funzionalità di undo).
Al giorno d’oggi, la manualistica cartacea è quasi sparita. Al suo posto si sono andati
affermando vari sistemi di aiuto digitale. Si consideri, per esempio, Microsoft Word 2008
nella versione per Macintosh. Offre un sistema di help dove le persone possono navigare
nel contenuto seguendo hyperlink, cercare l’informazione su materiale fornito da Microsoft,
e chiedere aiuto a una comunità di utenti. Quest’ultimo approccio sta diventando sempre
più comune e vi sono molte comunità sponsorizzate o spontanee dove le persone si
scambiano informazioni su come utilizzare prodotti tecnologici. Vari strumenti on-line,
comunque, pongono serie sfide alle nostre capacita’ cognitive, in quanto sono presentati in
finestre esterne a quelle su cui l’utente agisce.
Per illustrare il problema si consideri il seguente esempio: l’utente sta scrivendo un testo e
vuole sapere come creare nuovi stili di formattazione. Digitando la parola ‘stile’ nel motore
di ricerca ottiene una lista di risultati. Cliccando la voce di menu ‘Crea nuovo stile’, il
sistema indica la sua posizione nel menu principale ‘Formato’. L’effetto è dinamico e
grafico, il menu si apre e una grossa freccia evidenzia l’item desiderato consentendo
all’utente di identificarlo con minimo sforzo. Questo e’ un esempio di aiuto contestuale,
volto a diminuire il carico cognitivo dell’utente integrando l’informazione rilevante nel
momento dell’azione. Purtroppo pero’ a volte non e’ sufficiente. Richiedendo aiuto on-line
l’utente ottiene più informazione che tuttavia spesso e’ esterna all’ambiente di lavoro.
Questo pone forti richieste alla memoria di lavoro: l’utente deve trattenere la descrizione di
azioni da compiere e il loro ordine, agendo su menù, icone, o tasti funzione, pianificare ed
eseguire le azioni sulla base di tale informazione. Considerando il fatto che l’utente che
richiede aiuto sta agendo al livello delle regole (o delle conoscenze in caso di compiti più
complessi) si può’ concludere che i due task difficilmente possono essere condotti in
parallelo. La reiterazione è complicata dal fatto che le capacità cognitive dell’utente sono
concentrate sull’esecuzione del compito primario per cui ha cercato aiuto. Per questo
motivo, l’utente si trova spesso spesso a tornare a consultare il messaggio di aiuto
passando da una finestra all’altra.
E-learning
Diverse tecnologie informatiche sono state utilizzate come strumenti per insegnare
un’ampia gamma di materie, a cominciare dalle tradizionali piattaforme di e-learning
tipicamente implementate sul web fino ai recenti sistemi di m-learning (mobile learning) in
cui il contenuto è fornito nel contesto fisico di rilevanza (vedi Box 4.2). L’utilizzo della
tecnologia informatica fornisce al discente la possibilità di ricevere informazioni in un
contesto dinamico e multimediale dove può acquisire conoscenze attraverso
l’esplorazione e la manipolazione diretta del contenuto, impossibile con i tradizionali
strumenti cartacei. La progettazione di tali sistemi richiede di considerare attentamente sia
il contenitore (strumento interattivo, con le sue funzionalità e caratteristiche interattive) che
il contenuto (materiale didattico). Interfacce complesse influenzano negativamente la
2
Abbreviata WYSIWYG e pronunciato come wizzy-wig, la frase si è presto trasformata in una coppia di parole, con
cui vengono identificati tutti quei programmi dove l’output del sistema rappresenta pienamente e chiaramente il
risultato dell’azione dell’utente.
fruizione del contenuto, aumentando il carico cognitivo dell’utente. La preparazione del
contenuto può essere facilitata da una una serie di principi sviluppati in anni di lavoro
sperimentale da Mayer e Moreno (Tabella 4.2).
Tabella 4.2. Principi per
l’apprendimento multimediale
Principio
Razionale
Rappresentazione multipla
Le spiegazioni fornite tramite testo e immagini sono più efficaci
di quelle solo in testo.
Contiguità spaziale
Nelle spiegazioni multimediali, parole e immagini devono essere
fisicamente integrate piuttosto che separate.
Divisione dell’attenzione
Il materiale didattico deve essere presentato in modo tale da
non richiedere di dividere l’attenzione fra fonti di informazione
diverse che fanno riferimento alla stessa modalità sensoriale in
quanto questo pone richieste troppo elevate sulla memoria di
lavoro
Modalità
Le informazioni verbali devono essere presentate tramite parlato
piuttosto che come testo scritto
Ridondanza
Animazioni e parlato sono più efficienti di animazioni, parlato e
testo scritto, quando le informazioni visive sono presentate
insieme alle informazioni verbali
I materiali visivi e verbali devono essere sincronizzati (presentati
contemporaneamente)
Contiguità temporale
Coerenza
I materiali non rilevanti alla spiegazione del contenuto devono
essere esclusi dalle spiegazioni multimediali
Box 4.2: Explore!
I sistemi di m-learning estendono il contesto tradizionale di apprendimento al di fuori delle
aule informatiche portandolo nel mondo reale e fisico di eventi e oggetti d’interesse,
creando un flusso diretto fra conoscenza ed esperienza in contesti di visite a musei, gite
nella natura o in città. Tali sistemi richiedono, quindi, strategie d’insegnamento e
interazione innovative che permettano di arricchire l’esperienza di vita reale, senza
detrarre l’attenzione dell’utente dal contesto reale.
Un esempio è Explore! progettato per insegnare la storia a studenti della scuola primaria e
secondaria durante visite a siti archeologici (Costabile et al. 2008). Explore! è
implementato su telefonini commerciali e utilizza la tecnica didattica del gioco-escursione:
una specie di caccia al tesoro in cui gruppi di 3-5 bambini esplorano un parco
archeologico alla ricerca di luoghi storicamente importanti, immedesimandosi in
personaggi del periodo storico (Figura 4.5). In questo modo, i bambini diventano
protagonisti del mondo antico trasformando lo studio in un momento di conquista,
divertimento e avventura. Le missioni sono comunicate tramite brevi messaggi scritti e
orali che spingono i bambini ad analizzare dettagliatamente i reperti archeologici e a
esplorare l’ambiente circostante. Un sistema contestuale di aiuto, che riporta conoscenze
storiche e archeologiche è inoltre disponibile. Explore! permette anche di aumentare
l’ambiente circostante tramite immagini tridimensionali che visualizzano l’aspetto originario
delle rovine archeologiche e suoni contestuali che aiutano a immaginare la vita in tempi
passati (Figura 4.5). Per esempio, camminando sulle rovine della piazza del mercato, gli
utenti sentono il rumore di folla e animali, mentre avvicinandosi ai resti della fornace lo
sfrigolio del fuoco. Vari studi in laboratorio e sul campo hanno dimostrato la validità
pedagogica dell’approccio e un’incondizionata soddisfazione da parte dei bambini
6/13/12 11:01 PM
Figura 4.5. Un gruppo di
bambini che gioca con Explore!
al parco archeologico di
Eganzia, in Puglia. Il cellulare
riproduce la ricostruzione 3-d
della Basilica Civile
4.4 Linguaggio: Comunicazione del pensiero
Lettura, scrittura, e più recentemente, parlato sono modalità comunemente usate come
output nell’interazione con un computer. Il significato trasmesso dai vari canali linguistici è
lo stesso, ma lo sforzo per decifrarlo varia sostanzialmente a seconda del canale, del
contesto, dell’utente e del compito. Le principali differenze che possono essere utili nella
progettazione di interfacce utente sono riassunte in Tabella 4.3, altri importanti principi
relativi alla presentazione di materiale multimediale sono stati presentati in Tabella 4.2
Paragone fra linguaggio scritto e linguaggio parlato
Ascoltare un testo richiede meno sforzo cognitivo che leggerlo
L’informazione trasmessa tramite linguaggio parlato è transitoria, quindi pone più richieste
alla memoria di lavoro
Il linguaggio scritto è più formale e attento alle regole grammaticali del parlato.
La lettura è più veloce dell’ascolto
La lettura è un processo di percezione selettiva: le persone non procedono
sequenzialmente lettera per lettera da sinistra a destra, ma saltano velocemente fra una
parola e l’altra, una volta che ne intuiscono il significato, e spesso tornano indietro per
verificare le loro ipotesi. Generalmente, il testo scritto in stampatello minuscolo viene letto
più velocemente, poiché l’immagine composta da lettere che salgono e scendono è più
distintiva, rispetto allo stampato maiuscolo. Provate a leggere il prossimo paragrafo e
probabilmente vi accorgerete di necessitare più sforzo e procedere meno speditamente.
Alcune sequenze di lettere, che non sono parole, come ad esempio i codici fiscali, o gli
acronimi, comunque vanno, pero’, sempre scritte in maiuscolo, proprio per sottolineare la
loro differenza. Il maiuscolo può essere usato per attrarre ‘attenzione.
LA PREFERENZA FRA I DIVERSI CANALI VERBALI DIPENDE DALLE PERSONE, DAL
CONTESTO E DAL COMPITO. PER ESEMPIO, GLI UTENTI DISLESSICI HANNO
DIFFICOLTÀ A LEGGERE, MENTRE LE PERSONE ANZIANE NECESSITANO DI
CARATTERI PIÙ GRANDI PER LA LETTURA E DI UN AUDIO PIÙ FORTE PER
L’ASCOLTO. IL PARLATO DIMINUISCE LA PRIVACY DELL’INFORMAZIONE E QUINDI
NON E’ CONSIGLIABILE PER INFORMAZIONI SENSIBILI IN CONTESTI PUBBLICI
COME QUANDO SI USA UN BANCOMAT. D’ALTRO LATO, LA LETTURA NON È
POSSIBILE QUANDO L’ATTENZIONE VISIVA È CONCENTRATA SU ALTRI COMPITI,
AD ESEMPIO LA GUIDA DI UN VEICOLO.
Il significato trasmesso tramite linguaggio parlato dipende sia da aspetti verbali che non
verbali. Il linguaggio verbale veicola in modo digitale gli aspetti di contenuto, mentre la
comunicazione non verbale veicola in modo analogico gli aspetti di relazione. Secondo lo
psicologo Albert Mehrabian, l’interpretazione del contenuto emozionale di un messaggio
dipende in minima parte dalle parole pronunciate (7%) e in modo sostanziale dalle
caratteristiche vocali (tono, ritmo, volume: 38%) e dai movimenti del corpo, in particolare
dalle espressioni facciali (55%). La tendenza ad arricchire il parlato con gesti è automatica
e inconsapevole, come può essere osservato quando le persone gesticolano o sorridono
durante una conversazione telefonica. Un’analisi approfondita dei processi cognitivi
sottostanti l’uso del linguaggio è al di fuori dello scopo di questo capitolo, che si concentra
invece sull’analisi di situazioni in cui il linguaggio naturale è usato nell’interazione fra
esseri umani e macchine. In questo contesto, l’aspetto più problematico è la creazione di
un terreno comune (common ground), la parte di conoscenze condivise che costituisce la
base di ogni scambio comunicativo.
4.1. Common ground e messaggi di errore
La comunicazione richiede una base di conoscenza comune fra gli attori coinvolti, che
deriva da un processo di negoziazione dinamica dei significati che si stanno condividendo.
Le persone pianificano il comportamento verbale sulla base di quello che ritengono l’altra
persona possa comprendere, facendo spesso uso di stereotipi sociali, e modificando il
comportamento sulla base della reazione dell’audience, vale a dire le persone che
ascoltano. Tale reazione può essere comunicata tramite linguaggio verbale (richiesta
diretta di spiegazioni) o non verbale (una faccia sbigottita, un’espressione confusa). Per
questo la creazione di common ground è più efficiente in contesti di interazione faccia a
faccia, ma necessaria in ogni tipo di comunicazione. Pensate per esempio a cosa fareste
per comunicare a un bambino di 5 anni o a un vostro collega di studio l’argomento di
questo capitolo. Sicuramente userete parole, metafore ed espressioni diverse, basate su
quelle che ritenete siano le conoscenze condivise.
In modo simile, tutti i messaggi verbali provenienti da un computer devono basarsi su
conoscenze condivise con gli utenti per essere compresi. Come abbiamo visto nel
paragrafo sui modelli mentali, tali conoscenze sono diverse a seconda dell’esperienza
dell’utente e spesso i progettisti di sistemi informatici condividono poco terreno comune
con gli utenti. Il problema si nota particolarmente con i messaggi d’errore che devono
essere chiari, informativi e adattati alle conoscenze dell’utenza.
4.2 Interfacce vocali
Le interfacce vocali mediano sempre più frequentemente la comunicazione telefonica con
vari servizi di assistenza per il pubblico, quali quelli di banche o compagnie aeree. Come
sottolineato in precedenza, gli output vocali soffrono del problema della transitorietà e
possono mettere a dura prova la memoria di lavoro. Immaginiamo, per esempio, che una
persona abbia smarrito la carta di credito e debba bloccarla telefonando al customer
service. Tipicamente, in questa situazione, l’utente si trova in uno stato di stress visto il
danno economico che ne può risultare, e quindi la sua prestazione ne risentirà’. L’utente
chiama un lungo numero telefonico e una voce automatica elenca una serie di opzioni per
al sistema automatico più utile. Le probabilità di successo dipendono dal numero delle
opzioni proposte, che deve mantenersi adeguatamente nei limiti della capacità di
ritenzione in memoria a breve termine (a causa dell’assenza di un display che visualizzi il
menu), e della logicità della loro organizzazione. E’ inoltre necessario permettere all’utente
di selezionare l’opzione desiderata in qualunque momento, interrompendo la lista se
necessario e di richiedere la ripetizione di una o più opzioni senza doverle riascoltare tutte.
A causa di questi problemi, le interfacce vocali sono sconsigliate in contesti critici: per
esempio se si vuole chiamare la polizia per denunciare un evento criminale.
L’utilizzo del parlato come strumento di input riscuote un’attenzione crescente, come
testimoniato dall’interesse verso Siri, l’assistente digitale introdotto dall’iPhone 4S. Il
successo di questa interfaccia dipende non solo del grado di evoluzione della tecnologia di
riconoscimento, ma anche dal tipo di compito e dalle conoscenze dell’utente. Compiti che
richiedono l’identificazione di oggetti nello spazio fisico, per esempio, sono eseguiti più
efficacemente da gesti (tipicamente il puntamento dell’indice verso l’oggetto) che da parole
e richiedono quindi sistemi multimodali che integrano gesti e parlato.
4.3 Agenti conversazionali
Gli agenti conversazionali sono un tipo di interfaccia animata dall’aspetto antropomorfico
che si è affermata nell’ultimo decennio in molti settori, fra cui spiccano l’ambito
pedagogico, sanitario e commerciale. Tali agenti interagiscono con gli esseri umani
reagendo a input mediati da linguaggio scritto o parlato ed altre modalità non verbali. La
loro caratteristica peculiare è quella di possedere un corpo virtuale con il quale possono
attuare una serie di comportamenti non verbali, che possono facilitare per esempio la
gestione dei turni conversazionali (sguardi) o stimolare empatia e fiducia (sorrisi).
A causa del loro aspetto antropomorfico, l’interazione con agenti conversazionali è spesso
mediata da regole simili a quelle che determinano l’interazione fra esseri umani. In
particolare, tali agenti stimolano attribuzioni stereotipiche, sulla base del loro aspetto fisico,
quale il genere, l’etnia e la bellezza. Per esempio, gli agenti conversazionali sono più
persuasivi quando forniscono suggerimenti su argomenti stereotipicamente associati al
loro genere. Inoltre, macchine con voce maschile sono valutate come più competenti di
quelle con voce femminile, anche nel caso di indizi di genere minimi. Come nella vita
reale, le persone preferiscono gli agenti conversazionali attraenti rispetto a quelli meno
attraenti. Tuttavia tali agenti possono a volte generare reazioni molto negative, come
descritto nel BOX 3.3.
BOX 3.3. DISINIBIZIONE VERBALE
Un recente filone di ricerca si sta occupando dello studio della disinibizione verbale che
spesso si manifesta quando gli utenti interagiscono con le macchine (De Angeli e
Brahnam 2008). Tale comportamento, che consiste in forme di linguaggio scortese e
maleducato, quali parolacce, riferimenti sessuali e tutto ciò che nell’interazione fra umani
sarebbe etichettato come “linguaggio scurrile”, per anni è stato ignorato in letteratura.
Eppure tale comportamento è prevalente nei dialoghi registrati da utenti anonimi su
Internet e rappresenta dal 10 al 50% degli scambi interattivi. Tipicamente, gli utenti
chiamano il sistema stupido (e rafforzano il concetto con una varietà di sinonimi più o
meno volgari) e indulgono in conversazioni di tipo sessuale, anche quando la macchina
non possiede alcuna conoscenza del dominio. Tali discorsi variano da domande relative al
sesso dell’agente conversazionale, alle sue conoscenze in materia, fino a veri e propri
monologhi pornografici.
Il fenomeno di disinibizione si evidenzia in modo costante indipendentemente dall’età e
dall’etnicità delle rappresentazioni utilizzate (Brahnam e De Angeli 2012). Gli agenti
rappresentati da un corpo femminile sono maggiormente soggetti a insulti e discorsi a
sfondo sessuale di quanto lo siano gli agenti rappresentati da un corpo maschile. In
entrambi i casi il contenuto di questi scambi si concentra su stereotipi sessuali negativi,
che variano a seconda del genere dell’agente: le interazioni con agenti femminili
contengono molti riferimenti alla prostituzione, mentre le interazioni con agenti maschili si
concentrano sull’omosessualità. Alcuni esempi di interfacce valutate in questi studi sono
riportate in Figura 4.6, si noti come l’abbigliamento sia intenzionalmente formale in modo
da evitare attribuzioni inappropriate.
6/13/12 11:01 PM
Figura 4.6. Esempi di agenti
conversazionali
Conclusioni
In questo capitolo abbiamo presentato i processi cognitivi con cui le persone
acquisiscono, elaborano e comunicano lʼinformazione, discutendone la loro rilevanza per
la progettazione di interfacce utente in unʼampia gamma di contesti. I concetti principali
sono i seguenti:
1) La memoria è lʼinsieme dei processi cognitivi che permettono la selezione, elaborazione
e immagazzinamento dellʼinformazione. Lʼinformazione viene ricordata più
semplicemente tramite riconoscimento che tramite rievocazione.
2) La memoria ha un ruolo fondamentale in molti contesti di interazione quali il semplice
atto di salvare un file o di accedere alle nostre informazioni personali.
3) La complessità di un compito varia sulla base del tipo di conoscenza richiesta
nellʼesecuzione.
4) I modelli mentali sono le rappresentazioni cognitive su cui basiamo il nostro
comportamento di interazione: quanto più riflettono la realtà tanto più agiamo
correttamente. Gli errori si differenziano a seconda della causa psicologica in sviste,
lapsus e sbagli.
5) Lʼapprendimento in un contesto di HCI riguarda sia nozioni relative allʼinterazione con
un computer sia nozioni relative ad altre discipline insegnate tramite supporto
informatico. Lʼefficacia di tali strumenti dipende dalla combinazioni di media diversi che
devono evitare di coinvolgere contemporaneamente la memoria di lavoro dellʼutente.
6) La comunicazione è mediata da modalità diverse: linguaggio verbale (le parole che
usiamo), e non verbale (il comportamento con cui comunichiamo - gesti, silenzi,
espressioni). Il linguaggio verbale rappresenta solo una minima parte della nostra
capacità di comunicazione.
7) La comunicazione efficace richiede il consolidamento di terreno comune di
comprensione, che rappresenta le conoscenze condivise fra essere umano e macchina.
8) La comunicazione multimodale con agenti conversazionali, composta da linguaggio
verbale, gesti ed espressioni, costituisce la prossima frontiera dellʼinterazione con le
macchine. Questa tecnologia apre scenari interessanti, ma anche problemi di
disinibizione che possono influenzare negativamente il suo successo.
Domande
Aprite un sito di e-commerce che non avete mai usato prima. Provate ad acquistare un
prodotto di vostra scelta, analizzando tutte le richieste alla vostra memoria (di lavoro, e a
lungo termine). Quali vi sembrano irragionevoli? Come si potrebbe ridisegnare
l’interazione per fare in modo che l’utente non debba tenere inutilmente materiale in
memoria?
Considerate un compito comune nell’interazione con il computer: l’inserimento di testo
mediante tastiera. Provate adesso a classificare tale attività all’interno della tassonomia
dei compiti per una dattilografa esperta o per una persona che utilizza la tastiera per la
prima volta. Che differenze immaginate? A chi richiedereste di copiare i sottotitoli
direttamente da un video e perché?
Immaginate di essere in una situazione di stress e di dovere urgentemente informare un
amico. Quale sistema prediligereste: scrivere un lungo messaggio di testo, selezionare il
suo nome e chiamarlo, scrivere una e-mail? Perché?
Vi e’ stato richiesto di progettare una lezione interattiva on-line con il contenuto di questo
capitolo. Quali informazioni, riportereste in testo scritto e quali in testo parlato? Riflettete
sulle ragioni della vostra scelta.
Materiali utili
Links: http://www.theinvisiblegorilla.com/
Un sito web sviluppato intorno al best-seller “The invisible Gorilla” che permette di
comprendere in modo semplice e coinvolgente i misteri dell’attenzione umana. In
particolare si invita il lettore a visionare i video che dimostrano una serie di limitazioni
attentive in modo diretto e divertente.
http://daytum.com/
Sito web che permette ai suoi iscritti di registrare azioni della vita di tutti i giorni e
visualizzare i dati con grafici e rappresentazioni visive molto attraenti. Le applicazioni
fornite possono essere utilizzate per costruire memorie personali che si protraggono nel
tempo. Il sito e’stato sviluppato dai designer Nicholas Felton e Ryan Case che hanno
anche contribuito alla progettazione della Timeline di Facebook.
http://www.andrewpatrick.ca/blog2
In questo blog Andrew Patrick ricercatore del centro nazionale delle ricerche canadese,
fornisce una serie di informazioni sulla ricerca nel settore dell’usabilità e della sicurezza
on-line e nella vita di tutti i giorni, comprese varie riflessioni sul check-in agli aeroporti.
http://www.realuser.com/
Questa compagnia commercializza PassFaces, un esempio di password visiva che si
basa sul riconoscimento di facce. Il sito permette di scaricare e provare il sistema in
versione demo.
http://www.jabberwacky.com/
Un chatterbot che conversa con l’utente e che è stato oggetto di varie pubblicazioni
scientifiche.
Per saperne di più
Baddeley, A. Eysenck, M. W., e Anderson. M. (2011). La memoria. Il Mulino
Questo manuale fornisce un’introduzione fondamentale, completa e chiara dei diversi
sistemi di memoria e delle loro applicazioni nella vita di tutti i giorni, dalla memoria
autobiografica, al ruolo dell’età sul ricordo, a tecniche di miglioramento della memoria.
Mayer, R. (2001). Multimedia Learning. Cambrdige: Cambridge Press.
Questo libro in inglese riporta i risultati un decennio di ricerca nel settore
dell’apprendimento multimediale discutendo come l’informazione deve essere suddivisa
fra i vari canali percettivi per facilitare l’apprendimento.
Norman, D. 1990. La caffettiera del masochista. Psicopatologia degli oggetti quotidiani.
Milano, Giunti.
Un testo eccellente, piacevole e umoristico che dimostra in modo convincente lo scarto
che intercorre fra il funzionamento della mente umana e molti oggetti della vita quotidiana
che siamo costretti a utilizzare nonostante ci rendano la vita difficile. Il libro fu
originariamente pubblicato in lingua inglese nel 1988 con il titolo “The psychology of
everyday things” e successivamente con il titolo “The design of everyday things”.
Payne, S. J. (2003) Users’ Mental Models: The Very Idea. Chapter 6 in
J.M. Carroll (Ed.), HCI Models, Theories, and Frameworks. San Francisco: Morgan
Kaufmann
Questo capitolo fornisce un’analisi dettagliata del concetto di modello mentale
nell’interazione con il computer, descrivendone limiti e potenzialità.
Reason J. (1994). L’errore umano. Il Mulino.
Questo volume e’ la traduzione italiana di uno dei capisaldi della disciplina dei fattori
umani. Il trattato presenta l’errore umano e le sue conseguenze considerando sia episodi
minori (un errore di calcolo nella mente dell’utente) sia episodi catastrofici (l’esplosione di
Chernobil). Il libro permette di capire come e perché capitano gli errori analizzandone i
processi cognitivi sottostanti.
Bibliografia
Adams, A., Sasse, M.A. 1999. Users are not the enemy. Communications of the ACM 42
(12), 40-46.
Berry, E., Kapur, N., Williams, L., Hodges, S., Watson, P., Smyth, G., Srinivasan, J., Smith,
R., Wilson, B. and Wood, K. The use of a wearable camera, SenseCam, as a pictorial
diary to improve autobiographical memory in a patient with limbic encephalitis.
Neuropsychological Rehabilitation 2007, 17 (4/5), 582-68.
Brahnam e De Angeli (2012). Social affordances of Conversational agents. Interacting with
computers, 24(3), 139-153.
Costabile M.F., De Angeli A., Lanzilotti R., Ardito C., Buono P., and Pederson T. (2008).
Explore! Possibilities and challenges of mobile learning. Proceedings of the Conference on
Human Factors in Computing Systems CHI 2008: ACM Press.
De Angeli, A., Coventry, L., Johnson, G., e Renaud, K. (2005). Is a picture really worth a
thousand words? Exploring the feasibility of graphical authentication systems. International
Journal of Human-Computer Studies, 63(1-2), 128-152.
De Angeli, A. e Brahnam, S. (2008). I hate you! Disinhibition with virtual partners.
Interacting with computers, 20(3), 302-310.
Van den Hoven, E. Sas, C. e Whittaker, S. (2012). Introduction to the Special Issue on
Designing for Personal Memories: Past, Present, and Future. Human–Computer
Interaction, 27:1-2, 1-12